Statistica Applicata – Prof. Marozzi Indagini Statistiche Statistica Applicata – Prof. Marozzi Indagine statistica Insieme di operazioni volte a ottenere informazioni (statistiche) su uno o più fenomeni (caratteri) attinenti a una popolazione (insieme di elementi). Macrofasi di una indagine statistica 1. Progettazione Stesura di un documento di progettazione che specifica tutte le azioni che si dovranno effettuare nella rilevazione dei dati, nella loro elaborazione e nella presentazione dei risultati. 2. Realizzazione Si rilevano le informazioni seguendo le specifiche del documento di progettazione. 3. Elaborazione dei dati raccolti 4. Presentazione dei risultati 2 Statistica Applicata – Prof. Marozzi 1. Progettazione dell’indagine statistica 1.1 Astrazione del fenomeno 1.2 Disegno dell’indagine 1.3 Scelta della tecnica di indagine 1.4 Progettazione del questionario 1.5 Valutazione preliminare dei tempi e dei costi 1.6 Predisposizione del sistema di controllo della qualità 1.7 Predisposizione del documento di progettazione 1.8 Verifica della progettazione dell’indagine 2. Realizzazione dell’indagine statistica 2.1 Rilevazione dei dati 2.2 Codifica dei dati 2.3 Registrazione dei dati su supporto informatico 3 Statistica Applicata – Prof. Marozzi 3. Elaborazione dei dati 3.1 Revisione dei dati raccolti 3.2 Elaborazioni statistiche 3.3 Validazione dell’indagine 4. Presentazione e divulgazione dei risultati 4.1 Predisposizione di un rapporto tecnico di ricerca 4.2 Predisposizione di un rapporto divulgativo 4.3 Predisposizione di una nota per la stampa 4.4 Divulgazione in rete con un ipertesto 4.4 Divulgazione in convegni e seminari scientifici 4 Statistica Applicata – Prof. Marozzi 1. Progettazione dell’indagine statistica 1.1 Astrazione del fenomeno 1.2 Disegno dell’indagine 1.3 Scelta della tecnica di indagine 1.4 Progettazione del questionario 1.5 Valutazione preliminare dei tempi e dei costi 1.6 Predisposizione del sistema di controllo della qualità 1.7 Predisposizione del documento di progettazione 1.8 Verifica della progettazione dell’indagine 5 Statistica Applicata – Prof. Marozzi 1.1 Astrazione del fenomeno Individuazione dei principali aspetti del fenomeno oggetto di studio tramite la costruzione di un modello che rappresenti una versione semplificata del fenomeno oggetto di interesse. Il documento di progettazione dovrà specificare: i) la popolazione di riferimento è l’insieme delle unità statistiche a cui faranno riferimento i risultati dell’indagine. Si devono specificare le condizioni di eleggibilità, ovvero le caratteristiche che determinano l’inclusione (o l’esclusione) delle unità statistiche nella popolazione. ii) i caratteri di interesse definendo le variabili da rilevare attraverso una progressiva identificazione degli aspetti salienti del fenomeno oggetto di interesse. 6 Statistica Applicata – Prof. Marozzi iii) le classificazioni delle variabili specificando le modalità con cui si può manifestare ciascuna variabile. La classificazione è particolarmente importante quando si tratta di variabili sconnesse o ordinabili. Per alcune variabili particolarmente complesse da definire (legate ad esempio alla qualità della vita, alle attività economiche, o alle professioni) sono disponibili classificazioni standard (vedi la classificazione delle attività economiche fatta dall’ISTAT/EUROSTAT) riconosciute a livello internazionale. Per agevolare la confrontabilità dei risultati dell’indagine con i risultati di altre indagini è consigliabile far riferimento a classificazioni comunemente utilizzate. 7 Statistica Applicata – Prof. Marozzi 1.2 Disegno dell’indagine Specificazione il tipo di indagine più confacente alla raccolta delle informazioni e alla produzione delle relative statistiche. i) indagini totali Rilevazione di tutte le unità della popolazione oggetto di interesse. Le unità devono essere presenti su una lista aggiornata e quindi rintracciabili. L’esempio più noto è il censimento generale ISTAT sulla popolazione e le abitazioni in Italia che avviene ogni 10 anni. E’ bene effettuare una indagine totale nel caso in cui la popolazione di riferimento sia costituita da poche unità (di norma quindi molto importanti). Si pensi a una indagine sugli ospedali pubblici in Calabria, o anche sulle scuole superiori in Calabria. 8 Statistica Applicata – Prof. Marozzi Da punto di vista puramente teorico con un’indagine totale si riescono a ottenere stime perfette di ciò che interessa. Nella pratica però è facile rendersi conto come ciò sia di fatto impossibile. I problemi sono vari, in particolare quelli dovuti ai costi finanziari e temporali necessari e quelli connessi alla qualità dei dati raccolti (di norma inferiore a quella dei dati raccolti tramite una indagine campionaria). ii) indagini campionarie (o parziali) La loro caratteristica principale è che solo una parte (detta campione) delle unità statistiche della popolazione viene osservata. Conseguentemente, diminuendo l’onere della rilevazione in termini di risorse temporali, umane, finanziarie e di mezzi, è possibile destinare maggiore attenzione alla qualità dei dati raccolti. 9 Statistica Applicata – Prof. Marozzi L’altro lato della medaglia riguarda l’estensione (inferenza) dei risultati ottenuti che sono direttamente riferibili al campione, e “solo” induttivamente (nel caso di campioni probabilistici) riferibili alla popolazione oggetto di interesse. Difficilmente i partiti politici accetterebbero che le elezioni avvengano tramite una indagine campionaria. iii) indagini occasionali indagini il cui scopo è quello di rilevare caratteristiche possedute dalla popolazione in un singolo istante di tempo (esempio: ammontare della popolazione in un dato istante) o riferite a un periodo (esempio: pezzi prodotti da una impresa durante una settimana lavorativa). 10 Statistica Applicata – Prof. Marozzi iv) indagini periodiche (o ripetute o ricorrenti) sono indagini ripetute periodicamente nel tempo (esempi: l’indagine trimestrale ISTAT sulle forse lavoro, lo stesso censimento decennale). v) indagini longitudinali v.i) indagini longitudinali senza rotazione sono indagini che seguono nel tempo una popolazione di partenza al fine di studiare i cambiamenti intervenuti col tempo. Non prevedendo l’ingresso di nuove unità nell’indagine, si mette in evidenza come con l’indagine longitudinale senza rotazione sia possibile produrre statistiche riferite alla sola popolazione di partenza (non è possibile cogliere gli eventuali mutamenti nella struttura della popolazione di riferimento). 11 Statistica Applicata – Prof. Marozzi v.ii) indagini longitudinali con rotazione prevedono periodicamente l’uscita di alcune unità dal campione analizzato e la contestuale entrata di altre unità a sostituirle (rotazione delle unità). In questo modo è possibile catturare i cambiamenti strutturali della popolazione che avvengono nel tempo (si pensi con riferimento agli studenti iscritti all’UNICAL alla sorta di avvicendamento che avviene tutti gli anni tra matricole e laureati). 12 Statistica Applicata – Prof. Marozzi 1.3 Scelta della tecnica di indagine Si tratta di scegliere le modalità di contatto delle unità statistiche e le modalità di rilevazione delle informazioni. La scelta della tecnica di indagine è un aspetto fondamentale della pianificazione e quindi dell’esecuzione dell’indagine essendo strettamente collegata ad esempio alla formazione del personale da utilizzare sul campo, ai costi e ai tempi attesi. i) intervista diretta (o faccia a faccia) L’intervista viene condotta da un rilevatore che legge le domande e le opzioni di risposta nell’esatto ordine e con lo stesso linguaggio adottati nel questionario. Oggigiorno l’intervista diretta avviene tramite l’ausilio di un computer e si parla di indagine CAPI (Computer Assisted Personal Interviewing). 13 Statistica Applicata – Prof. Marozzi Vantaggi principali dell’intervista diretta • Maggiore possibilità di contattare e convincere il rispondente a collaborare. • Agevola molto la identificazione del rispondente. • Maggiore interazione intervistatote-rispondente (possibilità di spiegare il significato delle domande e il modo corretto di rispondere). • Agevola le interviste di lunga durata. • Permette l’impiego di supporti grafici come i cosiddetti “cartellini”. Svantaggi principali dell’intervista diretta • Molto costosa, in particolare se i luoghi da raggiungere sono lontani o l’estensione territoriale della ricerca è ampia. • Richiede tempi molto lunghi. 14 Statistica Applicata – Prof. Marozzi • Richiede una organizzazione capillare sul territorio. • Difficoltà nel controllare l’operato dei rilevatori. • Comporta il rischio di condizionare le risposte. Assume infatti particolare importanza il come l’intervistatore conduce l’intervista. Un buon intervistatore deve porre le domande esattamente come sono formulate sul questionario e nell’ordine stabilito; non deve fornire chiarimenti sul significato delle domande che possano alterarne il significato, non deve cercare di anticipare la risposta o commentarla; non deve dare l’impressione che si tratti di un esame e che esistano risposte giuste o sbagliate. • Eventuale difficoltà nel rintracciare il rispondente. In alcuni casi si può essere costretti a orari non canonici (come la sera tardi o la mattina molto presto). In altri casi, pur trovando la persona, potrebbe essere difficile farsi accogliere in casa (anziani soli). 15 Statistica Applicata – Prof. Marozzi • ii) intervista telefonica L’intervista viene condotta al telefono da un intervistatore che legge le domande e le opzioni di risposta nell’esatto ordine e con lo stesso linguaggio adottati nel questionario. Ormai praticamente tutte le interviste telefoniche avvengono tramite l’ausilio del computer e si parla di indagine CATI (Computer Assisted Telephone Interviewing). Presso il Dipartimento di Sociologia dell’UNICAL si trova uno dei primi laboratori CATI universitari di Italia. 16 Statistica Applicata – Prof. Marozzi Vantaggi principali dell’intervista telefonica • Notevolmente meno costosa dell’intervista faccia a faccia. Il campione può anche essere disperso su un’ampia area territoriale. I costi inferiori consentono di fare più tentativi per rintracciare i rispondenti. Minori costi di addestramento degli intervistatori. • Tempi di raccolta dei dati molto contenuti. Inoltre, se l’intervista è CATI contestualmente alla raccolta dei dati viene eseguito anche il data-entry (immissione dei dati). • Non è necessaria un’organizzazione sul territorio. • Possibilità di controllare facilmente l’operato dei rilevatori. • Agevola il contatto con le persone che non si trovano in casa in orari canonici. 17 Statistica Applicata – Prof. Marozzi • Basso rischio di condizionare le risposte per l’assenza di distorsioni imputabili all’aspetto fisico, alle espressioni del viso e alla gestualità dell’intervistatore. • Maggiore possibilità di fare domande su argomenti delicati. Svantaggi principali dell’intervista telefonica • Impossibilità di raggiungere chi è non è sugli elenchi del telefono. Coloro che non hanno il telefono o sono esclusi dalle liste spesso presentano caratteristiche peculiari. Generalmente, la disponibilità di un telefono nella propria abitazione è ridotta tra le famiglie con scarso reddito e numerose, residenti in zone agricole, con persona di riferimento della famiglia giovane o con bassa istruzione. Da non sottovalutare la diffusione della telefonia mobile. Per cercare di ovviare a problemi di questo tipo si possono utilizzare delle tecniche di generazione casuale dei numeri telefonici. 18 Statistica Applicata – Prof. Marozzi • L’identificazione del rispondente non è certa. • Maggiore difficoltà nello stimolare la collaborazione del rispondente. • Maggiore difficoltà nel fornire delucidazioni sul significato delle domande e sulle modalità corrette di risposta. • E’ molto difficile effettuare interviste lunghe. • Le modalità delle risposte chiuse non devono essere troppe, altrimenti si possono dimenticare. • Lo sviluppo del telemarketing può indurre il convincimento che l’obiettivo dell’intervista sia quello di vendere qualche prodotto o servizio. • Non permette l’impiego di supporti grafici come foto o cartellini. • Non si possono osservare i comportamenti non verbali (atteggiamenti) e quindi rilevare il grado di interesse del rispondente. 19 Statistica Applicata – Prof. Marozzi iii) indagine per posta (o per mezzo assimilabile) Il questionario è spedito per posta (o per email, o fax) e il rispondente lo compila rispondendo alle domande. Il questionario completato viene rispedito indietro oppure riconsegnato a un addetto che lo ritira a domicilio. Vantaggi principali dell’indagine postale • Costi contenuti (non si deve assumere né formare personale per effettuare le interviste). • E’ richiesta un’organizzazione minore. • Il questionario tende a essere lungo perché dovrà contenere le istruzioni sulla compilazione. • Bassi rischi di condizionamento, l’assenza dell’intervistatore elimina possibili distorsioni dovute all’intervistatore 20 Statistica Applicata – Prof. Marozzi (abbigliamento, tono della voce, sesso sono tutti fattori che possono influenzare l’intervistato). • Adatta per porre domande su argomenti delicati (a causa dell’assenza di un intervistatore). • Si dà la possibilità all’intervistato di consultare con calma eventuali documenti (es. scontrini di spesa) prima di rispondere. • Per posta si raggiungono tutti i luoghi sempre allo stesso costo (si raggiungono anche le persone senza telefono e inoltre non si deve pagare il viaggio del rilevatore). 21 Statistica Applicata – Prof. Marozzi Svantaggi principali dell’indagine postale • Tempi lunghi e incerti per la raccolta delle risposte. • Impossibilità di identificare con certezza il rispondente (il questionario potrebbe essere compilato da un'altra persona o l’intervistato potrebbe farsi suggerire le risposte da qualcuno). • Forte autoselezione dei rispondenti (rispondono solo quelli particolarmente motivati a farlo). Il fatto che non tutti rispondano pone il problema di capire chi ha risposto e chi no e quali siano le caratteristiche (differenziali) dei due gruppi. E’ importante distinguere le mancate risposte dagli indirizzi sbagliati (persona irraggiungibile). • Risponde soltanto una ridotta percentuale di persone (di norma intorno al 30%). Per ovviare almeno in parte a questo problema, si possono inviare una o due lettere o fare una o più telefonate di 22 Statistica Applicata – Prof. Marozzi sollecito ribadendo l’importanza e gli obiettivi della ricerca. Contestualmente si può inviare nuovamente il questionario. • Non si possono osservare i comportamenti non verbali (atteggiamenti) e quindi rilevare il grado di interesse del rispondente. • E’ più difficile aiutare i rispondenti nella comprensione delle domande e nella compilazione del questionario (da qui l’importanza della grafica del questionario). • Impossibilità di controllare che la compilazione avvenga nell’ordine prestabilito. • Molte domande possono rimanere prive di risposta. • Non è certa la data di compilazione. 23 Statistica Applicata – Prof. Marozzi (iv) diario E’ un particolare tipo di questionario strutturato appositamente per registrare eventi frequenti e di scarsa importanza quali spese di bassa entità o attività quotidiane. Permettere la registrazione degli eventi nel momento della giornata in cui essi avvengono in modo tale da non dover ricorrere a uno sforzo di memoria, con una conseguente sottonotifica degli eventi. 24 Statistica Applicata – Prof. Marozzi Vantaggi principali del diario • Riduce i problemi di memoria del rispondente. • Si può combinare con altre tecniche di indagine. Svantaggi principali del diario • La sua struttura potrebbe essere complessa. • Disaffezione del rispondente con conseguente sottonotifica degli eventi col passare del tempo. • Può essere necessaria la presenza di un rilevatore per la consegna, il ritiro e il supporto alla compilazione. 25 Statistica Applicata – Prof. Marozzi 1.4 Progettazione del questionario Il questionario è lo strumento di misura designato a raccogliere le informazioni sulle variabili qualitative e quantitative oggetto di indagine. Il questionario è anche uno strumento di comunicazione finalizzato a facilitare l’interazione fra il ricercatore, il rilevatore e il rispondente. 26 Statistica Applicata – Prof. Marozzi 1.5 Valutazione preliminare dei tempi e dei costi Il costo massimo sostenibile e la durata attesa dell’indagine sono dei vincoli a cui la progettazione dell’indagine deve sottostare. Tempi e costi, oltre a influenzarsi reciprocamente, influenzano fortemente la qualità dell’informazione prodotta. Per quanto concerne i tempi di esecuzione dell’indagine si deve tener conto della tempestività richiesta nell’ottenere i risultati. La tempestività può essere indotta sia dall’urgenza dell’informazione, sia dalla rapidità con cui il fenomeno osservato si evolve nel tempo. Questi aspetti riducono l’utilità temporale dell’informazione prodotta. 27 Statistica Applicata – Prof. Marozzi 1.6 Predisposizione del sistema di controllo della qualità Il sistema di controllo della qualità è costituito da un insieme di azioni predisposte nell’indagine e finalizzate al trattamento dell’errore non campionario. (i) Azioni preventive predisposte al fine di rendere meno probabile l’insorgere dell’errore. A esempio l’invio di una lettera di preavviso ai rispondenti o l’istituzione di un numero verde per le richieste di chiarimento sono due azioni il cui scopo è quello di stimolare la partecipazione all’indagine e diminuire quindi le mancate risposte. (ii) Azioni di controllo in corso d’opera predisposte al fine di individuare e correggere gli errori nel momento in cui questi insorgono durante il processo di produzione. 28 Statistica Applicata – Prof. Marozzi L’impiego di tecniche di identificazione automatica degli errori ne è un tipico esempio. Tali tecniche servono a individuare la presenza di incoerenze nei dati (come un professionista con la sola licenza elementare) e a effettuare la conseguente correzione o imputazione del dato a valori accettabili. (iii) Azioni di valutazione predisposte per quantificare il livello di errore non campionario contenuto nei dati. Tali azioni implicano l’elaborazione di dati raccolti durante l’indagine. Il calcolo del tasso di risposta ne è un esempio. 29 Statistica Applicata – Prof. Marozzi 1.7 Predisposizione del documento di progettazione Il documento di progettazione illustra nei dettagli la pianificazione degli aspetti concettuali e operativi dell’indagine da parte del gruppo di progettazione. Il documento di progettazione deve contenere le informazioni relative alle fasi viste in precedenza. In particolare deve contenere: (i) obiettivi: contestualizzazione del fenomeno oggetto di indagine e analisi delle informazioni già disponibili da altre fonti; (ii) definizioni e concetti: descrizione delle definizioni e dei concetti adottati con particolare riferimento agli aspetti riguardanti il passaggio dalle definizioni teoriche all’applicabilità pratica; (iii) analisi dei confronti praticabili (e non) fra i dati che si vogliono raccogliere e quelli già disponibili da altre fonti; 30 Statistica Applicata – Prof. Marozzi (iv) classificazioni: standard adottati e problemi di riconducibilità ad altri standard in termini di possibilità di integrazione fra dati; (v) tempestività (ed eventuale periodicità): valutazione del tempo intercorrente fra il periodo di riferimento dei dati e il momento in cui saranno pubblicati e diffusi i risultati; (vi) liste e archivi: scelta e descrizione delle liste da utilizzare per identificare la popolazione obiettivo; analisi della completezza e della ridondanza delle liste utilizzate; valutazioni concernenti la presenza di errori nelle informazioni disponibili, tali da precludere il contatto delle unità di rilevazione; (vii) campionamento: definizione del disegno di campionamento in relazione alle liste di base disponibili, agli obiettivi e ai costi dell’indagine; analisi dei problemi di applicabilità del disegno; (viii) strumenti di raccolta: descrizione degli strumenti utilizzati per la raccolta delle informazioni presso le unità statistiche (questionari e/o documenti amministrativi). 31 Statistica Applicata – Prof. Marozzi 1.8 Verifica della progettazione dell’indagine Con la verifica delle soluzioni considerate si vuole valutare l’adeguatezza e la comprensibilità dei concetti e delle definizioni adottate nei casi pratici; il questionario di indagine; la migliore fra più possibili soluzioni di specifici problemi; i problemi eventualmente indotti da una operazione sulle successive; l’adeguatezza delle previsioni riguardanti tempi e costi dell’indagine. 32 Statistica Applicata – Prof. Marozzi Le più utilizzate modalità di verifica sono: (i) test di soluzioni alternative Consiste nella suddivisione di un piccolo campione di unità statistiche in tanti sottogruppi quante sono le diverse alternative da valutare. Nota bene: si considera un singolo aspetto da valutare, enucleandolo dal contesto. (ii) indagine pilota Si tratta dell’esecuzione dell’indagine su scala molto ridotta. Lo scopo è quello di valutare se l’insieme delle soluzioni scelte sia adeguato alla prova pratica. 33 Statistica Applicata – Prof. Marozzi 2. Realizzazione dell’indagine statistica 2.1 Rilevazione dei dati 2.2 Codifica dei dati 2.3 Registrazione dei dati su supporto informatico 34 Statistica Applicata – Prof. Marozzi 2.1 Rilevazione dei dati Si tratta di individuare e contattare le unità statistiche selezionate per l’indagine (unità di rilevazione) e quindi di rilevare i dati. Le modalità di contatto e la raccolta dati presso le unità di rilevazione dipendono dalla tecnica di indagine adottata. Indipendentemente dalla tecnica adottata, la rilevazione ha due obiettivi: • individuare e contattare le unità statistiche; • raccogliere i dati in modo neutrale, senza distorsioni che influenzino chi risponde. Aspetti rilevanti per raggiungere questi scopi: • la formazione dei rilevatori nelle indagini dirette o telefoniche; • la predisposizione di strumenti di rilevazioni chiari; • la predisposizione di meccanismi di controllo per correggere eventuali distorsioni. 35 Statistica Applicata – Prof. Marozzi 2.2 Codifica dei dati Si tratta di predisporre i dati raccolti in modo che possano poi essere trasferiti su supporto informatico. Tramite la codifica dei dati, a ogni modalità di risposta viene associato un codice numerico. Di fronte a risposte come “non so”, “non risponde”, “non ricorda” è preferibile usare un codice particolare che valga per tutte le domande (si possono usare cifre come 99 per “non so”, 98 per “non risponde”, 97 per “non ricorda”). Di fronte a domande non applicabili vanno utilizzati codici facilmente distinguibili dagli altri come 777, 888, 999 e simili. L’impiego di questi codici è utile perché gli spazi vuoti possono generare confusione (non si capisce cosa indichino) e possono dare problemi computazionali nelle successive elaborazioni. 36 Statistica Applicata – Prof. Marozzi Nel caso delle domande aperte si opera così • si esaminano le risposte; • si decide come raggruppare le risposte in categorie sostanzialmente omogenee; • si associa un codice a ciascuna delle categorie individuate. 37 Statistica Applicata – Prof. Marozzi 2.3 Registrazione dei dati su supporto informatico Si tratta di trasferire i dati codificati su supporto informatico adatto alle successive analisi statistiche. Lo scopo principale è quello di costruire la cosiddetta matrice dei dati che • contiene tante righe (record) quante sono le unità di analisi (es. le persone intervistate); • contiene tante colonne (campi) quante sono le variabili considerate (sostanzialmente sono le risposte alle domande riportate nel questionario). Si noti che alcune tecniche di indagine prevedono la contemporanea immissione dei dati su supporto informatico (es. CATI o CAPI). 38 Statistica Applicata – Prof. Marozzi 3. Elaborazione dei dati 3.1 Revisione dei dati raccolti 3.2 Elaborazioni statistiche 3.3 Validazione dell’indagine 39 Statistica Applicata – Prof. Marozzi 3.1 Revisione dei dati raccolti Si procede alla correzione automatica o manuale degli errori che causano violazioni delle regole logico-formali di compatibilità, relative ai limiti imposti sul campo di variazione delle singole variabili, alle relazioni intercorrenti fra le variabili e alle relazioni formali stabilite dalle norme di compilazione del questionario. 3.2 Elaborazioni statistiche Tra le varie elaborazioni da fare rivestono particolare importanza le rappresentazioni grafiche e quelle tabellari. 40 Statistica Applicata – Prof. Marozzi 3.3 Validazione dell’indagine Si tratta di valutare se l'informazione può essere considerata consona alle finalità per le quali è stata prodotta. In primo luogo si valuta se la qualità dei dati è sufficiente per diffondere i risultati dell’indagine. In secondo luogo si cerca di identificare le fonti di errore più rilevanti in modo da cercare di evitarle o mitigarle, per quanto possibile, nelle eventuali indagini successive e per fornire un quadro critico dei risultati prodotti nella successiva presentazione. 41 Statistica Applicata – Prof. Marozzi 4. Presentazione e divulgazione dei risultati 4.1 Predisposizione di un rapporto tecnico di ricerca 4.2 Predisposizione di un rapporto divulgativo 4.3 Predisposizione di una nota per la stampa 4.4 Divulgazione in rete con un ipertesto 4.4 Divulgazione in convegni e seminari scientifici 42