Tecniche di Indagine Statistica Parte I Susanna Zaccarin a.a. 2015/16 DEAMS UniTS Bethlehem J. (2009) Applied survey methods. A statistical perspective, Wiley (p. 1) TIS 1 Dati, informazione, conoscenza I dati statistici possono provenire da una rilevazione appositamente eseguita o dall’elaborazione, finalizzata a scopo statistico, di dati raccolti all’interno di procedimenti di tipo amministrativo. I dati possono essere resi disponibili ad altri (e in generale lo sono se vengono prodotti da un soggetto pubblico) o nella forma rilevata (banche dati, on-line) o, più frequentemente, in forma elaborata (indicatori, tabelle, grafici, …). Perché i dati si trasformino in informazione è necessaria una transazione e in particolare occorre che il soggetto al quale sono stati destinati, o che li acquisisca per propria iniziativa, ne colga il significato e, possibilmente, li utilizzi. L’autorevolezza della fonte gioca un ruolo fondamentale. (Le organizzazioni pubbliche di produzione statistica e gli organismi internazionali raccolgono, elaborano e diffondono i dati; concordano e stabiliscono le definizioni, le classificazioni e le metodologie e gli standard generali per favorire la comparabilità fra le statistiche dei vari paesi) In altri termini, si possono produrre dati statistici, ma non si produce informazione statistica se non con l’intento di comunicare significato e suscitare un’interazione con il soggetto ricettore. L’informazione (di qualità) acquista maggiore valore quanto più si diffonde e viene utilizzata. L’informazione, interagendo con quella disponibile da altre fonti e con l’accumulazione precedente delle persone, diviene conoscenza e risulterà idonea ad affrontare problemi ed esplorare campi differenti da quelli per i quali era stata TIS 2 originariamente prodotta. Relativamente ad un fenomeno di interesse: – informazioni già disponibili raccolte a fini specifici – RFL, PISA, Opinioni studenti raccolte per altri fini – Censimenti • Popolazione • Abitazioni • Industria • Agricoltura - Procedure amministrative – informazioni ad hoc da ottenere logica sperimentale logica osservazionale (sul campo) progettazione indagine (scelta disegno) 1. conoscenza quantitativa di ✳ statistica un fenomeno collettivo 2. criteri statistici TIS 3 Indagine statistica - Metodo sistematico per raccogliere informazioni da (un campione di) entità al fine di costruire descrittori quantitativi (statistiche) delle caratteristiche della popolazione (statistica) a cui tali entità appartengono - Tecniche d’indagine (Survey Methods/ology): studio degli aspetti della realizzazione di una indagine collegati ai costi e alla qualità delle statistiche (stime) prodotte (studio/controllo possibili errori) o anche: focus: metodi per ottenere la migliore qualità dei dati, fissati i costi (minori costi, fissato il livello di qualità dei dati) (combina elementi di calcolo delle prob., inferenza statistica, teoria del campionamento, psicologia cognitiva – indagini su individui-) TIS 4 Indagine statistica Esempi di Decisioni: 1. Come identificare e selezionare le potenziali unità campionarie 2. Come contattare le unità selezionate e quanto “insistere” per recuperare quelle difficili da raggiungere (hard to reach population) o non rispondono 3. Quanto “tempo” (attenzione) dedicare alla valutazione e test dei quesiti d’indagine 4. Che modalità usare per raccogliere le informazioni 5. Se sono coinvolti intervistatori, quanto investire nella loro formazione 6. Quanto investire nei controlli di coerenza dei dati 7. Come ”aggiustare” (correggere) le stime finale rispetto a possibili errori 5 Indagine statistica: caratteristiche di base ✴ scopi ✴ contenuti descrizione spiegazione – caratteristiche descrittive – condizioni socio - economiche – attività – opinioni e atteggiamenti ✴ copertura – popolazione statistica ✴ cadenza temporale – dell’indagine – una tantum”: una volta e basta – correnti: svolte a intervalli regolari – delle informazioni raccolte con l’indagine trasversali/cross-section longitudinale/panel (retrospettive) – dell’indagine/informazioni TIS 6 Qualità dei dati Qualità di beni e servizi (ISO 8402-1986): Possesso della totalità delle caratteristiche che portano al soddisfacimento delle esigenze, esplicite ed implicite, dell’utente • utente dell’informazione statistica • “caratteristiche” cui deve soddisfare l’informazione statistica (Eurostat, 2002) – qualità del processo di produzione – qualità del prodotto (statistiche) TIS 7 Caratteristiche di qualità dell’informazione statistica (da indagini) 1. Rilevanza (relevance) capacità di soddisfare le esigenze conoscitive degli utenti (obiettivi) 2. Accuratezza (accuracy) corrispondenza tra stima ottenuta e il vero valore 3. Tempestività (timeliness) 4. Comparabilità (comparability) nel tempo e nello spazio 5. Coerenza (coherence) possibilità di combinare in modo complesso informazioni da fonti diverse 6. Accessibilità e chiarezza (accessibility and clarity) (Istat, 2012 da Eurostat, 2002 “Quality_definition.pdf “ESS Handbook for Quality Reports”, Eurostat 2013 & “ESS Standard for Quality Reports”, Eurostat 2009) TIS 8 9 10 TIS 11 In questi anni abbiamo fronteggiato complesse crisi economiche, ambientali e finanziarie che ci hanno fatto capire di essere più vulnerabili di quanto pensavamo. Per affrontare le sfide del futuro servono modelli affidabili su cui fare previsioni e simulare scenari alternativi per passare dall'accettazione supina dell'incertezza alla gestione consapevole del rischio. Ma il "diluvio di dati" cui siamo sottoposti rende difficile distinguere tra notizie false e fenomeni reali, cosicché i cittadini rischiano di prendere decisioni sbagliate o di essere ridotti a spettatori di una politica che persegue obiettivi poco trasparenti. Ricostruire la catena che lega informazione, conoscenza e scelte politiche, così da selezionare in modo più consapevole anche la classe politica, diventa un obiettivo fondamentale della democrazia al tempo dei Big Data. 12 Indagine Statistica: Approcci alla progettazione/realizzazione: 1. Disegno dell’indagine dai concetti astratti alle azioni concrete (operative) 2. Qualità dell’indagine possibili fonti di errore che possono influenzare (distorcere) i risultati TIS 13 Indagine: come avviene la descrizione della “popolazione” di interesse Se non ci sono qs condizioni, le statistiche prodotte dall’indagine sono affette da “errore” (Groves et al., 2004, p.39) 1. risposte (informazioni) fornite sono usate per inferire le caratteristiche d’interesse del rispondente (risposte accurate) 2. statistiche calcolate sui rispondenti sono usate per inferire le caratteristiche di una popolazione più ampia (selezione del campione “accurata”) TIS 14 Indagine: approccio da disegno (da idee astratte ad azioni concrete) (Groves et al., 2004, p.42) TIS 15 (Groves et al., 2004, p.48) TIS 16 Disegno d’indagine come processo (Groves et al., 2004, p.47) TIS 17 1. DEFINIZIONE DEGLI OBIETTIVI FENOMENO DI INTERESSE cosa interessa e cosa non interessa? ci interessa la componente statica o dinamica? interessano dei confronti (lo stesso fenomeno rilevato in momenti diversi o in altre realtà territoriali) ? più gli argomenti trattati sono ampi, maggiore è la complessità statistica e operativa POPOLAZIONE DI RIFERIMENTO condizioni di eleggibilità CARATTERI / VARIABILI STUDIATI Fenomeno di interesse: riferito a chi ? insieme delle unità statistiche alle quali si intende estendere i risultati dell'indagine caratteristiche che determinano inclusione / esclusione delle unità statistiche nella popolazione di riferimento caratteristiche (che permettono di indagare il fenomeno di interesse) rilevate o misurate presso ogni singola unità statistica (nella pop.ne di rif.to) TIS 18 2. DEFINIZIONE DEGLI OBIETTIVI Nella specificazione degli obiettivi è necessario rintracciare tutta la documentazione che si può reperire bibliografia documentazione preliminare valutazione numerica del collettivo e del fenomeno riguarda quante unità ? Gli obiettivi devono essere valutati e verificati in base alle risorse disponibili TIS 19 Esempi di collettivi statistici – unità d'analisi e di rilevazione individui , studenti, famiglie, aziende , regioni L'insieme delle unità statistiche oggetto di attenzione costituisce il collettivo statistico occupati in FVG al 31/12/13 clienti di un'azienda al 31/01/14 immatricolati al corso di laurea in SIAFA al 30/09/14 (36 !) • Esempio 1: Indagine sulla condizione occupazionale dei laureati N.B.: Descrizioni (statistiche) su popolazioni “diverse” ma collegate tra loro possono essere tratte da un’unica indagine • studente • unità di rilevazione unità di analisi Rilevazione delle forze di lavoro individui > 15 anni famiglie unità di analisi unità di rilevazione Esempio 2: Censimento generale della popolazione e delle abitazioni unità di analisi individui famiglie abitazioni unità di rilevazione famiglie convivenze abitazioni non occupate TIS 20 DEFINIZIONE DELL'UNIVERSO E SCELTA DELLA LISTA - universo e popolazione di riferimento (target population) (es. pop.ne in età > = 18 in Italia; studenti iscritti UniTs) - popolazione statistica oggetto di studio (survey population) Pop.ne effettiva che viene indagata, anche in relazione alla disponibilità/caratteristiche dei (sampling) frame usati per identificare gli elementi della target population (es. pop.ne in età > = 18 residente in Italia; studenti iscritti UniTs non Erasmus, attivi – non oltre il 2^ anno FC – con mail UniTs) Se frame (survey population) non perfettamente sovrapposto a target population: 1. Ridefinire la target population 2. Ammettere la possibilità di errori di copertura nelle statistiche che descrivono la pop.ne TIS 21 Target population vs Survey Population (Groves et al., 2004, p.48) TIS 22 Indagine campionaria -Teoria del campionamento definizione della popolazione (universo) popolazione obiettivo (target population) N popolazione d’indagine (survey/study population) insieme delle unità ✳ lista delle unità ✳ disegno di campionamento n insieme delle regole seguite nella formazione del campione probabilistico non probabilistico TIS 23 Teoria del campionamento disegno di campionamento probabilistico non probabilistico casuale – osservazioni più distribuzione 1. ogni elemento della accessibili, “facili” di probabilità popolazione ha una – scelta soggettiva/ su tutti i probabilità nota di essere ragionata possibili estratto – per quote campioni di 2. sono usate tecniche (in modo (combinazione dei due) ampiezza n appropriato) per la selezione Si casuale delle unità TIS 24 Obiettivo teoria del campionamento (probabilistico) individuare schemi (disegni) di campionamento : – economici e facili da eseguire – stimatori non distorti ~ – a minima varianza var θ ( S ) n [ ~ var[θ ( S )] disegni di campionamento che producono stimatori n.d., m.v. ] ⇒ c a un dato costo o per una data ampiezza n [~ ] scegliere n per ottenere un certo valore di var θ ( S ) N.B. proprietà degli ~stimatori definiti in base alla distribuzione campionaria θ ( S ) indotta da π (distribuzione di probabilità dei possibili campioni) TIS 25 TIS 26 (Groves et al., 2004, p.48) Disegno di campionamento insieme delle regole seguite nella formazione del campione ✳ struttura del campione Caratteristiche della lista delle unità che compongono l’universo (sampling frame) ✳ selezione casuale delle unità ✳ probabilità di selezione (inclusione) ✳ numerosità del campione attendibilità delle stime TIS 27 DEFINIZIONE DELL'UNIVERSO E SCELTA DELLA LISTA LISTA – ARCHIVI DI BASE lista, mappe o altre specificazioni che forniscono le informazioni disponibili sulle unità che costituiscono la popolazione oggetto d’indagine – contengono informazioni sufficienti a localizzare le unità (indirizzo, recapito…) – eventualmente altre informazioni (dimensione, descrizione attività, corso di laurea,…) spesso coincidono con ARCHIVI AMMINISTRATIVI raccolti per altri scopi (liste anagrafiche, iscritti università, assistiti ASL – servizi sociali comune) incompleti non accurati PROBLEMI inadeguati obsoleti duplicazione dei dati TIS 28 DEFINIZIONE DELL'UNIVERSO E SCELTA DELLA LISTA un archivio di base è adeguato se: 1) pop. d’interesse è composta da un numero finito di elementi identificabili 2) le unità che compongono l'archivio di base devono essere distinguibili l'una dall'altra così da essere riconosciute al momento del contatto 3) ogni elemento della lista contiene le inf. ausiliarie necessarie alle strategie di campionamento (stratificazione) 4) è chiaro il tipo di legame che collega gli elementi dell'archivio di base e le unità della popolazione: • il campionamento può avvenire su un insieme di unità non necessariamente uguale alla pop. d’indagine (campione a più stadi) n.b.: liste per “individui” e liste per “organizzazioni” (business populations) presentano, in genere, problematiche diverse TIS 29 Struttura del campione SEMPLICE: lista di etichette che corrispondono uno a uno alle unità della popolazione (campione casuale semplice) COMPLESSO: varie liste • distinte per sottopopolazioni (campionamento stratificato) • gerarchiche (campionamento su più stadi) • dinamiche (campionamento ripetuto nel tempo; campionamento ruotato) STRATI 1…..…h…....H + + STADI DINAMICHE 1…..…..t…………..T 1 =N 2 3 N1…..…Nt……….NT TIS 30 Disegno di campionamento In generale, l’errore dovuto al campionamento (sampling error) è funzione di: 1. ciascun elemento della pop.ne ha una probabilità nota di far parte del campione ? 2. il campione è selezionato in modo tale da tener conto dell’eventuale esistenza di sottopopolazioni ? 3. le unità sono selezionate individualmente o in gruppo ? 4. quanto grande è il campione ? TIS 31 Raccolta dei dati: 1. “cattura” metodo: – intervista diretta – intervista postale (rete) – intervista telefonica 2. “data entry” 3. “editing” 4. imputazione (eventuale) TIS 32 Tecnologia usata per la raccolta differenza tra: • P&P-PAI: Paper Aided Interviewing (modalità tradizionale) • CAI: Computer Aided Interviewing CAPI Personal CASI Self CATI Telephone Data entry e editing unificate con metodi CAI TIS 33 Definizione di nuove tecnologie CAI (Computer Assisted Interviewing) CATI (Computer Assisted TELEPHONE Interviewing) ~ 1970 CAPI (Computer Assisted PERSONAL Interviewing) ~ fine 1980 CASI (Computer Assisted SELF Interviewing) ~ 1980 intervistatore puo’ anche essere presente Audio-CASI: il rispondente ascolta le domande privatamente CASQ (Computer Self Administrated Questionnaire) assenza dell’intervistatore; utilizzo di un proprio computer o account DBM (Disk by mail) - software spedito su un supporto IVR (Interactive Voice Response, come ACASI ma con telefono): TDE (Touchtone Data Entry) VRE (Voice Recognition Entry) Altre definizioni: FTF (Face to face interviewing) PAPI (Paper and Pencil interviewing) TEL (Telephone interviewing) TIS 34 Opitical/ Intelligent character Recognition soprattutto indagini su imprese Computerized SelfAdministered Questionnaires CAI Methods Self-Administered Questionnaires 35 (Groves et al., 2004, p.140) Classificazione dei metodi d’indagine TECNOLOGIA MODALITÀ CAI PAPI FTF CAPI orig FTF TEL CATI orig TEL SELF CASI CSAQ TDE VR Mail SAQ SELF meglio di FTF o TEL per domande sensibili Effetto TECNOLOGIA entro la stessa modalità metodo – Quali effetti ha tecnologia sulle risposte? – Quali effetti in generale sulla qualità dell’indagine? TIS 36 Tecnologia CAI Vantaggi ✳ tempi minori costi minori ✳ controlli maggiori e migliori (editing immediato, collegamento con altre informazioni, verifica e imputazione on line) maggiore qualità dei dati ✳ particolarmente adatto per quesiti “delicati” (SELF: CASI, CSAQ…) Svantaggi ✳ copertura ✳ (è necessario disporre dell’attrezzatura) ? TIS 37 Confronto metodi di rilevazione dei dati • • • • Costi Tempi Complessità argomenti trattati Implicazioni su disegno d’indagine: – Copertura – Non risposta (ammontare e informazioni disponibili su NR) – Qualità risposte: • completezza informazioni (items non-response) minore in modalità self, anche se pattern meno chiaro in web-survey (sembra dipendere più da disegno –come vengono sollecitate le risposte) • desiderabilità sociale (maggiore con presenza di intervistatore) • “response effects” (influenzati da metodi di raccolta): – ordine di presentazione quesiti – ordine presentazione risposte – acquiescenza minori in modalità self rispetto a tel, la direzione degli effetti è comunque legata al metodo – “a voce” o “a vista” • utilizzo strumenti visivi – Disegni multimodali (mixed-mode design) TIS 38 Costruzione questionario • obiettivi indagine sono tradotti in variabili che devono essere misurate con l’indagine: – variabili obiettivo/d’interesse (Y) – variabili ausiliarie/supplementari (X) • dai valori osservati (popolazione/campione) di entrambi i tipi di variabili: – calcolo/stima di parametri relativi alla popolazione (media/mediana… di Y, % di casi con una certa caratteristica, misure di associazione, …) • i valori delle variabili (Y, X) sono ottenuti come risposte a quesiti (domande) specifici • insieme di quesiti (più qualcos’altro): questionario 39 Questionario: strumento di misurazione (non perfetto) strumento di comunicazione ✳ fase 1: schema concettuale (“albero delle aree”) ✳ fase 2: formulazione quesiti (redazione) – codici identificativi – quesiti su caratteristiche strutturali – quesiti specifici (scelta della forma) – quesiti per controllo qualità Processo di formazione delle risposte: – comprensione quesito (valutare informazione richiesta) – capacità di rispondere (ricordare/formarsi un’opinione) – motivazione a fornire una risposta corretta ✳ fase 3: verifica pre-test indagine pilota TIS 40 Quesiti fattuali (factual): informazioni su fatti e comportamenti (esiste sempre un valore “vero” che può essere determinato anche senza chiedere al rispondente) salario orario, titolo di godimento dell’ abitazione, disponibilità connessione internet n.b.: è richiesta una precisa definizione del fatto da misurare (es. n.ro di stanze dell’abitazione) Quesiti non fattuali (nonfactual): informazioni su attitudini e opinioni (opinione riflette il parere su un argomento; attitudine: concetto più ampio, in generale su argomento complesso non esiste un valore “vero”: misurazione di uno stato soggettivo del rispondente che esiste solo nella sua mente in un dato momento) Opinione/attitudine: comportamento di voto; ruolo Unione Europea e singoli stati - Online processing model (Lodge, 1995): impressione generale che le persone hanno di idee, eventi,… che vengono aggiornate e fornite spontaneamente se richieste (es. opinioni politiche) - Memory–based model (Zaller, 1992): l’opinione si forma nel momento in cui è richiesta utilizzando ogni tipo di informazione memorizzata, in genere la più recente TIS 41 Testo della domanda /1 (esempi tratti da: Bethlehem, 2009, Applied survey methods, A statistical perspective) Usare termini familiari Precisione nei rif.ti temporali TIS 42 Testo della domanda /2 Evitare domande ambigue Evitare testi lunghi Evitare (se possibile) domande che richiedono il ricordo di eventi passati (più il periodo è lontano nel tempo, maggiore è la possibilità di errore) TIS 43 Testo della domanda /3 Evitare domande che possono influenzare la risposta – leading questions TIS 44 Saris (1997): esperimento su opinioni della pop.ne olandese circa il potere del Parlamento Europeo. Assegnazione casuale dei rispondenti ai due quesiti TIS 45 Testo della domanda /4 Evitare domande a cui il rispondente non è in grado di rispondere Evitare (se possibile) domande su aspetti “delicati” (salute, reddito,…) Opzioni: - “confondere” la domanda delicata insieme ad altre meno delicate - presentare l’argomento come qualcosa di non così inusuale o estremo 46 Testo della domanda /5 Evitare di considerare più aspetti in una unica domanda (double questions/ double-barreled questions) Would you rather not use a nonmedicated shampoo? Evitare formulazioni in negativo e doppia negazione Evitare domande ipotetiche (Bethlehem, 2009, p. 50) TIS 47 Modalità di risposta: domande aperte (a risposta libera) es. “Qual è l’attività principale che lei pratica nel suo tempo libero?” ........................................................... “Qual è l’aspetto che ritiene più importante nel suo lavoro?” ........................................................... “ Quali settimanali ha letto nelle ultime 2 settimane?” ........................................................... Vantaggi: – minimo condizionamento – va bene in fase esplorativa – per argomenti delicati – maggiori errori (sintesi registrazione e codifica) – maggior sforzo per il rispondente (maggiore vaghezza) Svantaggi: – maggior dipendenza dal livello culturale del rispondente TIS 48 Modalità di risposta: domande chiuse (risposta fissa, modalità strutturata) Alternativa fissa predisposta dal ricercatore es. “A quali mezzi lei ricorre per informarsi sugli avvenimenti sportivi?” TV ................................................................... 1 Radio .............................................................. 2 Quotidiani d’informazione generale ................3 Quotidiani sportivi ........................................... 4 Stampa periodica specializzata ...................... 5 Altro mezzo .....................................................6 Nessuno ..........................................................7 – Vantaggi: – – – Svantaggi: – – ✴ modalità: codifica immediata sollecitano la memoria meno sforzi per il rispondente lunghezza lista ordine lista risposta non ragionata “Altro (specificare)” “Non so” TIS 49 Risposta /domande multiresponse più risposte compatibili «Quale genere di periodici legge abitualmente?» 1. Informazione generale 2. Femminili 3. Arte, scienze umane e sociali 4. Scienze esatte ed applicate, Tecnica 5. Fotoromanzi e fumetti per adulti 6. Per bambini e ragazzi 7. Altro genere « Quale genere di periodici legge? » (si possono fornire più risposte) Informazione generale Femminili Arte, scienze umane e sociali Scienze esatte ed applicate, Tecnica Fotoromanzi e fumetti per adulti Per bambini e ragazzi Altro genere 1 2 3 4 6 7 « Quale genere di periodici legge? » Informazione generale Femminili Arte, scienze umane e sociali Scienze esatte ed applicate, Tecnica Fotoromanzi e fumetti per adulti Per bambini e ragazzi Altro genere check-all-that-apply question 5 1 1 1 1 1 1 1 Si No 2 2 2 2 2 2 2 TIS 50 Risposte/ domande gerarchizzate Viene chiesto al rispondente di classificare in ordine di importanza un certo numero di modalità es. “Può indicarmi, in ordine di preferenza, a quali tipi di negozi lei ricorre per fare acquisti di generi alimentari?” Supermercati Negozi al dettaglio Mercati coperti o all’aperto Altro negozio Non so TIS 51 Procedure per facilitare la memoria e ridurre il fenomeno di telescoping ✳ liste: “Quali attività svolge nel tempo libero” “Che cosa legge abitualmente?” Avvertenze: – – – – lista di attività lista di libri, riviste, quotidiani con titoli lista esauriente ed esaustiva ordine seguito lunghezza uso di filtri In generale: domande specifiche es: “Quali bibite consuma che cosa Regola delle 5 abitualmente?” dove chi W: Who What Where When Why tempo di riferimento TIS 52 Procedure per facilitare la memoria EXERCISE Make these three questions more concrete and describe how you improved specificity. 1. How satisfactory was your stay at the hotel? 2. What is the best way to improve health care? 3. Which restaurants do you eat in most frequently? POSSIBLE ANSWERS 1. How satisfactory was room service during your stay at the hotel? The question has been made more specific by focusing on room service. 2. What is the best way to improve the quality of preventive health care? “Improve” has been clarified to concentrate on the quality of preventive care. 3. In the past 3 months, which New York restaurants did you eat in most frequently? A time period and a place have been set: in the past 3 months and TIS 53 New York, respectively. Misure dell’estremità e dell’intensità di un atteggiamento (giudizio) dimensione sottostante (continuum) scala di valutazione (proposta al rispondente) 1) scala verbale: usualmente: unico giudizio e più alternative di risposta (molto, abbastanza, poco, per niente) 2) rappresentazioni grafiche: - 0 + in quanti punti? 3) punteggi numerici: 1-3, 1-5, 1-7, 1-10 TIS 54 Esempio formulazioni alternative (1) • Per rilevare il n.ro di libri posseduti dagli intervistati, in una indagine su larga scala, mediante assegnazione casuale, a metà rispondenti è stata proposta la versione A1 del quesito e alla seconda metà la versione A2: A1 (n.ro libri) <5 5 – 10 10 – 15 15 – 20 20 – 25 > 25 Totale % risposte 5,2 10,5 35,7 14,7 17,7 16,2 100 A2 (n.ro libri) < 25 25 – 30 30 – 40 40 – 50 50 – 70 > 70 % risposte 62,5 23,4 7,8 4,7 1,6 0,0 100 TIS 55 Esempio formulazioni alternative (1) In una indagine rivolta ad un campione di laureati contattati dopo alcuni anni dal conseguimento della laurea, il quesito riportato sotto è stato proposto, mediante assegnazione casuale, a gruppi diversi di intervistati. a) Su una scala da 1 a 10, QUANTO sente essere ADEGUATA la preparazione professionale conseguita all'Università rispetto al tipo di lavoro che svolge? b) Quanto sente essere ADEGUATA la preparazione professionale conseguita all'Università rispetto al tipo di lavoro che svolge: per niente, poco, abbastanza o molto? Su una scala da 1 a 5, quanto sente essere ADEGUATA la preparazione professionale conseguita all'Università rispetto al tipo di lavoro che svolge? c) TIS 56 Questionari e controllo delle qualità ✳ sostituzioni (se il piano di campionamento lo prevede) – – – – errori di lista errori elenchi intervistatore indisponibilità rispondente • motivo sostituzione • caratteristiche unità non intervistata ✳ chi risponde alle domande ✳ intervistatore ✳ andamento situazioni tipiche di intervista (f-t-f) – codici identificativi – caratteristiche strutturali intervista: – data – ora inizio e fine – altre informazioni (se previsto intervistatore) TIS 57 Redazione del questionario (1) – Organizzare complessivamente il questionario in aree omogenee per tematica trattata, raggruppando le domande relative allo stesso tema possibilmente nella stessa area. – Adottare accorgimenti particolari a seconda del tipo di somministrazione scelta. – Saper individuare quanto spazio è opportuno dare all’intervistato nella risposta (domande aperte, strutturate). – Adottare un linguaggio comprensibile a tutti gli intervistati, non ambiguo e preciso e chiedere cose a cui l’intervistato può rispondere. – Essere precisi nel riferimento temporale delle domande e fare particolare attenzione all’uso di quesiti retrospettivi. – Fare un uso oculato delle domande delicate. TIS 58 Redazione del questionario (2) – Collocare le domande in modo che non influenzino le risposte alle successive e controllare la sequenza delle risposte a una stessa domanda. – Saper individuare la lunghezza ottimale del questionario per impegno di tempo, approfondimento di temi, ridondanza di informazioni. – Impostare graficamente il questionario in modo da renderlo una guida efficace per la compilazione e uno strumento adeguato di comunicazione. – Individuare i codici più adatti per ciascuna modalità di risposta ai quesiti del questionario. – Adottare criteri standard per le variabili strutturali. – Prevedere una parte del questionario per i codici identificativi e una per i quesiti sui controlli di qualità. TIS 59 Per capire che una risposta è sbagliata non occorre una intelligenza eccezionale, ma per capire che una domanda è sbagliata ci vuole una mente creativa A. Jay (1968) Macchiavelli e i dirigenti di industria, Milano, p. 95 (riportata in G. Carofiglio (2007), L’arte del dubbio, Sellerio Editore, Palermo) TIS 60 Survey question and their context Survey 1 Lancaster, a community of about 150,000 people, is planning programs to prevent child abuse and family violence. The community intends to conduct a survey in which families are asked to identify their problems and to suggest solutions to them. The results will be used to guide the development of programs to prevent and treat alcohol use, social isolation, and unemployment. These problems and others like them are known to be prevalent in the community. Research has linked them to abuse and violence. Parents with school‑age children in 4 of the city’s 10 school districts will be mailed a survey questionnaire to complete in the privacy of their homes. The survey, which focuses on educational needs, takes 20 minutes to complete and is written in the five languages most commonly spoken in the community. All responses are anonymous. Respondents are given statements and asked to rate on a scale from 1 to 4 whether they strongly agree, agree, disagree, or strongly disagree with each. The questionnaire has been endorsed by prominent members of the community and the city. 61 Survey question and their context Survey 2 The Children’s Clinic is a school‑based clinic in a very low-income area of a large city. The clinic intends to conduct a survey in which families and teachers are asked to identify children’s health problems (including medical and psychosocial issues) that the clinic might address. A sample of parents, teachers, health professionals, and children will be interviewed in person. The interview will take 30 minutes and will be conducted in English and Spanish. About half the questions will use ratings and rankings; the remainder will allow respondents to give answers in their own words. All responses will be confidential. A report of the results will be available in 12 months. The two surveys described are different in several ways. These differences influence the choice, characteristics, and number of questions, as shown in the table. TIS 62 Survey question and their context Purpose Respondents Surveyor Survey 1: A Mailed Questionnaire Concerning Child Abuse Identify needs and solutions to guide program development Survey 2: Interviews About Effect on Questions the Services of a School-Based Clinic Identify needs to Survey 1: Questions are about guide focus of education clinic services Survey 2: Questions are about health Parents of school-age children Parents, teacher, health professionals, and children. Survey 1: Questions posed are for parents only Survey 2: Questions posed are for people of differing roles and ages Selfadministrated mailed questionnaire contains the questions Interviewers ask face-to-face questions Survey 1: Questions must be easily read and understood without outside assistance Survey 2: Questions must be worded so that they can be 63 understood orally Survey question and their context Survey 1: A Mailed Questionnaire Concerning Child Abuse Survey 2: Interviews About the Services of a School-Based Clinic Closed: Ratings Responses are made on a scale from 1 to 4 Some questions use ratings and ranking; the remainder rely on the respondent’s own words Survey 1: Responses can be translated on a scale from 1 to 4 Survey 2: Half the responses will come from ratings and ranking; the remainder will be in participants' own words Survey take 30 minutes Survey 1: Respondents may not return questionnaires, or they many not answer all questions Survey 2: Time must be allocated for reading and interpreting respondents' answers Timing Survey takes 20 minutes Effect on Questions TIS 64 Survey question and their context Survey 1: A Mailed Questionnaire Concerning Child Abuse Survey 2: Interviews About the Services of a School-Based Clinic Need translation Resources into five languages. Survey must be printed and mailed Need translation into English and Spanish Interviewers must be hired and trained Survey 1: Expertise is needed in five languages All responses will All responses will be anonymous be confidential (codes will replace names) Survey 1: "Sensitive" questions (e.g., about drug use and sexual habits) are more likely to be answered Survey 2: Must be a little more “careful” with sensitive questions as respondents can be traced Privacy Effect on Questions Survey 2: Expertise is needed in two languages TIS 65 Obiettivi specifici 1. Identify the most common needs for educational services 2. Determine the extent to which differences exist among the needs of parents of differing ethnicities/races 3. Determine the extent to which differences exist in needs between men and women 4. Identify if parents are willing to participate in job retraining programs 5. Find out if parents are satisfied with their current educational status A specific set of objectives like these suggests a survey that asks questions about the following: QUESITI: • • • • • Educational needs (Objective 1) Ethnicity / race (Objective 2) Gender (Objective 3) Willingness of respondents to participate in job retraining (Objective 4) Satisfaction with current educational status (Objective 5) TIS 66 Obiettivi specifici Altri obiettivi Suppose another surveyor added these objectives: 6. Compare younger and older parents in their needs to learn how to manage a household and care for a child 7. Determine the relationship between parents' education and method of disciplining children for mild, moderate, and severe infractions To collect information for the new objectives, Survey 1 would need to add questions on the following: • • • • • QUESITI: Age of parents How parents manage their household How parents care for their children Level of parents' education Methods for disciplining children for mild, moderate, and severe infractions TIS 67 Sistema di indagini sociali multiscopo – ISTAT dal 1993 TIS 68 Indagine Statistica Multiscopo sulle famiglie Aspetti della vita quotidiana (indagine face-to face) 2 questionari: 1. per intervista (ROSA) 2. autocompliazione (VERDE) ✳ ✳ annuale dal 1993 (dicembre), 1994 (novembre)… , 2012 (gen-febbraio) campione di circa 24.000 “famiglie” per un totale di ~ 54.000 individui, distribuite in circa 850 Comuni italiani di diversa ampiezza demografica. Famiglia Insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o vincoli affetti dimorante nella stessa abitazione famiglia di fatto Il questionario (ROSA) si compone di: – scheda generale – scheda individuale – scheda familiare – controlli (per l’intervistatore) Indagine: compresa nel Programma statistico nazionale (insieme delle rilevazioni statistiche necessarie al Paese) TIS 69 Indagine Statistica Multiscopo sulle famiglie - ISTAT Aspetti della vita quotidiana 2013 6 = servizi sanitari e socio-ass.li; 7 = servizi ospedalieri; 9 = incidenti in ambito domesticoTIS 70 Indagine Statistica Multiscopo sulle famiglie - ISTAT Aspetti della vita quotidiana 2013 TIS 71 Tutela della privacy • La riservatezza dei dati personali in campo statistico era tutelata dal d.lgs n. 322/ 89 che conteneva disposizioni sul segreto d’ufficio (art.8) e sul segreto statistico (art. 9). • La legge 675/1996 disciplina condizioni, modalità e garanzie relativamente a tutti i trattamenti di dati personali, compresi quelli effettuati in ambito statistico. • Con la legge 676/1996 il Parlamento delega il Governo ad emanare decreti legislativi in materia di tutela della riservatezza per i trattamenti di dati personali effettuati per finalità storiche, statistiche e di ricerca scientifica. • In attuazione della delega, il Governo emana il decreto legislativo n. 281/1999, che integra e modifica sia il d.lgs n. 322/89 sia la legge n. 675/1996 • Il 30 giugno 2003 viene emanato il testo unico che rivede e organizza tutte le disposizioni in merito: Codice in materia di protezione dei dati personali che è entrato in vigore il 1.1.2004 TIS 72 Codice in materia di protezione dei dati personali • Art. 1 (Diritto alla protezione dei dati personali) Chiunque ha diritto alla protezione dei dati personali che lo riguardano. • Art. 3 (Principio di necessità nel trattamento dei dati) I sistemi informativi e i programmi informatici sono configurati riducendo al minimo l’utilizzazione di dati personali e di dati identificativi se ne deve escludere il trattamento quando le finalità perseguite possono essere realizzate mediante – dati anonimi – modalità di trattamento che permettano di identificare l’interessato solo in caso di necessità TIS 73 Il Codice: Definizioni “dato personale“ informazione relativa a persona fisica, persona giuridica, ente od associazione, identificati o identificabili, anche indirettamente, mediante riferimento a qualsiasi altra informazione, ivi compreso un numero di identificazione personale “dati identificativi“ i dati personali che permettono l’identificazione diretta dell’interessato “dato anonimo” il dato che in origine, o a seguito di trattamento, non può essere associato ad un interessato identificato o identificabile TIS 74 Il Codice: Definizioni (segue) “dati sensibili” i dati personali idonei a rivelare l'origine razziale ed etnica, le convinzioni religiose, filosofiche o di altro genere, le opinioni politiche, l'adesione a partiti, sindacati, associazioni od organizzazioni a carattere religioso, filosofico, politico o sindacale, nonché i dati personali idonei a rivelare lo stato di salute e la vita sessuale TIS 75 indagine statistica: qualità dell’indagine (tutti gli aspetti che caratterizzano errore/i dell’indagine l’indagine) Qualità = concetto che disegno di campionamento fa riferimento teoria del campionamento a discrepanze misura variabili, questionario, tra fasi/passi tecnologia…. successivi di un’indagine ? profilo globale di errore (error profile): tutte le fonti sono individuate, eventualmente in relazione alle varie scelte effettuate controllate e ne sono valutati gli effetti obiettivo: rendere minimo l’errore totale secondo le risorse disponibili Riferimento a: TIS 76 modello generale per valutare l’impatto delle varie fonti di errore Fonti di errore e (stime) risultati Aumentano incertezza rispetto alla accuratezza delle stime (distribuzione dello stimatore): 1. deviazione sistematica dal vero valore di popolazione (distorsione – bias) 2. aumento della variabilità intorno al vero valore di popolazione TIS 77 OSSERVAZIONE 1) popolazione obiettivo errori di copertura popolazione d’indagine (sottocopertura) 2) piano di campionamento errori campionari (stima e selezione=prob. effettive ≠ da teoriche) 3) “indagine sul campo” – contatto – partecipazione non risposte – totali – parziali 4) raccolta dei dati – strumento di rilevazione – modalità di rilevazione – editing errori di misura – rispondente – intervistatore – strumento/modalità sovracopertura TIS 78 ERRORI NON CAMPIONARI NON OSSERVAZIONE Principali fasi dell’indagine campionaria e errori Errori di copertura (lista) incapacità di rappresentare la popolazione oggetto d’indagine ✳ non copertura: effetto ✳ sovracopertura: lista “non completa” distorsione – duplicazioni (problematici in fase di – elementi estranei (inelegibili) osservazione) – raggruppamenti di unità elementari effetto alterazione delle probabilità di selezione TIS 79 Non risposta ✳ totale mancanza di informazione su un rispondente – rifiuto – assenza – impossibilità a rispondere – perdita questionario ✳ parziale mancanza di informazione su uno o più quesiti – rifiuto – incapacità o non volontà a rispondere – inconsistenze – errata registrazione effetto variabilità (# campione più piccola) e distorsione (non risposta selettiva) TIS 80 Successione eventi a seguito del contatto (Bethlehem, 2009) TIS 81 Tasso di risposta /1 Composizione campione Con ipotesi su eligibilità non contatti (Bethlehem, 2009) 82 Tasso di risposta /2 Famiglie e individui Indagini self (web) 83 Modello per la non risposta (fixed response model) Nr Wr = rispondenti Yr N popolazione Nr non rispondenti Ym Wm = 1 − N (anche con rilevazione completa) Y = WrYr + WmYm si conosce solo questa Wr + Wm = 1 Yr − Y = Yr − (WrYr + WmYm ) = Yr (1 − Wr ) − WmYm Yr − Y = Wm (Yr − Ym ) proporzione missing differenza tra le medie 84 Non risposta (fixed response model) Yr − Y = Wm (Yr − Ym ) proporzione missing differenza tra le medie non può essere ignorata in generale, più frequente in gruppi particolari random response model: per ogni elemento i nella popolazione è definita una probabilità (ignota) di risposta pi • non risposta – rifiuti aggiustamenti con pesi che assegnano – non trovati peso maggiore a categorie (uso var. totale: – altro ausiliarie) sotto rappresentate • item non informazioni mancanti su alcune metodi di response variabili per vari motivi (collegata imputazione: valori al tipo di variabile) mancanti replicati da valori “di sintesi” TIS 85 € € Non risposta: modello generale per imputazione singola p Yˆi = b0 + ∑ b j X ij + ei j =1 Yˆi = valore imputato per l’unità i (il cui valore è mancante) X j = variabile ausiliaria relativa all’unità i b j = coefficienti di regressione (j = 0, …, p) (stimati sui dati dei € rispondenti) € ei = termine di errore (determinato dalla specifica tecnica di imputazione) con b0 = M (Y ) b j = 0 ei = 0 imputazione media dei rispondenti Se X j dummy per appartenenza al gruppo (Xij = 1 se i è nel € gruppo j) imputazione € medie di gruppo TIS 86 Errori di misura / di risposta il valore osservato è diverso da quello che si intendeva misurare yit = µi + eit ✳ rispondente – memoria – interpretazione – inaccuratezza – “proxy” interazioni ✳ rilevatore – istruzione sul questionario / indagine – errori di trascrizione TIS 87 Errori di misura / di risposta il valore osservato è diverso da quello che si intendeva misurare yit = µi + eit ✳ questionario – formulazione – sequenza – codifica ✳ modalità di raccolta – autocompilazione – intervista diretta – telefonica effetto tecnologia distorsione e variabilità TIS 88 Errore totale e risorse disponibili modello statistico per valutare l’impatto delle varie fonti di errore (Kish, 1965) (approccio da disegno) ERRORE TOTALE = ERR. VARIABILI + DISTORSIONI FISSE Sr 2 MSE ( y ) = ∑ + (∑ Br ) 2 r nr estensioni: correlazioni tra i vari tipi di errore [ 2 ] MSE(y ) = Ε(y − Y ) = ∑ Ε r [ y − Ε(y )] +∑ (Ε r (y ) − Y ) 2 r € Sr 2 2 r Br TIS 89