TIS_Parte I_A File

annuncio pubblicitario
Tecniche di Indagine Statistica
Parte I
Susanna Zaccarin
a.a. 2015/16
DEAMS
UniTS
Bethlehem J. (2009)
Applied survey methods. A statistical perspective, Wiley (p. 1)
TIS 1
Dati, informazione, conoscenza
I dati statistici possono provenire da una rilevazione appositamente eseguita o
dall’elaborazione, finalizzata a scopo statistico, di dati raccolti all’interno di
procedimenti di tipo amministrativo.
I dati possono essere resi disponibili ad altri (e in generale lo sono se vengono
prodotti da un soggetto pubblico) o nella forma rilevata (banche dati, on-line) o, più
frequentemente, in forma elaborata (indicatori, tabelle, grafici, …).
Perché i dati si trasformino in informazione è necessaria una transazione e in
particolare occorre che il soggetto al quale sono stati destinati, o che li acquisisca
per propria iniziativa, ne colga il significato e, possibilmente, li utilizzi.
L’autorevolezza della fonte gioca un ruolo fondamentale.
(Le organizzazioni pubbliche di produzione statistica e gli organismi internazionali raccolgono, elaborano e diffondono i dati;
concordano e stabiliscono le definizioni, le classificazioni e le metodologie e gli standard generali per favorire la comparabilità
fra le statistiche dei vari paesi)
In altri termini, si possono produrre dati statistici, ma non si produce informazione statistica se
non con l’intento di comunicare significato e suscitare un’interazione con il soggetto ricettore.
L’informazione (di qualità) acquista maggiore valore quanto più si diffonde e viene utilizzata.
L’informazione, interagendo con quella disponibile da altre fonti e con
l’accumulazione precedente delle persone, diviene conoscenza e risulterà idonea ad
affrontare problemi ed esplorare campi differenti da quelli per i quali era stata
TIS 2
originariamente prodotta.
Relativamente ad un fenomeno di interesse:
–  informazioni già disponibili
raccolte a fini specifici –  RFL, PISA, Opinioni studenti
raccolte per altri fini
–  Censimenti
•  Popolazione
•  Abitazioni
•  Industria
•  Agricoltura
- Procedure amministrative
–  informazioni ad hoc da ottenere
logica sperimentale
logica osservazionale (sul campo)
progettazione indagine (scelta disegno)
1. conoscenza quantitativa di
✳ statistica
un fenomeno collettivo
2. criteri statistici
TIS
3
Indagine statistica
- Metodo sistematico per raccogliere informazioni da (un campione di)
entità al fine di costruire descrittori quantitativi (statistiche) delle
caratteristiche della popolazione (statistica) a cui tali entità
appartengono
- Tecniche d’indagine (Survey Methods/ology): studio degli aspetti
della realizzazione di una indagine collegati ai costi e alla qualità delle
statistiche (stime) prodotte (studio/controllo possibili errori)
o anche:
focus: metodi per ottenere la migliore qualità dei dati, fissati i costi
(minori costi, fissato il livello di qualità dei dati)
(combina elementi di calcolo delle prob., inferenza statistica, teoria del
campionamento, psicologia cognitiva – indagini su individui-)
TIS
4
Indagine statistica
Esempi di Decisioni:
1. Come identificare e selezionare le potenziali unità campionarie
2. Come contattare le unità selezionate e quanto “insistere” per
recuperare quelle difficili da raggiungere (hard to reach population)
o non rispondono
3. Quanto “tempo” (attenzione) dedicare alla valutazione e test dei
quesiti d’indagine
4. Che modalità usare per raccogliere le informazioni
5. Se sono coinvolti intervistatori, quanto investire nella loro
formazione
6. Quanto investire nei controlli di coerenza dei dati
7. Come ”aggiustare” (correggere) le stime finale rispetto a possibili
errori
5
Indagine statistica: caratteristiche di base
✴  scopi
✴  contenuti
descrizione
spiegazione
–  caratteristiche descrittive
–  condizioni socio - economiche
–  attività
–  opinioni
e atteggiamenti
✴  copertura –  popolazione statistica
✴  cadenza
temporale
–  dell’indagine
–  una
tantum”: una volta e basta
–  correnti: svolte a intervalli regolari
–  delle
informazioni raccolte con
l’indagine
trasversali/cross-section
longitudinale/panel
(retrospettive)
–  dell’indagine/informazioni
TIS
6
Qualità dei dati
Qualità di beni e servizi (ISO 8402-1986):
Possesso della totalità delle caratteristiche che
portano al soddisfacimento delle esigenze, esplicite ed
implicite, dell’utente
•  utente dell’informazione statistica
•  “caratteristiche” cui deve soddisfare l’informazione
statistica (Eurostat, 2002)
–  qualità del processo di produzione
–  qualità del prodotto (statistiche)
TIS
7
Caratteristiche di qualità dell’informazione statistica
(da indagini)
1.  Rilevanza (relevance) capacità di soddisfare le esigenze
conoscitive degli utenti (obiettivi)
2.  Accuratezza (accuracy) corrispondenza tra stima
ottenuta e il vero valore
3.  Tempestività (timeliness)
4.  Comparabilità (comparability) nel tempo e nello spazio
5.  Coerenza (coherence) possibilità di combinare in modo
complesso informazioni da fonti diverse
6.  Accessibilità e chiarezza (accessibility and clarity)
(Istat, 2012 da Eurostat, 2002 “Quality_definition.pdf
“ESS Handbook for Quality Reports”, Eurostat 2013 & “ESS
Standard for Quality Reports”, Eurostat 2009)
TIS
8
9
10
TIS 11
In questi anni abbiamo fronteggiato complesse
crisi economiche, ambientali e finanziarie che ci
hanno fatto capire di essere più vulnerabili di
quanto pensavamo. Per affrontare le sfide del
futuro servono modelli affidabili su cui fare
previsioni e simulare scenari alternativi per
passare dall'accettazione supina
dell'incertezza alla gestione consapevole del
rischio. Ma il "diluvio di dati" cui siamo
sottoposti rende difficile distinguere tra notizie
false e fenomeni reali, cosicché i cittadini
rischiano di prendere decisioni sbagliate o di
essere ridotti a spettatori di una politica che
persegue obiettivi poco trasparenti. Ricostruire
la catena che lega informazione,
conoscenza e scelte politiche, così da
selezionare in modo più consapevole anche
la classe politica, diventa un obiettivo
fondamentale della democrazia al tempo dei
Big Data.
12
Indagine Statistica:
Approcci alla progettazione/realizzazione:
1.  Disegno dell’indagine
dai concetti astratti alle azioni concrete
(operative)
2.  Qualità dell’indagine
possibili fonti di errore che possono influenzare
(distorcere) i risultati
TIS 13
Indagine: come avviene la descrizione
della “popolazione” di interesse
Se non ci sono qs
condizioni, le
statistiche prodotte
dall’indagine sono
affette da “errore”
(Groves et al., 2004, p.39)
1. risposte (informazioni) fornite sono usate per inferire le caratteristiche d’interesse del
rispondente (risposte accurate)
2. statistiche calcolate sui rispondenti sono usate per inferire le caratteristiche di una
popolazione più ampia (selezione del campione “accurata”)
TIS 14
Indagine: approccio da disegno (da idee astratte ad azioni concrete)
(Groves et al., 2004, p.42)
TIS 15
(Groves et al., 2004, p.48)
TIS 16
Disegno d’indagine come processo
(Groves et al., 2004, p.47)
TIS 17
1.
DEFINIZIONE DEGLI OBIETTIVI
FENOMENO DI
INTERESSE
cosa interessa e cosa non interessa?
ci interessa la componente statica o dinamica?
interessano dei confronti (lo stesso fenomeno
rilevato in momenti diversi o in altre realtà
territoriali) ?
più gli argomenti trattati sono ampi, maggiore è la
complessità statistica e operativa
POPOLAZIONE DI
RIFERIMENTO
condizioni di eleggibilità
CARATTERI /
VARIABILI STUDIATI
Fenomeno di interesse: riferito a chi ?
insieme delle unità statistiche alle quali si intende
estendere i risultati dell'indagine
caratteristiche che determinano inclusione /
esclusione delle unità statistiche nella
popolazione di riferimento
caratteristiche (che permettono di indagare il
fenomeno di interesse) rilevate o misurate presso
ogni singola unità statistica (nella pop.ne di rif.to)
TIS 18
2.
DEFINIZIONE DEGLI OBIETTIVI
Nella specificazione degli obiettivi è necessario rintracciare tutta la
documentazione che si può reperire
bibliografia
documentazione preliminare
valutazione numerica del collettivo e del
fenomeno
riguarda quante unità ?
Gli obiettivi devono essere valutati e verificati in base alle risorse disponibili
TIS 19
Esempi di collettivi statistici – unità d'analisi e di rilevazione
individui , studenti, famiglie, aziende , regioni
L'insieme delle unità statistiche oggetto di attenzione costituisce il collettivo
statistico
occupati in FVG al 31/12/13
clienti di un'azienda al 31/01/14
immatricolati al corso di laurea in SIAFA al 30/09/14 (36 !)
• 
Esempio 1: Indagine sulla condizione occupazionale dei laureati
N.B.: Descrizioni
(statistiche) su
popolazioni
“diverse” ma
collegate tra loro
possono essere
tratte da un’unica
indagine
• 
studente
• 
unità di rilevazione
unità di analisi
Rilevazione delle forze di lavoro
individui > 15 anni
famiglie
unità di analisi
unità di rilevazione
Esempio 2: Censimento generale della popolazione e delle abitazioni
unità di analisi
individui
famiglie
abitazioni
unità di rilevazione
famiglie
convivenze
abitazioni non occupate
TIS 20
DEFINIZIONE DELL'UNIVERSO
E SCELTA DELLA LISTA
-  universo e popolazione di riferimento (target population)
(es. pop.ne in età > = 18 in Italia; studenti iscritti UniTs)
- popolazione
statistica oggetto di studio (survey population)
Pop.ne effettiva che viene indagata, anche in relazione alla
disponibilità/caratteristiche dei (sampling) frame usati per identificare gli
elementi della target population
(es. pop.ne in età > = 18 residente in Italia; studenti iscritti UniTs non Erasmus, attivi –
non oltre il 2^ anno FC – con mail UniTs)
Se frame (survey population) non perfettamente sovrapposto a target population:
1. Ridefinire la target population
2. Ammettere la possibilità di errori di copertura nelle statistiche che descrivono la
pop.ne
TIS 21
Target population vs Survey Population
(Groves et al., 2004, p.48)
TIS 22
Indagine campionaria -Teoria del campionamento
definizione della popolazione (universo)
popolazione obiettivo (target population)
N
popolazione d’indagine (survey/study population)
insieme delle unità
✳  lista delle unità
✳ 
disegno di campionamento
n
insieme delle regole seguite
nella formazione del campione
probabilistico
non probabilistico
TIS 23
Teoria del campionamento
disegno di campionamento
probabilistico
non probabilistico
casuale
–  osservazioni più
distribuzione 1. ogni elemento della
accessibili, “facili”
di probabilità
popolazione ha una
–  scelta soggettiva/
su tutti i
probabilità nota di essere
ragionata
possibili
estratto
–  per quote
campioni di
2. sono usate tecniche (in modo
(combinazione dei due)
ampiezza n
appropriato) per la selezione
Si
casuale delle unità
TIS 24
Obiettivo teoria del campionamento (probabilistico)
individuare schemi (disegni) di campionamento :
–  economici e facili da eseguire
–  stimatori non distorti
~
–  a minima varianza
var θ ( S )
n
[
~
var[θ ( S )]
disegni di campionamento che
producono stimatori n.d., m.v.
]
⇒
c
a un dato costo o per una
data ampiezza n
[~ ]
scegliere n per ottenere un certo valore di var θ ( S )
N.B.
proprietà degli ~stimatori definiti in base alla distribuzione
campionaria θ ( S )
indotta da π (distribuzione
di probabilità dei
possibili campioni) TIS
25
TIS 26
(Groves et al., 2004, p.48)
Disegno di campionamento
insieme delle regole seguite
nella formazione del campione
✳ 
struttura del campione
Caratteristiche della lista delle unità che compongono
l’universo (sampling frame)
✳ 
selezione casuale delle unità
✳ 
probabilità di selezione (inclusione)
✳ 
numerosità del campione
attendibilità delle stime
TIS 27
DEFINIZIONE DELL'UNIVERSO E SCELTA DELLA LISTA
LISTA – ARCHIVI DI BASE
lista, mappe o altre specificazioni che forniscono le informazioni disponibili
sulle unità che costituiscono la popolazione oggetto d’indagine
–  contengono informazioni sufficienti a localizzare le unità (indirizzo, recapito…)
–  eventualmente altre informazioni (dimensione, descrizione attività, corso di laurea,…)
spesso coincidono con ARCHIVI AMMINISTRATIVI raccolti per altri scopi
(liste anagrafiche, iscritti università, assistiti ASL – servizi sociali comune)
incompleti
non accurati
PROBLEMI
inadeguati
obsoleti
duplicazione dei dati
TIS 28
DEFINIZIONE DELL'UNIVERSO E SCELTA DELLA LISTA
un archivio di base è adeguato se:
1)  pop. d’interesse è composta da un numero finito di elementi identificabili
2)  le unità che compongono l'archivio di base devono essere distinguibili l'una
dall'altra così da essere riconosciute al momento del contatto
3)  ogni elemento della lista contiene le inf. ausiliarie necessarie alle strategie di
campionamento (stratificazione)
4)  è chiaro il tipo di legame che collega gli elementi dell'archivio di base e le unità
della popolazione:
•  il campionamento può avvenire su un insieme di unità non
necessariamente uguale alla pop. d’indagine (campione a più stadi)
n.b.: liste per “individui” e liste per “organizzazioni” (business populations)
presentano, in genere, problematiche diverse
TIS 29
Struttura del campione
SEMPLICE:
lista di etichette che corrispondono uno a uno alle
unità della popolazione (campione casuale semplice)
COMPLESSO: varie liste
•  distinte per sottopopolazioni (campionamento
stratificato)
•  gerarchiche (campionamento su più stadi)
•  dinamiche (campionamento ripetuto nel
tempo; campionamento ruotato)
STRATI
1…..…h…....H
+
+
STADI
DINAMICHE
1…..…..t…………..T
1
=N 2
3
N1…..…Nt……….NT
TIS 30
Disegno di campionamento
In generale, l’errore dovuto al campionamento (sampling
error) è funzione di:
1. ciascun elemento della pop.ne ha una probabilità nota di far
parte del campione ?
2. il campione è selezionato in modo tale da tener conto
dell’eventuale esistenza di sottopopolazioni ?
3. le unità sono selezionate individualmente o in gruppo ?
4. quanto grande è il campione ?
TIS 31
Raccolta dei dati:
1. “cattura”
metodo:
–  intervista diretta
–  intervista postale (rete)
–  intervista telefonica
2. “data entry”
3. “editing”
4. imputazione (eventuale)
TIS 32
Tecnologia usata per la raccolta
differenza tra:
•  P&P-PAI: Paper Aided Interviewing (modalità tradizionale)
• 
CAI: Computer Aided Interviewing
CAPI Personal
CASI Self
CATI Telephone
Data entry e
editing unificate
con metodi CAI
TIS 33
Definizione di nuove tecnologie
CAI (Computer Assisted Interviewing)
CATI (Computer Assisted TELEPHONE Interviewing) ~ 1970
CAPI (Computer Assisted PERSONAL Interviewing) ~ fine 1980
CASI (Computer Assisted SELF Interviewing)
~ 1980
intervistatore puo’ anche essere presente
Audio-CASI: il rispondente ascolta le domande privatamente
CASQ (Computer Self Administrated Questionnaire)
assenza dell’intervistatore; utilizzo di un proprio computer o account
DBM (Disk by mail) - software spedito su un supporto
IVR (Interactive Voice Response, come ACASI ma con telefono):
TDE
(Touchtone Data Entry)
VRE
(Voice Recognition Entry)
Altre definizioni:
FTF
(Face to face interviewing)
PAPI (Paper and Pencil interviewing)
TEL
(Telephone interviewing)
TIS 34
Opitical/ Intelligent
character Recognition
soprattutto indagini
su imprese
Computerized SelfAdministered Questionnaires
CAI
Methods
Self-Administered
Questionnaires
35
(Groves et al., 2004, p.140)
Classificazione dei metodi d’indagine
TECNOLOGIA
MODALITÀ
CAI
PAPI
FTF
CAPI
orig FTF
TEL
CATI
orig TEL
SELF
CASI
CSAQ
TDE
VR
Mail SAQ
SELF meglio di FTF o TEL per domande sensibili
Effetto TECNOLOGIA entro la stessa modalità
metodo
–  Quali effetti ha tecnologia sulle risposte?
–  Quali effetti in generale sulla qualità dell’indagine?
TIS 36
Tecnologia CAI
Vantaggi
✳  tempi
minori
costi minori
✳  controlli
maggiori e migliori
(editing immediato, collegamento con altre
informazioni, verifica e imputazione on line)
maggiore qualità dei dati
✳  particolarmente
adatto per quesiti
“delicati” (SELF: CASI, CSAQ…)
Svantaggi
✳  copertura
✳ 
(è necessario disporre dell’attrezzatura)
?
TIS 37
Confronto metodi di rilevazione dei dati
• 
• 
• 
• 
Costi
Tempi
Complessità argomenti trattati
Implicazioni su disegno d’indagine:
–  Copertura
–  Non risposta (ammontare e informazioni disponibili su NR)
–  Qualità risposte:
•  completezza informazioni (items non-response) minore in modalità
self, anche se pattern meno chiaro in web-survey (sembra dipendere
più da disegno –come vengono sollecitate le risposte)
•  desiderabilità sociale (maggiore con presenza di intervistatore)
•  “response effects” (influenzati da metodi di raccolta):
–  ordine di presentazione quesiti
–  ordine presentazione risposte
–  acquiescenza
minori in modalità self rispetto a tel, la direzione degli effetti è comunque
legata al metodo – “a voce” o “a vista”
•  utilizzo strumenti visivi
–  Disegni multimodali (mixed-mode design)
TIS 38
Costruzione questionario
•  obiettivi indagine sono tradotti in variabili che devono essere
misurate con l’indagine:
–  variabili obiettivo/d’interesse (Y)
–  variabili ausiliarie/supplementari (X)
•  dai valori osservati (popolazione/campione) di entrambi i tipi di
variabili:
–  calcolo/stima di parametri relativi alla popolazione (media/mediana… di Y, % di
casi con una certa caratteristica, misure di associazione, …)
•  i valori delle variabili (Y, X) sono ottenuti come risposte a quesiti
(domande) specifici
•  insieme di quesiti (più qualcos’altro): questionario
39
Questionario:
strumento di misurazione (non perfetto)
strumento di comunicazione
✳  fase
1:
schema concettuale (“albero delle aree”)
✳  fase
2:
formulazione
quesiti
(redazione)
– codici identificativi
– quesiti su caratteristiche strutturali
– quesiti specifici (scelta della forma)
– quesiti per controllo qualità
Processo di formazione delle risposte:
–  comprensione quesito (valutare informazione richiesta)
–  capacità di rispondere (ricordare/formarsi un’opinione)
–  motivazione a fornire una risposta corretta
✳  fase
3:
verifica
pre-test
indagine pilota
TIS 40
Quesiti fattuali (factual): informazioni su fatti e comportamenti
(esiste sempre un valore “vero” che può essere determinato anche
senza chiedere al rispondente)
salario orario, titolo di godimento dell’ abitazione, disponibilità
connessione internet
n.b.: è richiesta una precisa definizione del fatto da misurare (es. n.ro di stanze
dell’abitazione)
Quesiti non fattuali (nonfactual): informazioni su attitudini e opinioni
(opinione riflette il parere su un argomento; attitudine: concetto più ampio, in
generale su argomento complesso
non esiste un valore “vero”: misurazione di uno stato soggettivo del
rispondente che esiste solo nella sua mente in un dato momento)
Opinione/attitudine: comportamento di voto; ruolo Unione Europea e
singoli stati
-  Online processing model (Lodge, 1995): impressione generale che le
persone hanno di idee, eventi,… che vengono aggiornate e fornite spontaneamente
se richieste (es. opinioni politiche)
-  Memory–based model (Zaller, 1992): l’opinione si forma nel momento in cui è
richiesta utilizzando ogni tipo di informazione memorizzata, in genere la più recente
TIS 41
Testo della domanda /1 (esempi tratti da: Bethlehem, 2009,
Applied survey methods, A statistical perspective)
Usare termini familiari
Precisione nei rif.ti temporali
TIS 42
Testo della domanda /2
Evitare domande ambigue
Evitare testi lunghi
Evitare (se possibile) domande che richiedono il ricordo di eventi
passati (più il periodo è lontano nel tempo, maggiore è la possibilità
di errore)
TIS 43
Testo della domanda /3
Evitare domande che possono influenzare la risposta – leading
questions
TIS 44
Saris (1997): esperimento su opinioni della pop.ne olandese circa il potere del
Parlamento Europeo. Assegnazione casuale dei rispondenti ai due quesiti
TIS 45
Testo della domanda /4
Evitare domande a cui il rispondente non è in grado di rispondere
Evitare (se possibile) domande su aspetti “delicati” (salute, reddito,…)
Opzioni:
-  “confondere” la domanda delicata insieme ad altre meno delicate
-  presentare l’argomento come qualcosa di non così inusuale o estremo
46
Testo della domanda /5
Evitare di considerare più aspetti in una unica domanda (double questions/
double-barreled questions)
Would you rather not use a nonmedicated shampoo?
Evitare formulazioni in negativo e doppia negazione
Evitare domande ipotetiche
(Bethlehem, 2009, p. 50)
TIS 47
Modalità di risposta: domande aperte (a risposta libera)
es. “Qual è l’attività principale che lei pratica nel suo tempo libero?”
...........................................................
“Qual è l’aspetto che ritiene più importante nel suo lavoro?”
...........................................................
“ Quali settimanali ha letto nelle ultime 2 settimane?”
...........................................................
Vantaggi:
–  minimo condizionamento
–  va bene in fase esplorativa
–  per argomenti delicati
–  maggiori errori (sintesi registrazione e codifica)
–  maggior sforzo per il rispondente (maggiore vaghezza)
Svantaggi:
–  maggior dipendenza dal livello culturale del
rispondente
TIS 48
Modalità di risposta: domande chiuse (risposta fissa, modalità strutturata)
Alternativa fissa predisposta dal ricercatore
es. “A quali mezzi lei ricorre per informarsi sugli avvenimenti sportivi?”
TV ................................................................... 1
Radio .............................................................. 2
Quotidiani d’informazione generale ................3
Quotidiani sportivi ........................................... 4
Stampa periodica specializzata ...................... 5
Altro mezzo .....................................................6
Nessuno ..........................................................7
– 
Vantaggi: – 
– 
– 
Svantaggi: – 
– 
✴ 
modalità:
codifica immediata
sollecitano la memoria
meno sforzi per il rispondente
lunghezza lista
ordine lista
risposta non ragionata
“Altro (specificare)”
“Non so”
TIS 49
Risposta /domande multiresponse
più risposte compatibili
«Quale genere di periodici legge abitualmente?»
1. Informazione generale
2. Femminili
3. Arte, scienze umane e sociali
4. Scienze esatte ed applicate, Tecnica
5. Fotoromanzi e fumetti per adulti
6. Per bambini e ragazzi
7. Altro genere
« Quale genere di periodici legge? »
(si possono fornire più risposte)
Informazione generale
Femminili
Arte, scienze umane e sociali
Scienze esatte ed applicate, Tecnica
Fotoromanzi e fumetti per adulti
Per bambini e ragazzi
Altro genere
1
2
3
4
6
7
« Quale genere di periodici legge? »
Informazione generale
Femminili
Arte, scienze umane e sociali
Scienze esatte ed applicate, Tecnica
Fotoromanzi e fumetti per adulti
Per bambini e ragazzi
Altro genere
check-all-that-apply
question
5
1
1
1
1
1
1
1
Si
No
2
2
2
2
2
2
2
TIS 50
Risposte/ domande gerarchizzate
Viene chiesto al rispondente di classificare in ordine di
importanza un certo numero di modalità
es. “Può indicarmi, in ordine di preferenza, a quali tipi di negozi lei
ricorre per fare acquisti di generi alimentari?”
Supermercati
Negozi al dettaglio
Mercati coperti o all’aperto
Altro negozio
Non so
TIS 51
Procedure per facilitare la memoria
e ridurre il fenomeno di telescoping
✳  liste:
“Quali attività svolge nel tempo libero”
“Che cosa legge abitualmente?”
Avvertenze:
– 
– 
– 
– 
lista di attività
lista di libri, riviste,
quotidiani con titoli
lista esauriente ed esaustiva
ordine seguito
lunghezza
uso di filtri
In generale: domande specifiche
es: “Quali bibite
consuma
che cosa
Regola delle 5
abitualmente?”
dove
chi
W: Who
What
Where
When
Why
tempo di riferimento
TIS 52
Procedure per facilitare la memoria
EXERCISE
Make these three questions more concrete and describe how you
improved specificity.
1. How satisfactory was your stay at the hotel?
2. What is the best way to improve health care?
3. Which restaurants do you eat in most frequently?
POSSIBLE ANSWERS
1. How satisfactory was room service during your stay at the hotel?
The question has been made more specific by focusing on room
service.
2. What is the best way to improve the quality of preventive health
care?
“Improve” has been clarified to concentrate on the quality of
preventive care.
3. In the past 3 months, which New York restaurants did you eat in
most frequently?
A time period and a place have been set: in the past 3 months and
TIS 53
New York, respectively.
Misure dell’estremità e dell’intensità di un
atteggiamento (giudizio)
dimensione sottostante (continuum)
scala di valutazione (proposta al rispondente)
1) scala verbale: usualmente: unico giudizio e più alternative
di risposta
(molto, abbastanza, poco, per niente)
2) rappresentazioni grafiche:
-
0
+
in quanti punti?
3) punteggi numerici: 1-3, 1-5, 1-7, 1-10
TIS 54
Esempio formulazioni alternative (1)
• 
Per rilevare il n.ro di libri posseduti dagli intervistati, in una
indagine su larga scala, mediante assegnazione casuale, a metà
rispondenti è stata proposta la versione A1 del quesito e alla
seconda metà la versione A2:
A1 (n.ro libri)
<5
5 – 10
10 – 15
15 – 20
20 – 25
> 25
Totale
% risposte
5,2
10,5
35,7
14,7
17,7
16,2
100
A2 (n.ro libri)
< 25
25 – 30
30 – 40
40 – 50
50 – 70
> 70
% risposte
62,5
23,4
7,8
4,7
1,6
0,0
100
TIS 55
Esempio formulazioni alternative (1)
In una indagine rivolta ad un campione di laureati contattati
dopo alcuni anni dal conseguimento della laurea, il quesito
riportato sotto è stato proposto, mediante assegnazione
casuale, a gruppi diversi di intervistati.
a) 
Su una scala da 1 a 10, QUANTO sente essere ADEGUATA la
preparazione professionale conseguita all'Università rispetto al tipo
di lavoro che svolge?
b) 
Quanto sente essere ADEGUATA la preparazione professionale
conseguita all'Università rispetto al tipo di lavoro che svolge: per
niente, poco, abbastanza o molto?
Su una scala da 1 a 5, quanto sente essere ADEGUATA la
preparazione professionale conseguita all'Università rispetto al tipo
di lavoro che svolge?
c) 
TIS 56
Questionari e controllo delle qualità
✳  sostituzioni
(se il piano di
campionamento
lo prevede)
– 
– 
– 
– 
errori di lista
errori elenchi
intervistatore
indisponibilità rispondente
•  motivo sostituzione
•  caratteristiche unità non intervistata
✳  chi
risponde alle domande
✳  intervistatore
✳  andamento
situazioni tipiche di intervista
(f-t-f)
–  codici identificativi
–  caratteristiche strutturali
intervista:
–  data
–  ora inizio e fine
–  altre informazioni (se previsto
intervistatore)
TIS 57
Redazione del questionario (1)
–  Organizzare complessivamente il questionario in aree omogenee
per tematica trattata, raggruppando le domande relative allo
stesso tema possibilmente nella stessa area.
–  Adottare accorgimenti particolari a seconda del tipo di
somministrazione scelta.
–  Saper individuare quanto spazio è opportuno dare all’intervistato
nella risposta (domande aperte, strutturate).
–  Adottare un linguaggio comprensibile a tutti gli intervistati, non
ambiguo e preciso e chiedere cose a cui l’intervistato può
rispondere.
–  Essere precisi nel riferimento temporale delle domande e fare
particolare attenzione all’uso di quesiti retrospettivi.
–  Fare un uso oculato delle domande delicate.
TIS 58
Redazione del questionario (2)
–  Collocare le domande in modo che non influenzino le risposte
alle successive e controllare la sequenza delle risposte a una
stessa domanda.
–  Saper individuare la lunghezza ottimale del questionario per
impegno di tempo, approfondimento di temi, ridondanza di
informazioni.
–  Impostare graficamente il questionario in modo da renderlo
una guida efficace per la compilazione e uno strumento
adeguato di comunicazione.
–  Individuare i codici più adatti per ciascuna modalità di risposta
ai quesiti del questionario.
–  Adottare criteri standard per le variabili strutturali.
–  Prevedere una parte del questionario per i codici identificativi e
una per i quesiti sui controlli di qualità.
TIS 59
Per capire che una risposta è sbagliata non
occorre una intelligenza eccezionale, ma
per capire che una domanda è sbagliata ci
vuole una mente creativa
A. Jay (1968) Macchiavelli e i dirigenti di
industria, Milano, p. 95
(riportata in G. Carofiglio (2007), L’arte del dubbio,
Sellerio Editore, Palermo)
TIS 60
Survey question and their context
Survey 1
Lancaster, a community of about 150,000 people, is planning programs to
prevent child abuse and family violence. The community intends to conduct
a survey in which families are asked to identify their problems and to
suggest solutions to them. The results will be used to guide the
development of programs to prevent and treat alcohol use, social isolation,
and unemployment. These problems and others like them are known to be
prevalent in the community. Research has linked them to abuse and
violence.
Parents with school‑age children in 4 of the city’s 10 school districts will be
mailed a survey questionnaire to complete in the privacy of their homes. The
survey, which focuses on educational needs, takes 20 minutes to complete
and is written in the five languages most commonly spoken in the
community. All responses are anonymous. Respondents are given
statements and asked to rate on a scale from 1 to 4 whether they strongly
agree, agree, disagree, or strongly disagree with each. The questionnaire
has been endorsed by prominent members of the community and the city.
61
Survey question and their context
Survey 2
The Children’s Clinic is a school‑based clinic in a very low-income area of
a large city. The clinic intends to conduct a survey in which families and
teachers are asked to identify children’s health problems (including medical
and psychosocial issues) that the clinic might address. A sample of parents,
teachers, health professionals, and children will be interviewed in person.
The interview will take 30 minutes and will be conducted in English and
Spanish. About half the questions will use ratings and rankings; the
remainder will allow respondents to give answers in their own words. All
responses will be confidential. A report of the results will be available in 12
months.
The two surveys described are different in several ways. These
differences influence the choice, characteristics, and number of
questions, as shown in the table.
TIS 62
Survey question and their context
Purpose
Respondents
Surveyor
Survey 1:
A Mailed
Questionnaire
Concerning
Child Abuse
Identify needs
and solutions to
guide program
development
Survey 2:
Interviews About
Effect on Questions
the Services of a
School-Based
Clinic
Identify needs to Survey 1: Questions are about
guide focus of
education
clinic services
Survey 2: Questions are about
health
Parents of
school-age
children
Parents, teacher,
health
professionals,
and children.
Survey 1: Questions posed are
for parents only
Survey 2: Questions posed are
for people of differing roles and
ages
Selfadministrated
mailed
questionnaire
contains the
questions
Interviewers ask
face-to-face
questions
Survey 1: Questions must be
easily read and understood
without outside assistance
Survey 2: Questions must be
worded so that they can be
63
understood orally
Survey question and their context
Survey 1:
A Mailed
Questionnaire
Concerning
Child Abuse
Survey 2:
Interviews About
the Services of a
School-Based
Clinic
Closed: Ratings
Responses are made on a
scale from 1 to 4
Some questions
use ratings and
ranking; the
remainder rely on
the respondent’s
own words
Survey 1: Responses can be
translated on a scale from 1 to 4
Survey 2: Half the responses will
come from ratings and ranking;
the remainder will be in
participants' own words
Survey take 30
minutes
Survey 1: Respondents may not
return questionnaires, or they
many not answer all questions
Survey 2: Time must be
allocated for reading and
interpreting respondents'
answers
Timing
Survey takes 20
minutes
Effect on Questions
TIS 64
Survey question and their context
Survey 1:
A Mailed
Questionnaire
Concerning
Child Abuse
Survey 2:
Interviews About
the Services of a
School-Based
Clinic
Need translation
Resources into five
languages.
Survey must be
printed and
mailed
Need translation
into English and
Spanish
Interviewers must
be hired and
trained
Survey 1: Expertise is needed in
five languages
All responses will All responses will
be anonymous
be confidential
(codes will
replace names)
Survey 1: "Sensitive" questions
(e.g., about drug use and sexual
habits) are more likely to be
answered
Survey 2: Must be a little more
“careful” with sensitive questions
as respondents can be traced
Privacy
Effect on Questions
Survey 2: Expertise is needed in
two languages
TIS 65
Obiettivi specifici
1. Identify the most common needs for educational services
2. Determine the extent to which differences exist among the needs of
parents of differing ethnicities/races
3. Determine the extent to which differences exist in needs between men
and women
4. Identify if parents are willing to participate in job retraining programs
5. Find out if parents are satisfied with their current educational status
A specific set of objectives like these suggests a survey that asks
questions about the following:
QUESITI:
•
•
•
•
•
Educational needs (Objective 1)
Ethnicity / race (Objective 2)
Gender (Objective 3)
Willingness of respondents to participate in job retraining (Objective 4)
Satisfaction with current educational status (Objective 5)
TIS 66
Obiettivi specifici
Altri obiettivi
Suppose another surveyor added these objectives:
6. Compare younger and older parents in their needs to learn how to
manage a household and care for a child
7. Determine the relationship between parents' education and
method of disciplining children for mild, moderate, and severe
infractions
To collect information for the new objectives, Survey 1 would need to
add questions on the following:
•
•
•
•
•
QUESITI:
Age of parents
How parents manage their household
How parents care for their children
Level of parents' education
Methods for disciplining children for mild, moderate, and severe
infractions
TIS 67
Sistema di indagini sociali multiscopo – ISTAT
dal 1993
TIS 68
Indagine Statistica Multiscopo sulle famiglie
Aspetti della vita quotidiana (indagine face-to face)
2 questionari: 1. per intervista (ROSA)
2. autocompliazione (VERDE)
✳ 
✳ 
annuale dal 1993 (dicembre), 1994 (novembre)… , 2012 (gen-febbraio)
campione di circa 24.000 “famiglie” per un totale di ~ 54.000 individui,
distribuite in circa 850 Comuni italiani di diversa ampiezza demografica.
Famiglia Insieme di persone legate da vincoli di matrimonio,
parentela, affinità, adozione, tutela o vincoli affetti
dimorante nella stessa abitazione
famiglia di fatto
Il questionario (ROSA) si compone di:
–  scheda generale
–  scheda individuale
–  scheda familiare
–  controlli (per l’intervistatore)
Indagine: compresa nel Programma statistico nazionale
(insieme delle rilevazioni statistiche necessarie al Paese)
TIS 69
Indagine Statistica Multiscopo sulle famiglie - ISTAT
Aspetti della vita quotidiana 2013
6 = servizi sanitari e socio-ass.li; 7 = servizi ospedalieri; 9 = incidenti in ambito domesticoTIS 70
Indagine Statistica Multiscopo sulle famiglie - ISTAT
Aspetti della vita quotidiana 2013
TIS 71
Tutela della privacy
•  La riservatezza dei dati personali in campo statistico era tutelata
dal d.lgs n. 322/ 89 che conteneva disposizioni sul segreto
d’ufficio (art.8) e sul segreto statistico (art. 9).
•  La legge 675/1996 disciplina condizioni, modalità e garanzie
relativamente a tutti i trattamenti di dati personali, compresi quelli
effettuati in ambito statistico.
•  Con la legge 676/1996 il Parlamento delega il Governo ad
emanare decreti legislativi in materia di tutela della riservatezza
per i trattamenti di dati personali effettuati per finalità storiche,
statistiche e di ricerca scientifica.
•  In attuazione della delega, il Governo emana il decreto legislativo
n. 281/1999, che integra e modifica sia il d.lgs n. 322/89 sia la
legge n. 675/1996
•  Il 30 giugno 2003 viene emanato il testo unico che rivede e
organizza tutte le disposizioni in merito: Codice in materia di
protezione dei dati personali che è entrato in vigore il 1.1.2004
TIS 72
Codice in materia di protezione dei dati
personali
•  Art. 1 (Diritto alla protezione dei dati personali)
Chiunque ha diritto alla protezione dei dati personali che lo
riguardano.
•  Art. 3 (Principio di necessità nel trattamento dei dati)
I sistemi informativi e i programmi informatici sono configurati
riducendo al minimo l’utilizzazione di dati personali e di
dati identificativi
se ne deve escludere il trattamento quando le finalità
perseguite possono essere realizzate mediante
–  dati anonimi
–  modalità di trattamento che permettano di identificare
l’interessato solo in caso di necessità
TIS 73
Il Codice: Definizioni
“dato personale“
informazione relativa a persona fisica, persona giuridica,
ente od associazione, identificati o identificabili, anche
indirettamente, mediante riferimento a qualsiasi altra
informazione, ivi compreso un numero di identificazione
personale
“dati identificativi“
i dati personali che permettono l’identificazione diretta
dell’interessato
“dato anonimo”
il dato che in origine, o a seguito di trattamento, non può
essere associato ad un interessato identificato o
identificabile
TIS 74
Il Codice: Definizioni (segue)
“dati sensibili”
i dati personali idonei a rivelare l'origine razziale ed
etnica, le convinzioni religiose, filosofiche o di altro
genere, le opinioni politiche, l'adesione a partiti,
sindacati, associazioni od organizzazioni a carattere
religioso, filosofico, politico o sindacale, nonché i dati
personali idonei a rivelare lo stato di salute e la vita
sessuale
TIS 75
indagine statistica:
qualità dell’indagine
(tutti gli aspetti che caratterizzano
errore/i dell’indagine
l’indagine)
Qualità =
concetto che
disegno di campionamento
fa riferimento
teoria del campionamento a
discrepanze
misura variabili, questionario,
tra fasi/passi
tecnologia….
successivi di
un’indagine
?
profilo globale di errore (error profile):
tutte le fonti sono individuate, eventualmente in relazione alle varie
scelte effettuate
controllate e ne sono valutati gli effetti
obiettivo: rendere minimo l’errore totale secondo le
risorse disponibili
Riferimento a:
TIS 76
modello generale per valutare l’impatto delle varie fonti di errore
Fonti di errore e (stime) risultati
Aumentano incertezza rispetto alla accuratezza delle stime
(distribuzione dello stimatore):
1.  deviazione sistematica dal vero valore di popolazione
(distorsione – bias)
2. aumento della variabilità intorno al vero valore di
popolazione
TIS 77
OSSERVAZIONE
1) popolazione obiettivo
errori di copertura
popolazione d’indagine (sottocopertura)
2) piano di campionamento errori campionari (stima e
selezione=prob. effettive ≠ da teoriche)
3) “indagine sul campo”
–  contatto
–  partecipazione
non risposte
–  totali
–  parziali
4) raccolta dei dati
–  strumento di rilevazione
–  modalità di rilevazione
–  editing
errori di misura
–  rispondente
–  intervistatore
–  strumento/modalità
sovracopertura
TIS 78
ERRORI NON CAMPIONARI
NON OSSERVAZIONE
Principali fasi dell’indagine campionaria
e errori
Errori di copertura (lista)
incapacità di rappresentare la popolazione oggetto d’indagine
✳ 
non copertura:
effetto
✳ 
sovracopertura:
lista “non completa”
distorsione
–  duplicazioni
(problematici in fase di
–  elementi estranei (inelegibili)
osservazione)
–  raggruppamenti di unità elementari
effetto
alterazione delle probabilità di
selezione
TIS 79
Non risposta
✳ 
totale
mancanza di informazione su un rispondente
–  rifiuto
–  assenza
–  impossibilità a rispondere
–  perdita questionario
✳ 
parziale
mancanza di informazione su uno o più quesiti
–  rifiuto
–  incapacità o non volontà a rispondere
–  inconsistenze
–  errata registrazione
effetto
variabilità (# campione più piccola) e
distorsione (non risposta selettiva)
TIS 80
Successione eventi a seguito del contatto
(Bethlehem, 2009)
TIS 81
Tasso di risposta /1
Composizione
campione
Con ipotesi su
eligibilità non
contatti
(Bethlehem, 2009)
82
Tasso di risposta /2
Famiglie
e
individui
Indagini
self (web)
83
Modello per la non risposta (fixed response model)
Nr
Wr =
rispondenti
Yr
N
popolazione
Nr
non rispondenti
Ym Wm = 1 −
N
(anche con rilevazione completa)
Y = WrYr + WmYm
si conosce solo questa
Wr + Wm = 1
Yr − Y = Yr − (WrYr + WmYm )
= Yr (1 − Wr ) − WmYm
Yr − Y = Wm (Yr − Ym )
proporzione missing differenza tra le medie
84
Non risposta (fixed response model)
Yr − Y = Wm (Yr − Ym )
proporzione missing differenza tra le medie
non può essere ignorata
in generale, più frequente in
gruppi particolari
random response model: per ogni elemento i nella popolazione è definita
una probabilità (ignota) di risposta pi
•  non risposta –  rifiuti
aggiustamenti con pesi che assegnano
– 
non
trovati
peso maggiore a categorie (uso var.
totale:
–  altro
ausiliarie) sotto rappresentate
•  item non informazioni mancanti su alcune metodi di
response variabili per vari motivi (collegata imputazione: valori
al tipo di variabile)
mancanti replicati da
valori “di sintesi”
TIS 85
€
€
Non risposta: modello generale per imputazione singola
p
Yˆi = b0 + ∑ b j X ij + ei
j =1
Yˆi = valore imputato per l’unità i (il cui valore è mancante)
X j = variabile ausiliaria relativa all’unità i
b j = coefficienti di regressione (j = 0, …, p) (stimati sui dati dei
€
rispondenti)
€
ei = termine di errore (determinato
dalla specifica tecnica di
imputazione)
con
b0 = M (Y ) b j = 0 ei = 0 imputazione media dei
rispondenti
Se X j dummy per appartenenza al gruppo (Xij = 1 se i è nel
€
gruppo j) imputazione
€ medie di gruppo
TIS 86
Errori di misura / di risposta
il valore osservato è diverso da quello che si intendeva misurare
yit = µi + eit
✳  rispondente
–  memoria
–  interpretazione
–  inaccuratezza
–  “proxy”
interazioni
✳  rilevatore
–  istruzione sul questionario / indagine
–  errori di trascrizione
TIS 87
Errori di misura / di risposta
il valore osservato è diverso da quello che si intendeva misurare
yit = µi + eit
✳  questionario
–  formulazione
–  sequenza
–  codifica
✳  modalità
di raccolta
–  autocompilazione
–  intervista diretta
–  telefonica
effetto
tecnologia
distorsione e variabilità
TIS 88
Errore totale e risorse disponibili
modello statistico per valutare l’impatto delle varie fonti di
errore (Kish, 1965) (approccio da disegno)
ERRORE TOTALE = ERR. VARIABILI + DISTORSIONI FISSE
Sr 2
MSE ( y ) = ∑
+ (∑ Br ) 2
r nr
estensioni: correlazioni tra i vari tipi di errore
[
2
]
MSE(y ) = Ε(y − Y ) = ∑ Ε r [ y − Ε(y )] +∑ (Ε r (y ) − Y )
2
r
€
Sr 2
2
r
Br
TIS 89
Scarica