Elementi di Statistica - Università degli studi di Genova

IUT Nice – Côte d’Azur
Département STID
6 Janvier 2006
Sondages
Corso di campionamento
Sandro Squarcia
Statistica Matematica e Trattamento
Informatico dei Dati (SMID)
Dipartimento di Fisica
Università degli Studi di Genova
Via Dodecaneso 33, 16146 Genova
0039 010 3536 207
[email protected]
Scopo del corso
Familiarizzarsi con la terminologia e i diversi
tipi di campionamento
Costruire un piano di campionamento
Stimare i parametri di una popolazione a
partire dai risultati di un campionamento
Valutare gli errori del campionamento
Determinare i livelli di “attendibilità” che a
partire dal sondaggio effettuato si possono
attribuire alla popolazione in esame
Indagine statistica
Ogni indagine statistica può essere realizzata
tramite due differenti rilevazioni:
rilevazione censuaria o totale ossia realizzata
studiando completamente il fenomeno in oggetto
(censimento)
rilevazione campionaria o parziale osservando
solo una parte della totalità (sample survey)
In questo corso ci occuperemo solo dell’indagine
campionaria trattando il “campionamento da
popolazioni finite”
Rilevazione censuaria
Per indagine totale si intende una rilevazione di
tutte le unità (universo o popolazione target) che
presentano le caratteristiche che si intendono
studiare
Ne sono esempi i censimenti e le indagini in cui
la popolazione target è costituita da poche unità
molto importanti (perché caratteristiche)
Si ottengono misure esatte, ma con alti costi di
rilevazione e trattamento dei dati e con possibile
incompletezza dovuta all’incapacità materiale
di raggiungere tutte le singole unità
Premessa storica
Fin dai secoli XVII e XVIII si trovano studi e
analisi che si fondano su rilevazioni parziali:
Laplace nel 1802 stimò la popolazione della
Francia tramite censimento in 30 dipartimenti
Marx (1880) inviò un questionario a 25000
operai francesi per studiare il fenomeno delle
sfruttamento da parte dei datori di lavoro
I sondaggi di opinione sono diffusi negli USA già
dal 1834 per prevedere i risultati delle elezioni
presidenziali
Situazione attuale
Dall’inizio del 1900 si è cercato di stabilire la
validità delle indagini campionarie arrivando a
creare una vera e propria teoria dei campioni,
basata su solide fondamenta matematiche
Le tecniche di campionamento sono una delle
tematiche più importanti della statistica
applicata
…e la loro conoscenza è diventata essenziale di
fronte alla sempre maggior richiesta di sondaggi
di opinione e indagini di mercato richiesti
quotidianamente dai mezzi di comunicazione
Indagini campionarie
Alla luce di questi problemi si ricorre spesso alle
indagini campionarie anche se questo implica
minor precisione
Notevole risparmio di mezzi, e più in generale un
minor impiego di risorse materiali e umane
• accrescere il numero delle indagini
• abbreviare la cadenza di quelle periodiche
• maggiore tempestività (importante se si vuole
avere il “polso del mercato o della situazione”)
Campionamento
Si definisce campionamento il procedimento
attraverso cui:
dall’insieme di unità costituenti l’oggetto dello
studio
si estrae un numero ridotto di casi scelti
con criteri tali da consentire la generalizzazione
dei risultati all’intera popolazione
Risulta necessario che il campione rappresenti
correttamente ed efficientemente l’universo:
le statistiche devono essere una buona stima dei
parametri della “popolazione di riferimento”
Sondaggio
POPOLAZIONE: finita (N) o infinita
Tecniche campionarie
CAMPIONE (n osservazioni)
Rilevamento ed elaborazione dei dati
Stime campionarie
(media m e deviazione standard s)
INFERENZA STATISTICA
Parametri della popolazione
(media  e deviazione standard )
Valore vero  valore atteso = m ± (s / √n)
Le fasi della ricerca
La ricerca si articola in diverse fasi, nelle quali si
evidenziano:
 i compiti,
 le responsabilità,
 i tempi
i costi di ogni singola operazione
Le fasi caratteristiche sono sette:
 Una preliminare di progettazione
 Tre di raccolta dei dati
 Due di analisi dei dati
 Una di “comunicazione”
1: Progettazione
Consiste nel definire:
• gli obiettivi dello studio,
• la popolazione a cui si vuol fare riferimento,
• i costi e i tempi dello studio,
• la definizione del piano di campionamento,
• le caratteristiche del questionario o della
indagine che si intende utilizzare,
(questa parte sarà un particolare l’oggetto di
questo corso)
• …. tutto quanto sarà necessario per la buona
riuscita dello studio
2: Rilevazione dei dati
Nella prima fase della raccolta dei dati sono
specificate le modalità di rilevazione dei dati
La presa dei dati può avvenire tramite:
 questionari, che possono essere:
• cartacei
• informatici
 intervistatori, che agiscono in via diretta:
• contatto personale
• inchiesta telefonica
• inchiesta via e-mail
• mediante internet ….
3: Registrazione
La seconda fase della raccolta dei dati è la
registrazione che consiste nel trasferimento dei
dati stessi su un supporto magnetico, in modo
che siano elaborabili
Questa fase è importantissima e strettamente
legata alla precedente e alla successiva
Se il questionario è “libero” sarà molto difficile
“incasellare” correttamente i dati
Se il questionario è “troppo vincolante” si
rischia di perdere informazioni importanti che
saranno riportate in modo scorretto
4: Revisione e codifica
La terza fase della raccolta dei dati è la revisione
ossia:
 il controllo di adeguatezza dei dati ovvero la
validazione dei dati raccolti
 la codifica dei dati stessi (in questo punto
risulta evidente se vi sono stati degli “errori di
registrazione” nella fase precedente
 la scelta e la messa a punto delle procedure di
elaborazione (software specializzati o creati dal
ricercatore) che dipendono fortemente da come i
dati stessi sono stati codificati
5: Elaborazione dei dati
La prima fase dell’analisi dei dati è
l’elaborazione statistica propriamente detta
Mediante l’utilizzo di “pacchetti statistici”
(EXCEL, SAS, SPSS, STATA….) vengono
prodotti tabelle e rapporti statistici
Questi rappresentano l’estrapolazione dei
parametri della popolazione che si intende
esaminare sulla base del campione statistico su
cui si è effettuata l’analisi
I risultati offriranno una “forchetta” entro cui,
statisticamente parlando, risiede la “verità”
6: Validazione dei dati
La seconda fase dell’analisi dei dati è la
validazione ossia l’analisi della coerenza dei
risultati ottenuti dai dati che sono stati raccolti ed
elaborati
Questa fase è alquanto difficile perché occorre
ipotizzare quali sono i risultati attesi
Solo con molta esperienza si può determinare se i
risultati ottenuti dal campione siano realmente
rappresentativi della popolazione di cui si vuole
determinare i parametri
(ad esempio sondaggio del seggio particolarmente
significativo sull’orientamento degli elettori)
7: Diffusione dei risultati
In questa fase, dove possono essere necessari
esperti in scienza della comunicazione, i risultati
elaborati sono resi disponibili al pubblico,
corredati degli opportuni commenti
Ad esempio se si calcola il Risk Ratio per il cancro
al cervello da radiazioni non ionizzanti di telefoni
cellulari sulla base delle pubblicazioni degli
ultimi 20 anni si ottiene un valore di circa 1
Ma considerando una ricerca dal 1990 al 2000 in
Danimarca si ottiene 0.8
Il telefono cellulare fa dunque bene a chi lo
utilizza??
Tasso di non risposta
Importante perché può invalidare lo studio:
T  10% : livello ottimale perché si dovrebbero
ottenere dati certi
10 < T  25%: fornisce buoni risultati ma il
ricercatore deve condurre dei controlli aggiuntivi
sulla rappresentatività del campione rispondente
25 < T  40%: i controlli supplementari devono
essere fatti in modo vasto e accurato: se il piano
di campionamento è corretto si procede con
l’analisi
T > 40%: l’indagine dovrebbe essere ripetuta
Purtroppo in molti casi T>40%!
Tipi di campionamento
Vi sono vari tipi di campionamento, che si
differenziano sostanzialmente in due categorie:
 Campionamenti probabilistici
Si utilizza la statistica inferenziale (stimatori ed
intervalli di confidenza) che forniscono
informazioni sulla popolazione completa
 Campionamenti non probabilistici
La scelta degli elementi della popolazione viene
effettuata in base a criteri logici fissati a priori
In questi casi è consentito esclusivamente
descrivere il risultato campionario con gli
opportuni strumenti della statistica descrittiva
Campionamento non probabilistico
 Campionamento per scelta ragionata: si
identificano le zone dove si trova il maggior
interesse per il fenomeno in studio (ricerca di un
prodotto di moda)
 Campionamento per quote: si definisce la
percentuale di interviste con persone aventi
determinate caratteristiche (fumatori-sesso)
 Campionamento tramite testimoni privilegiati:
si intervistano esclusivamente persone esperte del
fenomeno in studio (doppio lavoro)
Non si può utilizzare la statistica inferenziale per
ricavare informazioni sulla popolazione!!!
Campionamento probabilistico
In questi tipi di campionamento le unità della
popolazione hanno prefissate probabilità di
essere incluse nel campione:
 casuale semplice con ripetizione (bernoulliano)
 casuale semplice senza ripetizione
 stratificato (proporzionale, uniforme, ottimale)
 a grappoli
 sistematico
 a più stadi
 ripetuti (panel e panel ruotati)
 areale
 a probabilità variabile
I più utilizzati 1/2
Campionamento casuale semplice (CCS)
estrazione (con o senza ripetizione) delle unità
del campione con la stessa probabilità
Campionamento stratificato
costruzione di strati il più possibile omogenei
al loro interno ed eterogenei tra loro, poi CCS
Campionamento a grappoli
suddivisione in sottogruppi (grappoli), CCS tra
essi e rilevazioni degli elementi del grappolo
Campionamento sistematico
scelta casuale della prima unità del campione,
poi utilizzo di un passo costante k = N / n
I più utilizzati 2/2
Campionamento a due o più stadi
suddivisione della popolazione in sottoinsiemi (I
stadio), CCS sui sottoinsiemi, CCS delle
osservazioni (II stadio) dai sottoinsiemi
Campionamento panel
contatto di unità statistiche permanenti a
successivi intervalli periodici di tempo per
studiare le dinamiche del fenomeno
Campionamento panel ruotato
contatto continuativo con sostituzione a
rotazione delle unità statistiche sotto esame per
studiare i flussi e le transizioni (cambio di stato)