Il campionamento

Il campionamento
y CAMPIONAMENTO
È il procedimento logico in base al quale l’insieme delle procedure
per la costruzione del campione si salda alla teoria della stima e
d ll verifica
della
f ddelle
ll ipotesi.
y DISEGNO DI CAMPIONAMENTO
È l’insieme delle regole
g seguite
g
pper la costruzione del campione.
p
Il piano di campionamento
E’ L’INSIEME DI OPERAZIONI CHE PORTANO A:
1. DEFINIRE LA POPOLAZIONE OBIETTIVO NELLA RILEVAZIONE
STATISTICA;
2. DEFINIRE LE UNITA’ CAMPIONARIE;
CAMPIONARIE
3. SCEGLERE IL O I CAMPIONI SUI QUALI AVVERRA’ LA RILEVAZIONE
STATISTICA;
4. CALCOLARE LA DIMENSIONE DEL CAMPIONE
5 DEFINIRE IL METODO O PROCEDIMENTO DI CAMPIONAMENTO;
5.
6. FORMULARE,
CAMPIONE.
CAMPIONE
INFINE,
UN
GIUDIZIO
SULLA
“BONTA’”
DEL
Struttura
St
tt
d
dell campione:
i
i i
insieme
ddelle
ll liliste che
h sii utilizzano
ili
per
costruire il campione.
L lista
La
li comprende
d l’
l’elenco
l
di tutte lle unità
i à che
h compongono
l’universo.
Se la struttura del campione è semplice: una lista.
Se la struttura del campione è complessa: più liste.
L popolazione
La
l i
è iintesa
t come aggregato
t di unità
ità statistiche.
t ti ti h
Le caratteristiche
h e le
l proprietàà della
d ll popolazione
l
che
h si
intendono studiare sono definite variabili o caratteri.
Possiamo ottenere le informazioni sulle variabili attraverso due
metodi:
di
- Rilevazione totale o censuaria (si analizzano tutte le unità
che
h compongono l’universo)
l’ i
)
- Rilevazione campionaria (studio per inferenza dell’universo)
Definizioni di base
Popolazione o universo: ogni insieme finito o infinito di unità (non
necessariamente esseri umani).
)
La numerosità si indica con N
Campione: insieme delle n (unità campionarie) selezionate tra le N
che compongono la popolazione, detta popolazione di riferimento
Statistica descrittiva: è l’insieme delle procedure utili per
organizzare i dati raccolti in forma conveniente e comunicabile
Statistica inferenziale: è l’insieme delle procedure atte a raggiungere
conclusioni ppiù ampie
p rispetto
p
ai valori raccolti,, tali da ppoter essere
messi in relazione con l’universo.
Vogliamo
V
li
studiare
di le
l variabili
i bili ((proprietà)
i à) X
X,Y
Y, Z
Z, di un certo
campione.
Studiarle significa conoscere alcuni valori caratteristici assunti
d ll’
dall’intera
popolazione
l
((cioèè lla lloro DISTRIBUZIONE) o lle
relazioni fra le variabili stesse.
Chiamiamo queste conoscenze PARAMETRI
PARAMETRO (grandezza relativa ad una popolazione): è una
grandezza “vera” che assume un certo valore (noto o meno)
ESEMPIO: Proporzione di studenti del master con gli occhi verdi
Esempi:
Esempi
S l’unità
Se
l’ ità è l’i
l’individuo
di id e la
l variabile
i bil X è il reddito
ddit e vogliamo
li
conoscere il reddito medio, il parametro della popolazione che
vogliamo
g
conoscere è la MEDIA
Se la variabile Y è il voto e noi vogliamo conoscere la proporzione
di persone che hanno votato il partito A, il parametro della
popolazione che vogliamo conoscere è una PROPORZIONE
Se vogliamo studiare la relazione fra le variabili X e Z, il parametro
che vogliamo conoscere è un coefficiente di CORRELAZIONE
Stimatore
y Grandezza relativa a un campione.
campione Stima il relativo
parametro della popolazione da cui è estratto il campione
y ESEMPIO: Proporzione di studenti con gli occhi verdi
presenti a questo corso
y Lo STIMATORE è diverso dal PARAMETRO e dipende dal
campione estratto.
y Lo stimatore è una misura “affetta da errore” (errore di
campionamento).
y Le misure affette
ff
da
d errore di
d campionamento sono chiamate
h
variabili aleatorie o casuali
Se conoscessimo la popolazione totale, avremmo il valore esatto del
parametro che stiamo studiando, ma questa è un’ipotesi che non
sii verifica
ifi maii (se
( non neii casii di censimento)
i
)
L’indagine campionaria ci fornisce una STIMA, un valore
approssimato
Se indichiamo con V il valore (sconosciuto) del parametro della
ppopolazione
p
(che
( ppuò essere una media,, una pproporzione,
p
, un
coefficiente di correlazione, ecc.), con v il valore trovato nel
campione (cioè la sua stima) e con e l'errore di campionamento,
possiamo scrivere:
V
=
v
Parametro della Stima del
campione
popolazione
p
p
p
(incognito)
±
e
Errore di
campionamento
p
Mentre non cii sono difficoltà
M
diffi l à per calcolare
l l
la
l stima
i
v, che
h è di
direttamente
fornita dai dati del campione, il vero problema consiste nel calcolare l'errore
di campionamento. Si tratta di un problema assai rilevante. Intuitivamente,
i f tti per d
infatti,
determinare
t
i
l'l'entità
tità d
dell'errore
ll'
d
dovremmo conoscere anche
h qualche
l h
cosa della popolazione: ma come facciamo se su di essa non sappiamo nulla?
Tuttavia, se il campione è stato scelto secondo una procedure rigorosamente casuale
Tuttavia
casuale, cioè si tratta
di un campione probabilistico, allora la statistica ci permette di calcolare l'entità di tale errore.
Q
Quindi,
, se effettuiamo una rilevazione totale sul reddito degli
g italiani,, ppossiamo dire:
“il reddito medio degli italiani è € 1.350”.
Se effettuiamo un rilevazione campionaria, diciamo:
“c’è il 95% di probabilità che il reddito medio degli italiani sia di € 1.300 ± 50”
Nel secondo caso,
caso il ricercatore non è certo del suo calcolo,
calcolo cc’èè un 5% di probabilità che il
reddito sia al di fuori dei valori indicati.
Il ricercatore calcola un intervallo di fiducia nel quale si colloca il valore della statistica della
popolazione.
La stima del campione è sempre affetta da un ERRORE DI CAMPIONAMENTO.
L'errore di campionamento è direttamente proporzionale al livello di fiducia che
vogliamo avere nella stima e alla variabilità del fenomeno studiato, mentre è
inversamente proporzionale all'ampiezza del campione.
Errore totale della stima
Componenti principali
Errore di campionamento
Casuale
Errore non campionario
Errore dovuto all'intrinseca
variabilità del processo di
campionamento probabilistico
Errore di selezione dovuto
all'adozione
all
adozione di un disegno di
Sistematico campionamento non
probabilistico
Errore di copertura
Errore di non risposta totale
Errore di non risposta parziale
Errore di misurazione
Errore di elaborazione
(varianza campionaria)
Errore di campionamento
L’errore di campionamento
si verifica per
VARIAZIONE CASUALE
deriva da un elemento naturale
i li i bil il CASO
ineliminabile:
questo è un BUON CAMPIONE
perché l’errore
l errore dovuto alla
variazione casuale può essere
STIMATO
SELEZIONE VIZIATA
fatta su un settore non rappresentativo
d ll popolazione.
della
l i
Il campione
i
sii dice
di
DISTORTO
Questo è un CATTIVO CAMPIONE
perché
é l’errore non può
ò essere stimato!
Variazione casuale
y La variazione casuale è dovuta al caso,
caso cioè a
quell'«insieme di fattori o cause, piccole o grandi, che
agiscono su un fenomeno senza che noi possiamo o vogliamo
controllarli esattamente e prevederne quindi l'azione»
(Cavalli-Sforza).
y La
L variazione
i i
casuale
l fa
f sìì che
h una misura
i
effettuata
ff
su un
campione non fornisca un valore identico alla misura
effettuata sulla popolazione: ci potrebbe essere - ed in effetti
c'è sempre - un certo errore, che viene detto errore
campionario. L'errore campionario deriva semplicemente
dal fatto che stiamo osservando soltanto una parte della
popolazione.
Esempio
y Supponiamo
pp
di avere a disposizione
p
due farmaci,, A e B,, ugualmente
g
efficaci, nel senso che guariscono il 50% dei pazienti trattati.
Supponiamo di fare un esperimento per studiare l'effetto dei due
farmaci; supponiamo che,
che in questo esperimento,
esperimento non sia presente alcun
bias e quindi che i dati ottenuti siano assolutamente affidabili. Tuttavia,
se l'esperimento prevede di esaminare un numero limitato di soggetti
per ciascuno dei due trattamenti,
trattamenti facilmente osserveremo che il farmaco
A induce guarigione con maggior frequenza rispetto al farmaco B (o
viceversa). Questo effetto è dovuto, appunto, alla variazione casuale.
y Ovviamente, l'errore di campionamento è condizionato dall'esistenza di
variabilità tra gli individui che compongono la popolazione di partenza;
se tutti - pper assurdo - avessero lo stesso carattere in egual
g misura,,
l'esame di qualsiasi numero di individui fornirebbe lo stesso valore, e
quindi l'errore di campionamento sarebbe nullo.
Selezione viziata
y La selezione viziata è quella che viene effettuata su un
segmento non rappresentativo della popolazione. Questo avviene
quando la scelta delle unità che costituiranno il campione viene
effettuata
ff tt t con regole
l non rigorosamente
i
t causali.
li Talvolta,
T l lt è lo
l
stesso sperimentatore che, definendo delle regole estemporanee
volte a neutralizzare - nelle intenzioni - ggli effetti del caso e ad
ottenere un campione più aderente alla popolazione, commette un
errore che rende i dati inutilizzabili.
y Un
U campione
i
che
h non è stato ottenuto correttamente fornisce
f i
misurazioni e risultati per i quali è impossibile calcolare il
p
La selezione viziata fa sì
cosiddetto «errore di campionamento».
che all'errore campionario si sommi un altro tipo di errore, detto
errore non campionario o bias.
La selezione viziata fornisce un
campione
i
non rappresentativo
i
(
(distorto)
)
y ESEMPIO 1. Vogliamo accertare la proporzione di persone che si curano
con ppreparati
p
omeopatici
p
in una determinata città. Non ppotendo esaminare
tutti gli individui della città considerata, decidiamo di esaminare un
campione di persone. Per comodità, scegliamo le persone che si servono
ppresso le farmacie pprovviste anche di pprodotti omeopatici.
p
Il campione
p
così
ottenuto sarà sicuramente composto proprio da molte di quelle persone che
assumono preparati omeopatici.
Il nostro campione sarà viziato perché (1) ha selezionato persone che
preferiscono la medicina omeopatica, e (2) ha selezionato persone che si
servono in farmacie omeopatiche. Presumibilmente, una maggior quantità
di individui del nostro campione risulterà privilegiare il trattamento
omeopatico e dunque potremmo erroneamente concludere che "moltissime
persone non ricorrono alle terapie tradizionali".
La selezione viziata fornisce un
campione
i
non rappresentativo
i
(
(distorto)
)
y ESEMPIO 2. Il frammento prelevato con una biopsia epatica
rappresenta circa 1/50000 dell'organo. Essendo il campione così
piccolo rispetto all'intero organo, esiste la possibilità di ampie
variazioni
i i i da
d un campione
i
all'altro.
ll' lt Inoltre,
I lt poiché
i hé il frammento
f
t
viene esaminato, in genere, allo scopo di diagnosticare una
malattia dell
dell'intero
intero fegato,
fegato esiste la possibilità che il processo di
inferenza sia viziato. Ad esempio, si preleva un campione di
tessuto sano in un organo ammalato.
In conclusione …
y Si può affermare che soltanto quando la scelta degli individui
che compongono il campione è stata dettata dal puro e
semplice
se
p ce
caso
(campionamento
(ca
p o a e to
pprobabilistico
o a st co
o
randomizzato), è possibile prevedere e calcolare l'entità
della differenza tra campione
p
e ppopolazione.
p
In caso contrario, il campione si dice «distorto»». Con un
campione distorto, non è possibile calcolare l'errore di
campionamento e i dati ottenuti saranno difficilmente
utilizzabili.
bias o distorsione: differenza, causata da un errore
sistematico tra la stima ottenuta da un campione e
sistematico,
la vera caratteristica della popolazione
y Per «bias» si intende "un processo, effettuato in qualsiasi stadio
della inferenza,
f
, che tende a fornire risultati che si discostano
sistematicamente dai valori veri".
bias (o distorsione o errore
sistematico)
i t
ti )
bias
Se la moneta è bilanciata:
1000 lanci -> in circa il 50% dei
casi ci aspettiamo che venga testa
(o croce)
Se ripetiamo l’esperimento più
volte, escludendo i casi in cui si ha
il 50%,, in media metà delle volte
la % sarà superiore e metà della
volte sarà inferiore al 50%.
Se la moneta fosse sbilanciata
nel peso:
Allora ci aspetteremmo due
percentuali diverse,
diverse di entità
proporzionale allo
sbilanciamento.
bias (o distorsione o errore
sistematico)
i t
ti )
• BIAS DI SELEZIONE
distorsione nella scelta del campione
(es. usare pazienti ospedalizzati per infarto miocardico acuto come
campione per valutare l’efficacia di un intervento per smettere di
fumare; utilizzare come campione controllo broncopatici in uno studio
caso-controllo per trovare l’associazione fra fumo e cancro del
polmone etc.)
polmone,
etc )
Esempio:
il rapporto tra massa corporea e pressione
arteriosa
è
E
i
i
i
influenzato dall'età; se il campione è stato ricavato in una comunità con
età media inferiore alla media nazionale le conclusioni tratte da questo
campione
i
non possono essere applicate
li t alla
ll comunità
ità nazionale
i
l
Errori non campionari
y Nelle indagini infermieristiche possono essere più grandi
dell’errore di campionamento:
p
- errata definizione della popolazione
- errori nella lista (sottocopertura, sovracopertura, duplicazioni)
- errori nello strumento di rilevazione
- effetto intervistato
- eventuale effetto intervistatore
- mancata risposte ( non trovati, rifiuti, ecc)
- errori nelle fasi di codifica, imputazione, elaborazione dei dati
Altre forme di bias/distorsione
y BIAS DI MISURAZIONE - Distorsione nella raccolta dei dati. Bias di misurazione
(che si verifica se i metodi di misurazione non sono ben tarati, o validi, oppure se sono
imprecisi o diversi tra i pazienti studiati).
Esempio: misurare la pressione con uno sfigmomanometro difettoso, confrontare rilevazioni
del peso corporeo pesando o chiedendo il peso con dei questionari
questionari, etc
etc.
y BIAS DI CONFONDIMENTO: Bias di confondimento (che si verifica quando è
presente
t un ffattore
tt estraneo
t
- di confondimento
f di
t appunto
t - che
h è associato,
i t anche
h se iin
modo non causale, sia alla esposizione-trattamento, sia all'esito. Errore dovuto alla
presenza di una variabile di confondimento (fattore che confonde l’associazione fra due
fenomeni generando una associazione statistica che non è una relazione causale, definita
relazione
l i spuria)
i)
Esempio: in uno studio caso-controllo condotto per valutare l’associazione tra cancro del
colon e un’attività lavorativa sedentaria sarebbe inappropriato controllare per la bassa
attività fisica ggiacché essa rappresenta
pp
una conseguenza
g
di quell’attività
q
lavorativa.
Determinazione
D
i i
campione:
d ll
della
NUMEROSITÀ
OTTIMALE
d l
del
È la numerosità che permette alle stime che compiamo di
raggiungere ill livello
l ll di
d attendibilità
d b l à che
h ci attendiamo.
d
5%
5
2%
1%
N
100
n
80
N
100
n
96
N
100
n
99
300
170
300
270
300
296
500
220
500
415
500
475
1 000
1.000
285
1 000
1.000
715
1 000
1.000
910
5 000
5.000
370
5 000
5.000
1 660
1.660
5 000
5.000
3 330
3.330
>
8.000
400
>
2.500
50.000
>
10.00
200.000
0
Numerosità
à campionaria
y Dipende dalla variabilità insita nella variabile di studio
y Dipende dall
dall’errore
errore che si accetta di commettere
y Dipende dal grado di fiducia che si vuole attribuire alla stima
y Non è importante la frazione di campionamento ma la numerosità
del campione
y
Es. Caso Literary Digest 1936 USA Landon-Roosvelt
V t id
Vantaggi
dell campionamento:
i
t
Riduzione dei costi
Rapidità
Scopi specifici
Accuratezza
Criteri di inclusione e di esclusione
Nel leggere un rapporto di ricerca è necessario verificare se il
ricercatore ha identificato i descrittori della popolazione che
costituiscono le basi per:
i criteri di inclusione ((eleggibilità)
gg
)e
i criteri di esclusione (delimitazione)
che sono i criteri utilizzati per selezionare il campione dall’insieme
di tutte le unità.
I criteri di definizione della popolazione stabiliscono quella che sarà
l popolazione
la
popola ione target.
target
3 concetti correlati al tema del campionamento:
1.
Eterogeneità: presenza di caratteristiche e qualità
diverse nel campione, collegate alla variabilità degli
atteggiamenti e dei comportamenti
2.
Rappresentatività: si dice rappresentativo un
campione che presenta alcune caratteristiche
dell’universo in proporzioni analoghe
3.
Sufficienza: misura l’attendibilità dei dati, ovvero la
probabilità che essi siano validi per l’universo entro
certi termini statisticamente determinabili
Regole
R
l seguite
it per identificare
id tifi
lle unità
ità d
da inserire
i
i nell
campione : come si seleziona ogni singolo caso?
Criterio costante: uguale per tutte le unità della lista
Criterio variabile: se ad ogni unità viene assegnata una
probabilità di selezione propria
Che cosa è possibile
Ch
ibil ottenere ddaii ddatii raccolti?
l i?
- Verifica delle ipotesi di contenuto (cioè le ipotesi
di rapporti tra le variabili): si rimane nell’ambito dei
risultati disponibili
p
e tale verifica è valida soltanto pper le
unità di analisi considerate.
valido per campioni NON PROBABILISTICI
- Inferenze: si generalizzano i risultati dal campione
all’universo
valido per campioni PROBABILISTICI
Campionamento - metodi
Campionamento probabilistico (remind)
y In statistica, si parla di campionamento probabilistico quando ogni
soggetto o oggetto di cui è composta la popolazione ha una probabilità
nota di essere incluso nel campione.
campione
y Questo tipo di campione garantisce la rappresentabilità mentre dei
campioni
p
non pprobabilistici non si ppossono ggeneralizzare i risultati di
indagine. Infatti il campione probabilistico è quel campione i cui risultati
possono essere estesi con un certo livello di fiducia (detto anche livello
di confidenza)
confiden a) alla popolazione.
popola ione
y In statistica il campionamento casuale corrisponde ad un'estrazione
da una ppopolazione
p
distribuita secondo la sua legge
gg ((funzione di densità))
di un determinato numero di individui/oggetti.
Campioni probabilistici
Campioni casuali o probabilistici: sono regolati dalla legge del
CASO,, cioè della pprobabilità
Si attribuisce ad ogni
g unità della ppopolazione
p
una determinata
probabilità positiva di essere selezionata
Si utilizzano tecniche per la selezione casuale del campione
Il campionamento
p
pprobabilistico consente al ricercatore di
stimare la probabilità che ogni elemento della popolazione ha
di essere selezionato
Campioni probabilistici
La probabilità di selezionare i casi è nota
Per costruire un campione probabilistico è indispensabile la
conoscenza dell’universo; devono essere note e disponibili
p
le
fonti (es. lista completa della popolazione)
Le fonti possono anche definire universi “settoriali”
Si possono costruire diversi tipi di campioni probabilistici a
seconda del metodo di estrazione
Campionamento casuale semplice e
Campionamento casuale sistematico
Può essere estratto per sorteggio o per intervallo fisso
(scegliendo un nominativo ogni tot da una lista e
prevedendo eventuali sostituti), fino a raggiungere la
numerosità desiderata.
Il rapporto tra la numerosità dell’universo e quella del
campione
p
dà la misura dell’intervallo fisso da
rispettare.
È opportuno su popolazioni relativamente piccole, in
un’area ristretta, dove si può disporre di liste
complete.
Campionamento
p
casuale semplice
p
y
E’ la più semplice tecnica di selezione di un campione; il procedimento è sostanzialmente simile allo
schema di estrazione da un
un’urna
urna.
y
Un campione casuale semplice è un campione in cui è già nota la probabilità che ogni
individuo della popolazione ha di essere scelto.
y
Nel campionamento casuale semplice si indica con n la dimensione del campione,
campione ossia il numero
di elementi del campione, e con N la dimensione della popolazione, ossia il numero di elementi
della popolazione.
y
La probabilità che ogni individuo della popolazione ha di essere scelto alla prima estrazione è 1/N .
y
La selezione del campione può essere fatta in due modi:
− con reimmissione;
− senza reimmissione.
y
Nel campionamento con reimmissione ciascun elemento della popolazione è
disponibile ad ogni estrazione, quindi ad ogni estrazione ogni individuo ha sempre probabilità
1/N di essere estratto.
t tt In
I questo
t modo
d un individuo
i di id puòò essere nuovamente
t estratto
t tt in
i una
successiva estrazione.
y
Nel campionamento senza reimmissione un individuo, una volta selezionato, non
viene rimesso nella popolazione e non può più essere scelto di nuovo.
nuovo
Campionamento sistematico
y
Un altro tipo di campionamento è il campionamento sistematico. In questo caso si procede nel
modo seguente.
seguente Data la popolazione di N individui e fissata la dimensione n del campione,
campione si calcola il
quoziente intero R /n = N .
y
Si sceglie un numero k a caso (ad esempio da un’urna) compreso fra 1 e R; si includono nel campione gli
individui della lista che occupano
p
i pposti k,, k + R,, k +2R,, ...
y
Esempio
Da una popolazione di 1000 individui si vuole formare un campione di 50 individui; in questo caso N =
1000 n = 50 20 R
R= 1000/50
Si sceglie un numero k a caso fra 1 e 20, sia ad esempio k = 15.
Il campione sarà formato dagli elementi della lista che portano il numero 15, 35, 55, 75, ....
Se l’
l’elenco
l
d tutti glil individui
di
d d della
d ll popolazione
l
è fatto
f
in modo
d casuale,
l anche
h ill campione saràà
casuale. Se invece l’elenco non è casuale rispetto alla variabile che si vuole studiare, il campione
estratto può essere distorto.
Il campionamento
i
t sistematico
i t ti è più
iù facile
f il da
d eseguire,
i ma il suo uso acritico
iti puòò portare
t con facilità
f ilità a
campioni affetti da errori sistematici; questo rischio non c’è con il campionamento casuale
semplice.
In generale i risultati di un campionamento sistematico dipendono in larga misura dalle caratteristiche
dell’indagine che si vuole fare e dalla popolazione da cui si campiona.
Campionamento sistematico - esempio
y Volendo effettuare un’indagine sulle abitudini alimentari
di una ppopolazione
p
di 100.000 studenti,, scegliendone
g
un
campione di 3000, possiamo prendere i nati in un dato
ggiorno del mese di un anno fissato.
y Se però si volesse usare lo stesso campione per studiare il
quoziente di intelligenza,
intelligenza questo campione sarebbe
distorto, perché il quoziente di intelligenza, come il
campione, è influenzato dall
dall’età.
età.
Se non abbiamo liste della popolazione N,
N possiamo costruire un
campione sistematico?
Sì,, in alcuni casi,, ad es.: exit ppolls,, ricerche di mercato
Regola:
g : tutte le unità devono avere la stessa pprobabilità di essere
incluse nel campione, quindi l’estrazione deve coinvolgere tutta
la popolazione e non solo una parte.
Es. tutti i clienti del CUP : la rilevazione deve durare per tutto
l’orario di apertura
Campionamento randomizzato
stratificato (1)
y Un altro tipo di campionamento è il campionamento stratificato. E’ una
delle tecniche di campionamento più famose e usate; consiste nel dividere
gli N individui della popolazione in sottopopolazioni,
sottopopolazioni o strati,
strati sulla base di
una caratteristica comune; nell’estrarre poi un campione casuale
semplice da ogni strato in modo indipendente, e nel riunire insieme i
risultati dei singoli campionamenti per formare un unico campione
dell’ampiezza richiesta.
y Si mantiene ll’estra
estrazione
ione casuale,
casuale ma si utilizzano
utili ano una o più variabili
ariabili
stratificanti, tali da controllare meglio la rappresentatività dei casi
selezionati.
y Questo metodo è più efficace perché assicura che gli individui della
popolazione siano rappresentati adeguatamente nel campione; questo
garantisce
i
una maggior
i
precisione
ii
nelle
ll stime
i
d i parametrii della
dei
d ll
popolazione.
Campionamento stratificato (2)
y Il ricorso alla stratificazione presuppone che si abbiano delle conoscenze sulla
popolazione, in modo da poterla suddividere in strati, ad esempio classi di età,
classi di reddito, ecc.
y La stratificazione consente di aumentare la precisione delle stime, senza
comportare un aumento del numero totale di elementi del campione.
campione
y Infatti la bontà dei risultati di un’indagine campionaria dipende essenzialmente
da due fattori:
− dimensione del campione;
− variabilità del fenomeno in esame.
y Quindi per aumentare la precisione dei risultati si può agire aumentando la
dimensione del campione con conseguente aumento dei costi; se si pone il
vincolo sul numero di elementi del campione, l’unica possibilità per aumentare
la significatività dei risultati della rilevazione è utilizzare un campionamento
stratificato.
Il
campione può
proporzionale.
essere
proporzionale
o
non
Il campione si dice stratificato proporzionale se riproduce la
stessa composizione degli strati della popolazione
E se operai,
Es.
i impiegati,
i i ti lavoratori
l
t i autonomi
t
i e professionisti
f i i ti sono
rispettivamente il 35, 40, 15 e 10% della popolazione,
costruiremo un campione di 1000 casi composto da 350 operai,
400 impiegati, ecc…
IInvece, se sovra o sotto-rappresentiamo
i
alcuni
l i strati,
i otteniamo
i
un
campione stratificato non proporzionale.
In questo caso, dovremo effettuare un’operazione di ponderazione.
Campionamento stratificato - esempio
y Studio dell’incidenza di una data p
patologia,
g che è influenzata dall’età, in
un gruppo di N individui.
y Con un campionamento semplice può accadere che il campione sia
composto prevalentemente
l
d giovani o da
da
d anziani.
y Se anziché applicare il campionamento casuale semplice all’intera
popolazione si procede prima a una stratificazione degli individui
popolazione,
secondo tre grandi classi di età (giovani, adulti, anziani) e poi si attua un
campionamento semplice nell’ambito di ciascuna classe, si ha la certezza
che tutte e tre le categorie entrino a far parte del campione in modo
equilibrato.
y L
L’ampiezza
ampiezza del campione in ogni strato (non tutti gli strati hanno la
stessa numerosità) può essere stabilità in vari modi diversi.
Campionamento a grappolo o a più stadi
o cluster
y Nel campionamento a grappolo, gli N individui nella popolazione sono suddivisi in molti
gruppi, detti grappoli (sottopopolazioni), in modo tale che ogni grappolo sia
rappresentativo dell’intera popolazione.
y Si estrae p
poi un campione
p
casuale di ggrappoli
pp e tutti ggli individui di ciascuno dei ggrappoli
pp
selezionati sono inclusi nel campione. I grappoli possono essere definiti sulla base di
raggruppamenti naturali, come quelli determinati dalle regioni, dalle città, o dalle
famiglie.
y Il campionamento a grappolo può essere meno costoso del campionamento casuale
semplice, soprattutto quando la popolazione sottostante è disseminata su una vasta area
g g
geografica.
y Comunque, il campionamento a grappolo tende a essere meno efficiente sia del
campionamento casuale semplice, che del campionamento stratificato, e si rende
necessaria una dimensione complessiva
p
del campione
p
ppiù ggrande pper ottenere risultati
precisi come quelli che si ottengono con altri procedimenti.
Campionamento a grappolo
Si utilizza ad es. quando manca la lista completa delle unità della
popolazione.
popolazione
Viene ddefinito
Vi
fi it sulla
ll bbase di scelte
lt e procedure
d successive,
i che
h
passano per più stadi o fasi.
Si individuano diverse unità (primarie, secondarie…) e si procede
con estrazioni
i i successive
i
Campionamento a stadi o a grappoli o
cluster
y popolazione composta da un numero elevato di soggetti
y •1°stadio: suddivisione dell’intera p
popolazione
p
in ggruppi
pp
omogenei (es. per comune di residenza) da cui si estraggono
casualmente delle unità(es. un gruppo di comuni)
y A Stadi: al 2°stadio si estrae un campione di popolazione
dalle unità estratte nel 1°stadio
y A Grappoli: al 2°stadio
°
si estraggono tutte le unità del
1°stadio/grappolo
Es. ricerca sui medici di medicina generale
g
Unità primaria: Ausl locale cui afferisce il medico
Unità secondarie: i medici stessi
Il campionamento
p
si effettua in due stadi,, cioè in due estrazioni
successive.
p
di unità pprimarie (ad es. 100 aziende
Primo: si estrae un campione
Ausl)
Secondo: si estrae casualmente un numero di unità secondarie, cioè
un numero di medici
Campione a grappolo
S utilizza
Si
l
quando
d lla popolazione
l
è naturalmente
l
suddivisa
dd
in
gruppi di unità contigue
Ad es.
es le famiglie,
famiglie le classi scolastiche,
scolastiche i ricoverati
rico erati in ospedale,
ospedale
ecc.
Campione a stadi e a grappolo si possono combinare:
Es Indagine multiscopo dell
Es.
dell’Istat
Istat sulle famiglie (a stadi:
campione di comuni; a grappolo: campione di famiglie)
Campioni non probabilistici
Seguono l’orientamento di chi li costruisce; vengono costruiti
senza conoscere la probabilità di estrazione dei casi
Vi a mancare la
Viene
l conoscenza dell’universo
d ll’ i
L’inferenza non si può applicare
I risultati sono validi solo per il campione
Campioni non probabilistici
Gli schemi di campionamento non probabilistico prescindono dal
principio di casualità e si basano su criteri soggettivi oppure
oggettivi di scelta delle unità.
La sezione delle unità della popolazione avviene esclusivamente in
base alla capacità del ricercatore di interpretare le caratteristiche
della popolazione e nel fare in modo che esse siano rispettate nel
campione.
Non è possibile applicare la teoria della probabilità per calcolare
l’
l’errore
campionario néé quella
ll dell’inferenza
d ll’ f
per estendere
d
i
risultati campionari all’intera popolazione.
Tipi di campione non probabilistico
Di convenienza
Propositivo o a scelta ragionata
Per quote (anche detto stratificato non probabilistico)
A p
palla di neve (a valanga)
g
Campionamento di convenienza
E’ costruito in modo accidentale senza nessun criterio di base. Consiste
nell’utilizzo delle persone/oggetti più facilmente accessibili come soggetti
di studio. E’ anche detto accidentale o a casaccio.
y Esempio 1: sondaggio elettorale telefonico.
y Si intervistano le prime 100 persone che rispondono al telefono
(considerare orario ecc).
ecc)
y Esempio 2: in un sondaggio di opinioni all'interno di una piccola azienda
con 200 impiegati si vuole studiare la valutazione attribuita alla qualità
d ll mensa. A questo
della
t scopo sii decide
d id di esaminare
i
un campione
i
composto
t
da 20 persone. Per motivi di convenienza, si intervistano le prime 20
persone che si presentano in sala mensa. Questo criterio é molto pratico,
in quanto non bisogna attendere ll'arrivo
arrivo di tutti i dipendenti; tuttavia,
tuttavia si
esamineranno impiegati di livello più basso: i dipendenti più impegnati o
comunque meno "affamati" non entreranno a far parte del campione.
Questo campione, è dunque viziato da un errore sistematico.
Campionamento di convenienza
y Esempio 3: Tutti gli studenti iscritti al secondo anno o i
primi 25 pazienti con una determinata diagnosi che si
ppresentano
ese ta o aallaa Casa della
e a sa
salute
ute di Palombara
a o a a Sa
Sabinaa
E’ anche detto volontario.
E
volontario
y Esempio
E
i 4:
4 Si vuole
l valutare
l
l’ ffi i di un nuovo vaccino
l’efficacia
i
contro l’AIDS. Tutti i soggetti a rischio che volontariamente
si presentano ai centri sieroprofilattici e che risultano
sieronegativi vengono sottoposti alla vaccinazione.
Campionamento a scelta ragionata
Le unità campionarie vengono scelte in modo razionale sulla base di
alcune
l
l
loro
caratteristiche,
h e si utilizza
l
quando
d l’ampiezza
l’
d l
del
campione è limitata.
Il ricercatore seleziona gli elementi sulla base della propria esperienza,
esperienza
facendo in modo di ottenere un campione rappresentativo della
popolazione.
Consiste nella scelta delle aree di analisi o delle unità campionarie in
funzione della peculiarità del fenomeno da studiare e della sua
presenza ritenuta dal ricercatore fortemente concentrata in tali aree
o su tali unità.
Esempio: in uno studio finalizzato a esaminare l’esperienza di trapianto
di midollo osseo, il campione propositivo è costituito da pazienti con
cancro che
h hanno
h
subito
bi un intervento
i
di trapianto
i
autologo
l
di
midollo osseo a seguito di diagnosi di tumore
Campione di esperti
Consiste nel ricorso a persone che, per la particolare attività che
svolgono,
l
sono a conoscenza di informazioni
i f
i i e notizie
ti i su specifici
ifi i
fenomeni; pertanto il loro coinvolgimento risulta indispensabile per
stimare la dimensione e le caratteristiche del fenomeno stesso.
Appare evidente quali e quante problematiche di natura statistica sono
connesse ad indagini effettuate tramite testimoni privilegiati senza i
quali, tuttavia, risulterebbe quasi impossibile dimensionare alcuni
fenomeni
e o e pecu
peculiari.
a .
E’ utilizzato nelle ricerche di tipo
p qqualitativo ((focus ggroup).
p)
Si distinguono:
Opinion leader (figure socialmente influenti).
Testimoni privilegiati (figure non socialmente importanti ma detentori di
informazioni).
Campionamento
p
p
per q
quote
La procedura di selezione prevede i seguenti passi:
la popolazione da campionare viene suddivisa in gruppi sulla base di
determinate caratteristiche (ad es. anagrafiche),
dai dati censuari o da altre fonti si ricava il peso percentuale di ciascuna
classe. Il totale della numerosità del campione viene suddiviso tra le classi
in modo da rispecchiare le proporzioni esistenti nella popolazione.
La scelta delle unità da intervistare è demandata all’intervistatore
nell’ambito
nell
ambito delle quote assegnategli
assegnategli.
Di fatto il campionamento
p
pper qquote è simile al campionamento
p
stratificato,,
ma la scelta delle unità, in ciascuno strato non è probabilistica è ciò
comporta l’assenza di stime corrette e causa una sottostima della varianza
complessiva.
l i D
D’altro
lt canto
t riduce
id
l mancate
le
t risposte
i
t e ha
h costi
ti molto
lt
più contenuti.
Campionamento
p
p
per q
quote
Ha la stessa logica del campionamento stratificato,
stratificato ma le quote all
all’interno
interno
di ciascuno strato sono selezionate dai ricercatori con criteri non
probabilistici.
Si ottiene definendo un dato numero di soggetti da campionare secondo
certe variabili, o in base ad una quota fissa (100 infermieri, 100 medici,
ecc) o mantenendo una certa proporzione tra universo e campione ( se in
un ospedale ci sono 30% di medici e 70% di infermieri si cerca di
mantenere la stesa quota nel campione ma la scelta nei singoli strati non
rispetta le
l regole
l della
d ll probabilità).
b bl à
Non essendo la scelta delle unità in ciascuno strato probabilistica, ciò
comporta ll’assenza
assenza di stime corrette e causa una sottostima della varianza
complessiva. Riduce però le mancate risposte e ha costi molto più
contenuti.
Campionamento per quote
Vantaggi
non è richiesta una lista delle unità,
non è necessario
i ricontattare
i t tt un’unità
’ ità non rispondente,
i
d t
l’intervistatore gode di ampia flessibilità e libertà nella scelta delle
unità.
Svantaggi
gg
la scelta delle persone da intervistare dipende totalmente
dall’intervistatore,
l’esigenza di raggiungere la quota può accrescere la durata media
dell’indagine.
Campionamento a valanga
Anche detto a catena o a palla di neve
y E’ utilizzato nel caso la popolazione sia costituita da soggetti che
tendono ad occultare la loro identità (omosessuali, prostitute ecc.)
o sono di difficile reperibilità (clandestini ecc).
y Consiste nel selezionare i casi utilizzando le reti relazionali
(sociali culturali,
(sociali,
culturali politiche) di un gruppo di persone inizialmente
contattate.
Es. Indagine sugli immigrati senza permesso di soggiorno
g
lo si sottopone
p
ad intervista e ppoi ggli si
Si contatta un immigrato,
chiede di indicare un altro immigrato di sua conoscenza disposto a
rilasciare l’intervista.
Campioni
probabilistici
No
Campioni non
probabilistici
Sì
Rapidità
Economicità
No
No
Sì
Sì
p
di
Ipotesi
contenuto
Analisi
dell’universo
pp
Rappresentatività
Sì
Sì
Sì
No
Sì
No
Inferenza
Sì
No
Semplicità
Considerazioni conclusive
Note di uso p
per la pianificazione
p
un disegno
g campionario
p
y Adottare una strategia di campionamento testata, monitorata e validata.
y Considerare più disegni di campionamento alternativi e valutarli alla luce di
p
qquali censimenti,, indagini
g
pprecedenti,, dati
informazioni disponibili
amministrativi o appositi studi pilota.
y Prevedere una certa flessibilità nel disegno in maniera da far fronte a necessità
gg
delle probabilità di selezione o una riduzione della
quali l’aggiornamento
dimensione campionaria.
y Prevedere una rotazione del campione qualora si desideri fornire stime di
variazioni efficienti e si voglia limitare il carico della rilevazione sulle unità
statistiche.
i i h
y Prevedere metodi per trattare il caso in cui alcune delle unità indagate si
scoprano non appartenere allo stato loro assegnato o non rientrare nella
classificazione loro attribuita.
attribuita
y Considerare nella fase di disegno del campione anche problemi connessi agli
errori di campionamento quali l’impossibilità di contattare qualche unità, il
contatto di unità non appartenenti alla popolazione (ad esempio un OSS dove ci
si aspetta un infermiere) o il rifiuto a partecipare all’indagine.