Il campionamento casuale

IL
CAMPIONAMENTO
IL CAMPIONAMENTO
La selezione di un campione serve per ottenere informazioni da un
piccolo gruppo per poi generalizzare i risultati ad una popolazione,
pertanto il campione deve essere rappresentativo della popolazione da
cui viene estratto (‘non viziato’)
La scelta della tecnica di campionamento, che avviene sulla base dello
scopo e del disegno dello studio, determina la significatività dei risultati
di una ricerca.
Indipendentemente dalle tecniche di campionamento che si intende
utilizzare la prima fase del campionamento consiste nel definire la
popolazione, ovvero, l’insieme che raccoglie tutte le osservazioni
possibili, relativamente ad una data variabile o ad un dato fenomeno.
- La Popolazione può essere finita o infinita
- Si distingue tra pop. Target e pop. Accessibile, la prima è quella in
studio la seconda è quella dalla quale si ottiene il campione
BASE DI CAMPIONAMENTO
Per effettuare un campionamento è necessario disporre di una lista, non
necessariamente nominativa, delle unità che compongono l’universo che si
intende osservare
 Gli identificatori della lista devo corrispondere uno-a-uno alle unità della
popolazione
La lista identifica la popolazione di selezione. Purtroppo sono frequenti i
casi in cui non esiste perfetta coincidenza tra popolazione di selezione e
popolazione obiettivo
Oltre a popolazione obiettivo e popolazione di selezione è necessario
parlare anche di popolazione di indagine. Selezionato il campione, accadrà
normalmente di non poterne osservare tutte le unità per impossibilità di
contattarle o per un loro rifiuto di partecipazione all'indagine (non
risposta). La popolazione obiettivo, differisce da quella di selezione a
causa dell'incompletezza della lista. La popolazione di selezione
differisce a sua volta da quella di indagine a causa della non risposta
 Per effettuare un campione si può usare un’unica lista o più liste. Nel
primo caso si dice che il campione ha una struttura semplice, nel secondo
caso complessa
LE TECNICHE DI CAMPIONAMENTO
PIANO DI CAMPIONAMENTO
Probabilistico
Non Probabilistico

Campione casuale semplice

Campione di Convenienza

Campione Sistematico

Campione Stratificato

Campione Statificato

Campione Propositivo

Campione a Grappolo
Entrambi i tipi di campionamento tendono a rappresentare al meglio la popolazione
in studio, ma in maniera differente, entrambi hanno vantaggi e svantaggi
CAMPIONAMENTO NON PROBABILISTICO
•I campioni non casuali precedono, dal punto di vista storico, quelli
probabilistici
•Tali campioni riflettono nel bene e nel male l’orientamento di colui che
li forma
•Non consentono il calcolo dell’errore dovuto al campionamento e della
bontà delle stime
CAMPIONAMENTO PROBABILISTICO (1)
Un campione casuale affida al caso la scelta delle unità statistiche da
campionare. “A caso però non vuol dire a casaccio”. Il concetto di caso
è infatti strettamente connesso a quello di probabilità : il caso è un
concetto intuitivo strettamente connesso all’idea di impossibilità di
previsione, di individuare un ordine, un legame.
Il campionamento casuale:
- garantisce le migliori proprietà statistiche degli stimatori
- garantisce la possibilità di stimare la bontà dei risultati ottenuti
- a parità di numerosità campionaria (e di costo) fornisce risultati più
attendibili
- semplifica la costruzioni di modelli statistici, che spesso assumono che i
dati siano stati raccolti in modo casuale
- gli intervistatori non hanno discrezionalità su quali unità statistiche
intervistare
- la procedura di selezione del campione è ben definita e prevede
l’introduzione e l’uso pianificato del caso
CAMPIONAMENTO PROBABILISTICO (2)
LA PROBABILITA’ DI SELEZIONE
Nel campionamento casuale la probabilità di selezione è fissata dal
ricercatore e può essere:
- costante, ovvero la stessa per tutte le unità della lista
- variabile, ad ogni unità viene assegnata una propria probabilità
La probabilità di selezione (pi) varia tra 0 ed 1 per ognuna delle N unità
della lista e ammonta a 1 per il complesso delle unità listate
La selezione delle unità dalla lista può essere eseguita seguendo uno dei
criteri che garantiscono casualità nell’individuazione del campione
(tecniche di campionamento)
CAMPIONAMENTO PROBABILISTICO (3)
LA DETERMINAZIONE DELLA NUMEROSITA’
CAMPIONARIA
- Non è vero del tutto che più unità è possibile collezionare, con il
bilancio disponibile, meglio è, infatti, a volte collezionare tante unità
comporta un impegno di risorse umane e materiali che può essere
spropositato per l’obiettivo della ricerca (esempio negli studi sui nuovi
farmaci!!)
- La numerosità campionaria determina l’attendibilità delle stime, un
campione esiguo può compromettere la credibilità dei risultati
dell’indagine
LA NUMEROSITA’ OTTIMA DEL CAMPIONE E’ QUELLA CHE
PERMETTE DI RAGGIUNGERE GLI OBIETTIVI DELL’INDAGINE AL
MINIMO COSTO, E SARA’ IL PIU’ PICCOLO NUMERO IN BASE AL
QUALE LE STIME RAGGIUNGERANNO IL LIVELLO DI
ATTENDIBILITA’ ATTESO DAL RICERCATORE.
CAMPIONAMENTO PROBABILISTICO (4)
LA DETERMINAZIONE DELLA NUMEROSITA’ CAMPIONARIA
DIPENDE:
- dall’obiettivo dell’indagine (end-point primario)
- dalla precisione delle stime che si vogliono ottenere (errori campionari)
- dal disegno di campionamento
GLI ERRORI DI UN’INDAGINE (1)
DI CAMPIONAMENTO
ERRORI
DI RILEVAZIONE
Errore di campionamento: Il campione di n unità usato nell’indagine è solo
uno dei tanti possibili campioni che si possono formare con le n unità della
popolazione. Estraendo campioni diversi si possono ottenere stime
diverse.
L’errore di campionamento diminuisce all’aumentare della dimensione del
campione e scompare per n=N
Errori di rilevazione: si realizzano quando il valore osservato presso
un’u.s. differisce dal suo valore vero
Questo tipo di errori sono idealmente indipendenti dal tipo di
campionamento perché possono manifestarsi anche in indagini esaustive
GLI ERRORI DI UN’INDAGINE (2)
ERRORI
SISTEMATICI
NON SISTEMATICI
Le distorsioni sistematiche possono verificarsi sia per le indagini
campionarie che censuarie, generalmente dovute a
- quesiti presentati male, che orientano verso una risposta
- comportamento non neutrale del rilevatore
- comportamento non sincero degli intervistati per argomenti scabrosi
Le distorsioni non sistematiche sono dovute ad errori in fase di
compilazione, codifica, ed elaborazione dei risultati.
DISEGNI DI CAMPIONAMENTO PROBABILISTICI

Campione Casuale Semplice

Campione Sistematico

Campione Statificato

Campione a Grappolo
CAMPIONAMENTO CASUALE SEMPLICE
• Nel campionamento casuale semplice tutti gli individui
nella popolazione hanno uguale probabilità di essere inclusi nel
campione.
• Data una popolazione di N individui ed un campione di dimensione n
la probabilità che l’i-esimo individuo entri nel campione è “n/N”
FRAZIONE DI CAMPIONAMENTO= n/N
• Il numero di possibili campioni di dimensione n estraibili da una
popolazione (dimensione N) è dato dal numero delle combinazioni di N
elementi n a n
CnN = (N!/[n!(N-n)!])
•La probabilità di un campione specifico è 1/ CnN
Supponiamo di avere a che fare con 6 pazienti affetti da una rara
malattia e chiediamoci in quanti modi potremmo sceglierne un
campione di 2.
Indicando ciascun paziente con una lettera da A a F, i possibili campioni
(senza ripetizione) sono dati dalle coppie:
AB AC AD AE AF
BC BD BE BF CD
CE CF DE DF EF
I campioni possibili sono dunque 15
(6!/2!*4!=6*5*4*3*2*1/(2*1)*4*3*2*1=720/48
Ognuno con una probabilità di 1/15 di essere estratto
Il campionamento casuale semplice implica inoltre che anche ciascun
individuo abbia la stessa probabilità di essere estratto. In questo caso
la probabilità che un soggetto sia estratto è 2/6=1/3 (ogni individuo
entra in 5 diversi campioni su 15) probabilità pari alla frazione di
campionamento
TAVOLA DEI NUMERI CASUALI
Metodo consigliato per l’estrazione di piccoli campioni da gruppi non troppo
numerosi
1. Le osservazioni che compongono la popolazione (anche detta base di
campionamento) vengono numerate in ordine progressivo da 1 a N;
2. Viene scelto un punto di partenza sulla tavola dei numeri casuali (es. a occhi
chiusi si segna un punto);
3. Viene letto (estratto), a partire dal punto così individuato, un numero di M
cifre, dove M è pari al numero di cifre del numero totale di osservazioni nella
popolazione (es. se la popolazione è di 300 persone useremo numeri di 3 cifre,
se di 4500 persone useremo numeri di 4 cifre);
4. Viene inclusa nel campione l’osservazione con numero progressivo pari al
numero estratto; se il numero estratto è superiore a N si estrae un altro
numero.
5. Si ripete la procedura leggendo i numeri successivi dalla tavola, fino a che
non è stato estratto il numero richiesto di osservazioni.
Esempio di estrazione di un
campione di 2 soggetti da
una base di 10.
- Devo scegliere numeri di 2
cifre.
- Decido che procederò
progressivamente per
colonna,dall’alto in basso.
- In modo casuale individuo il
punto evidenziato come punto
di partenza.
- I successivi valori inferiori
a 10 sono annotati nei
“cerchietti” (05 e 01) e
corrispondono ai soggetti da
campionare.
CAMPIONAMENTO CASUALE SISTEMATICO
Da un elenco numerato degli individui che formano la popolazione, dopo
l’estrazione casale della prima unità (utilizzo di una tavola di numeri
casuali)
si estraggono gli individui ad distanza costante (PASSO DI
CAMPIONAMENTO).
ES: supponiamo di disporre di una lista di 100 soggetti (!!!LISTA DI
CAMPIONAMENTO NON SEMPRE = POPOLAZIONE!!!) da cui estrarre 10
soggetti
001
002
003
004
005
006
007
008
009
010
011
012
013
014
015
016
017
018
019
020
021
022
023
024
025
026
027
028
029
030
031
032
033
034
035
036
037
038
039
040
041
042
043
044
045
046
047
048
049
050
051
052
053
054
055
056
057
058
059
060
061
062
063
064
065
066
067
068
069
070
071
072
073
074
075
076
077
078
079
081
081
082
083
084
085
086
087
088
089
090
091
092
093
094
095
096
097
098
099
100
PROCEDURA: scelgo a caso
un individuo dalla prima riga
e poi prendo
sistematicamente gli
individui distanti 10 numeri
l’uno dall’altro.
Supponendo di aver scelto
come primo individuo lo 005
il campione estratto
sarebbe composto da:
005, 015, 025, 035, 045,
055, 065, 075, 085, 095
CAMPIONAMENTO CASUALE SISTEMATICO
VANTAGGI:
E’ FACILE DA APPLICARE E FORNISCE STIME PIU’
ACCURATE
SVANTAGGI:
NON COGLIE EVENTUALI VARIAZIONI
PERIODICHE O CICLICHE NEI DATI E NON SI
PUO’ CALCOLARE UN INDICE DI VARIABILITA’
(Errore Standar) PER LE STIME CAMPIONARIE
CAMPIONAMENTO CASUALE STRATIFICATO
Popolazione riunita in gruppi tra loro omogenei ,
per aumentare l’efficienza del campione l’estrazione casuale
non è esercitata sull’intera popolazione ma all’interno dei
gruppi, come se si trattasse di tanti campioni casuali.
VANTAGGI
E’ VANTAGGIOSO QUANDO LA POPOLAZIONE E’
MOLTO ETEROGENEA E PUO’ ESSERE SUDDIVISA IN
PARTI OMOGENEE.
SVANTAGGI (?)
PRESUPPONE LA CONOSCENZA DELLE
CARATTERISTICHE DELLA POPOLAZIONE
CAMPIONAMENTO CASUALE STRATIFICATO
OBIETTIVI:
1. Tutti gli strati siano rappresentati nel campione con
numerosità sufficiente
-Frazione di campionamento costante (CRITERIO
PROPORZIONALE) negli strati ,il campione ha la stessa
composizione % per strati della popolazione
-Frazione di campionamento variabile (CRITERIO NON
PROPORZIONALE) tra strato e strato. Gli strati di particolare
interesse sono evidenziati e tutti i sotto campioni sono di uguali
dimensioni
2. voglio controllare la proporzione dei soggetti nei
diversi strati, non lasciandola esposta alla variabilità casuale
Esempio
Supponiamo di voler estrarre un campione, nel quale maschi
e femmine siano rappresentati con la stessa numerosità (100
uomini e 100 donne), dall’insieme dei casi inclusi in uno studio
epidemiologico su tumore polmonare nella popolazione di Torino
negli anni 1993-98
La frequenza relativa nella popolazione dei casi di tumore
polmonare è di 4 uomini : 1 donna.
Con un campione casuale semplice mi aspetto di trovare solo il
25% di donne. Procedo quindi ad un campionamento stratificato
FRAZIONE DI
CAMPIONAMENTO VARIABILE
CAMPIONAMENTO CASUALE A GRAPPOLI
E’ utilizzato quando gli individui sono suddivisi in modo
naturale od artificiale, in gruppi legati da vincoli di
contiguità
Caratteristica distintiva del metodo è che le unità non sono
scelte in modo diretto, ma estratte in quanto appartenenti
ad un certo gruppo.
- Spesso il motivo principale di tale procedimento è la
mancanza di un censimento completo delle unità da rilevare.
- Il metodo ha lo svantaggio di contenere un numero variabile di
unità dentro ogni gruppo e in genere di essere meno efficiente
del campionamento casuale semplice
Esempio:
voglio verificare l’efficacia di due diversi trattamenti per la
disassuefazione dal fumo. Entrambi i trattamenti devono essere
proposto dal medico di base.
Procedo in due fasi:
1. campione dei medici (10 medici tra tutti i medici di base)
2. campione degli assistiti dei medici campionati nella fase 1 (20
assistiti per ciascun medico)
Totale del campione : 10 medici x 20 assistiti = 200 assistiti.
AFFIDABILITA’ DELLE STIME CAMPIONARIE
Il campionamento serve per STIMARE alcuni parametri
(misure di sintesi) di certe popolazioni che non possono
essere esplorate totalmente
La “misura” del fenomeno che si ottiene dal campione non
riproduce esattamente quella che si otterrebbe a livello
di popolazione (anche quando il campione è
rappresentativo della popolazione)
Errore di campionamento
A parità di numerosità campionaria, campioni diversi
(ottenuti con lo stesso metodo o con metodi diversi)
producono “misure” del fenomeno diverse
Variabilità campionaria
DA COSA DIPENDE LA VARIABILITA’
CAMPIONARIA?
La variabilità campionaria dipende:
1.
2.
dalla dimensione del campione
(decresce all’aumentare della dimensione
campionaria)
dalla variabilità del fenomeno nella
popolazione (aumenta all’aumentare della
varianza nella popolazione)