Appunti

annuncio pubblicitario
DISEGNI DI CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE
(schede riassuntive da A. Stuart, I sondaggi di opinione. Idee per il campionamento)
CAMPIONAMENTO PROBABILISTICO: ci si riferisce a tutte quelle tecniche di selezione del campione per le quali
sia nota la probabilità che ciascuna unità della popolazione ha di entrare a far parte del campione. Caratteristica
fondamentale dei metodi probabilistici è quella di non consentire discrezionalità nella selezione delle unità che entrano
a far parte del campione; bensì definire un meccanismo di selezione che prevede l’introduzione e l’utilizzo pianificato
del CASO. Di conseguenza, affidandosi alla teoria del calcolo delle probabilità, è possibile calcolare la probabilità che
ogni singola unità ha essere selezionata.
CAMPIONAMENTO CASUALE SEMPLICE: il meccanismo di selezione è assimilabile ad un esperimento aleatorio
di estrazione di palline da un urna, dove ciascuna pallina è associata ad una unità della popolazione. Tutte le unità
hanno la stessa probabilità di entrare a far parte del campione .
L’informazione utilizzata per questa strategia di selezione del campione è la seguente: lista delle unità facenti parte
della popolazione, dimensione della popolazione N e dimensione del campione n.
Siamo interessati allo studio delle caratteristiche della distribuzione di probabilità della media campionaria
x
1 n
 xi al fine di poterne valutare la bontà (sulla base dei risultati ottenibili su tutti i campioni potenzialmente
n i 1
estraibili) come stimatore della media incognita nella popolazione.
Caso A: campionamento casuale semplice con rimpiazzo (ad ogni estrazione l’unità viene reinserita nella popolazione
da cui si campiona, quindi una stessa unità può potenzialmente entrare a far parte dello stesso campione più volte).
ESEMPIO: poniamoci nella situazione fittizia nella quale sia nota la composizione della popolazione dalla quale
campioniamo, in particolare supponiamo di essere interessati alla variabile casuale reddito mensile, che in una
popolazione di 4 individui (N=4) assume i seguenti valori (espressi in migliaia di euro): 2, 4, 5, 1. Se supponiamo di
estrarre campioni di dimensione 2 otteniamo 16 possibili campioni su cui calcolare la media e derivare la seguente
distribuzione campionaria (associando a ciascun possibile risultato la somma delle probabilità dei campioni che
realizzano quella media campionaria):
Media campionaria
1
1.5
2
2.5
3
3.5
4
4.5
5
Probabilità
1/16
2/16
1/16
2/16
4/16
2/16
1/16
2/16
1/16
Campioni che danno quella media e loro probabilità:
(1,1) con prob. 1/16
(1,2) (2,1) ciascuno con prob. 1/16
(2,2) con prob. 1/16
(1,4) (4,1) ciascuno con prob. 1/16
(2, 4) (4, 2) (5, 1) (1,5) ciascuno con prob. 1/16
(5, 2) (2, 5) ciascuno con prob. 1/16
(4, 4) con prob. 1/16
(4, 5) (5,4) ciascuno con prob. 1/16
(5,5) con prob. 1/16
Vorremmo che la media campionaria fosse il più vicino possibile alla media vera della popolazione  (pari a 3) con la
probabilità più elevata possibile (idealmente vorremmo che fosse pari alla media vera con probabilità 1, ma come e’
evidente ciò non è possibile). Vediamo che un valore campionario pari alla media nella popolazione si verifica, per
l’esempio considerato, in 4 casi su 16, in tutti gli altri casi il valore medio campionario è diverso (più o meno) dal
valore del parametro nella popolazione. Possiamo però valutare alcune utili caratteristiche della distribuzione di
probabilità nel suo complesso. In particolare, la media (valore atteso) della distribuzione campionaria costruita risulta
pari a 3, che corrisponde alla media calcolata sulla popolazione nel complesso.
Calcoliamo ora la varianza di tale distribuzione, vale a dire Var ( x ) 
k
 (x
i 1
i
  ) 2 pi , che misura la variabilità delle
possibili diverse medie campionarie ottenibili sui potenziali diversi campioni di dimensione fissata n estraibili dalla
popolazione di dimensione N (nel caso con rimpiazzo i possibili campioni, distinguibili tra loro per l’ordine o per il
n
cambiamento di almeno una unità, sono in numero N ). Tale varianza risulta pari a 1.25.
RISULTATO: il valore medio della distribuzione di probabilità della media campionaria risulta pari a  (ciò ci indica
che la media campionaria è uno stimatore CORRETTO della media vera  nella popolazione) e la varianza di tale
media (misura della variabilità della media campionaria sui diversi campioni estraibili), Var (x ) , è pari a 2/n (2
nella popolazione è pari a 2.5), dipende, quindi, dalla varianza, incognita, della v.c. reddito nella popolazione, ma
anche, in maniera inversa, dalla dimensione del campione (dicendoci in tal modo che, aumentando la dimensione del
1
campione, possiamo ridurre la variabilità della media campionaria assicurandoci di avere una probabilità più elevata di
selezionare campioni con reddito medio vicino al reddito medio della collettività; tale proprietà dello stimatore media
campionaria prende il nome di CONSISTENZA).
OSSERVAZIONE 1: per avere un’idea dell’effettiva variabilità della media campionaria (che fornisce una misura della
PRECISIONE della stima) dobbiamo poter valutare l’ordine di grandezza della varianza della media campionaria, cosa
che può essere fatta sostituendo a 2 una sua stima nell’ espressione di Var (x ) =2/n . Uno stimatore corretto della
varianza 2 della v.c. nella popolazione è dato dalla cosiddetta varianza campionaria corretta s 
2
1 n
( xi  x ) 2 ,

n  1 i 1
il cui valore, come per la media campionaria, differisce nei diversi possibili campioni. Con riferimento all’esempio
precedente otteniamo infatti la seguente distribuzione di probabilità per la varianza campionaria corretta:
Varianza camp.corr.
0
0.5
2
4.5
8
Probabilità
4/16
4/16
2/16
4/16
2/16
Campioni che danno quella varianza e loro probabilità:
(2, 2) (4, 4) (5, 5) (1, 1) ciascuno con prob. 1/16
(2, 1) (1, 2) (4, 5) (5, 4) ciascuno con prob. 1/16
(4, 2) (2, 4) ciascuno con prob. 1/16
(2, 5) (5, 2) (4, 1) (1, 4) ciascuno con prob. 1/16
(5, 1) (1, 5) ciascuno con prob. 1/16
la cui media è pari a 2.5 (varianza del reddito nella popolazione), a dimostrare che si tratta di uno stimatore corretto.
OSSERVAZIONE 2: sulla base di un risultato fondamentale della statistica (noto come Teorema Limite Centrale) la
distribuzione della media campionaria può essere approssimata (sempre meglio all’aumentare della dimensione
campionaria) dalla distribuzione normale (o di Gauss). Le caratteristiche della curva normale (e la possibilità di
determinare agevolmente aree sotto la curva, vale a dire la probabilità di trovarsi in un certo intervallo), insieme al
valore della media campionaria osservato e alla stima della variabilità di tale media, ottenuta come s2/n, possono essere
sfruttate per fare affermazioni (costruzione di intervalli di confidenza) del tipo:
s
s 

; x  2.8
 x  2.8
 contiene il valore della media incognita
n
n

s
s 

;x  2
con probabilità circa del 95% l’intervallo  x  2
 contiene il valore della media incognita
n
n

con probabilità circa del 99.5% l’intervallo
con probabilità circa del 68% l’intervallo
s
s 

; x 1
 x 1
 contiene il valore della media incognita
n
n

Tali affermazioni permettono di associare alle stime una misura del grado di affidabilità (si osservi che aumentando la
misura di probabilità aumenta anche l’ampiezza dell’intervallo che quindi si rivela più affidabile ma meno informativo):
ad esempio possiamo dire che ci sono 95 possibilità su 100 che la media campionaria non si discosti dalla media vera
più di 2 volte la sua deviazione standard (radice quadrata della sua varianza).
Caso B: campionamento casuale semplice senza rimpiazzo (detto anche in blocco, l’unità estratta non viene reinserita
nella popolazione, quindi una stessa unità non può entrare a far parte dello stesso campione più volte).
ESEMPIO: con riferimento all’esempio precedente (stessa popolazione di 4 unità con valori del reddito pari a 2, 4, 5, 1
migliaia di euro) supponiamo ora di estrarre campioni di dimensione 2 senza rimpiazzo, ottenendo 6 possibili campioni
su cui costruiamo la seguente distribuzione campionaria:
Media campionaria
1.5
2.5
3
3.5
4.5
Probabilità
1/6
1/6
2/6
1/6
1/6
Campioni che danno quella media e loro probabilità:
(2, 1) con prob. 1/6
(4, 1) con prob. 1/6
(2, 4) (5, 1) ciascuno con prob. 1/6
(2, 5) con prob. 1/6
(4, 5) con prob. 1/6
Il numero dei possibili campioni (consideriamo in questo caso campioni diversi quelli distinguibili sulla base della
diversità di almeno un’unità, mentre non è necessario distinguere in base all’ordine con cui le unità compaiono, ad
2
esempio il campione (2,1) non è considerato distinguibile da (1,2)) è calcolabile sulla base del coefficiente binomiale:
N
 
n
La media della distribuzione è ancora una volta pari a 3, e quindi uguale alla media vera del reddito nella ppolazione.
Calcoliamo ora la varianza di tale distribuzione, Var (x ) , che risulta pari a 0.83 (rispetto al caso con rimpiazzo la
varianza ottenuta è più bassa).
RISULTATO: il valore medio della distribuzione di probabilità della media campionaria risulta anche nel caso senza
rimpiazzo pari a  (la media campionaria è ancora uno stimatore CORRETTO della media vera  nella popolazione);
mentre la varianza di tale media è legata alla varianza, incognita, della v.c. reddito nella popolazione dalla seguente
relazione:
Var ( x ) 
2
n

N n
N 1
Tale espressione determina (come abbiamo visto anche nell’esempio) una minore variabilità della media campionaria
rispetto al caso con rimpiazzo, quindi una maggiore PRECISIONE della stima, nel senso che nel caso di
campionamento senza rimpiazzo è maggiore la probabilità di trovare realizzazioni della media campionaria più vicine al
valore vero. Si osservi tuttavia che, se n è sufficientemente piccolo rispetto alla dimensione della popolazione N, il
fattore moltiplicativo (N-n)/(N-1) diviene irrilevante (praticamente pari a 1): in tal caso non si ha differenza tra i due tipi
di campionamento casuale semplice, con o senza rimpiazzo.
Anche in questo caso, infine, la varianza si riduce all’aumentare della dimensione (CONSISTENZA della media
campionaria).
In modo analogo a quanto visto per la media campionaria, possiamo studiare le caratteristiche della distribuzione di
probabilità della proporzione campionaria (numero di unità che presentano una certa caratteristica nel campione) al fine
di poterne valutare la bontà come stimatore della proporzione incognita di unità che presentano una certa caratteristica
nella popolazione. Tale caso può essere trattato alla stregua di una media campionaria codificando opportunamente le
osservazioni, vale a dire associando il valore 1 alla presenza e 0 all’assenza della caratteristica di interesse (esempio
abitudine o non abitudine al fumo), supponendo di selezionare un campione casuale semplice con rimpiazzo da una
popolazione costituita tutta da valori 0 e 1 (il numero complessivo N in questo caso diviene irrilevante al fine della
derivazione dei risultati, ciò che è rilevante è esclusivamente la proporzione di valori pari 1 nella popolazione, che
corrisponde alla probabilità di selezionare un individuo con la caratteristica desiderata).
ESEMPIO: poniamoci nella situazione fittizia nella quale sia noto che 2/3 della popolazione presentano la caratteristica
di essere fumatori, vale a dire la distribuzione di probabilità della v.c. abitudine al fumo è la seguente:
Abitudine al fumo Probabilità
0
1/3
1
2/3
la cui media (valore atteso) è pari alla proporzione 2/3 (che indichiamo con p) e la cui varianza è pari a 2/9=0.22 (che si
ottiene anche come p(1-p)). Se supponiamo di estrarre campioni di dimensione 3 otteniamo 8 possibili campioni su cui
calcolare la proporzione osservata e derivare la seguente distribuzione campionaria (associando a ciascun possibile
risultato la somma delle probabilità dei campioni che realizzano quella proporzione):
Proporzione camp.
0
1/3
2/3
1
Probabilità
1/27
6/27
12/27
8/27
Campioni che danno quella proporzione e loro probabilità:
(0,0,0) con prob. 1/27
(1,0,0) (0,1,0) (0,0,1) ciascuno con prob. 2/27
(1,1,0) (0,1,1) (1,0,1) ciascuno con prob. 4/27
(1,1,1) con prob. 8/27
Per la quale il valore medio risulta pari a 2/3 e la varianza pari a 2/27=0.074.
RISULTATO: il valore medio della distribuzione di probabilità della proporzione campionaria risulta pari a p (ciò ci
indica che la proporzione campionaria è uno stimatore CORRETTO della proporzione vera nella popolazione) e la
varianza di tale proporzione (misura della variabilità della proporzione campionaria sui diversi campioni estraibili) è
pari a p(1-p)/n [utilizzare questa espressione al posto della p(1-p)/(n-1) di pag. 43; le due espressioni si equivalgono
per campioni numerosi] e dipende, quindi, dalla proporzione vera ma anche, in maniera inversa, dalla dimensione del
campione (dicendoci in tal modo che, aumentando la dimensione del campione, possiamo ridurre la variabilità della
proporzione campionaria assicurandoci di avere una probabilità più elevata di selezionare campioni con proporzione di
fumatori vicina alla proporzione di fumatori nella collettività; in altre parole la proporzione campionaria è uno stimatore
CONSISTENTE).
3
INFORMAZIONI SUPPLEMENTARI: supponiamo di poter disporre di ulteriori informazioni (a parte la lista) sulla
popolazione, informazioni che riteniamo connesse in qualche modo alle caratteristiche del fenomeno che stiamo
studiando. In particolare pensiamo di poter suddividere le unità facenti parte della popolazione in gruppi sulla base della
conoscenza di variabili che le caratterizzano (potrebbe essere ad esempio il luogo di residenza, l’età, il titolo di studio,
etc.) e di andare a campionare estraendo dai singoli gruppi unità in modo casuale o selezionando casualmente interi
gruppi anziché unità. Nel primo caso si configura un disegno di campionamento detto campionamento stratificato, nel
secondo invece si parla di campionamento a grappoli. Qualora queste due strategie siano utilizzate in maniera
congiunta si ha il cosiddetto campionamento a due (o più) stadi. La natura dei gruppi e il modo di sfruttare
l’informazione supplementare è diversa, come vedremo, nei due casi: nella stratificazione ha senso la ripartizione delle
unità in gruppi che presentino caratteristiche omogenee al loro interno e nello stesso tempo tra loro ben differenziati;
mentre nella costruzione dei grappoli i gruppi dovranno presentarsi omogenei tra loro e invece differenziati (variabili) il
più possibile nella composizione interna. Ciò al fine di migliorare la PRECISIONE (che vuol dire ridurre la varianza)
degli stimatori, che rimane il nostro principale obiettivo.
CAMPIONAMENTO STRATIFICATO:
 Suddivisione della popolazione in sottogruppi (detti strati)
 Estrazione di un certo numero di unità (secondo la frazione di campionamento f=n/N prescelta) in modo
casuale (c.c.s. con o senza rimpiazzo) da ciascuno strato
Possibili motivazioni per il ricorso a questo tipo di strategia:
a) se ad esempio vogliamo che nel campione risultino rappresentate tutte le aree amministrative oppure tutti i ceti
sociali all’interno di una certa collettività il campionamento casuale semplice non ci fornisce alcuna garanzia al
riguardo, dato che per effetto del caso potremmo anche selezionare tutti individui residenti in una stessa regione oppure
lasciare completamente fuori dal campione una certa classe sociale. La costruzione di strati per le diverse regioni e/o
diverse classi sociali consente di ottenere tale rappresentatività (estraendo unità da tutti gli strati);
b) altre motivazioni possono risiedere nel desiderio di studiare anche singolarmente i sottocollettivi che compongono
gli strati nella popolazione;
c) il raggiungimento di una maggiore PRECISIONE degli stimatori a parità di dimensione campionaria è una delle
motivazioni che determinano la scelta per questo tipo di disegno di campionamento. Rispetto al campionamento casuale
semplice è possibile migliorare in precisione (vale a dire ridurre la variabilità della media campionaria a parità di
dimensione del campione) se gli strati presentano la caratteristica (o sono costruiti in modo tale) di essere molto diversi
tra loro e nello stesso tempo omogenei al loro interno.
Vogliamo studiare come sia effettivamente possibile migliorare nella PRECISIONE delle stime mediante la
stratificazione. Consideriamo come punto di partenza un caso in cui dividiamo la popolazione in due strati “qualsiasi”
(senza alcun particolare criterio) e campioniamo con la stessa frazione in entrambi gli strati, per poi vedere cosa cambia
in termini di precisione modificando queste condizioni (l’esempio è quello riportato in Stuart, pag. 46). Consideriamo
come termine di confronto il caso del campionamento casuale semplice senza rimpiazzo (si valuta l’aumento o la
riduzione rispetto alla varianza della media campionaria nel caso del c.c.s., posto che la media campionaria rimanga uno
stimatore corretto).
ESEMPIO: si consideri la popolazione fittizia costituita da 6 unità che presentano valori pari a 2, 6, 10, 8, 10, 12, dalla
quale si desideri estrarre un campione di 4 unità, dopo aver preventivamente suddiviso la popolazione in due strati di
uguale ampiezza:
I Strato: 2, 6, 10
II Strato: 8, 10, 12
Caso A: frazione di campionamento costante (estraiamo in modo casuale, senza rimpiazzo, 2 unità da ciascuno strato,
quindi f=2/3 per entrambi gli strati). L’obiettivo rimane quello di ottenere una stima della media della popolazione nel
complesso. I campioni ottenibili con questo modo di procedere sono 9 (anziché 15 come avremmo avuto nel caso di
c.c.s. senza rimpiazzo dalla popolazione non stratificata) e la distribuzione campionaria della media è la seguente:
Media campionaria
6.5
7
7.5
8
8.5
9
9.5
Probabilità
1/9
1/9
2/9
1/9
2/9
1/9
1/9
Campioni che danno quella media e loro probabilità:
(I: 2,6 II: 8, 10) con prob. 1/9
(I: 2, 6 II: 8, 12) con prob. 1/9
(I: 2, 6 II: 10, 12) (I: 2, 10 II: 8, 10) ciascuno con prob. 1/9
(I: 2, 10 II: 8, 12) con prob. 1/9
(I: 2, 10 II: 10, 12) (I: 6, 10 II: 8, 10) ciascuno con prob. 1/9
(I: 6, 10 II: 8, 12) con prob. 1/9
(I: 6, 10 II: 10, 12) con prob. 1/9
4
Il valore atteso è pari a 8 (che corrisponde alla media nella popolazione), a conferma che la media campionaria continua
ad essere uno stimatore corretto anche con questo meccanismo di selezione. La Var (x ) risulta pari a 5/6 (più bassa
della varianza ottenibile per la distribuzione della media campionaria sui 15 campioni selezionati con meccanismo c.c.s.
senza rimpiazzo, pari a 16/15, si veda pag. 28). Quindi, nel caso specifico, la stratificazione con frazione di
campionamento costante ha portato un guadagno in precisione.
Caso B: frazione di campionamento variabile (estraiamo 3 unità dal primo strato e 1 dal secondo). Ciò significa che
campioniamo interamente il primo strato e selezioniamo una unità casualmente dal secondo, quindi abbiamo tre
possibili campioni di 4 elementi e la distribuzione della media campionaria diventa:
Media campionaria
6.5
7
7.5
Probabilità
1/3
1/3
1/3
Campioni che danno quella media e loro probabilità:
(I: 2,6, 10 II: 8) con prob. 1/3
(I: 2, 6 , 10 II: 10) con prob. 1/3
(I: 2, 6, 10 II: 12) con prob. 1/3
Attenzione: se non teniamo conto della diversa frazione di campionamento e calcoliamo la media campionaria come
semplice media aritmetica dei quattro valori che compongono il campione lo stimatore non è più corretto (infatti
otteniamo un valore medio pari a 7, anziché 8). Lo stimatore media campionaria deve essere opportunamente
modificato per tenere conto della diversa frazione di campionamento: dobbiamo calcolare la media separatamente sulle
componenti del campione provenienti dai due strati e calcolare poi una media delle medie di strato:
Media I strato
Media II strato
Media delle medie di strato
Probabilità
I campione
6
8
7
1/3
II campione
6
10
8
1/3
III campione
6
12
9
1/3
La media delle medie di strato (che indichiamo con x * ad indicare che si trattta di una media campionaria
opportunamente modificata) è uno stimatore corretto della media della popolazione (infatti il suo valore atteso è pari a
8). La varianza della media delle medie di strato (che indichiamo con con Var (x *) ) è pari a 2/3, più bassa del valore
5/6 trovato nel caso A, quindi abbiamo un guadagno in precisione. Si osservi, tuttavia, che se avessimo proceduto
campionando tutto il II strato ed un solo elemento dal primo, si sarebbe ottenuta una varianza pari a 8/3 (con perdita in
precisione rispetto al caso A). Ciò è dovuto alla variabilità che caratterizza i due strati della popolazione: la varianza del
primo strato  I è pari a 16 (con media 6) e quella del secondo strato  II è pari a 4 (con media 10). Quello che abbiamo
ottenuto è che campionando più intensamente dallo strato più variabile la precisione migliora rispetto al caso con
frazione di campionamento costante.
RISULTATO:
 Utilizzando una frazione di campionamento costante la precisione può o meno migliorare rispetto al c.c.s.,
dipendentemente dalla formazione degli strati;
 Con frazione di campionamento variabile il guadagno in precisione dipende da dove decidiamo di campionare
più intensamente, in particolare è opportuno che la frazione di campionamento sia maggiore negli strati
caratterizzati da maggior variabilità. Come regola generale potremmo dire che la frazione di campionamento
dovrebbe essere proporzionale alla radice quadrata della varianza nello strato (nell’esempio abbiamo un
rapporto di 2 a 1 tra le due radici delle varianze nei due strati, quindi volendo estrarre un campione di 4, 3 dal
primo strato ed 1 dal secondo è effettivamente il meglio che possiamo fare).
2
2
Caso C: consideriamo ancora due strati della stessa ampiezza ma costruiti in modo diverso, per valutare l’effetto della
formazione degli strati. Mettiamo a confronto tre diversi casi (tornando a supporre, per facilità di confronto, una
frazione di campionamento costante, vale a dire due elementi da ogni strato):
CASO I
CASO II
CASO III
I strato
II strato
Var (x *)
2, 6, 10
2, 10, 12
2, 6, 8
8, 10 , 12
6, 8, 10
10, 10, 12
5/6
4/3>5/6 (ma anche>16/15)
4/9<5/6 (ma anche <2/3)
Il terzo caso è quello che fornisce i risultati migliori ottenuti finora: si osservi che i due strati del caso III sono costruiti
in modo da avere i valori più bassi della popolazione nel I strato ed i valori più alti nel II. L’idea che si può trarre da
questo esempio è che è opportuno differenziare tra loro il più possibile gli strati (facendo in modo che le medie di strato
5
siano tra loro il più differenziate possibile, nel caso III la media del primo strato I è 16/3=5.33 e quella del secondo II
32/3=10.67).
RISULTATO:
 Nella formazione degli strati è bene privilegiare omogeneità all’interno degli stessi e massimizzare la
differenziazione da strato a strato. Mettendo insieme considerazioni relative a variabilità e medie interne agli
strati si osservi che costruendo gli strati in modo da differenziare il più possibile i valori medi degli strati
contemporaneamente riduciamo anche la variabilità interna allo strato (in quanto stiamo costruendo strati
omogenei al loro interno).
Caso D: è possibile avere un numero diverso di strati ed una diversa ampiezza, con l’accorgimento di dover poi
calcolare la media campionaria tenendo conto della diversa frazione di campionamento per strato. Abbiamo, infatti, già
visto nel Caso B come il calcolo della media delle medie di strato implicitamente tenesse conto della diversa frazione di
campionamento per strato fs=ns/Ns, dovuto al diverso numero di unità campionate per strato ns; in questo caso la
frazione di campionamento diventa variabile, anche tenendo ermo il numero di unità campionate per strato, dal
momento che Ns è diversa nei diversi strati.
Ci chiediamo, infine, quanti strati sia opportuno costruire e di che dimensione. Da quanto detto finora appare che la
stratificazione (se effettuata seguendo i criteri che abbiamo enunciato) porta ad un miglioramento in precisione: ciò
induce a pensare di aumentare il numero degli strati al limite fino alla dimensione campionaria stessa n (si ricordi
comunque che per poter calcolare una misura di variabilità dovremmo avere almeno due elementi per strato), tuttavia
quanto detto finora si basa sull’ipotesi irrealistica di conoscere effettivamente la popolazione e quindi di poter costruire
gli strati in maniera ottimale. Nella pratica ci aspettiamo guadagni più modesti: il guadagno rispetto al c.c.s. può essere
misurato come differenza tra variabilità delle medie per i due diversi disegni di campionamento. Per far ciò è necessario
che entrambe tali varianze siano quantificabili, quindi dobbiamo disporre anche per il campione stratificato di una stima
per la varianza della media Var (x *) , che può essere ottenuta mediante un’opportuna combinazione delle stime delle
varianze delle medie campionarie x calcolate strato per strato.
6
CAMPIONAMENTO A GRAPPOLI:
 Suddivisione della popolazione in sottogruppi (detti grappoli)
 Estrazione casuale (con un meccanismo casuale semplice con o senza rimpiazzo) di uno o più grappoli
Questo disegno di campionamento determina in generale una perdita di precisione rispetto al campionamento casuale
semplice: l’attenzione viene rivolta alla cosiddetta precisione per unità di costo.
Finora abbiamo proceduto alla selezione di singole unità dalla popolazione o da strati, non c’era alcun collegamento tra
le diverse unità nel meccanismo di selezione: nel campionamento stratificato necessariamente la selezione di una unità è
legata alla selezione delle altre che fanno parte dello stesso grappolo. Stiamo campionando i grappoli (con c.c.s.)
anziché le unità.
ESEMPIO: si consideri ancora una volta la popolazione fittizia costituita da 6 unità che presentano valori pari a 2, 6, 10,
8, 10, 12, che supponiamo di suddividere in tre grappoli della stessa ampiezza:
I grappolo: 2, 8
II grappolo: 6, 10
III grappolo: 10, 12
Caso A: supponiamo di voler estrarre campioni di dimensione 2, ciò corrisponde alla selezione casuale di un grappolo,
quindi abbiamo soltanto tre possibili diversi campioni di dimensione 2, sulla base dei quali possiamo costruire la
seguente distribuzione di probabilità della media campionaria:
Media campionaria
5
8
11
Probabilità
1/3
1/3
1/3
Campioni che danno quella media e loro probabilità:
(2, 8) con prob. 1/3
(6, 10) con prob. 1/3
(10.12) con prob. 1/3
Il valore atteso è pari a 8 (che corrisponde alla media nella popolazione), a conferma che la media campionaria continua
ad essere uno stimatore corretto anche con questo meccanismo di selezione. La Var (x ) risulta pari a 6 (più elevata
della varianza ottenibile per la distribuzione della media campionaria sui 15 campioni di dimensione 2 selezionati con
meccanismo c.c.s. senza rimpiazzo, pari a 64/15, si veda pag. 25). Quindi, nel caso specifico, il campionamento a
grappoli ha portato una perdita in precisione.
Caso B: la varianza della media campionaria dipende dal modo in cui vengono formati i grappoli. Consideriamo ora tre
diversi modi di costruire tre grappoli dalla popolazione fittizia che stiamo studiando:
CASO I
CASO II
CASO III
I grappolo
II grappolo
III grappolo
Var (x )
2, 8
2, 6
2, 12
6, 10
8, 10
6, 10
10 , 12
10, 12
8, 10
6
26/3>6
2/3<64/15 guadagno in precisione
RISULTATO:
 Al fine di ottenere guadagni in precisione delle stime, è necessario che le unità all’interno degli grappoli
presentino la maggiore variabilità possibile (conseguentemente i grappoli si differenzieranno meno tra di loro):
deve quindi essere privilegiata la variabilità interna ai grappoli anziché la variabilità tra gli stessi (diversamente
da quanto abbiamo visto per la stratificazione).
 In generale possiamo aspettarci questo tipo di relazione tra variabilità (interna ai grappoli e totale nella
popolazione) e precisione rispetto al c.c.s.:
Maggiore variabilità nei grappoli che nella popolazione: maggiore precisione rispetto al c.c.s. (per n fissato)
Stessa variabilità nei grappoli che nella popolazione:
stessa precisione rispetto al c.c.s. (per n fissato)
Minore variabilità nei grappoli che nella popolazione:
minore precisione rispetto al c.c.s. (per n fissato)


La maggiore o minore precisione rispetto al c.c.s. dipende, quindi, da come sono formati i grappoli. Si osservi
che, nella realtà, i grappoli sono per lo più “naturali”, vale a dire costruiti non artificialmente (cosa possibile
nell’esempio trattandosi di una popolazione supposta nota) ma, ad esempio, formati sulla base di criteri di
contiguità territoriale: in tal modo le caratteristiche delle unità interne ai grappoli tendono ad essere simili e
quindi ad andare contro il criterio generale sopra enunciato.
Introduciamo il concetto di precisione per unità di costo: varrà la pena accettare una varianza della media
campionaria più elevata rispetto al c.c.s. qualora i costi di campionamento risultino, col meccanismo a
grappoli, ridotti più che proporzionalmente rispetto all’aumento di variabilità: ad esempio se la varianza della
media campionaria aumenta del 10% ed i costi si riducono solo del 5% si riterrà che non ci sia convenienza a
passare al campionamento a grappoli.
7
Caso C: vediamo cosa succede qualora si considerino grappoli di ampiezza variabile. In questo caso non siamo in grado
di fissare a priori la dimensione del campione n, che dipenderà da quali grappoli selezioniamo. Fissiamo il numero di
grappoli da estrarre, supponiamo 1, e ipotizziamo la seguente ripartizione della popolazione in tre grappoli:
I grappolo: 2
II grappolo: 6, 8, 10
III grappolo: 10, 12
Abbiamo tre potenziali possibili campioni (di dimensione1, 2 o 3 a seconda del grappolo che selezioniamo), ciascuno
dei quali ha la medesima probabilità di essere estratto. Possiamo ancora una volta costruire la distribuzione campionaria
della media:
Media campionaria
2
8
11
Probabilità
1/3
1/3
1/3
Campioni che danno quella media e loro probabilità:
(2) con prob. 1/3
(6, 8, 10) con prob. 1/3
(10, 12) con prob. 1/3
Si osservi che il valore medio di questa distribuzione è pari a 7 e quindi differisce dalla media vera nella popolazione
(=8). Come abbiamo già visto per il campionamento stratificato con frazione di campionamento variabile (Casi B e
D), dobbiamo anche in questo caso procedere ad una modifica dello stimatore media campionaria per tenere conto della
diversa dimensione dei grappoli, attribuendo un peso diverso a ciascuna media campionaria, in paricolare il peso è
ottenuto come rapporto tra l’ampiezza del grappolo e l’ampiezza media dei grappoli in cui è suddivisa la popolazione
(nel nostro caso pari a 2):
Media campionaria
2
8
11
Peso
1/2
3/2
2/2
Media modificata
1
12
11
Il valore atteso calcolato sul nuovo stimatore è pari a 8 (media vera nella popolazione) e quindi soddisfa la proprietà di
correttezza. La varianza della nuova media campionaria risulta pari a 74/3 (che è il valore più elevato ottenuto fino ad
ora).
Consideriamo ora un modo alternativo di costruire i tre grappoli, per vedere come si modifica la precisione delle stime:
I grappolo: 2, 6, 8
II grappolo: 10, 10
III grappolo: 12
Come si vede, si è isolato il termine più grande (mentre nel raggruppamento precedente il più piccolo), ottenendo la
seguente distribuzione campionaria:
Media campionaria
16/3
10
12
Probabilità
1/3
1/3
1/3
Campioni che danno quella media e loro probabilità:
(2, 6, 8) con prob. 1/3
(10, 10) con prob. 1/3
(12) con prob. 1/3
Con l’accorgimento di modificare la media per tenere conto della diversa dimensione dei grappoli, abbiamo:
Media campionaria
16/3
10
12
Peso
3/2
2/2
1/2
Media modificata
8
10
6
In questo caso la varianza della media campionaria modificata si riduce a 8/3 .
RISULTATO
 Il modo in cui sono formati i grappoli è determinante nel contributo alla varianza della media campionaria
(questo sia nel caso di grappoli aventi la stessa dimensione che per grappoli aventi dimensione variabile).
Ricordiamo che nella pratica non si ha la possibilità di influire sulla formazione dei grappoli, spesso i grappoli
sono aggregazioni naturali, ad esempio i nuclei familiari (per i quali ci aspettiamo una omogeneità di
comportamento), oppure aree geografiche contigue (quartieri o isolati) e quindi dobbiamo aspettarci una
perdita in precisione che però può essere compensata da costi ridotti.
8
INTRODUZIONE DI UNO STADIO ULTERIORE PER COMPENSARE LA PERDITA IN PRECISIONE:
CAMPIONAMENTO A DUE STADI
 Suddivisione della popolazione in sottogruppi (detti grappoli)
 Selezione casuale (con un meccanismo casuale semplice con o senza rimpiazzo) di uno o più grappoli (unità di
primo stadio)
 Estrazione casuale (con un meccanismo casuale semplice con o senza rimpiazzo) di un certo numero di unità
da ogni grappolo selezionato (unità di secondo stadio)
ESEMPIO: si consideri ancora una volta la popolazione fittizia costituita da 6 unità che presentano valori pari a 2, 6, 10,
8, 10, 12, suddivisa nei tre grappoli della stessa ampiezza (Caso A precedente):
I grappolo: 2, 8
II grappolo: 6, 10
III grappolo: 10, 12
Caso A: ipotizziamo il seguente meccanismo di selezione:
I stadio: selezione casuale di 2 grappoli (senza rimpiazzo)
II stadio: selezione casuale di un individuo da ciascun grappolo (senza rimpiazzo)
Abbiamo potenzialmente 12 possibili campioni (ciascuno con probabilità 1/12):
I stadio
II stadio
Grappolo I e II
(2, 6), (2, 10), (8, 6), (8, 10)
Grappolo I e III
(2, 10), (2, 12), (8, 10), (8, 12)
Grappolo II e III
(6, 10), (6, 12), (10, 10), (10, 12)
Otteniamo la seguente distribuzione campionaria della media:
Media campionaria
4
6
7
8
9
10
11
Probabilità
1/12
2/12
2/12
1/12
3/12
2/12
1/12
Campioni che danno quella media e loro probabilità:
(2, 6) con probabilità 1/12
(2, 10), (2, 10) ciascuno con probabilità 1/12
(8, 6), (2, 12) ciascuno con probabilità 1/12
(6, 10) con probabilità 1/12
(8, 10), (8, 10), (6, 12) ciascuno con probabilità 1/12
(8, 12), (10, 10) ciascuno con probabilità 1/12
(10, 12)
Il valore medio della distribuzione è 8 (pari al valore medio nella popolazione), quindi lo stimatore media campionaria è
corretto, la varianza della distribuzione è pari a 46/12 (<6, valore che avevamo osservato per il campionamento a
grappoli selezionando un campione di 2 elementi, con la stessa formazione dei grappoli): abbiamo un miglioramento di
precisione rispetto al caso di un unico stadio, a parità di condizioni relativamente alla suddivisione in grappoli e alla
dimensione del campione.
Caso B: se applichiamo la stessa metodologia ai possibili diversi raggruppamenti in tre grappoli della stessa dimensione
(Caso B del campionamento a grappoli) otteniamo
nel CASO II, dove I grappolo: 2, 6, II grappolo: 8, 10, III grappolo: 10, 12, otteniamo una varianza della media
campionaria pari a 32/12 (migliorando rispetto ai 26/3 di un unico stadio),
nel CASO III, dove I grappolo: 2, 12, II grappolo: 6, 10, III grappolo: 8, 10, otteniamo una varianza della media
campionaria pari a 62/12 (peggiorando rispetto ai 2/3 di un unico stadio, che peraltro rappresentava il caso più efficiente
nel campionamento a grappoli e corrispondeva ad una maggiore variabilità interna ai grappoli).
RISULTATO:
 Quanto più piccola è la variabilità all’interno dei grappoli comparata alla variabilità complessiva nella
popolazione, tanto maggiore sarà il guadagno in precisione ottenibile, a parità di ampiezza campionaria,
inserendo un secondo stadio nel meccanismo di selezione.
Caso C: campionamento a due stadi con frazione di campionamento variabile. Può aversi tale situazione sia per grappoli
della stessa ampiezza che di ampiezza variabile. Nel primo, supponiamo di avere la suddivisione in grappoli della stessa
ampiezza del Caso A:
I grappolo: 2, 8
II grappolo: 6, 10
III grappolo: 10, 12
e di selezionare 2 grappoli al primo stadio e poi 2 unità da un grappolo e 1 dall’altro, ottenendo campioni di dimensione
n=3 con frazione di campionamento variabile (dato che n1=2, n2=1 e quindi f1 è diversa da f2, anche se la dimensione
dei due grappoli è la stessa).
Alternativamente possiamo ottenere una frazione di campionamento variabile supponendo la seguente suddivisione in
grappoli di ampiezza variabile (Caso C, grappoli con ampiezza variabile):
9
I grappolo: 2
II grappolo: 6, 8, 10
III grappolo: 10, 12
e andando a selezionare 2 grappoli al primo stadio e poi 1 unità da un grappolo e 1 dall’altro, ottenendo campioni di
dimensione n=2 con frazione di campionamento variabile (dato che n1=n2=1, ma è diversa la dimensione dei grappoli
quindi f1 è diversa da f2). In questo caso secondo abbiamo 11 possibili campioni, che possiamo individuare sulla base
del seguente schema:
I stadio
II stadio
Grappolo I e II
(2, 6), (2, 8), (2, 10)
Grappolo I e III
(2, 10), (2, 12)
Grappolo II e III
(6, 10), (8, 10), (10, 10), (6, 12), (8, 12), (10, 12)
Come si vede il numero di potenziali campioni estraibili al secondo stadio dipende dai grappoli selezionati al primo. Si
verifica una situazione nuova: questo meccanismo di selezione determina una probabilità differenziata per i diversi
possibili campioni: mentre i tre gruppi (individuati dalla selezione delle unità di primo stadio) sono equiprobabili, i
campioni del secondo gruppo hanno probabilità tre volte maggiore di verificarsi rispetto a quelli del terzo (si osservi che
il caso è diverso da ciò che accadeva per la stratificazione con frazione di campionamento variabile, dove le singole
unità avevano probabilità diversa di realizzarsi, di cui tenevamo conto nel calcolo delle medie di strato, ma la
probabilità assegnata ai singoli campioni era la stessa).
La media campionaria non risulta in questo caso essere uno stimatore corretto e per recuperare tale CORRETTEZZA è
necessario apportare delle modifiche all’espressione dello stimatore, che in questo caso devono tenere conto della
concomitanza di più fattori:
1. Per tenere conto della frazione di campionamento variabile: ciascun elemento del campione deve essere
ponderato con l’inverso della frazione di campionamento (si pensi alla media delle medie di strato vista nel
campionamento stratificato). La media sul campione è calcolata attribuendo tali pesi ai singoli valori e
dividendo la somma per il totale dei pesi (si veda Tab. 41 a pag. 83).
2. Per tenere conto della provenienza da grappoli di ampiezza diversa: ciascuna media campionaria deve essere
moltiplicata per un peso ottenuto come rapporto tra l’ampiezza totale dei grappoli di provenienza e l’ampiezza
media dei grappoli (si veda quanto detto per il campionamento a grappoli e la Tab. 41 a pag. 83).
3. Al fine di valutare la correttezza dello stimatore media campionaria (modificato sulla base di 1 e 2), per tenere
conto della diversa probabilità di realizzazione dei potenziali campioni, possiamo calcolare la media delle
medie di gruppo (tenendo presente che ogni gruppo è equiprobabile) oppure costruire la distribuzione di
probabilità della media replicando i campioni in modo da avere lo stesso numero di campioni per ogni gruppo
(vale a dire utilizzare 2 volte ciascun campione appartenente al primo gruppo e 3 volte ciascuno di quelli del
secondo, si veda Tab. 42 pag. 84).
OSSERVAZIONE: nella pratica tendenza ad utilizzare frazioni di campionamento costanti, per semplificare i problemi
derivanti per la stima (scegliendo opportunamente la numerosità campionaria al secondo stadio se i grappoli hanno
ampiezza variabile).
ULTERIORI GENERALIZZAZIONI:
 Campionamento a più stadi come naturale estensione del campionamento a due stadi: possiamo avere una
struttura che prevede la selezione di grappoli di dimensione più ampia e poi all’interno ancora grappoli via via
più piccoli fino ad arrivare all’estrazione di singole unità: ad esempio città, quartieri, strade, famiglie,
individui. Inoltre, potremmo introdurre all’interno del disegno anche una procedura di stratificazione ad un
certo stadio (stratificando grappoli o le unità al loro interno).
 Campionamento con probabilità non uguali. Abbiamo visto come la selezione con frazione di campionamento
variabile porti ad assegnare implicitamente probabilità differenziate di selezione alle diverse unità. Possiamo
anche assegnare esplicitamente probabilità diverse di entrare a far parte del campione alle diverse unità
indipendentemente dall’eventuale procedura di stratificazione. Tale probabilità di inclusione (assegnata in
modo differenziato alle diverse unità) dovrà essere utilizzata come ponderazione (peso pari al reciproco della
probabilità di inclusione) nella determinazione delle stime. La motivazione per ricorrere a disegni di
campionamento più o meno sofisticati, naturalmente, rimane sempre quella di poter raggiungere una
precisione superiore, a parità delle altre condizioni: un risultato generale è che si guadagna in precisione se le
probabilità di inclusione sono proporzionali (e quindi i pesi inversamente proporzionali) al valore della
variabile nella popolazione: in altre parole, nella stima diamo peso inferiore ai valori molto elevati (ai quali si
attribuisce probabilità di inclusione superiore). Naturalmente ciò rimane valido in teoria, ma difficilmente
realizzabile nella pratica, dato che i valori delle variabili di interesse sono ovviamente incogniti e, inoltre,
quando selezioniamo un campione normalmente siamo interessati alla rilevazione di più variabili e non una
soltanto (quindi non possiamo legare la precisione ad un’unica variabile).
10
ESEMPI DI DOMANDE APERTE SU
(A) probabilità e disegni di campionamento
1. Si delinei il ruolo della teoria dei campioni nell’inferenza statistica, con particolare attenzione alla
differenza tra campionamento probabilistico e non probabilistico.
2. Si descrivano le caratteristiche della distribuzione di probabilità binomiale (legge di probabilità,
valore atteso e varianza della distribuzione) riportando anche esempi di casi in cui la distribuzione
binomiale è applicabile.
3. Si descrivano le caratteristiche della distribuzione di probabilità normale (specificando la forma della
funzione di densità e le sue peculiarità) riportando anche esempi di casi in cui la distribuzione
normale è applicabile.
4. Si descrivano le principali caratteristiche delle distribuzione di probabilità della media campionaria,
nel caso in cui il meccanismo di selezione del campione adottato sia il campionamento casuale
semplice con rimpiazzo.
5. Si descrivano le principali caratteristiche delle distribuzione di probabilità della media campionaria,
nel caso in cui il meccanismo di selezione del campione adottato sia il campionamento casuale
semplice senza rimpiazzo.
6. Si descrivano le principali caratteristiche delle distribuzione di probabilità della proporzione
campionaria (proporzione o frequenza relativa di unità campionarie che presentano una certa
caratteristica di interesse), nel caso in cui il meccanismo di selezione del campione adottato sia il
campionamento casuale semplice con rimpiazzo.
7. Si mettano a confronto il campionamento casuale semplice con rimpiazzo e quello senza rimpiazzo e
se ne evidenzino analogie e differenze con particolare riferimento alle proprietà dello stimatore media
campionaria.
8. Si analizzi il diverso ruolo dell’informazione supplementare nel campionamento stratificato e nel
campionamento a grappoli.
9. Si descrivano le principali caratteristiche del campionamento stratificato, con particolare attenzione
alle condizioni che possono consentite un guadagno in precisione rispetto al campionamento casuale
semplice.
10. Si descrivano le principali caratteristiche del campionamento a grappoli, con particolare attenzione al
confronto con il campionamento casuale semplice per quanto riguarda la precisione delle stime.
11. Si descrivano le principali caratteristiche del campionamento a due stadi, con particolare attenzione
alle condizioni che possono consentite un guadagno in precisione rispetto al campionamento casuale
semplice.
(B) manuali di tecniche di indagine ISTAT
1.
2.
3.
Si descrivano brevemente le diverse fasi del processo di costruzione di un questionario.
Si individuino gli elementi di principale rilevanza nella fase di redazione del questionario.
Si descrivano gli strumenti utilizzabili per la fase di verifica del questionario, sottolineandone
analogie e differenze.
4. Si evidenzi la differenza tra errori campionari e non campionari e si analizzino le potenzialità del
questionario come strumento di prevenzione degli errori non campionari.
5. Con riferimento alla struttura del questionario, si definiscano le due diverse tipologie di domanda,
aperta o a risposta chiusa, e se ne analizzino potenzialità e limiti.
6. Si evidenzi il ruolo delle scale di valutazione nella redazione del questionario e si descrivano i diversi
tipi di scala utilizzabili.
7. Si illustrino brevemente le diverse possibili tecniche di somministrazione del questionario,
sottolineando pregi e difetti di ciascuna.
8. Si descrivano le principali caratteristiche dell’intervista diretta come modo di somministrazione del
questionario, sottolineandone pregi e difetti a confronto con l’intervista telefonica.
9. Si descrivano le principali caratteristiche dell’autocompilazione come modo di somministrazione del
questionario, sottolineandone pregi e difetti a confronto con l’intervista diretta.
10. Si descriva il diverso ruolo degli strumenti di rilevazione (lettera rivolta ai rispondenti, questionario e
istruzioni per la compilazione) a seconda della tecnica di somministrazione adottata.
11
Scarica