casuale 8

annuncio pubblicitario
TIS_II 1
Campione casuale semplice (CCS)
senza reinserimento, in blocco, senza ripetizione
TIS_II 2
Tavole di numeri casuali
TIS_II 3
Selezione sistematica
a partire da un inizio casuale, è
selezionata una unità ogni k
N
passo di campionamento
k=
n
2000
esempio N = 2000 studenti
k=
=8
250
n = 250
1≤ x ≤ 8
inizio: numero casuale
unità nel campione con posizione
x, x + k , x + 2k , ..., x + (n − 1)k
x=5
5, 13, 21…
problema: che fare se k non è un numero intero?
TIS_II 4
k non è un numero intero
N = 1872
n = 250
a) si arrotonda all’intero
n variabile
es: 1872/250=7.488
~7
n=267
~8
n=234
N
b) lista circolare
k=
n
b1. si arrotonda ~ 7
b2. inizio casuale x da 1 a N (1-1872)
b3. si procede fino a ottenere 250 unità
c) moltiplicare per 10d (d= cifre decimali)
es: 7,488 x 1000 = 7488
c1. inizio fra 1 e 7488 es: 3654
c2. 3,654 + 7,488 = 11,142
+7,488 = 18,630
+ 7,488 = 26,118
campione: 3, 11, 18, 26...
TIS_II 5
Selezione sistematica
1. probabilità di selezione costante
2. probabilità di possibili insiemi di unità variabile
esempio: campione con k = 8
P(1,2) = 0
P(1,9) = 1/8
media campionaria O.K.
formule per S .E.( x ) non più direttamente applicabili
ipotesi:
lista ordinata più o meno casualmente
(es. liste alfabetiche)
quasi casuale
in realtà: problemi solo se la lista segue una
qualche sequenza ciclica
TIS_II 6
Dimensione del campione casuale semplice
quanto grande deve essere n?
in generale
S2
var( y ) =
(1 − f )
n
p (1 − p ) ⎛
n ⎞
var( p ) =
1
−
⎜
⎟
n − 1 ⎝ N ⎠
~ n se n è grande
p(1 − p)
≈
n
~ 1 se la popolazione è grande
fissato il grado di precisione desiderato con una certa
probabilità, è possibile determinare il valore di n
corrispondente
IC 7
Dimensione del campione casuale semplice
quanto grande deve essere n?
Esempio: precisione 2% con probabilità = 95%
intervallo di confidenza al livello 95% sarà
p ± 1.96SE ( p)
2%
SE ( p) ≈
p ± 2% , Pr( p ± 2%) = 95%
trascurando (1-f)
e dividendo per n
p(1 − p)
p(1 − p )
⇒ 0.02 = 1.96
n
n
1.962 p(1 − p)
Se si ipotizza p=0.35
n=
= 2185
0.0004
Nn
⇒ n' =
= 1907
Se N=15000
N +n
se si tiene conto del tasso di non risposta del 75%
se precisione = 3% ⇒ n = 971 e
n' ' =
n'
= 2543
0.75
n'= 912
IC 8
s
s ⎤
⎡
⎢⎣ pˆ − z n ; pˆ + z n ⎥⎦
z
s
n
1.96
variabilità dei dati
numerosità del campione
c’è relazione con N, numerosità della
popolazione
✳  non
✳  la
precisione varia con n
Esempio
p=97%
n=1000
zα s
⇒
≈ 0.03 = A
n
s=
se A= 0.01
⇒
p(1 − p) ≈ 0.4951
n~ 9417
IC 9
IC 10
Alcune considerazioni a proposito di n
§  livello di precisione
a.
analisi per sottogruppi
incroci di più variabili
es. tasso di disoccupazione per età, sesso, titolo di studio
la precisione dipende dal valore di n * nel campione con
quelle caratteristiche, non da n ' totale
b.
indagini multiscopo: più proporzioni e/o medie da
stimare
che importanza (precisione)
si deve dare?
diversa variabilità
nella popolazione
TIS_II 11
Alcune considerazioni a proposito di n
§  stime di π o di s2
per proporzioni è più facile, perché π (1- π ) non
(π : {0.1;0.9})
è molto variabile
per s2 è più complicato
– 
– 
– 
– 
indagini pilota
indagini precedenti
campione preliminare (campione in due fasi)
considerazioni su struttura della popolazione
TIS_II 12
Pesi (weights) di campionamento
πi = probabilità di inclusione unità i nel campione
Possono essere usate per calcolare stime puntuali dei
parametri di interesse
wi = peso di campionamento = 1/πi = Numero di unità della
popolazione rappresentate da unità i
CCS: πi = n/N
da cui wi = 1/πi =N/n
CCS pesi tutti uguali: ogni unità nel campione rappresenta se
stessa e altre N/n-1 unità (non selezionate) della popolazione
(in totale N/n)
Σ wi = Σ N/n = N
Σ wiyi = Σ(N/n) yi = ť
Σ wiyi / Σwi = ť/N = ŷ
TIS_II 13
Quando usare un CCS ?
•  La popolazione è omogenea.
•  Si dispone di buone liste dell’intera popolazione.
•  Il costo per raggiungere ogni unità è omogeneo e non
varia se si prevedesse l’uso di disegni più complessi.
•  Si vogliono usare stimatori semplici.
•  Si vogliono stimare relazioni complesse ed altri disegni
hanno costi comparabili.
TIS_II 14
Quando si può fare di meglio del CCS ?
•  Si hanno informazioni ausiliarie sulla popolazione.
•  La popolazione è suddividibile in gruppi omogenei al loro
interno.
•  Le liste sono presenti per gruppi di unità e non per l’intera
popolazione (struttura gerarchica delle liste).
•  I costi per raggiungere le unità possono variare
notevolmente e disegni diversi comportano costi molto
inferiori.
TIS_II 15
ESEMPIO uso informazione ausiliarie
Lohr, 2010, p.117
TIS_II 16
Lohr, 2010, p.73
TIS_II 17
Campione stratificato
TIS_II 18
Campione stratificato
Incorpora nel disegno informazioni sulla popolazione
1. “garanzia” contro campioni che, per puro effetto del
caso, potrebbero sembrare “poco” rappresentativi
2. stime per gruppi separati (con precisione comparabile)
3. liste disponibili per aree/gruppi separati
4. differenti tecniche di rilevazione
con telefono
senza telefono
telefonica
postale
face to face
5. migliora l’efficienza delle stime (maggiore precisione
rispetto CCS)
TIS_II 19
La stratificazione
1.  la popolazione di N unità è classificata in H strati a seconda
di informazioni supplementari
(es. sesso, età, titolo di studio, caratteristiche del comune,
ecc…)
2. è selezionato un campione di numerosità nh, h=1,…H da
ogni strato
a. se Nh>1, almeno nh=2 per avere stime della variabilità nello
strato
H
n = ∑ nh
h =1
b. campione negli strati: in genere CCS mediante procedure di
selezione casuale o sistematica
TIS_II 20
1. la stratificazione della popolazione (classificazione
negli strati) deve essere nota prima della selezione
(ogni unità appartiene a un solo strato)
2. scelta numerosità complessiva del campione n
influenza
efficacia stime
3. scelta dell’allocazione di n entro gli H strati nh
frazione di campionamento entro gli H strati
uguale negli H strati
n
f =
N
stratificato proporzionale
proporzione nel campione =
proporzione nella popolazione
Nh
ωh =
N
fh =
diversa negli H strati
nh
Nh
nh
fh =
Nh
stratificato non proporzionale
stratificato ottimale
TIS_II 21
Stima Campione Stratificato
caso generale
Y
Y2
Y1
1
N=
N1
2
+
N2
h
+
…
n=
n1
y
y1
+
n2
y2
+
Nh
+
…
+
nh
yh
=
=
=
n1
n2
nh
∑ yi1
i =1
n1
∑ yi 2
i =1
n2
H
+
Nh
= wh
N
N2
= w2
N
N1
= w1
N
YH
Yh
… + NH
NH
= wH
N
+
… + nH
NOTE
H
= ∑ Nh
h =1
H
∑ wh = 1
h =1
H
= ∑ nh
h =1
yH
∑ yih
i =1
nh
TIS_II 22
Stima Campione Stratificato
caso generale
Valor medio:
popolazione
campione
H
con wh =
Y = ∑ whYh
h =1
H
Nh
N
y = ∑ wh yh
h =1
N h ⎛ n yih ⎞
⎜⎜ ∑
⎟⎟
=∑
h =1 N ⎝ i =1 nh ⎠
H
=
H
Varianza
var( ystr ) = ∑ wh 2 var( yh )
campionaria
h =1
se CSS entro strati
Intervallo di confidenza
(con 1. nh grande e 2. tanti strati
2
s
(1 − f h ) h
nh
h
n
1
2
sh 2 =
(
y
−
y
)
∑ hi h
nh − 1 i =1
h
ystr ± zα 2 SE(ystr )
Krewski e Rao, 1981)
TIS_II 23
Stima Campione Stratificato
caso generale
Nh
H
Totale:
popolazione
i=1
h=1
H
H
tˆstr = ∑ tˆh = ∑ N h yh
campione
h=1
H
Varianza
campionaria
th = ∑ yih
t = ∑ th
h=1
H
2
n
S
2
var(tˆstr ) = ∑V (tˆh ) =∑ (1− h )N hh h
Nh
nh
h=1
h=1
H
2
n
s
vâr(tˆstr ) = ∑ (1− h )N h2h h
Nh
nh
h=1
TIS_II 24
Stima Campione Stratificato
caso generale
Proporzione:
H
pˆ = ∑ wh pˆ h
h =1
H
con
var( pˆ ) = ∑ wh 2 pˆ h
h =1
nh
n *hi
pˆ h = ∑
i =1 nh
(1 − pˆ h )
(1 − f h )
nh − 1
Dove n*hi indica
che l’ unità i
nello strato h
presenta la
caratteristica di
interesse
TIS_II 25
Campione stratificato proporzionale
la proporzione degli strati nel campione è la stessa della popolazione
n
n
f h = f ⇒ h = ⇒ nh = wh n
Nh N
la probabilità di inclusione π ih = nh N h è uguale per ogni unità in ogni
strato
⎛ n
⎞
⎜
yhi ⎟
∑
H n y
n y
n
H
H
⎛
⎞
hi
N h ⎜ i =1 ⎟
=∑ ∑
=∑ i
y p = ∑ wh ⎜⎜ ∑ yhi nh ⎟⎟ = ∑
n i =1 n
h =1 ⎝ i =1
⎠ h =1 N ⎜⎜ nh ⎟⎟ N h =1 i =1
⎝
⎠ n
=
2
2
H N
H N
sh
(1 − f ) H
⎛ h ⎞
2 Nh
2
h
var( y p ) = ∑ ⎜
= (1 − f ) ∑
sh
=
∑ wh sh
⎟ (1 − f h )
nh
nh
n h =1
h =1⎝ N ⎠
h =1N ⋅ N
h
h
h
H
n
ni *
pˆ p = ∑ wh pˆ h = ∑
h =1
i =1 n
var( pˆ p ) =
(1 − f )
n2
nh 2
pˆ h (1 − pˆ h )
∑
h =1nh − 1
H
TIS_II 26
varianza stimatore della media campionaria
in un campione stratificato proporzionale
nh n
fh = f =
=
Nh N
wh =
Nh
N
⇒ nh =
n
N h = nwh
N
H
var(y p ) = ∑ wh2 var(yh )
h=1
2
s
= ∑ wh 2 (1 − f h ) h
nh
h =1
H
2
sh 2
⎛ N h ⎞
= ∑ ⎜
⎟ (1 − f h )
nh
h =1⎝ N ⎠
H N
2 N
= (1 − f ) ∑ h2 sh h
nh
h =1 N
H
(1 − f ) H
2
=
w
s
∑ h h
n h =1
N
n
H
n
N
Vp (tˆstr ) = (1− ) ∑ N h sh2
N n h=1
TIS_II 27
Effetto della stratificazione
sull’efficienza delle stime
var(z ) >
Design Deff =
1
var(zcs ) <
effect
z stimatore disegno complesso
zcs stimatore campione casuale semplice
con campione stratificato, in generale:
var( yst )
Deff ( yst ) =
≤1
var( ycs )
con stratificato proporzionale
var( ycs ) ≅ var( yst ) + ∑ wh ( yh − y ) 2
var( ycs ) ≥ var( yst )
entro gli strati tra gli strati > 0
Il guadagno è maggiore, data la variabilità S2 nella popolazione,
quanto più gli strati sono eterogenei tra di loro
(omogenei al loro interno)
•  Con proporzioni si hanno guadagni più modesti
TIS_II 28
Esempio stratificato proporzionale
Campione di 300 studenti da una popolazione di 3000
Facoltà
Economia
Sociologia
Statistica
Sc. Politiche
Giurisprudenza
Storia
Nh
950
430
250
390
320
660
3000
stima proporzionale
Wh
0,32
0,14
0,08
0,13
0,11
0,22
1
p=
nh
95
43
25
39
32
66
300
ch
86
22
18
31
20
33
210
1
300
f = =
10 3000
ph
nh ph (1-ph )
0,905
8,147
0,512
10,744
0,720
5,040
0,795
6,359
0,625
7,500
0,500
16,500
54,291
∑ ch = 210 = 70%
n
300
(1− f ) nh* (nh − nh* )
var( p̂ p ) =
∑ n −1 trascurando 1-f e dividendo solo per nh
n2 h
h
n p (1− p )
var( p p ) = ∑ h h 2 h = 0, 0006033
var( pcs ) = 0,0007
n
Deˆff =
0,0006033
= 0.862
0,0007
300
= 348
0,862
proporzionale con n=300
Un CCS con n =
var(pp) 14% più piccola di var(pcs)
dà la stessa varianza di uno stratificato
TIS_II 29
Esempio stratificato proporzionale
Spesa annua per abbigliamento delle famiglie italiane nel XXXX
(dati fittizi) N = 18 500 000 n = 10 000
wh
CAPOLUOGHI
PROVINCIA
ALTRI COMUNI
>20 000 AB
COMUNI
< 20 000
yh
0.2
500
0.3
300
0.5
220
s h2
2500
1600
400
y = ∑ wh yh = 500(0.2) + 300(0.3) + 220(0.5) = 300
h
var( y prop ) =
1− f
2
∑ wh sh
n h
1
1.180
.
.
= .
[2 500(0.2) + 1 600(0.3) + 400(0.5)] = .
= 0.118
10 000
10 000
.
varianza fra 1 − f w ( y − y ) 2 = 1 [(500 − 300) 2 0.2 + (220 − 300) 2 0.5] = 11 200 = 1.12
∑ h h
gli strati
n
10.000
10.000
Deff =
var( y prop )
var( yccs )
=
0.118
= 0.095 = 9.5%
0.118 + 1.12
G = 1 - Deff = 0.905 = 90.5%
TIS_II 30
Stratificazione implicita
per selezionare un campione stratificato proporzionale
Una sola variabile di stratificazione: ordinamento delle unità
da quella con il valore più elevato a quella con il valore
minore (o viceversa), poi selezione sistematica
4  effetto
sulle stime: lo stesso della stratificazione esplicita
4  elimina il problema dell’arrotondamento all’intero delle
numerosità campionarie degli strati
Una variabile di stratificazione quantitativa e altre anche
qualitative: ordinamento (implicito) “a serpentina” o
“funicolare”
4  effetto
sulle stime: come sopra
4  rischio: ciclicità
TIS_II 31
Stratificazione implicita
TIS_II 32
Esempio di stratificazione implicita
Medici
appartenenti
alla USL di
Torino, per età
del medico e
numero di
persone
assistibili
Età
medici
Fino a 39
40 e più
Numero assistibili
Fino 500
1
4
245
175
501-1500
2
5
35
46
Totale
oltre 1500
3
6
163
304
443
525
7
968
Maschi 968 + 243 femmine = 1211 N
Invece di suddividere le N unità in 7 strati e selezionare 7 campioni
stratificazione
(es. femmine n7= n243/1211= n(0.201) )
implicita
1
ordinare le 1211 unità:
2
medici sotto i 40 anni per numero di assistiti (crescente)
medici sopra i 40 anni per numero di assistiti (decrescente) 3
6
e così via, poi le femmine
5
N
☛  selezione sistematica k =
4
n
7
☛ 
crescente
per
numero di
assistiti
ordine
decrescen
te
TIS_II 33
Campione stratificato non proporzionale
allocazione non proporzionale
• 
• 
• 
vincoli, costi di indagine
obiettivi di ricerca
–  strati più variabili
–  elaborazioni per sottopopolazioni “domini di studio”
–  confronti fra strati
massima precisione delle stime date le risorse (o min costi)
allocazione ottima:
sh
fh ∝
ch
sh = variabilità strato h
ch = costo per unità strato h
con
nh
fh =
Nh
TIS_II 34
Allocazione non proporzionale
nh = n wh *
wh sh ch
wh * =
∑ wh sh ch
se ch ~ c per ogni h:
con
N
wh = h
N
H
e
∑ wh * = 1
h =1
allocazione ottima di Neyman-Tschuprow
nwh sh
nh =
∑ wh sh
più unità negli strati più eterogenei e negli strati meno costosi
N.B. se sh = s ∀h ⇒ nh =
nwh
allocazione proporzionale
∑ wh
• 
conoscenza di sh
• 
stimatori pesati con wh* (campione non autoponderante)
TIS_II 35
Stima stratificato non proporzionale
formule generali in cui si utilizzano gli wh* specificati in nh
yo = ∑ wh yh
se allocazione di Neyman (ch ~ c ∀h) e 1-fh ~ 1-f ∀h
1− f
var(yo ) =
w2 h sh2
∑
n h
1− f
s = ∑ wh sh
var( y p ) = var( yo ) +
∑ wh ( sh − s ) 2
n
h
varianza media
entro gli strati
varianza tra le
varianze degli strati
var( y p ) > var( yo )
varianza campione stratificato
allocazione ottima delle unità
sh 2
var( ystr ) = ∑ wh (1 − f h )
nh
h =1
H
2
nh =
wh 2 sh 2 (1 − f h )∑ wh sh
wh 2 (1 − f h ) sh 2
∑
var( yo ) =
=∑
nwh sh
∑ wh sh
ch
ch
h
n wh sh
wh 2 sh 2 (1 − f h )
=∑
n ch
ch
ch
n wh sh
∑ wh sh
ch
ch
=
ch
TIS_II 36
Formazione degli strati:
scelta delle variabili di stratificazione
non esistono “criteri
oggettivi”
condizioni generali:
1. wh noti wh =
Nh
N
2. possibilità di selezionare un campione da
ogni strato
poststratificazione
3. numerosità Nh tale che sia possibile:
- almeno una selezione per la stima di y h
- almeno due selezioni per la stima di var( yh )
TIS_II 37
Formazione degli strati:
scelta delle variabili di stratificazione
obiettivi della stratificazione:
1. strati omogenei al loro interno rispetto alle variabili di
studio
[var( ycs ) − var( yst ) = ∑ nh ( yh − y ) 2 n 2 ]
2. stime separate per “domini”
3. diversi metodi di campionamento nei vari strati
più variabili, possibilmente non correlate tra loro,
combinate anche in modo diverso per definire i vari strati
TIS_II 38
Variabili di stratificazione: candidate tipiche
n = 10000
TIS_II 39
Determinazione della numerosità campionaria
2
n* =
s y Deff ( st )
var( yst ) = Deff var( ycs )
var( yst )
s2
n
4 Deff trasferibile fra indagini svolte sulla stessa popolazione
4 Deff congetturabile per proporzioni
4 Per allocazione ottimale (N.T.) del campione
c ∑ N h sh
n
=
n 
tenendo fisso c = ∑ ch nh
∑ N h sh ch
h
n 
tenendo fissa
var( y )
4 Per indagini multiscopo
ch
n=
(∑ wh sh
ch )∑ wh sh ch
var( y ) + ∑ wh sh 2 N
–  selezionare variabili più importanti
–  calcolare allocazione ottima per ogni variabile scelta
–  strato per strato, trovare il compromesso più ragionevole tra le
numerosità calcolate nh i (es media o mediana?)
TIS_II 40
condizioni per la stratificazione
1. wh noti
wh =
Nh
N
2. assegnazione univoca delle unità negli h strati
in assenza di questa condizione non è possibile mettere
in atto la stratificazione
Post-stratificazione
stratificazione dopo la selezione del campione
1. si seleziona un CCS di n elementi rilevando anche i
caratteri di stratificazione
2. si classifica il campione selezionato in H strati, sulla
base dei caratteri di stratificazione rilevati
3. si trova il peso wh di ogni strato nella popolazione
media
campionaria
y ps = ∑ wh yh = ∑ wh ∑
h
h
j
yhj
nh
con
wh =
Nh
N
TIS_II 41
Esempio scelta stratificazione: “the statistics class”
TIS_II 42
Campionamento
casuale semplice
Campionamento
stratificato
TIS_II 43
Cluster sampling:
campionamento a grappoli (one-stage cluster sampling)
TIS_II 44
Cluster sampling:
campionamento a due stadi (two-stage cluster sampling)
TIS_II 45
Campionamento su più stadi
Popolazione può essere ben definita ma non necessariamente
può essere agevole raggiungere le sue unità (unità di
osservazione)
Es: campione di 400 famiglie residenti in una area per stimare il
n.ro di biciclette possedute (10.000 famiglie in totale)
a.  CCS di 400 famiglie
b.  suddivisione dell’area in blocchi di 20 famiglie (≈) e indagine
a tutte le famiglie residenti nei 20 blocchi selezionati a caso
dai 500 totali:
blocchi = primary sampling units (psu/up/clusters)
famiglie = secondary sampling units (ssu/unità secondo livello)
Quali conseguenze di b) rispetto ad a) ?
TIS_II 46
Campionamento su più stadi
Gerarchie di popolazioni
Gerarchiche sono le popolazioni per le quali la
popolazione finale di unità (unità di osservazione) è
contenuta in un aggregato di unità di livello, o stadio,
superiore,
le quali possono essere contenute in unità sempre più
ristrette in numero e ampie in dimensione
TIS_II 47
Campionamento su più stadi
Campione su più stadi: perché?
4 Necessarie solo le liste delle sub-popolazioni contenute nelle unità
selezionate al livello superiore
4 Rilevazione concentrata nelle unità primarie
–  agevolata l’organizzazione del lavoro in loco (formazione delle
liste, selezione del campione, reclutamento del personale per la
rilevazione, supervisione del lavoro sul campo)
–  facilità di esecuzione della rilevazione (minori spostamenti, i
rilevatori conoscono e sono conosciuti dai rispondenti, ecc.);
controllo di copertura
–  riduzione dei costi e tempi di esecuzione
–  unità reperibili presso le comunità (famiglie, convivenze, reparti
operativi, ecc.)
Tuttavia
4 Campione complesso, stime complesse
4 Rischio di inefficienza delle stime (correlazione interna delle unità
primarie)
TIS_II 48
Campionamento da strati e da cluster
TIS_II 49
Campionamento a più stadi
solo i cluster (unità di primo stadio) selezionati al primo stadio
devono rappresentare tutta la popolazione
i gruppi (cluster) dovrebbero essere quindi molto eterogenei al
loro interno
in realtà
l'appartenenza ad un gruppo fa sì che le unità risultino
interdipendenti o omogenee o correlate tra loro (a causa di fattori
misurabili e non: condivisione di uno stesso contesto/esperienze
simili)
le informazioni “originali” sono perciò “inferiori” al numero di
unità del gruppo (selezionando tutte le unità del cluster, si ripete
parzialmente una informazione già nota)
stime meno efficienti
usato poiché meno costoso e molto conveniente dal punto di
vista operativo selezionare clusters che non casualmente dalla
TIS_II 50
popolazione
Campionamento a stadi: notazione/1
Unità di campionamento: psu (primary sampling unit/unità primarie)
unità osservate: ssu (secondary sampling unit)
(2 livelli)
U = popolazione di N psu/up
S = campione di psu/up selezionato dalla popolazione di psu
Si = campione di ssu selezionato dall’insieme di ssu entro la psu i
yij = variabile d’interesse (relativa all’elemento j-esimo entro la iesima psu)
(livello psu: più agevole riferirsi in termini di totali di cluster)
“No matter how you define it, the notation for cluster sampling is messy, because you
need notation for both psu and the ssu levels.” (Lohr, 2010, p.168)
TIS_II 51
Campionamento a stadi: notazione/2
(scuole sup. Fvg = 140 a.s. 2010/11)
(studenti nella scuola)
(Fvg a.s. 2010/11: 46077)
(Y= essere ripetente), ti = ripetenti
(ripetenti a.s. 2010/11: 3041 )
TIS_II 52
Campionamento a stadi: notazione/3
N
M o = ∑ M i = # ssu
i=1
(% ripetenti Fvg 2010/1: 6.6%
TIS_II 53
Campionamento a stadi: notazione/4
TIS_II 54
Campionamento a grappolo (one-stage cluster sampling)
•  tutti (o nessuno de)gli elementi del cluster entrano nel
campione
•  usato in molte indagini in cui il costo di campionamento per
unità è trascurabile rispetto al costo di campionamento del
cluster
(classe scolastica/scuola: psu naturale per indagini su istruzione.
Intervistare tutti gli studenti in una classe aumenta di poco i costi rispetto
ad intervistarne solo alcuni)
Disegno più semplice:
1.  campione CCS di n psu
2.  osservazione variabile di interesse (Y) su tutti gli elementi
delle psu selezionate:
Mi (numero ssu in psu i) = mi (numero ssu della psu i nel
campione)
TIS_II 55
Campionamento a grappoli (one-stage cluster sampling)
A. Cluster di uguale dimensione
Mi (numero ssu in psu i) = mi (numero ssu della psu i nel
campione) = M
Stima del totale (media) della popolazione:
totali (medie) psu considerate come le “osservazioni” ignorando quelle
individuali:
CCS di n ti (i entro S)
ti = totale di tutti gli elementi della psu i
Es. Stima del reddito in famiglie di due persone (coppie)
yij = redditi individuali
ti = reddito (totale) coppia i (osservato per ogni coppia selezionata)
tm(u) = reddito medio per famiglia/coppia
ym(u) = reddito medio per individuo nella coppia
TIS_II 56
Stima campionamento a grappoli caso A
Stimatore totale (n psu)
wij =
1/ P(ssu j
della psu i è
nel
campione)
= N/n
(come CSS
di nM unità
da pop.ne
di NM =
(NM)/(nM) =
N/n
TIS_II 57
Confronto CCS e campionamento a grappoli caso A/1
Cluster sampling: sempre stimatori meno precisi di CCS di pari numerosità
(in stratificato: varianza < se var within piccola rispetto a varianza totale = var with
+ var betw o, equivalentemente, Media dei quadrati degli scarti [N(M-1)] with –
MSW – è piccola rispetto a S2. Se MSB/MSW è grande, stratificato aumenta
precisione)
Situazione opposta si verifica nel cluster sampling (A): variabilità stimatore di t
dipende interamente dalla variabilità tra (between) le psu:
Se MSB/MSW è grande nel cluster sampling: precisione diminuisce
Elementi in cluster (psu) diversi spesso più variabili che elementi nello stesso
cluster, poiché cluster diversi hanno medie diverse (es. diverso rendimento di
classi di studenti, dovuto a insegnanti/contesti diversi)
TIS_II 58
Confronto CCS e campionamento a grappoli caso A/2
Se MSB/MSW è grande nel cluster sampling: precisione diminuisce
MSW (media varianze with psu) è piccola se psu omogenee al loro interno
se MSB > S2 : V(tclust) > V(tSRS)
TIS_II 59
Coefficiente di correlazione intraclasse (ICC)
N
M
M
∑ ∑ ∑ (y
ICC =
i
j
ij
− yU )(y ik − yU )
j ≠k
(NM −1)(M −1)S
2
⇒ ICˆ C
grado di omogeneità interna dei gruppi al 1° stadio
(quanto “simili” sono tra loro gli elementi di un cluster, è il coeff.di corr.ne tra
NM(M-1) coppie yij, yik con i =1,…N e j≠k)
€
ICC = 1 −
M SSW
M −1 SSTO
0 ≤ SSW /SSTO ≤ 1
−1
≤ ICC ≤ 1
(M
−1)
€
€
Se gruppi perfettamente
omogenei, SSW = 0 e
ICC = 1
NM −1 2
MSB =
S [1+ (M −1)ICC ]
M(N −1)
€
V ( tˆclust ) MSB NM −1
= 2 =
[1+ (M −1)ICC]
ˆ
V ( tSRS )
S
M(N −1)
se N grande:
NM-1 ≈ M(N-1), il rapporto è ≈ [1+ (M −1)ICC]
ICC = 0.5, M= 5, 1+(M-1)ICC = 3: osservazione di 300 elementi con cluster sampling
per ottenere la precisione di 100 elementi in SRS (in cluster “naturali” ICC > 0)
€
TIS_II 60
Coefficiente di correlazione intraclasse (ICC)
Precisazione: definito per cluster di uguale ampiezza
Misura di omogeneità interna alternativa per popolazioni
generali è R2 corretto (R2 diviso i gradi di libertà)
TIS_II 61
Campionamento a grappoli (one-stage cluster sampling)
B. Cluster di dimensione diversa
Stima:
Differenza tra caso A e B: variazione tra i ti è verosimilmente più ampia se i
gruppi hanno dimensioni diverse
(anche in questo caso, wij sempre = N/n, perché psu selezionate con
probabilità uguale –in genere, CCS di n psu)
Stimatore può anche essere scritto anche come: tˆunb = ∑ ∑ wij yij
i∈S j∈Si
TIS_II 62
Campionamento a grappoli (one-stage cluster sampling)
B. Cluster di dimensione diversa
Stima della media
TIS_II 63
Campionamento a grappoli (one-stage cluster sampling)
B. Cluster di dimensione diversa: Stimatore alternativo della media
= N/n Σ ti
Stimato dagli n Mi campionari: Mo = N/n Σ Mi
TIS_II 64
B. Cluster di dimensione diversa: Standar Error (SE) stimatore alternativo
della media
Lo stimatore rapporto in questo caso è analogo alla quantità B definita
precedentemente (stimatore rapporto da CCS):
il denominatore è una variabile casuale che dipende dalle particolari psu
inserite nel campione (con Mi variabile)
La varianza dello stimatore rapporto dipende dalla variabilità delle
medie di clusters e può essere minore di quella dello stimatore corretto
^
y unb
TIS_II 65
Campionamento a due stadi (two stage cluster sampling)
-  elementi del cluster molto simili tra loro: spreco di risorse osservarli tutti
-  molto costosa l’osservazione delle ssu rispetto a psu
Campione su 2 stadi
1. campione (CCS) di n unità di primo livello (o stadio) UP o PSU
2. campione Si (CCS) di unità ssu (mi) entro le unità di primo stadio
Per ogni psu:
Stimatore corretto del
totale della popolazione:
pij = pi p j|i
n mi
pij =
N Mi
ogni unità selezionata rappresenta sé stessa
e (NMi) / [(nmi)-1] (in totale = (NMi) / (nmi))
unità della popolazione (per EPSEM: mi
proporzionale a Mi così mi /Mi circa costante
€
Peso di
campionamento ssu j
della psu i
TIS_II 66
Campionamento a grappolo e a due stadi
TIS_II 67
Campionamento a due stadi (two stage cluster sampling)
Varianza stimatore: come one stage
ma con termine in più che tiene conto del fatto che i totali di cluster sono
ora delle stime
da campionamento entro psu
Se N grande, secondo
termine trascurabile e,
tralasciando anche fcp
WR = With Replacement variance
TIS_II 68
Scelte per formare un campione su più stadi
INDIVIDUAZIONE DEL NUMERO
APPROPRIATO DI STADI
INDIVIDUAZIONE DELLE
CARATTERISTICHE PER
STRATIFICARE LE UNITÀ DI PRIMO
STADIO
DETERMINAZIONE
DELLA NUMEROSITÀ
DEL CAMPIONE
(precisione)
Dimensione psu
(aree)
QUANTE UNITÀ SELEZIONARE
AL PRIMO E AI SUCCESSIVI
(secondo) STADI: numerosità psu e
ssu (conoscenza di costi di
campionamento per psu e ssu e ICC o
R 2α)
ASSEGNAZIONE DI PROBABILITÀ DI
INCLUSIONE ALLE UNITÀ
COME SELEZIONARE LE UNITÀ AL
PRIMO E AI SUCCESSIVI STADI
TIS_II 69
Probabilità di inclusione delle unità
pij = pi p j|i
pijk = pi p j|i pk |ij = pij pk |ij
su due stadi
su tre stadi
Se campione autoponderante (probabilità di selezione
uguale per ogni unità):
pij = pi p j|i = p ∀i, j
A. probabilità costanti ad ogni stadio
n mi
pij = ⋅
=p
N Mi
(se UP circa di dimensione costante M, nessun problema)
Molto spesso si cerca autoponderazione anche entro psu
TIS_II 70
€
€
Esempio
Comuni
A
B
C
Popolazione
Mi
.
20 000
.
2.000
8 000
.
30 000 M0
–  selezione di un comune (1° stadio)
–  selezione di un campione di individui
dal comune estratto n = 100 (2° stadio)
1
campione autoponderante con fc =
300
campione a due stadi:
Se si estrae 1 UP: n = 1
pij =
1
1 1
= ⋅
300 3 100
€
1
⋅ 20.000 = 200 = nc1
100
1
B⇒
⋅ 2.000 = 20 = nc 2
100
A⇒
1
C⇒
⋅ 8.000 = 80 = nc 3
100
Se si estraggono 2 UP: n = 2
pij =
1
2 1
= ⋅
300 3 200
AB =110 = ncAB
A ⇒ 100
B ⇒ 10
AC = 140 = nc AC
C ⇒ 40
BC = 50 = nc BC
TIS_II 71
€
€
Campionamento psu con probabilità variabili
Deliberatamente, le psu sono selezionate con probabilità
diverse (che eventualmente saranno compensate con pesi opportuni nella
fase di stima)
Sono note le probabilità con cui è selezionata una data unità:
P (unità i è selezionata alla prima estrazione) = ψi
P (unità i è nel campione) = πi
(probabilità distinte poiché, essendo la probabilità di selezione diversa, l’estrazione –fatta
senza replicazione- o meno al primo giro può influenzare le probabilità di selezione delle altre
unità)
In molti casi, la selezione di psu con probabilità variabili produce un
campione che “rappresenta” meglio la popolazione di uno analogo
selezionato con probabilità uguali.
TIS_II 72
Campionamento con probabilità variabili/1
selezione di n=1 psu (da N psu in totale)
Valore del totale psu i = ti
Obiettivo: stima del totale t
Esempio (con popolazione nota): stima del totale delle vendite
Ci si attende che:
1.  in un “big” store le
vendite siano
maggiori che in
“small” store
2.  variabilità vendite
totali > in “big” che
“small”
In questo caso, poiché n=1: ψi = πi = P(store i è selezionato) =
proporzionale alla dimensione (size)
TIS_II 73
Campionamento con probabilità variabili/2
selezione di n=1 psu (da N psu in totale)
Esempio per
selezione 1
negozio:
estrazione da 16
biglietti numerati da
1-16. Se estratto
1: A
2-3: B
4-6: C
7-16: D
Peso di campionamento da usare (per compensazione) nella stima:
wi = 1 / P(i è selezionato nel campione) = ψi
TIS_II 74
Campionamento psu con probabilità variabili/3
selezione di n=1 psu (da N psu in totale)
Stimatore del totale
(one-stage cluster)
4 possibili campioni di ampiezza 1 (totale t =300):
TIS_II 75
Campionamento con probabilità variabili/4
selezione di n=1 psu (da N psu in totale)
Varianza dello stimatore
del totale
(4 campioni di ampiezza 1)
TIS_II 76
Campionamento con probabilità variabili/5
selezione di n=1 psu (da N psu in totale)
Confronto con CCS
Con CCS: ψi = ¼, 1/ψi = 4 =N
Stimatore non distorto ma varianza molto più grande (nel primo caso è
usata più informazione, sempre che l’ipotesi di base sia ragionevole)
TIS_II 77
Campionamento con probabilità variabili/6
selezione di n=1 psu (da N psu in totale)
Selezione unica psu non è così inusuale:
-  a seguito della stratificazione, ogni strato può contenere poche psu
-  possono essere definiti un grande numero di strati per aumentare la
precisione
Ovviamente, con una psu non è possibile ottenere stime della variabilità
tra psu entro lo strato: procedure per “suddividere” le psu in pseudopsu
In generale, con probabilità variabili di selezione per le psu:
§  è favorita in termini probabilistici l’entrata nel campione delle
unità di grandi dimensioni
§  le unità finali sono estratte da blocchi mediamente più estesi, e
quindi sono più disperse e la stima è più efficiente di un
campione selezionato con probabilità costanti ad ogni stadio
TIS_II 78
Campionamento con probabilità variabili/7
selezione di n > 1 psu (da N psu in totale)
Caso semplice: selezione con replicazione
P (unità i è selezionata alla prima estrazione) = ψi
= P (unità i è selezionata alla seconda estrazione) = P (terza) …
Idea sottostante:
-  selezione di n psu con replicazione
-  stimare il totale per ciascuna psu come con n=1
-  se psu replicate, il totale sarà incluso tante volte quante la psu è stata
selezionata
-  stima totale popolazione = media delle n stime ti indipendenti
-  stima varianza = varianza campionaria delle n stime indipendenti diviso
n
TIS_II 79
Campionamento con probabilità variabili
selezione di n > 1 psu (da N psu in totale)
Metodi per selezione con replicazione
I vari metodi presuppongono la conoscenza di una misura
di dimensione (measure of size) per tutte le psu nella
popolazione
1.  Metodo della cumulata (vedi esempio dei negozi con
generazione di numeri casuali e inserite psu
corrispondenti a tali valori)
2.  Metodo di Lahiri (particolarmente utile quando il n.ro di
psu è grande)
TIS_II 80
Metodo della cumulata/1
Esempio: 647 studenti in 15 classi, campione di 5 classi con
replicazione e prob. proporzionale a Mi (= n.ro studenti per classe)
Ψi = Mi / 647
1.  Generazione di 5 numeri
casuali : 487, 369, 221, 326,
282
2.  Classi nel campione: 13, 9,
6, 8, 7
(se n.c.= 553, 082, 245, 594,
150, campione: 14, 3, 6, 14, 5
con classe 14 inserita 2 volte)
Si utilizza anche selezione
sistematica (che produce
campioni non replicati ma in
grandi pop.ni, differenza
minima)
TIS_II 81
Metodo della cumulata /2
Gruppo
A
B
C
D
E
F
G
H
I
Mi
20
100
50
€
15
18
43
20
36
13
M=315
I
∑M
j =1
j
=M
20
120
170
185
203
246
266
302
315
Tavola di numeri casuali: 3 cifre
0- 1
21 - 120
121 - 170
…
gruppo A;
gruppo B;
gruppo C
Estrazione di una UP: 1 numero casuale
con
Estrazione di due UP: 2 numeri casuali
reinserimento
…
Selezione sistematica per avere un’estrazione senza reinserimento:
es. 3 estrazioni: 315/3= 105
1 ≤ x ≤ 105 ⇒ prima UP
x + 105
⇒ seconda UP
+ 105 ⇒ terza UP
TIS_II 82
Esempio con selezione sistematica
(che produce campioni non replicati ma in grandi pop.ni,
risultati molto simili)
-  Lista degli elementi per la prima psu, poi la seconda e così via.
-  selezione sistematica dalla lista
Esempio 15 classi: 1 <k < 129 (647/5 ≈ 129.4), psu nel campione:
k, k+129, …
N.B.:
se k= 112
Non vero campione con
replicazione, poiché classi <=
129 non entrano più di una
volta nel campione e classi >
129 hanno P = 1 di far parte del
campione
ma facile da fare !
(se psu organizzate
geograficamente, campione
ottenuto è più sparso con
risultati migliori)
TIS_II 83
Metodo di Lahiri (rejective method)
N = n.ro psu, max (Mi) = dimensione massima psu
1.  selezione numero casuale (n.c.) tra 1 e N (psu da considere)
2.  selezione n.c. tra 1 e max (Mi):
• 
n.c. <= Mi , psu i è inclusa nel campione
• 
altrimenti si torna al punto 1
3.  ripetere fino a ottenere il numero di psu (ampiezza campionaria 1^
stadio) desiderato.
Esempio classi: max (studenti) = 100, generazioni di coppie di n.c.:
1^: 1, …15; 2^: 1,…100
TIS_II 84
Metodo di Lahiri: esempio
15 classi: max (studenti) = 100, generazioni di coppie di n.c.,
1^: 1, …,15 (psu); 2^: 1,…,100 (per decidere se tenere psu)
TIS_II 85
Stima campionamento a due stadi con probabilità
variabili e con replicazione
1.  Qualunque sia la psu i selezionata, si utilizza sempre lo stesso
disegno per selezionare al suo interno le ssu (campioni indipendenti
di ssu se la psu è replicata - stimatore non distorto della varianza )
es.: campione di 5 ssu da psu X se selezionata. Se X selezionata 2
volte: estratti 2 campioni diversi
2.  Estrazione del j-esimo campione (j = 1, …Qi = n.ro di replicazioni psu
i nel campione)
TIS_II 86
Passi per campionamento a due stadi con
probabilità variabili e replicazione
1. Determinare:
Ψi , n = n.ro psu da estrarre, metodo selezione ssu
entro psu
2. Selezionare con probabilità ψi e con replicazione n psu (metodo
cumulata o Lahiri)
3. Selezionare ssu come definito in 1. Selezionare tanti campioni di ssu
quante volte è estratta la psu
4. Stimare il totale di popolazione da ogni psu per ogni campione di ssu
(n stime t^ij / ψi)
5. Calcolare t^ = media delle n stime punto 4.
6. Calcolare SE= (1/ √ n) (deviazione standard campionaria delle n stime
punto 4.)
TIS_II 87
Stima campionamento a due stadi con probabilità
variabili e senza replicazione:
Maggiori complicazioni poiché la probabilità di selezione di una unità
(psu) cambia se è selezionata come prima, seconda, terza, …
Necessaria conoscenza di Prob inclusione 1^ e 2^ ordine (πi e πik).
Stimatore di Horvitz-Thompson (HT) (non distorto)
Zi = 1 se psu i
è nel
campione,
0 altrimenti
TIS_II 88
Campionamento a due stadi con probabilità
variabili e senza replicazione
Pesi di campionamento e stimatore HT
Probabilità che la ssu j della psu i sia nel
campione è πi πj/i , il peso di campionamento di
(i,j)-esima ssu è:
Stimatore
rapporto
TIS_II 89
Campione autoponderante da disegno su due stadi
Selezione con probabilità proporzionali alla dimensione
PPS (Probability Proportional to Size)
1° STADIO
20.000
2.000
8.000
P( A) = .
; P( B) = .
; P(C ) = .
30 000
30 000
30 000
b = 100
(# ssu selezionate al
2^ stadio)
P( j | A) =
100
100
100
;P(
j
|
B)
=
;P(
j
|
C)
=
20.000
2.000
8.000
pij = pi ⋅ p j|i = p
p Aj
20.000
100
1
= .
⋅ .
=
30 000 20 000 300
pBj
2.000
1
8.000 100
1
= .
⋅ .
=
pCj = .
⋅ .
=
30 000 2 000 300
30 000 8 000 300
100
Equazione di selezione con PPS per campione autoponderante
di ampiezza fissa nb
nM i b
nb
pij =
⋅
=
M0 Mi M 0
Attenzione a bilanciamento
tra dispersione del campione
e guadagno in Deff
TIS_II 90
Modello di costo per determinare b ottimo in
funzione dei costi
C = nCi + nbc
con var( y ) = min
C costo totale
Ci costo per psu/UP
€
b* ≈
c costo per elemento (unità di 2° livello)
Ci (1 − ICC)
c
ICC
Poiché campione = nb, fissata dimensione
e b* si trova n
a parità di altre condizioni, più l’omogeneità interna è elevata,
più alti i costi per unità e più bassi i costi per gruppo
più il campione sarà sparpagliato tra le UP
N.B. indagini multiscopo
usuali considerazioni
TIS_II 91
Campione per aree (o areale, di areole, aereolare)
campione formato selezionando con criteri probabilistici le superfici
su cui si vuole osservare un fenomeno
–  lista/e: mappa/e del territorio suddiviso in aree
aspetto più cruciale: confini ben definiti
–  popolazione: unità da osservare
campione a più stadi:
selezione aree (1° stadio) stratificazione geografica (anche implicita e
PPEstimatedS)
2° stadio:
selezione di un campione dalle aree selezionate
per avere un campione autoponderante: formula per PPES
due possibilità:
1) lista di tutte le unità residenti nell’area selezionata e selezione con
frazione b M i
2) dividere l’area in segmenti; selezionare con frazione b M i e poi
considerare tutte le unità nei segmenti selezionati (3° stadio)TIS_II 92
Scarica