Indice
I
Corso base
1
1 Introduzione
1.1 Descrizione della popolazione . . . . . . . . . . . . . . . . . . . .
1.1.1 Caratteri quantitativi . . . . . . . . . . . . . . . . . . . .
1.1.2 Caratteri dicotomici . . . . . . . . . . . . . . . . . . . . .
1.1.3 Descrizione di una popolazione suddivisa in gruppi . . . .
1.1.4 Scomposizione della varianza totale in varianza entro e tra
i gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Campione e sua descrizione . . . . . . . . . . . . . . . . . . . . .
1.2.1 Definizione di campione . . . . . . . . . . . . . . . . . . .
1.2.2 Descrizione del campione . . . . . . . . . . . . . . . . . .
1.3 Piano di campionamento . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Probabilità di estrazione degli elementi del campione . . .
1.3.2 Probabilità di inclusione delle unità . . . . . . . . . . . .
1.4 Il vettore aleatorio a . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.1 Distribuzione della variabile aleatoria a . . . . . . . . . .
1.5 Relazioni tra aλ e πλ . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Relazioni proprie del campionamento con reintroduzione .
1.5.2 Relazioni proprie del campionamento senza reintroduzione
1.6 Introduzione alla stima . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Le proprietà degli stimatori . . . . . . . . . . . . . . . . .
1.6.2 Stimatori lineari ed omogenei . . . . . . . . . . . . . . . .
1.6.3 La valutazione delle strategie campionarie . . . . . . . . .
1.7 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.3 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.4 Appendice 4 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.5 Appendice 5 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.6 Appendice 6 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.7 Appendice 7 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.8 Appendice 8 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.9 Appendice 9 . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.10 Campioni di dimensione n = 3 . . . . . . . . . . . . . . .
1.7.11 Appendice 10 . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.12 Appendice 12 . . . . . . . . . . . . . . . . . . . . . . . . .
i
3
5
5
7
8
10
11
11
13
15
16
22
25
26
28
28
29
31
31
33
36
37
37
37
40
43
45
47
47
48
48
49
50
50
ii
INDICE
2 Campionamento casuale semplice
51
2.1 C.C.S. con reintroduzione . . . . . . . . . . . . . . . . . . . . . . 52
2.1.1 Probabilità di estrazione dei campioni non ordinati . . . . 52
2.1.2 Probabilità di estrazione delle unità . . . . . . . . . . . . 53
2.1.3 Probabilità di inclusione . . . . . . . . . . . . . . . . . . . 53
2.1.4 Primi due momenti della variabile casuale a . . . . . . . . 53
2.1.5 Inferenza sulla media di popolazione . . . . . . . . . . . . 55
2.1.6 Inferenza sul totale di popolazione . . . . . . . . . . . . . 58
2.1.7 Stima per variabili dicotomiche: la proporzione e il totale 62
2.2 C. C. S. senza reintroduzione . . . . . . . . . . . . . . . . . . . . 63
2.2.1 Probabilità di estrazione dei campioni non ordinati (estrazione in blocco) . . . . . . . . . . . . . . . . . . . . . . 63
2.2.2 Probabilità di estrazione delle unità . . . . . . . . . . . . 64
2.2.3 Probabilità di inclusione . . . . . . . . . . . . . . . . . . . 64
2.2.4 Primi due momenti della variabile casuale a . . . . . . . . 65
2.2.5 Inferenza per la media e per il totale di popolazione . . . 65
2.2.6 Stima per variabili dicotomiche: la proporzione e il totale 70
2.3 Riassunto della teoria per il campionamento casuale semplice . . 71
2.4 C.C.S.: efficienza e precisione . . . . . . . . . . . . . . . . . . . . 72
2.4.1 Il design effect . . . . . . . . . . . . . . . . . . . . . . . . 72
2.4.2 Confronto di efficienza tra il campionamento casuale semplice con e senza reintroduzione . . . . . . . . . . . . . . . 72
2.5 Costr. di intervalli di confidenza simmetrici . . . . . . . . . . . . 74
2.5.1 Intervalli di confidenza per la media di popolazione . . . . 75
2.5.2 Intervalli di confidenza per il totale di popolazione . . . . 76
2.5.3 Intervalli di confidenza per variabili dicotomiche: la proporzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.6 Numerosità campionaria . . . . . . . . . . . . . . . . . . . . . . . 77
2.6.1 Determinazione della numerosità campionaria per la stima
della media di popolazione . . . . . . . . . . . . . . . . . . 78
2.6.2 Determinazione della numerosità campionaria per la stima
del totale di popolazione . . . . . . . . . . . . . . . . . . . 81
2.6.3 Determinazione della numerosità campionaria per la stima
della proporzione . . . . . . . . . . . . . . . . . . . . . . . 84
2.7 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.7.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.7.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.7.3 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3 Campionamento a probabilità variabile
3.1 P.V. con reintroduzione . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Inferenza sulla media di popolazione . . . . . . . . . . . .
3.1.2 Inferenza sul totale di popolazione . . . . . . . . . . . . .
3.1.3 Confronto di efficienza tra campionamento casuale semplice e campionamento a probabilità variabile . . . . . . .
3.2 P.V. con V.A. dimensionale . . . . . . . . . . . . . . . . . . . . .
3.2.1 Confronto di efficienza nel caso di campionamento casuale semplice e campionamento a probabilità variabile
con reintroduzione . . . . . . . . . . . . . . . . . . . . . .
3.3 P.V. senza reintroduzione . . . . . . . . . . . . . . . . . . . . . .
91
91
92
96
98
103
104
105
INDICE
iii
3.3.1
3.3.2
Probabilità di inclusione . . . . . .
Gli stimatori di Horvitz-Thompson
totale . . . . . . . . . . . . . . . .
3.4 Sintesi . . . . . . . . . . . . . . . . . . . .
3.5 Appendici . . . . . . . . . . . . . . . . . .
3.5.1 Appendice 1 . . . . . . . . . . . . .
3.5.2 Appendice 2 . . . . . . . . . . . . .
3.5.3 Appendice 3 . . . . . . . . . . . . .
. . . .
per la
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . .
media e per
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. .
il
. .
. .
. .
. .
. .
. .
105
4 La stima per quoziente
4.1 Stimatori per quoziente . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Uno stimatore per la media . . . . . . . . . . . . . . . . .
4.1.2 Uno stimatore per il totale . . . . . . . . . . . . . . . . .
4.1.3 Uno stimatore per rapporti aleatori . . . . . . . . . . . . .
4.2 La speranza degli stimatori per quoziente . . . . . . . . . . . . .
4.2.1 Scrittura di bQ in forma utile al calcolo dei momenti . . .
4.2.2 Correttezza approssimata degli stimatori per quoziente . .
4.2.3 Distorsione approssimata degli stimatori per quoziente . .
4.3 Varianza approssimata per quoziente . . . . . . . . . . . . . . . .
4.3.1 Varianza approssimata di bQ . . . . . . . . . . . . . . . .
4.3.2 Varianza approssimata di mQ (y) . . . . . . . . . . . . . .
4.3.3 Varianza approssimata di tQ (y) . . . . . . . . . . . . . . .
4.3.4 Stimatori delle varianze approssimate degli stimatori per
quoziente . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Efficienza per lo stimatore per quoziente . . . . . . . . . . . . . .
4.4.1 Confronto di efficienza tra media campionaria e stimatore
per quoziente nel campionamento casuale semplice con o
senza reintroduzione . . . . . . . . . . . . . . . . . . . . .
4.5 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.3 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.4 Appendice 4 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.5 Appendice 5 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.6 Appendice 6 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.7 Appendice 7 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.8 Appendice 8 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.9 Appendice 9 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.10 Stimatori delle varianze approssimate degli stimatori per
quoziente . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.11 Appendice 10 . . . . . . . . . . . . . . . . . . . . . . . . .
123
124
124
125
125
126
126
126
127
129
129
130
130
5 La stima per regressione
5.1 Il principio della stima per regressione . . . . . . . . . . . . . .
5.1.1 Uno stimatore per la media . . . . . . . . . . . . . . . .
5.1.2 Uno stimatore per il totale . . . . . . . . . . . . . . . .
5.2 La speranza degli stimatori per regressione . . . . . . . . . . .
5.2.1 Scritture utili per il calcolo dei momenti . . . . . . . . .
5.2.2 Correttezza approssimata degli stimatori per regressione
143
143
144
145
145
145
145
.
.
.
.
.
.
108
115
117
117
119
120
131
132
132
133
133
135
135
136
138
138
139
139
139
139
140
INDICE
iv
5.2.3
5.3
5.4
5.5
5.6
Distorsione esatta e approssimata degli stimatori espressa
in funzione dei residui . . . . . . . . . . . . . . . . . . . .
Approssimazione della varianza degli stimatori . . . . . . . . . .
5.3.1 Approssimazione della varianza degli stimatori . . . . . .
5.3.2 Stimatori della varianza approssimata degli stimatori per
regressione . . . . . . . . . . . . . . . . . . . . . . . . . .
Confronti di efficienza . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Confronto di efficienza tra lo stimatore per regressione e la
media campionaria nel campionamento casuale semplice
con o senza reintroduzione . . . . . . . . . . . . . . . . . .
5.4.2 Confronto di efficienza tra lo stimatore per regressione e
quello per quoziente nel campionamento casuale semplice
con o senza reintroduzione . . . . . . . . . . . . . . . . . .
Stimatori generalizzati per differenza . . . . . . . . . . . . . . . .
5.5.1 Correttezza degli stimatori generalizzati per differenza . .
5.5.2 Varianza degli stimatori generalizzati per differenza . . .
5.5.3 Stimatori per la varianza degli stimatori generalizzati per
differenza . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.4 Confronto di efficienza tra gli stimatori per regressione e
gli stimatori generalizzati per differenza . . . . . . . . . .
5.5.5 Confronto di efficienza tra gli stimatori generalizzati per
differenza e gli stimatori diretti del campionamento casuale semplice . . . . . . . . . . . . . . . . . . . . . . . . .
Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.3 Appendice 3 Confronto di efficienza tra lo stimatore per
regressione e lo stimatore di Hansen Hurwitz nel campionamento con reintroduzione . . . . . . . . . . . . . . . . .
6 Campionamento stratificato
6.1 [Il campionamento stratificato s. r.]Il campionamento stratificato
senza reintroduzione di dimensione n . . . . . . . . . . . . . . . .
6.1.1 Probabilità dei campioni non ordinati . . . . . . . . . . .
6.1.2 Probabilità di inclusione . . . . . . . . . . . . . . . . . . .
6.1.3 Inferenza sulla media di popolazione . . . . . . . . . . . .
6.1.4 Inferenza sul totale di popolazione . . . . . . . . . . . . .
6.1.5 Stima per variabili dicotomiche: la proporzione e il totale
6.2 Campionamento stratificato proporzionale . . . . . . . . . . . . .
6.2.1 Stimatore per la media e per il totale in caso di stratificazione proporzionale . . . . . . . . . . . . . . . . . . . .
6.2.2 Varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale . . . .
6.2.3 Uno stimatore per la varianza dello stimatore della media nel caso di campionamento stratificato con allocazione
proporzionale (estrazione senza reintroduzione) . . . . . .
6.3 [efficienza del campionamento strat. prop.]Confronto di efficienza
tra il campionamento casuale semplice senza reintroduzione e il
campionamento stratificato proporzionale . . . . . . . . . . . . .
6.3.1 Caso particolare di strati della stessa ampiezza . . . . . .
145
146
146
148
149
149
150
151
152
152
153
153
154
155
155
156
157
161
163
163
163
164
168
170
172
173
174
175
176
177
INDICE
v
6.4
Campionamento stratificato ottimale . . . . . . . . . . . . . . . . 178
6.4.1 Equivalenza del campionamento stratificato ottimale al
campionamento proporzionale nel caso di uguale varianza
all’interno degli strati. . . . . . . . . . . . . . . . . . . . . 179
6.5 [Numerosità campionaria in stratificazione]Determinazione della
numerosità campionaria complessiva nel campionamento stratificato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.6 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6.6.1 Appendice 1 Valori approssimati per la varianza dello stimatore della media nel caso di campionamento stratificato
con allocazione proporzionale . . . . . . . . . . . . . . . . 182
6.6.2 Uno stimatore della varianza dello stimatore della media
nel campionamento stratificato proporzionale . . . . . . . 183
6.6.3 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 184
6.6.4 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 185
6.6.5 Appendice 4 [Metodo del quoziente nella stratificazione]Gli
stimatori per quoziente nel campionamento stratificato . . 186
6.6.6 Stimatore per quoziente separato della media di popolazione186
6.6.7 Stimatore per quoziente combinato della media di popolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
6.6.8 Appendice 5 [Stimatore per regressione nella stratificazione]Gli
stimatori per regressione nel campionamento stratificato . 188
6.6.9 Stimatore di regressione separato della media di popolazione188
6.6.10 Stimatore di regressione combinato della media di popolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
7 Introduzione al campionamento a grappolo
7.1 Il campionamento casuale semplice di grappoli . . . . . . . . . .
7.1.1 Probabilità dei campioni non ordinati . . . . . . . . . . .
7.1.2 Probabilità di inclusione . . . . . . . . . . . . . . . . . . .
7.1.3 Espressione della casualità del campionamento di unità
complesse tramite un vettore aleatorio . . . . . . . . . . .
7.1.4 Stimatori lineari omogenei nel caso di campionamento di
unità complesse . . . . . . . . . . . . . . . . . . . . . . . .
7.2 c.c.s.s.r. di grappoli con dimensioni diverse . . . . . . . . . . . .
7.2.1 Inferenza sulla media per grappolo . . . . . . . . . . . . .
7.2.2 Inferenza sul totale di popolazione . . . . . . . . . . . . .
7.2.3 Inferenza sulla media di popolazione . . . . . . . . . . . .
7.3 c.c.s.s.r. di grappoli con la stessa dimensione . . . . . . . . . . .
7.3.1 Inferenza sulla media di popolazione . . . . . . . . . . . .
7.3.2 Inferenza sulla media per grappolo . . . . . . . . . . . . .
7.3.3 Inferenza sul totale di popolazione . . . . . . . . . . . . .
7.3.4 Confronto di efficienza tra il campionamento casuale semplice di unità complesse e il campionamento casuale semplice di unità elementari . . . . . . . . . . . . . . . . . . .
7.4 Campionamento sistematico . . . . . . . . . . . . . . . . . . . . .
7.5 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.5.1 Appendice 1 Il coefficiente di correlazione intracluster . .
191
193
193
194
194
195
195
195
201
202
204
205
208
209
210
211
213
213
INDICE
vi
7.5.2
7.5.3
7.5.4
7.5.5
7.5.6
7.5.7
II
Appendice 2 [alcune rel. utili per grappoli di eguale e diversa dim.]Relazioni tra i risultati per grappoli con eguale
dimensione e per grappoli con dimensioni diverse . . . . . 216
Appendice 3 [Camp. dei grappoli con probabilità variabile]Campionamento di grappoli con probabilità variabile
con reintroduzione . . . . . . . . . . . . . . . . . . . . . . 218
Inferenza sulla media di popolazione . . . . . . . . . . . . 219
Appendice 4 [la stima per quoziente nel camp. a grappolo]La stima per quoziente nel campionamento a grappolo . 221
Appendice 5 [confronti di effic. tra strategie alternative]Confronto
di efficienza tra strategie alternative nel caso di campionamento di grappoli con dimensioni diverse . . . . . . . . 223
Confronto tra strategie alternative nel caso di campionamento a grappoli con dimensione diversa . . . . . . . . . . 224
Corso avanzato
225
8 Introduzione alla seconda parte
8.1 Organizzazione della popolazione in unità complesse . . . . . . .
8.2 Argomenti speciali . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Stima nei domini di studio . . . . . . . . . . . . . . . . . . . . . .
8.4 Notazione utile per gli sviluppi successivi . . . . . . . . . . . . .
8.4.1 Descrizione della popolazione . . . . . . . . . . . . . . . .
8.4.2 Descrizione del campione . . . . . . . . . . . . . . . . . .
8.5 Piano di campionamento e stima . . . . . . . . . . . . . . . . . .
8.5.1 Universo dei campioni . . . . . . . . . . . . . . . . . . . .
8.5.2 Piano di campionamento . . . . . . . . . . . . . . . . . . .
8.5.3 Il vettore aleatorio a . . . . . . . . . . . . . . . . . . . .
8.5.4 Stimatori e i primi loro due momenti . . . . . . . . . . .
8.5.5 Stima della media nel Campionamento Casuale Semplice .
8.5.6 Stima della media nel Campionamento a Probabilità Variabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.5.7 Stima per quoziente . . . . . . . . . . . . . . . . . . . . .
8.5.8 Stima per regressione . . . . . . . . . . . . . . . . . . . .
227
227
228
228
229
229
232
233
233
234
236
237
239
9 Campionamento a grappolo
9.1 Il campionamento casuale semplice di grappoli . . . . . . . . . .
9.1.1 Probabilità dei campioni non ordinati . . . . . . . . . . .
9.1.2 Probabilità di inclusione . . . . . . . . . . . . . . . . . . .
9.1.3 Espressione della casualità del campionamento di unità
complesse tramite un vettore aleatorio . . . . . . . . . . .
9.1.4 Stimatori lineari omogenei nel caso di campionamento di
unità complesse . . . . . . . . . . . . . . . . . . . . . . . .
9.2 c.c.s.s.r. di grappoli con dimensioni diverse . . . . . . . . . . . .
9.2.1 Inferenza sulla media per grappolo . . . . . . . . . . . . .
9.2.2 Inferenza sul totale di popolazione . . . . . . . . . . . . .
9.2.3 Inferenza sulla media di popolazione . . . . . . . . . . . .
9.3 c.c.s.s.r. di grappoli con la stessa dimensione . . . . . . . . . . .
9.3.1 Inferenza sulla media di popolazione . . . . . . . . . . . .
245
247
247
248
240
242
243
248
249
250
250
256
257
259
261
INDICE
vii
9.3.2
9.3.3
9.3.4
9.4
9.5
9.6
9.7
9.8
9.9
Inferenza sulla media per grappolo . . . . . . . . . . . . .
Inferenza sul totale di popolazione . . . . . . . . . . . . .
Confronto di efficienza tra il campionamento casuale semplice di unità complesse e il campionamento casuale semplice di unità elementari . . . . . . . . . . . . . . . . . . .
9.3.5 Il coefficiente di correlazione intracluster . . . . . . . . . .
relazioni per grappoli di eguale e diversa dim. . . . . . . . . . . .
Camp. dei grappoli con probabilità variabile . . . . . . . . . . . .
9.5.1 Inferenza sulla media di popolazione . . . . . . . . . . . .
la stima per quoziente nel camp. a grappolo . . . . . . . . . . . .
confronti di effic. tra strategie alternative . . . . . . . . . . . . .
9.7.1 Confronto tra strategie alternative nel caso di campionamento a grappoli con dimensione diversa . . . . . . . . . .
Campionamento sistematico . . . . . . . . . . . . . . . . . . . . .
Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
265
266
267
268
273
275
276
279
282
282
287
289
10 Campionamento a più stadi
10.1 Formalizzazione del campionamento a due stadi . . . . . . . . . .
10.1.1 Probabilità d’inclusione . . . . . . . . . . . . . . . . . . .
10.1.2 Espressione della casualità del campionamento tramite
una gerarchia di vettori aleatori . . . . . . . . . . . . . . .
10.1.3 Lo stimatore lineare omogeneo nel campionamento a due
stadi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.2 prob. d’inclusione variabili al I e II stadio . . . . . . . . . . . . .
10.2.1 Inferenza sulla media di popolazione . . . . . . . . . . . .
10.2.2 Inferenza sul totale di popolazione . . . . . . . . . . . . .
10.3 prob. d’inclusione costanti al I e II stadio . . . . . . . . . . . . .
10.3.1 Inferenza sulla media di popolazione . . . . . . . . . . . .
10.3.2 Inferenza sul totale di popolazione . . . . . . . . . . . . .
10.4 unità di primo stadio con la stessa dimensione . . . . . . . . . . .
10.4.1 Inferenza sulla media di popolazione . . . . . . . . . . . .
10.4.2 Inferenza sul totale di popolazione . . . . . . . . . . . . .
10.4.3 Efficienza relativa del campionamento a due stadi nel caso
di unità di primo stadio con la stessa dimensione . . . . .
10.5 Stima per quoziente . . . . . . . . . . . . . . . . . . . . . . . . .
10.5.1 Varianza di 1o stadio . . . . . . . . . . . . . . . . . . . . .
10.6 Un esempio svolto in R . . . . . . . . . . . . . . . . . . . . . . . .
10.6.1 Svolgimento nell’ambiente R . . . . . . . . . . . . . . . .
10.6.2 Stima nel campionamento casuale semplice a 2 stadi senza
reintroduzione . . . . . . . . . . . . . . . . . . . . . . . .
10.6.3 Riassunto dei risultati calcolati con R . . . . . . . . . . .
10.6.4 Stimatore per quoziente . . . . . . . . . . . . . . . . . . .
10.7 Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
301
302
303
11 Sviluppi speciali
11.1 Formalizzazione del campionamento a tappe . . . . . . . . . . . .
11.1.1 Campionamento doppio indipendente . . . . . . . . . . .
11.1.2 Campionamento doppio dipendente . . . . . . . . . . . . .
11.1.3 Richiamo utile per il calcolo delle speranze e delle varianze
degli stimatori . . . . . . . . . . . . . . . . . . . . . . . .
349
350
350
350
304
305
307
308
311
312
313
315
316
317
320
320
320
322
322
323
326
327
328
329
351
INDICE
viii
11.2 Stima
11.2.1
11.2.2
11.2.3
11.2.4
11.3
11.4
11.5
11.6
11.7
per quoziente nel camp. a tappe . . . . . . . . . . . . . . . 351
Lo stimatore per quoziente della media di popolazione . . 351
Campionamento doppio indipendente . . . . . . . . . . . 352
Campionamento doppio dipendente . . . . . . . . . . . . . 356
Confronto tra il campionamento dipendente e quello indipendente . . . . . . . . . . . . . . . . . . . . . . . . . . 360
Le rilevazioni ripetute nel tempo . . . . . . . . . . . . . . . . . . 361
11.3.1 Lo stimatore per regressione nel campionamento a due tappe362
11.3.2 Uno stimatore composto nel caso di rilevazioni ripetute
nel tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
Stimatore di stratificazione nel camp. a tappe . . . . . . . . . . . 367
11.4.1 Distribuzione delle variabili aleatorie n1k . . . . . . . . . 368
11.4.2 Uno stimatore stratificato della media di popolazione . . . 369
La post-stratificazione . . . . . . . . . . . . . . . . . . . . . . . . 373
Prop. degli stim. in situazioni non standard . . . . . . . . . . . . 377
11.6.1 La linearizzazione tramite uno sviluppo in serie di Taylor 377
11.6.2 Il caso particolare dello stimatore per quoziente . . . . . . 378
Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380
12 La stima nei domini di studio
12.1 Stimatori di espansione . . . . . . . . . . . . . . . . .
12.1.1 Uno stimatore per il totale . . . . . . . . . . .
12.1.2 Uno stimatore per la media . . . . . . . . . . .
12.1.3 Varianza degli stimatori per i domini di studio
12.1.4 Stimatori per le varianze . . . . . . . . . . . . .
12.2 Stimatori per quoziente . . . . . . . . . . . . . . . . .
12.2.1 Varianza degli stimatori per quoziente . . . . .
12.2.2 Stimatori per le varianze . . . . . . . . . . . . .
12.2.3 Altri stimatori per quoziente . . . . . . . . . .
12.3 Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . .
Daniela Cocchi: Teoria dei Campioni
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
385
387
387
387
388
391
392
393
394
395
395
Teoria dei Campioni
Daniela Cocchi
INDICE
ii
Daniela Cocchi: Teoria dei Campioni
Parte I
Corso base
1
Capitolo 1
I principi dell’inferenza nel
campionamento da
popolazioni finite
Ultima revisione: 16 febbraio 2011
La progettazione e la realizzazione di indagini campionarie sono strumenti
statistici molto diffusi. Un campione ben scelto può dare informazioni che, con
un grado di incertezza controllabile tramite gli strumenti del calcolo delle probabilità, possono essere estese alla popolazione da cui esso proviene. Un’indagine
campionaria può addirittura dare luogo a risultati più affidabili di una rilevazione completa. Nelle rilevazioni complete, infatti, quanto più la popolazione
è grande, tanto più la raccolta dei dati rischia di svolgersi in condizioni molto
differenziate, che possono avere come conseguenza grandi errori di misura. Per
la buona riuscita di un’indagine campionaria è importante tuttavia che la selezione del campione avvenga realmente dalla popolazione obiettivo su cui è
programmata l’indagine. Indagini condotte in modo inadeguato potrebbero rilevare i dati soltanto da gruppi particolari della popolazione, in cui l’informazione
oggetto di studio è più facilmente ottenibile.
Nel mondo reale le popolazioni hanno dimensione finita. La teoria di base
dell’inferenza per popolazioni finite assume che la dimensione della popolazione
sia nota e che ogni elemento della popolazione sia identificabile.
La teoria dell’inferenza da popolazioni finite è molto diversa dalla teoria dell’inferenza maggiormente conosciuta. Infatti in quest’ultima si fa l’ipotesi che il
carattere investigato possa essere rappresentato mediante una variabile aleatoria
a cui si associa una distribuzione di probabilità. L’inferenza statistica classica è
inoltre fondata sull’idea del campionamento, ripetuto in condizioni di indipendenza, da un processo generatore dei dati, espresso con una legge di probabilità
governata da parametri incogniti la cui stima è oggetto di inferenza. In questo
caso ci si riferisce quindi a una popolazione infinita o illimitata. La stima dei
parametri viene effettuata in base a un’opportuna funzione delle osservazioni
campionarie, detta stimatore. La legge di probabilità dello stimatore è legata a
quella del carattere oggetto di studio. Le proprietà degli stimatori dipendono
dai parametri del modello adottato per tale variabile.
3
4
Nell’inferenza da popolazioni finite il carattere oggetto di studio è considerato non aleatorio. Secondo la terminologia della statistica, i valori individuali del
carattere sono quindi parametri della popolazione. Selezionando un campione
dalla popolazione, si fronteggia una situazione in cui il numero di osservazioni
campionarie è inferiore al numero di parametri da stimare. L’inferenza è comunque possibile perché il suo obiettivo è un valore sintetico della popolazione,
funzione dei valori individuali, come la media o il totale. Gli oggetti a cui, nell’inferenza da popolazioni finite, vengono assegnate le probabilità sono i possibili
campioni ottenibili dalla popolazione. Nell’inferenza tipica nelle popolazioni finite la fonte di aleatorietà consiste nella probabilità con cui le unità della popolazione possono entrare a far parte del campione. In questo caso l’inferenza
è basata esclusivamente sul piano di campionamento. L’universo dei possibili
campioni che possono essere potenzialmente costruiti è quindi fondamentale per
l’inferenza.
Dai valori della variabile rilevabili sugli elementi di ciascun possibile campione si può ricavare il valore dello stimatore per una qualunque funzione dei
valori individuali di popolazione. La mancata coincidenza con il valore di popolazione da parte del valore stimato tramite il campione a disposizione è dovuta
alla mancata osservazione di una parte della popolazione. L’errore che viene
commesso osservando una parte della popolazione è detto errore di campionamento, controllabile con gli strumenti del calcolo delle probabilità. Le proprietà
degli stimatori utilizzati dipendono direttamente dalle caratteristiche strutturali
della popolazione, che devono quindi essere definite accuratamente.
In queste note non si considerano altri tipi di errore tipici delle indagini
campionarie quali gli errori di misura, né gli errori da imputare al procedimento di rilevazione, come quelli relativi alla costruzione del questionario, se le
informazioni vengono raccolte tramite intervista, né quelli dovuti, nello stesso
contesto, al comportamento del rilevatore o dell’intervistato.
Le probabilità assegnate ai campioni variano secondo il piano di campionamento adottato. Se non ci sono ragioni per preferire certi campioni piuttosto che
altri per l’inferenza, tutti i campioni debono avere la stessa probabilità, dando
luogo al campionamento casuale semplice, l’unico ad esser proponibile. Piani di
campionamento diversi dal campionamento casuale semplice possono esser proposti se sono disponibili informazioni ausiliarie relative alla popolazione: per
una stessa popolazione possono essere proposti piani di campionamento diversi
e stimatori alternativi, utilizzando opportunamente le conoscenze da impiegare.
Le informazioni ausiliarie rivestono quindi un ruolo molto importante nell’inferenza da popolazioni finite, in quanto permettono di migliorare l’efficienza
degli stimatori a parità di dimensione campionaria. L’impiego di informazioni
ausiliarie può avvenire sia per assegnare le probabilità ai campioni sia per costruire stimatori che sfruttino le relazioni tra le informazioni ausiliarie e il carattere
oggetto di studio.
La teoria del campionamento da popolazioni finite ha avuto origine dal problema della progettazione di grandi indagini su popolazioni enormi, quelle considerate dagli istituti nazionali di statistica, e, soprattutto in alcuni aspetti, risente
di questa particolarità. Tipiche peculiarità delle popolazioni delle grandi indagini campionarie sono: l’identificabilità degli elementi della popolazione, l’enfasi
sulla considerazione di unità complesse che a loro volta contengono unità elementari, la conoscenza della dimensione della popolazione. Dalle esigenze degli
istituti nazionali di statistica ha avuto origine la ricerca di uno strumento per
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
5
fare inferenza che non sia collegato ad un modello statistico che descriva il
carattere oggetto di studio, ma che possa essere impiegato per qualunque tipo
di carattere. L’apparente neutralità dei procedimenti che vengono proposti è
comunque mitigata dall’uso appropriato delle informazioni ausiliarie.
I capitoli che seguono presentano i metodi che sono particolarmente adeguati
per popolazioni umane, o comunque di interesse socio-economico, piuttosto
che per popolazioni di tipo biologico o naturalistico. Per queste ultime popolazioni, infatti, non sempre si dispone della lista delle unità e, molto spesso, è
la dimensione stessa ad essere incognita e quindi oggetto di stima.
Nello studio delle popolazioni finite, a causa della particolarità concettuale
del problema da affrontare, si debbono definire in modo preciso la popolazione,
il campione, le loro principali sintesi, e descrivere la relazione che intercorre tra
popolazione e campione tramite il piano di campionamento. Questi passi vengono affrontati nelle sezioni che seguono. Le quantità di popolazione verranno
nel seguito denotate utilizzando l’alfabeto greco, secondo la convenzione della
statistica che caratterizza in tal modo tutto ciò che non viene osservato. A
sua volta ciò che viene osservato, cioè il campione, verrà denotato utilizzando
l’alfabeto latino.
1.1
Descrizione della popolazione
Sia data una popolazione di riferimento: Ω, formata da un numero finito di
elementi: N e si indichi con λ l’indice, o etichetta, che identifica ciascun elemento
appartenente alla popolazione:
1 ≤ λ ≤ N.
Il carattere univariato oggetto di studio può essere definito in popolazione
con il vettore:
η = (η1 , ..., ηλ , ..., ηN ) = {ηλ : 1 ≤ λ ≤ N } ,
(1.1)
mentre con il vettore
ζ = (ζ1 , ..., ζλ , ..., ζN ) = {ζλ : 1 ≤ λ ≤ N }
(1.2)
si definisce, sempre a livello di popolazione un altro carattere univariato che può
giocare il ruolo di informazione ausiliaria.
1.1.1
Caratteri quantitativi
Si possono definire le funzioni dei valori individuali (1.1) e (1.2) come:
a) il totale in popolazione:
t(η) =
N
ηλ ,
λ=1
Daniela Cocchi: Teoria dei Campioni
(1.3)
1.1. DESCRIZIONE DELLA POPOLAZIONE
6
b) la media in popolazione:
m(η) =
N
1
1 t(η) =
ηλ ,
N
N
(1.4)
λ=1
c) il valore medio del prodotto di due parametri univariati:
m(ηζ) =
d) Lemma.
N
1 ηλ ζλ ,
N λ=1
(1.5)
La covarianza tra due caratteri univariati è:
v(η, ζ) = m [(η − m(η)) (ζ − m (ζ))] = m (ηζ) − m (η) m (ζ) ,
(1.6)
Dimostrazione:
N
1 (ηλ − m(η)) (ζλ − m(ζ))
N
λ=1
N
N
N
N
1 =
ζλ − m(ζ)
ηλ +
m(η)m(ζ)
ηλ ζλ − m (η)
N
λ=1
λ=1
λ=1
λ=1
N
1 =
ηλ ζλ − m(η)m(ζ)N − m(ζ)N m(η) + N m(ζ)m(η)
N
v(η, ζ) = m [(η − m(η)) (ζ − m(ζ))] =
λ=1
= m (ηζ) − m (η) m(ζ)
= m (ηζ) − m (η) m (ζ) ,
d’) per sfruttare la proprietà di correttezza spesso richiesta agli stimatori viene
proposta, a partire dalla (1.6), anche la seguente espressione:
N
1 s (η, ζ) =
(ηλ − m (η)) (ζλ − m (ζ))
N −1
λ=1
N
=
v (η, ζ) ,
N −1
(1.7)
e) la varianza di popolazione:
v2 (η) = v (η, η) =
N
1 (ηλ − m (η))2
N
λ=1
= m η2 − m2 (η) ,
(1.8)
e’) la variante della varianza in popolazione, utile per i risultati riguardanti
l’impiego di stimatori corretti della varianza, analoga alla (1.7):
s2 (η) = s (η, η) =
f) il coefficiente di variazione:
N
v2 (η) ,
N −1
Daniela Cocchi: Teoria dei Campioni
(1.9)
CAPITOLO 1. INTRODUZIONE
CV (η) =
7
v (η)
m (η)
dove
v(η) =
v2 (η),
(1.10)
s (η)
m (η)
dove
s(η) =
s2 (η),
(1.11)
f’) con la variante:
CV (η) =
g) la varianza relativa:
RV (η) = CV 2 (η) ,
h) il coefficiente di correlazione lineare:
v (η, ζ)
s (η, ζ)
=
.
v (η) v (ζ)
s (η) s (ζ)
ρ (η, ζ) =
1.1.2
(1.12)
Caratteri dicotomici
Se la variabile ηλ assume soltanto i valori 1 o 0, che indicano la presenza o
l’assenza di una particolare caratteristica di interesse A , si possono definire:
h) il totale di popolazione:
τ=
N
ηλ = NA ,
(1.13)
λ=1
i) la media di popolazione:
π=
N
1 NA
ηλ =
,
N
N
(1.14)
λ=1
che indicano rispettivamente il numero totale e la frazione, o proporzione, di
unità che presentano la caratteristica A .
Ricordando che, nel caso di variabili dicotomiche, η2 = η, si possono riscrivere le quantità (1.8), (1.9) e (1.10) come segue:
l) la varianza di popolazione:
v2 (η) = m(η2 ) − m2 (η) = m(η) − m2 (η)
= π − π 2 = π(1 − π),
(1.15)
l’) con la variante:
s2 (η) =
N
N
v2 (η) =
π(1 − π),
N −1
N −1
(1.16)
m) il coefficiente di variazione:
1
v(η)
[π(1 − π)] 2
=
m(η)
π
1−π
=
,
π
CV (η) =
Daniela Cocchi: Teoria dei Campioni
(1.17)
1.1. DESCRIZIONE DELLA POPOLAZIONE
8
m’) con la variante:
s (η)
CV (η) =
m (η)
1.1.3
dove
s(η) =
N
π(1 − π).
N −1
(1.18)
Descrizione di una popolazione suddivisa in gruppi
Sia Ω partizionata in M gruppi, o unità complesse, o sottopopolazioni, identificati dall’indice k: 1 ≤ k ≤ M , in modo che ogni elemento possa essere assegnato
ad uno ed un solo gruppo di dimensione Nk e che la dimensione globale della
popolazione possa essere ricostruita per somma:
Ω=
M
Ωk
Ωk
k=1
N=
M
Ωh = φ h = k,
Nk .
(1.19)
(1.20)
k=1
In questo caso l’indice λ identifica gli elementi appartenenti ai singoli gruppi:
1 ≤ λ ≤ Nk .
I caratteri univariati di popolazione della sezione precedente come (1.1) e
(1.2), possono essere ridefiniti con riferimento all’appartenenza ai gruppi:
ηk = (ηk1 , ..., ηkλ , ..., ηkNk )
= {ηkλ : 1 ≤ λ ≤ Nk }
1 ≤ k ≤ M,
ζk = (ζk1 , ..., ζkλ , ..., ζkNk )
= {ζkλ : 1 ≤ λ ≤ Nk }
(1.21)
1 ≤ k ≤ M.
(1.22)
All’interno di ciascun gruppo si possono definire, come nella sezione precedente:
a) il totale di gruppo:
t(ηk ) =
Nk
ηkλ
λ=1
1 ≤ k ≤ M,
(1.23)
ritrovando il totale di popolazione (1.3) come:
t(η) =
Nk
M k=1 λ=1
b) la media di gruppo:
ηkλ =
M
t (ηk ) ,
k=1
Daniela Cocchi: Teoria dei Campioni
(1.24)
CAPITOLO 1. INTRODUZIONE
m(ηk ) =
9
Nk
1 ηkλ
Nk
1 ≤ k ≤ M,
λ=1
(1.25)
ritrovando la media di popolazione (1.4) come media aritmetica ponderata delle
medie di gruppo:
m(η) =
M Nk
M
M
1 1 1 ηkλ =
Nk m(ηk ) =
t(ηk ),
N
N
N
k=1 λ=1
k=1
(1.26)
k=1
c) il valor medio di gruppo del prodotto di due parametri univariati:
m(ηk ζk ) =
Nk
1 ηkλ ζkλ
Nk
1 ≤ k ≤ M,
λ=1
(1.27)
d) la covarianza all’interno di ciascun gruppo:
v(ηk ,ζk ) = m [(η − m(ηk )) (ζ − m(ζk ))]
=
N
1 (ηkλ − m(ηk )) (ζkλ − m(ζk ))
Nk
λ=1
= m (ηk ζk ) − m (ηk ) m (ζk )
1 ≤ k ≤ M,
(1.28)
d’) con la variante:
s(ηk , ζk ) =
Nk
v(ηk , ζk )
Nk − 1
1 ≤ k ≤ M,
(1.29)
e) varianza all’interno di ciascun gruppo:
v 2 (ηk ) =
Nk
1 (ηkλ − m(ηk ))2 = m ηk2 − m(ηk )2
Nk λ=1
1 ≤ k ≤ M,
(1.30)
e’) con la variante:
s2 (ηk ) =
Nk
v2 (ηk )
Nk − 1
1 ≤ k ≤ M.
(1.31)
I gruppi possono essere visti come unità complesse, che costituiscono la popolazione degli M gruppi. Il valore individuale nell’unità complessa è il totale
t (ηk )del valore delle unità elementari nel gruppo. Le medie per gruppo sono
quindi le medie aritmetiche semplici dei totali di gruppo:
f) media per gruppo:
m∗ (η) =
M
t(η)
1 =
t (ηk ) .
M
M
k=1
Daniela Cocchi: Teoria dei Campioni
(1.32)
1.1. DESCRIZIONE DELLA POPOLAZIONE
10
Si osservi che la grandezza (1.32) differisce dalla media generale, scritta
secondo la (1.26), unicamente per effetto di una costante moltiplicativa, infatti
si ha la seguente relazione:
M
1 N
Nk m(ηk ) =
m(η).
M
M
m∗ (η) =
(1.33)
k=1
1.1.4
Scomposizione della varianza totale in varianza entro e tra i
gruppi
Quando si tiene conto della suddivisione in gruppi della popolazione , è opportuno ricordare un’importante relazione, che nella popolazione ha una interpretazione esclusivamente descrittiva, basata sulla scomposizione della devianza
totale.
Lemma:
Dev (η) =
Nk
M k=1 λ=1
[ηkλ − m (η)]2 =
M
Nk v2 (ηk ) +
k=1
M
k=1
Nk [m (ηk ) − m (η)]2 ,
(1.34)
Dimostrazione:
Dev (η) =
Nk
M k=1 λ=1
=
Nk
M k=1 λ=1
[ηkλ − m (η)]2 =
2
Nk
M k=1 λ=1
M
Nk v 2 (ηk ) +
k=1
M
k=1
+2
M
k=1
=
M
k=1
poiché
N
k
λ=1
k=1 λ=1
[ηkλ − m (ηk )] +
+2
=
Nk
M Nk v 2 (ηk ) +
[ηkλ + m (ηk ) − m (ηk ) − m (η)]2
Nk
M k=1 λ=1
[m (ηk ) − m (η)]2
(ηkλ − m (ηk )) (m (ηk ) − m (η))
Nk [m (ηk ) − m (η)]2
(m (ηk ) − m (η))
M
k=1
Nk
λ=1
(ηkλ − m (ηk ))
Nk [m (ηk ) − m (η)]2 ,
(ηkλ − m (ηk )) = 0.
Se si indicano rispettivamente come varianza ”entro” e ”tra” le seguenti
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
11
espressioni:
ve2 (η) =
M
1 Nk v2 (ηk ) ,
N
(1.35)
k=1
vt2 (η) =
M
1 2
Nk [m (ηk ) − m (η)] ,
N
(1.36)
k=1
si ottiene la scomposizione additiva della varianza già definita in (1.8):
v 2 (η) = ve2 (η) + vt2 (η) .
(1.37)
Si definiscono inoltre le seguenti relazioni descrittive, che si basano anch’esse
sulla scomposizione della devianza (1.34):
N
v2 (η) ,
N −M e
N
s2t (η) =
v 2 (η) ,
M −1 t
s2e (η) =
(1.38)
(1.39)
e quindi dalla (1.34) :
(N − 1) s2 (η) = (N − M ) s2e (η) + (M − 1) s2t (η) .
(1.40)
La relazione additiva di scomposizione riguarda quindi la devianza, come si
desume dalle (1.34) e (1.40), e si riferisce la varianza soltanto nel caso semplificato (1.37).
Da ricordare: in popolazione ogni carattere ha specifiche caratteristiche
strutturali. In particolare è caratterizzato dai valori descrittivi della varianza
e del coefficiente di variazione. Gli elementi di una popolazione possono essere
raggruppati in unità complesse. Tramite questo raggruppamento, la devianza
del carattere può essere scomposta nelle componenti entro e tra.
1.2
1.2.1
Definizione di campione e sua descrizione
Definizione di campione
Il campionamento consiste nella selezione di una successione di indici li dall’insieme degli indici λ che identificano gli elementi della popolazione Ω, in base
ad uno schema predefinito. L’operazione di selezione dà origine al campione
formato dall’insieme di etichette selezionato:
s = {li : 1 ≤ li ≤ N , 1 ≤ i ≤ n (s)} ,
(1.41)
dove n(s) indica l’ampiezza del campione, che può variare al variare di s. Se
n(s) = n, il campione è di ampiezza fissa.
Daniela Cocchi: Teoria dei Campioni
1.2. CAMPIONE E SUA DESCRIZIONE
12
La frazione di campionamento
Con il termine frazione di campionamento, nel caso di campionamento a dimensione fissa, si intende il rapporto tra la dimensione campionaria e la dimensione
della popolazione:
f=
n
.
N
(1.42)
Definizione di universo dei campioni e sua dimensione
All’operazione di selezione del campione è associato uno spazio campionario, o
universo dei campioni, indicato con S, costituito dall’insieme di tutti i possibili campioni, di qualsiasi dimensione, che si possono formare a partire dalla
popolazione di dimensione N.
Nel caso di campionamento a dimensione fissa, si definisce spazio campionario relativo ai campioni di dimensione n, e si indica con Sn , l’insieme delle
parti di Ω :
Sn = {s ∈ S : n (s) = n} .
La dimensione del singolo Sn varia a seconda che la selezione delle etichette
avvenga con o senza reintroduzione e che l’ordine degli elementi estratti sia
considerato o non considerato rilevante. Con S(n) si fa riferimento a campioni
ordinati, mentre con S{n} a campioni non ordinati.
Per determinare la dimensione dell’universo dei campioni
Dim(S{n} ) = S{n} ,
è utile distinguere tra:
a) campioni non ordinati senza ripetizione, o in blocco, dove
N!
N
Dim(S{n} ) = CN,n =
=
,
n
n! (N − n)!
(1.43)
b) campioni ordinati senza ripetizione, dove
Dim(S(n) ) = DN,n =
N!
,
(N − n)!
(1.44)
c) campioni non ordinati con ripetizione, dove
r
Dim(S{n} ) = CN,n
= CN+n−1,n
(N + n − 1)!
N +n−1
,
=
=
n
n! (N − 1)!
(1.45)
d) campioni ordinati con ripetizione, dove
r
Dim(S(n) ) = DN,n
= N n.
Daniela Cocchi: Teoria dei Campioni
(1.46)
CAPITOLO 1. INTRODUZIONE
13
Gli universi ordinati hanno cardinalità superiore a quelli non ordinati.
La dimensione dell’universo dei campioni ordinati, con o senza ripetizione,
può essere ottenuta da quello dei campioni non ordinati, moltiplicando ogni campione non ordinato per il numero dei campioni ordinati formati dal medesimo
insieme di elementi.
Il caso più semplice è quello del campionamento senza ripetizione, in cui l’universo dei campioni ordinati (1.44) può essere ottenuto da quello dei campioni
non ordinati (1.43), associando ad ogni campione non ordinato gli n! campioni
ordinati che derivano dalle permutazioni del campione iniziale che non presenta
elementi ripetuti, infatti si ha:
DN,n = CN,n · n!.
1.2.2
(1.47)
Descrizione del campione
I valori selezionati del carattere multivariato oggetto d’interesse sono, come già
accennato nella sezione precedente, denotati con lettere latine:
x = (x1 , ..., xn ) = {xi : 1 ≤ i ≤ n}.
(1.48)
Considerando i valori campionari dei caratteri univariati η e ζ, si ottengono
i vettori:
y = (y1 , ..., yn ) = (yi : 1 ≤ i ≤ n) ,
z = (z1 , ..., zn ) = (zi : 1 ≤ i ≤ n) .
(1.49)
Non vi è quindi differenza tra il valore individuale del carattere in popolazione ed il suo valore nel campione, se non nella notazione:
yi = ηli
(1.50)
e non c’è quindi nessun aspetto aleatorio che riguardi i valori assunti dai caratteri. Da questa scrittura si comprende chiaramente come, se venisse effettuata
una rilevazione totale, e quindi il campione coincidesse con la popolazione, non
si avrebbe nessun tipo di incertezza nel calcolo di quantità descrittive della
popolazione.
L’osservazione completa fornita dal campione è composta dalle coppie di
etichette e di valori osservati:
d = {(li , yi ) : 1 ≤ i ≤ n}.
(1.51)
I riassunti campionari che vengono presentati nei due paragrafi seguenti,
rispettivamente per variabili quantitative o dicotomiche, possono, analogamente
alla descrizione effettuata per la popolazione, essere calcolati per gruppi e poi
sintetizzati appropriamente.
Daniela Cocchi: Teoria dei Campioni
1.2. CAMPIONE E SUA DESCRIZIONE
14
Caratteri quantitativi
Se si considerano caratteri quantitativi, analogamente a quanto avviene per la
popolazione, si possono definire le principali funzioni di sintesi degli elementi
del campione, come:
a) il totale campionario:
n
t(y) =
yi ,
(1.52)
i=1
b) la media campionaria:
n
1
1
m(y) = t(y) =
yi ,
n
n i=1
(1.53)
c) la media campionaria del prodotto di due variabili:
n
m (yz) =
d) la covarianza campionaria:
1
yi zi ,
n i=1
v(y, z) = m [(y − m(y))(z − m(z))]
n
1
=
(yi − m(y))(zi − m(z))
n i=1
= m(yz) − m(y)m(z),
d’) la variante della covarianza campionaria espressa come:
n
s(y, z) =
v(y, z),
n−1
(1.54)
(1.55)
(1.56)
e) la varianza campionaria:
n
v2 (y) = v(y, y) =
1
(yi − m(y))2
n i=1
= m(y 2 ) − [m(y)]2 ,
(1.57)
e’) la variante della varianza campionaria espressa come:
n
s2 (y) =
1 n 2
(yi − m(y))2 =
v (y),
n − 1 i=1
n−1
(1.58)
f) il coefficiente di variazione campionario:
CV (y) =
v (y)
,
m (y)
CV (y) =
s (y)
,
m (y)
(1.59)
f’) con la variante:
g) la varianza relativa campionaria:
RV (y) = CV 2 (y) .
Daniela Cocchi: Teoria dei Campioni
(1.60)
CAPITOLO 1. INTRODUZIONE
15
Caratteri dicotomici
Se la variabile η è dicotomica, le principali funzioni di sintesi del campione sono:
h) il totale campionario:
n
t(y) =
yi = nA ,
(1.61)
i=1
che indica il numero di unità campionate che presentano la caratteristica A ,
i) la media campionaria:
n
p = m(y) =
1
nA
yi =
,
n i=1
n
(1.62)
che indica la frazione di unità campionate che presentano la caratteristica A ,
l) la varianza campionaria:
v 2 (y) = m(y 2 ) − [m(y)]2 = p (1 − p) ,
l’) e la variante:
s2 (y) =
n
p (1 − p) ,
n−1
m) il coefficiente di variazione campionario:
p (1 − p)
v (y)
CV (y) =
=
m (y)
p
1−p
=
,
p
(1.63)
(1.64)
(1.65)
m’) e la variante:
p (1 − p)
s (y)
n
CV (y) =
=
m (y)
n−1
p
n
1−p
=
.
n−1
p
(1.66)
Le sintesi descrittive del campione che sono state presentate sono esempi
delle quantità da impiegare per stimare i parametri incogniti di popolazione.
Da ricordare. In questa sezione si sono definiti il campione e l’universo dei
campioni. Le tipologie di universo dei campioni sono 4. I dati di un generico campione possono essere riassunti con le principali quantità della statistica
descrittiva. I riassunti che sono stati presentati in questa sezione non possono
essere considerati stimatori
1.3
Piano di campionamento
Il campionamento è detto casuale, o probabilistico, quando la selezione del campione avviene assegnando una probabilità a ciascuno dei possibili campioni. E’
importante precisare che non necessariamente tutti i campioni sono caratterizzati da uguale probabilità di estrazione e che la probabilità di estrazione di
Daniela Cocchi: Teoria dei Campioni
1.3. PIANO DI CAMPIONAMENTO
16
ciascun campione non deve essere strettamente positiva. I campioni con la stessa
probabilità sono quindi un caso particolare.
Il piano di campionamento è una misura di probabilità che, ad ogni campione
s dell’universo S, assegna la probabilità p (s) di essere estratto, nel rispetto delle
condizioni di coerenza del calcolo delle probabilità, in particolare:
p : S → [0, 1] e cioè p(s) ≥ 0
p (s) = 1.
(1.67)
s∈S
Da questa definizione si comprende come uno stesso universo dei campioni
possa essere probabilizzato impiegando piani di campionamento differenti.
Il piano di campionamento è il legame probabilistico tra gli elementi della
popolazione e gli elementi dei possibili campioni, uno solo dei quali verrà effettivamente estratto. Gli oggetti a cui si assegnano le probabilità sono i campioni.
Si definiscono anche altre probabilità, comunque legate alla probabilità dei campioni: la probabilità di estrazione degli elementi del campione e le probabilità
di inclusione degli elementi della popolazione nel campione.
Per definire la probabilità di inclusione è utile indicare con Sλ il sottoinsieme
dei campioni dello spazio campionario S che contengono l’unità di etichetta λ:
Sλ = {s ∈ S : λ ∈ s} .
(1.68)
Le probabilità dei campioni possono essere assegnate direttamente o possono
essere ricavate dalle probabilità di estrazione pλ(i) .
1.3.1
Probabilità di estrazione degli elementi del campione
In questa sezione si trattano le probabilità di estrazione in termini generali,
senza specificare i valori di probabilità associati ai singoli campioni, distinguendo
soltanto tra piano di campionamento con o senza reintroduzione.
Definizione
La probabilità di estrazione è la probabilità che l’unità λ-esima della popolazione
venga estratta come unità i-esima del campione e viene indicata con pλ(i) .
Tale probabilità, che può variare per ciascun elemento, può variare anche a
seconda dell’ordine di estrazione a cui si riferisce.
Nei piani di campionamento con dimensione fissa, ad ogni estrazione vale la
relazione:
N
pλ(i) = 1
1 ≤ i ≤ n.
(1.69)
λ=1
Le probabilità relative alla prima estrazione, denominate anche pesi iniziali,
vengono indicate con pλ :
pλ(1) = pλ
1 ≤ λ ≤ N.
Esse sono fondamentali in molti sviluppi successivi.
Daniela Cocchi: Teoria dei Campioni
(1.70)
CAPITOLO 1. INTRODUZIONE
17
Campionamento con reintroduzione
Se lo spazio campionario è formato da campioni estratti con reintroduzione, la
probabilità di estrazione pλ(i) della generica unità λ è costante da un’estrazione
alla successiva per effetto della reintroduzione:
pλ(i) = pλ
1≤λ≤N
1≤i≤n
(1.71)
e quindi è indipendente da quella delle unità selezionate alle estrazione precedenti.
Nel caso con reintroduzione la verifica della (1.69) è immediata.
Campionamento senza reintroduzione
Se lo spazio campionario è formato da campioni estratti senza reintroduzione,
la probabilità di estrazione pλ(i) , nell’ipotesi che l’unità λ non sia ancora stata
selezionata alle estrazioni precedenti, aumenta da un’estrazione alla successiva,
a causa della riduzione progressiva del numero di unità che rimangono estraibili:
pλ(i) =
p
λ
1− i−1
j=1 plj
0
∀λ = lj
λ = lj
(1.72)
per 2 ≤ i ≤ n e 1 ≤ j ≤ i − 1.
Le pλ(i) sono quindi condizionate dalle unità selezionate alle estrazioni precedenti (si veda anche l’Appendice 1).
Di seguito viene svolto per esteso un esempio di calcolo delle probabilità di
estrazione nel caso in cui non siano uguali per tutti gli elementi della popolazione, rispettivamente nel caso con e senza reintroduzione, per illustrare il
ruolo delle diverse componenti. Nei casi reali, le probabilità di estrazione si
usano prevalentemente nel campionamento con reintroduzione, dove restano invariate e pari alle (1.71). L’esempio è svolto senza dare rilievo alla conoscenza
delle probabilità dei campioni p(s).
Esempio 1.1 Calcolo delle probabilità di estrazione degli elementi del
campione (pλ diversi)
Da una popolazione di N = 4 elementi si estraggono campioni di numerosità
n, con le seguenti probabilità alla prima estrazione indicate con la notazione
(1.70):
p1 = 0.1
p2 = 0.4
p3 = 0.2
p4 = 0.3.
La (1.69) è verificata:
p1 + p2 + p3 + p4 = 1.
Campioni di dimensione n = 2
Daniela Cocchi: Teoria dei Campioni
(1.73)
1.3. PIANO DI CAMPIONAMENTO
18
Caso con reintroduzione Le estrazioni avvengono con reintroduzione,
originando, secondo la (1.46), il seguente universo dei campioni ordinati di
r
dimensione D4,2
= N n = 42 = 16:
λ\λ
1
2
3
4
1
(1, 1)
(2, 1)
(3, 1)
(4, 1)
2
(1, 2)
(2, 2)
(3, 2)
(4, 2)
3
(1, 3)
(2, 3)
(3, 3)
(4, 3)
4
(1, 4)
(2, 4) .
(3, 4)
(4, 4)
(1.74)
Le probabilità di estrazione per la selezione del secondo elemento rimangono invariate, per la (1.71), rispetto alle probabilità di estrazione del primo
elemento:
p1(2)
p2(2)
p3(2)
p4(2)
= p1
= p2
= p3
= p4
= 0.1
= 0.4
= 0.2
= 0.3.
Caso senza reintroduzione Le estrazioni avvengono senza reintroduzione,
secondo la (1.44), originando il seguente universo dei campioni ordinati di dimensione D4,2 = 4!
2! = 12:
λ\λ
1
2
3
4
1
(2, 1)
(3, 1)
(4, 1)
2
(1, 2)
(3, 2)
(4, 2)
3
(1, 3)
(2, 3)
4
(1, 4)
(2, 4) .
(3, 4)
(1.75)
(4, 3)
Le probabilità di estrazione non sono più uguali al variare di i. Infatti,
applicando la (1.72) si ricavano le probabilità di estrazione del secondo elemento
e quindi si verifica empiricamente la relazione (1.117) descritta in Appendice
1, e che è una generalizzazione della (1.69) a seconda di quale elemento della
popolazione sia stato estratto come primo elemento del campione.
Se l1 = 1 si ottiene:
0.4
= 0.445
1 − 0.1
0.2
= P (l2 = 3|l1 = 1) =
= 0.222
1 − 0.1
0.3
= P (l2 = 4|l1 = 1) =
= 0.333
1 − 0.1
p2(2) = P (l2 = 2|l1 = 1) =
p3(2)
p4(2)
e la verifica della (1.117) é:
p2(2) + p3(2) + p4(2) = 1.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
19
Si noti che la somma delle probabilità di estrazione uguale all’unità riguarda
l’evento certo dell’estrazione di uno dei tre elementi rimasti nella popolazione
come secondo elemento del campione.
Al variare del primo elemento della popolazione come primo elemento del
campione si ottengono i risultati seguenti. Se l1 = 2
0.1
= 0.167
1 − 0.4
0.2
= P (l2 = 3|l1 = 2) =
= 0.333
1 − 0.4
0.3
= 0.5
= P (l2 = 4|l1 = 2) =
1 − 0.4
p1(2) = P (l2 = 1|l1 = 2) =
p3(2)
p4(2)
p1(2) + p3(2) + p4(2) = 1.
Se l1 = 3
0.1
= 0.125
1 − 0.2
0.4
= P (l2 = 2|l1 = 3) =
= 0.5
1 − 0.2
0.3
= P (l2 = 4|l1 = 3) =
= 0.375
1 − 0.2
p1(2) = P (l2 = 1|l1 = 3) =
p2(2)
p4(2)
p1(2) + p2(2) + p4(2) = 1.
Se l1 = 4
0.1
= 0.143
1 − 0.3
0.4
= P (l2 = 2|l1 = 4) =
= 0.571
1 − 0.3
0.2
= P (l2 = 3|l1 = 4) =
= 0.286
1 − 0.3
p1(2) = P (l2 = 1|l1 = 4) =
p2(2)
p3(2)
p1(2) + p2(2) + p3(2) = 1
Esempio 1.2 Calcolo delle probabilità di estrazione degli elementi del
campione (pλ uguali)
Si consideri, come nell’esempio 1.1, una popolazione di N =4 elementi, tutti con
la stessa probabilità alla prima estrazione:
p1 = p2 = p3 = p4 =
1
= 0.25.
N
Daniela Cocchi: Teoria dei Campioni
1.3. PIANO DI CAMPIONAMENTO
20
La (1.69) è verificata:
4
pλ = 1.
(1.76)
λ=1
Campioni di dimensione n = 2
Caso con reintroduzione L’universo dei 16 campioni è quello già descritto con la (1.74) e le probabilità di estrazione del secondo elemento, per
la (1.71), rimangono invariate rispetto alla probabilità di estrazione del primo
elemento.
Caso senza reintroduzione L’universo dei 12 campioni è quello già descritto con la (1.75). Applicando la (1.72), si ricavano le probabilità di estrazione del secondo elemento, tutte uguali qualunque sia stato il primo elemento
estratto:
pλ
0.25
1
pλ(2) =
=
=
∀λ = l1 .
1 − pl1
0.75
3
La (1.117), generalizzazione della (1.69), è immediatamente verificata:
4
pλ(2) = 1.
λ=1
Campioni di dimensione n = 3
Caso con reintroduzione L’universo dei 64 campioni è quello già descritto con la (1.118) e le probabilità di estrazione del secondo e del terzo elemento
rimangono invariate, per la (1.71), rispetto alla probabilità di estrazione del
primo elemento.
Caso senza reintroduzione L’universo dei 24 campioni è quello già descritto con la (1.119). Le probabilità di estrazione per i primi due elementi del
campione sono uguali a quelle del caso con n = 2. Applicando la (1.72), si
ricavano le probabilità di estrazione del terzo elemento:
pλ(3) =
pλ
0.25
1
=
=
1 − pl1 − pl2
0.5
2
∀λ = l1 = l2 .
La (1.117), generalizzazione della (1.69), è immediatamente verificata per i
due elementi rimasti nella popolazione.
Negli esempi 1.1 e 1.2 le probabilità p(s) dei campioni non sono state calcolate. Tali probabilità possono essere assegnate direttamente, tuttavia nell’esempio 1.3 tali probabilità vengono ricavate dalle probabilità di estrazione
pλ .
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
21
Esempio 1.3 Calcolo delle probabilità p(s) dei campioni conoscendo le
probabilità di estrazione
Campioni di dimensione n = 2
Caso con reintroduzione Lo spazio dei campioni, per la (1.45), risulta
costituito da 10 elementi. Infatti:
5
5!
C4+2−1,2 = C5,2 =
=
= 10.
2
2!3!
Ricordando che la probabilità dell’insieme di coppie di elementi è uguale alla
somma delle probabilità delle coppie ordinate:
p(s) = P {λ, λ } = P (λ, λ ) + P (λ , λ)
= pλ pλ + pλ pλ = 2pλ pλ
λ = λ
e, nel caso di estrazione di un campione formato dagli stessi elementi:
p(s) = P {λ, λ} = P (λ, λ) = p2λ
λ = λ,
si ricavano le probabilità p(s) dei campioni con reintroduzione non ordinati
utilizzando la probabilità dei campioni con reintroduzione ordinati dell’universo
(1.74):
s
{1, 1}
{1, 2}
{1, 3}
{1, 4}
{2, 2}
{2, 3}
{2, 4}
{3, 3}
{3, 4}
{4, 4}
p(s)
p21 = (0.1)2 = 0.01
2p1 p2 = 2 · 0.1 · 0.4 = 0.08
2p1 p3 = 2 · 0.1 · 0.2 = 0.04
2p1 p4 = 2 · 0.1 · 0.3 = 0.06
p22 = (0.4)2 = 0.16
2p2 p3 = 2 · 0.4 · 0.2 = 0.16
2p2 p4 = 2 · 0.4 · 0.3 = 0.24
p23 = (0.2)2 = 0.04
2p3 p4 = 2 · 0.2 · 0.3 = 0.12
p24 = (0.3)2 = 0.09
da cui si può verificare la (1.67). Le probabilità appena calcolate saranno riprese
nell’Esempio 1.4.
Caso senza reintroduzione La probabilità delle coppie possibili è:
P (λ, λ ) = pλ · P (l2 = λ |l1 = λ) .
(1.77)
Le probabilità subordinate della (1.77) sono state ricavate quando è stato introdotto l’universo (1.75). Le probabilità p(s) di tale universo sono:
Daniela Cocchi: Teoria dei Campioni
1.3. PIANO DI CAMPIONAMENTO
22
s
p(s)
(1, 2) p1 · P (l2 = 2|l1 = 1) = 0.1 · 0.445 = 0.0445
(2, 1) p2 · P (l2 = 1|l1 = 2) = 0.4 · 0.167 = 0.0668
(1, 3)
p1 · P (l2 = 3|l1 = 1) = 0.1 · 0.222 = 0.0222
(3, 1)
p3 · P (l2 = 1|l1 = 3) = 0.2 · 0.125 = 0.025
(1, 4) p1 · P (l2 = 4|l1 = 1) = 0.1 · 0.333 = 0.0333
(4, 1) p4 · P (l2 = 1|l1 = 4) = 0.3 · 0.143 = 0.0429
(2, 3) p2 · P (l2 = 3|l1 = 2) = 0.4 · 0.333 = 0.1332
(3, 2) p3 · P (l2 = 2|l1 = 3) = 0.2 · 0.5 = 0.1
(2, 4) p2 · P (l2 = 4|l1 = 2) = 0.4 · 0.5 = 0.2
(4, 2) p4 · P (l2 = 2|l1 = 4) = 0.3 · 0.571 = 0.1713
(3, 4) p3 · P (l2 = 4|l1 = 3) = 0.2 · 0.375 = 0.075
(4, 3) p4 · P (l2 = 3|l1 = 4) = 0.3 · 0.286 = 0.0858
da cui si può verificare la (1.67). Si deve notare che le probabilità della coppie
ordinate non sono uguali.
Le probabilità dei campioni non ordinati estratti senza reintroduzione dall’universo (1.75) si ottengono dalla seguente relazione, che utilizza la (1.77):
p(s) = P {λ, λ } = P (λ, λ ) + P (λ , λ)
secondo il prospetto seguente:
s
p(s)
{1, 2} P (1, 2) + P (2, 1) = 0.0445 + 0.0668 = 0.1113
{1, 3} P (1, 3) + P (3, 1) = 0.0222 + 0.025 = 0.0472
{1, 4} P (1, 4) + P (4, 1) = 0.0333 + 0.0429 = 0.0762
{2, 3}
P (2, 3) + P (3, 2) = 0.1332 + 0.1 = 0.2332
{2, 4}
P (2, 4) + P (4, 2) = 0.2 + 0.1713 = 0.3713
{3, 4} P (3, 4) + P (4, 3) = 0.075 + 0.0858 = 0.1608
da cui si può ancora verificare la (1.67). Le probabilità appena calcolate saranno
riprese nell’Esempio 1.4.
Il caso dei campioni di dimensione n = 3 è riportato nell’Appendice 3.
Da ricordare. Assegnare probabilità di estrazione non eguali agli elementi
della popolazione significa avere motivi per non considerare eguali gli elementi della popolazione rispetto al campionamento. Tale diversità, nei casi reali,
deriva dalla conoscenza di informazioni ausiliarie.
1.3.2
Probabilità di inclusione delle unità
La probabilità di inclusione è la probabilità che singoli elementi, o gruppi di
elementi, entrino a far parte del campione.
In questo capitolo la probabilità di inclusione viene introdotta distinguendo
unicamente tra il caso con e senza reintroduzione, mentre nei capitoli successivi
verrà ulteriormente specificata in riferimento ai diversi piani di campionamento.
Probabilità di inclusione di primo ordine
Si definisce probabilità di inclusione di primo ordine di una unità λ, e si indica
con πλ , la probabilità che il campione estratto contenga tale unità:
πλ = P (λ ∈ s)
1 ≤ λ ≤ N,
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
23
quindi la probabilità che s appartenga all’insieme Sλ coincide con la somma
delle probabilità dei campioni che contengono l’elemento λ:
πλ
= P (s ∈ Sλ )
=
p (s)
(1.78)
1 ≤ λ ≤ N.
s∈Sλ
Probabilità di inclusione di secondo ordine
Si definisce probabilità
di inclusione di secondo ordine dell’insieme composto
dalle unità λ, λ e si indica con πλλ , la probabilità che il campione estratto
includa entrambe le unità:
πλλ = P ({λ, λ } ⊆ s) ,
quindi la probabilità che s appartenga all’insieme Sλ ∩Sλ coincide con la somma
delle probabilità dei campioni che contengono sia l’elemento λ che l’elemento λ :
πλλ
= P (s ∈ Sλ ∩ Sλ )
=
p (s)
s∈{Sλ ∩Sλ }
(1.79)
1≤λ≤N
1 ≤ λ ≤ N
λ = λ
E’ immediato osservare che la definizione (1.79) è invariante rispetto all’ordine delle unità λ e λ , infatti la definizione di probabilità di inclusione non fa
alcun riferimento all’ordine di estrazione degli elementi e quindi:
πλλ = πλ λ .
Nel caso di campionamento senza reintroduzione, poiché non è possibile
includere due volte la stessa unità nel campione, viene usata la convenzione:
πλλ = πλ
1 ≤ λ ≤ N.
(1.80)
Si noti che, per la definizione delle probabilità di primo e secondo ordine, non è
necessario che la dimensione del campione sia fissa.
Nel campionamento da popolazioni finite, le quantità p(s), pλ(i) , πλ sono
legate strettamente dalle condizioni di coerenza del calcolo delle probabilità.
Lo spazio a cui si conviene di assegnare le probabilità è quello dei campioni,
e quindi, dal punto di vista teorico, le p(s) sono le quantità fondamentali. In
pratica può rivelarsi più vantaggioso calcolare in primo luogo le probabilità di
estrazione o di inclusione.
Negli esempi che seguono si dà risalto al fatto che, in situazioni semplici, si
passi con relativa facilità, seppure al prezzo di calcoli in qualche caso tediosi,
dall’uno all’altro dei tre tipi di probabilità. Le probabilità dei campioni p(s) sono
fondamentali per determinare le probabilità di inclusione tramite la definizione
(1.78). Nell’esempio seguente le probabilità dei campioni, calcolate nell’Esempio
1.3, possono essere considerate note.
Daniela Cocchi: Teoria dei Campioni
1.3. PIANO DI CAMPIONAMENTO
24
Esempio 1.4 Calcolo delle probabilità di inclusione dalla definizione
Campioni di dimensione n = 2
Caso con reintroduzione
Nell’Esempio 1.3 sono state calcolate le probabilità dei campioni. Applicando
le definizioni (1.78) e (1.79) si ottengono le probabilità di inclusione di primo e
secondo ordine:
π1 = P {1, 1} + P {1, 2} + P {1, 3} + P {1, 4}
= 0.01 + 0.08 + 0.04 + 0.06 = 0.19
π2 = P {1, 2} + P {2, 2} + P {2, 3} + P {2, 4}
= 0.08 + 0.16 + 0.16 + 0.24 = 0.64
π3 = P {1, 3} + P {2, 3} + P {3, 3} + P {3, 4}
= 0.04 + 0.16 + 0.04 + 0.12 = 0.36
π4 = P {1, 4} + P {2, 4} + P {3, 4} + P {4, 4}
= 0.06 + 0.24 + 0.12 + 0.09 = 0.51
π11
π12
π13
π14
π22
π23
π24
π33
π34
π44
= P {1, 1} = 0.01
= P {1, 2} = 0.08
= P {1, 3} = 0.04
= P {1, 4} = 0.06
= P {2, 2} = 0.16
= P {2, 3} = 0.16
= P {2, 4} = 0.24
= P {3, 3} = 0.04
= P {3, 4} = 0.12
= P {4, 4} = 0.09.
Si noti che, poiché il campione ha dimensione 2, la somma delle probabilità
d’inclusione di secondo ordine è 1.
Caso senza reintroduzione Le probabilità dei campioni sono state calcolate nell’Esempio 1.3. Applicando le definizioni (1.78) e (1.79) si ottiene:
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
25
π1 = P {1, 2} + P {1, 3} + P {1, 4}
= 0.1113 + 0.0472 + 0.0762 = 0.2347
π2 = P {1, 2} + P {2, 3} + P {2, 4}
= 0.1113 + 0.2332 + 0.3713 = 0.7158
π3 = P {1, 3} + P {2, 3} + P {3, 4}
= 0.0472 + 0.2332 + 0.1608 = 0.4412
π4 = P {1, 4} + P {2, 4} + P {3, 4}
= 0.0762 + 0.3713 + 0.1608 = 0.6083
π12
π13
π14
π23
π24
π34
= P {1, 2} = 0.1113
= P {1, 3} = 0.0472
= P {1, 4} = 0.0762
= P {2, 3} = 0.2332
= P {2, 4} = 0.3713
= P {3, 4} = 0.1608.
Si noti che, poichè n = 2 ed il campionamento è senza reintroduzione, l’insieme
delle coppie di etichette non ordinate costituisce l’evento certo. La sua probabilità, pari ad 1, è quindi la somma delle probabilità di inclusione di secondo
ordine.
Il caso dei campioni di dimensione n = 3 è riportato nell’Appendice 4.
Nota. La continuazione dell’esempio 1.2, su campioni con la stessa probabilità di estrazione da una popolazione di dimensione N = 4, è rinviata al capitolo
2, a partire dall’esempio 2.1.
Da ricordare. I metodi di calcolo di probabilità di inclusione diverse per
ciascun elemento della popolazione sono rinviati al Capitolo 3.
1.4
Espressione della casualità del campionamento tramite un vettore aleatorio
Per una popolazione Ω, dato un piano di campionamento, può essere definito il
vettore aleatorio indicato con:
a = (a1 ...aλ ...aN ) = {aλ : 1 ≤ λ ≤ N},
(1.81)
che associa all’elemento λ-esimo della popolazione un valore che indica il numero
di volte in cui l’elemento compare nel campione:
n(s)
aλ =
1{li =λ} .
(1.82)
i=1
Ciascuna componente aλ è una variabile aleatoria discreta con distribuzione
dipendente dal piano di campionamento adottato.
Daniela Cocchi: Teoria dei Campioni
1.4. IL VETTORE ALEATORIO A
26
Tutti gli sviluppi dei capitoli successivi dipendono dalla distribuzione del
vettore a.
L’introduzione del vettore (1.81) permette di esprimere la dimensione del
campione sommando i valori aλ su tutta la popolazione:
n(s) =
N
aλ .
(1.83)
λ=1
D’ora in poi la teoria riguarderà esclusivamente campioni a dimensione fissa
n.
1.4.1
Distribuzione della variabile aleatoria a
Ciascuna variabile aleatoria aλ segue una distribuzione univariata discreta con
i primi due momenti E (aλ ) e V (aλ ).
Il vettore a ha una distribuzione N -dimensionale. La sua speranza è il vettore
delle E (aλ ):
E (a) = [E (a1 ) ,E (a2 ) ,...,E (aN )] ,
(1.84)
la sua matrice di varianza e covarianza è di dimensione N × N , nella diagonale
principale contiene le V (aλ ), all’esterno della diagonale contiene le C (aλ , aλ ):



V (a) = 


V (a1 )
...
C (aλ , a1 )
...
C (aN , a1 )
... C (a1 , aλ )
...
...
...
V (aλ )
...
...
... C (aN , aλ )
... C (a1 , aN )
...
...
... C (aλ , aN )
...
...
...
V (aN )






(1.85)
Si vedrà in seguito come i primi due momenti degli stimatori che saranno di
volta in volta proposti siano sempre caratterizzati dai primi due momenti del
vettore a.
Campionamento con reintroduzione
In un piano di campionamento con reintroduzione ogni elemento della popolazione può entrare nel campione sino ad un massimo di n volte. Ciascuna
variabile aleatoria aλ , definita in (1.82), può assumere i valori:
0 ≤ aλ ≤ n.
Le aλ non sono tra loro indipendenti: pur essendoci indipendenza tra le estrazioni, ciascuna delle quali segue una distribuzione binomiale:
aλ ∼ Bin (n, pλ ) .
(1.86)
Nel campionamento con reintroduzione, il ruolo dei pesi iniziali pλ definiti
nella (1.71) è fondamentale, i momenti delle aλ da inserire nella (1.84) e nella
(1.85) sono infatti:
E (aλ ) = npλ ,
V (aλ ) = npλ (1 − pλ ) .
Daniela Cocchi: Teoria dei Campioni
(1.87)
(1.88)
CAPITOLO 1. INTRODUZIONE
27
La non indipendenza tra le componenti del vettore a può essere riscontrata
verificando che la covarianza tra gli elementi della generica coppia aλ aλ non è
nulla.
Teorema 1.1 La covarianza tra gli elementi di una generica coppia di variabili
aλ e aλ ,con λ = λ ,in un campionamento con reintroduzione è:
C(aλ , aλ ) = −npλ pλ
λ = λ .
(1.89)
(dimostrazione in Appendice 5)
Campionamento senza reintroduzione
In un piano di campionamento senza reintroduzione, ogni elemento della popolazione non può entrare nel campione che una sola volta, quindi le aλ definite nella (1.82) sono variabili casuali indicatrici, o di Bernoulli, che possono
assumere unicamente i valori 0 o 1:
n(s)
aλ =
1{li =λ} = 1{λ∈s}
(1.90)
i=1
e non sono indipendenti.
Esempio 1.5 Calcolo della variabile aλ nel caso senza reintroduzione
Si supponga di avere un campione di n = 3 elementi estratto senza reintroduzione da una popolazione di N = 4, i valori delle aλ sono:
a1 =
1{li =1} = 1{1∈s} ,
1≤i≤3
a2 =
1{li =2} = 1{2∈s} ,
1≤i≤3
a3 =
1{li =3} = 1{3∈s} ,
1≤i≤3
a4 =
1{li =4} = 1{4∈s} .
1≤i≤3
Ciascuna aλ è la somma di tre valori, uno solo dei quali può essere non nullo.
Una delle aλ è composta da tre addendi nulli, perchè il campione è formato da
tre elementi. Le proprietà del campionamento senza reintroduzione dipendono dalle probabilità di inclusione di primo e secondo ordine (1.78) e (1.79), infatti si ha:
aλ ∼ Ber (πλ ) ,
(1.91)
e, ricordando che in questo caso a2λ = aλ , i momenti delle aλ da inserire nella
(1.84) e nella (1.85) sono:
Daniela Cocchi: Teoria dei Campioni
1.5. RELAZIONI TRA Aλ E πλ
28
E (aλ ) = 0 · P (aλ = 0) + 1 · P (aλ = 1)
= P (aλ = 1) = πλ ,
(1.92)
V (aλ ) = E a2λ − E 2 (aλ )
= E (aλ ) − E 2 (aλ )
= πλ − πλ2 = πλ (1 − πλ ) .
(1.93)
Teorema 1.1.bis La covarianza tra gli elementi di una generica coppia di
variabili aλ e aλ con λ = λ , in un campionamento senza reintroduzione, è
C(aλ , aλ ) = πλλ − πλ πλ
λ = λ .
(1.94)
La dimostrazione è svolta nell’Appendice 6.
1.5
1.5.1
Relazioni tra la variabile aleatoria a e le probabilità d’inclusione
Relazioni proprie del campionamento con reintroduzione
A partire dal legame che permette di esprimere le probabilità di inclusione in
funzione delle distribuzioni di probabilità, marginali e congiunte, delle aλ , si
ricavano ora due relazioni valide in caso di campionamento con reintroduzione
di dimensione n.
Teorema 1.2
Le probabilità di inclusione del primo ordine nel campionamento con reintroduzione sono:
πλ = 1 − (1 − pλ )n .
(1.95)
La dimostrazione è nell’Appendice 7.
Poiché il caso con reintroduzione non è complicato da trattare, le probabilità
d’inclusione del primo ordine possono essere ottenute utilizzando direttamente
la distribuzione binomiale. Infatti, per la (1.86) si ottiene:
n 0
πλ = 1 −
p (1 − pλ )n = 1 − (1 − pλ )n .
(1.96)
0 λ
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
29
Teorema 1.3
Le probabilità d’inclusione del secondo ordine nel campionamento con reintroduzione sono, nel caso di coppie costituite dallo stesso elemento:
n
n−1
πλλ = 1 − (1 − pλ ) − npλ (1 − pλ )
(1.97)
e, nel caso di coppie contenenti elementi diversi:
πλλ = 1 − (1 − pλ )n − (1 − pλ )n + (1 − pλ − pλ )n .
(1.98)
La dimostrazione è svolta nell’Appendice 8.
L’Esempio 1.6, in cui si calcolano le probabilità di inclusione nel campionamento con reintroduzione in funzione dei pesi iniziali, è riportato nell’Appendice
9.
1.5.2
Relazioni proprie del campionamento senza reintroduzione
Teorema 1.4
La somma delle probabilità di inclusione di primo ordine è pari alla dimensione
del campione:
N
πλ = n.
(1.99)
[aλ − E (aλ )] = 0
(1.100)
λ=1
Dimostrazione
Poiché è noto che:
N
λ=1
e, nel caso di campionamento senza reintroduzione, vale la (1.92), si potrà
scrivere
N
aλ =
λ=1
N
πλ ,
λ=1
da cui
N
πλ = n.
λ=1
Si ricorda che, nel caso di campionamento a dimensione variabile, la somma
delle probabilità di inclusione di primo ordine è uguale alla dimensione attesa
del campione E(n(s)).
Daniela Cocchi: Teoria dei Campioni
1.5. RELAZIONI TRA Aλ E πλ
30
Teorema 1.5
La somma delle probabilità di inclusione di secondo ordine, associate ad ogni
elemento della popolazione, è n volte la sua probabilità di inclusione di primo
ordine:
N
πλλ = nπλ
1 ≤ λ ≤ N.
(1.101)
λ =1
Dimostrazione
Direttamente dalla (1.94) si ha:
1≤λ≤N
1 ≤ λ ≤ N
λ = λ .
πλλ = C [aλ , aλ ] + πλ πλ
Sommando rispetto all’indice λ ed impiegando la (1.83), si ottiene:
N
λ =1 πλλ
N
λ =1 πλλ
N
λ =1
N
N
πλ πλ
C [aλ , aλ ] +
λ=1
λ=1
N
N
= C aλ ,
aλ + πλ
πλ
=
λ =1
λ =1
πλλ = C [aλ , n] + nπλ ,
ma, essendo n una costante si ha anche C [aλ , n] = 0, quindi:
N
πλλ = nπλ .
λ =1
Corollario 1.1
N
λ =1
(πλλ − πλ πλ ) = 0
∀λ.
(1.102)
Dimostrazione
N
λ =1
(πλ πλ − πλλ ) = πλ
N
λ =1
πλ −
N
πλλ ,
λ =1
direttamente dalla (1.99) e dalla (1.101) entrambi i termini sono uguali a nπλ ,
quindi la (1.102) è dimostrata.
Corollario 1.2 La somma delle probabilità d’inclusione di secondo ordine è
n2 .
Dimostrazione
Infatti:
N N
λ=1 λ =1
π
λλ
=n
N
λ=1
πλ = n2 .
1 ≤ λ, λ ≤ N .
Daniela Cocchi: Teoria dei Campioni
(1.103)
CAPITOLO 1. INTRODUZIONE
31
Esempio 1.7 Verifica delle proprietà delle probabilità di inclusione nel
campionamento senza reintroduzione
Campioni di dimensione n = 2 Si possono verificare sia la relazione (1.99):
π1 + π2 + π3 + π4 = 0.234 + 0.715 + 0.444 + 0.611 = 2
sia la relazione (1.101):
per
per
per
per
λ=1
λ=2
λ=3
λ=4
π11 + π12 + π13 + π14
π22 + π12 + π23 + π24
π33 + π13 + π23 + π34
π44 + π14 + π24 + π34
= 0.234 + 0.111 + 0.047 + 0.076 = 2 · 0.234
= 0.715 + 0.111 + 0.233 + 0.371 = 2 · 0.715
= 0.444 + 0.047 + 0.233 + 0.164 = 2 · 0.444
= 0.611 + 0.076 + 0.371 + 0.164 = 2 · 0.611
sia la relazione (1.103):
π11 + π12 + π13 + π14 + π21 + π22 + π23 + π24 +
π31 + π32 + π33 + π34 + π41 + π42 + π43 + π44 =
0.234 + 0.111 + 0.047 + 0.076 + 0.111 + 0.715 + 0.233 + 0.371
+0.047 + 0.233 + 0.444 + 0.164 + 0.076 + 0.371 + 0.164 + 0.611 = 4
Il caso dei campioni con dimensione n = 3 è svolto nell’Appendice 10.
1.6
1.6.1
Introduzione alla stima
Le proprietà degli stimatori
Come è già stato anticipato all’inizio di questo capitolo, tramite il risultato
campionario si vuole inferire su una quantità descrittiva di popolazione f (η),
come la (1.3) o la (1.4).
Per stimare f (η) l’informazione campionaria viene sintetizzata applicando
una funzione h (y) alle osservazioni. Informazioni ausiliarie sull’intera popolazione o sul campione possono essere utilizzate nella funzione che si propone
per la stima. Il valore della stima calcolato sulla base dello stimatore proposto non coincide, solitamente, con f(η), in quanto tramite il campionamento è
stato osservato un sottoinsieme della popolazione. Si ammette quindi l’esistenza dell’errore di campionamento rispetto alla popolazione da cui provengono i
dati.
La distribuzione campionaria di un generico stimatore dipende solamente
dal tipo di campionamento impiegato, quindi il riferimento ad uno stimatore
sarà sempre accompagnato dalla esplicitazione del tipo di campionamento considerato.
Daniela Cocchi: Teoria dei Campioni
1.6. INTRODUZIONE ALLA STIMA
32
Definizione: strategia campionaria
Si definisce strategia campionaria la scelta congiunta del piano di campionamento e dello stimatore impiegato per inferire sulla quantità di popolazione
incognita oggetto di interesse.
Poiché la fonte di variabilità che viene considerata in questo contesto è la
probabilità dei campioni, il calcolo delle principali sintesi di uno stimatore,
consistenti in speranza e varianza, si effettua usando le due espressioni:
E [h (y)] =
h(y)p(s)
(1.104)
s∈S
V [h (y)] =
s∈S
[h(y) − E(h(y))]2 p (s)
(1.105)
Se E [h (y)] coincide con il valore della quantità da stimare:
E [h (y)] = f (η) ,
si dice che lo stimatore è corretto, in caso contrario lo stimatore è distorto, e
caratterizzato dalla distorsione:
B [h (y)] = E [h (y)] − f (η) .
Uno stimatore distorto tenderà sistematicamente a sovrastimare o sottostimare f (η) a seconda che sia affetto da distorsione positiva o negativa.
Con riferimento a stimatori distorti, si considera il loro comportamento all’aumentare della numerosità campionaria. Se il limite della distorsione è nullo,
allora l’effetto dell’errore sistematico tende a scomparire all’aumentare della
dimensione del campione e si dice che lo stimatore è asintoticamante corretto.
La correttezza non è l’unica proprietà impiegata nel giudizio su uno stimatore e nella scelta tra stimatori alternativi. E’ importante, da un lato, impiegare
stimatori che tendono a dare una valutazione corretta di f (η), ma si deve considerare anche la dispersione della distribuzione campionaria dello stimatore
attorno al parametro incognito, valutata con l’errore quadratico medio:
EQM [h (y)] = E [h (y) − f (η)]2 .
Teorema 1.6
L’errore quadratico medio è la somma della varianza e del quadrato della distorsione:
EQM [h (y)] = V [h (y)] + B 2 [h (y)] .
Dimostrazione
Ricordando che
E [h (y) − E (h (y))] = 0
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
33
si ha:
2
EQM [h (y)] = E [h (y) − f (η) + E (h (y)) − E (h (y))]
2
2
= E [h (y) − E (h (y))] + E [E (h (y)) − f (η)]
+2E {[h (y) − E (h (y))] [E (h (y)) − f (η)]}
= V [h (y)] + E B 2 [h (y)] + 2E {[h (y) − E (h (y))] B [h (y)]}
= V [h (y)] + B 2 [h (y)] + 2B [h (y)] E {[h (y) − E (h (y))]}
= V [h (y)] + B 2 [h (y)] .
L’errore quadratico medio comprende sia l’effetto dell’incertezza dovuta alla
casualità campionaria, V [h (y)], che quello dovuto alla distorsione dello stimatore, B [h (y)]. Nel caso di stimatore corretto l’errore quadratico medio coincide
con la varianza.
1.6.2
Stimatori lineari ed omogenei
La maggior parte degli stimatori che verranno proposti appartiene alla categoria
degli stimatori lineari ed omogenei, che sono definiti come segue:
h(y) =
n
wi yi ,
(1.106)
i=1
dove l’insieme delle {wi , 1 ≤ i ≤ n} è un sistema di pesi campionari tale da
garantire la correttezza per il parametro da stimare.
Si noti che, quando la funzione delle osservazioni campionarie che viene
proposta come stimatore è del tipo (1.106), le osservazioni sono trattate in modo
simmetrico, e quindi il valore della stima è lo stesso per qualunque permutazione
delle osservazioni nel campione. Non vi è quindi differenza, nelle stime, tra quelle
calcolate da un campione non ordinato e quelle da un campione ordinato.
I vettori delle osservazioni campionarie sono variabili aleatorie per il fatto
che le unità vengono scelte in modo casuale e non perchè sia associata una
distribuzione di probabilità ai valori del carattere che viene rilevato su di esse.
Grazie all’introduzione del vettore delle aλ (1.81), è possibile descrivere una
qualunque statistica in funzione dei valori di popolazione anzichè dei soli valori
campionari. Questa operazione permette di ricavare i primi due momenti degli
stimatori facendo riferimento ai momenti di tale vettore.
Teorema 1.7
Uno stimatore lineare omogeneo può essere espresso come funzione dei valori di
popolazione:
N
h(y) =
aλ wλ ηλ .
(1.107)
λ=1
Dimostrazione
Poiché
Daniela Cocchi: Teoria dei Campioni
1.6. INTRODUZIONE ALLA STIMA
34
N
1{li =λ} = 1
1≤i≤n
λ=1
(1.108)
introducendo nella (1.106) tale uguaglianza e utilizzando la (1.90), si ricava:
h(y) =
n
wi yi
i=1
=
N
1{li =λ}
λ=1
n N
wli ηli 1{li =λ}
i=1 λ=1
=
N
λ=1
wλ ηλ
n
1{li =λ} =
i=1
N
aλ wλ ηλ
λ=1
La scrittura (1.107) eguaglia una somma di n elementi a una somma di N
elementi mostrando in modo esplicito che una statistica campionaria può essere
espressa in funzione di tutte le ηλ . Si noti che l’unica parte aleatoria consiste
nelle aλ , infatti le ηλ sono costanti di popolazione.
I pesi effettivamente utilizzati nello stimatore (1.106) sono gli n valori di
wi , ma debbono essere disponibili e noti prima del campionamento tutti i
{wλ , 1 ≤ λ ≤ N } della (1.107).
Definizione: Strategie autoponderanti di campionamento
Una strategia di campionamento è autoponderante se i pesi wλ per ogni elemento
dello stimatore lineare omogeneo associato al piano di campionamento sono
uguali.
Le strategie autoponderanti sono molto utili in pratica perché, nel caso venga
proposto uno stimatore lineare omogeneo, la funzione delle osservazioni campionarie che entra nello stimatore è il totale campionario. Infatti se wλ = w ∀λ
abbiamo che
n
h (y) = w
yi = wt (y)
(1.109)
i=1
Speranza dello stimatore lineare ed omogeneo
I primi due momenti degli stimatori lineari ed omogenei dipendono solo dai
primi due momenti del vettore multivariato a, dati dalla (1.84) e dalla (1.85),
da tutti i valori di popolazione e dal sistema di pesi.
In particolare, la speranza dello stimatore lineare ed omogeneo dipende dalla
speranza del vettore multivariato a introdotto con la (1.84), da tutti i valori di
popolazione e dal sistema di pesi wλ . Applicando l’operatore speranza alla
(1.107) si ottiene:
E [h(y)] =
N
E (aλ ) wλ ηλ .
λ=1
Daniela Cocchi: Teoria dei Campioni
(1.110)
CAPITOLO 1. INTRODUZIONE
35
Da questa espressione si può determinare il sistema di pesi {wλ : λ = 1, ..., N }
che assicuri la correttezza per la quantità da stimare, dipendente dalla speranza
del vettore a. Tale sistema di pesi deve essere fissato prima del campionamento, e applicato agli elementi della popolazione selezionati. Si avranno notevoli
semplificazioni se i pesi sono tutti uguali o uguali per gruppi.
Covarianza di una coppia di stimatori lineari ed omogenei h(y) e g(z)
La covarianza di una coppia di stimatori lineari ed omogenei dipende solo dai
primi due momenti del vettore multivariato a, dati dalla (1.84) e dalla (1.85),
da tutti i valori di popolazione e dal sistema di pesi scelto.
Teorema 1.8
C [h(y), g(z)] =
N
V (aλ ) wλ wλ∗ ηλ ζλ + 2
C (aλ , aλ ) wλ wλ∗ ηλ ζλ .
λ=1 λ <λ
λ=1
Dimostrazione
N C [h(y), g(z)] = E {[h(y) − E (h(y))] [g(z) − E (g(z))]}
N
N
= E
aλ wλ ηλ −
E (aλ ) wλ ηλ
λ=1
= E
= E
N
λ=1
(aλ − E (aλ )) wλ ηλ
N N
N N
λ=1
=
N
aλ wλ∗ ζλ
λ =1
λ=1 λ =1
=
λ=1
N
−
N
E
(aλ ) wλ∗ ζλ
λ =1
N
λ =1
[aλ − E (aλ )] [aλ − E
(aλ − E
(aλ )) wλ∗ ζλ
(aλ )] wλ wλ∗ ηλ ζλ
C (aλ , aλ ) wλ wλ∗ ηλ ζλ
(1.111)
λ =1
V (aλ ) wλ wλ∗ ηλ ζλ
λ=1
+2
N C (aλ , aλ ) wλ wλ∗ ηλ ζλ .
(1.112)
λ=1 λ <λ
Corollario 1.3
V [h(y)] =
N
λ=1
V
(aλ ) wλ2 ηλ2
+2
N λ=1
C (aλ , aλ ) wλ wλ ηλ ηλ .
λ <λ
Dimostrazione
Applicando la (1.112) si può ricavare la varianza dello stimatore lineare ed
omogeneo h(y):
Daniela Cocchi: Teoria dei Campioni
1.6. INTRODUZIONE ALLA STIMA
36
V [f (y)] = C [h(y), h(y)]
=
N
V (aλ ) wλ2 ηλ2
λ=1
+2
N C (aλ , aλ ) wλ wλ ηλ ηλ .
(1.113)
λ=1 λ <λ
Si osserva che la varianza di uno stimatore dipende sia dalla varianza che
dalla covarianza della aλ .
1.6.3
La valutazione delle strategie campionarie
Data una strategia campionaria per la stima di f (η), si definisce come precisione
dello stimatore h (y) il reciproco del suo errore quadratico medio:
Π [h(y)] =
1
.
EQM [h(y)]
(1.114)
Lo stimatore h(y) è tanto più preciso quanto più la sua dispersione attorno a
f (η) è ridotta e quindi il rapporto (1.114) è elevato. Nel caso di uno stimatore
corretto la precisione è pari al reciproco della varianza.
Nell’ambito della teoria del campionamento da popolazioni finite, in cui la
fonte di casualità risiede nella probabilità dei campioni, e non consiste nella
legge distributiva del carattere oggetto di studio, non si possono stabilire criteri
assoluti di efficienza analoghi al limite di Cramer-Rao per la varianza.
Per realizzare un confronto fra strategie alternative, la prima, (Ah), denotata
dal piano di campionamento A, in cui lo stimatore è h(y), e la seconda, (Bg),
denotata dal piano di campionamento B, in cui lo stimatore è g(y), per la
stima di un parametro f (η) è importante definire la precisione relativa della
prima strategia rispetto alla seconda come rapporto delle precisioni definite
nella (1.114):
ΠA [h(y)]
EQMB [g(y)]
Π (Ah/Bg) =
=
(1.115)
ΠB [g(y)]
EQMA [h(y)]
La strategia Ah è tanto più efficiente della strategia Bg quanto più il rapporto
Π (Ah/Bg) è superiore all’unità.
Se il piano di campionamento A è comune a entrambe le strategie, la (1.115)
diventa:
EQMA [g(y)]
.
Π (Ah/Ag) =
EQMA [h(y)]
Se, viceversa, lo stimatore è comune alle due strategie, si ha:
Π (Ah/Bh) =
EQMB [h(y)]
.
EQMA [h(y)]
(1.116)
Nel caso in cui le strategie campionarie siano caratterizzate da stimatori
corretti o asintoticamente corretti, al posto dell’errore quadratico medio, nelle
espressioni precedenti, si sostituirà la varianza.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
1.7
1.7.1
37
Appendici
Appendice 1
Nel caso senza reintroduzione, la relazione (1.69), per 2 ≤ i ≤ n, è verificata su
un numero di addendi non nulli pari al numero di elementi non ancora estratti:
N
pλ(i)
=
λ=1
λ=lj ; 1≤j≤i−1
=
1.7.2
1−
pλ
λ=lj ; 1≤j≤i−1
1−
i−1
j=1 plj
pλ
i−1
=
(1.117)
j=1 plj
1−
1−
i−1
j=1
plj
j=1
plj
i−1
= 1.
Appendice 2
Esempio 1.1 (continuazione) Calcolo delle probabilità di estrazione
degli elementi del campione (pλ diversi)
Popolazione di N = 4 elementi: campioni di dimensione n = 3.
Caso con reintroduzione Le estrazioni avvengono con reintroduzione,
ancora secondo la (1.46), originando l’universo dei campioni ordinati di dimenr
sione D4,3
= N n = 43 = 64. Ordinando le triplette (λ, λ , λ ) a partire dai primi
due elementi estratti, rappresentati rispettivamente nelle righe e nelle colonne,
si ottiene il seguente prospetto:
λ\λ
1
(1, 1, 1)
(1, 1, 2)
(1, 1, 3)
(1, 1, 4)
2
(1, 2, 1)
(1, 2, 2)
(1, 2, 3)
(1, 2, 4)
3
(1, 3, 1)
(1, 3, 2)
(1, 3, 3)
(1, 3, 4)
4
(1, 4, 1)
(1, 4, 2)
(1, 4, 3)
(1, 4, 4)
(2, 1, 1)
(2, 1, 2)
(2, 1, 3)
(2, 1, 4)
(2, 2, 1)
(2, 2, 2)
(2, 2, 3)
(2, 2, 4)
(2, 3, 1)
(2, 3, 2)
(2, 3, 3)
(2, 3, 4)
(2, 4, 1)
(2, 4, 2)
(2, 4, 3)
(2, 4, 4)
3
(3, 1, 1)
(3, 1, 2)
(3, 1, 3)
(3, 1, 4)
(3, 2, 1)
(3, 2, 2)
(3, 2, 3)
(3, 2, 4)
(3, 3, 1)
(3, 3, 2)
(3, 3, 3)
(3, 3, 4)
(3, 4, 1)
(3, 4, 2)
(3, 4, 3)
(3, 4, 4)
4
(4, 1, 1)
(4, 1, 2)
(4, 1, 3)
(4, 1, 4)
(4, 2, 1)
(4, 2, 2)
(4, 2, 3)
(4, 2, 4)
(4, 3, 1)
(4, 3, 2)
(4, 3, 3)
(4, 3, 4)
(4, 4, 1)
(4, 4, 2)
(4, 4, 3)
(4, 4, 4)
1
2
Daniela Cocchi: Teoria dei Campioni
(1.118)
1.7. APPENDICI
38
Dopo che il primo elemento è stato estratto, le probabilità di estrazione del
secondo e terzo elemento del campione rimangono invariate per la (1.71):
p1(3)
p2(3)
p3(3)
p4(3)
= p1(2)
= p2(2)
= p3(2)
= p4(2)
= p1
= p2
= p3
= p4
= 0.1
= 0.4
= 0.2
= 0.3.
Caso senza reintroduzione Le estrazioni avvengono senza reintroduzione
originando, secondo la (1.44), il seguente universo dei campioni ordinati di
dimensione D4,3 = 4!
1! = 24:
λ\λ
1
1
2
2
(1, 2, 3)
(1, 2, 4)
(2, 1, 3)
(2, 1, 4)
3
(3, 1, 2)
(3, 1, 4)
(3, 2, 1)
(3, 2, 4)
4
(4, 1, 2)
(4, 1, 3)
(4, 2, 1)
(4, 2, 3)
3
(1, 3, 2)
(1, 3, 4)
4
(1, 4, 2)
(1, 4, 3)
(2, 3, 1)
(2, 3, 4)
(2, 4, 1)
(2, 4, 3)
(1.119)
(3, 4, 1)
(3, 4, 2)
(4, 3, 1)
(4, 3, 2)
Le probabilità di estrazione per i primi due elementi del campione sono uguali
a quelle del caso con n = 2. Le probabilità di estrazione del terzo elemento del
campione si ricavano applicando nuovamente la (1.72):
Se l1 = 1 e l2 = 2
0.2
= 0.4
1 − (0.1 + 0.4)
0.3
= P (l3 = 4|l2 = 2 l1 = 1) =
= 0.6
1 − (0.1 + 0.4)
p3(3) = P (l3 = 3|l2 = 2 l1 = 1) =
p4(3)
La verifica della somma all’unità delle probabilità di estrazione del secondo
elemento è già stata svolta per il campione di numerosità n = 2, mentre quella
relativa all’estrazione del terzo elemento è, applicando ancora la (1.117) ai due
elementi rimasti nella popolazione dopo l’estrazione dei primi due:
p3(3) + p4(3) = 1
Si ripetono i calcoli a seconda di quali siano i primi due elementi del campione.
Se l1 = 1 e l2 = 3
0.4
= 0.571
p2(3) = P (l3 = 2|l2 = 3 l1 = 1) =
1 − (0.1 + 0.2)
0.3
p4(3) = P (l3 = 4|l2 = 3 l1 = 1) =
= 0.429
1 − (0.1 + 0.2)
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
p2(3) + p4(3) = 1
Se l1 = 1 e l2 = 4
0.4
= 0.667
1 − (0.1 + 0.3)
0.2
= P (l3 = 3|l2 = 4 l1 = 1) =
= 0.333
1 − (0.1 + 0.3)
p2(3) = P (l2 = 2|l2 = 4 l1 = 1) =
p3(3)
p2(3) + p3(3) = 1
Se l1 = 2 e l2 = 1
0.2
= 0.4
1 − (0.4 + 0.1)
0.3
= 0.6
= P (l3 = 4|l2 = 1 l1 = 2) =
1 − (0.4 + 0.1)
p3(3) = P (l3 = 3|l2 = 1 l1 = 2) =
p4(3)
p3(3) + p4(3) = 1
Se l1 = 2 e l2 = 3
0.1
= 0.25
1 − (0.4 + 0.2)
0.3
= P (l3 = 4|l2 = 3 l1 = 2) =
= 0.75
1 − (0.4 + 0.2)
p1(3) = P (l3 = 1|l2 = 3 l1 = 2) =
p4(3)
p1(3) + p4(3) = 1
Se l1 = 2 e l2 = 4
0.1
= 0.333
1 − (0.4 + 0.3)
0.2
= P (l3 = 3|l2 = 4 l1 = 2) =
= 0.667
1 − (0.4 + 0.3)
p1(3) = P (l3 = 1|l2 = 4 l1 = 2) =
p3(3)
Se l1 = 3 e l2 = 1
0.4
= 0.571
1 − (0.2 + 0.1)
0.3
= P (l3 = 4|l2 = 1 l1 = 3) =
= 0.429
1 − (0.2 + 0.1)
p2(3) = P (l3 = 2|l2 = 1 l1 = 3) =
p4(3)
p2(3) + p4(3) = 1
Se l1 = 3 e l2 = 2
0.1
= 0.25
1 − (0.2 + 0.4)
0.3
= P (l3 = 4|l2 = 2 l1 = 3) =
= 0.75
1 − (0.2 + 0.4)
p1(3) = P (l3 = 1|l2 = 2 l1 = 3) =
p4(3)
p1(3) + p4(3) = 1
Se l1 = 3 e l2 = 4
Daniela Cocchi: Teoria dei Campioni
39
1.7. APPENDICI
40
0.1
= 0.2
1 − (0.2 + 0.3)
0.4
= P (l3 = 2|l2 = 4 l1 = 3) =
= 0.8
1 − (0.2 + 0.3)
p1(3) = P (l3 = 1|l2 = 4 l1 = 3) =
p2(3)
p1(3) + p2(3) = 1
Se l1 = 4 e l2 = 1
0.4
= 0.667
1 − (0.3 + 0.1)
0.2
= P (l3 = 3|l2 = 1 l1 = 4) =
= 0.333
1 − (0.3 + 0.1)
p2(3) = P (l3 = 2|l2 = 1 l1 = 4) =
p3(3)
p2(3) + p3(3) = 1
Se l1 = 4 e l2 = 2
0.1
= 0.333
1 − (0.3 + 0.4)
0.2
= P (l3 = 3|l2 = 2 l1 = 4) =
= 0.667
1 − (0.3 + 0.4)
p1(3) = P (l3 = 1|l2 = 2 l1 = 4) =
p3(3)
p1(3) + p3(3) = 1
Se l1 = 4 e l2 = 3
0.2
= 0.2
1 − (0.3 + 0.2)
0.3
= P (l3 = 2|l2 = 3 l1 = 4) =
= 0.8
1 − (0.3 + 0.2)
p3(3) = P (l3 = 1|l2 = 3 l1 = 4) =
p4(3)
p3(3) + p4(3) = 1
1.7.3
Appendice 3
Esempio 1.3 (continuazione) Calcolo delle probabilità p(s) dei campioni conoscendo le probabilità di estrazione
Popolazione di N = 4 elementi: campioni di dimensione n = 3.
Caso con reintroduzione Lo spazio dei campioni, per la (1.45), risulta
composto da 20 elementi. Infatti,
6
6!
C4+3−1,3 = C6,3 =
=
= 20.
3
3!3!
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
41
Le probabilità dei campioni sono quindi:
p(s) = P {λ, λ , λ } = P (λ, λ , λ ) + P (λ, λ , λ ) + P (λ , λ , λ)
+P (λ , λ, λ ) + P (λ , λ , λ) + P (λ , λ, λ )
= 6pλ pλ pλ
λ = λ = λ
p(s) = P {λ, λ , λ } = P (λ, λ , λ ) + P (λ , λ, λ ) + P (λ , λ , λ)
= 3pλ p2λ
λ = λ = λ
p(s) = P {λ, λ, λ} = P (λ, λ, λ) = p3λ
λ = λ = λ
s
p(s)
{1, 2, 3}
{1, 3, 4}
{2, 3, 4}
{1, 2, 4}
{1, 1, 2}
{1, 1, 3}
{1, 1, 4}
{2, 2, 1}
{2, 2, 3}
{2, 2, 4}
{3, 3, 1}
{3, 3, 2}
{3, 3, 4}
{4, 4, 1}
{4, 4, 2}
{4, 4, 3}
{1, 1, 1}
{2, 2, 2}
{3, 3, 3}
{4, 4, 4}
6 · 0.1 · 0.4 · 0.2 = 0.048
6 · 0.1 · 0.2 · 0.3 = 0.036
6 · 0.4 · 0.2 · 0.3 = 0.144
6 · 0.1 · 0.4 · 0.3 = 0.072
3 · (0.1)2 · 0.4 = 0.012
3 · (0.1)2 · 0.2 = 0.006
3 · (0.1)2 · 0.3 = 0.009
3 · (0.4)2 · 0.1 = 0.048
3 · (0.4)2 · 0.2 = 0.096
3 · (0.4)2 · 0.3 = 0.144
3 · (0.2)2 · 0.1 = 0.012
3 · (0.2)2 · 0.4 = 0.048
3 · (0.2)2 · 0.3 = 0.036
3 · (0.3)2 · 0.1 = 0.027
3 · (0.3)2 · 0.4 = 0.108
3 · (0.3)2 · 0.2 = 0.054
(0.1)3 = 0.001
(0.4)3 = 0.064
(0.2)3 = 0.008
(0.3)3 = 0.027
da cui si può verificare la (1.67). Le probabilità appena calcolate saranno riprese
nell’Esempio 1.4.
Caso senza reintroduzione In questo caso, la probabilità di una tripletta
è:
p(s) = P (λ, λ , λ ) = pλ · P (l2 = λ |l1 = λ)
·P (l3 = λ |l2 = λ , l1 = λ) .
Daniela Cocchi: Teoria dei Campioni
(1.120)
1.7. APPENDICI
42
Le probabilità subordinate della (1.120) sono state calcolate con l’introduzione
dell’universo (1.119). Le probabilità p(s) di tale universo sono:
s
p(s)
(1, 2, 3)
(1, 3, 2)
(2, 1, 3)
(2, 3, 1)
(3, 1, 2)
(3, 2, 1)
(1, 2, 4)
(1, 4, 2)
(2, 1, 4)
(2, 4, 1)
(4, 1, 2)
(4, 2, 1)
(1, 3, 4)
(1, 4, 3)
(3, 1, 4)
(3, 4, 1)
(4, 1, 3)
(4, 3, 1)
(2, 3, 4)
(2, 4, 3)
(3, 2, 4)
(3, 4, 2)
(4, 2, 3)
(4, 3, 2)
0.1 · 0.445 · 0.4 = 0.0178
0.1 · 0.222 · 0.571 = 0.0127
0.4 · 0.167 · 0.4 = 0.0267
0.4 · 0.333 · 0.25 = 0.0333
0.2 · 0.125 · 0.571 = 0.0142
0.2 · 0.5 · 0.25 = 0.025
0.1 · 0.445 · 0.6 = 0.0267
0.1 · 0.333 · 0.667 = 0.0222
0.4 · 0.167 · 0.6 = 0.04
0.4 · 0.5 · 0.333 = 0.0667
0.3 · 0.143 · 0.667 = 0.0286
0.3 · 0.571 · 0.333 = 0.057
0.1 · 0.222 · 0.429 = 0.0095
0.1 · 0.333 · 0.333 = 0.0111
0.2 · 0.125 · 0.429 = 0.0107
0.2 · 0.375 · 0.2 = 0.015
0.3 · 0.143 · 0.333 = 0.0143
0.3 · 0.286 · 0.2 = 0.0172
0.4 · 0.333 · 0.75 = 0.0999
0.4 · 0.5 · 0.667 = 0.1334
0.2 · 0.5 · 0.75 = 0.075
0.2 · 0.375 · 0.8 = 0.06
0.3 · 0.571 · 0.667 = 0.1143
0.3 · 0.286 · 0.8 = 0.0687
La (1.67) è ancora verificata. Si ricavano quindi le probabilità dei campioni non
ordinati estratti senza reintroduzione dalla seguente relazione:
P {λ, λ , λ } = P (λ, λ , λ ) + P (λ, λ , λ )
+ P (λ , λ, λ ) + P (λ , λ , λ)
+ P (λ , λ, λ ) + P (λ , λ , λ)
secondo il prospetto seguente:
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
43
s
p(s)
{1, 2, 3}
P (1, 2, 3) + P (1, 3, 2) + P (2, 1, 3)+
P (2, 3, 1) + P (3, 1, 2) + P (3, 2, 1) = 0.130
{1, 2, 4}
P (1, 2, 4) + P (1, 4, 2) + P (2, 1, 4)
+P (2, 4, 1) + P (4, 1, 2) + P (4, 2, 1) = 0.241
{1, 3, 4}
P (1, 3, 4) + P (1, 4, 3) + P (3, 1, 4)
+P (3, 4, 1) + P (4, 1, 3) + P (4, 3, 1) = 0.078
{2, 3, 4}
P (2, 3, 4) + P (2, 4, 3) + P (3, 2, 4)
+P (3, 4, 2) + P (4, 2, 3) + P (4, 3, 2) = 0.551
verificando ancora la (1.67).
1.7.4
Appendice 4
Esempio 1.4 (continuazione) Calcolo delle probabilità di inclusione
dalla definizione Campione di dimensione n = 3
Caso con reintroduzione Nell’Esempio 1.3 sono state calcolate le probabilità dei campioni. Applicando le definizioni (1.78) e (1.79) si ottengono le
probabilità di inclusione di primo e secondo ordine:
π1 = P {1, 2, 3} + P {1, 3, 4} + P {1, 2, 4} + P {1, 1, 2} + P {1, 1, 3}
+ P {1, 1, 4} + P {2, 2, 1} + P {3, 3, 1} + P {4, 4, 1} + P {1, 1, 1}
= 0.048 + 0.036 + 0.072 + 0.012 + 0.006 + 0.009 + 0.048
+ 0.012 + 0.027 + 0.001
= 0.271
π2 = P {1, 2, 3} + P {2, 3, 4} + P {1, 2, 4} + P {1, 1, 2} + P {2, 2, 1}
+ P {2, 2, 3} + P {2, 2, 4} + P {3, 3, 2} + P {4, 4, 2} + P {2, 2, 2}
= 0.048 + 0.144 + 0.072 + 0.012 + 0.048 + 0.096 + 0.144
+ 0.048 + 0.108 + 0.064
= 0.784
π3 = P {1, 2, 3} + P {1, 3, 4} + P {2, 3, 4} + P {1, 1, 3} + P {2, 2, 3}
+ P {3, 3, 1} + P {3, 3, 2} + P {3, 3, 4} + P {4, 4, 3} + P {3, 3, 3}
= 0.048 + 0.036 + 0.144 + 0.006 + 0.096 + 0.012 + 0.048
+ 0.036 + 0.054 + 0.008
= 0.488
Daniela Cocchi: Teoria dei Campioni
1.7. APPENDICI
44
π4 = P {1, 3, 4} + P {2, 3, 4} + P {1, 2, 4} + P {1, 1, 4} + P {2, 2, 4}
+ P {3, 3, 4} + P {4, 4, 1} + P {4, 4, 2} + P {4, 4, 3} + P {4, 4, 4}
= 0.036 + 0.144 + 0.072 + 0.009 + 0.144 + 0.036 + 0.027
+ 0.108 + 0.054 + 0.027
= 0.657
π11 = P {1, 1, 2} + P {1, 1, 3} + P {1, 1, 4} + P {1, 1, 1}
= 0.012 + 0.006 + 0.009 + 0.001
= 0.028
π12 = P {1, 2, 3} + P {1, 2, 4} + P {1, 1, 2} + P {2, 2, 1}
= 0.048 + 0.072 + 0.012 + 0.048
= 0.180
π13 = P {1, 2, 3} + P {1, 3, 4} + P {1, 1, 3} + P {3, 3, 1}
= 0.048 + 0.036 + 0.006 + 0.012
= 0.102
π14 = P {1, 2, 4} + P {1, 3, 4} + P {1, 1, 4} + P {4, 4, 1}
= 0.072 + 0.036 + 0.009 + 0.027
= 0.144
π22 = P {2, 2, 1} + P {2, 2, 3} + P {2, 2, 4} + P {2, 2, 2}
= 0.048 + 0.096 + 0.144 + 0.064
= 0.352
π23 = P {1, 2, 3} + P {2, 3, 4} + P {2, 2, 3} + P {3, 3, 2}
= 0.048 + 0.144 + 0.096 + 0.048
= 0.336
π24 = P {1, 2, 4} + P {2, 3, 4} + P {2, 2, 4} + P {4, 4, 2}
= 0.072 + 0.144 + 0.144 + 0.108
= 0.468
π33 = P {3, 3, 1} + P {3, 3, 2} + P {3, 3, 4} + P {3, 3, 3}
= 0.012 + 0.048 + 0.036 + 0.008
= 0.104
π34 = P {1, 3, 4} + P {2, 3, 4} + P {3, 3, 4} + P {4, 4, 3}
= 0.036 + 0.144 + 0.036 + 0.054
= 0.270
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
45
π44 = P {4, 4, 1} + P {4, 4, 2} + P {4, 4, 3} + P {4, 4, 4}
= 0.027 + 0.108 + 0.054 + 0.027
= 0.216
Caso senza reintroduzione Le probabilità dei campioni sono state calcolate nell’Esempio 1.3.
Applicando le definizioni (1.78) e (1.79) si ottengono le probabilità d’inclusione di primo e secondo ordine:
π1
π2
π3
π4
= P {1, 2, 3} + P {1, 2, 4} + P {1, 3, 4} = 0.449
= P {1, 2, 3} + P {1, 2, 4} + P {2, 3, 4} = 0.922
= P {1, 2, 3} + P {1, 3, 4} + P {2, 3, 4} = 0.759
= P {1, 2, 4} + P {1, 3, 4} + P {2, 3, 4} = 0.870
π12
π13
π14
π23
π24
π34
= P {1, 2, 3} + P {1, 2, 4} = 0.371
= P {1, 2, 3} + P {1, 3, 4} = 0.208
= P {1, 2, 4} + P {2, 3, 4} = 0.319
= P {1, 2, 3} + P {2, 3, 4} = 0.681
= P {1, 2, 4} + P {2, 3, 4} = 0.792
= P {1, 3, 4} + P {2, 3, 4} = 0.629
Si noti che la somma delle probabilità di secondo ordine è diversa da 1,
perchè la probabilità dell’evento certo è data dalla somma delle probabilità di
inclusione del terzo ordine.
1.7.5
Appendice 5
Dimostrazione del
Teorema 1.1 La covarianza tra gli elementi di una generica coppia di variabili
aλ e aλ ,con λ = λ ,in un campionamento con reintroduzione è:
C(aλ , aλ ) = −npλ pλ
λ = λ
.
Dimostrazione
Per ricavare l’espressione della covarianza bisogna considerare la coppia (aλ , aλ ),
osservando che, se l’unità di etichetta λ è stata estratta a formare il campione
un certo numero di volte, 0 ≤ x ≤ n, la variabile aλ , subordinatamente alle
x estrazioni di aλ , si distribuisce secondo una binomiale di parametri n − x
e pλ / (1 − pλ ). Infatti aλ non ha più di n − x possibilità di entrare a far
Daniela Cocchi: Teoria dei Campioni
1.7. APPENDICI
46
parte del campione, perchè esso è già composto da x elementi. Inoltre se,
marginalmente, la probabilità di estrazione dell’elemento λ è pλ , subordinatamente all’estrazione senza reintroduzione del λ-esimo elemento, la probabilità
di estrazione del λ -esimo è, per la (1.72), pλ / (1 − pλ ) e quindi si ha:
pλ
(aλ |aλ = x) ∼ Bin n − x,
.
1 − pλ
La speranza della variabile subordinata (aλ |aλ = x) è:
E (aλ |aλ = x) = (n − x)
pλ
,
1 − pλ
mentre la speranza della variabile prodotto aλ aλ si può ricavare come speranza
della speranza subordinata:
E(aλ aλ ) =
=
=
=
n
x=0
n
x=0
n
x=0
n
x=0
E(aλ aλ |aλ = x)p(aλ = x)
E(aλ x|aλ = x)p(aλ = x)
xp(aλ = x)E(aλ |aλ = x)
x
n
x
(pλ )x (1 − pλ )n−x (n − x)
pλ
1 − pλ
(il primo e l’ultimo termine della somma sono nulli)
=
n−1
pλ
n (n − 1) (n − 2)!
pλ (1 − pλ )
x
(pλ )x−1
1 − pλ
(n
−
x)
(n
−
x
−
1)!x(x
−
1)!
x=1
(1 − pλ )n−1−x (n − x)
semplificando con j = x − 1
= pλ pλ n (n − 1)
n−2
j=0
(n − 2)!
j
n−j−2
(pλ ) (1 − pλ )
(n − j − 2)!j!
= pλ pλ n (n − 1) .
E’ così possibile ricavare la covarianza:
C(aλ , aλ ) = E(aλ aλ ) − E(aλ )E(aλ )
= pλ pλ n (n − 1) − n2 pλ pλ
= −npλ pλ
λ = λ .
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
1.7.6
47
Appendice 6
Dimostrazione del Teorema 1.1.bis.
La covarianza tra gli elementi di una generica coppia di variabili aλ e aλ
con λ = λ , in un campionamento senza reintroduzione, è
C(aλ , aλ ) = πλλ − πλ πλ
λ = λ .
(1.121)
Dimostrazione
Per ricavare l’espressione della covarianza tra gli elementi della generica coppia di variabili aλ e aλ , λ = λ , bisogna osservare che aλ aλ è ancora una
variabile casuale indicatrice, in quanto ottenuta dal prodotto di due indicatrici,
che assume valore uno solo quando entrambi gli elementi di etichette λ e λ
appartengono al campione:
aλ aλ = 1[λ∈s] 1[λ ∈s] = 1[(λ∈s)∩(λ ∈s)] ,
quindi il parametro di tale variabile indicatrice, o di Bernoulli, è la probabilità
di inclusione di secondo ordine (1.79):
aλ aλ ∼ Ber (πλλ ) ,
da cui:
E (aλ aλ ) = 0 · P (aλ aλ = 0) + 1 · P (aλ aλ = 1)
= P (aλ aλ = 1) = πλλ .
(1.122)
Le covarianze della (1.85) sono a loro volta:
C (aλ , aλ ) = E (aλ aλ ) − E (aλ ) E (aλ )
= πλλ − πλ πλ
λ = λ .
1.7.7
Appendice 7
Teorema 1.2
Le probabilità di inclusione del primo ordine nel campionamento con reintroduzione sono:
πλ = 1 − (1 − pλ )n .
Dimostrazione
πλ = P (aλ ≥ 1) = 1 − P (aλ < 1) = 1 − P (aλ = 0)
Daniela Cocchi: Teoria dei Campioni
1.7. APPENDICI
48
Poiché l’evento (aλ = 0) si verifica quando λ non viene mai selezionato nelle
n estrazioni indipendenti, si può scrivere direttamente:
πλ = 1 − (1 − pλ )n .
1.7.8
Appendice 8
Teorema 1.3
Le probabilità d’inclusione del secondo ordine nel campionamento con reintroduzione sono, nel caso di coppie costituite dallo stesso elemento:
πλλ = 1 − (1 − pλ )n − npλ (1 − pλ )n−1
e, nel caso di coppie contenenti elementi diversi:
πλλ = 1 − (1 − pλ )n − (1 − pλ )n + (1 − pλ − pλ )n .
Dimostrazione
Consideriamo in primo luogo, il caso in cui λ = λ . Analogamente alla
dimostrazione del teorema precedente,
πλλ
= P (aλ ≥ 2) = 1 − P (aλ < 2)
= 1 − P (aλ = 0) − P (aλ = 1)
n 1
n
= 1 − (1 − pλ ) −
p (1 − pλ )n−1 .
1 λ
Nel caso in cui λ = λ :
πλλ = P [(aλ ≥ 1) ∩ (aλ ≥ 1)]
= 1 − P [(aλ < 1) ∪ (aλ < 1)]
= 1 − P (aλ = 0) − P (aλ = 0) + P [(aλ = 0) ∩ (aλ = 0)]
= 1 − (1 − pλ )n − (1 − pλ )n + (1 − pλ − pλ )n .
(1.123)
1.7.9
Appendice 9
Esempio 1.6 Calcolo delle probabilità di inclusione nel campionamento con reintroduzione in funzione dei pesi iniziali
Campioni di dimensione n = 2 Nel campionamento con reintroduzione di
n = 2 elementi da una popolazione di N = 4 si possono calcolare le probabilità
d’inclusione di primo e secondo ordine tramite le relazioni appena introdotte.
Infatti, impiegando la relazione (1.95) si ottengono in altro modo le probabilità
d’inclusione di primo ordine già calcolate nell’esempio 1.3:
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 1. INTRODUZIONE
49
π1 = 1 − (1 − p1 )2 = 1 − (1 − 0.1)2 = 0.19
π2 = 1 − (1 − p2 )2 = 1 − (1 − 0.4)2 = 0.64
π3 = 1 − (1 − p3 )2 = 1 − (1 − 0.2)2 = 0.36
π4 = 1 − (1 − p4 )2 = 1 − (1 − 0.3)2 = 0.51
e, impiegando le relazioni (1.97) e (1.98), si ottengono le probabilità d’inclusione
di secondo ordine:
π11 = 1 − (1 − p1 )2 − 2p1 (1 − p1 ) = 0.01
π12 = 1 − (1 − p1 )2 − (1 − p2 )2 + (1 − p1 − p2 )2
= 1 − (1 − 0.1)2 − (1 − 0.4)2 + (1 − 0.1 − 0.4)2 = 0.08
π13 = 1 − (1 − p1 )2 − (1 − p3 )2 + (1 − p1 − p3 )2
= 1 − (1 − 0.1)2 − (1 − 0.2)2 + (1 − 0.1 − 0.2)2 = 0.04
π14 = 1 − (1 − p1 )2 − (1 − p4 )2 + (1 − p1 − p4 )2
= 1 − (1 − 0.1)2 − (1 − 0.3)2 + (1 − 0.1 − 0.3)2 = 0.06
π22 = 1 − (1 − p2 )2 − 2p2 (1 − p2 ) = 0.16
π23 = 1 − (1 − p2 )2 − (1 − p3 )2 + (1 − p2 − p3 )2
= 1 − (1 − 0.4)2 − (1 − 0.2)2 + (1 − 0.4 − 0.2)2 = 0.16
π24 = 1 − (1 − p2 )2 − (1 − p4 )2 + (1 − p2 − p4 )2
= 1 − (1 − 0.4)2 − (1 − 0.3)2 + (1 − 0.4 − 0.3)2 = 0.24
π33 = 1 − (1 − p3 )2 − 2p3 (1 − p3 ) = 0.04
π34 = 1 − (1 − p3 )2 − (1 − p4 )2 + (1 − p3 − p4 )2
= 1 − (1 − 0.2)2 − (1 − 0.3)2 + (1 − 0.2 − 0.3)2 = 0.12
π44 = 1 − (1 − p4 )2 − 2p4 (1 − p4 ) = 0.09
1.7.10
Campioni di dimensione n = 3
Il caso di campioni di dimensione n = 3 dà luogo alle seguenti probabilità di
inclusione:
π1 = 1 − (1 − 0.1)3 = 0.271
π2 = 1 − (1 − 0.4)3 = 0.784
π3 = 1 − (1 − 0.2)3 = 0.488
π4 = 1 − (1 − 0.3)3 = 0.657
Daniela Cocchi: Teoria dei Campioni
1.7. APPENDICI
50
π11 = 1 − (1 − p1 )3 − 3p1 (1 − p1 )2 = 0.028
π12 = 1 − (1 − 0.1)3 − (1 − 0.4)3 + (1 − 0.1 − 0.4)3 = 0.18
π13 = 1 − (1 − 0.1)3 − (1 − 0.2)3 + (1 − 0.1 − 0.2)3 = 0.102
π14 = 1 − (1 − 0.1)3 − (1 − 0.3)3 + (1 − 0.1 − 0.3)3 = 0.144
3
2
π22 = 1 − (1 − p2 ) − 3p2 (1 − p2 ) = 0.352
π23 = 1 − (1 − 0.4)3 − (1 − 0.2)3 + (1 − 0.4 − 0.2)3 = 0.336
π24 = 1 − (1 − 0.4)3 − (1 − 0.3)3 + (1 − 0.4 − 0.3)3 = 0.468
π33 = 1 − (1 − p3 )3 − 3p3 (1 − p3 )2 = 0.104
π34 = 1 − (1 − 0.2)3 − (1 − 0.3)3 + (1 − 0.2 − 0.3)3 = 0.27
π44 = 1 − (1 − p4 )3 − 3p4 (1 − p4 )2 = 0.216
1.7.11
Appendice 10
Esempio 1.7 Verifica delle proprietà delle probabilità di inclusione nel
campionamento senza reintroduzione
Campioni di dimensione n = 3 Anche per la dimensione campionaria n = 3
è verificata la relazione (1.99):
π1 + π2 + π3 + π4 = 0.449 + 0.922 + 0.759 + 0.870 = 3,
e la relazione (1.101) :
π11 + π12 + π13 + π14
π22 + π12 + π23 + π24
π33 + π13 + π23 + π34
π44 + π14 + π24 + π34
= 0.449 + 0.371 + 0.208 + 0.319 = 3 · 0.449
= 0.922 + 0.371 + 0.681 + 0.792 = 3 · 0.922
= 0.759 + 0.208 + 0.681 + 0.629 = 3 · 0.759
= 0.870 + 0.319 + 0.792 + 0.629 = 3 · 0.870
e la relazione (1.103):
π11 + π12 + π13 + π14 + π21 + π22 + π23 + π24 +
π31 + π32 + π33 + π34 + π41 + π42 + π43 + π44 =
0.449 + 0.371 + 0.208 + 0.319 + 0.371 + 0.922 + 0.681 + 0.792
+0.208 + 0.681 + 0.759 + 0.629 + 0.319 + 0.792 + 0.629 + 0.870 = 9
Appendice 11
Teorema 1.5
1.7.12
Appendice 12
Teorema 1.6
Daniela Cocchi: Teoria dei Campioni
Capitolo 2
Campionamento casuale
semplice
Ultima revisione: 16 febbraio 2011
Il campionamento casuale semplice è un caso particolare del campionamento
a probabilità variabile, in cui tutte le valutazioni probabilistiche relative alle
singole unità assumono lo stesso valore.
Le principali motivazioni del campionamento casuale semplice sono le seguenti:
1) è il caso tipico in cui non esistono motivi nè per differenziare le unità
della popolazione al momento dell’estrazione del campione nè riguardo al peso
da assegnare ai valori campionati per stimare il valore di popolazione;
2) è il caso in cui non si dispone di nessuna informazione ausiliaria, a livello
di campione o di popolazione, che permetta di correggere lo stimatore per la
variabile studiata;
3) nella versione con reintroduzione, permette il confronto con i risultati
dell’inferenza tipica del campionamento in popolazioni infinite.
Il campionamento casuale semplice è assimilabile all’estrazione da un’urna
che contiene le etichette che identificano la popolazione nel caso in cui ciascun
individuo ha la stessa probabilità iniziale di essere selezionato.
In questo tipo di campionamento si ipotizza equiprobabilità dei campioni
ordinati:
1
!
p(s) =
s ∈ S(n) .
(2.1)
Dim S(n)
quindi, usando rispettivamente la (1.46) nel caso con reintroduzione e la
(1.44) nel caso senza reintroduzione, si ha:
p(s) =
1
1
= n,
r
DN,n
N
(2.2)
p(s) =
1
(N − n)!
1
=
=
.
DN,n
N!
N (N − 1) ...(N − n + 1)
(2.3)
Come è già stato accennato nel capitolo precedente, il risultato campionario
può essere trattato, senza perdere informazioni, nella versione non ordinata,
51
2.1. C.C.S. CON REINTRODUZIONE
52
in quanto, proponendo stimatori lineari ed omogenei del tipo (1.106), i calcoli
effettuati su campioni ordinati che derivano dalle permutazioni delle stesse unità
risultano uguali.
Se si calcolano le probabilità dei campioni non ordinati a partire dalle probabilità dei campioni ordinati, si devono sommare le probabilità dei campioni
ordinati formati dal medesimo insieme di elementi.
2.1
2.1.1
Campionamento casuale semplice con reintroduzione di dimensione n
Probabilità di estrazione dei campioni non ordinati
Nel campionamento casuale semplice con reintroduzione, la probabilità di ciascun campione ordinato è la (2.2). Passando ai campioni non ordinati, che,
secondo la (1.45), sono
r
CN,n
= CN+n−1,n
la probabilità di estrazione di ciascuno è pari alla somma delle probabilità dei
campioni ordinati formati dai medesimi elementi. I campioni non ordinati non
sono equiprobabili, come si può apprezzare dall’esempio seguente.
Esempio 2.1 Probabilità di estrazione dei campioni non ordinati nel
campionamento casuale semplice con reintroduzione
Si consideri la popolazione di dimensione N = 4 del capitolo precedente.
Campioni di dimensione n = 2 Il numero di possibili campioni ordinati,
1
r
secondo la (2.2), è D4,2
= 16, ciascuno con probabilità 16
, mentre il numero di
r
possibili campioni non ordinati, secondo la (1.45), è C4,2 = 10.
Tale universo è costituito dalle coppie:
λ\λ
1
2
3
4
1
{1, 1}
{2, 1}
{3, 1}
{4, 1}
2
3
4
{2, 2}
{3, 2}
{4, 2}
{3, 3}
{4, 3}
{4, 4}
Si può verificare come i campioni costruiti in questo modo non abbiano tutti
la stessa probabilità. In questo esericizio la equiprobabilità riguarda l’universo
dei campioni ordinati. Il numero di campioni ordinati costituiti dagli stessi elementi è diverso a seconda che il campione contenga o no replicazioni di elementi,
e le probabilità dei campioni costituiti da unità uguali o distinte non è la stessa.
Infatti, a partire dalle probabilità dai campioni ordinati, si ottiene
"
#
" #
2
se λ = λ
P λ, λ = P λ, λ + P λ , λ =
16
1
P {λ, λ} =
se λ = λ
16
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
53
e quindi
P {2, 1} = P {3, 1} = P {4, 1} = P {3, 2} = P {4, 2} = P {4, 3} =
P {1, 1} = P {2, 2} = P {3, 3} = P {4, 4} =
2
16
1
16 .
Da queste probabilità si verifica nuovamente la (1.67).
Il caso relativo a campioni di dimensione n = 3 è trattato nell’Appendice 1.
2.1.2
Probabilità di estrazione delle unità
Il campionamento casuale semplice con reintroduzione garantisce che la probabilità di estrazione delle unità, oltre ad essere costante per le diverse unità
ad ogni estrazione, sia costante anche per una stessa unità da estrazione ad
estrazione. La (1.71) viene quindi esplicitata come:
pλ(i) = pλ =
2.1.3
1
N
1≤λ≤N
1≤i≤n
.
(2.4)
Probabilità di inclusione
Sostituendo la (2.4) nelle relazioni (1.95), (1.97) e (1.98), si derivano le probabilità d’inclusione di primo e secondo ordine:
n
1
πλ = 1 − 1 −
,
(2.5)
N
πλλ
n
n−1
1
1
1
=1− 1−
−n
1−
,
N
N
N
πλλ
2.1.4
se
λ=λ
n n n
1
1
1
1
− 1−
+ 1−
−
=1− 1−
N
N
N
N
n n
1
2
=1−2 1−
+ 1−
se
λ = λ .
N
N
(2.6)
(2.7)
Primi due momenti della variabile casuale a
Sostituendo la (2.4) nella (1.86), la distribuzione di probabilità delle variabili
aλ è:
1
aλ ∼ Bin n,
∀λ = 1, ..., N,
(2.8)
N
Daniela Cocchi: Teoria dei Campioni
2.1. C.C.S. CON REINTRODUZIONE
54
da cui si ricavano i casi particolari dei momenti (1.87), (1.88) e (1.89) da inserire
nella (1.84) e nella (1.85):
1
n
= ,
N N 1
1
n N −1
V (aλ ) = n
1−
=
,
N
N
N N
1 1
n
C(aλ , aλ ) = −n
=− 2
λ=
λ.
NN
N
E (aλ ) = n
(2.9)
(2.10)
(2.11)
Esempio 2.2 Distribuzione della variabile a nel campionamento casuale semplice con reintroduzione di dimensione n.
Campioni di dimensione n = 3. Si consideri una popolazione di N = 4
elementi. Adottando il campionamento casuale semplice con reintroduzione si
hanno le versioni della (2.4) e della (2.8):
pλ =
1
4
1≤λ≤4
1
aλ ∼ Bin 3,
.
4
e quindi le probabilità di inclusione, usando le (2.5) e la (2.7), sono:
3
1
πλ = 1 − 1 −
= 0.578,
4
3
2
1
3
1
πλλ = 1 − 1 −
−
1−
= 0.156
4
4
4
3 3
1
2
πλλ = 1 − 2 1 −
+ 1−
= 0.281.
4
4
Il λ-esimo individuo può entrare nel campione 0,1,2,3 volte. La distribuzione di
probabilità della variabile aλ è, per la (2.8):
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
55
0 n
1
N −1
n
0
N
N
0 3 3
1
3
3
27
3
=
=
=
= 0.422
0
4
4
4
64
2
1
3
3
p(aλ = 1) =
1
4
4
2
3! 1 3
27
=
=
= 0.422
24 4
64
2 1
3
3
p(aλ = 2) =
2
4
4
3! 1 3
9
=
=
= 0.141
2 16 4
64
3 0
3
1
3
p(aλ = 3) =
3
4
4
1
=
= 0.015.
64
p(aλ = 0) =
Da ricordare. Nelle sezioni da 2.1.1 a 2.1.4 sono stati ripresi i risultati del
Capitolo 1 nel caso particolare di eguali probabilità di estrazione.
2.1.5
Inferenza sulla media di popolazione
Lo stimatore media campionaria
Lo stimatore per la media di popolazione m (η) è proposto sulla base del sistema
di pesi in popolazione:
1
1 ≤ λ ≤ N.
(2.12)
n
Tale sistema di pesi viene introdotto nell’espressione dello stimatore lineare
omogeneo (1.106) e dà luogo alla media campionaria (1.53), che viene proposta
come stimatore della media di popolazione:
wλ =
n
n
1
1
h(y) =
yi =
yi = m (y) .
n
n i=1
i=1
e quindi wi =
1
n
(2.13)
, 1 ≤ i ≤ n.
Correttezza dello stimatore media campionaria
Teorema 2.1 La media campionaria è stimatore corretto della media di popolazione.
Dimostrazione
Il sistema di pesi (2.12) è scelto in modo da assicurare la correttezza dello
stimatore. Infatti, sostituendo la (2.12) nella (1.107), applicando l’operatore
Daniela Cocchi: Teoria dei Campioni
2.1. C.C.S. CON REINTRODUZIONE
56
speranza secondo la (1.110) e usando la (2.9), si ottiene:
N
N
E [m(y)] = E
aλ wλ ηλ =
E (aλ ) wλ ηλ
λ=1
=
(2.14)
λ=1
N
n wλ ηλ
N
λ=1
ma
N
n wλ ηλ = m (η)
N
λ=1
se e solo se
wλ =
1
n
λ = 1, ..., N .
Varianza dello stimatore media campionaria
Teorema 2.2 La varianza dello stimatore media campionaria per la media di
popolazione è:
1
V [m (y)] = v2 (η).
(2.15)
n
Dimostrazione
Introducendo nell’espressione della varianza del generico stimatore lineare ed
omogeneo (1.113) i pesi (2.12) e le espressioni (2.10) e (2.11) al posto di V (aλ )
e C (aλ , aλ ) , si ottiene:
N
N 1 2
1
V [m (y)] =
V (aλ ) 2 ηλ + 2
C (aλ , aλ ) 2 ηλ ηλ
n
n
λ=1
λ=1 λ <λ
N
N
N
1 n
1
n 2
= 2
1−
ηλ − 2 2
ηλ ηλ
n N
N
N
λ=1
λ=1 λ <λ
N
N N
1 N −1
2
2
=
ηλ − 2
ηλ ηλ
n
N2
N
λ=1
λ=1 λ <λ
N
N
N
1 N 2
1 2
2 =
ηλ − 2
ηλ − 2
ηλ ηλ
n N2
N
N
λ=1
λ=1
λ=1 λ <λ

N
2 
N
11 2
1
=
ηλ − 2
ηλ 
n N
N
λ=1
λ=1


2 
N
ηλ  
N

1
 1 2  λ=1  
= 
ηλ − 
 
n N
 N  
λ=1
=
! 1
1
m(η2 ) − m(η)2 = v2 (η).
n
n
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
57
Sulla base della (1.9) si ottiene l’espressione alternativa:
V [m (y)] =
N − 1 s2 (η)
.
N
n
(2.16)
Uno stimatore distorto per la varianza di popolazione
Teorema 2.3 L’equivalente campionario di v2 (η), v2 (y), già introdotto nella
(1.57), non è un suo stimatore corretto:
! n−1 2
E v 2 (y) =
v (η).
n
(2.17)
Dimostrazione
E’ noto che la varianza campionaria può essere scritta come:
v2 (y) = m y 2 − m (y)2
(2.18)
e che la sua speranza è:
!
!
E v2 (y) = E m y 2 − E m (y)2 .
(2.19)
Si noti che, come già visto al capitolo precedente:
n
N
2 1 1
2
aλ ηλ2 .
y =
m y =
n i=1 i
n
λ=1
Si può quindi calcolare
N
2 ! 1
E m y
= E
aλ ηλ2
n
λ=1
N
N
1 2
1 n 2
=
ηλ =
ηλ = m η2
n λ=1 N
N λ=1
(2.20)
e ricordando che
E m (y)2 = V [m (y)] + {E [m (y)]}2 ,
(2.21)
il valore atteso della varianza campionaria risulta:
!
E v 2 (y) = m(η 2 ) − V [m(y)] − {E [m(y)]}2
v2 (η)
− m2 (η)
n
v2 (η)
n−1 2
= v2 (η) −
=
v (η).
n
n
= m(η 2 ) −
Daniela Cocchi: Teoria dei Campioni
2.1. C.C.S. CON REINTRODUZIONE
58
Uno stimatore corretto per la varianza di popolazione
Teorema 2.4 L’espressione s2 (y), già introdotta nella (1.58), è stimatore
corretto della varianza di popolazione (1.8):
!
E s2 (y) = v2 (η).
(2.22)
Dimostrazione
Utilizzando il risultato (2.17), si ottiene facilmente:
n 2
v (y)
n−1
!
n
=
E v2 (y) = v 2 (η).
n−1
!
E s2 (y) = E
Uno stimatore per la varianza dello stimatore media campionaria
Per stimare la varianza (2.15) dello stimatore media campionaria m(y), si propone la quantità:
V̂ [m(y)] =
s2 (y)
.
n
(2.23)
Correttezza dello stimatore per la varianza dello stimatore media
campionaria
Teorema 2.5 Lo stimatore (2.23) è corretto per la quantità V [m(y)].
Dimostrazione
Dalla (2.15) e dalla (2.22), la speranza dello stimatore (2.23) è:
v2 (η)
E V̂ [m(y)] =
= V [m(y)] .
n
2.1.6
Inferenza sul totale di popolazione
Lo stimatore di espansione
Per inferire sul totale di popolazione (1.3), riscritto come
t(η) = N m(η)
si possono usare due metodi equivalenti.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
59
Stimatore di una trasformazione lineare della media di popolazione
A partire dalla media campionaria m(y), stimatore corretto di m(η), si propone lo stimatore di espansione come trasformazione lineare dello stimatore già
proposto per la media di popolazione:
tE (y) = Nm(y) = t(y)
N
.
n
(2.24)
In altre parole, il totale campionario t(y) viene moltiplicato per il coefficiente
N/n che è il reciproco della frazione di campionamento (1.42).
Poiché lo stimatore di espansione è una trasformazione lineare della media
campionaria, i risultati teorici riguardanti la speranza, la varianza dello stimatore e la stima della varianza dell stimatore del totale sono gli stessi ottenuti
per la media moltiplicati per una costante. Infatti, riprendendo il Teorema 2.1,
il Teorema 2.2 e il Teorema 2.5, si ottiene:
E [tE (y)] = E [Nm(y)] = N m(η) = t(η),
(2.25)
2
N 2
v (η)
n
N − 1 s2 (η)
= N2
.
N
n
V [tE (y)] = V [N m(y)] =
V̂ [tE (y)] = V̂ [N m(y)] = N 2
s2 (y)
.
n
(2.26)
(2.27)
(2.28)
Anche quest’ultimo stimatore è corretto in quanto:
E V̂ [tE (y)] = E N 2 V̂ [m(y)]
= N 2 V [m(y)] =
N2 2
v (η) .
n
Lo stimatore per espansione derivato dallo stimatore lineare omogeneo
Analogamente a ciò che è stato proposto per stimare la media di popolazione,
anche per la stima del totale si può partire dall’espressione del generico stimatore
lineare omogeneo (1.106) in caso di campionamento casuale semplice con reintroduzione. In questo caso il sistema di pesi per gli elementi della popolazione
diventa:
wλ =
N
n
1 ≤ λ ≤ N,
da cui si ottiene la (2.24).
Daniela Cocchi: Teoria dei Campioni
(2.29)
2.1. C.C.S. CON REINTRODUZIONE
60
Teorema 2.6
Lo stimatore (2.24), visto come stimatore lineare omogeneo con pesi wi = N
n ,
1 ≤ i ≤ n, è corretto per la quantità t(η).
Dimostrazione
Sostituendo la (2.29) nella (1.107) e applicando l’operatore speranza secondo
la (1.110), si ottiene:
E [tE (y)] = E
N
aλ wλ ηλ =
λ=1
=
N
n ηλ wλ
N
N
E (aλ ) wλ ηλ
(2.30)
λ=1
λ=1
ma
N
n wλ ηλ = t (η)
N
λ=1
se e solo se
wλ =
N
.
n
Da ricordare. In questa sezione sono stati ricavati, per una via completamente diversa da quella tradizionale, risultati fondamentali dell’inferenza statistica, che sono funzione della (1.8), cioè della varianza in popolazione,
per lo stimatore media campionaria in caso di campionamento con osservazioni
indipendenti ed identicamente distribuite da popolazioni infinite.
Esempio 2.3 Calcolo della speranza e della varianza dello stimatore
media campionaria
Si consideri la popolazione di dimensione N = 4 più volte trattata nel Capitolo
1, in cui i valori della variabile oggetto di studio sono introdotti per la prima
volta:
η = {3, 10, 4, 7}
Le sintesi descrittive della variabile in popolazione sono:
m (η) = 6; v2 (η) = 7.5; s2 (η) = 10.
Campioni di dimensione n = 2
Caso con reintroduzione A ciascun campione è associato un vettore
di osservazioni y = (y1 , y2 ) che dà luogo ad una media campionaria definita
secondo la (2.13):
(y1 + y2 )
.
m (y) =
2
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
61
I possibili valori delle medie campionarie m(y) sono riportati nella tabella
seguente, che contiene soltanto i risultati relativi ai campioni non ordinati:
y2 \y1
3
10
4
7
3
3
6.5
3.5
5
10
4
10
7
8.5
4
5.5
7
(2.31)
7,
mentre di seguito sono riportati i valori dei quadrati delle medie campionarie
m2 (y)
y2 \y1
3
10
4
7
3
9
10
42.25
100
(2.32)
4
12.25
49
16
7
25
72.25 30.25 49.
La speranza delle medie campionarie (2.13) può essere ricavata dall’universo
dei campioni tramite la (1.104). Poiché nei prospetti precedenti sono riportati i
risultati provenienti dai campioni non ordinati, le probabilità da utilizzare nella
(1.104) sono quelle calcolate nell’esempio 2.1:
E [m (y)] =
m (y) p (s)
s∈S2
1
2
(3 + 10 + 4 + 7) +
(6.5 + 3.5 + 5 + 7 + 8.5 + 5.5)
16
16
1
2
= 24 + 36 = 6 = m (η) .
16
16
=
Invece di ricavare la speranza dello stimatore media campionaria dall’universo dei campioni, utilizzando direttamente la proprietà di correttezza (2.14)
di m (y) per m (η) si ottiene immediatamente:
E [m (y)] = m (η) = 6.
Analogamente, la varianza dello stimatore, tramite la (1.105), si ottiene dall’universo dei campioni non ordinati a partire da:
! 2
E m2 (y) =
m (y) p (s)
s∈S2
1
2
(9 + 100 + 16 + 49) +
(42.25 + 12.25 + 25 + 49 + 72.25 + 30.25)
16
16
1
2
= 174 + 231 = 39.75,
16
16
=
e ricavando successivamente la:
!
V [m (y)] = E m2 (y) − E 2 [m (y)]
= 39.75 − 36 = 3.75.
Daniela Cocchi: Teoria dei Campioni
2.1. C.C.S. CON REINTRODUZIONE
62
Il risultato coincide con quello che si ottiene applicando direttamente la (2.15):
V [m (y)] =
v2 (η)
7.5
=
= 3.75.
n
2
Concludiamo ricavando la speranza della variabile casuale stimatore della varianza campionaria nell’universo dei campioni. La varianza campionaria
corretta s2 (y) è, nell’universo dei campioni:
y2 \y1
3
10
4
7
3
0
24.5
0.5
8
10
4
7
0
18
4.5
0
4.5
0
Il valore atteso della variabile casuale è, secondo la (2.22):
! 2
E s2 (y) =
s (y) p (s)
s∈S2
2
1
(0 + 0 + 0 + 0) +
(24.5 + 0.5 + 8 + 18 + 4.5 + 4.5)
16
16
2
= 0 + 60 = 7.5 = v2 (η) .
16
=
2.1.7
Stima per variabili dicotomiche: la proporzione e il totale
La stima di una proporzione in popolazione, vista secondo la (1.14) come media
di una variabile dicotomica, nel caso di campionamento casuale semplice con
reintroduzione avviene tramite la proporzione campionaria (1.53):
n
p = m (y) =
1
t(y)
yi =
,
n i=1
n
(2.33)
mentre, per la stima del numero totale di elementi della popolazione che possiedono
un carattere dicotomico (1.13), si impiega la:
τ̂ = N m (y) =
n
N
N
yi = t(y).
n i=1
n
(2.34)
Il valore atteso e la varianza di tali stimatori sono, ancora per il Teorema 2.1 e
il Teorema 2.2:
E (p) = E [m (y)] = m(η) = π,
(2.35)
2
π(1 − π)
v (η)
=
,
n
n
E(τ̂ ) = N E [m (y)] = Nπ = τ ,
π(1 − π)
V (τ̂ ) = N 2
.
n
V (p) = V [m (y)] =
Daniela Cocchi: Teoria dei Campioni
(2.36)
(2.37)
(2.38)
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
63
Uno stimatore corretto per la varianza dello stimatore di una proporzione
Per stimare la varianza (2.36) di p si propone la quantità:
V̂ (p) =
p(1 − p)
.
n−1
(2.39)
Tale stimatore deriva direttamente dalla trascrizione della (2.23):
V̂ (m(y)) =
s2 (y)
n
in base alla varianza campionaria (1.64):
s2 (y) =
n
p(1 − p),
n−1
che stima correttamente la varianza (1.15).
Teorema 2.6.1 La (2.39) è stimatore corretto della (2.36). Infatti, applicando ancora il Teorema 2.5:
1 n
E V̂ (p) = E
p(1 − p)
n
n−1
1
= π(1 − π) = V (p).
n
Teorema 2.6.2 La varianza (2.38) di τ̂ è stimata correttamente dallo stimatore
V̂ (τ̂ ) = N 2
2.2
p(1 − p)
.
n−1
(2.40)
Campionamento casuale semplice senza reintroduzione di dimensione n
In questo tipo di campionamento, le probabilità dei campioni ordinati sono le
(2.3).
2.2.1
Probabilità di estrazione dei campioni non ordinati (estrazione
in blocco)
A differenza di quanto avviene nel campionamento casuale semplice con reintroduzione, nel campionamento senza reintroduzione le probabilità dei campioni
non ordinati sono uguali tra loro. Infatti, considerare campioni non ordinati corrisponde all’estrazione in blocco (intrinsecamente non ordinata) del campione
di n elementi.
Formalmente, si utilizza direttamente la (1.47) per individuare la relazione
tra l’universo ordinato senza ripetizione (1.44) e l’universo non ordinato senza
ripetizione (1.43), osservando che, per questo tipo di campionamento, tutti i
campioni sono equiprobabili.
Daniela Cocchi: Teoria dei Campioni
2.2. C. C. S. SENZA REINTRODUZIONE
64
Nel caso di estrazione in blocco dall’universo (1.43) la probabilità dei campioni è:
p(s) =
1
CN,n
s ∈ S{n} .
(2.41)
Esempio 2.4 Dimensione dello spazio dei campioni nel caso di campionamento casuale semplice senza reintroduzione.
Se si estraggono senza reintroduzione campioni di dimensione n = 2 da una
popolazione di dimensione N = 4, il numero dei campioni ordinati è D4,2 = 12,
ciascuno con probabilità 1/12, mentre il numero dei campioni non ordinati è
C4,2 = 6, ciascuno con probabilità 1/6.
2.2.2
Probabilità di estrazione delle unità
Il campionamento casuale semplice senza reintroduzione garantisce, nell’ambito
della stessa estrazione, una probabilità di estrazione costante per le diverse
unità. Tale probabilità aumenta, da un’estrazione alla successiva, per le unità
che non sono ancora state estratte.
Infatti dalla (1.72) si ha:
1
pλ(i) =
=
1−
1−
Ni−1
1
j=1 N
1
N
1
N
(i − 1)
=
1
N −i+1
,
(2.42)
∀λ : ∃j 1 ≤ j ≤ i − 1 lj = λ
2≤i≤n
pλ(i) = 0
2.2.3
1≤λ≤N
1≤i≤n
Probabilità di inclusione
Teorema 2.7
Le probabilità di inclusione di primo ordine, nel campionamento casuale semplice senza reintroduzione, sono:
πλ =
n
N
∀λ
La dimostrazione è nell’Appendice 2.
Daniela Cocchi: Teoria dei Campioni
(2.43)
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
65
Teorema 2.8
La probabilità di inclusione di secondo ordine nel campionamento casuale semplice senza reintroduzione è data da:
πλλ =
n (n − 1)
N (N − 1)
∀λ, λ | λ = λ
(2.44)
La dimostrazione è nell’Appendice 3.
2.2.4
Primi due momenti della variabile casuale a
Sostituendo la (2.104) dell’Appendice 2 nella (1.91) la distribuzione delle variabili aλ è:
"n#
aλ ∼ Ber
(2.45)
N
da cui si ricavano i casi particolari dei momenti (1.87), (1.88) e (1.89) da inserire
nella (1.84) e nella (1.85):
n
,
N
n#
n N −n
n "
V (aλ ) =
1−
=
,
N
N
N N
n(n − 1)
n2
C(aλ , aλ ) =
− 2
N (N − 1) N
n N n − N − nN + n
=
N
N (N − 1)
n (N − n)
=− 2
λ = λ .
N (N − 1)
E (aλ ) =
2.2.5
(2.46)
(2.47)
(2.48)
Inferenza per la media e per il totale di popolazione
Stimatori corretti per la media e per il totale di popolazione
Per la (2.46), la speranza del vettore aleatorio a, in caso di campionamento
casuale semplice senza reintroduzione, coincide con quella del caso con reintroduzione (2.9). Imponendo la correttezza del generico stimatore lineare ed
omogeneo (1.106) per la media in popolazione (1.4) e per il totale corrispondente (1.3) si derivano gli stimatori già proposti nel campionamento casuale
semplice con reintroduzione:
n
m (y) =
1
yi ,
n i=1
tE (y) = Nm(y) = t(y)
(2.49)
N
.
n
Daniela Cocchi: Teoria dei Campioni
(2.50)
2.2. C. C. S. SENZA REINTRODUZIONE
66
Quindi la media campionaria e lo stimatore di espansione sono ancora stimatori
corretti per le corrispondenti quantità di popolazione:
E [m (y)] = m(η),
E [tE (y)] = t(η).
(2.51)
(2.52)
Varianza della media campionaria e dello stimatore di espansione
Teorema 2.9 La varianza della media campionaria è:
N − n v2 (η) "
n # s2 (η)
= 1−
N −1 n
N
n
1
1
2
−
s (η) .
=
n N
V [m (y)] =
(2.53)
Dimostrazione
A partire dall’espressione (1.113) si ottiene:
N
N 1 2
ηλ ηλ C (aλ , aλ )
V [m (y)] = 2
ηλ V (aλ ) + 2
n
λ=1 λ<λ
λ=1
N
N 1 2n "
n#
n (N − n)
= 2
ηλ
1−
+2
ηλ ηλ − 2
n
N
N
N (N − 1)
λ=1
λ=1 λ<λ
N
N
1 n "
n # 2
n (N − n) ηλ − 2
ηλ ηλ
= 2
1−
2
n N
N
N (N − 1)
λ=1
λ=1 λ<λ
N
N 1 n (N − n) 2
2
ηλ −
ηλ ηλ
= 2
n
N2
(N − 1)
λ=1
λ=1 λ<λ
N
N
N
1
N −n
N 2
1 2
2 ηλ −
ηλ −
ηλ ηλ
=
nN
N
N −1
N −1
N −1
λ=1
λ=1
λ=1 λ<λ

N
2 
N
N −n
1  2
1
ηλ −
ηλ 
=
N
nN
N
N −1
λ=1
λ=1


2 
N
ηλ  
N


N −n 1  1

  N −n 1 2
=
ηλ2 −  λ=1   =
v (η)

N − 1 n N
 N   N −1 n
λ=1
"
N −n 1 N −1 2
N −n 2
n#1 2
s (η) =
s (η) = 1 −
s (η)
N −1 n N
nN
N n
1
1
=
−
s2 (η) .
n N
=
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
67
Si ottiene così un risultato analogo
al caso
con reintroduzione, con la moltiplin
cazione per un fattore di correzione 1 − N
dovuto al fatto che si sta trattando
una popolazione finita.
Teorema 2.10 L’espressione della varianza dello stimatore di espansione del
totale è:
"
N − n v2 (η)
n # s2 (η)
= N2 1 −
N −1 n
N
n
1
1
−
s2 (η) .
= N2
n N
V [tE (y)] = N 2
(2.54)
Dimostrazione
La varianza (2.54) è ottenuta semplicemente moltiplicando la (2.53) per N 2 .
Uno stimatore distorto per la varianza di popolazione
Teorema 2.11 La varianza campionaria (1.57) non è stimatore corretto della
varianza in popolazione (1.8) in quanto:
! N (n − 1) 2
E v 2 (y) =
v (η) .
n (N − 1)
(2.55)
Dimostrazione !
Dalla E m y 2 = m η 2 e, ricordando la (2.19), la (2.20), (2.21) e la
(2.53), il valore atteso della varianza campionaria v2 (y) è:
!
E v2 (y) = m η 2 − V [m (y)] − {E [m (y)]}2
N − n v 2 (η)
= m η2 −
− m2 (η)
N −1 n
N − n v2 (η)
= v2 (η) −
N −1 n
N −n
2
= v (η) 1 −
n (N − 1)
nN
−n−N +n
2
= v (η)
n (N − 1)
N
(n
− 1)
= v2 (η)
,
n (N − 1)
da cui si desume che v2 (y) non è uno stimatore corretto di v2 (η).
Uno stimatore corretto per la varianza di popolazione
Teorema 2.12 Uno stimatore corretto di s2 (η) è s2 (y):
!
E s2 (y) = s2 (η) .
Dimostrazione
Daniela Cocchi: Teoria dei Campioni
(2.56)
2.2. C. C. S. SENZA REINTRODUZIONE
68
!
E s2 (y) =
!
n
E v2 (y)
n−1
n N (n − 1) 2
v (η)
=
n − 1 n (N − 1)
N
=
v2 (η) = s2 (η) .
N −1
Si osservi che, mentre nel campionamento casuale semplice senza reintroduzione s2 (y) è stimatore corretto per s2 (η), nel campionamento casuale semplice con reintroduzione s2 (y) è stimatore corretto per v 2 (η).
Stimatori corretti per le varianze degli stimatori della media e del
totale
Teorema 2.13 Per stimare la varianza (2.53) della media campionaria m(y)
si propone lo stimatore corretto
V̂ [m(y)] =
s2 (y) N − n
.
n
N
(2.57)
Dimostrazione
Lo stimatore (2.57) è corretto, in quanto la sua speranza è:
s2 (η) N − n
E V̂ [m(y)] =
= V [m(y)] .
n
N
Teorema 2.14 Per stimare correttamente la varianza (2.54) dello stimatore
tE (y) si propone, direttamente dalla (2.57), la quantità:
V̂ [tE (y)] = N 2
s2 (y) N − n
.
n
N
(2.58)
Dimostrazione
Lo stimatore è corretto in quanto:
E V̂ [tE (y)] = N 2 V [m(y)] = V [tE (y)] .
Esempio 2.5 Effetto del coefficiente di correzione per popolazioni
finite
Nella tabella seguente viene riassunta l’influenza del coefficiente di correzione per
popolazioni finite al variare della numerosità della popolazione, per un’ampiezza
campionaria costante
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
69
*
*
N−n
N−n
N−n
n
N
N
N
N−1
500
10000
0.95
0.974679 0.974728
500
200000
0.9975 0.998749 0.998752
500 1000000
0.9995
0.99975
0.99975
500 5000000
0.9999
0.99995
0.99995
500 10000000 0.99995 0.999975 0.999975
Si noti, ad esempio, come un campione di ampiezza 500, estratto da una
popolazione di numerosità uguale a 10.000.000, dia luogo praticamente allo stesso risultato di un campione della stessa ampiezza estratto da una popolazione
di numerosità 200.000.
Di seguito viene descritta l’influenza del coefficiente di correzione per popolazioni finite al variare dell’ampiezza del campione, con dimensione di popolazione costante.
*
*
N−n
N−n
N−n
n
N
N
N
N−1
1
10000 0.9999 0.99995
1
10
10000 0.999 0.99949 0.9995
100 10000
0.99
0.99499 0.9950
500 10000
0.95
0.97468 0.9747
1000 10000
0.9
0.94868 0.9487
5000 10000
0.5
0.70711 0.7071
9000 10000
0.1
0.31623 0.3162
Si noti che, se la numerosità campionaria aumenta e tende a quella della
popolazione, il coefficiente di correzione per popolazioni finite diventa sempre
più importante per la riduzione della varianza degli stimatori.
Esempio 2.6 Speranza e varianza dello stimatore della media
Dalla popolazione studiata nell’Esempio 2.3 si estraggono, con campionamento
casuale semplice, campioni senza reintroduzione di dimensione 2.
Ai campioni sono associati i vettori di osservazioni y = (y1 , y2 ), ciascuno dei
quali dà luogo ad una media campionaria:
m (y) =
(y1 + y2 )
.
2
I valori delle medie campionarie m(y) provenienti dai campioni non ordinati
ed i relativi quadrati compaiono fuori della diagonale nei prospetti (2.31) e (2.32)
dell’esempio 2.3.
La speranza dello stimatore media campionaria può essere ricavata dall’universo dei campioni tramite la (1.104) come:
E [m (y)] =
m (y) p (s)
s∈S2
=
1
(6.5 + 3.5 + 5 + 7 + 8.5 + 5.5) = 6.
6
Utilizzando invece la proprietà di correttezza (2.51) di m (y) si ha direttamente:
E [m (y)] = m (η) = 6.
Daniela Cocchi: Teoria dei Campioni
2.2. C. C. S. SENZA REINTRODUZIONE
70
Analogamente, dall’universo dei campioni, tramite la (1.105), a partire da:
!
1
E m2 (y) =
m2 (y) p (s) = (42.25 + 12.25 + 25 + 49 + 72.25 + 30.25)
6
s∈S
2
=
1
(231) = 38.5,
6
si ottiene la varianza:
!
V [m (y)] = E m2 (y) − E 2 [m (y)]
= 38.5 − 36 = 2.5.
Lo stesso risultato si ottiene applicando la (2.53):
V [m (y)] =
2.2.6
N − n v2 (η)
2 7.5
=
= 2.5.
N −1 n
3 2
Stima per variabili dicotomiche: la proporzione e il totale
I risultati per la proporzione e il totale di variabili dicotomiche sono analoghi a
quelli trovati per il campionamento casuale semplice con reintroduzione a meno
del coefficiente di correzione per popolazioni finite
1−
n
.
N
Si propongono gli stimatori corretti:
n
1
t(y)
p = m (y) =
yi =
,
n i=1
n
(2.59)
τ̂ = N m (y) =
(2.60)
n
t(y)
N
yi =
N.
n i=1
n
Il valore atteso e la varianza di tali stimatori sono:
E (p) = E [m (y)] = m(η) = π,
1
1
N −n
N
V (p) = V [m (y)] =
−
s2 (η) =
π(1 − π)
n N
nN
N −1
N − n π(1 − π)
=
,
N −1
n
E(τ̂ ) = NE [m (y)] = N π = τ ,
V (τ̂ ) = N 2
(2.61)
(2.62)
(2.63)
2
N −n
N
N −n
N
π(1 − π)
=
π(1 − π)
.
nN
N −1
n
N −1
Ricordando che
s2 (y) =
np (1 − p)
;
n−1
V̂ (m(y)) = s2 (y)
N −n
Nn
Daniela Cocchi: Teoria dei Campioni
(2.64)
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
71
gli stimatori corretti delle varianze (2.62) e (2.64) sono:
N − n p (1 − p)
,
N
n−1
p (1 − p)
.
V̂ (τ̂ ) = N (N − n)
n−1
V̂ (p) =
(2.65)
(2.66)
Campionamento casuale semplice autoponderante
La strategia costituita dal campionamento casuale semplice (con o senza reintroduzione) e da uno stimatore lineare omogeneo è autoponderante, secondo la
definizione (1.109). Gli stimatori lineari omogenei media campionaria e stimatore di espansione per il totale utilizzano infatti pesi uguali, rispettivamente pari
a 1/n e N/n, per ogni elemento della popolazione selezionato nel campione. In
queste strategie si nota anche che le probabilità di inclusione di primo ordine
sono tutte uguali.
2.3
Riassunto della teoria per il campionamento
casuale semplice
Per ogni strategia di campionamento, per ogni stimatore proposto, ci sono
sempre almeno 5 teoremi
I. Calcolo della speranza per saggiare la correttezza
II. Calcolo della varianza
III. Proposta di stimare il parametro di popolazione che entra nella varianza
con il suo equivalente campionario e calcolo della sua speranza per saggiarne la
correttezza (la proprietà non è mai verificata)
IV. Aggiustamento della statistica del punto precedente in modo da renderla
corretta
V. Stimatore corretto della varianza
Nel campionamento casuale semplice i teoremi per la stima della media
aritmetica sono sono:
Con reintroduzione Senza reintroduzione
I
Teorema 2.1
Formula (2.51)
II
Teorema 2.2
Teorema 2.9
III
Teorema 2.3
Teorema 2.11
IV
Teorema 2.4
Teorema 2.12
V
Teorema 2.5
Teorema 2.13
I teoremi per la stima del totale sono:
Con reintroduzione
Senza reintroduzione
I
Teorema 2.6
Formula (2.52)
II
Formule (2.26)-(2.27)
Teorema 2.10
III Si utilizza il Teorema 2.3
Si utilizza il Teorema 2.11
IV Si utilizza il Teorema 2.4
Si utilizza il Teorema 2.12
V
Formula (2.28)
Teorema 2.14
Daniela Cocchi: Teoria dei Campioni
2.4. C.C.S.: EFFICIENZA E PRECISIONE
72
I teoremi 2.1, 2.2, 2.9 e 2.10 sono semplici applicazioni dei teoremi sulla
speranza dello stimatore omogeneo e del corollario 1.3 del capitolo 1.
Per la proporzione
Con reintroduzione
I
Formula (2.35)
II
Formula (2.36)
III Si utilizza il Teorema 2.3
IV
Formula (1.64)
V
Teorema 2.6.1
Senza reintroduzione
Formula (2.61)
Formula (2.62)
Si utilizza il Teorema 2.3
Formula (1.64)
Formula (2.65)
Per il totale di una caratteristica dicotomica
Con reintroduzione
Senza reintroduzione
I
Formula (2.37)
Formula (2.63)
II
Formula (2.38)
Formula (2.64)
III Si utilizza il Teorema 2.3
Si utilizza il Teorema 2.3
IV
Formula (1.64)
Formula (1.64)
V
Teorema 2.6.2
Formula (2.66)
2.4
Valutazione delle procedure di campionamento casuale semplice in termini di efficienza e
precisione
Nel capitolo precedente sono stati introdotti i concetti di strategia campionaria,
di valutazione di efficienza e precisione di strategie.
2.4.1
Il design effect
Nel caso in cui il disegno campionario B, al quale è associato lo stimatore g(y), è
confrontato con il disegno campionario casuale semplice senza reintroduzione(CCSSR),
al quale è associato lo stimatore h(y), il rapporto (1.115) prende il nome di effetto
del disegno (dall’inglese design effect):
Def f = Π (CCSSRh/Bg) =
EQMB [g(y)]
.
EQMCCSSR [h(y)]
(2.67)
Il piano di campionamento casuale semplice senza reintroduzione è tanto
più preferibile ad un altro piano di campionamento (B) quanto più il rapporto
(2.67) è superiore all’unità.
2.4.2
Confronto di efficienza tra il campionamento casuale semplice
con e senza reintroduzione
Siano ora A il disegno campionario casuale semplice senza reintroduzione e
B il disegno campionario casuale semplice con reintroduzione. Si consideri lo
stimatore media aritmetica campionaria. Per l’ampiezza campionaria n fissata
si ha che
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
VA (m(y)) =
N − n s2 (η)
1
= v2 (η)
N
n
n
N −n
N −1
73
e
VB (m(y)) =
N − 1 s2 (η)
1
= v 2 (η).
N
n
n
La precisione relativa del disegno A rispetto al disegno B secondo la (1.116)
è:
Π(Ah/Bh) =
EQMB (m(y))
VB (m(y))
N −1
=
=
= Def f > 1
EQMA (m(y))
VA (m(y))
N −n
∀n.
Questo significa che il campionamento casuale semplice senza reintroduzione
è più preciso (ovvero più efficiente) rispetto a quello con reintroduzione: infatti
ha sempre varianza inferiore a meno che n = 1 o N → ∞.
Nei capitoli seguenti saranno esaminate strategie di campionamento che
permettono stime più efficienti a parità di ampiezza campionaria.
Esempio 2.7 Confronto di efficienza tra CCSCR e CCSSR
Si consideri ancora la popolazione di N = 4 elementi degli esempi 2.3 e 2.6. Si
vuole sapere:
a) qual é la varianza dello stimatore media campionaria nel caso di campioni di dimensione n = 3 utilizzando il campionamento casuale semplice senza
reintroduzione;
b) qual é la varianza dello stimatore media campionaria nel caso di campioni di dimensione n = 3 utilizzando il campionamento casuale semplice con
reintroduzione;
c) a quanto ammonta l’efficienza relativa del campionamento casuale semplice senza reintroduzione rispetto a quello con reintroduzione.
a) Se il campionamento avviene senza reintroduzione, nell’esempio 2.3 si è
trovato che:
"
n # s2 (y)
3 10
5
V (m(y)) = 1 −
= 1−
= = 0, 83333.
N
n
4 3
6
b) Se il campionamento avviene con reintroduzione, nell’esempio 2.6 si è
trovato che:
1 s2 (y)
1 10
5
= 1−
= = 2.5
V (m(y)) = 1 −
N
n
4 3
2
c) L’efficienza relativa è:
Π(Af /Bf ) =
N −1
4−1
=
= 3.
N −n
4−3
cioè il campionamento casuale semplice senza reintroduzione è 3 volte più efficiente rispetto a quello con reintroduzione.
Daniela Cocchi: Teoria dei Campioni
74
2.5
2.5. COSTR. DI INTERVALLI DI CONFIDENZA SIMMETRICI
Costruzione di intervalli di confidenza simmetrici
La costruzione di intervalli di confidenza per la quantità descrittiva di popolazione f(η) su cui si fa inferenza richiede la conoscenza della distribuzione seguita da una variabile casuale ottenuta trasformando opportunamente lo stimatore
h(y), ad esempio tramite una standardizzazione:
W =
h(y) − E [h(y)]
.
V [h(y)]
(2.68)
Per semplicità si considera che h(y) sia corretto per f(η) e quindi la variabile
standardizzata W diventa
h(y) − f (η)
.
W = V [h(y)]
Si indica con να , dove 0 ≤ α ≤ 1, un percentile della distribuzione della
(2.68)
P (W ≤ να ) = 1 − α,
(2.69)
e si ipotizza che la distribuzione di W sia simmetrica rispetto a 0, ad esempio
normale standardizzata o t di Student. In questo caso i percentili verificano la
relazione di simmetria:
ν1−α = −να .
Si può ora individuare un intervallo per la variabile casuale standardizzata
W con probabilità, o fiducia, 1 − α come segue:
P |W | ≤ ν α2 = 1 − α.
(2.70)
da cui si ricava univocamente un intervallo casuale centrato in f(η):
+
+
+ h(y) − f(η) +
+
+
P |W | ≤ ν α2
= P + + ≤ ν α2
+ V [h(y)] +
h(y) − f (η)
= P −ν α2 ≤ ≤ ν α2
V [h(y)]
"
#
= P +ν α2 V [h(y)] + h(y) ≥ f (η) ≥ −ν α2 V [h(y)] + h(y)
"
#
= P h(y) − ν α2 V [h(y)] ≤ f (η) ≤ h(y) + ν α2 V [h(y)]
= 1 − α.
(2.71)
P (h(y) − ε ≤ f (η) ≤ h(y) + ε) = 1 − α,
dove
ε = ν α2
V [h(y)]
(2.72)
è l’errore della stima.
L’ampiezza dell’intervallo di confidenza è quindi 2ε, il doppio dell’errore della
stima.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
75
Se la numerosità campionaria è elevata e la numerosità della popolazione
è molto grande, l’ignoranza sulla legge distributiva di W può essere risolta, in
caso di impiego di stimatori lineari ed omogenei, ricorrendo all’approssimazione
indicata dal teorema centrale del limite. Grazie a questo teorema si può affermare che, nel caso di campioni indipendenti, la distribuzione della somma
di una successione di variabili casuali standardizzate converge in distribuzione
alla normale standardizzata. La versione tradizionale del teorema ipotizza che
la popolazione abbia dimensione infinita, tuttavia negli anni ’60 Hajek ne ha
dimostrato una versione valida per il caso di popolazioni finite. Quest’ultima
viene impiegata per la costruzione di intervalli di confidenza approssimando la
distribuzione di W con la normale standardizzata Z.
Quando la numerosità campionaria è molto ridotta, non potendo far riferimento al teorema centrale del limite, non si potrebbe impiegare l’approssimazione normale. Quando non è possibile calcolare le distribuzioni esatte, in
pratica si può usare la distribuzione t di Student, trascurando il fatto che il suo
impiego sottintende la normalità distributiva del carattere.
Per decidere se la numerosità campionaria sia sufficiente per far ricorso all’approssimazione normale, si può fare riferimento ad una semplice regola pratica
suggerita da Cochran:
n > 25G1
ove
m(ηλ − m(η))3
m(η3 ) − 3m(η2 )m(η) + 2m3 (η)
=
v3 (η)
v3 (η)
che peraltro presuppone la conoscenza del momento terzo della distribuzione
della variabile in popolazione.
Negli intervalli di confidenza che verranno costruiti si farà ricorso sia ai
percentili della distribuzione normale, sia a quelli della t di Student stimando,
se necessario, s2 (η) con s2 (y) nel caso di campionamento casuale semplice senza
reintroduzione e v2 (η) con s2 (y) nel caso di campionamento casuale semplice
con reintroduzione.
G1 =
2.5.1
Intervalli di confidenza per la media di popolazione
Per grandi campioni si impiegano i percentili della distribuzione normale, quindi
gli estremi dell’intervallo (2.71) sono:
s(y)
m(y) ± z α2 √
n
s(y)
m(y) ± z √
n
α
2
nel caso con reintroduzione
N −n
nel caso senza reintroduzione
N
Per piccoli campioni si impiegano i percentili della distribuzione t di Student,
quindi gli estremi dell’intervallo (2.71) sono:
s(y)
m(y) ± tn−1, α2 √
n
m(y) ± t
n−1, α
2
s(y)
√
n
nel caso con reintroduzione
N −n
nel caso senza reintroduzione
N
Daniela Cocchi: Teoria dei Campioni
2.5. COSTR. DI INTERVALLI DI CONFIDENZA SIMMETRICI
76
2.5.2
Intervalli di confidenza per il totale di popolazione
Per grandi campioni si impiegano i percentili della distribuzione normale, quindi
gli estremi dell’intervallo (2.71) sono:
s(y)
tE (y) ± z α2 N √
n
s(y)
tE (y) ± z α2 N √
n
nel caso con reintroduzione
N −n
N
nel caso senza reintroduzione
Per piccoli campioni si impiegano i percentili della distribuzione t di Student,
quindi gli estremi dell’intervallo (2.71) sono:
s(y)
tE (y) ± tn−1, α2 N √
n
tE (y) ± t
n−1, α
2
2.5.3
s(y)
N√
n
nel caso con reintroduzione
N −n
N
nel caso senza reintroduzione
Intervalli di confidenza per variabili dicotomiche: la proporzione
In questo caso, le distribuzioni esatte da impiegare sarebbero quella ipergeometrica nel caso senza reintroduzione e quella binomiale nel caso con reintroduzione. Di solito si usa però l’approssimazione normale con la correzione per
la continuità. In questo modo la (2.68) e la (2.71) diventano rispettivamente:
Z=
P
−z
α
2
p+ 1 −π
≤ 2n
≤ z α2
V (p)
1
p + 2n
−π
∼ N (0, 1)
V (p)
1
α
= P −z
V (p) ≤ π − p −
≤ z 2 V (p)
2n
1
1
= P p − z α2 V (p) +
≤ π ≤ p + z α2 V (p) +
2n
2n
= 1−α
α
2
quindi gli estremi di tale intervallo sono:
p (1 − p)
1
+
nel caso con reintroduzione
n−1
2n
p (1 − p) N − n
1
p ± z α2
+
nel caso senza reintroduzione
n−1
N
2n
p ± z α2
Daniela Cocchi: Teoria dei Campioni
(2.74)
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
77
Si noti che la varianza campionaria p(1−p) raggiunge il massimo per p = 0.5.
Quindi, nella stima della varianza V (p), anzichè utilizzare la varianza stimata
nel campione si può usare il valore di popolazione più sfavorevole, ossia
v2 (η) = 0.5(1 − 0.5) = 0.25.
Si ottiene in questo modo un intervallo conservativo, con probabilità maggiore
o uguale ad 1 − α, di estremi:
0.25
1
α
p±z2
+
nel caso con reintroduzione
n
2n
0.25 N − n
1
+
nel caso senza reintroduzione
(2.75)
p ± z α2
n
N − 1 2n
2.6
Determinazione della numerosità campionaria che garantisca errori prestabiliti
Come si può osservare dai risultati teorici ricavati precedentemente, dimensioni campionarie elevate compensano valori elevati della varianza strutturale
in popolazione. Questo comporta una riduzione della varianza degli stimatori:
viene così ridotta l’ampiezza dell’intervallo di confidenza (2.71) e quindi l’errore
delle stime (2.72). Tuttavia, nella scelta della dimensione del campione bisogna
considerare l’incidenza dei costi di realizzazione dell’indagine, infatti quanto più
elevata è la dimensione del campione tanto più le stime sono attendibili, ma l’aumento della dimensione campionaria determina un aumento dei costi connessi
all’indagine.
Trascurando la considerazione di costi connessi all’indagine, le fasi che conducono alla scelta della dimensione campionaria minima che garantisca un livello
di errore prefissato possono essere schematizzate nel modo seguente:
1) specificazione del limite di errore ε richiesto per le stime;
2) costruzione di un’uguaglianza che lega l’ampiezza dell’errore prefissato
alla numerosità campionaria incognita in base a tale limite ;
3) tale uguaglianza dipende dalla varianza dello stimatore impiegato. Quindi
essa dipende dello scarto quadratico medio in popolazione della variabile. Se
quest’ultimo è incognito, deve essere stimato.
Si osservi che, essendo basata sulla varianza dello stimatore adottato, che a
sua volta dipende dalla varianza del carattere oggetto di studio, la dimensione
del campione che garantisce un errore prestabilito varia a seconda della variabile
oggetto di interesse. Con una indagine campionaria si investiga di solito su più
variabili e quindi la determinazione della dimensione campionaria nei casi reali
è una soluzione di compromesso tra diverse alternative.
La numerosità campionaria che garantisce un errore prefissato viene calcolata supponendo nota la varianza della popolazione che solitamente è, invece,
incognita. Per ovviare a questa mancanza di informazione, in alcuni casi si calcola una stima preliminare della varianza, dividendo il campione in due parti,
una delle quali è impiegata per la stima. In altre situazioni, per valutare la
varianza, si effettuano studi pilota, oppure si riprendono risultati di studi precedenti, o si utilizzano proprietà matematiche delle distribuzioni (esempio: nella
Daniela Cocchi: Teoria dei Campioni
2.6. NUMEROSITÀ CAMPIONARIA
78
distribuzione di Poisson la varianza e la media sono uguali). In mancanza di
informazioni sulla varianza degli stimatori sono molto utili i calcoli che si basano
sul coefficiente di variazione.
Seguono alcune definizioni utili per la determinazione della numerosità campionaria, basate sulla varianza degli stimatori e quindi adeguate per stimatori corretti. Per stimatori distorti si dovranno considerare formule analoghe
espresse in termini di EQM.
Errore assoluto
Nei paragrafi che seguono si considereranno i percentili della distribuzione
normale, e quindi la (2.72) diventa:
ε = z α2 V [h(y)],
(2.76)
detto anche errore assoluto. Nella determinazione della dimensione campionaria si deve ricordare che l’intervallo di confidenza è stato definito in modo
simmetrico intorno alla stima: l’errore complessivo da non superare è 2ε.
L’errore assoluto può anche essere definito come multiplo della quantità da
stimare
ε = kf(η).
(2.77)
Con questa scrittura si definisce esplicitamente l’errore in funzione del parametro
da stimare.
Varianza dello stimatore come funzione dell’errore assoluto
La varianza di uno stimatore può essere espressa in funzione del rapporto
tra l’errore assoluto e il percentile della distribuzione normale che è stato scelto:
V [h(y)] =
ε
z α2
2
=
" z α #−2
2
ε
.
(2.78)
Errore relativo
L’errore desiderato può anche essere definito come multiplo della quantità
da stimare
k = ε/m(η).
(2.79)
Il fattore k è detto errore relativo e viene visto come una percentuale quando
è inferiore a 1. Si tratta dell’errore assoluto depurato dell’ordine di grandezza
della variabile. La considerazione dell’errore relativo permette di fissare i valori
della numerosità campionaria in base a congetture sul coefficiente di variazione.
2.6.1
Determinazione della numerosità campionaria per la stima
della media di popolazione
Si consideri l’inferenza sulla media di popolazione impiegando la media campionaria come stimatore.
Caso con reintroduzione
In termini di errore assoluto
Sostituendo la varianza dello stimatore (2.15) nella (2.76) si ha:
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
1
= z 2α2 v2 (η)
n
z α2 v(η) 2
.
n =
ε
79
ε2
(2.80)
Mettendo in relazione l’errore assoluto e la varianza dello stimatore
La dimensione campionaria necessaria per garantire un errore prefissato
dipende quindi dalla varianza in popolazione della variabile studiata. La (2.80)
esprime direttamente la dimensione campionaria in funzione del valore noto
della varianza dello stimatore (2.15):
n = v2 (η)
ε
z α2
−2
= v2 (η)
" z α #2
2
ε
.
(2.81)
In termini di errore relativo
La dimensione campionaria viene determinata supponendo di conoscere la
varianza e di aver fissato l’errore assoluto per un certo valore di fiducia e l’ascissa
della normale standard. Se si utilizza l’errore relativo (2.79), la (2.80) può essere
scritta in funzione della varianza relativa (quadrato del coefficiente di variazione)
del carattere oggetto di studio:
n =
=
2
z α2 v(η)
km(η)
" z α #2 v(η) 2
2
k
m(η)
" z α #2
2
=
CV 2 (η) .
k
(2.82)
L’espressione (2.82), se confrontata con la (2.80), semplifica le ipotesi necessarie
sulle caratteristiche strutturali della popolazione per determinare la dimensione
di un campione. Ad esempio, facendo l’ipotesi di varianza relativa pari a 1, si
trova il risultato:
" z α #2
2
n=
.
(2.83)
k
In questo modo si determina una dimensione campionaria conservativa, oppure
in difetto, a seconda che il coefficiente di variazione effettivo sia inferiore o
superiore ad uno.
Caso senza reintroduzione
In termini di errore assoluto
Sostituendo la varianza dello stimatore (2.53) nella (2.76) si ha:
ε2
N − n s2 (η)
N
n
= z 2α2 (N − n) s2 (η)
= z 2α2
nNε2
n N ε2 + z 2α2 s2 (η) = N z 2α2 s2 (η)
Daniela Cocchi: Teoria dei Campioni
2.6. NUMEROSITÀ CAMPIONARIA
80
da cui
n =
=
Nz 2α s2 (η)
2
N ε2 + z 2α s2 (η)
2
" z α #2
2
s2 (η)
ε
" z α #2 2
s (η)
1 + ε2
N
(2.84)
Mettendo in relazione l’errore assoluto e la varianza dello stimatore
Usando invece la (2.78), si ottiene:
" z α #−2
N −n 2
2
=
s (η)
ε
Nn
" #−2
z α2
+ s2 (η)
= Ns2 (η)
n N
ε
da cui:
n =

N
N s2 (η)

=
2

N zεα
+ s2 (η)
ε
zα
2

ε
zα
−1
2
2
2
−1
+ s (η) 


N s2 (η)

2

1
2


=  2
+ 
 s (η)
N
(2.85)
In termini di errore relativo
Analogamente al caso con reintroduzione, se si fissa l’errore relativo, la (2.84)
diventa:
n =
=
=
!2
N
zα/2 / (km (η)) v2 (η) N−1
!2 2 (η)
1 + zα/2 / (km (η)) vN−1
2
N
zα/2 /k CV 2 (η) N−1
2
2 (η)
1 + zα/2 /k CV
N−1
N
1
2 CV 2 (η) + 1
zα/2 /k
=
k/zα/2
N −1
N
2 N−1
CV
2 (η)
+1
Facendo l’ipotesi di varianza relativa eguale a uno, si ricava la
2
k
N −1
1
n = 1/
+
z α2
N
N
Daniela Cocchi: Teoria dei Campioni
(2.86)
(2.87)
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
81
che è una dimensione campionaria conservativa o in difetto a seconda che il
coefficiente di variazione sia inferiore o superiore ad uno. Si osservi, inoltre, che
se N −→ ∞, allora (2.87)−→(2.83).
Quando nella determinazione della numerosità campionaria si utilizza la varianza campionaria non si può usare la distribuzione normale, in particolare se
n è piccolo, ma bisogna ricorrere alla distribuzione t di Student. Tuttavia i
gradi di libertà della t dipendono dalla numerosità campionaria, che è proprio
la quantità che si vuole determinare.
2.6.2
Determinazione della numerosità campionaria per la stima
del totale di popolazione
Si consideri l’inferenza sul totale di popolazione impiegando lo stimatore di
espansione.
Caso con reintroduzione
In termini di errore assoluto
Sostituendo la (2.26) nella (2.76), seguendo uno sviluppo analogo a quello
della (2.80), si ha:
n=
zα
2
ε
2
N v(η) .
(2.88)
Mettendo in relazione l’errore assoluto e la varianza dello stimatore
La (2.88) esprime direttamente la dimensione campionaria anche come funzione di valori prestabiliti della varianza dello stimatore (2.78):
n = N 2 v2 (η)
ε
z α2
−2
= N 2 v2 (η)
" z α #2
2
ε
.
(2.89)
In termini di errore relativo
Se si considera l’errore relativo (2.79) nella
ε = kt(η) = kN m(η)
la (2.88), seguendo uno sviluppo analogo a quello della (2.82), diventa:
z α2
N v(η)
kNm(η)
" z α #2
2
=
CV 2 (η)
k
n =
2
che è uguale alla (2.82).
Daniela Cocchi: Teoria dei Campioni
(2.90)
2.6. NUMEROSITÀ CAMPIONARIA
82
Caso senza reintroduzione
In termini di errore assoluto
Sostituendo la (2.54), cioé
V [tE (y)] = N 2
N −n 2
s (η)
Nn
nella (2.76), seguendo uno sviluppo analogo a quello della (2.84), si ha:
" z α #2
N 2 s2 (η)
n=
" z α #2
1 + ε2
N s2 (η)
2
ε
(2.91)
Mettendo in relazione l’errore assoluto e la varianza dello stimatore
Usando invece la (2.78), si ottiene:
n
n
ε
z α2
2
ε
z α2
ε
z α2
2
2
2
+ N s (η)
= N
N −n 2
s (η)
n
= N 2 s2 (η) − N ns2 (η)
= N 2 s2 (η)
da cui:
n =


N 2 s2 (η)
=

2

ε
2
+ N s (η)
zα

2
ε
zα
2
−1
ε
zα
2
2
2
−1
+ N s (η) 


N 2 s2 (η)


1
2


=  2 2
+ 
 N s (η) N 
(2.92)
In termini di errore relativo
In termini di errore relativo (2.79), seguendo uno sviluppo analogo a quello
della (2.86), la (2.91) diventa:
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
n =
=
=
zα
2
N
N 2 v2 (η) N−1
z α 2
N
2
N v2 (η) N−1
1 + kNm(η)
z α 2
N
2
v2 (η) N−1
km(η)
z α 2
1
2
v2 (η) N−1
1 + km(η)
2
kNm(η)
k
zα
2
2
83
N
N−1
CV 2 (η)
(2.93)
+1
che è uguale alla (2.86).
Esempio 2.8 La numerosità campionaria per stimare media o totale
in condizioni identiche è la stessa.
In una popolazione di N = 1500 elementi, la media del carattere oggetto di
studio è m (η) = 100 (e quindi t (η) = 150000). Supponendo quindi che la
popolazione sia completamente nota, la varianza nella popolazione è v2 (η) =
5000, mentre s2 (η) = 5003.34 e CV 2 (η) = 0.5.
Se, nel caso di campionamento casuale semplice con reintroduzione, si vuole
determinare la numerosità campionaria che, con una fiducia del 95%, garantisce
un errore della stima intorno alla media pari a 2ε = 30, l’errore assoluto è ε = 15
e zα/2 = 1.96.
La numerosità richiesta si ricava applicando la (2.80), dopo aver calcolato
zα/2 2
= 0.017, ed è n = 86. Lo stesso valore si ricava applicando la (2.81),
ε
"
#2
ε
sulla base di zα/2
= 58.57.
La conoscenza della media di popolazione permette di ritrovare lo stesso valore della dimensione campionaria in funzione dell’errore relativo corrispondente:
k = ε/m (η) = 0.15. Per un errore relativo prefissato, la dimensione campionaria
z 2
pari a 86 viene calcolata con la (2.82), dove α/2
= 170.74.
k
Preservando lo stesso livello di errore e lo stesso grado di fiducia, nel caso
senza reintroduzione la dimensione del campione risulta inferiore, n = 81, sia
"
#2
k
applicando la (2.84) e la (2.85) sia usando la (2.86) dove zα/2
= 0.0058.
Sotto le stesse condizioni, la numerosità campionaria per la stima del totale
non cambia. Volendo determinare la dimensione campionaria fissando l’errore
della stima intorno al totale, il valore dell’errore assoluto corrispondente a quello
per la stima della media è 2ε = 45000, cioé N volte l’errore per la media,
e l’errore assoluto è ε = 22500. L’errore relativo è k = 0.15 come nel caso
precedente. Per il caso con reintroduzione si riottiene n = 86 sia applicando la
"
#2
z 2
ε
(2.88), dove α/2
=
7.58E
−09,
sia
in
base
alla
(2.89)
dove
= 1.3E08,
ε
zα/2
sia con la (2.90). I risultati analoghi relativi al caso del campionamento casuale
semplice senza reintroduzione si ottengono rispettivamente dalle (2.91), (2.92)
e (2.93).
Per riassumere:
Daniela Cocchi: Teoria dei Campioni
2.6. NUMEROSITÀ CAMPIONARIA
84
parametro
2ε
ε
k
m(η) = 100
30
15
0.15
t(η) = 150.000 45.000 22.500 0.15
2.6.3
Determinazione della numerosità campionaria per la stima
della proporzione
Si consideri l’inferenza sulla proporzione di popolazione in base alla proporzione
campionaria, si tratta quindi di un caso particolare di inferenza sulla media.
Caso con reintroduzione
In termini di errore assoluto
Sostituendo la (1.15):
V (p) =
π(1 − π)
n
nella (2.76) si ha:
π(1 − π)
= z 2α2
n
" z α #2
2
n =
π(1 − π)
ε
ε2
(2.94)
Ricordando che la varianza di popolazione ha un limite superiore pari a
0.25 (quando π = 0.5), nell’ipotesi più sfavorevole di massima variabilità del
carattere si ottiene:
" z α #2
2
n=
0.25.
ε
Mettendo in relazione l’errore assoluto e la varianza dello stimatore
La (2.94) esprime direttamente la dimensione campionaria anche come funzione di valori prestabiliti della varianza dello stimatore (1.15):
n = π(1 − π)
ε
z α2
−2
= π(1 − π)
" z α #2
2
ε
.
(2.95)
In termini di errore relativo
La (2.94) diventa:
n=
" z α #2
2
k
CV 2 (η) =
" z α #2 (1 − π)
2
k
π
(2.96)
La (2.96) dipende esplicitamente dalla quantità di popolazione oggetto di inferenza. In questo caso, l’ipotesi di varianza relativa uguale a 1 coincide con l’assunzione conservativa di π = 0.5. Sotto tale ipotesi la numerosità campionaria
sarà
" z α #2
2
n=
(2.97)
k
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
85
uguale alla (2.83). Quindi, in presenza di scarsa informazione sulla struttura
della popolazione, sia nel caso di caratteri quantitativi, sia nel caso di caratteri dicotomici si perviene egualmente ad una valutazione, seppure in base ad
un’ipotesi abbastanza forte, della numerosità campionaria.
Caso senza reintroduzione
In termini di errore assoluto
Sostituendo la (1.15) nella (2.84) si ha:
" z α #2
s2 (η)
" z α #2 2
2
ε
n=
1+
s (η)
N
2
ε
" z α #2
N
N−1 π (1 − π)
" z α #2
π(1−π)
+ ε2
N−1
2
=
ε
1
(2.98)
Nell’ipotesi più sfavorevole di massima variabilità del carattere si ottiene:
" z α #2
N
2
ε
N−1 0.25
.
n=
" z α #2
0.25
1 + ε2
N−1
Mettendo in relazione l’errore assoluto e la
Usando invece la (2.78), si ottiene:
2
ε
=
z α2
2
π (1 − π)
ε
+
n
=
z α2
N −1
varianza dello stimatore
N − n π (1 − π)
N −1
n
N
π (1 − π)
N −1
da cui:

N

π (1 − π)
N−1
=

2

π(1−π)
ε
+ N−1
zα
n =
2

ε
zα
−1
2
ε
zα
2
+
π(1−π)
N−1
−1



N

π
(1
−
π)
N−1
2

1

2

=  N
+ 
 N−1 π (1 − π) N 
(2.99)
In termini di errore relativo
Se si fissa l’errore desiderato ε come multiplo di π, ricordando la (2.86), la
(2.98) diventa:
n= k
zα
2
2
N
N−1
CV 2 (η)
+1
=
k
zα
2
2
N
(N − 1)
(2.100)
π
1−π
+1
Daniela Cocchi: Teoria dei Campioni
2.6. NUMEROSITÀ CAMPIONARIA
86
Facendo l’ipotesi di coefficiente di variazione o varianza relativa uguale a
uno, si ricava la
2
k
1
N −1
n = 1/
+
(2.101)
z α2
N
N
che coincide con la (2.87). Come nel caso con reintroduzione appena illustrato,
si ritrova la stessa dimensione campionaria sia per caratteri quantitativi che
dicotomici.
Da ricordare. La dimensione campionaria che garantisce una precisione
prestabilita può essere fissata in modo conservativo, senza conoscere il valore
della varianza in popolazione, bensì fissando i valori del coefficiente di variazione
( o della varianza relativa).
Esempio 2.9 Intervallo di confidenza per una proporzione
In un supermercato da un insieme di 4112 targhette dei prezzi si estrae senza
reintroduzione un campione di 200 unità e si trovano 44 targhette inesatte.
Si chiede di stimare, al livello di confidenza 0.95, la proporzione di targhette
inesatte.
I dati del problema sono:
N = 4112
n = 200
t (y) = 44
α = 0.05
quindi la stima della proporzione è
p=
44
= 0.22
200
Stimando la varianza dal campione si ottiene:
p (1 − p)
0.22(0.78)
=
= 0.0294
n−1
199
N −n
4112 − 200
=
= 0.9754
N
3042
quindi dalla (2.74) l’intervallo ha per estremi
0.22 ± 1.96 · 0.0294 · 0.9754 +
0.22 ± (0.0562 + 0.0025)
= 0.22 ± 0.0587.
1
2 · 200
L’intervallo è quindi (0.1613; 0.2787).
Se si decide di valutare la varianza di popolazione nell’ipotesi più sfavorevole
si ottiene:
0.5(1 − 0.5)
0.25
=
= 0.0354
n
200
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
87
quindi, dalla (2.75), l’intervallo ha per estremi
0.22 ± 1.96 · 0.0354 · 0.9754 +
0.22 ± (0.0677 + 0.0025)
= 0.22 ± 0.0702.
1
2 · 200
L’intervallo è più ampio del precedente e pari a (0.1598; 0.1902).
Esempio 2.10 Errori assoluti nella determinazione della numerosità
campionaria per la stima di una proporzione
Si vuole stimare, tramite campionamento casuale semplice con reintroduzione,
una proporzione π con un errore assoluto prima pari all’ 1%, e poi al 3%,
con livelli di confidenza 1 − α pari prima a 0.99 e poi a 0.95 Applicando la
(2.94) con ε = 0.01 e ε = 0.03, le numerosità campionarie e gli errori assoluti
corrispondenti, al variare di α e di alcuni valori di π sono le seguenti:
α
ε
π
n
0.95 0.03 0.5
1067
0.99 0.03 0.5
1843
0.95 0.01 0.5
9604
0.99 0.01 0.5 16587
0.95 0.03 0.4
1024
0.99 0.03 0.4
1775
0.95 0.01 0.4
9219
0.99 0.01 0.4 15975
Esempio 2.11 Errori relativi nella determinazione della numerosità
campionaria per la stima di una proporzione
Si desidera conoscere la numerosità campionaria minima che permette di stimare, in caso di campionamento casuale semplice con reintroduzione, una proporzione π con un errore relativo k del 10% e con un livello di confidenza
maggiore o uguale a 0.95.
P [|p − π| < 0.10π] ≥ 0.95.
Dalla (2.96) si può esprimere la numerosità campionaria minima in funzione
della proporzione in popolazione e del k=0.1 costante:
n=
1.96
0.1
2
(1 − π)
.
π
L’errore relativo è sempre mantenuto costante e pari al 10% secondo la
(2.79):
ε
k=
π
Al variare di π le numerosità minime e gli errori assoluti corrispondenti sono
i seguenti:
Daniela Cocchi: Teoria dei Campioni
2.7. APPENDICI
88
π
ε
n
0.1
0.01
3457
0.2
0.02
1537
0.3
0.03
896
0.4
0.04
576
0.5
0.05
384
0.6
0.06
256
0.7
0.07
165
0.8
0.08
96
0.9
0.09
43
l’errore è espresso in funzione del parametro, ad esempio, se π=0.5, si richiede
che l’errore assoluto sia pari a 0.1(0.5)=0.05, se π=0.1 si chiede un errore pari a
0.1(0.1)=0.01, in unità di misura del carattere, in questo caso la percentuale.
2.7
2.7.1
Appendici
Appendice 1
Esempio 2.1 Probabilità di estrazione dei campioni non ordinati nel
campionamento casuale semplice con reintroduzione
(continuazione) Si consideri la popolazione di dimensione N = 4 del capitolo
precedente, con campioni di dimensione n = 3.
r
Il numero di possibili campioni ordinati è D4,3
= 64, ciascuno con probabilità
1
r
,
mentre
il
numero
di
possibili
campioni
non
ordinati
è C4,3
= 20.
64
Ordinando le triplette (λ, λ , λ ) a partire dai primi due elementi estratti,
rappresentati rispettivamente nelle righe e nelle colonne, si ottiene il prospetto:
λ\λ
1
2
3
4
1
{1, 1, 1}
{1, 1, 2}
{1, 1, 3}
{1, 1, 4}
{2, 1, 2}
{2, 1, 3}
{2, 1, 4}
{3, 1, 3}
{3, 1, 4}
{4, 1, 4}
2
3
4
{2, 2, 2}
{2, 2, 3}
{2, 2, 4}
{3, 2, 3}
{3, 2, 4}
{4, 2, 4}
{3, 3, 3}
{3, 3, 4}
{4, 3, 4}
{4, 4, 4}
Partendo dalle probabilità dei campioni ordinati, e sommandole opportunamente, si ottiene:
#
" " #
"
"
#
#
P λ, λ , λ
= P λ, λ , λ + P λ, λ , λ + P λ , λ, λ + P λ , λ , λ
" #
" #
6
+ P λ , λ, λ + P λ , λ , λ =
se λ = λ = λ
64
"
#
"
#
" #
3
P λ, λ, λ = P λ, λ, λ + P λ, λ , λ + P λ , λ, λ =
se λ = λ
64
1
P {λ, λ, λ} =
se λ = λ = λ .
64
Infine, si ottiene la (1.67) come:
6
3
1
P λ, λ , λ 4 + P λ, λ, λ 12 + P {λ, λ, λ} 4 = 4 + 12 + 4 = 1.
64
64
64
Daniela Cocchi: Teoria dei Campioni
λ=λ
CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE
2.7.2
89
Appendice 2
Dimostrazione del Teorema 2.7
Le probabilità di inclusione di primo ordine, nel campionamento casuale
semplice senza reintroduzione, sono:
πλ =
n
N
∀λ
Dimostrazione
Si consideri Sλ , il sottospazio campionario (1.68) che include l’unità di
etichetta λ. La sua dimensione è:
Dim (Sλ ) =
1[s∈Sλ ] = CN−1,n−1
s∈Sn
=
N −1
n−1
=
(N − 1)!
.
(n − 1)! (N − n)!
(2.102)
Infatti, per calcolare il numero di campioni non ordinati di dimensione n che
contengono l’elemento λ, lo si elimina dalla popolazione, calcolando il numero
di campioni di dimensione n − 1 ai quali viene aggiunto con certezza l’elemento
λ.
Analogamente, per trovare il numero di campioni non ordinati di dimensione
n che contengono gli elementi λ e λ , si eliminano dalla popolazione questi due
elementi, e si calcola il numero di campioni di dimensione n − 2, ai quali si
aggiungono con certezza i due elementi:
Dim (Sλ ∩ Sλ ) =
=
1[s∈Sλ ] 1[s∈Sλ ] = CN−2,n−2
s∈Sn
N −2
n−2
=
(N − 2)!
.
(n − 2)! (N − n)!
(2.103)
Ricordando la definizione (1.78), la (2.41) e la (2.102), si ricavano le probabilità di inclusione del primo ordine:
N −1
n−1
1
= πλ =
N
N
s∈Sλ
n
n
n(n − 1)! (N − n)!
n
(N − 1)!
=
= .
(N − n)! (n − 1)!
N (N − 1)!
N
2.7.3
Appendice 3
Dimostrazione del Teorema 2.8
Daniela Cocchi: Teoria dei Campioni
(2.104)
2.7. APPENDICI
90
La probabilità di inclusione di secondo ordine nel campionamento casuale
semplice senza reintroduzione è data da:
πλλ =
n (n − 1)
N (N − 1)
∀λ, λ | λ = λ
Dimostrazione
Le probabilità di inclusione del secondo ordine possono essere ricavate dalla
definizione (1.79), dalla (2.41) e dalla (2.103):
N −2
n−2
1
= πλλ =
N
N
s∈[Sλ ∩S λ ]
n
n
(N − 2)!
n(n − 1)(n − 2)! (N − n)!
(N − n)! (n − 2)!
N (N − 1)(N − 2)!
n (n − 1)
=
.
N (N − 1)
=
Daniela Cocchi: Teoria dei Campioni
(2.105)
Capitolo 3
Campionamento a
probabilità variabile
Ultima revisione: 16 febbraio 2011
Il campionamento casuale semplice assume campioni equiprobabili e probabilità di inclusione costanti. Nel campionamento a probabilità variabile questa
ipotesi è abbandonata. Nella presentazione del campionamento a probabilità
variabile della Sezione 3.1 non si discute il modo con cui si assegnano le diverse
probabilità ai campioni o alle unità.
Se il campionamento a probabilità variabile è eseguito con reintroduzione,
per la (1.71) le probabilità delle singole unità nelle varie estrazioni rimangono
diverse e costanti. Nel caso senza reintroduzione tali probabilità sono condizionate dalla probabilità delle unità che sono state estratte precedentemente, come
è stato descritto nella (1.72).
Nella Sezione 3.2 si illustra il campionamento a probabilità variabile con
reintroduzione in cui le probabilità di estrazione dipendono da una variabile di
dimensione. La Sezione 3.3 introduce invece il campionamento a probabilità
variabile senza reintroduzione.
3.1
Campionamento a probabilità variabile con
reintroduzione di dimensione n
Per questo tipo di campionamento è fondamentale la probabilità di estrazione
(1.71) del generico elemento della popolazione, che rimane costante per tutto il
campionamento e, come si è visto nella Sezione 1.4.1, caratterizza i primi due
momenti del vettore a con la (1.87), la (1.88) e la (1.89), che sono qui riportate:
E (aλ ) = npλ
V (aλ ) = npλ (1 − pλ )
C (aλ , aλ ) = −npλ pλ
91
∀λ = λ .
3.1. P.V. CON REINTRODUZIONE
92
3.1.1
Inferenza sulla media di popolazione
Lo stimatore di Hansen-Hurwitz per la media
Lo stimatore che viene proposto per la media di popolazione (1.4) è un’ulteriore
versione dello stimatore lineare omogeneo (1.106). Il sistema di pesi assegnato
agli elementi della popolazione è:
wλ =
1
Nnpλ
1 ≤ λ ≤ N.
(3.1)
Utilizzando il sistema di pesi (3.1) nell’espressione (1.106) dello stimatore
lineare omogeneo si ottiene lo stimatore di Hansen-Hurwitz per la media di
popolazione m (η):
f(y) =
n
i=1
n
1
1 yi
yi =
= mHH (y) .
N npli
n i=1 N pli
(3.2)
dove wi = 1/(N npli ).
Si osservi come tale stimatore abbia al denominatore probabilità che non
sommano all’unità.
Si noti inoltre che nel caso del campionamento casuale semplice, poiché pλ =
1/N , si ricava il caso particolare:
mHH (y) = m (y) .
Correttezza dello stimatore di Hansen-Hurwitz per la media
Teorema 3.1
Lo stimatore di Hansen-Hurwitz per la media è uno stimatore corretto per la
media di popolazione.
Dimostrazione
Sostituendo la (3.1) nella (1.110), si ottiene:
E [mHH (y)] = E
N
λ=1
aλ wλ ηλ =
N
λ=1
N
1 =
ηλ = m (η) .
N
E [aλ ] wλ ηλ =
N
λ=1
npλ
1
ηλ
Nnpλ
λ=1
Varianza dello stimatore di Hansen-Hurwitz per la media
Teorema 3.2 La varianza dello stimatore di Hansen-Hurwitz per la media è:
N
1 ηλ2
2
V [mHH (y)] =
− m (η) .
(3.3)
n
N 2 pλ
λ=1
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
93
Dimostrazione
Sostituendo il sistema di pesi (3.1) nell’espressione della varianza del generico
stimatore lineare ed omogeneo (1.113) in cui, al posto di V (aλ ) e C (aλ , aλ ) ,
vengono introdotte le corrispondenti espressioni (1.88) e (1.89), si ottiene:
V [mHH (y)] =
N
V (aλ ) wλ2 ηλ2 + 2
=
λ=1
=
N
λ=1
C (aλ , aλ ) wλ wλ ηλ ηλ
λ=1 λ <λ
λ=1
N
N npλ (1 − pλ )
1
N npλ
1 1 − pλ 2
η −2
nN 2 pλ λ
2
N
2
ηλ − 2
N
λ=1 λ <λ
N N
npλ pλ
λ=1 λ <λ
1
1
ηλ ηλ
N npλ N npλ
1
ηλ ηλ
nN 2
N
N
1 1
1 − pλ 2
2 =
η −
ηλ ηλ
n N2
pλ λ N 2
λ=1
λ=1 λ <λ
N
N
N
N
1 2
2 1 1 ηλ2
−
η −
ηλ ηλ .
=
n N 2 λ=1 pλ N 2 λ=1 λ N 2 λ=1 λ <λ
N
I due ultimi termini sono il quadrato di una somma, si ottiene quindi:

N
2 
N
1  1 ηλ2
1
V [mHH (y)] =
−
ηλ 
n N 2 λ=1 pλ N 2 λ=1
N
1 ηλ2
2
=
− m (η) .
n
N 2 pλ
λ=1
Corollario 3.1
La varianza dello stimatore di Hansen-Hurwitz può essere espressa anche come:
2
N
1
ηλ
V [mHH (y)] =
pλ
− m (η) .
n
Npλ
λ=1
Dimostrazione
Sommando e sottraendo m (η)2 , si ottiene:
Daniela Cocchi: Teoria dei Campioni
(3.4)
3.1. P.V. CON REINTRODUZIONE
94
N 1 ηλ2
2
2
2
−
m
(η)
+
m
(η)
−
m
(η)
n
N 2 pλ
λ=1
N 1 ηλ2
2
2
+ m (η) − 2m (η)
n λ=1 N 2 pλ
N
N
N
1 ηλ2
m (η) pλ
2
=
pλ 2 2 + m (η)
pλ − 2
ηλ
n
N pλ
N
pλ
λ=1
λ=1
λ=1
N
2
ηλ
1 m (η) ηλ
2
pλ
+ m (η) − 2
=
n
N 2 p2λ
N pλ
λ=1
2
N
1
ηλ
pλ
− m (η)
.
=
n
N pλ
V [mHH (y)] =
λ=1
E’ consuetudine esprimere la varianza dello stimatore di Hansen-Hurwitz per la
media come:
1 2
v (η) ,
n p
(3.5)
2
ηλ
− m (η) .
N pλ
(3.6)
V [mHH (y)] =
dove
vp2 (η) =
N
λ=1
pλ
Questa variante risulta molto utile per il confronto con la varianza dello stimatore media campionaria nel caso di campionamento casuale semplice.
Corollario 3.0
Quando le pλ sono tutte uguali tra loro vp2 (η) = v2 (η) , allora
V [mHH (y)] = V [m (y)] =
1 2
v (η)
n
Uno stimatore distorto per il termine di varianza dello stimatore di
Hansen-Hurwitz per la media
Si consideri l’equivalente campionario di vp2 (η):
vp2 (y) =
2
n 1 yi
− mHH (y)
n i=1 N pli
(3.7)
che contiene un’importante differenza formale rispetto alla (3.6). Essa consiste
nella sostituzione del peso variabile pλ attribuito a ciascun addendo con il peso
fisso 1/n.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
95
Teorema 3.3
La (3.7) non è uno stimatore corretto della (3.6).
Dimostrazione
Lo sviluppo del quadrato della (3.7) dà luogo a:
2
n n
1
yi
n
1 yi
+ mHH (y)2 − 2mHH (y)
n i=1 N pli
n
n i=1 Npli
n
2
1
yi
=
+ mHH (y)2 − 2mHH (y)2
n i=1 N pli
2
n yi
1
− mHH (y)2 .
=
n i=1 N pli
vp2 (y) =
(3.8)
La sommatoria che compare nella (3.8) può essere espressa in funzione dei
valori di popolazione e dare luogo alla:
vp2 (y) =
2
N
aλ
ηλ
− mHH (y)2 ,
n N pλ
λ=1
funzione delle osservazioni che ha come speranza:
N
! E (aλ ) ηλ2
2
E vp2 (y) =
−
E
m
(y)
HH
n N 2 p2λ
λ=1
N
npλ ηλ2
2
=
−
E
m
(y)
HH
2
n N 2 pλ
λ=1
=
N
ηλ2
− E mHH (y)2 .
2
N pλ
(3.9)
λ=1
Ricordando che
E mHH (y)2 = E [mHH (y)]2 + V [mHH (y)] ,
si può riscrivere la (3.9) come:
E
!
vp2 (y)
N
1 2
ηλ2
2
=
− m (η) + vp (η) .
N 2 pλ
n
λ=1
Poiché la differenza tra i primi due termini al secondo membro non è altro che
vp2 (η) espressa secondo la (3.3), si ottiene:
!
1
n−1 2
E vp2 (y) = vp2 (η) − vp2 (η) =
v (η) ,
n
n p
quindi vp2 (y) non è stimatore corretto di vp2 (η).
Daniela Cocchi: Teoria dei Campioni
(3.10)
3.1. P.V. CON REINTRODUZIONE
96
Uno stimatore corretto per il termine di varianza in popolazione dello
stimatore di Hansen-Hurwitz
Nel contesto del campionamento con reintroduzione i risultati sono analoghi a
quelli visti per il campionamento casuale semplice.
Teorema 3.4
Lo stimatore corretto per vp2 (η) è
s2p (y) =
n 2
v (y) .
n−1 p
(3.11)
Dimostrazione
Utilizzando il risultato (3.10) si ottiene:
!
E s2p (y) =
!
n
E vp2 (y) = vp2 (η) .
n−1
(3.12)
Uno stimatore per la varianza dello stimatore di Hansen-Hurwitz per
la media
Per stimare la varianza (3.5) si propone pertanto la quantità:
V̂ [mHH (y)] =
vp2 (y)
1 2
n vp2 (y)
sp (y) =
=
.
n
n−1 n
n−1
(3.13)
Correttezza dello stimatore per la varianza dello stimatore di HansenHurwitz per la media
Teorema 3.5
Lo stimatore (3.13) è corretto per la quantità V [mHH (y)].
Dimostrazione
Dalle (3.5) e (3.12), la speranza di tale stimatore sarà:
1 2
1
E V̂ [mHH (y)] = E
sp (y) = vp2 (η) = V [mHH (y)] .
n
n
3.1.2
Inferenza sul totale di popolazione
Lo stimatore di Hansen-Hurwitz per il totale
In maniera del tutto analoga al caso della media, lo stimatore che viene proposto
per il totale di popolazione (1.3) è la versione dello stimatore lineare omogeneo
(1.106) con un sistema di pesi
wλ =
1
npλ
1≤λ≤N
che assicuri la correttezza per la quantità da stimare t (η).
Daniela Cocchi: Teoria dei Campioni
(3.14)
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
97
Lo stimatore di Hansen-Hurwitz per il totale di popolazione t (η) è quindi:
n
n
1
1 yi
tHH (y) =
yi =
.
npli
n i=1 pli
i=1
dove
wi =
(3.15)
1
.
npli
Teorema 3.6
Lo stimatore (3.15) è corretto per la quantità t(η).
Dimostrazione
Sostituendo la (3.14) nella (1.110), si ottiene:
N
N
N
1
E [tHH (y)] = E
aλ wλ ηλ =
E [aλ ] wλ ηλ =
npλ
ηλ
npλ
λ=1
=
N
λ=1
λ=1
ηλ = t (η) .
λ=1
Lo stimatore (3.15) si può derivare anche espandendo lo stimatore di HansenHurwitz della media (3.2) per la dimensione della popolazione N :
tHH (y) = N mHH (y) .
Nel caso del campionamento casuale semplice, poiché pλ = 1/N , si ricava il
caso particolare:
tHH (y) = tE (y) .
Varianza dello stimatore di Hansen-Hurwitz per il totale
Teorema 3.7
V [tHH (y)] =
2
N
1
ηλ
pλ
− t (η) .
n
pλ
(3.16)
λ=1
Dimostrazione
Poiché tHH (y) è una semplice trasformazione lineare di mHH (y), i risultati
teorici riguardanti lo stimatore del totale sono gli stessi dello stimatore della
media a meno di una costante:
2
N
ηλ
N2 2
21
V [tHH (y)] = N V [mHH (y)] =
v (η) = N
pλ
− m (η)
n p
n
Npλ
λ=1
2
N
1
ηλ
=
pλ
− t (η) .
n
pλ
2
λ=1
Daniela Cocchi: Teoria dei Campioni
3.1. P.V. CON REINTRODUZIONE
98
Si noti che la (3.6) può essere scritta anche come:
vp2 (η) =
2
N
1 ηλ
p
−
t
(η)
.
λ
N2
pλ
(3.17)
λ=1
Uno stimatore corretto per la varianza dello stimatore di HansenHurwitz per il totale
Uno stimatore corretto della (3.16) può essere costruito a partire dallo stimatore
distorto:
vp2 (y) =
2
2
n n 1 1 yi
1 1 yi
−
t
(y)
=
−
N
m
(y)
, (3.18)
HH
HH
n N 2 i=1 pli
n N 2 i=1 pli
il cui valore è identico a quello della (3.7), ottenendo infine:
N2 2
V, [tHH (y)] =
s (y)
n p
(3.19)
che è funzione della (3.11).
Poiché la varianza (3.16) dello stimatore del totale può essere espressa come
funzione di vp2 (η), si può ragionare partendo dall’espressione dello stimatore per
la media e trasformare direttamente il risultato (3.13), che riguarda la stima
della varianza dello stimatore della media, ricavando la (3.19).
3.1.3
Confronto di efficienza tra campionamento casuale semplice
e campionamento a probabilità variabile
Teorema 3.8 La strategia costituita da campionamento a probabilità variabile con reintroduzione e stimatore per la media di Hansen-Hurwitz è preferibile a quella costituita da campionamento casuale semplice (con reintroduzione)
e media campionaria se si verifica la condizione
vp2 (η) < v2 (η) .
(3.20)
oppure equivalentemente se
N
N
ηλ2
ηλ2
<
.
N 2 pλ
N
λ=1
(3.21)
λ=1
Dimostrazione
Abbiamo che
Π (CP V CR, mHH (y) /CCSCR, m (y)) =
V (m(y))
V (mHH (y))
in quanto entrambi gli stimatori sono corretti. Raccogliendo a fattor comume
1/n nella (3.5) e nella (2.15) abbiamo che lo stimatore di Hansen-Hurwitz è più
preciso se si verifica la condizione vp2 (η) < v2 (η).
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
99
Inoltre scrivendo la varianza dello stimatore di Hansen-Hurwitz secondo la
(3.3) e la varianza (2.15) come:


N
2
ηλ

v 2 (η)
1
 λ=1

V [m (y)] =
= 
− m (η)2  .
(3.22)
n
n N

otteniamo che V (mHH (y)) < V (m(y)) se e solo se
N
N
ηλ2
ηλ2
<
N 2 pλ
N
λ=1
λ=1
Si noti che il risultato del Teorema non dipende dalla dimensione campionaria, ma dalla relazione delle probabilità di estrazione con i valori della variabile
oggetto di studio.
Teorema 3.9
Se nel campionamento a probabilità variabile con reintroduzione si definiscono
le probabilità di estrazione in modo che siano proporzionali al valore assoluto
del carattere oggetto di interesse:
pλ =
|ηλ |
N m (|η|)
∀λ.
(3.23)
allora si minimizza la varianza degli stimatori di Hansen-Hurwitz per media e
totale di popolazione.
La dimostrazione è nell’Appendice 1.
Il Teorema afferma che le probabilità di estrazione ottime sono direttamente
proporzionali al carattere oggetto di indagine in popolazione. Tanto maggiore
è l’ammontare del carattere in un’unità, tanto più grande dovrebbe essere la
probabilità dell’unità di essere campionata per minimizzare la varianza dello
stimatore di Hansen-Hurwitz.
Corollario 3.2 Se ηλ ≥ 0 e le probabilità di estrazione sono definite in base
alla (3.23) abbiamo che
mHH (y) = m (η) e
tHH (y) = t (η) ∀s ∈ S
ovvero, equivalentemente
V (mHH (y)) = V (tHH (y)) = 0
Dimostrazione
Dalle formule (3.1) e (3.2) abbiamo che
n
mHH (y) =
1 yi
n i=1 Npli
Daniela Cocchi: Teoria dei Campioni
100
3.1. P.V. CON REINTRODUZIONE
Se ηλ ≥ 0 la (3.23) può essere riscritta come
ηλ
pλ =
N m (η)
Sostistuendo queste probabilità di estrazione nell’espressione dello stimatore
otteniamo
n
n
1 Nm (η) yi
m (η) yi
mHH (y) =
=
= m (η)
n i=1 N ηli
n i=1 yi
Poiché tHH (y) = N mHH (y) , segue che per qualunque campione
tHH (y) = N m (η) = t (η)
Sostituendo le probabilità di estrazione ottimali nella formula della varianza
(3.3) si ottiene
N
N
1 ηλ2 N m (η)
1 ηλ m (η)
2
2
V [mHH (y)] =
− m (η) =
− m (η)
n
N 2 ηλ
n
N
λ=1
λ=1
N
1 m (η)
1 m (η) 2
2
=
ηλ − m (η) =
N m (η) − m (η)
n
N λ=1
n
N
1
=
m (η)2 − m (η)2 = 0
n
Poichè V (tHH (y)) = N 2 V (mHH (y)) ne segue che anche V (tHH (y)) sarà
in questo caso uguale a 0.
I risultati ottenuti non hanno valenza pratica, perché la variabile oggetto
di interesse non è nota al momento del campionamento, ma sono interessanti
dal punto di vista concettuale. Per caratteri positivi, infatti, la varianza dello
stimatore della media può scendere fino a 0, qualora riuscissimo ad assegnare
probabilità di estrazione esattamente proporzionali a ηλ . Tuttavia possiamo
notare che, se si riuscisse ad approssimare questa assegnazione nella pratica,
si disporrebbe di stimatori estremamente efficienti. Un metodo per assegnare
probabilità di estrazione approssimativamente proporzionali a ηλ basato sulla
definizione delle pλ come proporzionali ad una variabile ausialiaria ζ, nota in
popolazione è descritto dettagliatamente nella Sezione 3.2.
Esempio 3.1 Stimatore di Hansen-Hurwitz per il totale della popolazione per diverse numerosità campionarie Data la popolazione di N =
4 elementi già studiata nei capitoli precedenti, si estraggono con reintroduzione
tutti i possibili campioni non ordinati, con probabilità variabile corrispondente
ai pesi già introdotti nel Capitolo 1 e riportati nella terza colonna del prospetto
seguente, che contiene anche tutte le quantità utili per i calcoli:
λ
ηλ pλ ηλ2 ηλ /pλ [ηλ /pλ − t (η)]2 pλ [ηλ /pλ − t (η)]2 ηλ2 /pλ
1
3 0.1
9
30
36
3.6
90
2
10 0.4 100
25
1
0.4
250
3
4 0.2 16
20
16
3.2
80
4
7 0.3 49
23.3̄
0.444
0.13
163, 3̄
Totale 24 1 174 98.3̄
53.444
7.333
583, 3̄3̄
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
101
Le principali quantità descrittive della popolazione sono:
t (η) = 24
m (η) = 6
2
v (η) = 43.5 − 36 = 7.5
e la componente (3.17) della varianza dello stimatore di Hansen-Hurwitz è
vp2 (η) =
1 pλ [ηλ /pλ − t (η)]2 = 7.333/16 = 0.458.
N2
λ
Le probabilità di estrazione sono state determinate in modo da soddisfare la
(3.21):
N
N
ηλ2
ηλ2
<
,
N 2 pλ
N
λ=1
infatti
583, 3̄3̄
174
<
16
4
λ=1
cioé
36, 46 < 43, 5.
Campioni di dimensione n = 1 L’universo dei campioni origina quattro
possibili stime del totale di popolazione secondo la
n
1
y1
tHH (y) =
yi =
np
p
li
l1
i=1
che coincidono con i valori della colonna ηλ /pλ .
La proprietà di correttezza dello stimatore del totale viene verificata utilizzando l’universo dei campioni, calcolando la speranza dello stimatore dalle
stime campionarie pesate con le probabilità dei campioni, che in questo caso
coincidono con le pλ :
E [tHH (y)] =
tHH (y) p (s)
s∈S
= 30 · 0.1 + 25 · 0.4 + 20 · 0.2 + 23.3̄ · 0.3
= 24 = t (η)
Analogamente si ricava la varianza dello stimatore del totale
V [tHH (y)] =
s∈S
[tHH (y) − t(η)]2 p (s)
2
= (30 − 24)2 0.1 + (25 − 24)2 0.4 + (20 − 24)2 0.2 + (23.3̄ − 24) 0.3
= 7.333.
Lo stesso valore poteva essere ricavato utilizzando la (3.16):
Daniela Cocchi: Teoria dei Campioni
3.1. P.V. CON REINTRODUZIONE
102
V [tHH (y)] =
2
1
ηλ
pλ
− t(η) =
n
pλ
λ
= 3.6 + 0.4 + 3.2 + 0.13 = 7.333
Campioni di dimensione n = 2 L’universo dei campioni dà luogo, come
nell’Esempio 1.3, a C4+2−1,2 = C5,2 = 10 campioni non ordinati.
I 10 valori distinti dello stimatore sono mostrati nel prospetto seguente, dove
le probabilità dei campioni, già calcolate nell’Esempio 1.3, sono riportate nella
quinta colonna:
s = λ = li , λ = li
ηli / (npli ) ηli / npli
tHH (y) p(s)
{1, 1}
15
15
30
0.01
{1, 2}
15
12.5
27.5
0.08
{1, 3}
15
10
25
0.04
{1, 4}
15
11.67
26.67
0.06
{2, 2}
12.5
12.5
25
0.16
{2, 3}
12.5
10
22.5
0.16
{2, 4}
12.5
11.67
24.17
0.24
{3, 3}
10
10
20
0.04
{3, 4}
10
11.67
21.67
0.12
{4, 4}
11.67
11.67
23.34
0.09
La proprietà di correttezza dello stimatore del totale può essere verificata
utilizzando l’universo dei campioni, calcolando la speranza dello stimatore a
partire dalle stime ponderate con la probabilità dei campioni:
E [tHH (y)] =
tHH (y) p (s)
s∈S
= 30 · 0.01 + 27.5 · 0.08 + ... + 21.67 · 0.12 + 23.34 · 0.09
= 24 = t (η) .
Sempre dall’universo dei campioni, la varianza dello stimatore del totale è:
V [tHH (y)] =
s∈S
[tHH (y) − t(η)]2 p (s)
= (30 − 24)2 0.01 + (27.5 − 24)2 0.08 + ...
+ (21.67 − 24)2 0.12 + (23.34 − 24)2 0.09
= 3.6.
Lo stesso valore può essere ricavato dalla (3.16):
V [tHH (y)] = N 2
vp2 (η)
7.3
=
= 3.6.
n
2
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
3.2
103
Campionamento a probabilità variabile con
reintroduzione e probabilità di estrazione legata ad una variabile ausiliaria di dimensione
Come è stato accennato in precedenza, spesso le probabilità di estrazione delle
unità dipendono dalla conoscenza di variabili ausiliarie. Se si considera una
variabile ausiliaria ζ, nota per ogni elemento della popolazione, che si suppone
legata alla variabile indagata η secondo l’idea del Teorema 3.9, le probabilità di
estrazione approssimano la (3.49) nel modo seguente:
pλ =
ζλ
ζλ
=
t (ζ)
N m (ζ)
λ = 1,...,N .
(3.24)
Le variabili ausiliarie che danno un’idea dell’importanza relativa, o dimensione,
dei diversi elementi nell’ambito della popolazione sono particolarmente adatte
per determinare le probabilità (3.24). Tali valori di probabilità soddisfano la
relazione (1.69):
N
λ=1
N
pλ =
t(ζ)
1
ζλ =
= 1.
N m(ζ)
N m(ζ)
λ=1
Per estrarre un elemento generico del campione si sceglierà, quindi, un numero compreso tra 1 e t (ζ) e non più tra 1 e N, in quanto si campiona tramite
la variabile ausiliaria. Agli elementi della popolazione selezionati nel campione
sono associati i pesi campionari:
pli =
ζli
zi
=
.
t (ζ)
t (ζ)
(3.25)
Alcuni teoremi che mostrano le modifiche dello stimatore di Hansen-Hurwitz
in funzione della variabile oggetto di studio e della variabile ausiliaria, quando
questa fa variare le probabilità di estrazione, sono riportati nell’Appendice 2.
Esempio 3.2 Le probabilità di estrazione nel campionamento a probabilità variabile
Le probabilità di estrazione variabili proposte negli esempi del Capitolo 1 ed
associate ai valori della variabile oggetto d’interesse nell’Esempio 3.1 risultano
assegnate in modo da rispettare il profilo dell’incidenza del valore individuale
della variabile η sul totale.
Per rendere più veritiero l’esempio, supponiamo di disporre della variabile
ausiliaria ζ = {1, 4, 2, 3}. Se consideriamo le probabilità di estrazione delle unità
proporzionali al valore della variabile ausiliaria ζ secondo la relazione (3.24),
otteniamo i pesi più volte proposti nei capitoli precedenti:
p = {0.1, 0.4, 0.2, 0.3} .
Questi pesi sono abbastanza simili ai pesi relativi della variabile di interesse η :
Daniela Cocchi: Teoria dei Campioni
3.2. P.V. CON V.A. DIMENSIONALE
104
λ ηλ
1 3
2 10
3 4
4 7
ηλ
t(η)
0.125
0.416
0.167
0.292
e si mostrano molto adeguati per la proposta della strategia costituita dal
campionamento a probabilità variabile, in questo caso con reintroduzione, e dallo
stimatore di Hansen-Hurwitz. In questo caso si ottiene infatti uno stimatore con
varianza teorica molto inferiore a quella dello stimatore di espansione nel caso
di campionamento casuale semplice dell’Esempio 2.3, che risultava pari a:
V [tE (y)] = N 2
3.2.1
v2 (η)
7.5
= 16
= 16 (3.75) = 60.
n
2
Confronto di efficienza nel caso di campionamento casuale
semplice e campionamento a probabilità variabile con reintroduzione
Teorema 3.12
Il campionamento a probabilità variabile è preferibile a quello casuale semplice
(caso con reintroduzione) se si verifica la condizione:
2 1 2
η
1
v (η) − v
,ζ
< v2 (η) ,
(3.26)
n
ζ
n
ovvero quando
2 η
v
, ζ > 0.
ζ
La dimostrazione" è svolta
# nell’Appendice 3.
η2
La condizione v ζ , ζ > 0 non è tuttavia facile da verificare in pratica e
non viene quindi solitamente usata per scegliere tra il campionamento a probabilità variabile con reintroduzione e il campionamento casuale semplice con
reintroduzione.
Corollario 3.3
Il campionamento a probabilità variabile è preferibile a quello casuale semplice
(caso con reintroduzione) se si verifica la condizione:
2
2
η
m η >m
m (ζ) .
(3.27)
ζ
Dimostrazione
Poiché
v
η2
,ζ
ζ
=m
η2 ζ
ζ
−m
η2
ζ
m (ζ) ,
la condizione (3.26) può anche essere scritta secondo la (3.27).
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
3.3
105
Campionamento a probabilità variabile senza reintroduzione di dimensione n
In questo tipo di campionamento sono fondamentali le probabilità di inclusione
di primo e secondo ordine (1.78) e (1.79) che, come si è visto nel Capitolo 1,
caratterizzano la distribuzione del vettore a con la (1.92), la (1.93) e la (1.94)
nel modo seguente:
E (aλ ) = πλ
V (aλ ) = πλ (1 − πλ )
C (aλ , aλ ) = πλλ − πλ πλ .
3.3.1
Probabilità di inclusione
In letteratura sono state proposte decine di piani di campionamento a probabilità variabile senza reintroduzione.
Il metodo di Yates e Grundy
Si tratta di uno dei metodi per il calcolo delle probabilità di inclusione di primo
e di secondo ordine che, a partire da pesi iniziali diversi, ossia dalle probabilità iniziali di estrazione degli elementi della popolazione, tengono conto delle
modifiche delle condizioni di estrazione durante la realizzazione del campione.
Per le numerosità campionarie n = 2 e n = 3, applicando questo metodo
per il calcolo delle probabilità di inclusione si ritrovano i risultati già ricavati
nell’Esempio 3.1, seppur organizzati in modo diverso.
Infatti, se n = 2, le probabilità di inclusione di primo ordine sono rispettivamente:
pλ pλ
πλ = pλ +
(3.28)
1 − pλ
λ =λ
La probabilità di inclusione del primo ordine è infatti costituita dalla somma
delle probabilità di due eventi. Alla prima estrazione, la probabilità del λ-mo
elemento è pλ . Alla seconda estrazione tale probabilità deve essere divisa per
1 − pλ , dove pλ è la probabilità che qualunque elemento diverso dal λ-mo
venga estratto come primo elemento. Perciò, la probabilità congiunta che il
λ-mo elemento venga estratto come secondo quando il λ -mo è stato estratto
alla prima estrazione è il prodotto di una probabilità subordinata, pλ / (1 − pλ )
per una marginale, sommata su tutti i λ e λ .
A loro volta, le probabilità di inclusione di secondo ordine sono:
1
pλ pλ
pλ pλ
1
+
=
+
.
(3.29)
πλλ = pλ pλ
1 − pλ 1 − pλ
1 − pλ 1 − pλ
Se n = 3, le probabilità d’inclusione di primo e secondo ordine sono:
pλ
pλ
pλ
πλ = pλ +
pλ
+
pλ∗
(3.30)
∗
− pλ∗
1
−
p
1
−
p
1
−
p
λ
λ
λ
∗
λ =λ
λ =λ
λ =(λ,λ )
Daniela Cocchi: Teoria dei Campioni
3.3. P.V. SENZA REINTRODUZIONE
106
πλλ


1 
1+
1 − pλ

p
1
+
∗
1
−
p
−
p
1
−
pλ
λ
λ
λ∗ =(λ ,λ)


pλ∗
+
1 +
1 − pλ − pλ∗
λ∗ =(λ ,λ)

∗
∗
∗
pλ
pλ
pλ

+
(3.31)
∗
∗
1
−
p
1
−
p
−
p
1
−
p
λ
λ
λ
λ − pλ∗
∗
= pλ pλ 
λ∗
λ =(λ ,λ)
Esempio 3.3 Probabilità di inclusione nel campionamento a probabilità variabile senza reintroduzione
Nella popolazione di N = 4 elementi più volte studiata, si estraggono senza
reintroduzione campioni di n = 2 elementi.
I pesi iniziali degli elementi della popolazione sono calcolati, sulla base di
una variabile ausiliaria nota, secondo la relazione (3.24), dando luogo a:
p = {0.1, 0.4, 0.2, 0.3} .
Le probabilità d’inclusione che tengono conto di tali pesi sono già state
calcolate nel corso dell’Esempio 1.3 applicando le definizioni di probabilità d’inclusione di primo e secondo ordine (1.78) e (1.79), ma possono essere ricavate
applicando la (3.28):
p1 pλ
1 − pλ
1
=λ
p1 p2
p1 p3
p1 p4
= p1 +
+
+
1 − p2 1 − p3 1 − p4
(0.1)(0.4) (0.1)(0.2) (0.1)(0.3)
+
+
= 0.1 +
0.6
0.8
0.7
= 0.1 + 0.066 + 0.025 + 0.043 = 0.234
π1
= p1 +
π2
= p2 +
p2 pλ
1 − pλ
2
=λ
p2 p1
p2 p3
p2 p4
= p2 +
+
+
1 − p1 1 − p3 1 − p4
(0.4)(0.1) (0.4)(0.2) (0.4)(0.3)
= 0.4 +
+
+
0.9
0.8
0.7
= 0.4 + 0.044 + 0.1 + 0.171 = 0.715
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
π3
π4
107
p3 pλ
1 − pλ
3
=λ
p3 p1
p3 p2
p3 p4
= p3 +
+
+
1 − p1 1 − p2 1 − p4
(0.2)(0.1) (0.2)(0.4) (0.2)(0.3)
+
+
= 0.2 +
0.9
0.6
0.7
= 0.2 + 0.22 + 0.133 + 0.086 = 0.441
= p3 +
p4 pλ
1 − pλ
4
=λ
p4 p2
p4 p3
p4 p1
+
+
= p4 +
1 − p1 1 − p2 1 − p3
(0.3)(0.1) (0.3)(0.4) (0.3)(0.2)
= 0.3 +
+
+
0.9
0.6
0.8
= 0.3 + 0.03̄ + 0.2 + 0.075 = 0.608
= p4 +
Le probabilità d’inclusione di secondo ordine (3.29) coincidono con le probabilità dei campioni di dimensione n = 2 estratti senza reintroduzione e non
ordinati dell’universo (1.75), già calcolate nell’Esempio 1.3.
Metodi legati alla conoscenza di una variable ausiliaria
Diversi metodi per la determinazione delle probabilità di primo e secondo ordine
sono legati alla conoscenza di una variabile ausiliaria.
Si tratta dei cosiddetti metodi πps in cui la probabilità di inclusione è proporzionale alla dimensione. Se si dispone di una variabile ausiliaria, che assume
solo valori positivi, le probabilità di inclusione possono essere assegnate come:
ζλ
πλ = n N
λ=1 ζλ
= npλ
Anche nel campionamento senza reintroduzione la precisione dello stimatore
aumenta al crescere della proporzionalità tra la variabile su cui si fa inferenza e
la variabile ausiliaria.
Il metodo di Sampford
Per selezionare un campione a probabilità variabile senza reintroduzione con
probabilità proporzionale alla dimensione di una variabile ausiliaria:
a) si effettua la prima selezione con probabilità pλ e tutte le successive (con
reintroduzione) con probabilità proporzionale a:
pλ =
πλ
,
1 − πλ
N
pλ = 1.
λ=1
Se tutte le selezioni portano a unità diverse, si accetta il campione, altrimenti
si rifiuta l’intero campione non appena un elemento compare due volte e si ripete
l’intera procedura fino a che sono selezionate n unità distinte.
Daniela Cocchi: Teoria dei Campioni
3.3. P.V. SENZA REINTRODUZIONE
108
Si tratta di un metodo secondo il quale non tutti i campioni sono accettati
e può essere molto lungo da implementare.
Le probabilità di inclusione di secondo ordine entrano, come si è potuto
notare nel Capitolo 1, nella varianza degli stimatori. Sovente le varianza vengono stimate sulla base di approssimazioni di tali probabilità sulla base delle
probabilità di inclusione di primo ordine.
3.3.2
Gli stimatori di Horvitz-Thompson per la media e per il totale
Lo stimatore che viene proposto per la media di popolazione (1.4) è la versione
dello stimatore lineare omogeneo (1.106) con un sistema di pesi
wλ =
1
N πλ
1≤λ≤N
(3.32)
che assicuri la correttezza per la quantità da stimare m (η).
Utilizzando il corrispondente campionario
wi =
1
,
N πi
dove πi = πli , nella (1.106), si ottengono gli stimatori di Horvitz-Thompson
per la media e per il totale di popolazione:
mHT (y) =
n
n
1 yi
1 yi
=
,
N πi
N i=1 πi
i=1
tHT (y) =
n
yi
.
π
i=1 i
(3.33)
(3.34)
I pesi dello stimatore di Horvitz-Thompson per il totale, visti come pesi di
uno stimatore lineare omogeneo sono
wλ =
1
πλ
1 ≤ λ ≤ N.
Nel caso del campionamento casuale semplice senza reintroduzione si ottiene
πλ = n/N , da cui si ricavano i casi particolari:
mHT (y) = m (y)
tHT (y) = tE (y) .
Correttezza degli stimatori di Horvitz-Thompson
Teorema 3.13
Lo stimatore di Horvitz-Thompson per la media è uno stimatore corretto per
m (η).
Dimostrazione
Sostituendo la (3.32) nella (1.110) si ottiene:
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
E [mHT (y)] = E
N
λ=1
aλ wλ ηλ =
N
E (aλ ) wλ ηλ =
λ=1
N
1 ηλ = m (η) .
=
N
N
λ=1
πλ
109
1
ηλ
Nπλ
λ=1
La dimostrazione della correttezza dello stimatore di Horvitz-Thompson per
il totale è immediata.
Varianza degli stimatori di Horvitz-Thompson
Teorema 3.14
La varianza dello stimatore di Horvitz-Thompson per la media è:
V [mHT (y)] =
N
1 1 − πλ 2
η
N2
πλ λ
λ=1
N
1 πλλ
+ 2
− 1 ηλ ηλ
N
πλ πλ
(3.35)
λ=1 λ =λ
=
2
N
N
ηλ
ηλ
1 (πλ πλ − πλλ )
−
.
2N 2
πλ πλ
(3.36)
λ=1 λ =1
Per la varianza (3.35), tutte le probabilità d’inclusione del primo ordine
debbono essere strettamente positive. Per determinare la (3.35), la dimensione
campionaria non deve necessariamente essere fissa. (Il primo risultato deriva
dal calcolo diretto della varianze di uno stimatore lienare omogeneo).
Dimostrazione
a) Calcoli per l’espressione (3.35)
Sostituendo il sistema di pesi (3.32) nell’espressione della varianza del generico stimatore lineare ed omogeneo (1.113) e al posto di V (aλ ) e C (aλ , aλ ) le
corrispondenti espressioni (1.93) e (1.94), si ottiene la (3.35):
V [mHT (y)] =
N N
C (aλ , aλ ) wλ wλ ηλ ηλ
λ=1 λ =1
=
N
V (aλ ) wλ2 ηλ2 +
C (aλ , aλ ) wλ wλ ηλ ηλ
λ=1 λ =λ
λ=1
=
N N
N
1 ηλ ηλ
1 2 1 2
(π
−
π
)
η
+
(πλλ − πλ πλ )
λ
λ
λ
2
2
2
N
πλ
N
πλ πλ
λ=1
=
1
N2
N
(1 − πλ ) 2
1
ηλ + 2
π
N
λ
λ=1
λ=1 λ =λ
πλλ
− 1 ηλ ηλ .
πλ πλ
λ=1 λ =λ
N
Daniela Cocchi: Teoria dei Campioni
3.3. P.V. SENZA REINTRODUZIONE
110
b) Calcoli per l’espressione (3.36). partendo dall’espressione più compatta
della varianza di uno stimatore lineare omogeneo.
V [mHT (y)] =
N N
C(aλ , aλ )wλ wλ ηλ ηλ
λ=1 λ =1
=
N N
λ=1 λ =1
=
(πλλ − πλ πλ )
ηλ ηλ
πλ πλ N 2
N
N
1 ηλ ηλ
(πλλ − πλ πλ ) .
N2
πλ πλ
(3.37)
λ=1 λ =1
La quantità (3.37) può essere espressa in funzione del quadrato delle differenze:
ηλ
ηλ
−
,
πλ πλ
invece che dei prodotti:
ηλ ηλ
.
πλ πλ
Infatti, sviluppando il quadrato delle differenze; si ottiene:
2
N
N
1 ηλ
ηλ
(π
−
π
π
)
−
λλ
λ λ
N2
πλ πλ
λ=1 λ =1
=
N
N
N
N
1 ηλ2 1 ηλ2 (π
−
π
π
)
+
(πλλ − πλ πλ )
λλ
λ λ
N2
πλ2 N 2 πλ2
λ=1
−
2
N2
λ =1
N N
λ=1 λ =1
λ =1
(πλλ − πλ πλ )
λ=1
ηλ ηλ
,
πλ πλ
in cui, per la (1.102), valida nel caso di ampiezza campionaria fissa, si ha
N
λ =1
(πλ πλ − πλλ ) = 0,
i primi due termini si annullano e resta solo il doppio prodotto. Tale quantità,
a meno della moltiplicazione per la costante −2 è uguale alla (3.37), e quindi:
V [mHT (y)] =
2
N
N
1 ηλ
ηλ
(π
π
−
π
)
−
.
λ λ
λλ
2N 2
πλ πλ
λ=1 λ =1
I seguenti risultati mettono in evidenza semplificazioni utili per i calcoli.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
111
Corollario 3.4
La (3.35) può anche essere scritta come:
V [mHT
N
N
1 1 − πλ 2
2 πλλ
(y)] = 2
η +
− 1 ηλ ηλ
N
πλ λ N 2
πλ πλ
λ=1
(3.38)
λ=1 λ <λ
e la (3.36) come:
V [mHT
2
N
1 ηλ
ηλ
(y)] = 2
(πλλ − πλ πλ )
−
.
N
πλ πλ
(3.39)
λ=1 λ <λ
Teorema 3.15
La varianza dello stimatore di Horvitz-Thompson per il totale è:
V [tHT (y)] =
N
1 − πλ
λ=1
=
πλ
ηλ2 +
N πλλ
− 1 ηλ ηλ
πλ πλ
(3.40)
λ=1 λ =λ
2
N
N
1
ηλ
ηλ
(πλ πλ − πλλ )
−
.
2
πλ πλ
(3.41)
λ=1 λ =1
Sfruttando la relazione tra totale e media, partendo direttamente dalle (3.35)
e (3.36), la dimostrazione è immediata.
I seguenti risultati mettono in evidenza semplificazioni utili per i calcoli.
Corollario 3.5
La (3.40) può anche essere scritta come:
V [tHT (y)] =
N
1 − πλ
πλ
λ=1
ηλ2 + 2
N πλλ
− 1 ηλ ηλ
πλ πλ
(3.42)
λ=1 λ <λ
e la (3.41) come:
V [tHT (y)] =
N (π
λλ
λ=1 λ <λ
− πλ π )
λ
ηλ
ηλ
−
πλ πλ
2
.
(3.43)
Nota: Per evitare che i risultati del campionamento a probabilità variabile
con reintroduzione abbiano varianza inferiore ai risultati del campionamento
senza reintroduzione, deve valere la relazione:
πλλ
n−1
>
πλ πλ
n
∀(λ, λ ).
Daniela Cocchi: Teoria dei Campioni
(3.44)
3.3. P.V. SENZA REINTRODUZIONE
112
Uno stimatore corretto per la varianza degli stimatori di HorvitzThompson
Teorema 3.16
La (3.35) è stimata correttamente dall’espressione:
n
n
1 1 − πi 2
1 1
1
V, [mHT (y)] = 2
y
+
−
yi yi
N i=1 πi2 i
N 2 i=1 πi πi
πii
(3.45)
i =i
Dimostrazione
Dalla (1.93), segue che E(aλ ) = πλ . Applicando l’operatore speranza allo
stimatore (3.45), si ottiene:
E V, [mHT (y)] =
N
!
1 1 − πλ 2
ηλ E a2λ
2
2
N
πλ
λ=1
N
1
1
1 −
ηλ ηλ E [aλ aλ ]
+ 2
N
πλ πλ
πλλ
λ=1 λ =λ
1
N2
=
1
N2
=
N
λ=1
N
λ=1
N
1 − πλ 2
1 1
1
η
π
+
−
ηλ ηλ πλλ
λ λ
πλ2
N2
πλ πλ
πλλ
λ=1 λ =λ
1 − πλ 2
1
η +
πλ λ N 2
N
πλλ
− 1 ηλ ηλ .
πλ πλ
λ=1 λ =λ
Si noti che per poter effettuare la stima, deve essere πii > 0 ∀i, i .
Analogamente la varianza (3.41) è stimata correttamente da:
V, [tHT (y)] =
n
1 − πi
i=1
πi2
yi2
n 1
1
+
−
yi yi .
π
π
π
i
i
ii
i=1
(3.46)
i =i
Il seguente risultato è dato senza dimostrazione.
Teorema 3.17
La (3.36) è stimata correttamente da
2
n
n 1 πi πi − πii
yi
yi
V, [mHT (y)] =
−
.
2N 2 i=1 πii
πi πi
(3.47)
i =1
Per garantire la positività delle stime, deve essere soddisfatta la relazione
πi πi − πii > 0
∀i, i
i = i .
Analogamente la (3.41) è stimata correttamente da
n
n
1 V, [tHT (y)] =
2 i=1 i =1
πi πi − πii
πii
yi
yi
−
πi πi
In analogia ai Corollari 3.4 e 3.5 si enuncia l’analogo:
Daniela Cocchi: Teoria dei Campioni
2
.
(3.48)
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
113
Corollario 3.6
Le espressioni (3.45), (3.46), (3.47), (3.48) possono essere semplificate rispettivamente nelle:
n
n
1 1 − πi 2
2 1
1
V, [mHT (y)] = 2
y
+
−
yi yi
N i=1 πi2 i
N 2 i=1 πi πi
πii
i <i
V, [tHT (y)] =
n
1 − πi
i=1
πi2
1
V, [mHT (y)] = 2
N
V, [tHT (y)] =
yi2
n 1
1
+2
−
yi yi
πi πi
πii
i=1 i <i
n i=1 i <i
πi πi − πii
πii
yi
yi
−
πi πi
2
2
n πi πi − πii
yi
yi
−
.
πii
πi πi
i=1 i <i
Esempio 3.4 Valore atteso e varianza dello stimatore tHT
Si consideri la popolazione di N = 4 elementi degli Esempi 3.1 e 3.2. Se si
estraggono senza reintroduzione tutti i campioni non ordinati di dimensione
n = 2, le probabilità di inclusione di primo e secondo ordine sono quelle calcolate
nell’Esempio 3.2 e nell’Esempio 1.3.
λ η
pλ πλ (n = 2)
1 3
0.1 0.2345
2 10 0.4 0.7159
3 4
0.2 0.4413
4 7
0.3 0.6083
La proprietà di correttezza dello stimatore di Horvitz-Thompson del totale
viene verificata utilizzando l’universo dei campioni e calcolando la speranza
dello stimatore a partire dalle stime campionarie, pesate con le probabilità dei
campioni già calcolate nell’Esempio 1.3:
E[tHT (y)] =
tHT (y)p(s)
s∈S
Campioni
{1, 2}
{1, 3}
{1, 4}
{2, 3}
{2, 4}
{3, 4}
Totale
p(s)
0.111
0.047
0.076
0.233
0.371
0.161
1
ηλ
πλ
12.7919
12.7919
12.7919
13.9689
13.9689
9.0647
ηλ
πλ
13.9689
9.0647
11.5068
9.0647
11.5068
11.5068
tHT (y)
26.7608
21.8566
24.2987
23.0337
25.4758
20.5716
tHT (y)p(s)
2.973
1.032
1.851
5.375
9.462
3.306
24= t(η)
Daniela Cocchi: Teoria dei Campioni
3.3. P.V. SENZA REINTRODUZIONE
114
La varianza dello stimatore del totale può essere calcolata secondo la (3.42).
N
1−πλ 2
Il calcolo della quantità
πλ ηλ è riassunto nella tabella seguente:
λ=1
λ
1
2
3
4
Totale
ηλ
3
10
4
7
πλ
0.2345
0.7159
0.4413
0.6083
1−πλ
πλ
3.2640
0.3969
1.2662
0.6438
Per il calcolo della quantità
N
λ
η2 1−π
πλ
29.3756
39.6896
20.2590
31.5479
120.8722
"
λ=1 λ <λ
alle coppie non ordinate:
πλλ
πλ
{1, 2} 0.111 0.2345
{1, 3} 0.047 0.2345
{1, 4} 0.076 0.2345
{2, 3} 0.233 0.7159
{2, 4} 0.371 0.7159
{3, 4} 0.161 0.4413
Totale
πλ
0.7159
0.4413
0.6083
0.4413
0.6083
0.6083
πλλ
πλ πλ
#
− 1 ηλ ηλ si può fare riferimento
πλλ
πλ πλ
−1
-0.3382
-0.5467
-0.4660
-0.2613
-0.1471
-0.4013
ηλ
3
3
3
10
10
4
ηλ
10
4
7
4
7
7
( ππλλλ
πλ − 1)ηλ ηλ
-10.1556
-6.5246
-9.7852
-10.4541
-10.2971
-11.2364
-58.4428
Pertanto:
V [tHT (y)] = 120.8722 + 2 (−58.4428) = 3.9865.
Poichè il piano di campionamento utilizzato è a dimensione fissa, la varianza
dello stimatore del totale può essere calcolata più agevolmente utilizzando la
(3.43).
#2
"
(πλ πλ − πλλ ) ·
ηλ
ηλ
"
#2
−
πλ πλ − πλλ ηλ /πλ
ηλ /πλ
ηλ
ηλ
πλ
πλ
πλ − πλ
{1, 2} 0.0568
12.7919 13.9689 1.3855
0.0787
{1, 3} 0.0562
12.7919 9.0647
13.8915
0.7816
{1, 4} 0.0665
12.7919 11.5068 1.6513
0.1098
{2, 3} 0.0826
13.9689 9.0647
24.0513
1.9857
{2, 4} 0.0641
13.9689 11.5068 6.0620
0.3884
{3, 4} 0.1077
9.0647
11.5068 5.9639
0.6425
Totale
3.9865
Alternativamente, la varianza può essere ricavata utilizzando l’universo dei
campioni e calcolando la speranza E [tHT (y) − tHT (η)]2 :
{1, 2}
{1, 3}
{1, 4}
{2, 3}
{2, 4}
{3, 4}
Totale
tHT (y)
26.7608
21.8566
24.2987
23.0337
25.4758
20.5716
[tHT (y) − tHT (η)]2
7.6222
4.5941
0.0892
0.9337
2.1780
11.7539
p(s)
0.111
0.472
0.076
0.233
0.371
0.161
1
[tHT (y) − tHT (η)]2 p(s)
0.8469
0.2169
0.0068
0.2179
0.8090
1.8890
3.9865
Si noti che la varianza di Horvitz-Thompson del totale, ottenuta con un campionamento senza reintroduzione, risulta superiore a quella dello stimatore di
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
115
Hansen-Hurwitz, ottenuta con un campionamento con reintroduzione, calcolata
nell’esempio 3.1 e pari a 3.6̄. Infatti non risulta verificata la relazione (3.44), in
quanto:
π12 /π1 π2 = 0.6612 > (n − 1)/n = 0.5
π13 /π1 π3 = 0.4542 < (n − 1)/n = 0.5
π14 /π1 π4 = 0.5328 > (n − 1)/n = 0.5
π23 /π2 π3 = 0.7375 > (n − 1)/n = 0.5
π24 /π2 π4 = 0.8519 > (n − 1)/n = 0.5
π34 /π3 π4 = 0.5998 > (n − 1)/n = 0.5.
In questo esempio, in cui la dimensione dei campioni è 2, le probabilità dei
campioni, p(s), sono uguali alle probabilità di inclusione di secondo ordine πλλ .
3.4
Sintesi degli argomenti del campionamento
a probabilità variabile
La strategia che considera il campionamento a probabilità variabile costriusce
lo stimatore assegnando coefficienti di riporto diversi agli elementi di una popolazione, predisponendo in anticipo ciascuno di essi.
La teoria propone stimatori corretti per la media e per il totale assegnando a ciascun valore di popolazione un peso che garantisca la correttezza dello
stimatore lineare omogeneo. A ogni elemento all’universo dei campioni viene
assegnato un peso diverso.
Per ogni strategia di campionamento, per ogni stimatore proposto, ci sono
almeno 5 teoremi
I. Calcolo della speranza per saggiare la correttezza
II. Calcolo della varianza
III. Proposta di stimare il parametro di popolazione che entra nella varianza
con il suo equivalente campionario e calcolo della sua speranza per saggiarne la
correttezza (la proprietà non è mai verificata)
IV. Aggiustamento della statistica del punto precedente in modo da renderla
corretta
V. Stimatore corretto della varianza
Nel campionamento a probabilità variabile i teoremi per la stima della media
aritmetica sono:
Con reintroduzione:
Senza reintroduzione:
Stimatore di Hansen Hurwitz
Stimatore di Horwitz Thompson
Sezione 3.1.1
Sezione 3.3.2
I
Teorema 3.1
Teorema 3.13
II
Teorema 3.2
Teorema 3.14
III
Teorema 3.3
no
IV
Teorema 3.4
no
V
Formula (3.13)
Teorema 3.16, Teorema 3.17
Per il totale
Daniela Cocchi: Teoria dei Campioni
3.4. SINTESI
116
Con reintroduzione:
Senza reintroduzione:
Stimatore di Hansen Hurwitz
Stimatore di Horwitz Thompson
Sezione 3.1.1
Sezione 3.3.2
I
Teorema 3.6
Dal Teorema 3.13
II
Teorema 3.7
Teorema 3.15
III
Dal Teorema 3.3
no
IV
Dal Teorema 3.4
no
V
Formula (3.19)
Formula (3.46)
Nel campionamento a probabilità variabile con reintroduzione, per l’inferenza sulla media di popolazione, lo stimatore lineare omogeneo per la media (stimatore di Hansen Hurwitz, Sezione 3.1.1), nel caso di campionamento con reintroduzione, dipende dalle probabilità di estrazione. Viene costruito in modo da
godere della proprietà della correttezza (Teorema 3.1) e se ne ricava la varianza
(Teorema 3.2).
L’espressione della varianza viene modificata per consentire confronti successivi (Corollario 3.1). La varianza dello stimatore di Hansen Hurwitz viene anche
scritta in modo da essere direttamente confrontabile con quella dello stimatore
analogo nel campionamento casuale semplice con reintroduzione.
Si propone uno stimatore corretto per la varianza dello stimatore. I passi da
compiere sono:
-) verificare che l’equivalente campionario della componente che riassume la
varaibilità in popolazione non è un suo stimatore corretto (Teorema 3.3)
-) determinarne una variante che gode della proprietà della correttezza (Teorema 3.4)
-) propore uno stimatore corretto per la varianza dello stimatore
-) verificarne la correttezza (Teorema 3.5)
L’appropriatezza del campionamento a probabilità variabile viene valutata mediante il confronto di efficienza tra di esso e il campionamento casuale
semplice.
Una strategia costituita da campionamento a probabilità variabile e stimatore lineare omogeneo corretto appropriatamente associato può avere varianza
inferiore all’analoga strategia basata sul campionamento casuale semplice se le
probabilità di estrazione sono scelte in modo adeguato (Teorema 3.8).
Il punto cruciale consiste nel modo con cui assegnare le probabilità.
Se ciascun elemento della popolazione avesse come probabilità di estrazione
l’incidenza della variabile oggetto di studio sul totale, allora la stima calcolata su
qualunque campione darebbe esattamente il valore di popolazione che si vuole
stimare (Teorema 3.9 e Corollario 3.2).
Assegnazione in pratica delle probabilità avviene sulla base di una variabile
ausiliaria quantitativa nota per ogni elemento della popolazione, il cui profilo
tende a riprodurre il profilo della variabile oggetto di studio (Sezione 3.2)
Nel campionamento a probabilità variabile senza reintroduzione lo stimatore
lineare omogeneo (stimatore di Horvitz Thompson, Sezione 3.3.2) dipende dalle
probabilità di inclusione nel caso di campionamento senza reintroduzione.
Le probabilità di inclusione possono essere calcolate secondo vari schemi: lo
schema di Yates e Grundy o schemi che tengano conto di una variabile ausiliaria.
Nel caso della media, lo stimatore di Horvitz Thompson viene costruito in
modo da avere la proprietà della correttezza (Teorema 3.13) e se ne ricava la
varianza (Teorema 3.14).
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
117
L’espressione della varianza viene ricavata in due modi diversi. Il primo risultato è l’applicazione diretta del calcolo della varianza di uno stimatore omogeneo. Il secondo vale solo per una dimensione campionaria fissa ed, è più semplice
da calcolare.
Il corollario 3.4 corrisponde ad un’ulteriore scrittura della varianza utile per
i calcoli.
Si determina direttamente uno stimatore corretto per la varianza dello stimatore (Teorema 3.16 e Teorema 3.17).
Nel caso del totale, lo stimatore di Horvitz Thompson viene costruito in
modo da godere della proprietà della correttezza (Teorema 3.13) e se ne ricava
la varianza (Teorema 3.15).
Il corollario 3.5 propone un’ulteriore scrittura, utile quando si fanno calcoli.
Si determina direttamente uno stimatore corretto per la varianza dello stimatore.
Gli stimatori delle varianze di media e totale sono semplificati con il Corollario 3.6.
3.5
3.5.1
Appendici
Appendice 1
Dimostrazione del Teorema 3.9
Se nel campionamento a probabilità variabile con reintroduzione si definiscono
le probabilità di estrazione in modo che siano proporzionali al valore assoluto
del carattere oggetto di interesse:
pλ =
|ηλ |
N m (|η|)
∀λ.
allora si minimizza la varianza degli stimatori di Hansen-Hurwitz per media e
totale di popolazione.
Dimostrazione
Dalla (3.3) possiamo notare che la varianza degli stimatori dipende dalle pλ
solo attraverso la quantità
N
η2
λ
λ=1
N 2 pλ
Per rendere minime queste varianze è quindi sufficiente minimizzare il funzionale
φ=
N
1 ηλ2
pλ N 2
λ=1
sotto il vincolo
N
pλ = 1.
λ=1
Un modo generale per risolvere problemi di massimo vincolato di questo tipo è
costituito dal metodo dei moltiplicatori di Lagrange. Seguendo questo metodo
Daniela Cocchi: Teoria dei Campioni
3.5. APPENDICI
118
il problema di ricerca del mimimo vincolato per il funzionale φ è riconducibile
alla ricerca del minimo non vincolato del funzionale
Ψ(p1 , ..., pN ; θ) = φ + θ
λ
pλ − 1
che è appunto detto funzionale di Lagrange.
Imponiamo quindi le condizioni di primo ordine sulle derivate prime:

∂Ψ



 ∂pλ = 0



 ∂Ψ = 0
∂θ
La prime N equazioni danno luogo alle seguenti soluzioni:
|ηλ |
pλ = √
θN
∀λ.
(3.49)
mentre l’ultima equazione in λ dà luogo alla condizione:
pλ = 1,
(3.50)
λ
che consiste nel vincolo che si vuole rispettato. Risolvendo il sistema otteniamo
quindi il minimo vincolato cercato. Sostituendo la (3.49) nella (3.50) otteniamo
che
pλ =
λ
|ηλ |
√
.
θN
λ
da cui, risolvendo in θ si ricava:
√ N θ
pλ
=
√
θ
=
λ
λ
|ηλ |
|ηλ |
λ
=
N pλ
λ
|ηλ |
N
λ
Inserendo la soluzione trovata nella (3.49), otteniamo il risultato cercato.
pλ =
|ηλ | N
|ηλ |
=
N
|ηλ |
N m (|η|)
∀λ .
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
3.5.2
119
Appendice 2
Modifica degli stimatori di Hansen-Hurwitz per la media e il totale
Tenendo conto della definizione (3.24), le espressioni degli stimatori per la media
(3.2) e per il totale (3.15) possono essere scritte come:
"y #
1 yi
1 1 yi N m (ζ)
=
= m (ζ) m
,
n i=1 N pli
n i=1 N
zi
z
n
mHH (y) =
n
"y #
1 yi
t (ζ) = t (ζ) m
.
n i=1 zi
z
(3.51)
n
tHH (y) =
(3.52)
Modifica della varianza degli stimatori e confronto con il campionamento casuale semplice
Calcolando le probabilità di estrazione sulla base di una variabile ausiliaria di
dimensione risultano modificate anche le varianze degli stimatori della media e
del totale.
Teorema 3.10
V [mHH (y)] =
2
N
1 m (ζ) 1
m (η)
ηλ −
ζλ
n N
ζλ
m (ζ)
(3.53)
λ=1
Dimostrazione
Sostituendo la (3.24) nella (3.4) si ha:
2
N
1 ζλ
ηλ N m (ζ)
V [mHH (y)] =
− m (η)
n
N m (ζ)
N ζλ
λ=1
2
N
1 m (ζ) ηλ m (η)
=
ζλ
−
n N
ζλ
m (ζ)
λ=1
2
N
1 m (ζ) ζλ
m (η)
.
=
η
−
ζ
λ
λ
n N
ζλ2
m (ζ)
λ=1
Teorema 3.11
V [tHH (y)] = m (ζ)
2
N
N 1
m (η)
ηλ −
ζλ
n
ζλ
m (ζ)
(3.54)
λ=1
Modifica degli stimatori delle varianze
Anche gli stimatori delle varianze si modificano. Infatti, sostituendo opportunamente la (3.25) nella (3.11):
2
n 1 yi
2
sp (y) =
− mHH (y)
n − 1 i=1 Npli
Daniela Cocchi: Teoria dei Campioni
3.5. APPENDICI
120
si ottiene:
n " y #2
1 yi
Nm (ζ) − m (ζ) m
n − 1 i=1 Nzi
z
n
"y# 2
yi
1
=
m2 (ζ)
−m
.
n−1
zi
z
i=1
s2p (y) =
Ponendo
2
s
"y#
z
si ricava
n " y #2
1 yi
=
−m
n − 1 i=1 zi
z
s2p (y) = m2 (ζ) s2
"y #
z
.
Lo stimatore della varianza dello stimatore di Hansen-Hurwitz per la media
è pertanto
"y #
1
V̂ [mHH (y)] = m2 (ζ) s2
.
(3.55)
n
z
e quello del totale risulta:
V̂ [tHH (y)] =
"y #
N2 2
m (ζ) s2
.
n
z
(3.56)
Si osservi che per quanto riguarda le informazioni sulla variabile ausiliaria
in popolazione, il calcolo dello stimatore di Hansen-Hurwitz e dello stimatore
della sua varianza necessitano della sola conoscenza di m (ζ). Al contrario, il
piano di campionamento richiede la conoscenza dell’intera variabile ausiliaria ζ.
3.5.3
Appendice 3
Dimostrazione del Teorema 3.12
Il campionamento a probabilità variabile è preferibile a quello casuale semplice
(caso con reintroduzione) se si verifica la condizione:
2 1 2
η
1
v (η) − v
,ζ
< v2 (η) ,
n
ζ
n
ovvero quando
v
η2
,ζ
ζ
> 0.
Dimostrazione
Si consideri l’espressione della varianza (3.53). In essa:
2
N
m (η)
1 1
ηλ −
ζλ
N
ζλ
m (ζ)
λ=1
η2
m2 (η) m2 (η)
= m
−2
+ 2
m (ζ)
ζ
m (ζ)
m (ζ)
2
η
m2 (η)
= m
−
,
ζ
m (ζ)
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE
121
da cui, ricordando che
2
2
η2
η
η
v ζ,
=m ζ
−m
m (ζ) ,
ζ
ζ
ζ
la (3.53) diventa:
2
1
η
2
V [mHH (y)] =
m (ζ) m
− m (η)
n
ζ
2
1
η2
2
m η − v ζ,
− m (η)
=
n
ζ
1 2
η2
v (η) − v ζ,
.
=
n
ζ
(3.57)
Poiché il primo termine della (3.57) è esattamente la varianza (2.15) dello
stimatore media aritmetica nel caso di campionamento casuale semplice con
reintroduzione, il campionamento a probabilità variabile è preferibile a quello
casuale semplice se si verifica la condizione:
2 1 2
η
1
v (η) − v
,ζ
< v2 (η) ,
n
ζ
n
ovvero quando
v
η2
,ζ
ζ
> 0.
Daniela Cocchi: Teoria dei Campioni
3.5. APPENDICI
122
Daniela Cocchi: Teoria dei Campioni
Capitolo 4
La stima per quoziente
Ultima revisione: 16 febbraio 2011
Con la stima per quoziente si intende migliorare la precisione di uno stimatore corretto della quantità d’interesse modificando l’espressione dello stimatore
con informazioni sintetiche riferite ad una variabile ausiliaria.
Lo stimatore per quoziente viene usato quando si conoscono i valori di una
variabile ausiliaria proporzionale alla variabile su cui si effettua il campionamento. Le informazioni necessarie riguardanti la variabile ausiliaria si limitano alla
media, o al totale, in popolazione e nel campione: i valori della variabile ausiliaria possono quindi essere noti anche solo a livello aggregato, rispettivamente
nel campione e nella popolazione.
L’impiego dello stimatore è utile se la variabile oggetto d’interesse è difficile
o costosa da osservare, contrariamente a quanto accade alla variabile ausiliaria,
che è di più semplice rilevazione.
Ad esempio si può stimare sulla base di un campione di dimensione n, la
superficie media m(η) delle N foglie contenute in un sacco conoscendo il peso
medio m (ζ) delle foglie che vi sono contenute, più semplice da rilevare; oppure
si inferisce sulla domanda totale di un bene t (η) basandosi sulla quantità totale
consumata di un altro bene t (ζ), complementare al primo. Ancora, si può
stimare il numero medio di apparecchi televisivi per individuo m(η), sfruttando
la conoscenza del numero di componenti del suo nucleo familiare t(ζ), o il numero
di nascite t(η) in un paese, conoscendo l’ammontare della popolazione del paese
t(ζ).
La descrizione della popolazione secondo due variabili, seguendo la notazione
introdotta nel primo capitolo, è:
ξ = (η, ζ) = {(ηλ , ζλ ); λ = 1, ..., N }
e la realizzazione campionaria corrispondente è:
x = (y, z) = {(yi , zi ); i = 1, ..., n} .
123
4.1. STIMATORI PER QUOZIENTE
124
4.1
4.1.1
Stimatori per quoziente
Uno stimatore per la media
Il primo problema che si affronta con il metodo del quoziente è quello della
ricerca di uno stimatore per m(η). Per semplicità espositiva, la teoria viene presentata con riferimento allo stimatore media campionaria nel campionamento
casuale semplice, ma vale per qualunque stimatore corretto, come gli stimatori di
Hansen-Hurwitz e di Horvitz-Thompson nel campionamento a probabilità variabile con o senza reintroduzione. Si spiegherà nel seguito la ragione dell’impiego
di stimatori corretti come base per il calcolo dello stimatore per quoziente.
Se la media della variabile ausiliaria in popolazione m (ζ) è nota, ed è
possibile, tramite il campione, stimarla correttamente, si procede in base alla
seguente semplice idea di proporzionalità tra uno stimatore corretto e il valore di
popolazione sia per la variabile oggetto d’interesse, sia per la variabile ausiliaria:
mQ (y) : m(ζ) = m(y) : m(z),
(4.1)
da cui lo stimatore per quoziente della media è:
mQ (y) =
m(y)
m(ζ).
m(z)
(4.2)
L’idea alla base del metodo del quoziente è l’impiego della relazione lineare
passante per l’origine tra le variabili η e ζ: si corregge m(y) nella proporzione
pari al rapporto di m(ζ) e m(z).
Ogni valutazione di η in popolazione può essere rappresentata come la valutazione del coefficiente angolare della retta moltiplicato per il valore corrispondente di ζ:
m(η)
ηλ∗ =
ζλ = βQ ζλ
(4.3)
m(ζ)
sommata a un termine d’errore 9Qλ :
ηλ = βQ ζλ + 9Qλ
λ = 1,...,N.
(4.4)
La retta (4.3) riassume, seppure rozzamente e tramite la sola relazione di
porporzionalità diretta, la relazione lineare tra i due caratteri rilevati: si tratta della retta interpolante i valori di popolazione che si ottiene imponendo
l’ordinata all’origine nulla. La retta passa per il baricentro della popolazione
(m (ζ) , m (η)).
Con riferimento alla popolazione, il coefficiente angolare della retta viene
così imposto pari a:
m(η)
βQ =
.
(4.5)
m(ζ)
La rappresentazione della popolazione in questi termini ha senso se la correlazione lineare tra η e ζ è forte e se la retta interpolante dei minimi quadrati
presenta un’ordinata all’origine poco rilevante.
Facendo riferimento ai soli risultati campionari si ha:
yi∗ =
m(y)
zi = bQ zi .
m(z)
Daniela Cocchi: Teoria dei Campioni
(4.6)
CAPITOLO 4. LA STIMA PER QUOZIENTE
125
La (4.6) rappresenta la retta, analoga alla (4.3), che interpola i punti (y, z)
corrispondenti al campione rilevato
yi = bQ zi + eQi ,
(4.7)
dove bQ rappresenta la realizzazione campionaria di βQ
bQ =
m(y)
.
m(z)
(4.8)
Il valore dell’espressione (4.2), stimatore di m(η), corrisponde alla valutazione dell’ordinata della retta campionaria (4.6) in corrispondenza dell’ascissa
m(ζ).
4.1.2
Uno stimatore per il totale
Per la stima del totale della popolazione, si propone lo stimatore analogo allo
stimatore per la media (4.2):
tQ (y) =
t(y)
m(y)
m(y)
tE (y)
t(ζ) =
t(ζ) =
t(ζ) =
N m(ζ) = N mQ (y). (4.9)
tE (z)
t(z)
m(z)
m(z)
Anche per calcolare lo stimatore (4.9) devono essere noti la media o il totale
della variabile ausiliaria.
4.1.3
Uno stimatore per rapporti aleatori
Lo stimatore per quoziente viene usato anche per stimare rapporti tra medie o
totali di popolazione. Un esempio di stima di un rapporto aleatorio è costituito
dalla stima del numero medio di auto per individuo sulla base di un campione di
famiglie, in cui si calcolano il totale di auto e il totale di individui appartenenti
alle famiglie campionate. Lo stimatore non è un valor medio da trattare con le
tecniche presentate finora, in quanto il suo denominatore è aleatorio, ma è da
vedere come il rapporto tra due stimatori di totali o di medie.
Il rapporto da stimare è la quantità definita nella (4.5):
βQ =
m(η)
t(η)
=
,
m(ζ)
t(ζ)
(4.10)
tale quantità viene stimata con il rapporto tra due stimatori corretti. Nel caso
del campionamento casuale semplice, con o senza reintroduzione, lo stimatore è
definito dalla (4.8):
bQ = bQ (y, z) =
tE (y)
t(y)
m(y)
=
=
.
tE (z)
t(z)
m(z)
(4.11)
Il rapporto campionario (4.11) è il coefficiente angolare di una retta come la
(4.7), che stima il coefficiente angolare βQ della retta di popolazione. Si adotta
dunque bQ come stimatore di βQ .
Daniela Cocchi: Teoria dei Campioni
4.2. LA SPERANZA DEGLI STIMATORI PER QUOZIENTE
126
4.2
4.2.1
La speranza degli stimatori per quoziente
Scrittura di bQ in forma utile al calcolo dei momenti
Teorema 4.1
Lo stimatore bQ può essere espresso attraverso la:
m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ)
bQ = βQ 1 +
−
−
m(η)
m(ζ)
m(η)
m(ζ)
2
m(z) − m(ζ)
1
+
+O
,
(4.12)
m(ζ)
n3
nel caso in cui si trascurino i termini di grado superiore al secondo, oppure
attraverso la:
m(y) − m(η) m(z) − m(ζ)
1
−
+O
,
(4.13)
bQ = βQ 1 +
m(η)
m(ζ)
n2
nel caso in cui si trascurino i termini di grado superiore al primo.
La dimostrazione è svolta nell’Appendice 1.
Nota. Si osservi che, nella (4.13), i termini a partire dai quali si opera il
troncamento sono divisi per n12 , perchè il primo termine trascurato contiene il
2
valore
1 [m (z)] . Considerazioni analoghe valgono per spiegare il significato di
O n3 nella (4.12).
La teoria che illustra le proprietà degli stimatori per quoziente (4.2), (4.9)
e (4.11) è la stessa. In particolare si può notare come in tutti e tre i casi si
riscontri non linearità rispetto a m(z), o t(z). Il calcolo delle speranze e delle
varianze viene condotto impiegando la (4.12) e la (4.13).
4.2.2
Correttezza approssimata degli stimatori per quoziente
Si può dimostrare che lo stimatore bQ , come tutti gli stimatori che si ottengono
tramite il metodo del quoziente, non è corretto.
Correttezza approssimata di bQ
Teorema 4.2
Lo stimatore bQ è corretto in modo approssimato:
E(bQ ) βQ .
Dimostrazione
Applicando l’operatore speranza all’espressione (4.13), si ottiene:
1
m(η)
E [m(y) − m(η)] E [m(z) − m(ζ)]
1
1+
−
+O
E(bQ ) =
m(ζ)
m(η)
m(ζ)
n2
m(η)
1
m(η)
1
1
=
1+0−0+O
=
+
O
=
β
+
O
,
Q
m(ζ)
n2
m(ζ)
n2
n2
(4.14)
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 4. LA STIMA PER QUOZIENTE
in quanto la speranza dei termini di ordine
127
1
è nulla.
n
Correttezza approssimata di mQ (y)
Teorema 4.3
Lo stimatore mQ (y) è corretto in modo approssimato:
E [mQ (y)] m(η).
Dimostrazione
Dalla (4.2) applicando la proprietà di linearità del valore atteso si ottiene:
E [mQ (y)] = E [bQ ] m(ζ) βQ m(ζ) = m(η).
(4.15)
Correttezza approssimata di tQ (y)
Teorema 4.4
Lo stimatore tQ (y) è corretto in modo approssimato:
E [tQ (y)] t(η).
Dimostrazione
Riprendendo la (4.9), analogamente al caso precedente si ottiene:
E [tQ (y)] = E [bQ ] N m(ζ) βQ N m(ζ) = N m(η) = t(η).
4.2.3
(4.16)
Distorsione approssimata degli stimatori per quoziente
Viene fornito prima di tutto un risultato utile per ricavare la distorsione degli
stimatori degli stimatori per quoziente nel caso di campionamento casuale semplice senza reintroduzione. L’estensione al caso del campionamento con reintroduzione è immediato.
Teorema 4.5
L’espressione della covarianza tra le medie campionarie m(y) e m(z), che, nel
campionamento casuale semplice senza reintroduzione, stimano correttamente
le medie ed i totali della variabili η e ζ, è:
C [m(y), m(z)] =
N −n 1
N −n 1
v (η, ζ) =
s (η, ζ) .
(N − 1) n
N n
Dimostrazione
Daniela Cocchi: Teoria dei Campioni
(4.17)
128
4.2. LA SPERANZA DEGLI STIMATORI PER QUOZIENTE
Richiamando l’espressione generica della covarianza tra stimatori lineari ed
omogenei (1.112) con wλ = n1 e con la (2.47) e la (2.48) al posto di V (aλ ) e
C (aλ , aλ ), si ottiene:
N N
n N −n 1
n N −n 1
ηλ ζλ + 2
− 2
ηλ ζλ
C [m(y), m(z)] =
N N n2
N N − 1 n2
λ=1 λ <λ
λ=1


N
N N −n 1  1 1
ηλ ζλ −
ηλ ζλ 
=
N n N
(N − 1) N
λ=1
λ=1 λ =λ
N −n 1
{(N − 1) m (ηζ) −
(N − 1) N n
N
N
N
1 ηλ
ζλ −
ηλ ζλ
N
=
λ=1
λ =1
λ=1
N −n 1
=
[Nm (ηζ) − m (ηζ) − N m (η) m (ζ) + m (ηζ)]
(N − 1) N n
= N [m (ηζ) − m (η) m (ζ)]
N −n 1
N −n 1
=
v (η, ζ) =
s (η, ζ) .
(N − 1) n
N n
Corollario 4.1
La covarianza tra gli stimatori di espansione tE (y) e tE (z) è:
C [tE (y), tE (z)] = N 2 C [m(y), m(z)] = N 2
N −n
N −n
s (η, ζ) = N
s (η, ζ) .
Nn
n
(4.18)
Distorsione approssimata di bQ
Teorema 4.6
La distorsione approssimata dello stimatore bQ è:
2
N −n 1
s (ζ)
s (η, ζ)
B(bQ ) βQ
−
.
N n
m(ζ)2 m(ζ)m(η)
(4.19)
Dimostrazione
Applicando l’operatore speranza all’espressione (4.12), si ottiene:

2

E [(m(z) − m(ζ)) (m(y) − m(η))] E (m(z) − m(ζ))
+
E(bQ ) = βQ 1 −

m(ζ)m(η)
m(ζ)2
1
1
+O
n3
1
C [m (y) , m (z)] V [m (z)]
βQ 1 −
+
m(ζ)m(η)
m(ζ)2
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 4. LA STIMA PER QUOZIENTE
129
e, impiegando la (4.17):
2
N −n 1
s (ζ)
s (η, ζ)
E(bQ ) βQ +
βQ
−
N n
m(ζ)2 m(ζ)m(η)
la distorsione approssimata risulta dunque:
2
N −n 1
s (ζ)
s (η, ζ)
βQ
−
.
B(bQ ) N n
m(ζ)2 m(ζ)m(η)
La distorsione approssimata dello stimatore bQ è di ordine 1/n2 , quindi lo
stimatore non è corretto, ma la sua distorsione tende a zero se n aumenta.
Un corollario che esprime la distorsione approssimata dello stimatore bQ in
funzione dei residui è riportato nell’Appendice 2.
Distorsione approssimata di mQ (y)
Teorema 4.7
La distorsione approssimata dello stimatore mQ (y) può essere espressa, partendo
dalla (4.2) e moltiplicando la distorsione di bQ della (4.19) per una costante,
come:
2
N −n 1
s (ζ)
s (η, ζ)
B [mQ (y)] = m(ζ)B(bQ ) m(η)
−
(4.20)
N n
m(ζ)2 m(ζ)m(η)
Una serie di risultati espressi in funzione dei residui in popolazione sono
riportati nell’Appendice 3.
Distorsione approssimata di tQ (y)
Teorema 4.8
La distorsione approssimata dello stimatore tQ (y) può essere espressa, partendo
dalla (4.9) e moltiplicando la distorsione di bQ della (4.20) per una costante,
come:
2
N −n
s (ζ)
s (η, ζ)
B [tQ (y)] = N B [mQ (y)] m(η)
−
n
m(ζ)2 m(ζ)m(η)
4.3
4.3.1
(4.21)
La varianza approssimata degli stimatori per
quoziente
Varianza approssimata di bQ
Teorema 4.11
La varianza approssimata dello stimatore bQ può essere espressa come:
Daniela Cocchi: Teoria dei Campioni
4.3. VARIANZA APPROSSIMATA PER QUOZIENTE
130
V (bQ ) !
N −n 1
2 2
s2 (η) + βQ
s (ζ) − 2βQ s(η, ζ)
2
nN m(ζ)
(4.22)
Dimostrazione
Applicando l’operatore varianza all’espressione (4.13), si ottiene, dalla (2.53)
e dalla (4.17):
1
m(y) − m(η) m(z) − m(ζ)
βQ 1 +
−
m(η)
m(ζ)
1
V [m(y)] V [m(z)]
C [m(y), m(z)]
2
= βQ
+
−
2
m(η)2
m(ζ)2
m(η)m(ζ)
2
2
s (η)
s (ζ)
s(η, ζ)
2 N −n
= βQ
+
−
2
nN
m(η)2 m(ζ)2
m(η)m(ζ)
!
N −n 1
2 2
s2 (η) + βQ
s (ζ) − 2βQ s(η, ζ) .
=
2
nN m(ζ)
V (bQ ) V
La versione del Teorema 4.11 in funzione dei residui è riportata nell’Appendice 5.
Un corollario (Corollario 4.5) che esprime diversamente la distorsione approssimata in funzione dei residui è riportato nell’Appendice 6.
Le espressioni (4.42) e l’espressione equivalente del Corollario 4.5 mettono
in evidenza che, se il modello lineare passante per l’origine è poco adeguato per
la popolazione, il metodo del quoziente fornisce stime poco precise.
4.3.2
Varianza approssimata di mQ (y)
Partendo dalla (4.22), usando la (4.2):
Teorema 4.12
V [mQ (y)] !
N −n 2
2 2
s (η) + βQ
s (ζ) − 2βQ s(η, ζ) .
nN
(4.23)
Dimostrazione
V [mQ (y)] = m2 (ζ) V [bQ ]
2
N −n 2
s (η)
s2 (ζ)
s(η, ζ)
m (η)
+
−
2
nN
m(η)2 m(ζ)2
m(η)m(ζ)
!
N −n 2
2 2
=
s (η) + βQ
s (ζ) − 2βQ s(η, ζ) .
nN
L’Appendice 7 riporta il Corollario 4.6, che esprime la varianza approssimata
dello stimatore per quoziente della media in funzione dei residui.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 4. LA STIMA PER QUOZIENTE
4.3.3
131
Varianza approssimata di tQ (y)
Teorema 4.13
La varianza approssimata per lo stimatore per quoziente del totale è pari a:
V [tQ (y)] N
!
N −n 2
2 2
s (η) + βQ
s (ζ) − 2βQ s(η, ζ) .
n
(4.24)
Dimostrazione
Ricordando che tQ (y) = NmQ (y), segue che:
V [tQ (y)] = N 2 V [mQ (y)]
2
N (N − n)
s2 (ζ)
s(η, ζ)
2 s (η)
m(η)
+
−2
n
m(η)2 m(ζ)2
m(η)m(ζ)
!
N −n 2
2 2
= N
s (η) + βQ
s (ζ) − 2βQ s(η, ζ) .
n
L’Appendice 8 riporta il Corollario 4.7, che esprime la varianza approssimata
dello stimatore per quoziente del totale in funzione dei residui.
4.3.4
Stimatori delle varianze approssimate degli stimatori per quoziente
Le varianze V [bQ ], V [mQ (y)] e V [tQ (y)] vengono stimate sostituendo le quantità s2 (η), s2 (ζ) e s(η, ζ) , incognite, con le quantità corrispondenti valutate nel
campione:
Stima della varianza di bQ
V̂ (bQ ) =
!
N −n
1
s2 (y) + b2Q s2 (z) − 2bQ s(y, z)
N nm(ζ)2
Stima della varianza di mQ (y)
V̂ [mQ (y)] =
!
N −n 1 2
s (y) + b2Q s2 (z) − 2bQ s(y, z)
N n
Stima della varianza di tQ (y)
V̂ [tQ (y)] =
!
N −n 1 2 2
N s (y) + b2Q s2 (z) − 2bQ s(y, z)
N n
Le quantità equivalenti espresse in temini dei residui sono riportate nell’Appendice 9.
Nota. Riassumiamo lo schema per gli stimatori e le loro proprietà
Daniela Cocchi: Teoria dei Campioni
4.4. EFFICIENZA PER LO STIMATORE PER QUOZIENTE
132
Correttezza approssimata
degli stimatori
Distorsione approssimata
degli stimatori
Varianza approssimata
degli stimatori
Stimatori della varianza
approssimata degli stimatori
4.4
4.4.1
Stima di bq
Stima della media
Stima del totale
Teorema 4.2
Teorema 4.3
Teorema 4.4
Teorema 4.6
Teorema 4.7
Teorema 4.8
Teorema 4.11
Teorema 4.12
Teorema 4.13
Formule del
paragrafo 4.3.4
Formule del
paragrafo 4.3.4
Formule del
paragrafo 4.3.4
Confronti di efficienza per lo stimatore per
quoziente
Confronto di efficienza tra media campionaria e stimatore per
quoziente nel campionamento casuale semplice con o senza
reintroduzione
Comparando in termini di efficienza le strategie: media campionaria e stimatore della media per quoziente nel caso di campionamento casuale semplice
senza reintroduzione è lecito attendersi che il risultato del confronto dipenda
dal termine r(η, ζ), che misura la correlazione lineare tra la variabile oggetto
dell’indagine e la variabile ausiliaria in popolazione.
Il rapporto delle precisioni relative ai due stimatori è dato da:
Def f = Π
(c.c.s.) [m(y)]
(c.c.s.) [mQ (y)]
1
=
EQMccs [mQ (y)]
V [mQ (y)]
.
EQMccs [m(y)]
V [m(y)]
Il confronto tra le varianze, e non tra gli errori quadratici medi, ha senso quando
la dimensione campionaria è tale da rendere trascurabile la distorsione dello
stimatore per quoziente.
Teorema 4.14
Nel caso di campionamento casuale semplice, con o senza reintroduzione e βQ >
0, lo stimatore per quoziente della media è preferibile alla media campionaria
quando:
1 CV (ζ)
ρ(η, ζ) >
.
(4.25)
2 CV (η)
Dimostrazione
La verifica dell’efficienza nel caso in cui il Def f < 1 (caso in cui la precisione
di mQ è superiore a quella di m(y)) viene condotta sulla seguente diseguaglianza
:
V [mQ (y)]
=
V [m(y)]
N−n 1
N n
!
2 2
s2 (η) + βQ
s (ζ) − 2βQ s(η, ζ)
N−n 1 2
N n s (η)
Daniela Cocchi: Teoria dei Campioni
<1
CAPITOLO 4. LA STIMA PER QUOZIENTE
133
che è verificata quando
2 2
s2 (η) > s2 (η) + βQ
s (ζ) − 2βQ s(η, ζ)
2 2
2βQ s(η, ζ) > βQ
s (ζ).
(4.26)
Se βQ > 0, la diseguaglianza (4.26) è verificata se
s(η, ζ)
βQ
>
s2 (ζ)
2
s(η, ζ)
βQ
>
s(ζ).
s(ζ)
2
Dividendo entrambi i membri per s(η):
s(η, ζ)
βQ s(ζ)
= ρ(η, ζ) >
s(ζ)s(η)
2s(η)
e sostituendo il valore di βQ , si conclude che la diseguaglianza (4.26) è verificata
quando:
1 CV (ζ)
1 s(ζ)/m(ζ)
=
.
ρ(η, ζ) >
2 s(η)/m(η)
2 CV (η)
Affinchè lo stimatore per quoziente risulti adeguato, ci deve essere una forte
correlazione positiva tra η e ζ, ma la variabilità strutturale di ζ non può essere
molto superiore a quella di η.
Se, più in generale di quanto avviene in questa presentazione, si considerano rapporti tra stimatori corretti m
, (η), m
, (ζ), determinati con un piano di
campionamento qualunque, la relazione analoga viene espressa come:
ρ [m
, (η) , m
, (ζ)] >
1 CV [m
, (ζ)]
.
2 CV [m
, (η)]
Nel caso di campionamento con reintroduzione si ricavano risultati analoghi.
Nell’Appendice 10 viene dimostrata la relazione, basata sui residui, che valuta l’efficienza dello stimatore nel campionamento casuale semplice e lo stimatore
di Hansen Hurvitz nel campionamento a probabilità variabile.
4.5
4.5.1
Appendici
Appendice 1
Dimostrazione del Teorema 4.1
Lo stimatore bQ può essere espresso attraverso la:
m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ)
bQ = βQ 1 +
−
−
m(η)
m(ζ)
m(η)
m(ζ)
2
m(z) − m(ζ)
1
+
+O
,
m(ζ)
n3
Daniela Cocchi: Teoria dei Campioni
4.5. APPENDICI
134
nel caso in cui si trascurino i termini di grado superiore al secondo, oppure
attraverso la:
m(y) − m(η) m(z) − m(ζ)
1
bQ = βQ 1 +
−
+O
,
m(η)
m(ζ)
n2
nel caso in cui si trascurino i termini di grado superiore al primo.
Dimostrazione
L’espressione (4.11) può essere modificata nel modo seguente:
m(y)
1
= m(y)
m(z)
m(ζ) + m(z) − m(ζ)
m(y)
m(ζ)
m(y)
=
=
m(ζ) m(ζ) + m(z) − m(ζ)
m(ζ) 1 +
bQ =
1
m(z)−m(ζ)
m(ζ)
,
(4.27)
dove compare la somma della serie
1
1
1
+ 2 − 3 + ...
.
(4.28)
a a
a
+ +
Tale scrittura è possibile solo se la quantità + a1 + è minore di 1, cioè quando
0 < m(z) < 2m(ζ).
Segue quindi che:
2
m(y)
m(z) − m(ζ)
m(z) − m(ζ)
bQ =
1−
+
− ... .
(4.29)
m(ζ)
m(ζ)
m(ζ)
1
1+
Ponendo
1
a
=1−
m(y) − m(η)
m(y) = m(η) 1 +
m(η)
(4.30)
e sostituendo la (4.30) nella (4.27) si può riscrivere bQ come:
2
m(η)
m(y) − m(η)
m(z) − m(ζ)
m(z) − m(ζ)
bQ =
1+
1−
+
+ ...
m(ζ)
m(η)
m(ζ)
m(ζ)
m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ)
= βQ 1 +
−
−
m(η)
m(ζ)
m(η)
m(ζ)
2
2 m(z) − m(ζ)
m(y) − m(η) m(z) − m(ζ)
+
+
... .
(4.31)
m(ζ)
m(η)
m(ζ)
I singoli addendi entro parentesi graffa sono medie campionarie, loro prodotti o potenze. Ciascuno di essi contiene quindi un termine n1 o n12 o potenze
superiori. Trascurando i termini di grado superiore al secondo, si ottiene:
m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ)
bQ = βQ 1 +
−
−
m(η)
m(ζ)
m(η)
m(ζ)
2
m(z) − m(ζ)
1
+
+O
,
m(ζ)
n3
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 4. LA STIMA PER QUOZIENTE
dove in generale con O n1k si indica un termine di ordine
rando i termini di grado superiore al primo, si ottiene:
m(y) − m(η) m(z) − m(ζ)
1
bQ = βQ 1 +
−
+O
.
m(η)
m(ζ)
n2
4.5.2
135
1
,
nk
mentre, trascu-
Appendice 2
Corollario 4.2
Un modo alternativo per esprimere la distorsione approssimata dello stimatore
bQ è:
B [bQ ] = −
N − n 1 s(9Q , ζ)
.
N n m(ζ)2
(4.32)
Dimostrazione
Partendo dalla (4.19) si può ricavare l’espressione della distorsione approssimata in funzione della covarianza tra i residui introdotti con la (4.4) e la variabile
ausiliaria. Ricordando che l’espressione del residuo è:
9Qλ = ηλ − βQ ζλ
(4.33)
si ricava infatti:
s(η, ζ)
N − n 1 m (η) s2 (ζ)
−
B [bQ ] N n m(ζ) m(ζ)2 m(ζ)m (η)
N −n1 1
s(η, ζ)
s2 (ζ)
=−
− βQ
N n m(ζ) m(ζ)
m(ζ)
N − n 1 s(η, ζ) − βQ s(ζ, ζ)
=−
N n
m(ζ)2
N − n 1 s(η − βQ ζ, ζ)
=−
N n
m(ζ)2
N − n 1 s(9Q , ζ)
=−
.
N n m(ζ)2
4.5.3
Appendice 3
Teorema 4.7 bis
La distorsione approssimata dello stimatore mQ (y) può essere espressa in funzione dei residui (4.33) come:
N − n 1 s(9Q , ζ)
N − n 1 s(9Q , ζ)
B [mQ (y)] m(ζ) −
=−
(4.34)
N n m(ζ)2
N n m(ζ)
Daniela Cocchi: Teoria dei Campioni
4.5. APPENDICI
136
Teorema 4.8.bis
La distorsione approssimata dello stimatore tQ (y) può essere espressa, analogamente al caso precedente (4.34) - in funzione dei residui (4.33) come:
N − n 1 s(9Q , ζ)
N − n s(9Q , ζ)
B [tQ (y)] N −
=−
(4.35)
N n m(ζ)
n
m(ζ)
4.5.4
Appendice 4
Un limite superiore per la distorsione degli stimatori
Si può ricavare una espressione della distorsione esatta degli stimatori per quoziente.
Distorsione esatta di bQ
Teorema 4.9 La distorsione esatta dello stimatore bQ è pari a:
B (bQ ) = −
1
C [bQ , m (z)]
m(ζ)
(4.36)
Dimostrazione
Ricordando che m(ζ) = E [m (z)], la distorsione dello stimatore per quoziente
bQ si può riscrivere in questa forma:
m(y) m(η)
B (bQ ) = E [bQ − βQ ] = E
−
m(z) m(ζ)
1
m(y)
m(η)
=
E m(ζ)
− m(ζ)
m(ζ)
m(z)
m(ζ)
1
=
[m(ζ)E (bQ ) − m(η)]
m(ζ)
1
=
{E [m(z)] E (bQ ) − E [m(z)bQ ]}
m(ζ)
1
C [bQ , m (z)]
=−
m(ζ)
Corollario 4.3
La distorsione può essere ottenuta anche con riferimento al totale piuttosto che
alla media
B (bQ ) = −
1
1
C [bQ , N m (z)] = −
C [bQ , tE (z)]
t(ζ)
t(ζ)
Daniela Cocchi: Teoria dei Campioni
(4.37)
CAPITOLO 4. LA STIMA PER QUOZIENTE
137
Teorema 4.10
Il limite superiore per la distorsione dello stimatore bQ è pari a:
|B (b ) |
Q ≤ CV [m (z)] .
V (bQ )
Dimostrazione
Ricordando che
C [bQ , m (z)] = ρ [bQ , m(z)]
e quindi osservando che
|C [bQ , m (z)] | ≤
utilizzando la (4.36), si ricava:
(4.38)
*
V (bQ ) V [m (z)]
*
V (bQ ) V [m (z)],
*
1
V (bQ ) V [m (z)]
E [m (z)]
2
*
V [m (z)]
|B (bQ ) | ≤ V (bQ )
E 2 [m (z)]
|B (bQ ) | ≤
da cui
|B (b ) |
Q ≤ CV [m (z)] .
V (bQ )
Alternativamente, in termini dello stimatore di espansione per il totale secondo
la (4.37), si ha:
Corollario 4.4
|B (b ) |
Q ≤ CV [tE (z)] .
V (bQ )
(4.39)
Quindi, la distorsione normalizzata dello stimatore di un rapporto aleatorio,
in valore assoluto, è minore (o uguale) al coefficiente di variazione dello stimatore
della media, o del totale, della variabile ausiliaria. Le relazioni (4.38) e (4.39)
servono quindi a fissare un limite superiore per la distorsione degli stimatori.
Distorsione esatta dello stimatore mQ (y)
Partendo dalla (4.2), dalla (4.36) si ottiene:
1
C [bQ , tE (z)]
N
(4.40)
B [tQ (y)] = N B [mQ (y)] = −N C [bQ , m (z)] = −C [bQ , tE (z)]
(4.41)
B [mQ (y)] = m(ζ)B [bQ ] = −C [bQ , m (z)] = −
Distorsione esatta dello stimatore tQ (y)
Partendo dalla (4.9), dalla (4.36) si ottiene:
Daniela Cocchi: Teoria dei Campioni
4.5. APPENDICI
138
4.5.5
Appendice 5
Teorema 4.11bis
La varianza approssimata dello stimatore bQ può essere espressa in funzione dei
residui come:
V (bQ ) =
N − n s2 (9Q )
nN m(ζ)2
N − n v 2 (9Q )
.
n (N − 1) m(ζ)2
(4.42)
Dimostrazione
Ricordando la definizione (4.33) della variabile residuo 9Q , si può esprimere
V (bQ ) in funzione della variabilità di 9Q .
Ripartendo dalla (4.22) si ha:
V (bQ ) =
=
=
=
4.5.6
!
N −n 1
2 2
s2 (η) + βQ
s (ζ) − 2βQ s(η, ζ)
2
nN m(ζ)
!
N −n 1
s2 (η) + s2 (βQ ζ) − 2s(η, βQ ζ)
2
nN m(ζ)
N −n 1
s2 (η − βQ ζ)
nN m(ζ)2
N − n s2 (9Q )
nN m(ζ)2
N − n v 2 (9Q )
.
n (N − 1) m(ζ)2
Appendice 6
Corollario 4.5
V (bQ ) N − n m(92Q )
.
n (N − 1) m(ζ)2
(4.43)
Dimostrazione
Ricordando che, per costruzione, dalla (4.33) si ottiene:
m (9Q ) = m (η) −
m (η)
m (ζ) = 0,
m (ζ)
si rileva anche che:
v2 (9Q ) = m 92Q
E’ dunque possibile riscrivere la varianza approssimata dello stimatore bQ come:
V (bQ ) N − n m(92Q )
.
n (N − 1) m(ζ)2
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 4. LA STIMA PER QUOZIENTE
4.5.7
139
Appendice 7
Corollario 4.6
La varianza approssimata dello stimatore per quoziente della media può
essere espressa anche in funzione dei residui, sfruttando la (4.43):
V [mQ (y)] 4.5.8
N −n 1 2
s (9Q ).
N n
(4.44)
Appendice 8
Corollario 4.7
La varianza approssimata dello stimatore per quoziente del totale può essere
espressa anche in funzione dei residui, sfruttando la (4.43):
V [tQ (y)] 4.5.9
4.5.10
N (N − n) 2
s (9Q ).
n
(4.45)
Appendice 9
Stimatori delle varianze approssimate degli stimatori per
quoziente
Le varianze V [bQ ], V [mQ (y)] e V [tQ (y)] vengono stimate sostituendo la quantità s2 (9Q ), incognita, con la quantità corrispondente valutata nel campione,
notando che s2 (eQ ) stima correttamente s2 (9Q ) nella (4.43), nella (4.44) e nella
(4.45).
Stima della varianza di bQ
V̂ (bQ ) =
1 N −n 1 2
s (eQ )
m (ζ)2 N n
Stima della varianza di mQ (y)
V̂ [mQ (y)] =
N −n 1 2
s (eQ )
N n
Stima della varianza di tQ (y)
V̂ [tQ (y)] =
N −n 1 2 2
N s (eQ )
N n
Daniela Cocchi: Teoria dei Campioni
4.5. APPENDICI
140
4.5.11
Appendice 10
Confronto di efficienza tra lo stimatore per quoziente nel campionamento casuale semplice con reintroduzione e lo stimatore di HansenHurwitz nel campionamento a probabilità variabile
Teorema 4.15
Nel campionamento con reintroduzione la strategia costituita dal campionamento con probabilità variabile e dallo stimatore di Hansen-Hurwitz è preferibile
all’impiego di una variabile ausiliaria nello stimatore del rapporto se si verifica
la condizione:
92Q
v
, ζ > 0,
(4.46)
ζ
o, analogamente:
m (ζ) m
92Q
ζ
< m 92Q .
(4.47)
Dimostrazione
Si ricordi che, nel Capitolo 3, la conoscenza di una variabile ausiliaria viene
sfruttata per assegnare probabilità variabile agli elementi della popolazione.
Nel caso di campionamento con reintroduzione, la varianza dello stimatore di
Hansen-Hurwitz può essere scritta con la (3.53):
2
N
1 m (ζ) 1
m (η)
V [mHH (y)] =
ηλ −
ζλ .
n N
ζλ
m (ζ)
λ=1
Si osservi che l’espressione entro la parentesi quadra è il residuo 9Qλ definito nella
(4.33). La riformulazione della varianza dello stimatore di Hansen-Hurwitz in
termini di una variabile di dimensione ne permette quindi un’interpretazione
alla luce della teoria dello stimatore per quoziente:
N
m (ζ) 92Qλ
nN
ζ
λ=1 λ
92Q
m (ζ)
=
m
,
n
ζ
V [mHH (y)] =
(4.48)
notando che la varianza (4.48) si annullerebbe se valesse esattamente la relazione
ηλ = βQ ζλ .
La varianza approssimata dello stimatore per quoziente della media nel caso
di campionamento con reintroduzione si ottiene eliminando il coefficiente di
correzione per popolazioni finite nella (4.44):
N −n 2
N −n 1 2
s (9Q ) =
v (9Q )
Nn
N −1 n
1
1 v2 (9Q ) = m 92Q .
n
n
V [mQ (y)] Daniela Cocchi: Teoria dei Campioni
(4.49)
CAPITOLO 4. LA STIMA PER QUOZIENTE
141
Dalle (4.48) e (4.49) si può vedere come il campionamento a probabilità
variabile sia preferibile all’impiego di una variabile ausiliaria nello stimatore
del rapporto a partire da un campionamento casuale semplice se si verifica la
condizione:
92Q
1
1 m (ζ) m
< m 92Q .
n
ζ
n
Ricordando che
v
92Q
,ζ
ζ
=m
la condizione precedente equivale a
v
92Q ζ
ζ
92Q
,ζ
ζ
−m
92Q
ζ
m (ζ)
> 0,
che può essere scritta anche come
m 92Q > m
92Q
ζ
m (ζ) .
Se le considerazioni sulla popolazione portano ad affermare che la relazione
(4.46) sia valida, allora è più conveniente usare le informazioni ausiliarie per
costruire un piano di campionamento a probabilità variabile piuttosto che una
correzione per quoziente ad uno stimatore diretto in campionamento casuale
semplice.
Daniela Cocchi: Teoria dei Campioni
4.5. APPENDICI
142
Daniela Cocchi: Teoria dei Campioni
Capitolo 5
La stima per regressione
Ultima revisione: 16 febbraio 2011
5.1
Il principio della stima per regressione
Con lo stimatore per regressione si modifica uno stimatore corretto di una quantità descrittiva di popolazione sfruttando la relazione lineare esistente tra il
carattere d’interesse η e una variabile ausiliaria ζ. Si definisce quindi la seguente
relazione:
η = α + βR ζ,
(5.1)
in per tutte le coppie (ηλ , ζλ ) si pone il legame:
ηλ = α + βR ζλ + εRλ
λ = 1, ..., N .
(5.2)
Interpolando i valori di popolazione con il metodo dei minimi quadrati, i valori
N
di α e βR che minimizzano la quantità
ε2Rλ sono:
λ=1
s (η, ζ)
,
s2 (ζ)
α = m (η) − βR m (ζ) ,
βR
=
(5.3)
(5.4)
da cui, sostituendo tali espressioni nella (5.2), si ottiene:
ηλ = m (η) +
s (η, ζ)
[ζλ − m (ζ)] + εRλ .
s2 (ζ)
(5.5)
La tecnica dei minimi quadrati prevede che la somma dei residui sia nulla,
dunque nella (5.5) per costruzione:
m (εR ) = m (η − α − βR ζ) = m (η) − α − βR m (ζ)
= m (η) − [m (η) − βR m (ζ)] − βR m (ζ) = 0.
143
(5.6)
5.1. IL PRINCIPIO DELLA STIMA PER REGRESSIONE
144
Si osservi che, se la retta di regressione dei minimi quadrati passa per l’origine
(α = 0), dalla (5.4) si ha direttamente:
βR m (ζ) = m (η)
e quindi
βR =
m (η)
= βQ .
m (ζ)
In questo caso il coefficiente angolare della retta interpolante coincide con quello
utilizzato nella stima per quoziente. Si può quindi concludere che βR generalizza
il rapporto βQ introdotto nel capitolo precedente, ipotizzando che tra i due
caratteri considerati esista una relazione più generale di quella alla base dello
stimatore per quoziente.
Lo schema descrittivo (5.1), riferito alla popolazione, ha un corrispondente
campionario nella relazione:
y = a + bR z,
(5.7)
dove il legame tra le coppie (yi , zi ) è dato da:
yi = a + bR zi + eRi
n
i=1
i = 1, ..., n.
(5.8)
Nel campione si calcolano pertanto i valori a, b che minimizzano la quantità
e2Ri ottenendo:
s (y, z)
,
s2 (z)
a = m (y) − bR m (z) ,
bR
=
(5.9)
(5.10)
che, sostituiti nella (5.7) e nella (5.8), danno luogo a:
y = m (y) +
yi = m (y) +
s (y, z)
[z − m (z)] ,
s2 (z)
s (y, z)
[zi − m (z)] + eRi
s2 (z)
i = 1, ..., n,
(5.11)
(5.12)
dove m (eR ) = 0 per costruzione.
Il principio della stima per regressione può essere applicato ad un qualunque
stimatore corretto.
5.1.1
Uno stimatore per la media
Lo stimatore per regressione della media di popolazione (1.4) si ottiene come
ordinata della retta (5.11) in corrispondenza dell’ascissa m (ζ):
mR (y) = m (y) + bR [m (ζ) − m (z)]
s (y, z)
= m (y) + 2
[m (ζ) − m (z)] .
s (z)
(5.13)
Nella (5.13) si può riconoscere la proposta di una correzione additiva ad un
generico stimatore corretto di m (η).
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 5. LA STIMA PER REGRESSIONE
5.1.2
145
Uno stimatore per il totale
Lo stimatore per regressione del totale di popolazione (1.5) è pari a:
tR (y) = N mR (y) = N m (y) + bR [N m (ζ) − N m (z)]
= tE (y) + bR [t (ζ) − tE (z)] .
5.2
(5.14)
La speranza degli stimatori per regressione
Analogamente a quanto proposto nell’esposizione della stima per quoziente, si
deriva un’espressione approssimata dello stimatore (5.13).
5.2.1
Scritture utili per il calcolo dei momenti
Teorema 5.1
bR − βR s (y, z) − s (η, ζ) s2 (z) − s2 (ζ)
−
s (y, z) .
s2 (ζ)
[s2 (ζ)]2
(5.15)
La dimostrazione è presentata nell’Appendice 1.
5.2.2
Correttezza approssimata degli stimatori per regressione
Teorema 5.2
Lo stimatore (5.13) di m (η) è approssimativamente corretto:
E [mR (y)] m (η) .
(5.16)
La dimostrazione è presentata nell’Appendice 2.
Teorema 5.3
La correttezza approssimata dello stimatore per il totale si ricava dalla (5.14),
applicando la proprietà di linearità del valore atteso:
C [s (y, z) , m (z)]
s2 (ζ)
!
N
+ 4
E s2 (z) − s2 (ζ) s (y, z) [m (z) − m (ζ)]
s (ζ)
t (η) .
E [tR (y)] = N E [mR (y)] t (η) − N
5.2.3
Distorsione esatta e approssimata degli stimatori espressa in
funzione dei residui
I due risultati seguenti sono presentati senza dimostrazione.
Daniela Cocchi: Teoria dei Campioni
146
5.3. APPROSSIMAZIONE DELLA VARIANZA DEGLI STIMATORI
Teorema 5.4
La distorsione esatta dello stimatore mR (y) è:
B [mR (y)] = −C [bR , m (z)]
(5.17)
Teorema 5.5
La distorsione approssimata dello stimatore mR (y) è pari a:
B [mR (y)] −
N − n m (δ)
N − 2 ns2 (ζ)
(5.18)
dove
δλ = ελ ζλ2 .
Dalla (5.39) si nota che il termine di distorsione è di ordine 1/n2 . Pertanto
esso può essere trascurato per campioni sufficientemente grandi.
5.3
5.3.1
La varianza approssimata degli stimatori per
regressione
Approssimazione della varianza degli stimatori
In questa sezione vengono presentate tre differenti versioni della varianza approssimata.
Teorema 5.6
V [mR (y)] V [m (ẽR )] =
N −n 2
s (εR )
Nn
(5.19)
Dimostrazione
Partendo dall’espressione (5.36), la varianza dello stimatore mR (y) può
essere scritta come:
V [mR (y)] V {(bR − βR ) [m (z) − m (ζ)]} + V [m (ẽR )] .
In questo caso la varianza della somma dei due addendi è uguale alla somma delle
loro varianze, in quanto le covarianze di popolazione che entrano nel calcolo sono
nulle per costruzione: s (ζ, ε) = 0. Il primo termine dell’espressione ha ordine
di grandezza 1/n2 . Infatti, per la correttezza approssimata degli stimatori per
regressione, i termini trascurati hanno ordine 1/n2 . Il primo termine può quindi
essere ignorato e si considera solo il secondo come valore approssimato della
varianza.
N −n 2
s (εR )
V [mR (y)] V [m (ẽR )] =
Nn
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 5. LA STIMA PER REGRESSIONE
147
Teorema 5.7
V [mR (y)] !
N −n 2
2 2
s (η) + βR
s (ζ) − 2βR s (η, ζ)
Nn
(5.20)
Dimostrazione
Si ricorda che l’errore può essere espresso come:
εR
= η − α − βR ζ = η − m (η) + βR m (ζ) − βR ζ
s (η, ζ)
s (η, ζ)
m (ζ) − 2
ζ
= η − m (η) + 2
s (ζ)
s (ζ)
s (η, ζ)
= η − m (η) − 2
[ζ − m (ζ)]
s (ζ)
Utilizzando questo risultato si può scrivere la varianza dei residui in popolazione nel modo seguente, poiché m (εR ) = 0, nel modo seguente:
N
N 2
N
s2 (εR ) =
v2 (εR ) =
m εR − m (εR )2 =
m ε2R
N −1
N −1
N −1
2
s (η, ζ)
N
=
m [η − m (η)]2 +
m [ζ − m (ζ)]2
N −1
s2 (ζ)
1
s (η, ζ)
−2 2
m {[η − m (η)] [ζ − m (ζ)]}
s (ζ)
N
s2 (η, ζ) 2
s (η, ζ)
=
v2 (η) + 4
v (ζ) − 2 2
v (η, ζ)
N −1
s (ζ)
s (ζ)
2
N
s (η, ζ) N
s (η, ζ)
N
=
v2 (η) + 4
v 2 (ζ) − 2 2
v (η, ζ)
N −1
s (ζ) N − 1
s (ζ)
N −1
= s2 (η) +
s2 (η, ζ) 2
s (η, ζ)2
s
(ζ)
−
2
.
s4 (ζ)
s2 (ζ)
(5.21)
Dalla (5.21) si ottiene un’espressione alternativa della varianza (5.19) come:
V [mR (y)] !
N −n 2
2 2
s (η) + βR
s (ζ) − 2βR s (η, ζ) .
Nn
Corollario 5.1
V [mR (y)] !
N −n 1 2
s (η) 1 − r2 (η, ζ) .
N n
Dimostrazione
Sviluppando la (5.21) si ottiene che:
s2 (η, ζ) 2
s (η, ζ)2
s2 (εR ) = s2 (η) + 4
s (ζ) − 2 2
s (ζ)
s (ζ)
2
s (η, ζ)
= s2 (η) 1 − 2
,
s (η) s2 (ζ)
Daniela Cocchi: Teoria dei Campioni
(5.22)
148
5.3. APPROSSIMAZIONE DELLA VARIANZA DEGLI STIMATORI
da cui
V [mR (y)] !
N −n 1 2
s (η) 1 − r2 (η, ζ) .
N n
Sono immediati i risultati seguenti, relativi alla varianza dello stimatore del
totale.
Teorema 5.8
N −n 2
s (εR )
Nn
!
N −n 2
2 2
s (η) + βR
s (ζ) − 2βR s (η, ζ)
N2
Nn
!
N −n 2
N2
s (η) 1 − r2 (η, ζ) .
Nn
V [tR (y)] N 2
5.3.2
(5.23)
Stimatori della varianza approssimata degli stimatori per
regressione
Non conoscendo s2 (η) o r (η, ζ) , si stima la V [mR (y)] sulla base delle osservazioni campionarie tramite i seguenti risultati, la cui dimostrazione è immediata.
Teorema 5.9
La varianza approssimata dello stimatore per regressione mR (y) viene stimata
correttamente dalle seguenti espressioni:
V̂ [mR (y)] =
N −n 1 2
s (eR )
N n
(5.24)
(corrispondente alla (5.19))
eRi = yi − m (y) − bR [zi − m (z)] ,
o con
V̂ [mR (y)] =
!
N −n 1 2
s (y) + b2R s2 (z) − 2bR s (y, z)
N n
(corrispondente alla (5.20)) oppure, infine, con la
V̂ [mR (y)] =
!
N −n 1 2
s (y) 1 − r2 (y, z) .
N n
(corrispondente alla (5.22)).
Analogamente, per il totale, valgono i risultati seguenti.
Daniela Cocchi: Teoria dei Campioni
(5.25)
CAPITOLO 5. LA STIMA PER REGRESSIONE
149
Teorema 5.10
L’espressione della varianza dello stimatore tR (y) può essere stimata attraverso
le espressioni seguenti:
V̂ [tR (y)] = N 2
o con
V̂ [tR (y)] = N 2
oppure
!
N −n 2
s (y) + b2R s2 (z) − 2bR s (y, z)
Nn
V̂ [tR (y)] = N 2
5.4
N −n 2
s (eR )
Nn
!
N −n 2
s (y) 1 − r2 (y, z) .
Nn
Confronto di efficienza tra gli stimatori per
regressione e altri stimatori precedentemente
proposti
Nel caso in cui la dimensione campionaria sia tale da rendere trascurabili i
termini di ordine superiore o uguale a 1/n2 , si confrontano le varianze degli
stimatori, espresse con le (5.22), (4.23) e (2.53).
Il confronto tra le varianze ha infatti senso quando la dimensione campionaria
giustifica l’utilizzo della varianza approssimata per lo stimatore per quoziente.
Nel caso in cui la distorsione non sia trascurabile, i confronti debbono essere
fatti in termini di EQM e non solo in termini di varianze.
5.4.1
Confronto di efficienza tra lo stimatore per regressione e la
media campionaria nel campionamento casuale semplice con
o senza reintroduzione
Il rapporto delle precisioni relative ai due stimatori, entrambi proposti nel caso
di campionamento casuale semplice con o senza reintroduzione, è dato da:
Def f = Π
(c.c.s.) [m(y)]
(c.c.s.) [mR (y)]
1
=
EQMccs [mR (y)]
V [mR (y)]
.
EQMccs [m(y)]
V [m(y)]
Il confronto tra le varianze e non tra gli errori quadratici medi è affrontato
quantdo la dimensione campionaria giustifica l’utilizzo della sola varianza approssimata per lo stimatore per regressione senza tener conto della distorsione.
Teorema 5.11
Lo stimatore per regressione è più efficiente di quello del campionamento casuale
semplice senza reintroduzione se
r (η, ζ) = 0.
Dimostrazione
Daniela Cocchi: Teoria dei Campioni
(5.26)
5.4. CONFRONTI DI EFFICIENZA
150
Ricordando, dalla (2.53), che la varianza per lo stimatore della media nel
caso di campionamento casuale semplice senza reintroduzione è:
V [m (y)] =
N −n 2
s (η) .
Nn
e che, per la (5.22), nel caso dello stimatore per regressione per la media nel
caso di campionamento casuale semplice, è:
V [mR (y)] !
N −n 2
s (η) 1 − r2 (η, ζ) ,
Nn
La condizione di efficienza in termini di Def f < 1, corrispondente alla situazione
in cui la precisione di mR (y) è superiore a quella di m(y), porta alla seguente
condizione:
V [mR (y)]
<1
V [m (y)]
se r (η, ζ) = 0.
Il risultato è di facile interpretazione. Basta una minima correlazione lineare
tra η e ζ per suggerire l’impiego dello stimatore per regressione rispetto alla decisione di non utilizzare una correzione tramite valori di una variabile ausiliaria.
Tuttavia il miglioramento potrebbe risultare modesto e tale da sconsigliare il
lavoro supplementare di reperimento di valori della variabile ausiliaria.
5.4.2
Confronto di efficienza tra lo stimatore per regressione e quello per quoziente nel campionamento casuale semplice con o
senza reintroduzione
Teorema 5.12
Lo stimatore per regressione è sempre più efficiente dello stimatore per quoziente.
Dimostrazione
Considerando la (5.22) e la (4.23):
V [mR (y)] V [mQ (y)] !
N −n 2
s (η) 1 − r2 (η, ζ) ,
Nn
!
N −n 2
2 2
s (η) + βQ
s (ζ) − 2βQ s (η, ζ) ,
Nn
Il rapporto tra le precisioni dei due stimatori può essere definito come:
1
(c.c.s.) [mQ (y)]
EQMccs [mR (y)]
V [mR (y)]
Π
=
.
(c.c.s.) [mR (y)]
EQMccs [mQ (y)]
V [mQ (y)]
La condizione per cui lo stimatore per regressione è più efficiente di quello
per quoziente è:
V [mR (y)]
<1
(5.27)
V [mQ (y)]
Essa è verificata quando
!
2 2
s2 (η) 1 − r2 (η, ζ) < s2 (η) + βQ
s (ζ) − 2βQ s (η, ζ)
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 5. LA STIMA PER REGRESSIONE
151
2 2
−s2 (η) r2 (η, ζ) < βQ
s (ζ) − 2βQ s (η, ζ)
2 2
βQ
s (ζ) + s2 (η) r2 (η, ζ) − 2βQ s (η, ζ) > 0
(5.28)
espressione che, poichè vale la relazione
s (η, ζ) = r (η, ζ) s (η) s (ζ) ,
può essere riscritta come
2 2
βQ
s (ζ) + s2 (η) r2 (η, ζ) − 2βQ s (ζ) s (η) r (η, ζ) > 0.
La diseguaglianza è quindi verificata quando
[βQ s (ζ) − s (η) r (η, ζ)]2
2
r (η, ζ) s (η)
= βQ −
s (ζ)
2
s (η, ζ)
= βQ − 2
= (βQ − βR )2 > 0.
s (ζ)
Ne consegue che la (5.27) è verificata quando
(βQ − βR )2 > 0.
Quindi, lo stimatore per regressione è sempre più efficiente dello stimatore per
quoziente.
Nota. Il guadagno conseguente dall’usare lo stimatore per regressione sarà
piccolo se βQ e βR sono abbastanza simili, cioé se la retta dei minimi quadrati
che interpola la popolazione passa vicino all’origine.
Alcuni confronti di efficienza tra lo stimatore per regressione e lo stimatore di Hansen Hurvitz nel campionamento con reintroduzione sono presentati
nell’Appendice 3.
5.5
Stimatori generalizzati per differenza per la
media e il totale
In tutti i casi in cui ci siano motivi per ipotizzare che in popolazione possa
essere assunto un valore non stimato di β, lo stimatore dall’espressione analoga
allo stimatore per regressione è detto stimatore generalizzato per differenza ed
è definito come:
mDif f g (y) = m (y) + β [m (ζ) − m (z)]
(5.29)
La variante con β = 1 è detta stimatore per differenza
mDif f (y) = m (y) + [m (ζ) − m (z)] .
Lo stimatore generale per differenza del totale di popolazione (1.3) è pari a:
tDif f g (y) = N mDiff g (y) = N m (y) + β [N m (ζ) − N m (z)]
= tE (y) + β [t (ζ) − tE (z)] .
Daniela Cocchi: Teoria dei Campioni
(5.30)
5.5. STIMATORI GENERALIZZATI PER DIFFERENZA
152
e il corrispondente stimatore per differenza è:
tDif f (y) = N mDiff (y) = N m (y) + [Nm (ζ) − Nm (z)]
= tE (y) + [t (ζ) − tE (z)] .
5.5.1
(5.31)
Correttezza degli stimatori generalizzati per differenza
Teorema 5.14
Gli stimatori generalizzati per differenza per media e totale sono corretti.
Dimostrazione
La dimostrazione è immediata, applicando l’operatore valore atteso agli
stimatori proposti, sia per mDif f g (y):
E (mDif f g (y)) = E (m (y)) + β [m (ζ) − E (m (z))]
= m (η) + β [m (ζ) − m (ζ)] = m (η) ,
e analogamente per tDif f g (y) :
E (tDiff g (y)) = E (tE (y)) + β [t (ζ) − E (tE (z))] = t (η) .
5.5.2
Varianza degli stimatori generalizzati per differenza
Il fatto che β non venga stimato sul campione semplifica notevolmente il calcolo
della varianza. A differenza del caso in cui β viene stimato è possibile calcolare
agevolmente la formula esatta.
Teorema 5.15
V (mDif f g (y)) =
Dimostrazione
N −n 2
s (η) + β 2 s2 (ζ) − 2βs (η, ζ)
Nn
(5.32)
V (mDif f g (y)) = V (m (y) + β [m (ζ) − m (z)])
= V (m (y)) + β 2 V [m (ζ) − m (z)] − 2βC [m(y), m(z)]
N −n 2
=
s (η) + β 2 s2 (ζ) − 2βs (η, ζ) .
Nn
Si noti come la (5.32) coincida con la (5.20), ma costituisca in questo caso
un risultato esatto e non approssimato.
Analogamente, per il totale vale il teorema seguente.
Teorema 5.16
V (tDif f g (y)) = N 2
N −n 2
s (η) + β 2 s2 (ζ) − 2βs (η, ζ)
Nn
Daniela Cocchi: Teoria dei Campioni
(5.33)
CAPITOLO 5. LA STIMA PER REGRESSIONE
5.5.3
153
Stimatori per la varianza degli stimatori generalizzati per
differenza
Teorema 5.17
Le varianze (5.32) e (5.33) sono stimate correttamente da:
e
N −n 2
V, (mDif f g (y)) =
s (y) + β 2 s2 (z) − 2βs (y, z)
Nn
N −n 2
V, (tDif f g (y)) = N 2
s (y) + β 2 s2 (z) − 2βs (y, z) .
Nn
5.5.4
Confronto di efficienza tra gli stimatori per regressione e gli
stimatori generalizzati per differenza
La validità del confronto è limitata dal fatto che si raffrontano una varianza esatta e una approssimata, operazione ammessa solo nel caso di grandi
campioni.
Teorema 5.18
La precisione dello stimatore generalizzato per differenza è sempre inferiore a
quella dello stimatore per regressione.
Dimostrazione
Per effettuare il confronto è utile esprimere entrambe le varianze in funzione
dei residui:
N −n 2
V (mDif f g (y)) =
s (εDg )
Nn
V (mR (y)) N −n 2
s (εR )
Nn
In termini di rapporto di precisioni si deve verificare sotto quale condizione valga
la disuguaglianza:
3 (c.c.s.) [mDif f g (y)] (c.c.s.) [mR (y)]
=
V (mR (y))
<1
V (mDif f g (y))
Poichè per costruzione βR è il parametro per cui s2 (εR ) è minimo, si avrà che:
s2 (εR )
2
s (εDif f g )
< 1.
Tale condizione è verificata per qualsiasi valore di β non stimato inserito in uno
stimatore generalizzato per differenza. L’uguaglianza varrà solo per βR = β.
Daniela Cocchi: Teoria dei Campioni
5.5. STIMATORI GENERALIZZATI PER DIFFERENZA
154
5.5.5
Confronto di efficienza tra gli stimatori generalizzati per differenza e gli stimatori diretti del campionamento casuale semplice
Teorema 5.19
Lo stimatore generalizzato per differenza è più efficiente dello stimatore media
campionaria, nel caso di campionamento casuale semplice, se:
|β| < 2 |βR | .
Dimostrazione
La condizione secondo cui lo stimatore generalizzato per differenza è preferibile allo stimatore diretto è:
3 (c.c.s) [m (y)] V [mDiff g (y)]
Def f =
=
<1
(c.c.s) [mDif f g (y)]
V [m (y)]
da cui:
s2 (η) + β 2 s2 (ζ) − 2βs(η, ζ)
s2 (η)
2
s (ζ)
s(η, ζ)
1 + β2 2
− 2β 2
s (η)
s (η)
2
s (ζ)
s(η, ζ)
β2 2
− 2β 2
s (η)
s (η)
2 2
β s (ζ) − 2βs(η, ζ)
< 1
< 1
< 0
< 0
ossia se
β 2 s2 (ζ) < 2βs (η, ζ)
(5.34)
s (η, ζ)
s2 (ζ)
+
+
+ s (η, ζ) +
+
+
|β| < 2 + 2
s (ζ) +
β 2 < 2β
|β| < 2 |βR | .
Corollario 5.3
Lo stimatore generalizzato per differenza è più efficiente dello stimatore diretto,
nel caso di campionamento casuale semplice, nel caso particolare di β = 1,
quando:
1
βR > .
2
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 5. LA STIMA PER REGRESSIONE
155
Dimostrazione
Def f =
3
(c.c.s) [m (y)]
(c.c.s) [mDif f (y)]
=
V [mDif f (y)]
<1
V [m (y)]
se, dalla (5.34):
s2 (ζ) < 2s (η, ζ)
2
s (η, ζ)
>1
s2 (ζ)
e quindi
1
βR > .
2
Nota. Schema per gli stimatori di regressione e le loro proprietà
Correttezza approssimata degli stimatori
Distorsione approssimata degli stimatori
Varianza approssimata degli stimatori
Stima della media
Stima del totale
Teorema 5.2
Teorema 5.3
Teorema 5.5
Non c’è ma è immediata
Teorema 5.6
Teorema 5.7
Teorema 5.8
Corollario 5.1
Stimatori della varianza
Teorema 5.9
Teorema 5.10
approssimata degli stimatori
Nota. Schema per gli stimatori generalizzati per differenza e le loro proprietà
Stima della media Stima del totale
Correttezza approssimata degli stimatori
Teorema 5.14
Teorema 5.14
Varianza degli stimatori
Teorema 5.15
Teorema 5.16
Stimatori della varianza degli stimatori
Teorema 5.17
Teorema 5.17
5.6
5.6.1
Appendici
Appendice 1
Dimostrazione del Teorema 5.1
bR − βR s (y, z) − s (η, ζ) s2 (z) − s2 (ζ)
−
s (y, z) .
s2 (ζ)
[s2 (ζ)]2
Dimostrazione
Le coppie di valori (yi , zi ) appartenenti al campione sono realizzazioni dei
valori di popolazione. Tali valori possono essere espressi in termini della retta
di popolazione (5.5):
yi = m (η) + βR [zi − m (ζ)] + ẽRi ,
dove
ẽRi = εRli
Daniela Cocchi: Teoria dei Campioni
(5.35)
5.6. APPENDICI
156
sono i residui della retta di popolazione associati ai valori effettivamente campionati, la cui media non è nulla.
Calcolando la media dei valori campionari (5.35):
m (y) = m (η) + βR (m (z) − m (ζ)) + m (ẽR ) ,
e, sostituendo l’espressione così ottenuta nella (5.13), si ricava:
mR (y) = m (η) + βR [m (z) − m (ζ)] + m (ẽR ) + bR [m (ζ) − m (z)]
= m (η) + (bR − βR ) [m (ζ) − m (z)] + m (ẽR ) .
(5.36)
Il denominatore di bR =
s(y,z)
s2 (z)
può essere scritto come:
1
1
=
2
2 (ζ)
s2 (z)
2
s (ζ) 1 + s (z)−s
2
s (ζ)
e, sotto la condizione 0 < s2 (z) < 2s2 (ζ), può essere ricondotto allo sviluppo in
serie
1
1
1
1
1 = 1 − a + a2 − a3 + ....
1+ a
Effettuando il troncamento al termine di primo ordine, vale a dire conservando
i termini che moltiplicano per n1 e tralasciando quelli che moltiplicano per n12 ,
si ottiene l’approssimazione:
1
s2 (z) − s2 (ζ)
1
s2 (z) − s2 (ζ)
1
1
−
=
−
.
s2 (z)
s2 (ζ)
s2 (ζ)
s2 (ζ)
s4 (ζ)
Si può scrivere allora la forma troncata:
bR − βR
s (y, z) s (η, ζ)
− 2
s2 (z)
s (ζ)
1
s2 (z) − s2 (ζ)
s (η, ζ)
s (y, z)
−
− 2
s2 (ζ)
s (ζ)
[s2 (ζ)]2
=
=
=
5.6.2
s (y, z) s2 (z) − s2 (ζ)
s (η, ζ)
−
s (y, z) − 2
2
2
2
s (ζ)
s (ζ)
[s (ζ)]
2
2
s (y, z) − s (η, ζ) s (z) − s (ζ)
−
s (y, z) .
s2 (ζ)
[s2 (ζ)]2
Appendice 2
Dimostrazione del Teorema 5.2
Lo stimatore (5.13) di m (η) è approssimativamente corretto:
E [mR (y)] m (η) .
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 5. LA STIMA PER REGRESSIONE
157
Dimostrazione
Applicando l’operatore speranza allo stimatore mR (y) espresso secondo la
(5.35) si ha:
E [mR (y)] = m (η) − E [(bR − βR ) [m (z) − m (ζ)]] + E [m (ẽR )] ,
(5.37)
dove
E [m (ẽR )] = m (εR ) = 0.
(5.38)
Sostituendo la (5.15) nella (5.37) si ottiene:
1
s (y, z) − s (η, ζ)
E [mR (y)] m (η) − E
[m
(z)
−
m
(ζ)]
+
s2 (ζ)
2
!
1
s (z) − s2 (ζ) s (y, z) [m (z) − m (ζ)] .
2E
2
[s (ζ)]
Ricordando che
s (η, ζ) = E [s (z, y)] ,
m (ζ) = E [m (z)]
segue che:
E [mR (y)] m (η) −
+
1
s4 (ζ)
C [s (y, z) , m (z)]
s2 (ζ)
2
!
E s (z) − s2 (ζ) s (y, z) [m (z) − m (ζ)] , (5.39)
dove gli ultimi due termini sono dello stesso ordine della parte che è già stata
troncata:
1
E [mR (y)] = m (η) + O
n2
e quindi lo stimatore può essere considerato approssimativamente corretto.
5.6.3
Appendice 3 Confronto di efficienza tra lo stimatore per
regressione e lo stimatore di Hansen Hurwitz nel campionamento con reintroduzione
Teorema 5.13
La strategia consistente nel campionamento casuale semplice e stimatore per
regressione è preferibile alla strategia di campionamento a probabilità variabile
associato allo stimatore di Hansen-Hurwitz se si verifica la condizione:
2 εR
, ζ < 0.
(5.40)
v
ζ
Dimostrazione
L’equivalente della (5.19), nel caso di campionamento con reintroduzione,
direttamente dalla (2.15) è il risultato approssimato:
Daniela Cocchi: Teoria dei Campioni
5.6. APPENDICI
158
V [mR (y)] 1 2
v (εR ) ,
n
(5.41)
mentre la varianza dello stimatore di Hansen-Hurwitz può essere scritta, secondo
la (3.57), come:
V [mHH (y)] =
1 2
η2
v (η) − v ζ,
.
n
ζ
In termini di rapporto tra le precisioni si deve verificare la condizione:
Π
(p.v.) [mHH (y)]
(c.c.s) [mR (y)]
V [mR (y)]
< 1.
V [mHH (y)]
2 1 2
1 2
η
v (εR ) <
v (η) − v
,ζ ,
n
n
ζ
(5.42)
Considerando che α è costante, si può scrivere:
v2 (εR ) = v 2 (η − α − βR ζ) = v 2 (η − βR ζ)
2 2
= v 2 (η) + βR
v (ζ) − 2βR v (η, ζ) =
v (η, ζ)
2 2
= v 2 (η) + βR
v (ζ) − 2 2
v (η, ζ) =
v (ζ)
2 2
2 2
= v 2 (η) + βR
v (ζ) − 2βR
v (ζ) =
2 2
= v 2 (η) − βR
v (ζ) ,
(5.43)
da cui
2 2
βR
v (ζ) = v2 (η) − v2 (εR ) .
(5.44)
Pertanto la (5.41) può essere scritta come:
V [mR (y)] !
1 2
1 2
2 2
v (εR ) =
v (η) − βR
v (ζ)
n
n
e quindi la (5.42) è verificata se:
2 2
− βR
v (ζ)
< −v
η2
,ζ .
ζ
E’ conveniente esprimere la disuguaglianza in funzione di v
scopo, scrivendo:
(5.45)
"
ε2R
ζ ,ζ
2 2
ε2R = η2 + βR
ζ − 2βR ζη + α2 − 2α(η + βR ζ)
e omettendo i termini che moltiplicano per α costante, si ottiene:
Daniela Cocchi: Teoria dei Campioni
#
. A questo
CAPITOLO 5. LA STIMA PER REGRESSIONE
v
ε2R
,ζ
ζ
159
1 2
2 2
=v
η − 2βR ζη + βR ζ , ζ
ζ
2 η
2 2
, ζ − 2βR v (η, ζ) + βR
v (ζ)
=v
ζ
2 η
2 2
2 2
=v
, ζ − 2βR
v (ζ) + βR
v (ζ)
ζ
2 η
2 2
, ζ − βR
v (ζ) ,
=v
ζ
da cui, per la (5.44):
v
η2
,ζ
ζ
=v
ε2R
,ζ
ζ
2 2
+ βR
v (ζ) .
(5.46)
La disuguaglianza (5.45) può essere scritta tramite la (5.46):
2 εR
2 2
2 2
βR v (ζ) > v
, ζ + βR
v (ζ) .
ζ
La condizione richiesta affinchè il campionamento a probabilità variabile sia
preferibile all’impiego di uno stimatore per regressione è quindi
2 εR
, ζ < 0.
v
ζ
Corollario 5.2
La condizione per cui lo stimatore per regressione impiegato nel campionamento
casuale semplice con reintroduzione è preferibile al campionamento a probabilità
variabile associato allo stimatore di Hansen-Hurwitz è:
2
ε
m ε2R < m R m (ζ) .
(5.47)
ζ
Dimostrazione
Basta osservare che:
2 2 2
εR
ε
εR
v
,ζ = m
ζ − m R m (ζ) .
ζ
ζ
ζ
Daniela Cocchi: Teoria dei Campioni
5.6. APPENDICI
160
Daniela Cocchi: Teoria dei Campioni
Capitolo 6
Campionamento stratificato
Ultima revisione: 16 febbraio 2011
La conoscenza del valore di una variabile ausiliaria per ciascun elemento
della popolazione rende possibile la suddivisione della popolazione in gruppi.
Questa informazione può essere impiegata per progettare piani di campionamento che permettano di ottenere un’inferenza più accurata sulla variabile di
interesse rispetto al caso in cui non si prevede la ripartizione degli elementi della
popolazione in sottogruppi.
Nel campionamento stratificato, i parametri di popolazione t (η) e m (η)
sono stimati a partire da un campione di dimensione n formato dall’unione
di sk , k = 1, ..., M , campioni casuali, ciascuno di dimensione nk estratti a
probabilità costante o variabile da ognuno degli M strati. Il campione ha quindi
una dimensione pari alla somma delle dimensioni dei campioni estratti dai diversi
strati di dimensione Nk :
sk = {li : 1 ≤ li ≤ Nk , 1 ≤ i ≤ nk }
s=
M
sk
n=
k=1
M
nk .
k=1
Nel corso del capitolo viene presentata per esteso la teoria che, all’interno di
ciascuna sottopopolazione di dimensione Nk , prevede un campionamento casuale
semplice. L’estensione al campionamento a probabilità variabile è comunque
immediata.
Viene descritto principalmente il caso di estrazioni senza reintroduzione (i
confronti con il campionamento con reintroduzione saranno introdotti quando
necessario).
Tra le condizioni che rendono vantaggiosa la stratificazione si possono elencare le seguenti:
a) la popolazione oggetto di studio può essere ripartita in gruppi, in modo
che ciascun gruppo sia relativamente omogeneo al suo interno e diverso dagli
altri gruppi;
b) i campioni vengono estratti in modo indipendente da ciascuno strato;
in tal modo si possono applicare i risultati teorici del campionamento da una
161
162
popolazione di unità elementari di dimensione N al campionamento da ogni
strato di dimensione Nk ;
c) se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli convenientemente nel campione;
d) la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non è
disponibile una lista unica delle unità elementari, ma esistono liste separate per
ogni sottopolazione.
Con il campionamento stratificato si persegue il miglioramento della precisione degli stimatori dei parametri della popolazione rispetto al campionamento
dall’intera popolazione di unità elementari, sfruttando la possibilità di campionare separatamente all’interno di diverse sottopopolazioni, e quindi meglio
rappresentando la popolazione stessa.
La conoscenza di variabili ausiliarie in popolazione è alla base dell’adozione
di strategie diverse da quelle basate sul campionamento casuale semplice e sull’impiego di stimatori diretti. Le informazioni ausiliarie possono essere usate per
costituire gruppi. Condizione necessaria per la realizzazione del campionamento
stratificato è la conoscenza, per ciascun elemento della popolazione, del valore
di una variabile ausiliaria per assegnare ciascun elemento della popolazione ad
uno di M strati esaustivi e mutualmente esclusivi.
La suddivisione di una popolazione in strati è un esempio di raggruppamento
di unità elementari in unità complesse.
Elenchiamo alcune motivazioni che confermano la grande popolarità di questa tecnica.
La stratificazione può fornire notevoli guadagni nell’efficienza delle stime senza uscire dall’idea del campionamento casuale semplice, che continua a valere all’interno degli strati. E’ l’unico procedimento che assicura valutazioni all’interno
di ciascuna sottopopolazione. Di solito non dà risultati peggiori del campionamento casuale semplice, a meno che non si verifichi un’allocazione del campione
che stravolga completamente le considerazioni sulla omogeneità all’interno degli
strati e sull’importanza relativa degli strati stessi.
Se la suddivisione in strati, e quindi la conoscenza dei valori della variabile
ausiliaria, non è costosa da ottenere, vale la pena di impiegare questa tecnica.
L’onerosità di questo metodo sta nell’obbligo di costruire tante liste quante sono
le sottopopolazioni evidenziate. A questo riguardo si vedrà che meno impegnativo è invece il campionamento a grappolo che segue la logica opposta a quella
della stratificazione.
La procedura di campionamento stratificato richiede scelte preliminari riguardo:
• all’individuazione di un criterio di stratificazione, che può fare riferimento
ad una o più variabili ausiliarie;
• alla determinazione del numero degli strati;
• alla definizione dei valori soglia che determinano l’appartenenza allo strato,
nel caso in cui la variabile di stratificazione sia continua;
• alla scelta di un criterio di allocazione, vale a dire di assegnazione delle nk
unità campionarie in ogni strato.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
6.1
163
[Il campionamento stratificato s. r.]Il campionamento stratificato senza reintroduzione di dimensione n
Come è stato già accennato nell’introduzione, in questo capitolo viene illustrato
il caso di campionamento a probabilità costante all’interno di ciascuno strato.
6.1.1
Probabilità dei campioni non ordinati
Il campionamento stratificato senza reintroduzione prevede l’estrazione di campioni indipendenti da ogni strato k (k = 1, ..., M) in cui è stata suddivisa la
popolazione. Nel caso di campionamento casuale semplice all’interno di ciascuno strato, la probabilità di estrazione di un campione casuale semplice senza
reintroduzione per il k-esimo strato è data direttamente dalla (2.41), cioè:
p (sk ) = 1
Nk
nk
∀k = 1, .., M .
Poiché il campione è costituito dagli M campioni indipendenti, la probabilità
di estrazione del campione s dalla popolazione è data dalla:
p(s) =
M
3
p (sk )
k=1
k=1
=
6.1.2
M
3
1
Nk
nk
∀s ∈ S{n} .
(6.1)
Probabilità di inclusione
Le probabilità di inclusione vengono ricavate a partire dai risultati sul campionamento casuale semplice senza reintroduzione per ciascuna sottopopolazione
di numerosità Nk .
La probabilità di inclusione di primo ordine, direttamente dalla (2.104),
sono:
πλ = P (λ ∈ s) = P (λ ∈ sk ) =
nk
Nk
1≤k≤M
.
1 ≤ λ ≤ Nk
(6.2)
Per ricavare le probabilità di inclusione di secondo ordine per le coppie di unità
che appartengono ad uno stesso strato si ha:
λ; λ ⊆ s = P λ; λ ⊆ sk
nk nk − 1
1≤k≤M
=
1 ≤ λ = λ ≤ Nk
Nk Nk − 1
πλλ = P
(6.3)
mentre, se si considera una coppia di unità che appartengono a strati diversi si
ottiene:
Daniela Cocchi: Teoria dei Campioni
6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL
CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI
164
DIMENSIONE N
" #
λ; λ ⊆ s = P (λ ∈ sk ) ∩ λ ∈ sh
" #
= P (λ ∈ sk ) · P λ ∈ sh
πλλ = P
= πλ πλ =
6.1.3
1 ≤ k, h ≤ M
1 ≤ λ ≤ Nk .
1 ≤ λ ≤ Nh
nk nh
Nk Nh
(6.4)
Inferenza sulla media di popolazione
Per lo studio degli stimatori della media di popolazione è fondamentale la descrizione della popolazione ripartita in M sottopolazioni introdotta nel paragrafo
1.1.3, in cui la media generale (1.26) è ricavata come media ponderata delle medie di gruppo. La devianza globale può essere scomposta, come illustrato nella
(1.34) e nella (1.40), in due componenti additive, la devianza entro gruppi e la
devianza tra gruppi.
Si tralascia, per il momento, il problema legato all’allocazione del campione
rispetto ai diversi strati e la si consideri prefissata.
Lo stimatore della media di popolazione
Utilizzando la teoria del campionamento casuale semplice senza reintroduzione,
lo stimatore lineare omogeneo per la media di ciascuno strato in popolazione è:
m(yk ) =
nk
1 t(yk )
yi =
nk i=1
nk
1 ≤ k ≤ M,
(6.5)
Teorema 6.1 Lo stimatore media campionaria di strato stima correttamente
la media di strato (1.25):
E [m(yk )] = m(ηk )
1 ≤ k ≤ M.
Dimostrazione
La dimostrazione di tale teorema è immediata perché si basa sulle proprietà
del campionamento casuale semplice, già viste nel Capitolo 2.
Lo stimatore per la media in popolazione nel campionamento stratificato è:
ms (y) =
M
1 Nk m(yk ).
N
k=1
Daniela Cocchi: Teoria dei Campioni
(6.6)
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
165
Teorema 6.2 Lo stimatore (6.6) è corretto per m(η).
Dimostrazione
M
1 E [ms (y)] = E
Nk m(yk )
N k=1
=
M
M
1 1 Nk E [m(yk )] =
Nk m(ηk )
N
N
k=1
k=1
1
= t(η) = m(η).
N
Lo stimatore (6.6) è costituito da una combinazione lineare di stimatori di
strato. Poichè i pesi della combinazione lineare sono dati dalle frequenze relative
degli strati in popolazione, questi stimatori sono a loro volta corretti.
Varianza dello stimatore della media
Teorema 6.3 La varianza dello stimatore della media di popolazione nel caso
di campionamento stratificato è la varianza della combinazione lineare degli
stimatori delle medie di strato:
V [ms (y)] =
M
1 2
N V [m(yk )] ,
N 2 k=1 k
(6.7)
dove V [m(yk )] è la varianza (2.53) dello stimatore della media nel campionamento casuale semplice senza reintroduzione all’interno dello strato:
Nk − nk v2 (ηk )
Nk − 1 nk
Nk − nk s2 (ηk )
=
.
Nk
nk
V [m(yk )] =
(6.8)
(6.9)
Dimostrazione
Il risultato deriva dalla considerazione che l’estrazione delle unità da ogni
strato avviene in modo indipendente, rendendo nulle quindi le covarianze tra
quantità aleatorie provenienti da strati diversi.
V [ms (y)] = V
=
1
N2
M
1 Nk m(yk )
N
k=1
M
Nk2 V [m(yk )] .
k=1
Corollario 6.1 A seconda della quantità descrittiva di popolazione utilizzata
per indicare la variabilità di strato, la varianza dello stimatore (6.6) sarà:
Daniela Cocchi: Teoria dei Campioni
6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL
CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI
166
DIMENSIONE N
V [ms (y)] =
M
1 Nk2 (Nk − nk ) v2 (ηk )
N2
(Nk − 1)
nk
k=1
M
1 s2 (ηk )
N
(N
−
n
)
k
k
k
N2
nk
k=1
M
1 2 1
1
= 2
Nk
−
s2 (ηk ).
N
nk
Nk
=
(6.10)
k=1
Nel caso in cui le Nk assumano valori elevati, si può ricorrere ad espressioni
approssimate per la varianza dello stimatore della media nel caso di campionamento stratificato.
Dalle espressioni delle varianze appena proposte si può osservare che, se all’interno di uno strato tutti gli elementi presentano lo stesso valore della variabile
oggetto d’interesse, il contributo della varianza di quello strato alla varianza dello stimatore della media globale è nullo. Si giustifica così l’affermazione secondo
la quale la stratificazione è vantaggiosa quando, a parità di varianza complessiva
in popolazione, gli strati costituiscono gruppi omogenei al loro interno, tanto
più piccole sono le s2 (ηk ).
Se in una popolazione ripartita in strati in qualche strato viene effettuato
un censimento, la varianza di quello strato non contribuisce alla varianza dello
stimatore. Per gli strati censiti, il contributo alla varianza dello stimatore è zero
in quanto è nulla la differenza (Nk − nk ).
La varianza dello stimatore di stratificazione dipende soltanto dalle varianze
di popolazione all’interno dei sottogruppi, opportunamente pesate, e non dalla
varianza descrittiva di popolazione. Di solito, quindi, la stratificazione dà luogo
ad uno stimatore con varianza inferiore a quella del campionamento casuale
semplice con la stessa dimensione campionaria.
Esempio 6.1 Stima della media di popolazione mediante la media
campionaria nel caso di campionamento stratificato; valutazione della
correttezza e della precisione di tale stima.
Riprendendo l’esempio 2.3, si consideri la seguente ripartizione in due strati
della popolazione di 4 elementi:


k
Nk
ηkλ
m (ηk )
s2 (ηk )
 1
.
2
3, 4
3.5
0.5
2
2
10, 7
8.5
4.5
Si estraggono da ogni strato campioni di dimensione nk = 1 con campionamento casuale semplice senza reintroduzione.
L’universo dei possibili campioni non ordinati ha dimensione C2,1 · C2,1 = 4,
quindi per la (6.1) ciascun campione ha probabilità 41 , e l’universo è costituito
dalle seguenti 4 coppie di osservazioni campionarie yk :
(3, 10)
(4, 10)
(3, 7)
(4, 7)
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
167
Infatti con la stratificazione si effettua una riduzione della dimensione dello
spazio dei campioni rispetto alla dimensione dell’universo dei campioni relativo
all’intera popolazione.
Poichè si estrae un solo elemento per ogni gruppo, le medie campionarie di
gruppo coincidono con l’osservazione stessa. I valori campionari dello stimatore della media (6.6) ed i relativi quadrati m2s (y), sono riportati nelle tabelle
seguenti:
y1 \y2
3
4
y1 \y2
3
4
10
6.5
7.0
7
5.0
5.5
10
42.25
49.00
7
25.00
30.25
In base al Teorema 6.2 si ottiene:
E [ms (y)] = m (η) = 6,
Tale proprietà può essere verificata nell’universo dei campioni:
E [ms (y)] =
ms (y) p (s)
s∈S2
=
1
(6.5 + 7 + 5 + 5.5) = 6.
4
Analogamente, per la varianza si ottiene, direttamente dalla (6.10):
V [ms (y)] =
2
2 (2 − 1)
k=1
=
16
s2 (ηk )
1
(0.5 + 4.5) = 0.625,
8
oppure, ricorrendo all’universo dei campioni:
! 2
ms (y) p (s)
E m2s (y) =
s∈S
=
1
(42.25 + 49 + 25 + 30.25) = 36.625,
4
quindi
!
V [ms (y)] = E m2s (y) − E 2 [ms (y)]
= 36.625 − 36 = 0.625.
La varianza dello stimatore proposto nel caso della stratificazione è più piccola di quella dello stimatore della media del campionamento casuale semplice,
Daniela Cocchi: Teoria dei Campioni
6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL
CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI
168
DIMENSIONE N
calcolata con la (2.57) in quanto, con la definizione del piano di campionamento
stratificato, sono state eliminate le coppie con la media campionaria m(y) più
lontana dalla media m(η).
Non sarà possibile stimare la varianza dello stimatore con i dati ottenuti
da questo piano di campionamento: all’interno di ciascuno strato le varianze
non possono essere stimate perché il campione all’interno di ciascuno strato ha
dimensione 1.
Uno stimatore per la varianza dello stimatore della media
Per stimare la varianza (6.10) dello stimatore ms (y), si propone la quantità:
V̂ [ms (y)] =
M
Nk (Nk − nk ) s2 (yk )
N2
nk
M
1 2 1
1
N
−
s2 (yk ).
k
N2
nk
Nk
k=1
=
(6.11)
k=1
Correttezza dello stimatore per la varianza dello stimatore della media
Teorema 6.4 Lo stimatore (6.11) è corretto per la quantità V [ms (y)] .
Dimostrazione
Poiché all’interno di ciascuno strato valgono tutte le proprietà del campionamento casuale semplice senza reintroduzione, in particolare vale:
!
E s2 (yk ) = s2 (ηk ),
e quindi:
M
Nk (Nk − nk ) s2 (yk )
E V̂ [ms (y)] = E
N2
nk
k=1
M
!
1 2 1
1
Nk
−
E s2 (yk )
=
N2
nk
Nk
k=1
M
1 2 1
1
N
−
s2 (ηk ).
=
k
N2
nk
Nk
k=1
6.1.4
Inferenza sul totale di popolazione
Anche in questo caso, come era già stato osservato per l’inferenza sulla media
di popolazione, è fondamentale il riferimento alla descrizione della popolazione
ripartita in M sottopolazioni introdotta nel paragrafo 1.1.3.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
169
Lo stimatore del totale di popolazione
Il totale di gruppo (1.23), analogamente a quanto visto per la media, è stimato
correttamente dallo stimatore di espansione (2.50) calcolato nello strato:
tE (yk ) = Nk m(yk ) =
Nk
t(yk )
nk
1 ≤ k ≤ M.
(6.12)
Lo stimatore del totale di popolazione nel campionamento stratificato è:
ts (y) =
M
tE (yk ) =
k=1
M
Nk m(yk ).
(6.13)
k=1
Teorema 6.5 Lo stimatore (6.13) è corretto per t(η).
Dimostrazione
M
E [ts (y)] = E
Nk m(yk )
k=1
=
M
Nk E [m(yk )] =
k=1
M
Nk m(ηk ) = t(η).
k=1
Varianza dello stimatore del totale
Teorema 6.6 La varianza dello stimatore del totale in popolazione nel caso
di campionamento stratificato è pari a:
V [ts (y)] =
M
Nk2 V [m(yk )] ,
(6.14)
k=1
dove V [m(yk )] è la varianza (6.9)o (6.8) dello stimatore della media nel campionamento casuale semplice senza reintroduzione all’interno dello strato.
Analogamente a quanto visto per la media è possibile proporre versioni
alternative della (6.14), esposte nel seguente Corollario:
Corollario 6.2 A seconda della quantità descrittiva di popolazione utilizzata
per indicare la variabilità di strato, la varianza dello stimatore (6.13) è:
V [ts (y)] =
M
N 2 (Nk − nk ) v2 (ηk )
k
k=1
(Nk − 1)
M
Nk (Nk − nk )
nk
s2 (ηk )
nk
k=1
M
1
1
=
Nk2
−
s2 (ηk ).
nk
Nk
=
k=1
Daniela Cocchi: Teoria dei Campioni
(6.15)
6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL
CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI
170
DIMENSIONE N
Uno stimatore per la varianza dello stimatore del totale
Per stimare la varianza (6.15) dello stimatore ts (y), si propone la quantità:
V̂ [ts (y)] = N 2 V̂ [ms (y)] = N 2
=
M
Nk2
k=1
M
Nk (Nk − nk ) s2 (yk )
N2
k=1
1
1
−
nk
Nk
s2 (yk ).
nk
(6.16)
Correttezza dello stimatore per la varianza dello stimatore del totale
Teorema 6.7 Lo stimatore (6.16) è corretto per la quantità V [ts (y)] .
Dimostrazione
L’estrazione di un campione da ogni strato avviene mediante un campionamento casuale semplice senza reintroduzione e vale la:
!
E s2 (yk ) = s2 (ηk ).
quindi:
M
Nk (Nk − nk ) s2 (yk )
2
E V̂ [ts (y)] = E V̂ [Nms (y)] = E N
N2
nk
k=1
M
!
1
1
2
=
Nk
−
E s2 (yk )
n
N
k
k
k=1
M
1
1
=
Nk2
−
s2 (ηk )
nk
Nk
k=1
6.1.5
Stima per variabili dicotomiche: la proporzione e il totale
Nel caso particolare in cui la variabile η è dicotomica, lo stimatore per la
proporzione in popolazione diventa:
ps =
M
1 Nk pk .
N k=1
(6.17)
Teorema 6.8 Lo stimatore (6.17) è uno stimatore corretto della proporzione
π.
Dimostrazione
M
M
1 1 E [ps ] = E
Nk pk =
Nk E(pk )
N
N
=
k=1
k=1
M
1 Nk πk = π
N
k=1
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
171
dove le πk sono le proporzioni nello strato k-esimo della popolazione.
La stima del numero totale di elementi della popolazione che possiedono un
carattere dicotomico nel caso di campionamento stratificato è:
τ,s =
M
k=1
τ,k =
M
Nk pk
(6.18)
k=1
Analogamente a quanto già mostrato per la stima, nel caso di campionamento stratificato, della media, del totale e della proporzione, vale il seguente
teorema, la cui dimostrazione non è riportata in quanto è immediata.
Teorema 6.9 Lo stimatore (6.18) è uno stimatore corretto del totale τ .
Le varianze degli stimatori (6.17) e (6.18) sono equivalenti a quelle viste per
media e totale; infatti la proporzione è la media di un carattere dicotomico,
mentre l’espressione per il totale si ottiene facilmente, sfruttando la relazione
che lega media e totale; dalle (6.10) e (??).
Teorema 6.10 La varianza dello stimatore della proporzione in popolazione
nel caso di campionamento stratificato è:
V [ps ] =
V [ps ] M
1 2 1
1
N
−
s2 (ηk )
k
N2
nk
Nk
k=1
M
1
1 2 1
Nk
−
πk (1 − πk )
N2
nk
Nk
(6.19)
k=1
Dimostrazione
La varianza del carattere nello strato k-esimo è pari a:
Nk
πk (1 − πk )
Nk − 1
πk (1 − πk ).
s2 (ηk ) =
(6.20)
Sostituendo la (6.20) nella (6.10) si avrà dunque:
V [ps ] =
M
1 2 1
1
N
−
s2 (ηk )
k
N2
nk
Nk
k=1
Se Nk è tale che
Nk
1 allora potremo scrivere che
Nk − 1
M
1 2 1
1
N
−
πk (1 − πk )
N 2 k=1 k nk
Nk
M
Nk2 Nk − nk
πk (1 − πk )
N2
nk Nk
k=1
Nota. I passaggi appena presentati sono l’equivalente del Corollario 6.1.
Daniela Cocchi: Teoria dei Campioni
172
6.2. CAMPIONAMENTO STRATIFICATO PROPORZIONALE
Teorema 6.11 La varianza dello stimatore del numero totale di unità che
possiedono un carattere dicotomico in una popolazione stratificata è:
1
1
−
s2 (ηk )
nk
Nk
k=1
M
Nk − nk
Nk2
πk (1 − πk )
nk Nk
V [τ̂s ] =
M
Nk2
(6.21)
k=1
Stimatori per la varianza dello stimatore della proporzione e del totale
per variabili dicotomiche
Per stimare la varianza (6.19) dello stimatore ps , si propone la quantità:
V̂ [ps ] =
M
Nk (Nk − nk ) s2 (yk )
N2
nk
M
1
1 2 1
N
−
s2 (yk ).
k
N2
nk
Nk
k=1
=
(6.22)
k=1
dove
s2 (yk ) =
nk
pk (1 − pk ).
nk − 1
Analogamente, per stimare la varianza (6.21) dello stimatore τ̂s , si propone
la quantità:
V̂ [τ̂s ] =
M
k=1
Nk (Nk − nk )
s2 (yk )
.
nk
(6.23)
Teorema 6.12 Gli stimatori (6.22) e (6.23) sono corretti rispettivamente per
la (6.19) e la (6.21).
Nota. Se si preferisce utilizzare uno stimatore della varianza che non contenga lo stimatore della quantità oggetto di studio come nella (6.22), si può fare
l’assunzione conservativa pari a 0.25 riguardo alla varianza di ciascuno strato e
modificare conseguentemente lo stimatore della varianza per ciascuno strato.
6.2
Campionamento stratificato proporzionale
Quando le frazioni di campionamento sono costanti in ogni strato, allora:
fk =
nk
n
=
=f
Nk
N
1 ≤ k ≤ M.
Daniela Cocchi: Teoria dei Campioni
(6.24)
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
173
L’allocazione risultante è detta proporzionale. Le numerosità campionarie per
ogni strato possono essere espresse dalla:
Nk
1 ≤ k ≤ M.
(6.25)
N
L’allocazione proporzionale nk = fNk dà luogo a campioni che hanno la proprietà di essere autoponderanti, ossia le probabilità di inclusione di primo e
secondo ordine sono costanti per ogni unità statistica. Infatti, le probabilità di
inclusione del primo ordine (6.2) in caso di allocazione proporzionale sono pari
a:
nk
n
πλ =
=
1 ≤ λ ≤ Nk .
Nk
N
nk = n
Le probabilità di inclusione del secondo ordine nel caso in cui le unità
appartengano allo stesso strato (6.3) sono pari a:
nk nk − 1
n n−1
πλλ =
=
1 ≤ λ = λ ≤ Nk ;
Nk Nk − 1
N N −1
mentre le probabilità di inclusione del secondo ordine nel caso in cui le unità
appartengano a strati diversi sono:
nk nh
n "n#
n2
1 ≤ λ ≤ Nk
πλλ =
=
= 2
.
1 ≤ λ ≤ Nh
Nk Nh
N N
N
Costruendo il campione in questo modo le intensità del campionamento nei
diversi strati sono tutte uguali. Viene riprodotta la situazione del campionamento casuale semplice con la garanzia di eguale rappresentazione di ciascuno
strato nel campione. L’allocazione proporzionale è l’unica che permette di fare
calcoli anche con i pacchetti statistici tradizionali (in quanto questi lavorano
sempre sotto l’ipotesi di campionamento casuale semplice).
6.2.1
Stimatore per la media e per il totale in caso di stratificazione
proporzionale
Teorema 6.13 Quando si usa l’allocazione proporzionale, lo stimatore della
media (6.6) coincide con la media campionaria non ponderata valutata nell’intero campione, stimatore naturale nel campionamento casuale semplice:
msp (y) = m(y).
(6.26)
Dimostrazione
msp (y) =
nk
nk
M
M
1 Nk 1 1
yki =
yki
N
nk i=1
N
f i=1
k=1
k=1
M nk
M nk
1 N 1 =
yki =
yki = m(y).
N n
n
i=1
i=1
k=1
k=1
Il campionamento stratificato proporzionale è il solo campionamento stratificato che possiede questa proprietà.
La proprietà appena enunciata vale anche per il totale.
Daniela Cocchi: Teoria dei Campioni
174
6.2. CAMPIONAMENTO STRATIFICATO PROPORZIONALE
Teorema 6.14 Lo stimatore del totale nel campionamento stratificato proporzionale coincide con lo stimatore di espansione
tsp (y) = tE (y).
6.2.2
(6.27)
Varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale
Teorema 6.15 La varianza dello stimatore (6.26) è:
V [msp (y)] =
M
1 s2 (ηk )
N
(N
−
n
)
k
k
k
N2
nk
k=1
M
=
N −n
Nk s2 (ηk )
nN 2
(6.28)
k=1
M
=
N − n Nk2 2
v (ηk ).
nN 2
Nk − 1
(6.29)
k=1
Dimostrazione
Dalla (6.24) nel caso di allocazione proporzionale si possono effettuare le
semplificazioni presentate nell’enunciato del teorema, dato che:
Nk − nk
Nk
1
1−f
=
−1= −1 =
nk
nk
f
f
n
1− N
N −n
(N − n)N
= n =
=
.
Nn
n
N
Corollario 6.3 Un’espressione alternativa per la varianza dello stimatore della
media nel caso di campionamento stratificato proporzionale espressa dalla (6.28)
è:
V [msp (y)] =
Dimostrazione
Se si definisce
s̄2 (η) =
N −n 2
s̄ (η)
nN
M
1 Nk s2 (ηk ),
N
(6.30)
(6.31)
k=1
che è una quantità descrittiva di popolazione formalmente simile alla varianza
entro (1.35), ma calcolata con denominatori uguali a Nk − 1 per ciascuna componente invece che uguali a Nk , si può riscrivere la (6.28) mediante l’espressione
(6.30).
La (6.30) è la formulazione della varianza dello stimatore della media nel
caso di stratificazione proporzionale più adatta per effettuare il confronto di
efficienza con il campionamento casuale semplice.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
175
Teorema 6.16 La varianza dello stimatore (6.27) è:
V [tsp (y)] = N
N −n 2
s̄ (η)
n
(6.32)
Dimostrazione
V [tsp (y)] =
M
k=1
=
Nk (Nk − nk )
s2 (ηk )
nk
M
N −n Nk s2 (ηk )
n
k=1
M
=
N − n Nk2 2
v (ηk )
n
Nk − 1
k=1
N −n 2
=N
s̄ (η).
n
6.2.3
Uno stimatore per la varianza dello stimatore della media
nel caso di campionamento stratificato con allocazione proporzionale (estrazione senza reintroduzione)
L’espressione (6.30) può essere stimata mediante la:
V̂ [msp (y)] =
N −n 2
s̄ (y)
nN
(6.33)
Teorema 6.17 Lo stimatore (6.33) è uno stimatore corretto per la (6.30).
Dimostrazione
Poiché s2 (yk ) è stimatore corretto di s2 (ηk ), in quanto è stato effettuato un
campionamento casuale semplice senza reintroduzione da ogni strato, allora :
M
1 s̄ (y) =
Nk s2 (yk )
N
2
(6.34)
k=1
è stimatore corretto di s̄2 (η), e quindi lo stimatore (6.33) è stimatore corretto
della varianza (6.29).
Analogamente, la stessa condizione vale anche per lo stimatore del totale:
Corollario 6.4 L’espressione (6.32) può essere stimata dalla:
N −n 2
s̄ (y).
n
Se le dimensioni degli strati Nk sono elevate, la varianza dello stimatore msp (y)
nel campionamento senza reintroduzione approssima quella del campionamento
con reintroduzione. In Appendice 1 sono riportati vari risultati al riguardo.
V̂ [tsp (y)] = N
Da qui in poi presentiamo i risultati riguardanti la stima della media. I
risultati per il totale sono una loro facile estensione.
Daniela Cocchi: Teoria dei Campioni
176
6.3. [EFFICIENZA DEL CAMPIONAMENTO STRAT.
PROP.]CONFRONTO DI EFFICIENZA TRA IL CAMPIONAMENTO
CASUALE SEMPLICE SENZA REINTRODUZIONE E IL
CAMPIONAMENTO STRATIFICATO PROPORZIONALE
6.3
[efficienza del campionamento strat. prop.]Confronto di efficienza tra il campionamento casuale semplice senza reintroduzione e il campionamento stratificato proporzionale
Il confronto di efficienza tra gli stimatori media campionaria nel caso di campionamento casuale semplice senza reintroduzione e nel caso di campionamento
stratificato proporzionale viene effettuato attraverso il rapporto delle precisioni:
3 (c.c.s) [m (y)] 1
Deff =
(SP ) [msp (y)]
Se il Deff<1, allora il campionamento stratificato proporzionale è più
efficiente del campionamento casuale semplice. Teorema 6.21
Il campionamento stratificato proporzionale è più efficiente del campionamento casuale semplice.
Dimostrazione
Riprendendo le espressioni (2.53) e (6.29) delle varianze:
V [m (y)] =
N −n 1 2
v (η) ,
N −1 n
M
V [msp (y)] =
N − n Nk2 2
v (ηk )
nN 2
Nk − 1
k=1
Sfruttando il rapporto delle precisioni e poiché i due stimatori sono corretti,
la valutazione può essere fatta in termini di varianze. Si ha dunque:
3 (c.c.s) [m (y)] 1 V [msp (y)]
Deff =
=
(SP ) [msp (y)]
V [m (y)]
M
1 Nk
2
N
Nk −1 Nk v (ηk )
k=1
=
< 1.
N
2
N−1 v (η)
Se
Nk
Nk −1
→ 1 allora, in base alla (1.35) vale la relazione
V [msp (y)]
v2 (η)
= e2
< 1.
V [m (y)]
v (η)
Ossia:
ve2 (η) < v2 (η).
(6.35)
Tale condizione è sempre verificata. L’uguaglianza corrisponde al caso in
cui è indifferente effettuare la stratificazione. Quindi, il campionamento stratificato rappresentativo è tanto più efficiente del campionamento casuale semplice
quanto più è piccola la varianza entro gli strati.
La conclusione a cui si arriva con questo teorema è molto generica. Sotto
condizioni particolari si può arrrivare a conclusioni più precise.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
6.3.1
177
Caso particolare di strati della stessa ampiezza
Quando gli strati sono della stessa ampiezza si ha il caso particolare:
Nk
N
= N0
= MN0
nk = n0
n = Mn0
Teorema 6.22 Il campionamento stratificato con strati della stessa ampiezza
è più efficiente del campionamento casuale semplice quando:
s2t (η)
> 1.
s2e (η)
(6.36)
Dimostrazione
In questo caso il rapporto delle precisioni diventa:
3 (c.c.s) [m (y)] 1 V [msp (y)]
Def f =
=
(SP ) [msp (y)]
V [m (y)]
M
N0
1
N0 v2 (ηk )
N N k=1 N0 −1
=
N −1
vt2 (η) + ve2 (η)
=
N0
2
N0 −1 ve (η)
N
2
2
N−1 [vt (η) + ve (η)]
N0 M N0 − 1
ve2 (η)
N0 − 1 MN0
vt2 (η) + ve2 (η)
ve2 (η)
N −1
.
=
N − M vt2 (η) + ve2 (η)
=
Ne segue che tale rapporto è inferiore all’unità se e solo se si verifica:
N −1
ve2 (η)
<1
N − M vt2 (η) + ve2 (η)
ve2 (η)
N −M
<
2
2
vt (η) + ve (η)
N −1
vt2 (η) + ve2 (η)
N −1
>
2
ve (η)
N −M
vt2 (η)
N −1−N +M
>
2
ve (η)
N −M
Quindi, la condizione per cui il campionamento stratificato rappresentativo nel
caso di strati della stessa ampiezza è più efficiente del campionamento casuale
semplice diventa:
vt2 (η)
M −1
>
ve2 (η)
N −M
che equivale, usando le varianze (1.38) e (1.39), a
s2t (η)
> 1.
s2e (η)
Daniela Cocchi: Teoria dei Campioni
178
6.4. CAMPIONAMENTO STRATIFICATO OTTIMALE
La condizione (6.36) è cruciale per valutare la bontà dell’allocazione proporzionale,
seppure nel caso particolare di strati della stessa dimensione. Se il rapporto
risulta poco superiore ad 1, o addirittura inferiore ad 1, si rivela inutile formare
i gruppi, ossia effettuare la stratificazione.
Si può dunque notare che, se le medie di strato tendono ad avere lo stesso ordine di grandezza, non si guadagna in efficienza nella stratificazione proporzionale; se invece le medie di strato sono molto diverse, si può ottenere una
notevole riduzione della varianza dello stimatore e quindi un aumento della sua
precisione.
6.4
Campionamento stratificato ottimale
L’allocazione proporzionale rappresenta una soluzione naturale nel caso di stratificazione in quanto garantisce che le dimensioni relative degli strati siano rispettate nel campione. Un criterio alternativo è costituito dalla ricerca dei valori
nk che, fissata la dimensione n del campione, rendono minima la varianza degli
stimatori, data la variabilità strutturale della popolazione. Si consideri il caso
dello stimatore della media di popolazione. E’ intuitivo attendersi che la varianza (6.10) di tale stimatore tenderà a ridursi se si campiona più intensamente
dagli strati in cui s2 (ηk ) è elevata e meno intensamente da quelli in cui s2 (ηk ) è
piccola.
Teorema 6.23 In una popolazione suddivisa in M strati di cui si conoscano
le dimensioni degli strati Nk e la varianza di strato nella espressione s2 (ηk ),
l’allocazione ottimale negli strati di un campione di dimensione n è
nk = n
s (ηk ) Nk
.
M
Nk∗ s (ηk∗ )
(6.37)
k∗ =1
La dimostrazione è svolta nell’Appendice 2.
In base a questo risultato la numerosità campionaria nk ottimale è tanto più
elevata quanto più sono elevate la dimensione Nk dello strato e s (ηk ), ossia la
variabilità interna allo strato k-esimo.
Nota. Quando si usa l’allocazione ottima si può verificare un inconveniente
in quanto all’interno dello strato potrebbe essere richiesta una numerosità campionaria superiore alla popolazione dello strato. Solitamente, in questi casi si
effettua la rilevazione totale su quello strato e si riapplica l’allocazione ottimale
sulla numerosità rimanente. Si supponga, ad esempio, di voler estrarre da una
popolazione di N = 1000 elementi un campione di n = 50 sotto l’ipotesi di aver
individuato nella popolazione tre strati rispettivamente di dimensione N1 = 540,
N2 = 450, N3 = 10. Avendo ottenuto, in base a considerazioni sulla varianza
degli strati, l’allocazione ottimale n1 = 15, n2 = 20, n3 = 15 rimarrebbero da
allocare 5 elementi. Su questi si effettua nuovamente l’allocazione ottima nei
primi due strati.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
6.4.1
179
Equivalenza del campionamento stratificato ottimale al campionamento proporzionale nel caso di uguale varianza all’interno degli strati.
Teorema 6.24 L’allocazione ottimale coincide con l’allocazione proporzionale
nel caso in cui vi è uguale variabilità interna in ciascuno strato.
Dimostrazione
Se la partizione della popolazione in strati è tale da garantire la stessa
variabilità di ciascuno strato, le varianze entro s2 (ηk ) sono uguali tra loro e
coincidono con la loro media:
s2 (η1 ) = s2 (η2 ) = . . . = s2 (ηM ) =
M
1 Nk s2 (ηk ) = s̄2 (η) .
N
(6.38)
k=1
Sostituendo la (6.38) nella (6.37) l’allocazione ottimale di nk è realizzata
quando
n
Nk s̄ (η)
= Nk ,
(6.39)
nk = n
N s̄ (η)
N
dunque, se vale la (6.38), l’allocazione ottimale coincide con l’allocazione proporzionale. Le proprietà teoriche della stratificazione che sono state esposte dipendono
dalle varianze all’interno delle sottopopolazioni. L’unico elemento su cui poter
intervenire per ridurre la varianza teorica consiste nella scelta dell’allocazione
in modo da ridurre il peso delle componenti di varianza entro. Le allocazioni
maggiormente utilizzate sono la (6.25) e la (6.37).
L’allocazione uguale per ogni strato, nk = n/M, si effettua se si vogliono
verificare differenze tra strati, spesso assumendo che le varianze di strato siano
uguali. L’allocazione proporzionale nk = fNk , si usa frequentemente quando si hanno indagini con molte domande. L’allocazione ottimale consiste nella
ricerca dei valori nk che, fissata la dimensione n del campione, rendono minima la varianza degli stimatorirelativi ad una variabile unidimensionale, data la
variabilità strutturale della popolazione. Se ci sono molte variabili oggetto di
studio la ricerca dell’allocazione ottimale per ogni variabile può dare risultati
contraddittori.
Le variabili di stratificazione devono essere associate alla variabile oggetto di
inferenza in quanto hanno la funzione di individuare strati omogenei al loro interno. Sono usate frequentemente, a questo proposito, variabili di dimensione in
base alle quali la popolazione viene ripartita in gruppi di numerosità diseguale.
Alcune valutazioni generali sui costi di campionamento sono riportate nell’Appendice 3.
Esempio 6.2 Confronti tra diverse strategie di campionamento legate
alla stratificazione per una dimensione campionaria fissa
Si vuole stimare il consumo medio di lubrificante m(η) di un’azienda del settore
energetico che ha N = 330 impianti ad energia eolica in Europa. Tali impianti
sono raggruppati secondo la potenza (in megawatt) e danno origine alla seguente
tabella descrittiva di popolazione:
Daniela Cocchi: Teoria dei Campioni
6.4. CAMPIONAMENTO STRATIFICATO OTTIMALE
180
Gruppo
1
2
3
4
Potenza
0 − 900
901 − 2000
2001 − 4000
> 4000
Nk
55
187
65
23
m(ηk )
13, 48
26, 78
56, 79
100, 9
s(ηk )
6, 67
12, 35
17, 9
40
Si ricava s2 (η) impiegando la scomposizione della devianza (1.40):
4
1 Nk m(ηk ) = 35, 64
330
k=1
4
4
1
2
2
2
Nk [m(ηk ) − 35, 64] +
(Nk − 1) s (ηk )
s (η) =
330 − 1
m(η) =
k=1
k=1
1
=
[86477.83 + 168717.95] = 775.67.
329
Si pongono a confronto diverse strategie per una dimensione campionaria
costante n = 27.
a) Se si effettua un campionamento casuale semplice senza reintroduzione e
si impiega lo stimatore (2.49), la varianza (2.53) è:
"
n # s2 (η)
V [m (y)] = 1 −
= 26.37
N
n
b) Se si effettua un campionamento stratificato senza reintroduzione con
allocazione proporzionale si ottengono le seguenti numerosità campionarie di
strato:
n1 = 5 n2 = 15 n3 = 5 n4 = 2
e impiegando lo stimatore (6.27) la relativa varianza è:
4
V [msp (y)] =
330 − 27 Nk s2 (ηk ) = 9.13.
27 · 3302
k=1
c) Se si effettua un campionamento stratificato senza reintroduzione con
allocazione ottimale si ottengono le seguenti numerosità campionarie di strato:
n1 = 2 n2 = 13 n3 = 7 n4 = 5
e impiegando lo stimatore (6.6) la relativa varianza è:
2 4 1
1
Nk
−
s2 (ηk ) = 6.90.
V [mso (y)] =
N
nk
Nk
k=1
Si osservi che:
V [mso (y)] < V [msp (y)] < V [m (y)] .
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
6.5
181
[Numerosità campionaria in stratificazione]Determinazione della numerosità campionaria complessiva nel campionamento
stratificato
La teoria esposta fino ad ora assume che la dimensione complessiva del campione sia stata prefissata. Anche nel caso della stratificazione si può determinare la
numerosità campionaria complessiva che garantisca errori prestabiliti, in modo
analogo a quanto visto nel Capitolo 2, per il campionamento casuale semplice.
La determinazione della numerosità campionaria complessiva n viene effettuata nell’ipotesi di campionamento stratificato proporzionale. L’allocazione negli
strati avviene successivamente, secondo il criterio scelto dal ricercatore.
Per la stima della media, utilizzando la (2.78) e la (6.30):
2
N −n 2
ε
s (η) =
Nn
z α2
si ottiene direttamente, riprendendo direttamente la derivazione della (2.85):
 2
−1 
−1
2
ε
ε
 zα
 N zα
1
1
2
2




n= 2
+  = 
(6.40)
+
 .
N
 s (η)
 Nk s2 (ηk ) N 
Per il totale, con passaggi simili a quelli che portano dalla (2.78) alla (2.92),
si ottiene:

ε
zα
2
−1

1
2


n= 2 2
+ 
 N s (η) N 

ε
zα
2
−1

1
2


= +

 N Nk s2 (ηk ) N 
.
(6.41)
Esempio 6.3 Determinazione della numerosità campionaria per stimare una media con un errore prestabilito
Si consideri la popolazione dell’esempio 6.2. Si determini la dimensione campionaria, nel caso di campionamento stratificato, che dia luogo ad un errore
complessivo pari a 14 per la stima della media di popolazione, con una fiducia
complessiva pari al 99%.
In questo caso l’errore assoluto è ε=7. Nella distribuzione normale, il valore
della variabile standardizzata da usare è z0.005 =2.58, quindi
2
ε
= 7.361.
z α2
La dimensione campionaria per la stima della media secondo la (6.40) è:

−1
2
ε
−1
 N zα
1
330 × 7.361
1
2


n=
+  =
+
= 32.84 33.
 Nk s2 (ηk ) N 
88595.25
330
Daniela Cocchi: Teoria dei Campioni
6.6. APPENDICI
182
La stessa richiesta di controllo di errore, in un campionamento casuale semplice,
necessita una dimensione campionaria, calcolata con la (2.85), pari a
n = 79.86 80.
La dimensione campionaria ridotta nel caso di stratificazione rispetto al campionamento casuale semplice è dovuta al fatto che la varianza degli stimatori
proposti per la stratificazione dipende solo da una componente della varianza di
popolazione. La varianza degli stimatori nel campionamento casuale semplice
dipende invece dalla varianza complessiva.
Nelle Appendici 3 e 4 sono riportati i risultati dell’applicazione della stima
per quoziente nel campionamento stratificato.
6.6
6.6.1
Appendici
Appendice 1 Valori approssimati per la varianza dello stimatore della media nel caso di campionamento stratificato
con allocazione proporzionale
D I risultati riguardano la stima della media; quelli per il totale sono una loro
facile estensione.
Teorema 6.18 Nel caso di dimensioni Nk degli strati elevate la varianza dello
stimatore della media si può esprimere mediante l’approssimazione:
V [msp (y)] N −n 2
v (η).
Nn e
(6.42)
Dimostrazione
Riprendendo la (6.29), nel caso di dimensioni elevate degli strati in popok
lazione, si potrà considerare NN
→ 1, ottenendo:
k −1
M
V [msp (y)] =
N − n Nk2 2
v (ηk )
nN 2
Nk − 1
k=1
N −n 2
v (η).
Nn e
Analogamente, partendo dalla (6.30), sotto la medesima condizione si ottiene
la stessa approssimazione:
V [msp (y)] =
N −n 2
N −n 2
s̄ (η) v (η).
nN
Nn e
Corollario 6.7 Nel caso di dimensioni elevate degli strati Nk e di piccola dimensione n dell’intero campione rispetto alla dimensione della popolazione N ,
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
183
N−n
N
→ 1, la varianza dello stimatore per la media nel campionamento stratificato proporzionale (6.30) è approssimativamente equivalente all’espressione
della varianza nel caso di campionamento con reintroduzione:
N −n 2
s̄2 (η)
s̄ (η) .
Nn
n
V [msp (y)] =
(6.43)
Teorema 6.19 Nel caso di gruppi di grande dimensione e piccola dimensione
globale del campione si può usare l’approssimazione:
V [msp (y)] ve2 (η)
.
n
Dimostrazione
Le varianze degli stimatori delle medie di strato possono essere approssimate
da quelle del caso di campionamento casuale semplice con reintroduzione:
V [m (yk )] =
v2 (ηk )
nk
1≤k≤M
e quindi, sostituendo questa espressione nella (6.7) e ricordando che l’allocazione
è proporzionale:
V [msp (y)] M
N 2 v2 (ηk )
k
k=1
=
N2
nk
M
N 1 Nk v 2 (ηk )
v2 (η)
= e
.
nN
N
n
k=1
Nota. La relazione
V [msp (y)] =
ve2 (η)
n
è esatta se, indipendentemente dal tipo di allocazione, si effettua campionamento
casuale semplice con reintroduzione all’interno di ciascuno strato.
6.6.2
Uno stimatore della varianza dello stimatore della media nel
campionamento stratificato proporzionale
La (6.43) può essere stimata da:
V̂ [msp (y)] =
s̄2 (y)
N −n 2
s̄ (y) .
Nn
n
Teorema 6.20 Lo stimatore (6.44) è corretto per la (6.43).
Daniela Cocchi: Teoria dei Campioni
(6.44)
6.6. APPENDICI
184
6.6.3
Appendice 2
Teorema 6.23 In una popolazione suddivisa in M strati di cui si conoscano
le dimensioni degli strati Nk e la varianza di strato nella espressione s2 (ηk ),
l’allocazione ottimale negli strati di un campione di dimensione n è
nk = n
s (ηk ) Nk
.
M
Nk∗ s (ηk∗ )
k∗ =1
Dimostrazione
Si tratta di risolvere un problema di minimo vincolato, in cui il vincolo è
dato da:
M
nk = n.
(6.45)
k=1
Utilizzando il metodo dei moltiplicatori di Lagrange la funzione da minimizzare
sarà data da:
Ψ(n1 , n2 , ..., nM ; θ) = V [ms (y)] + θ(
M
k=1
dove
V [ms (y)] =
nk − n),
(6.46)
M
s2 (ηk )
1 N
(N
−
n
)
.
k
k
k
N2
nk
k=1
Per determinare il minimo, si risolve il sistema:
dΨ
1≤k≤M
dnk = 0
dΨ
=
0
dθ
L’annullamento della seconda derivata dà luogo a
M
nk = n.
(6.47)
k=1
coincidente con la (6.45).
Le derivate parziali rispetto a nk sono nulle quando
s2 (ηk ) −Nk nk − Nk2 + Nk nk
+θ =0
N2
n2k
e quindi
−s2 (ηk ) Nk2 + θN 2 n2k = 0
1 ≤ k ≤ M.
Dunque, dalla prima condizione si ottiene
n2k =
s2 (ηk ) Nk2
θN 2
1≤k≤M
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
185
ed estraendo la radice:
s (ηk ) Nk
√
θN
1≤k≤M
√
Nk s (ηk )
θ=
N nk
1 ≤ k ≤ M.
nk =
da cui si ricava che
(6.48)
Tenendo conto della (6.47), deve valere:
M
s (ηk ) Nk
√
= n,
θN
k=1
quindi
√
θ=
Nk s (ηk )
.
Nn
Perciò, eguagliando le due espressioni (6.48) e (6.49), si ottiene:
nk
= M
Nk s (ηk )
(6.49)
n
Nk∗ s (ηk∗ )
k∗ =1
da cui si ricava in modo immediato:
nk = n
s (ηk ) Nk
.
M
Nk∗ s (ηk∗ )
k∗ =1
6.6.4
Appendice 3
Costi di campionamento
Si consideri il caso in cui tutte le unità nello stesso strato hanno uguale costo
di campionamento Ck , 1 ≤ k ≤ M , ed il costo complessivo di campionamento
viene definito tramite una funzione lineare, ossia
C=
M
k=1
nk Ck .
Se si desidera effettuare l’allocazione ottima in questo caso, la ricerca del
minimo della varianza dello stimatore dipende dalle due quantità Ck e nk . Il
problema può essere risolto seguendo due vie alternative:
1) nel primo caso si tiene fissa la numerosità campionaria n e si risolve il
problema di minimo rispetto a Ck . L’allocazione che dà luogo ad una stima con
la varianza inferiore è:
√
Nk s(ηk )/ Ck
nk = n M
1 ≤ k ≤ M;
√
Nk∗ s(ηk∗ )/ Ck∗
k∗ =1
Daniela Cocchi: Teoria dei Campioni
6.6. APPENDICI
186
2) se si tiene fisso il costo totale di campionamento a C, l’allocazione che dà
luogo a stime con la varianza minore è:
√
Nk s(ηk )/ Ck
nk = C M
1 ≤ k ≤ M.
√
∗
∗
∗
Nk s(ηk )/ Ck
k∗ =1
Si osserva che, tenendo conto del costo della rilevazione negli strati, si aggiunge, nelle formule di allocazione ottimale, una relazione inversa con tale
costo.
6.6.5
Appendice 4 [Metodo del quoziente nella stratificazione]Gli
stimatori per quoziente nel campionamento stratificato
In base alle informazioni a disposizione nella costruzione del campione stratificato, si distinguono due casi di stima tramite il metodo del quoziente: la stima
separata e la stima combinata. Nell’esposizione che segue si considera solo il
caso della stima della media di popolazione.
6.6.6
Stimatore per quoziente separato della media di popolazione
Quando si conosce la media di una variabile ausiliaria ζ, m(ζk ), per ogni strato
della popolazione, diviene possibile proporre lo stimatore (4.2) in ogni strato:
mQ (yk ) =
m(yk )
m(ζk ) = bQk m(ζk ),
m(zk )
(6.50)
Lo stimatore per quoziente separato della media di popolazione è la media
ponderata delle medie (6.50) stimate negli strati:
mQS (y) =
M
1 Nk mQ (yk ) .
N k=1
(6.51)
Utilizzando la teoria della stima in stratificazione e richiamandosi alla (6.10) ed
alla (4.36), si dimostra che il termine principale della
dello stimatore
" varianza
#
(4.23), a meno di un’approssimazione dell’ordine O n12 , è:
k
V [mQS (y)] M
!
1 2 Nk − nk 1 2
2
Nk
s (ηk ) + βQk
s2 (ζk ) − 2βQk s (ηk , ζk ) ,
2
N
Nk nk
k=1
(6.52)
dove
βQk =
m(ηk )
.
m(ζk )
La varianza (6.52) può essere stimata con lo stimatore
V̂ [mQS (y)] =
M
!
1 2 Nk − nk 1 2
Nk
s (yk ) + b2Qk s2 (zk ) − 2bQk s (yk , zk )
2
N
Nk nk
k=1
(6.53)
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
187
E’ importante tener presente che la stima negli strati con la correzione per
quoziente diviene opportuna solo quando la numerosità nk delle osservazioni
negli strati raggiunge valori abbastanza elevati. Infatti, per valori bassi di nk ,
il rischio è che il termine di distorsione (4.20) della stima nello strato diventi
rilevante.
Si deve inoltre considerare che le distorsioni degli stimatori delle medie negli
strati si sommano algebricamente nello stimatore (6.51), quindi, se questa ha
lo stesso segno nei vari strati, lo stimatore mQS (y) può risultare gravemente
distorto.
6.6.7
Stimatore per quoziente combinato della media di popolazione
Nel caso in cui non siano note le medie di ζ nei vari strati, ma soltanto la media
generale m(ζ), si utilizzano le medie campionarie negli strati per calcolare gli
stimatori di stratificazione per m(η) e m(ζ). Quindi si determina il quoziente
bQS , rapporto tra due stimatori corretti, che stima il coefficiente angolare della
retta di popolazione che passa per l’origine:
bQC =
dove
ms (y) =
ms (y)
ms (z)
M
1 Nk m(yk )
N
(6.54)
(6.55)
k=1
ms (z) =
M
1 Nk m(zk )
N
(6.56)
k=1
Lo stimatore per quoziente combinato della media della popolazione è:
mQC (y) = bQC m(ζ).
(6.57)
Si può dimostrare che:
V [mQC (y)] M
!
1 2 Nk − nk 1 2
2 2
Nk
s (ηk ) + βQ
s (ζk ) − 2βQ s(ηk , ζk ) ,
N2
Nk nk
k=1
(6.58)
dove βQ coincide con la (4.5). Tale varianza può essere stimata con lo
stimatore
V̂ [mQC (y)] =
M
!
1 2 Nk − nk 1 2
Nk
s (yk ) + b2QC s2 (zk ) − 2bQC s(yk , zk )
2
N
Nk nk
k=1
(6.59)
Quando la dimensione del campione in ogni strato è sufficientemente elevata
lo stimatore (6.51) è più preciso dello stimatore (6.57):
V [mQC (y)] > V [mQS (y)] .
Tale differenza si accentua quando la relazione tra le due variabili in esame nei
vari strati, descritta da βQk , è diversa da strato a strato.
Daniela Cocchi: Teoria dei Campioni
6.6. APPENDICI
188
6.6.8
Appendice 5 [Stimatore per regressione nella stratificazione]Gli
stimatori per regressione nel campionamento stratificato
Per l’uso dello stimatore di regressione nel caso di campioni stratificati si possono ripetere le stesse considerazioni fatte sul metodo del quoziente in campioni
stratificati. Anche in questo caso si considera solo il caso della stima della media
di popolazione.
6.6.9
Stimatore di regressione separato della media di popolazione
Dalla (5.13) segue che lo stimatore di regressione per ogni strato è:
mRG (yk ) = m (yk ) + bRk {m (ζk ) − m (zk )} ,
dove
bRk =
s (yk , zk )
k = 1, ..., M .
s2 (zk )
(6.60)
(6.61)
Lo stimatore di regressione separato stratificato è:
mRGS (y) =
M
Nk
k=1
N
mRG (yk )
(6.62)
Direttamente dalla teoria della stratificazione e ricordando la (5.22), si dimostra
che la varianza approssimata dello stimatore (6.62) è:
V [mRGS (y)] M
!
Nk2 Nk − nk 1 2
s (ηk ) 1 − r2 (ηk , ζk )
2
N
Nk
nk
(6.63)
k=1
Tale varianza può essere stimata con lo stimatore:
M
!
Nk2 Nk − nk 1 2
V̂ (mRGS (y)) =
s (yk ) 1 − r2 (yk , zk )
2
N
Nk
nk
(6.64)
k=1
6.6.10
Stimatore di regressione combinato della media di popolazione
In analogia con quanto visto per lo stimatore combinato (6.57), anche nel caso
dello stimatore di regressione combinato per la media di popolazione sono utilizzati i due stimatori di stratificazione corretti (6.55) e (6.56) per m(η) e per
m(ζ) . Lo stimatore per regressione combinato è quindi:
mRGC (y) = ms (y) + bc [m (ζ) − ms (z)]
(6.65)
dove bc è scelto in modo da minimizzare la somma dei quadrati degli scarti degli
errori ei :
M
Nk (Nk −nk )
s (yk , zk )
nk
k=1
bc = M
(6.66)
Nk (Nk −nk ) 2
s
(z
)
k
nk
k=1
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 6. CAMPIONAMENTO STRATIFICATO
189
Il termine principale della varianza dello stimatore (6.65) è:
M
!
Nk2 Nk − nk 1 2
s (ηk ) + βc2 s2 (ζk ) − 2βc s (ηk , ζk ) ,
V [mRGC (y)] 2
N
Nk
nk
k=1
(6.67)
dove
M
Nk (Nk −nk )
s (ηk , ζk )
nk
k=1
βc = M
(6.68)
Nk (Nk −nk ) 2
s
(ζ
)
k
nk
k=1
Si noti che βc è una media ponderata dei coefficienti angolari in ogni strato
βRk =
s (ηk, ζk )
s2 (ζk )
(6.69)
Lo stimatore (6.62) ha varianza minore dello stimatore (6.65), a meno che βRk =
βc ∀ strato. In effetti l’interpolazione della nuvola degli N punti di popolazione
con una sola retta ha senso solo se nella popolazione le rette dei minimi quadrati
in ciascuno strato non hanno inclinazioni troppo diverse.
La stima combinata ha ipotesi molto forti di omogenità della pendenza della
retta in tutti gli strati.
Uno stimatore della varianza (6.67) è:
M
!
Nk2 Nk − nk 1 2
V̂ (mRGC (y)) =
s (yk ) + b2c s2 (zk ) − 2bc s (yk , zk ) .
2
N
Nk
nk
k=1
(6.70)
Daniela Cocchi: Teoria dei Campioni
6.6. APPENDICI
190
Daniela Cocchi: Teoria dei Campioni
Capitolo 7
Introduzione al
campionamento a grappolo
Il campionamento probabilistico di unità complesse ad uno stadio, a cui segue
quindi la rilevazione totale delle unità elementari contenute nei gruppi selezionati,
è comunemente detto campionamento a grappolo.
La principale motivazione del campionamento a grappolo è la mancata disponibilità di liste che identifichino le unità elementari della popolazione, mentre si
dispone di liste riguardanti gruppi di unità elementari. L’estrazione riguarda
quindi i grappoli, ovvero le unità complesse costituite da insiemi di unità elementari non direttamente identificabili, e il campione è formato dalle unità
elementari selezionate. La disponibilità delle liste degli individui contenuti nelle
unità complesse permette a sua volta di identificare le unità elementari che vi
appartengono.
Uno svantaggio connesso al campionamento a grappolo consiste nel fatto
che gli elementi che fanno parte della stessa unità complessa tendono ad essere
omogenei rispetto alla variabile oggetto di studio, mentre, in teoria, l’idea di
campionare gruppi è vantaggiosa quando essi sono simili tra loro ed eterogenei
al loro interno. L’intera popolazione verrebbe così rappresentata adeguatamente
tramite il campionamento. Se i gruppi tendessero ad essere omogenei, non ci
sarebbe infatti bisogno di replicare un grande numero di osservazioni al loro
interno, mentre sarebbero opportune le replicazioni dei gruppi.
La dimensione del campione di grappoli è meno elevata della dimensione
del campione di unità elementari corrispondente, e i costi di formazione o di
individuazione delle liste sono commisurati soprattutto a tali unità e non alle
unità elementari. A parità di dimensione campionaria complessiva, quindi, il
costo di un campione a grappolo tende ad essere inferiore a quello di un campione
estratto dalla popolazione di unità elementari. Al contrario, a parità di costo
complessivo del campione, il campione ottenuto con la grappolatura contiene un
numero di unità elementari maggiore di un campione estratto dalla popolazione
di unità elementari.
Le ragioni per cui si costruiscono liste di gruppi di unità possono essere di
tipo organizzativo, nei casi in cui la lista delle unità complesse sia l’unico tipo
di lista disponibile. Altre motivazioni per il campionamento a grappolo sono il
risparmio nei costi di costruzione delle liste o per lo spostamento dei rilevatori.
191
192
Questo tipo di campionamento viene usato quando il costo per avvicinare
tutte le unità all’interno del grappolo è basso. Ad esempio, se le unità complesse
sono ospedali e le unità elementari tutti i pazienti con una certa diagnosi, può
non essere costoso rilevare i dati su tutti questi pazienti.
Dal punto di vista dell’inquadramento teorico, il campionamento a grappolo
può essere visto come:
1. un’alternativa al campionamento stratificato, se si riescono a controllare
i contributi delle componenti entro i gruppi e tra i gruppi della varianza
globale,
2. un caso particolare di campionamento a più stadi, che viene trattato
succesivamente,
3. una motivazione per spiegare il campionamento sistematico.
Si considera la popolazione di dimensione
N=
M
Nk ,
k=1
partizionata in M gruppi, in questo caso detti grappoli, con k = 1, ..., M , che
spesso hanno piccola dimensione. La variabile oggetto di inferenza è quindi
descritta, in popolazione, secondo la (1.21), con un indice che scorre entro i
gruppi ed uno che scorre tra i gruppi. Dalla popolazione si estrae un campione
di m grappoli, o unità complesse. I gruppi campionati vengono indicati come:
{kj : 1 ≤ j ≤ m} .
Il campione è formato da tutte le unità elementari appartenenti ai grappoli
selezionati.
Si osservi che, mentre la dimensione del campione di unità complesse m è
nota a priori, la dimensione del campione di unità elementari n in generale è
aleatoria, infatti si ha:
m
n=
Nkj .
(7.1)
j=1
La manifestazione del carattere η nel j-esimo grappolo campionato è:
yjλ = ηkj
1 ≤ λ ≤ Nkj ,
quindi il vettore delle osservazioni del carattere oggetto di studio nelle unità
elementari campionate è:
y = {yjλ : 1 ≤ j ≤ m, 1 ≤ λ ≤ Nkj }.
(7.2)
In questo tipo di campionamento, l’estrazione di un generico grappolo comporta l’osservazione di tutte le unità elementari che formano il grappolo stesso.
Per stimare valori sintetici di popolazione della variabile oggetto di indagine,
come il totale (1.3) e la media (1.4), è utile considerare come elemento base la
somma dei valori rilevati nei grappoli, vale a dire nelle unità complesse. Nella
j-ma unità complessa appartenente al campione si osserva quindi
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
193
Nk
Nk
λ=1
λ=1
j
j
t (yj ) = t ηkj =
yjλ =
ηjλ
(7.3)
che è il totale della variabile oggetto di studio nel grappolo selezionato, in cui
viene effettuata la rilevazione completa. Il grappolo è un’unità complessa, in
cui viene effettuata una rilevazione totale.
Se si ridefinisce la popolazione in modo che sia formata da M unità complesse e quindi il campione è formato da m unità complesse, se si propone la
strategia costuita da campionamento casuale semplice, e si propongono gli stimatori lineari omogenei per l’inferenza sulla media per grappolo (e sul totale di
popolazione), il campionamento a grappolo è un caso semplificato di campionamento casuale semplice. Se si vuole inferire sulla media nella popolazione di
unità elementari, la trattazione si complica leggermente.
In ogni gruppo selezionato si dispone anche di
t ηkj
t (yj )
m (yj ) =
=
.
Nkj
Nj
(7.4)
La dimensione dell’universo dei campioni formati da unità elementari coincide con la dimensione dell’universo dei campioni formati da unità complesse
che, in caso di estrazione senza reintroduzione, nel caso di campioni non ordinati,
è:
Dim(Sm ) = CM,m =
M!
.
m! (M − m)!
Nel seguito, le Sezioni 7.1, 7.2, 7.3 descrivono l’inferenza nel caso di campionamento casuale semplice senza reintroduzione di unità complesse. Il paragrafo
7.4 presenta il campionamento sistematico come caso particolare del campionamneto a grappolo. Nelle Appendici sono riportati ulteriori risultati, in particolare, nelle Appendici 3 e 4, si verifica come due stimatori intuitivi nel caso
di campionamento a grappolo abbiano una giustificazione teorica in termini,
rispettivamente, di campionamento a probabilità variabile con reintroduzione e
della stima per quoziente.
7.1
7.1.1
Il campionamento casuale semplice di grappoli
Probabilità dei campioni non ordinati
La probabilità di estrazione di ciascun campione non ordinato estratto senza
reintroduzione, nel caso in cui tutti i campioni abbiano la stessa probabilità, è:
p(s) =
1
CM,m
=
m! (M − m)!
M!
∀s ∈ Sm .
Daniela Cocchi: Teoria dei Campioni
194
7.1.2
7.1. IL CAMPIONAMENTO CASUALE SEMPLICE DI GRAPPOLI
Probabilità di inclusione
Le probabilità di inclusione, che valgono sia per le unità complesse sia per le
unità elementari, vengono ricavate a partire dai risultati noti sul campionamento casuale semplice senza reintroduzione. Ricordando che ciascuna unità
elementare compare nel campione solo nel caso in cui il relativo grappolo di
appartenenza sia stato selezionato, la probabilità d’inclusione di primo ordine
è:
m
1≤k≤M
πk = πλ =
.
(7.5)
1 ≤ λ ≤ Nk
M
Le probabilità d’inclusione di secondo ordine sono diverse se ci si riferisce a
unità appartenenti allo stesso grappolo o a grappoli diversi. Nel caso di unità
appartenenti allo stesso grappolo:
πλλ = πk =
m
M
1≤k≤M
,
1 ≤ λ = λ ≤ Nk
(7.6)
e, nel caso di unità appartenenti a grappoli diversi:
πλλ = πkk =
m m−1
M M −1
1 ≤ k = k ≤ M
.
1 ≤ λ = λ ≤ Nk
(7.7)
Poiché viene effettuato un campionamento casuale semplice dei grappoli,
si applica quindi la teoria relativa a questo campionamento applicandola alla
popolazione delle unità complesse.
7.1.3
Espressione della casualità del campionamento di
unità complesse tramite un vettore aleatorio
Nella popolazione delle M unità complesse, si definisce, analogamente a quanto
si è fatto nel Capitolo 1, il vettore aleatorio
b = (b1 , ..., bk , ..., bM ) = {bk : 1 ≤ k ≤ M } ,
che associa alla k-ma unità complessa un valore che indica il numero di volte in
cui tale unità complessa entra nel campione.
Le più importanti sintesi della distribuzione multivariata di b sono il vettore
delle E(bk ), le V (bk ) e le C(bk , bk ), analogamente a quanto è stato esposto nella
sezione 1.4.
In particolare, se il campionamento delle unità complesse è casuale semplice senza reintroduzione, ciascuna bk segue una distribuzione di Bernoulli di
m
parametro πk = M
con:
m
,
M
m M −m
V (bk ) =
M M
E (bk ) =
e
(7.8)
(7.9)
m M −m
k = k .
(7.10)
M2 M − 1
Se il campionamento è con reintroduzione, ciascuna bk segue una distribuzione
binomiale di parametri (m, pk ).
C(bk , bk ) = −
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
195
7.1.4
Stimatori lineari omogenei nel caso di campionamento di unità complesse
La dimensione complessiva del campione risulta aleatoria, come già messo in
evidenza con la (9.1). Tale fatto è confermato dalla relazione:
n=
m
Nj =
j=1
M
bk Nk .
(7.11)
k=1
Riscrivendo lo stimatore lineare omogeneo (1.106) in riferimento alla popolazione formata dalle unità complesse, si ottiene l’equivalente della (1.107):
ft (y) =
m
wj t (yj ) =
j=1
M
bk wk t (ηk ) .
(7.12)
k=1
L’espressione della speranza dello stimatore lineare omogeneo corrispondente
alla (1.110) è:
M
E [ft (y)] =
E (bk ) wk t (ηk ) ,
(7.13)
k=1
mentre l’espressione della varianza dello stimatore lineare omogeneo, corrispondente alla (1.113) è:
V [ft (y)] =
M
V (bk ) wk2 t(ηk )2 + 2
C (bk , bk ) wk wk t(ηk )t(ηk ). (7.14)
k=1 k <k
k=1
7.2
M Il campionamento casuale semplice senza reintroduzione di grappoli con dimensioni diverse
Per la presentazione degli stimatori nel caso di campionamento casuale semplice
di grappoli con dimensione diversa, lo stimatore della media per grappolo ha un
ruolo fondamentale. Per questo motivo viene introdotto per primo lo stimatore
della media per grappolo, poi quello del totale e, come ultimo, quello della media
generale.
7.2.1
Inferenza sulla media per grappolo
Lo stimatore lineare omogeneo della media per grappolo
Lo stimatore lineare omogeneo della media per grappolo è proposto a partire
dal sistema di pesi in popolazione:
wk =
1
m
1 ≤ k ≤ M.
(7.15)
Tale sistema di pesi viene introdotto nell’espressione dello stimatore lineare
omogeneo (9.14). Lo stimatore della media per grappolo (8.2) diventa perciò:
Daniela Cocchi: Teoria dei Campioni
7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE
196
m
m∗g (y) =
m
1 1 Nj m (yj ) =
t (yj ) ,
m j=1
m j=1
(7.16)
vale a dire la media aritmetica semplice dei totali dei grappoli campionati.
In riferimento al campione di unità elementari, lo stimatore m∗g (y) può essere
interpretato come il rapporto tra il totale campionario nelle unità complesse
selezionate e la dimensione del campione di unità complesse, infatti riprendendo
la (9.18) si ottiene:
m
m∗g (y) =
N
k
1 t(y)
yjλ =
.
m j=1
m
(7.17)
λ=1
Correttezza dello stimatore della media per grappolo
Teorema 7.1 Lo stimatore (9.18) è corretto per la media per grappolo (8.2).
Dimostrazione
Sostituendo la (9.17) nella (9.15) si ha:
E
m∗g
M
M
M
! m 1
1 (y) =
E (bk ) wk t (ηk ) =
t (ηk ) =
t (ηk )
M
m
M
k=1
k=1
k=1
t (η)
=
= m∗ (η) .
M
Varianza dello stimatore della media per grappolo
In questo piano di campionamento sono stati estratti con campionamento casuale semplice senza reintroduzione m grappoli su M . Valgono quindi i risultati
della teoria del campionamento casuale semplice.
Si definisce la quantità
vg2 (η) =
2
M 1 M
Nk m (ηk ) − m (η)
M
N
(7.18)
k=1
Corollario 7.1 La (9.24) può anche essere scritta nel modo seguente, moltiplicando e dividendo per N 2 /M 2 :
vg2 (η)
=
=
=
=
2 2
M 1 M N
N
M
Nk m (ηk ) −
m (η)
M k=1 N M
M
N2
M
1 M2
[Nk m (ηk ) − m∗ (η)]2 2
M
N
k=1
M
M 2
2
2
2
Nk m (ηk ) − 2Mm∗ (η) + Mm∗ (η)
N2
k=1
M
2
M
1 2
2
2
∗
Nk m (ηk ) − m (η)
N2 M
k=1
Daniela Cocchi: Teoria dei Campioni
(7.19)
(7.20)
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
197
L’espressione (7.19) corrisponde alla varianza degli M totali di gruppo, la cui
media è appunto m∗ (η):
v2 (t (ηk )) =
M
1 2
2
2
Nk m (ηk ) − m∗ (η)
M
k=1
=
M
1 (Nk m (ηk ) − m∗ (η))2 .
M
k=1
Rispetto ai valori individuali, rappresenta quindi una varianza di tipo ”tra”.
Teorema 7.2 La varianza dello stimatore della media per grappolo è:
!
N 2 M − m vg2 (η)
V m∗g (y) = 2
M M −1 m
(7.21)
Dimostrazione
Introducendo nell’espressione della varianza del generico stimatore lineare
ed omogeneo (9.16) i pesi (9.17) e le espressioni (9.11) e (9.12) per varianza e
covarianza di bk si ottiene:
M
M !
m M −m 1
m M −m 1
2
V m∗g (y) =
t(η
)
−
2
t(ηk )t(ηk )
k
2 M − 1 m2
M M m2
M
k=1
k=1 k <k
M
M M −m 2
2
=
Nk m(ηk )2 −
Nk m(ηk )Nk m(ηk )
M 2m
M −1
k=1
k=1 k <k
M
M
M −m
2
2
Nk2 m(ηk )2
=
M
Nk m(ηk ) −
M 2 m(M − 1)
k=1
k=1
M
−2
Nk m(ηk )Nk m(ηk )
k=1 k <k
=
=

M
2 
M
M −m
M
Nk m(ηk ) 
Nk2 m(ηk )2 −
M 2 m(M − 1)
k=1
k=1
M
M −m
1 2
2
∗
2
Nk m(ηk ) − m (η)
m(M − 1) M
k=1
in cui si ritrova la (7.20), ottenendo:
!
N 2 M − m vg2 (η)
V m∗g (y) = 2
.
M M −1 m
Si definisce ora la quantità di popolazione:
M
v2 (η) .
(7.22)
M −1 g
Nota. La ragione per cui N compare nella definizione precedente è dovuta al
fatto che la popolazione che si sta trattando è cositutita dalle M unità complesse.
E’ possibile individuare un’ulteriore versione della varianza (9.21) espressa
dal seguente:
s2g (η) =
Daniela Cocchi: Teoria dei Campioni
7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE
198
Corollario 7.2 La (9.21) può essere calcolata utilizzando la (9.25), come:
V
!
m∗g (y)
M −m
=
Mm
N
M
2
s2g (η)
(7.23)
Corollario 7.3 La varianza dello stimatore della media per grappolo (9.21)
può essere scritta, riscrivendo la (7.19) nella (9.21), come:
V
m∗g
! M −m 1
(y) =
M −1 m
M
k=1 [Nk m (ηk )
M
− m∗ (η)]2
.
(7.24)
Ciò si verifica in quanto è stato effettuato un campionamento casuale semplice senza reintroduzione di m grappoli su M e quindi la varianza (7.24) dipende
dalla varianza dei totali di gruppo definita nel modo più semplice:
2
v (t (ηk )) =
M
k=1 [Nk m (ηk )
M
− m∗ (η)]2
Sono infatti validi i risultati della teoria del campionamento casuale semplice
applicata al campionamento delle unità complesse.
Uno stimatore distorto per la varianza vg2 (η)
Per la stima dell’espressione vg2 (η) si può partire dall’equivalente campionario
della (7.19):
vg2 (y) =
m
!2
1 M2 Nj m (yj ) − m∗g (y)
2
m N j=1
(7.25)
Teorema 7.3 La quantità (9.32) può essere espressa come:
vg2 (y) =
m
!2
M2
1 M2 2
∗
[N
m
(y
)
−
m
(η)]
−
m∗g (y) − m∗ (η)
j
j
m N 2 j=1
N2
Dimostrazione
Daniela Cocchi: Teoria dei Campioni
(7.26)
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
199
vg2 (y) =
m
!2
1 M2 Nj m (yj ) − m∗g (y)
m N 2 j=1
m
!2
1 M2 Nj m (yj ) − m∗ (η) − m∗g (y) + m∗ (η)
2
m N j=1

m
m
!2
1 M 2 
2
∗
=
[N
m
(y
)
−
m
(η)]
+
m∗g (y) − m∗ (η)
j
j
2
mN
j=1
j=1

m
!
−2 m∗g (y) − m∗ (η)
[Nj m (yj ) − m∗ (η)]
=
j=1
=
m
2 1 M
m N2
j=1
[Nj m (yj ) − m∗ (η)]2
!2
!2
M2
M2
m∗g (y) − m∗ (η) − 2 2 m∗g (y) − m∗ (η)
2
N
N
m
2
!2
M
1 M2 2
∗
=
[N
m
(y
)
−
m
(η)]
−
m∗g (y) − m∗ (η) .
j
j
2
2
m N j=1
N
+
Teorema 7.4 La quantità campionaria vg2 (y) non stima correttamente vg2 (η) :
! m−1 M
E vg2 (y) =
v 2 (η)
m M −1 g
(7.27)
Dimostrazione
Facendo la speranza della (9.28), si ha:


m
2 2
!
!
1
M
M
2
[Nj m (yj ) − m∗ (η)]2 − 2 m∗g (y) − m∗ (η) 
E vg2 (y) = E 
m N 2 j=1
N
La dimostrazione viene svolta separatamente per i due addendi.
Daniela Cocchi: Teoria dei Campioni
7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE
200


m
2 1
M
2
E
[Nj m (yj ) − m∗ (η)] 
m N 2 j=1
M
1 M2 2
∗
bk (Nk m(ηk ) − m (η))
=E
m N2
k=1
M
1 M2 2
∗
E (bk ) (Nk m(ηk ) − m (η))
=
m N 2 k=1
M
1 M2 m
2
∗
=
(Nk m(ηk ) − m (η))
m N2
M
k=1
M
M 2
∗
(Nk m(ηk ) − m (η)) = vg2 (η)
= 2
N
k=1
Il primo addendo ritrova la (7.19).
!
Il secondo addendo coincide con la definizione della V m∗g (y) .
!2
! M − m vg2 (η)
M2
M2
∗
∗
∗
E
m
(y)
−
m
(η)
=
V
m
(y)
=
.
g
g
N2
N2
M −1 m
Riunendo i due risultati si trova:
!
M − m vg2 (η)
M (m − 1)
E vg2 (y) = vg2 (η) −
= vg2 (η)
M −1 m
(M − 1) m
Uno stimatore corretto per la varianza vg2 (η)
Teorema 7.5 Lo stimatore
s2g (y) =
m 2
v (y) .
m−1 g
(7.28)
stima correttamente s2g (η) .
Dimostrazione
Applicando il valore atteso alla (9.30) e ricordando la definizione di s2g (η)
della (9.25) si ha:
!
!
m
E s2g (y) =
E vg2 (y)
m−1
m m−1 M
=
v2 (η) = s2g (η) . m−1 m M −1 g
Uno stimatore per la varianza dello stimatore della media per grappolo
Per stimare la varianza (9.26) dello stimatore della media per grappolo, si
propone la quantità:
! M −m
V, m∗g (y) =
Mm
N
M
2
s2g (y)
Daniela Cocchi: Teoria dei Campioni
(7.29)
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
201
Correttezza dello stimatore per la varianza dello stimatore della media per grappolo
!
Teorema 7.6 Lo stimatore (9.31) è corretto per la varianza V m∗g (y) .
Dimostrazione
Dalla (9.26) e dalla (9.30), la speranza dello stimatore (9.31) è:
2
M −m N
2
sg (y)
Mm
M
2
!
M −m N
E s2g (y)
Mm
M
2
!
M −m N
s2g (η) = V m∗g (y)
Mm
M
!
E V, m∗g (y)
= E
=
=
7.2.2
Inferenza sul totale di popolazione
Lo stimatore del totale
Partendo dallo stimatore della media per grappolo, per inferire sul totale di
popolazione (1.3), si propone il seguente stimatore:
tg (y) = M m∗g (y) = M
t (y)
.
m
(7.30)
Nota. Nel campionamento casuale semplice, anziché M e m, si usano rispettivamente N e n. In questo caso, l’espansione del totale campionario si effettua
in relazione alle unità complesse e non rispetto alle unità elementari.
Correttezza dello stimatore del totale
Teorema 7.7 Lo stimatore (9.34) è corretto per il totale t(η).
Dimostrazione
!
!
E [tg (y)] = E M m∗g (y) = ME m∗g (y)
= Mm∗ (η) = t (η) .
Varianza dello stimatore del totale
Data la relazione che lega lo stimatore del totale tg (y) e lo stimatore della media
per grappolo vista nella (9.34), è immediato il:
Teorema 7.8 La varianza dello stimatore tg (y) è:
V [tg (y)] = N 2
M − m vg2 (η)
M −1 m
Dimostrazione
La dimostrazione segue immediatamente dalla (9.21):
!
V [tg (y)] = M 2 V m∗g (y) .
Daniela Cocchi: Teoria dei Campioni
(7.31)
202
7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE
Corollario 7.4 La (9.36) può essere riscritta, usando la (9.25), come:
V [tg (y)] =
M −m 2 2
N sg (η) .
Mm
(7.32)
Corollario 7.5 La (9.36) può essere riscritta, riscrivendo la (7.19) nella (9.21),
come
M −m 1
M −1 m
2
= v (t (ηk )) .
V [tg (y)] = M 2
M
k=1 [Nk m (ηk )
M
− m∗ (η)]2
(7.33)
Uno stimatore per la varianza dello stimatore del totale
La (7.32) può essere stimata dalla:
simile alla (9.31).
M −m 2 2
V, [tg (y)] =
N sg (y) ,
Mm
(7.34)
Teorema 7.9 Lo stimatore (9.38) stima correttamente V [tg (y)] .
Dimostrazione
M −m 2 2
E V, [tg (y)]
= E
N sg (y)
Mm
!
M −m 2
=
N E s2g (y)
Mm
M −m 2 2
=
N sg (η) = V [tg (y)] .
Mm
7.2.3
Inferenza sulla media di popolazione
Lo stimatore della media di popolazione
Lo stimatore della media di popolazione (1.4) è:
mg (y) =
tg (y)
M ∗
M t (y)
=
mg (y) =
.
N
N
N m
(7.35)
Correttezza dello stimatore della media di popolazione
Il teorema viene enunciato senza dimostrazione, data l’immediata verifica della
proprietà.
Teorema 7.10 Lo stimatore (9.39) è corretto per m(η).
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
203
Varianza dello stimatore della media di popolazione
Teorema 7.11 La varianza dello stimatore della media di popolazione è pari
a:
V [mg (y)] =
M − m vg2 (η)
.
M −1 m
(7.36)
Dimostrazione
Il risultato segue immediatamente dalla (9.36).
Corollario 7.6 La (9.41) può essere riscritta, usando la (9.25), come:
V [mg (y)] =
M −m 2
s (η) .
Mm g
(7.37)
Corollario 7.7 La (9.41) può essere riscritta, riscrivendo la (7.19) nella (9.21),
come:
V [mg (y)] =
M
N
2
M −m 1
M −1 m
= v 2 (t (ηk )) .
M
k=1 [Nk m (ηk )
M
− m∗ (η)]2
(7.38)
Uno stimatore per la varianza dello stimatore della media di popolazione
Per stimare la varianza (9.42) dello stimatore della media di popolazione, si
propone la quantità:
M −m 2
V, [mg (y)] =
s (y)
Mm g
(7.39)
simile alla (9.38) e alla (9.31).
Correttezza dello stimatore della varianza dello stimatore della media
di popolazione
Teorema 7.12 Lo stimatore (9.44) è corretto per la quantità V [mg (y)] .
Dimostrazione
Dalla (9.30), la speranza dello stimatore (9.44) è:
!
M −m
M −m 2
,
E V [mg (y)]
sg (y) =
E s2g (y)
= E
Mm
Mm
M −m 2
=
s (η) = V [mg (y)] .
Mm g
Daniela Cocchi: Teoria dei Campioni
204
7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE
7.3
Il campionamento casuale semplice senza reintroduzione di grappoli con la stessa dimensione
Se le unità complesse sono formate dallo stesso numero di unità elementari N0
si ha:
N = M N0 ,
(7.40)
con la conseguenza che anche la dimensione del campione di unità elementari è
nota. Infatti, sostituendo Nk = N0 nella (9.1), si ottiene:
n=
m
N0 = mN0 .
j=1
Inoltre, sostituendo la dimensione costante delle unità complesse N0 nelle espressioni della media generale e della media per grappolo si ottiene, per la (1.26),
che la media generale è la media aritmetica semplice delle medie di grappolo:
m (η) =
M
M
1 1 N0 m (ηk ) =
t (ηk )
N
N
k=1
=
(7.41)
k=1
M
M
M
1 t (ηk )
1 1 t (ηk ) =
=
m (ηk )
M N0
M
N0
M
k=1
k=1
k=1
mentre la (8.2), media per grappolo, si semplifica in:
m∗ (η) =
N
m (η) = N0 m (η) .
M
(7.42)
A sua volta, la varianza ”tra” (1.36) si semplifica nella:
vt2 (η) =
M
1 N0 [m (ηk ) − m (η)]2
N
k=1
M
1 [m (ηk ) − m (η)]2
M
k=1
M
1 2
2
=
m (ηk ) − M m (η) ,
M
=
(7.43)
(7.44)
k=1
mentre la (1.39) si può scrivere come:
M
s2t (η)
1 N
=
vt2 (η) =
N0 [m (ηk ) − m (η)]2 .
M −1
M −1
(7.45)
k=1
Quindi, in questo caso particolare, la media di popolazione e la varianza
”tra” sono medie aritmetiche semplici rispetto alla popolazione delle unità complesse di dimensione M, mentre rispetto alla popolazione di unità elementari di
dimensione N sono medie ponderate dei valori individuali.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
205
7.3.1
Inferenza sulla media di popolazione
Lo stimatore della media di popolazione
Lo stimatore che viene proposto per la media di popolazione (1.4) è una versione
dello stimatore lineare omogeneo (9.14). Il sistema di pesi {wk : 1 ≤ k ≤ M}
assegnato agli elementi della popolazione è:
wk =
1
M
1
=
=
mN0
mN
n
1 ≤ k ≤ M.
(7.46)
Utilizzando il sistema di pesi (9.53) si ottiene lo stimatore della media di
popolazione:
m
m
1
1 mG (y) =
t (yj ) =
m (yj )
(7.47)
mN0
m j=1
j=1
che consiste nella media aritmetica semplice, sugli m grappoli, delle medie dei
grappoli campionati.
Correttezza dello stimatore della media di popolazione
Teorema 7.13 Lo stimatore (9.54) è stimatore corretto della media di popolazione.
Dimostrazione
Il sistema di pesi (9.53) è scelto in modo da assicurare la correttezza dello
stimatore. Infatti, sostituendo la (9.53) nella (9.14), applicando l’operatore
speranza secondo la (9.15) e usando la (9.10), si ottiene:
E [mG (y)] =
M
E (bk ) wk t (ηk ) =
k=1
=
1
M
M
m 1
t (ηk )
M mN0
k=1
M
k=1
t (ηk )
1
=
N0
M
M
m (ηk ) = m (η) .
k=1
Corollario 7.8 In riferimento al campione di n unità elementari, lo stimatore
mG (y), che usa i pesi (9.53), non è altro che la media aritmetica semplice delle
unità appartenenti ai grappoli selezionati.
Dimostrazione
Infatti dalla (9.54) si ha:
mG (y) =
N0
m
m
1 1 1 m (yj ) =
yjλ
m j=1
m j=1 N0
λ=1
=
1
mN0
m
=
m N0
j=1 λ=1
yjλ =
1
n
1
t (yj ) = m (y) .
n j=1
m N0
yjλ
j=1 λ=1
Daniela Cocchi: Teoria dei Campioni
(7.48)
206
7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE
Varianza dello stimatore della media di popolazione
Nel campionamento casuale semplice dei grappoli vengono estratti senza reintroduzione m unità complesse su M , quindi valgono i risultati del campionamento
casuale semplice dei totali di grappolo t (ηk ) .
La varianza descrittiva di popolazione che entra nella varianza degli stimatori
è quindi la varianza ”tra”, in questo caso nella versione semplificata (9.48).
Si ricava quindi l’espressione della varianza dello stimatore (9.54).
Teorema 7.14 La varianza dello stimatore per la media di popolazione è:
M − m vt2 (η)
M −1 m
M −m 2
=
s (η)
mN t
V [mG (y)] =
(7.49)
Dimostrazione
Introducendo nell’espressione della varianza del generico stimatore lineare
ed omogeneo (9.16) i pesi (9.53) e le espressioni (9.11) e (9.12) per le varianze
e le covarianze delle bk si ottiene
V [mG (y)] =
=
=
=
=
=
M
M m M −m 1
m M −m 1
2
t(η
)
−
2
t(ηk )t(ηk )
k
2 M − 1 m2 N 2
M M m2 N02
M
0
k=1
k=1 k <k
M
M
M −m 2 2
t(ηk ) −
t(ηk )t(ηk )
M 2 mN02
M −1
k=1
k=1 k <k
M
M
M −m 2 2
m(ηk ) −
m(ηk )m(ηk )
M 2m
M −1
k=1
k=1 k <k
M
M
M M −m
2
2
m(ηk ) −
m(ηk ) − 2
m(ηk )m(ηk )
M
M 2 m(M − 1)
k=1
k=1
k=1 k <k

M
2 
M
M −m
M
m(ηk )2 −
m(ηk ) 
M 2 m(M − 1)
k=1
k=1
M
M −m
2
2
m(ηk ) − Mm(η)
M m(M − 1)
k=1
e, ricordando la (9.49), si ottiene:
V [mG (y)] =
M − m vt2 (η)
.
M −1 m
Corollario 7.9 La varianza (9.56) dello stimatore della media di popolazione
può essere scritta anche come:
N −n 2
1
1
V [mG (y)] =
s (η) =
−
s2t (η) .
(7.50)
Nn t
n N
Dimostrazione
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
207
Ricordando che
M −m
MN0 − mN0
N −n
=
=
,
m
mN0
n
(7.51)
segue immediatamente che la (9.56) può essere riscritta secondo la (9.57).
Uno stimatore distorto per la varianza ”tra” di popolazione
La varianza campionaria ”tra” (1.36), nel caso del campionamento a grappolo,
è data dalla varianza campionaria delle medie di grappolo:
m
vt2 (y) =
m
1
1 N0 (m (yj ) − mG (y))2 =
(m (yj ) − m (y))2 .
n j=1
m j=1
(7.52)
Teorema 7.15 Lo stimatore (9.59) non è stimatore corretto della varianza
”tra” di popolazione (1.36) espressa nella versione (9.48).
Dimostrazione
Applicando il risultato (2.55), relativo al campionamento casuale semplice
di unità elementari, al caso di una popolazione composta da unità complesse, si
ha:
! m−1 M
E vt2 (y) =
v2 (η) .
m M −1 t
Dunque tale stimatore non risulta corretto per vt2 (η).
(7.53)
Uno stimatore corretto per la varianza ”tra” di popolazione
La quantità campionaria
s2t (y) =
n
v2 (y) ,
m−1 t
(7.54)
nel caso del campionamento a grappolo con grappoli di dimensione eguale può
essere scritta come:
m
s2t (y) =
=
n 1
N0 (m (yj ) − m (y))2
m − 1 n j=1
m
1
N0
(m (yj ) − m (y))2 .
m−1
j=1
Teorema 7.16 Lo stimatore (9.62) è uno stimatore corretto di s2t (η).
Dimostrazione
Direttamente dalla (9.61) si ottiene
!
!
n
n
2
2
E st (y) = E
v (y) =
E vt2 (y)
m−1 t
m−1
mN0 m − 1 M
N
=
v2 (η) =
v2 (η) = s2t (η) .
m−1 m M −1 t
M −1 t
Daniela Cocchi: Teoria dei Campioni
(7.55)
208
7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE
Uno stimatore per la varianza dello stimatore della media di popolazione
Per stimare la varianza (9.57) dello stimatore mG (y), si propone la quantità:
V̂ [mG (y)] =
M −m 2
N −n 2
s (y) =
s (y) ,
Nm t
Nn t
(7.56)
Teorema 7.17 Lo stimatore (9.63) è corretto per la quantità V [mG (y)] .
Dimostrazione
Dalla (9.57) e dal Teorema 7.4 segue che:
!
M −m 2
N −n
st (y) =
E s2t (y)
E V̂ [mG (y)]
= E
Nm
Nn
N −n 2
=
s (η) = V [mG (y)] .
Nn t
7.3.2
Inferenza sulla media per grappolo
Lo stimatore della media per grappolo
E’ immediato proporre come stimatore corretto della media per grappolo (8.2),
nella forma particolare (9.47), la quantità:
m∗G (y) = N0 mG (y) = N0 m (y) .
(7.57)
Teorema 7.18 La varianza dello stimatore della media per grappolo (9.64) è:
M −m 2
M −m 2
s (η) = N0
s (η) .
(7.58)
mN t
mM t
Analogamente a quanto detto per la media generale, l’espressione (9.65) può
essere espressa dal seguente:
V [m∗G (y)] = N02
Corollario 7.10 Una forma alternativa per la varianza dello stimatore della
media per grappolo è la:
1
1
∗
2N −n 2
2
V [mG (y)] = N0
s (η) = N0
−
s2t (η) .
(7.59)
nN t
n N
Essa deriva direttamente dalla (9.65) sfruttando la relazione (9.58).
Uno stimatore per la varianza dello stimatore della media per grappolo
Teorema 7.19 La varianza (9.66) è stimata correttamente dalla quantità:
M −m 2
M −m 2
s (y) = N0
s (y)
Nm t
Mm t
N −n 2
= N02
s (y) .
Nn t
V̂ [m∗G (y)] = N02
Daniela Cocchi: Teoria dei Campioni
(7.60)
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
209
7.3.3
Inferenza sul totale di popolazione
Lo stimatore del totale di popolazione
Per inferire sul totale di popolazione (1.3) nel caso di campionamento a grappolo
con grappoli della stessa dimensione, si propone lo stimatore:
tG (y) = N mG (y) = Nm (y) .
(7.61)
Tale stimatore, analogamente a quanto visto per la (9.54), può anche essere
ottenuto dalla teoria dello stimatore lineare omogeneo, mediante l’impiego dei
pesi:
M
wk =
1≤k≤M
(7.62)
m
nella espressione (9.14). I pesi impiegati sono gli stessi, (9.53), usati per la stima
della media, a meno di una moltiplicazione per N. Lo stimatore per il totale è
quindi:
tG (y) = M
m
t (yj )
j=1
m
=M
m
N0
j=1
m
m (yj ) = N
m
m (yj )
j=1
m
= N m (y) .
(7.63)
Correttezza dello stimatore del totale di popolazione
Teorema 7.20 Lo stimatore (9.68) è uno stimatore corretto del totale di
popolazione.
Dimostrazione
In tal caso, applicando l’operatore speranza allo stimatore (9.68) si ha:
E [tG (y)] =
M
E (bk ) wk t (ηk ) =
k=1
=
M
M
mM
t (ηk )
M m
k=1
t (ηk ) = t (η) .
k=1
Varianza dello stimatore del totale di popolazione
Si ricava, come per la media generale, l’espressione della varianza dello stimatore
(9.68), con un procedimento analogo a quello che porta alla (2.53). Il teorema
che segue è quindi presentato senza dimostrazione.
Teorema 7.21 La varianza dello stimatore del totale è:
V [tG (y)] = N 2
M −m 2
M −m 2
s (η) = N
st (η) .
mN t
m
(7.64)
Tale varianza può essere espressa anche utilizzando la (9.58). Si ha dunque:
Corollario 7.11
V [tG (y)] = N
N −n 2
st (η) = N 2
n
1
1
−
n N
Daniela Cocchi: Teoria dei Campioni
s2t (η) .
(7.65)
210
7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE
Uno stimatore per la varianza dello stimatore del totale di popolazione
Uno stimatore per la varianza dello stimatore del totale è:
V̂ [tG (y)] = N
M −m 2
N −n 2
st (y) = N
st (y) .
m
n
(7.66)
Teorema 7.22 Lo stimatore (9.73) è stimatore corretto della varianza (9.72).
7.3.4
Confronto di efficienza tra il campionamento casuale
semplice di unità complesse e il campionamento casuale semplice di unità elementari
Come già visto nel Capitolo 2, il confronto tra strategie alternative in termini
di efficienza può essere fatto in termini di effetto del disegno (Deff ).
Teorema 7.23 Il campionamento a grappolo, in caso di grappoli formati dallo
stesso numero di elementi, è più efficiente del campionamento casuale semplice
se vale la:
s2t (η) < s2e (η) .
(7.67)
Dimostrazione
Nel caso del campionamento casuale semplice di unità complesse della stessa
dimensione, vengono estratte n = mN0 unità elementari su N = M N0 .
La varianza della media campionaria, in caso di campionamento casuale
semplice senza reintroduzione di unità elementari, è data dalla (2.53). Nel
caso di estrazione di grappoli della stessa dimensione la varianza della media
campionaria è data invece dalla (9.57). L’efficienza relativa del campionamento a
grappolo rispetto al campionamento casuale semplice misurata dal Deff, definito
nella (2.67), diventa:
Deff = Π
=
CCS; m (y)
GR; mG (y)
N−n 2
Nn st (η)
N−n 2
Nn s (η)
=
=
V [mG (y)]
V [m (y)]
s2t (η)
.
s2 (η)
Sostituendo N = M N0 nella scomposizione (1.40), si ha:
(M N0 − 1) s2 (η) = M (N0 − 1) s2e (η) + (M − 1) s2t (η) .
Il Deff è minore di 1 se:
!
M (N0 − 1) s2e (η) + (M − 1) s2t (η)
<
(M N0 − 1)
!
(M N0 − 1) s2t (η) < M (N0 − 1) s2e (η) + (M − 1) s2t (η)
s2t (η)
(M N0 − 1 − M + 1) s2t (η) < M (N0 − 1) s2e (η)
s2t (η) < s2e (η) .
Daniela Cocchi: Teoria dei Campioni
(7.68)
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
211
Il risultato è da confrontare con l’analogo ottenuto per la stratificazione con
il criterio proporzionale.
Nota. E’ importante precisare che non è sempre vero che s2 (η) sia sempre
maggiore di s2t (η), al contrario di quanto avviene per le varianze, per cui è
sempre valida la diseguaglianza vt2 (η) ≤ v2 (η).
Quando si considerano unità complesse, importanti risultati possono essere
espressi in termini di una quantità descrittiva di popolazione detta coefficiente
di correlazione intracluster. La quantità, le sue proprietà e il suo impiego sono
illustrati nell’Appendice 1.
I risultati sulle proprietà dei grappoli di eguali dimensioni sono casi particolari di quelli relativi ai grappoli di dimensioni diverse. Alcune eguaglianze utili
per la verifica sono presentati nell’Appendice 2.
Nel campionamento casuale semplice di grappoli che hanno numerosità diverse, lo stimatore diretto presentato precedentemente tende a generare stime
con varianza elevata. Si può, in alternativa, estrarre il campione con probabilità proporzionale alla dimensione dei grappoli ottenendo, nel caso con reintroduzione, un risultato semplice e intuitivo, che è presentato nell’Appendice
3.
La diversa dimensione dei grappoli è un’informazione nota al momento della
progettazione del campione. Nella popolazione delle M unità complesse, la
dimensione di ciascuna unità può quindi assumere il ruolo di variabile ausiliaria
nota per ogni elemento della popolazione. Si dispone quindi degli elementi
per il calcolo dello stimatore per quoziente nel caso di campionamento casuale
semplice di unità complesse di diversa dimensione. Per i confronti con i risultati
precedenti, si considera, anche in questo caso, il campionamento casuale semplice
con reintroduzione. I risultati sono presentati nell’Appendice 4.
Nell’Appendice 5 sono riportati i confronti di efficienza tra strategie alternative nel caso di campionamento di grappoli con dimensioni diverse.
7.4
Campionamento sistematico
Si supponga che il reciproco della frazione di campionamento sia intero: N/n =
M. Gli N valori individuali di η possono essere ordinati in una tabella:


η1 ηM+1 η2M+1
η(n−1)M+1
...
 η2 ηM+2 η2M+2
η(n−1)M+2 




...
...
...
ηM η2M η3M
...
ηnM
formata da M righe che contengono gli M grappoli.
Il campione sistematico di base k (k ∈ {1, ..., M}) e di ragione M è formato
dagli elementi della k-ma riga della tabella e si ottiene estraendo con campionamento casuale semplice una riga della tabella. Ciò equivale a estrarre un solo
grappolo di n elementi nella popolazione degli M grappoli.
La relazione tra campionamento a grappolo nel caso in cui nel grappolo
m = 1 e N0 = n e campionamento sistematico è immediata: il numero di
Daniela Cocchi: Teoria dei Campioni
212
7.4. CAMPIONAMENTO SISTEMATICO
grappoli diventa il passo di campionamento, mentre la numerosità da estrarre
per ogni gruppo è la numerosità del campione, quindi restano validi i risultati
del campionamento a grappolo.
In questo caso non si può calcolare uno stimatore della varianza degli stimatori per il campionamento a grappolo, perchè, essendo stato estratto solo un
grappolo, s2t (y) non può essere calcolato. In alcune circostanze il campionamento avviene con più di una estrazione sistematica, ottenendo in tal caso più
di un grappolo, con la possibilità di stimare la varianza.
Se gli elementi della popolazione sono ordinati in modo aleatorio lungo le
righe, il campionamento sistematico e quello casuale semplice hanno la stessa
efficacia: facendo l’ipotesi che l’ordinamento degli elementi della popolazione sia
di questo tipo, si può stimare la varianza s2 (η) con i dati del campione, come
nel caso del campionamento casuale semplice.
I vantaggi del campionamento sistematico sono quindi di due tipi. Esso dà
risultati teoricamente equivalenti a quelli del campionamento casuale semplice
se i valori della variabile oggetto d’indagine sono disposti casualmente rispetto
all’ordinamento implicito nei gruppi. In questo caso si ha un risparmio nei costi
di campionamento, dovuto all’effettuazione di una sola estrazione invece che n.
Se, invece, la popolazione mostra, rispetto ai valori della variabile d’interesse,
un andamento crescente o decrescente che viene colto dal passo di campionamento, il campionamento sistematico può rivelarsi più efficace del campionamento
casuale semplice.
Il campionamento sistematico risulta più efficace del campionamento casuale
semplice quando si riescono a numerare le unità in modo che quelle simili rispetto
al carattere studiato si trovino vicine tra loro. Infatti, se le unità di una stessa riga sono molto eterogenee, il campionamento sistematico è più efficace del
campionamento casuale semplice; se le unità di una stessa riga sono più omogenee che nel caso in cui le righe siano composte casualmente, il campionamento
sistematico è meno efficace del campionamento casuale semplice.
Quando gli elementi all’interno di ogni potenziale campione sistematico sono
molto diversi tra loro, o, in altre parole, rappresentativi della popolazione di elementi, se cioè c’è eterogeneità nell’unico gruppo selezionato, si ottiene una
riduzione della varianza rispetto al campionamento casuale semplice, ed il campionamento sistematico risulta migliore. Il contrario avviene quando gli elementi
entro ciascun grappolo sono simili ma differenti da elementi in altri grappoli.
Il campionamento sistematico può dare risultati molto peggiori del campionamento casuale semplice se gli elementi presentano un ordinamento ciclico che
viene colto dal passo di campionamento. In questo caso, il campione risulta
formato da unità molto simili, che rappresentano il fenomeno oggetto di studio
sempre nella stessa fase del ciclo.
Se il passo di campionamento M è diverso da un intero N = (n)M + d,
può non essere possibile completare il campione fino alle n unità perchè l’ultima
colonna della tabella presentata all’inizio del paragrafo rimane incompleta.
Il modo più semplice per ovviare a questo inconveniente consiste nel completare l’ultima colonna della tabella ripartendo dal primo valore η1 . Successivamente si sceglie la riga da campionare estraendo un numero casuale r uniforme
tra 1 e M (su {1, 2, ..., M }) e si applica il campionamento sistematico a questa
matrice. In questo caso non si ottiene uno stimatore corretto della media di
popolazione, anche se si hanno i vantaggi della dimensione n costante e ogni
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
213
campione ha sempre probabilità 1/M di essere estratto. Questa variante del
campionamento sistematico è nota come campionamento sistematico circolare.
7.5
7.5.1
Appendici
Appendice 1 Il coefficiente di correlazione intracluster
Definizione del coefficiente di correlazione intracluster
La varianza ”tra” (9.48) può essere scritta come:
vt2
M
1 [m (ηk ) − m (η)]2
(η) =
M k=1
2
N0
M
1 1 =
[ηλk − m (η)]
M
N0
k=1
λ=1
M N0
1 1 =
[ηkλ − m (η)]2
M N02
k=1 λ=1
M
1 2 +
[ηkλ − m (η)] [ηkλ − m (η)] .
M N02
(7.69)
k=1 λ<λ
Il passaggio dal primo al secondo termine avviene notando che
N0
1 ηλk − m (η)
N0
λ=1
N
0
1 =
ηλk − N0 m (η)
N0
m (ηk ) − m (η) =
λ=1
N0
1 =
[ηλk − m (η)] .
N0
λ=1
Si definisce coefficiente di correlazione intracluster la seguente quantità:
2
1
M N0 (N0 −1)
δ=
M k=1 λ<λ
[ηλk − m (η)] [ηλ k − m (η)]
v2 (η)
.
(7.70)
La (9.77) è il coefficiente di correlazione lineare tra le M N0 (N0 − 1) coppie
di valori distinti ηkλ e ηkλ con λ = λ = 1, ..., N0 e k = 1, ..., M.
Riscrittura della varianza ”tra” in popolazione in termini del coefficiente di correlazione intracluster
Ricordando che
v2 (η) =
M N0
1 [ηλk − m (η)]2 ,
MN0
k=1 λ=1
Daniela Cocchi: Teoria dei Campioni
7.5. APPENDICI
214
la varianza ”tra” (9.76) può essere riscritta come:
vt2 (η) =
1 2
N0 − 1
1 2
v (η) + v2 (η)
δ=
v (η) [1 + (N0 − 1) δ] .
N0
N0
N0
(7.71)
Teorema 7.24 La varianza ”tra” può essere riscritta in funzione della varianza
di popolazione e del coefficiente di correlazione intracluster:
s2t (η) = s2 (η)
1 N −1
[1 + (N0 − 1) δ]
N0 M − 1
(7.72)
Dimostrazione
Sostituendo la (9.79) nella (1.39) si ottiene:
M N0 2
M N0 1 2
vt (η) =
v (η) [1 + (N0 − 1) δ]
M −1
M − 1 N0
N −1
M N0 1 2
=
s (η)
[1 + (N0 − 1) δ]
M − 1 N0
N
1 N −1
= s2 (η)
[1 + (N0 − 1) δ] .
N0 M − 1
s2t (η) =
Scrittura del coefficiente di correlazione intracluster in funzione delle
varianze descrittive di popolazione
Il coefficiente di correlazione intracluster può quindi essere ricavato dalla (9.79).
Da essa, infatti, isolando il termine che contiene δ, si ottiene:
da cui:
1 + (N0 − 1) δ
=
(N0 − 1) δ
=
vt2 (η)
N0
v 2 (η)
vt2 (η)
N0 − 1
v 2 (η)
2
1
vt (η) N0 − v2 (η)
δ=
.
N0 − 1
v2 (η)
(7.73)
Proprietà del coefficiente di correlazione intracluster
Teorema 7.25 Il coefficiente δ è compreso tra i valori − N01−1 e 1.
Dimostrazione
Poiché la varianza ”tra” varia tra 0 e v2 (η), se vt2 (η) = 0, dalla (9.79) si
ricava:
−v2 (η) = v2 (η) (N0 − 1) δ,
e quindi
δ=−
1
.
(N0 − 1)
Se vt2 (η) = v2 (η) dalla (9.79) si ricava:
da cui
N0 = 1 + (N0 − 1) δ
δ = 1.
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
215
Varianza degli stimatori della media di popolazione, della media per
grappolo e del totale in termini di coefficiente di correlazione intracluster
Tramite l’introduzione del coefficiente di correlazione intracluster, la varianza
dello stimatore della media, o del totale, nel caso di campionamento a grappolo
può essere espressa come funzione della varianza di popolazione (1.8) e non solo
della varianza ”tra” (1.36) o (9.48).
Teorema 7.26
V [mG (y)] =
N −n 1 N −1 2
s (η) [1 + (N0 − 1) δ] ,
M − 1 nN0 N
(7.74)
Dimostrazione
Sostituendo la (9.80) nell’espressione (9.57), si ottiene:
V [mG (y)] =
=
N −n 2
N −n 2
1 N −1
st (η) =
s (η)
[1 + (N0 − 1) δ]
Nn
Nn
N0 M − 1
N −n 1 N −1 2
s (η) [1 + (N0 − 1) δ] .
M − 1 nN0 N
Teorema 7.27
V [m∗G (y)] =
N −n 1 N −1 2
s (η) [1 + (N0 − 1) δ] .
M −1n M
(7.75)
Dimostrazione
Sostituendo la (9.80) nell’espressione (9.66) si ottiene
N −n 2
s (η)
Nn t
N −n 2
N −1
= N0
s (η)
[1 + (N0 − 1) δ]
nN
M −1
1 N −n 2
N −1
=
s (η)
[1 + (N0 − 1) δ] .
M n
M −1
V [m∗G (y)] = N02
Teorema 7.28
V [tG (y)] = M
N −nN −1 2
s (η) [1 + (N0 − 1) δ] .
M −1 n
Dimostrazione
Sostituendo la (9.80) nella (9.72) si ha:
N −n 2
st (η)
n
N −nN −1 2
=N
s (η) [1 + (N0 − 1) δ]
M − 1 nN0
N −nN −1 2
=M
s (η) [1 + (N0 − 1) δ] .
M −1 n
V [tG (y)] = N
Daniela Cocchi: Teoria dei Campioni
(7.76)
7.5. APPENDICI
216
Reinterpretazione del confronto di efficienza tra campionamento casuale semplice e campionamento a grappolo in base al coefficiente di
correlazione intracluster
Teorema 7.29 Il campionamento a grappolo nel caso di gruppi con eguale
dimensione è più efficiente del campionamento casuale semplice se il coefficiente
di correlazione intracluster è minore di 0.
Dimostrazione
Se si sostituisce la (9.80) nella (9.75) si ottiene:
"
#
s2 (η) 1 N−1 (1 + (N − 1) δ)
0
N0 M−1
CCS; m (y)
Deff = Π
=
2
GR; mG (y)
s (η)
N −1
=
[1 + (N0 − 1) δ] .
(7.77)
N0 (M − 1)
Per N elevato rispetto a N0 si può trascurare il primo termine della (9.85)
e considerare il valore della precisione in base al solo δ :
CCS; m (y)
1 + (N0 − 1) δ.
(7.78)
Deff = Π
GR; mG (y)
Dalla (9.86) si osserva che:
se δ = 0, il rapporto delle precisioni è pari a 1, quindi l’efficienza dei due
campionamenti sarà identica;
se δ > 0, il rapporto delle precisioni è inferiore ad 1, quindi la varianza del
campionamento casuale semplice è minore dell’altra perchè gli elementi di uno
stesso grappolo sono più omogenei tra loro di quelli di grappoli diversi, infatti
valori positivi del coefficiente di correlazione intracluster indicano somiglianza;
se δ < 0, il rapporto delle precisioni è superiore ad 1, quindi la varianza del
campionamento casuale semplice è più elevata di quella del campionamento a
grappolo perchè gli elementi di uno stesso grappolo sono più eterogenei rispetto
a elementi di grappoli diversi, infatti valori negativi indicano dissomiglianza.
In termini di efficienza è opportuno usare il campionamento a grappolo nel
caso di popolazioni in cui elementi diversi tendono a raggrupparsi e gli elementi
simili tendono ad allontanarsi.
In pratica è più verosimile riscontrare attrazione tra gli elementi appartenenti
ad uno stesso gruppo. In questo senso, a parità di dimensione campionaria
effettiva n, il campionamento a grappolo è spesso poco costoso e poco efficace.
Il basso costo deriva dall’aver effettuato un campionamento delle sole m unità
complesse.
7.5.2
Appendice 2 [alcune rel. utili per grappoli di eguale
e diversa dim.]Relazioni tra i risultati per grappoli
con eguale dimensione e per grappoli con dimensioni
diverse
Quando i gruppi hanno tutti la stessa dimensione, i risultati relativi al campionamento a grappoli con diverse dimensioni coincidono con i risultati propri dei
grappoli di dimensione uguale. Le eguaglianze sono mostrate per la stima della
media generale m (η) .
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
217
Equivalenza delle varianze
Teorema 7.30 Se Nk = N0 allora:
V [mg (y)] = V [mG (y)] .
Dimostrazione
Quando vale la (9.45), la (9.24) diventa:
vg2 (η) =
M
1 [m (ηk ) − m (η)]2 = vt2 (η) .
M
(7.79)
k=1
In questo caso, quindi, la (9.41) diventa:
V [mg (y)] =
M −m 1 2
M −m 1 2
v (η) =
v (η) = V [mG (y)] . M −1 m g
M −1 m t
Allo stesso risultato si giunge anche utilizzando l’espressione (9.43) nel caso
in cui sia verificata la (9.45).
Corollario 7.12 L’espressione (9.43) è uguale alla prima delle (9.56) se è
verificata la condizione (9.45).
Dimostrazione
La (9.43) diventa, in quel caso:
M
2
M − m 1 k=1 N02 [m (ηk ) − m (η)]
M −1 m
M
2 2 M
2
M −m 1 M
N
k=1 [m (ηk ) − m (η)]
M −1 m N
M
M
M −m 1 2
v (η) = V [mG (y)] .
M −1 m t
V [mg (y)] =
=
=
M
N
2
Corollario 7.13 Se Nk = N0
V [mg (y)] =
N −n 2
s (η)
nN t
Dimostrazione
Notando che, nel caso in cui vale la (9.50):
s2g (η) =
=
M
M
vg2 (η) =
v2 (η)
M −1
M −1 t
1 2
s2 (η)
N
vt (η) = t
M − 1 N0
N0
dalla (9.42) si ricava:
V [mg (y)] =
M −m 2
N − n N0 2
N −n 2
s (η) =
s (η) =
s (η) .
Mm g
n N g
nN t
Daniela Cocchi: Teoria dei Campioni
(7.80)
7.5. APPENDICI
218
Equivalenza degli stimatori delle varianze
Nell’ambito dei risultati relativi ai grappoli di dimensione uguale, si usa direttamente s2t (y) per stimare correttamente s2t (η). Riallacciandoci
alla notazione del
caso di grappoli di dimensioni diverse, si usa s2g (y) = s2t (y) /N0 per stimare
s2g (η) = s2t (η) /N0 , secondo il teorema seguente.
Teorema 7.31 Per Nk costante:
s2g (y) =
s2t (y)
.
N0
(7.81)
Dimostrazione
Il risultato si ricava ricordando che s2t (y) è espressa dalla (9.62).
Per Nk costante, in popolazione m∗ (η) = N0 m (η) vale la (9.47), mentre nel
campione m∗ (y) = N0 m (y) vale la (9.64) e quindi s2g (y) , scritto a partire dalla
(9.32) e dalla (9.30), corrisponde a:
s2g (y) =
=
m
1 M2 [N0 m (yj ) − N0 m (y)]2
m − 1 N 2 j=1
m
1 M2 2
N [m (yj ) − m (y)]2
m − 1 N 2 j=1 0
m
=
1 s2 (y)
[m (yj ) − m (y)]2 = t
.
m − 1 j=1
N0
Anche in termini di stimatori della varianza è possibile individuare una
relazione analoga.
Teorema 7.32 Se Nk = N0 allora:
V, [mg (y)] = V, [mG (y)]
Dimostrazione
Partendo dalla (9.44), usando la (9.58) e il risultato (9.88), si ottiene infatti
la (9.63):
V, [mg (y)] =
=
7.5.3
N − n N0 2
M −m 2
s (y) =
s (y)
Mm g
n N g
N − n N0 s2t (y)
N −n 2
=
s (y) = V, [mG (y)] .
n N N0
nN t
Appendice 3 [Camp. dei grappoli con probabilità
variabile]Campionamento di grappoli con probabilità variabile con reintroduzione
Si consideri il campionamento con reintroduzione di grappoli, con probabilità
variabili di estrazione. Per ogni grappolo, la probabilità di estrazione è pari a:
pk =
Nk
.
N
Daniela Cocchi: Teoria dei Campioni
(7.82)
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
219
Da questo paragrafo in poi, come è già stato fatto per la stratificazione,
si tratterà unicamente dello stimatore della media, ricordando che il totale
si ottiene come semplice prodotto della media per una costante. I risultati
riguardanti lo stimatore del totale seguono dunque in modo immediato.
Si è quindi ottenuto uno stimatore intuitivo, la media aritmetica semplice
delle medie di grappolo, che ha buone proprietà se il campionamento avviene
con probabilità variabile con reintroduzione. Si deve però associare la varianza
appropriata allo stimatore.
7.5.4
Inferenza sulla media di popolazione
Modifica dello stimatore di Hansen-Hurwitz
Si definisce per ogni grappolo la variabile trasformata
ζk = M
Nk
m (ηk ) ,
N
(7.83)
che è funzione dei totali di gruppo e ha la stessa media della variabile oggetto
di indagine:
M
1 Nk
m (ζ) =
M
m (ηk ) = m (η) .
(7.84)
M
N
k=1
Per ciascun grappolo selezionato, si osserva il valore della variabile:
zj = ζkj
e si calcola lo stimatore di Hansen-Hurwitz per m (ζ), che è anche stimatore per
m (η) per la (9.91).
Teorema 7.33 Lo stimatore della media di popolazione nel caso di campionamento dei grappoli a probabilità variabile con reintroduzione è:
m
mpg (y) =
1 m (yj )
m j=1
(7.85)
Dimostrazione
Scrivendo lo stimatore di Hansen-Hurwitz per la m (ζ), si ritrova:
m
mHH (z) =
m
1 zj
1 MNj m (yj ) 1
=
m j=1 Mpkj
m j=1
N
M Nj
N
m
=
1 m (yj ) = mpg (y) ,
m j=1
che corrisponde alla media aritmetica semplice delle medie dei grappoli selezionati. Esso, a causa della (9.91) è anche stimatore di m (η) .
Nota. In caso di strategia in cui il piano di campionamento a probabilità
costante, lo stimatore (9.92) viene proposto se Nk = N0 , 1 ≤ k ≤ M ; ovvero
per grappoli di uguale numerosità.
Daniela Cocchi: Teoria dei Campioni
7.5. APPENDICI
220
Correttezza dello stimatore mpg (y)
Teorema 7.34 Lo stimatore mpg (y) è corretto per m (η) .
Dimostrazione
Per la dimostrazione, si sfrutta la conoscenza della varianza dello stimatore
di Hansen-Hurwitz per m (ζ). La speranza dello stimatore (9.92) è ottenuta
sulla base della (3.1):
E [mHH (z)] = E [mpg (y)] = m (ζ) = m (η) .
Varianza dello stimatore mpg (y)
Teorema 7.35 La varianza dello stimatore mpg (y) è pari a:
V [mpg (y)] =
1 2
v (η)
m t
(7.86)
Dimostrazione
Si riprendano la (3.5) e la (3.6), in questo contesto si ottiene:
2
M
1 ζk
1 2
vp (ζ) =
pk
− m (ζ)
V [mHH (z)] =
m
m
M pk
k=1
2
M
1 Nk M NNk m (ηk )
=
− m (ζ)
m
N
M NNk
k=1
M
=
1 Nk
[m (ηk ) − m (η)]2
m
N
k=1
1 2
=
v (η) = V [mpg (y)]
m t
La varianza dello stimatore di m (η) dipende dalla varianza ”tra” i grappoli.
Uno stimatore corretto per vt2 (η)
L’espressione dello stimatore di Hansen-Hurwitz contiene l’espressione vp2 (ζ),
che si riferisce alle unità complesse. Il suo equivalente campionario, analogo alla
(3.7), è:
2
m 1 zj
− mHH (z)
vp2 (z) =
m j=1 M pj
2
m 1 M Nj
N
=
m (yj )
− mpg (y)
m j=1 M N
Nj
m
=
1 2
[m (yj ) − mpg (y)]2 = vpg
(y) .
m j=1
Si tratta, poiché mpg (y) è la media aritmetica delle medie dei grappoli, della
varianza delle medie dei grappoli, che però, non essendo ponderata con le dimensioni dei gruppi, non è la varianza ”tra”. Sulla base di aspetti ormai noti
dalla teoria, si definisce:
m 2
s2pg (y) =
v (y) .
(7.87)
m − 1 pg
Daniela Cocchi: Teoria dei Campioni
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
221
Teorema 7.36 Lo stimatore (9.94) è corretto per vt2 (η).
Dimostrazione
Nel caso di campionamento con reintroduzione, con quantità di tipo s2 (y)
stimano correttamente le quantità del tipo v2 (η). Quindi:
!
E s2pg (y) = vp2 (ζ) = vt2 (η) .
(7.88)
Uno stimatore per la varianza dello stimatore mpg (y)
Teorema 7.37 La quantità
1 2
s (y)
m pg
V̂ [mpg (y)] =
è una stima corretta della varianza dello stimatore della media a probabilità
variabili con il campionamento a grappoli (9.93).
Dimostrazione
La dimostrazione segue in modo immediato considerando che vale la (9.95)
e che può essere associata alla (9.93).
7.5.5
Appendice 4 [la stima per quoziente nel camp. a
grappolo]La stima per quoziente nel campionamento
a grappolo
Nel caso dei grappoli, la retta di popolazione passante per l’origine mette in
relazione quantità relative agli M grappoli e non agli N individui: in essa, non
si considerano i valori individuali ηλk , bensì i valori di grappolo ζk definiti nella
(9.90), che, come già detto, hanno media m (η), per la (9.91). I valori della
variabile ausiliaria, per ciascuna unità complessa, sono:
ξk =
Nk
.
N
(7.89)
Teorema 7.38 Uno stimatore di m (η) nel caso di campionamento a grappolo
è derivato come stimatore per quoziente di m (ζ):
mgQ (y) =
m
Nj m (yj )
j=1
m
.
(7.90)
Nj
j=1
Dimostrazione
Dalla definizione dello stimatore per quoziente della media della variabile ζ,
con variabile ausiliaria ξ, si ha:
mQ (z) =
m (z)
m (ξ)
m (x)
Daniela Cocchi: Teoria dei Campioni
(7.91)
7.5. APPENDICI
222
dove
M
1 Nk
1
=
M k=1 N
M
m (ξ) =
(7.92)
m
1 Nj
M
m (yj )
m j=1
N
m (z) =
m
1 Nj
.
m j=1 N
m (x) =
Lo stimatore (9.98) diventa quindi:
1
mQ (z) = mgQ (y) =
M
m
j=1
M Nj m(yj )
N
m
m
j=1
Nj
mN
=
m
Nj m (yj )
j=1
m
.
Nj
j=1
Teorema 7.39 La varianza dei residui è pari a:
v 2 (εQζ ) = M
M
N2
k
k=1
N2
[m (ηk ) − m (η)]2
(7.93)
Dimostrazione
L’errore associato alla relazione su cui si costruisce lo stimatore per quoziente
è:
εQζ
= ζk −
m (ζ)
ξk
m (ξ)
Nk
m (ζ) Nk
m (ηk ) −
N
m (ξ) N
Nk
= M
[m (ηk ) − m (η)] .
N
= M
Poiché in popolazione la media dei residui è nulla, si ottiene:
v2 (εQζ ) = m ε2Qζ − m (εQζ )2 = m ε2Qζ
M
=
1 2 Nk2
M
[m (ηk ) − m (η)]2 .
M
N2
k=1
Teorema 7.40 La formula approssimata della varianza dello stimatore per
quoziente, ricordando che il campionamento avviene con reintroduzione, è quindi, direttamente dalla (9.100):
M
V [mgQ (y)] N2
1 2
1
k
v (εQζ ) = M
[m (ηk ) − m (η)]2 .
m
m
N2
k=1
Daniela Cocchi: Teoria dei Campioni
(7.94)
CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO
223
Teorema 7.41 La varianza (9.101) può essere stimata con la:
m
1
M Nj2
2
V, [mgQ (y)] v2 (eQz ) =
[m (yj ) − mgQ (y)] .
m
m j=1 N 2
7.5.6
Appendice 5 [confronti di effic. tra strategie alternative]Confronto di efficienza tra strategie alternative nel caso di campionamento di grappoli con
dimensioni diverse
Riscrittura utile per effettuare confronti di efficienza
Per questo confronto si introduce una nuova variabile:
ρk =
m (ηk )
m (η)
1≤k≤M
e si usa, oltre alla (9.99), il risultato:
m (ξρ) =
M
1
1
1 Nk
m (ηk )
=
M
N
m (η)
M
k=1
per esprimere in modo diverso le variabili
ζk = M
Nk
m (η)
m (ηk )
= Mm (η) ξk ρk
N
m (η)
e il coefficiente della retta
βQζ
m (ζ)
=
=
m (ξ)
1
M
M
Nk
k=1 M N m (ηk )
M Nk
1
k=1 N
M
= Mm (η) .
In questo modo ζ può essere espresso in funzione di ξ, ovvero:
ζk = βQζ ξk ρk .
Se, alla luce di questa riscrittura, si riesamina il residuo della retta collegata
allo stimatore del quoziente, si ottiene:
εQζ
= ζk − βQζ ξk
= βQζ ξk ρk − βQζ ξk
= βQζ ξk (ρk − 1) ,
quantità che può essere usata nei confronti successivi.
Daniela Cocchi: Teoria dei Campioni
7.5. APPENDICI
224
7.5.7
Confronto tra strategie alternative nel caso di campionamento a grappoli con dimensione diversa
I tre stimatori:
mg (y) , introdotto con la (9.39), abbinato al campionamento casuale semplice dei grappoli senza usare informazioni ausiliarie;
mpg (y) , introdotto con la (9.92), abbinato al campionamento a grappolo
con estrazione a probabilità variabile;
mgQ (y) , stimatore per quoziente in un campionamento casuale semplice
di grappoli, introdotto con la (9.97) possono essere confrontati in termini di
efficienza.
Si possono dimostrare i risultati seguenti:
1) lo stimatore per quoziente riferito al campionamento a grappoli, (9.97), è
da preferire allo stimatore diretto del grappolo (9.39) quando
1
v (ξρ, ξ) > v2 (ξ) ;
2
2) il campionamento a grappolo con estrazione a probabilità variabile (9.92)
è da preferire al campionamento casuale semplice dei grappoli con stimatore
(9.39) quando
v ξρ2 , ξ > 0;
3) il campionamento a grappolo con probabilità variabile, e lo stimatore di
Hansen-Hurwitz associato, (9.92), sono da preferire al campionamento casuale
semplice dei grappoli e all’impiego dello stimatore per quoziente (9.97) quando
v ξ (ρ − 1)2 , ξ > 0.
Scrivendo le tre varianze nel caso di campionamento con reintroduzione, rispettivamente dalla adattando la (9.41) al caso con reintroduzione, dalla (9.93) e
dalla (9.101),
V [mg (y)] =
2
M 1 Nk
M
m (ηk ) − m (η)
mM
N
k=1
V [mpg (y)] =
M
1 Nk
[m (ηk ) − m (η)]2
m
N
k=1
V [mgQ (y)] M
M Nk2
[m (ηk ) − m (η)]2
m
N2
k=1
si possono interpretare ulteriormente i risultati ricavati in precedenza. Se le medie dei grappoli tendono ad essere uguali tra loro, sarà preferibile non utilizzare
il campionamento casuale semplice dei grappoli e il relativo stimatore diretto.
Se, invece, i totali dei grappoli tendono ad essere uguali tra loro, è più conveniente utilizzare il campionamento a grappoli con estrazione casuale semplice
dei grappoli stessi e lo stimatore diretto.
Se Nk = N0 , ovvero tutte le numerosità sono identiche, saranno ugualmente
identici anche tutti i risultati, in termini di varianze.
Daniela Cocchi: Teoria dei Campioni