Indice I Corso base 1 1 Introduzione 1.1 Descrizione della popolazione . . . . . . . . . . . . . . . . . . . . 1.1.1 Caratteri quantitativi . . . . . . . . . . . . . . . . . . . . 1.1.2 Caratteri dicotomici . . . . . . . . . . . . . . . . . . . . . 1.1.3 Descrizione di una popolazione suddivisa in gruppi . . . . 1.1.4 Scomposizione della varianza totale in varianza entro e tra i gruppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Campione e sua descrizione . . . . . . . . . . . . . . . . . . . . . 1.2.1 Definizione di campione . . . . . . . . . . . . . . . . . . . 1.2.2 Descrizione del campione . . . . . . . . . . . . . . . . . . 1.3 Piano di campionamento . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Probabilità di estrazione degli elementi del campione . . . 1.3.2 Probabilità di inclusione delle unità . . . . . . . . . . . . 1.4 Il vettore aleatorio a . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Distribuzione della variabile aleatoria a . . . . . . . . . . 1.5 Relazioni tra aλ e πλ . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Relazioni proprie del campionamento con reintroduzione . 1.5.2 Relazioni proprie del campionamento senza reintroduzione 1.6 Introduzione alla stima . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Le proprietà degli stimatori . . . . . . . . . . . . . . . . . 1.6.2 Stimatori lineari ed omogenei . . . . . . . . . . . . . . . . 1.6.3 La valutazione delle strategie campionarie . . . . . . . . . 1.7 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.3 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.4 Appendice 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.5 Appendice 5 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.6 Appendice 6 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.7 Appendice 7 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.8 Appendice 8 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.9 Appendice 9 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.10 Campioni di dimensione n = 3 . . . . . . . . . . . . . . . 1.7.11 Appendice 10 . . . . . . . . . . . . . . . . . . . . . . . . . 1.7.12 Appendice 12 . . . . . . . . . . . . . . . . . . . . . . . . . i 3 5 5 7 8 10 11 11 13 15 16 22 25 26 28 28 29 31 31 33 36 37 37 37 40 43 45 47 47 48 48 49 50 50 ii INDICE 2 Campionamento casuale semplice 51 2.1 C.C.S. con reintroduzione . . . . . . . . . . . . . . . . . . . . . . 52 2.1.1 Probabilità di estrazione dei campioni non ordinati . . . . 52 2.1.2 Probabilità di estrazione delle unità . . . . . . . . . . . . 53 2.1.3 Probabilità di inclusione . . . . . . . . . . . . . . . . . . . 53 2.1.4 Primi due momenti della variabile casuale a . . . . . . . . 53 2.1.5 Inferenza sulla media di popolazione . . . . . . . . . . . . 55 2.1.6 Inferenza sul totale di popolazione . . . . . . . . . . . . . 58 2.1.7 Stima per variabili dicotomiche: la proporzione e il totale 62 2.2 C. C. S. senza reintroduzione . . . . . . . . . . . . . . . . . . . . 63 2.2.1 Probabilità di estrazione dei campioni non ordinati (estrazione in blocco) . . . . . . . . . . . . . . . . . . . . . . 63 2.2.2 Probabilità di estrazione delle unità . . . . . . . . . . . . 64 2.2.3 Probabilità di inclusione . . . . . . . . . . . . . . . . . . . 64 2.2.4 Primi due momenti della variabile casuale a . . . . . . . . 65 2.2.5 Inferenza per la media e per il totale di popolazione . . . 65 2.2.6 Stima per variabili dicotomiche: la proporzione e il totale 70 2.3 Riassunto della teoria per il campionamento casuale semplice . . 71 2.4 C.C.S.: efficienza e precisione . . . . . . . . . . . . . . . . . . . . 72 2.4.1 Il design effect . . . . . . . . . . . . . . . . . . . . . . . . 72 2.4.2 Confronto di efficienza tra il campionamento casuale semplice con e senza reintroduzione . . . . . . . . . . . . . . . 72 2.5 Costr. di intervalli di confidenza simmetrici . . . . . . . . . . . . 74 2.5.1 Intervalli di confidenza per la media di popolazione . . . . 75 2.5.2 Intervalli di confidenza per il totale di popolazione . . . . 76 2.5.3 Intervalli di confidenza per variabili dicotomiche: la proporzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2.6 Numerosità campionaria . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.1 Determinazione della numerosità campionaria per la stima della media di popolazione . . . . . . . . . . . . . . . . . . 78 2.6.2 Determinazione della numerosità campionaria per la stima del totale di popolazione . . . . . . . . . . . . . . . . . . . 81 2.6.3 Determinazione della numerosità campionaria per la stima della proporzione . . . . . . . . . . . . . . . . . . . . . . . 84 2.7 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 2.7.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 88 2.7.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 89 2.7.3 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 89 3 Campionamento a probabilità variabile 3.1 P.V. con reintroduzione . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Inferenza sulla media di popolazione . . . . . . . . . . . . 3.1.2 Inferenza sul totale di popolazione . . . . . . . . . . . . . 3.1.3 Confronto di efficienza tra campionamento casuale semplice e campionamento a probabilità variabile . . . . . . . 3.2 P.V. con V.A. dimensionale . . . . . . . . . . . . . . . . . . . . . 3.2.1 Confronto di efficienza nel caso di campionamento casuale semplice e campionamento a probabilità variabile con reintroduzione . . . . . . . . . . . . . . . . . . . . . . 3.3 P.V. senza reintroduzione . . . . . . . . . . . . . . . . . . . . . . 91 91 92 96 98 103 104 105 INDICE iii 3.3.1 3.3.2 Probabilità di inclusione . . . . . . Gli stimatori di Horvitz-Thompson totale . . . . . . . . . . . . . . . . 3.4 Sintesi . . . . . . . . . . . . . . . . . . . . 3.5 Appendici . . . . . . . . . . . . . . . . . . 3.5.1 Appendice 1 . . . . . . . . . . . . . 3.5.2 Appendice 2 . . . . . . . . . . . . . 3.5.3 Appendice 3 . . . . . . . . . . . . . . . . . per la . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . media e per . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . il . . . . . . . . . . . . 105 4 La stima per quoziente 4.1 Stimatori per quoziente . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Uno stimatore per la media . . . . . . . . . . . . . . . . . 4.1.2 Uno stimatore per il totale . . . . . . . . . . . . . . . . . 4.1.3 Uno stimatore per rapporti aleatori . . . . . . . . . . . . . 4.2 La speranza degli stimatori per quoziente . . . . . . . . . . . . . 4.2.1 Scrittura di bQ in forma utile al calcolo dei momenti . . . 4.2.2 Correttezza approssimata degli stimatori per quoziente . . 4.2.3 Distorsione approssimata degli stimatori per quoziente . . 4.3 Varianza approssimata per quoziente . . . . . . . . . . . . . . . . 4.3.1 Varianza approssimata di bQ . . . . . . . . . . . . . . . . 4.3.2 Varianza approssimata di mQ (y) . . . . . . . . . . . . . . 4.3.3 Varianza approssimata di tQ (y) . . . . . . . . . . . . . . . 4.3.4 Stimatori delle varianze approssimate degli stimatori per quoziente . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Efficienza per lo stimatore per quoziente . . . . . . . . . . . . . . 4.4.1 Confronto di efficienza tra media campionaria e stimatore per quoziente nel campionamento casuale semplice con o senza reintroduzione . . . . . . . . . . . . . . . . . . . . . 4.5 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.4 Appendice 4 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.5 Appendice 5 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.6 Appendice 6 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.7 Appendice 7 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.8 Appendice 8 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.9 Appendice 9 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.10 Stimatori delle varianze approssimate degli stimatori per quoziente . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.11 Appendice 10 . . . . . . . . . . . . . . . . . . . . . . . . . 123 124 124 125 125 126 126 126 127 129 129 130 130 5 La stima per regressione 5.1 Il principio della stima per regressione . . . . . . . . . . . . . . 5.1.1 Uno stimatore per la media . . . . . . . . . . . . . . . . 5.1.2 Uno stimatore per il totale . . . . . . . . . . . . . . . . 5.2 La speranza degli stimatori per regressione . . . . . . . . . . . 5.2.1 Scritture utili per il calcolo dei momenti . . . . . . . . . 5.2.2 Correttezza approssimata degli stimatori per regressione 143 143 144 145 145 145 145 . . . . . . 108 115 117 117 119 120 131 132 132 133 133 135 135 136 138 138 139 139 139 139 140 INDICE iv 5.2.3 5.3 5.4 5.5 5.6 Distorsione esatta e approssimata degli stimatori espressa in funzione dei residui . . . . . . . . . . . . . . . . . . . . Approssimazione della varianza degli stimatori . . . . . . . . . . 5.3.1 Approssimazione della varianza degli stimatori . . . . . . 5.3.2 Stimatori della varianza approssimata degli stimatori per regressione . . . . . . . . . . . . . . . . . . . . . . . . . . Confronti di efficienza . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Confronto di efficienza tra lo stimatore per regressione e la media campionaria nel campionamento casuale semplice con o senza reintroduzione . . . . . . . . . . . . . . . . . . 5.4.2 Confronto di efficienza tra lo stimatore per regressione e quello per quoziente nel campionamento casuale semplice con o senza reintroduzione . . . . . . . . . . . . . . . . . . Stimatori generalizzati per differenza . . . . . . . . . . . . . . . . 5.5.1 Correttezza degli stimatori generalizzati per differenza . . 5.5.2 Varianza degli stimatori generalizzati per differenza . . . 5.5.3 Stimatori per la varianza degli stimatori generalizzati per differenza . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.4 Confronto di efficienza tra gli stimatori per regressione e gli stimatori generalizzati per differenza . . . . . . . . . . 5.5.5 Confronto di efficienza tra gli stimatori generalizzati per differenza e gli stimatori diretti del campionamento casuale semplice . . . . . . . . . . . . . . . . . . . . . . . . . Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.1 Appendice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.2 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6.3 Appendice 3 Confronto di efficienza tra lo stimatore per regressione e lo stimatore di Hansen Hurwitz nel campionamento con reintroduzione . . . . . . . . . . . . . . . . . 6 Campionamento stratificato 6.1 [Il campionamento stratificato s. r.]Il campionamento stratificato senza reintroduzione di dimensione n . . . . . . . . . . . . . . . . 6.1.1 Probabilità dei campioni non ordinati . . . . . . . . . . . 6.1.2 Probabilità di inclusione . . . . . . . . . . . . . . . . . . . 6.1.3 Inferenza sulla media di popolazione . . . . . . . . . . . . 6.1.4 Inferenza sul totale di popolazione . . . . . . . . . . . . . 6.1.5 Stima per variabili dicotomiche: la proporzione e il totale 6.2 Campionamento stratificato proporzionale . . . . . . . . . . . . . 6.2.1 Stimatore per la media e per il totale in caso di stratificazione proporzionale . . . . . . . . . . . . . . . . . . . . 6.2.2 Varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale . . . . 6.2.3 Uno stimatore per la varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale (estrazione senza reintroduzione) . . . . . . 6.3 [efficienza del campionamento strat. prop.]Confronto di efficienza tra il campionamento casuale semplice senza reintroduzione e il campionamento stratificato proporzionale . . . . . . . . . . . . . 6.3.1 Caso particolare di strati della stessa ampiezza . . . . . . 145 146 146 148 149 149 150 151 152 152 153 153 154 155 155 156 157 161 163 163 163 164 168 170 172 173 174 175 176 177 INDICE v 6.4 Campionamento stratificato ottimale . . . . . . . . . . . . . . . . 178 6.4.1 Equivalenza del campionamento stratificato ottimale al campionamento proporzionale nel caso di uguale varianza all’interno degli strati. . . . . . . . . . . . . . . . . . . . . 179 6.5 [Numerosità campionaria in stratificazione]Determinazione della numerosità campionaria complessiva nel campionamento stratificato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 6.6 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 6.6.1 Appendice 1 Valori approssimati per la varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale . . . . . . . . . . . . . . . . 182 6.6.2 Uno stimatore della varianza dello stimatore della media nel campionamento stratificato proporzionale . . . . . . . 183 6.6.3 Appendice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 184 6.6.4 Appendice 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 185 6.6.5 Appendice 4 [Metodo del quoziente nella stratificazione]Gli stimatori per quoziente nel campionamento stratificato . . 186 6.6.6 Stimatore per quoziente separato della media di popolazione186 6.6.7 Stimatore per quoziente combinato della media di popolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 6.6.8 Appendice 5 [Stimatore per regressione nella stratificazione]Gli stimatori per regressione nel campionamento stratificato . 188 6.6.9 Stimatore di regressione separato della media di popolazione188 6.6.10 Stimatore di regressione combinato della media di popolazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 7 Introduzione al campionamento a grappolo 7.1 Il campionamento casuale semplice di grappoli . . . . . . . . . . 7.1.1 Probabilità dei campioni non ordinati . . . . . . . . . . . 7.1.2 Probabilità di inclusione . . . . . . . . . . . . . . . . . . . 7.1.3 Espressione della casualità del campionamento di unità complesse tramite un vettore aleatorio . . . . . . . . . . . 7.1.4 Stimatori lineari omogenei nel caso di campionamento di unità complesse . . . . . . . . . . . . . . . . . . . . . . . . 7.2 c.c.s.s.r. di grappoli con dimensioni diverse . . . . . . . . . . . . 7.2.1 Inferenza sulla media per grappolo . . . . . . . . . . . . . 7.2.2 Inferenza sul totale di popolazione . . . . . . . . . . . . . 7.2.3 Inferenza sulla media di popolazione . . . . . . . . . . . . 7.3 c.c.s.s.r. di grappoli con la stessa dimensione . . . . . . . . . . . 7.3.1 Inferenza sulla media di popolazione . . . . . . . . . . . . 7.3.2 Inferenza sulla media per grappolo . . . . . . . . . . . . . 7.3.3 Inferenza sul totale di popolazione . . . . . . . . . . . . . 7.3.4 Confronto di efficienza tra il campionamento casuale semplice di unità complesse e il campionamento casuale semplice di unità elementari . . . . . . . . . . . . . . . . . . . 7.4 Campionamento sistematico . . . . . . . . . . . . . . . . . . . . . 7.5 Appendici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.1 Appendice 1 Il coefficiente di correlazione intracluster . . 191 193 193 194 194 195 195 195 201 202 204 205 208 209 210 211 213 213 INDICE vi 7.5.2 7.5.3 7.5.4 7.5.5 7.5.6 7.5.7 II Appendice 2 [alcune rel. utili per grappoli di eguale e diversa dim.]Relazioni tra i risultati per grappoli con eguale dimensione e per grappoli con dimensioni diverse . . . . . 216 Appendice 3 [Camp. dei grappoli con probabilità variabile]Campionamento di grappoli con probabilità variabile con reintroduzione . . . . . . . . . . . . . . . . . . . . . . 218 Inferenza sulla media di popolazione . . . . . . . . . . . . 219 Appendice 4 [la stima per quoziente nel camp. a grappolo]La stima per quoziente nel campionamento a grappolo . 221 Appendice 5 [confronti di effic. tra strategie alternative]Confronto di efficienza tra strategie alternative nel caso di campionamento di grappoli con dimensioni diverse . . . . . . . . 223 Confronto tra strategie alternative nel caso di campionamento a grappoli con dimensione diversa . . . . . . . . . . 224 Corso avanzato 225 8 Introduzione alla seconda parte 8.1 Organizzazione della popolazione in unità complesse . . . . . . . 8.2 Argomenti speciali . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Stima nei domini di studio . . . . . . . . . . . . . . . . . . . . . . 8.4 Notazione utile per gli sviluppi successivi . . . . . . . . . . . . . 8.4.1 Descrizione della popolazione . . . . . . . . . . . . . . . . 8.4.2 Descrizione del campione . . . . . . . . . . . . . . . . . . 8.5 Piano di campionamento e stima . . . . . . . . . . . . . . . . . . 8.5.1 Universo dei campioni . . . . . . . . . . . . . . . . . . . . 8.5.2 Piano di campionamento . . . . . . . . . . . . . . . . . . . 8.5.3 Il vettore aleatorio a . . . . . . . . . . . . . . . . . . . . 8.5.4 Stimatori e i primi loro due momenti . . . . . . . . . . . 8.5.5 Stima della media nel Campionamento Casuale Semplice . 8.5.6 Stima della media nel Campionamento a Probabilità Variabile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.7 Stima per quoziente . . . . . . . . . . . . . . . . . . . . . 8.5.8 Stima per regressione . . . . . . . . . . . . . . . . . . . . 227 227 228 228 229 229 232 233 233 234 236 237 239 9 Campionamento a grappolo 9.1 Il campionamento casuale semplice di grappoli . . . . . . . . . . 9.1.1 Probabilità dei campioni non ordinati . . . . . . . . . . . 9.1.2 Probabilità di inclusione . . . . . . . . . . . . . . . . . . . 9.1.3 Espressione della casualità del campionamento di unità complesse tramite un vettore aleatorio . . . . . . . . . . . 9.1.4 Stimatori lineari omogenei nel caso di campionamento di unità complesse . . . . . . . . . . . . . . . . . . . . . . . . 9.2 c.c.s.s.r. di grappoli con dimensioni diverse . . . . . . . . . . . . 9.2.1 Inferenza sulla media per grappolo . . . . . . . . . . . . . 9.2.2 Inferenza sul totale di popolazione . . . . . . . . . . . . . 9.2.3 Inferenza sulla media di popolazione . . . . . . . . . . . . 9.3 c.c.s.s.r. di grappoli con la stessa dimensione . . . . . . . . . . . 9.3.1 Inferenza sulla media di popolazione . . . . . . . . . . . . 245 247 247 248 240 242 243 248 249 250 250 256 257 259 261 INDICE vii 9.3.2 9.3.3 9.3.4 9.4 9.5 9.6 9.7 9.8 9.9 Inferenza sulla media per grappolo . . . . . . . . . . . . . Inferenza sul totale di popolazione . . . . . . . . . . . . . Confronto di efficienza tra il campionamento casuale semplice di unità complesse e il campionamento casuale semplice di unità elementari . . . . . . . . . . . . . . . . . . . 9.3.5 Il coefficiente di correlazione intracluster . . . . . . . . . . relazioni per grappoli di eguale e diversa dim. . . . . . . . . . . . Camp. dei grappoli con probabilità variabile . . . . . . . . . . . . 9.5.1 Inferenza sulla media di popolazione . . . . . . . . . . . . la stima per quoziente nel camp. a grappolo . . . . . . . . . . . . confronti di effic. tra strategie alternative . . . . . . . . . . . . . 9.7.1 Confronto tra strategie alternative nel caso di campionamento a grappoli con dimensione diversa . . . . . . . . . . Campionamento sistematico . . . . . . . . . . . . . . . . . . . . . Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 266 267 268 273 275 276 279 282 282 287 289 10 Campionamento a più stadi 10.1 Formalizzazione del campionamento a due stadi . . . . . . . . . . 10.1.1 Probabilità d’inclusione . . . . . . . . . . . . . . . . . . . 10.1.2 Espressione della casualità del campionamento tramite una gerarchia di vettori aleatori . . . . . . . . . . . . . . . 10.1.3 Lo stimatore lineare omogeneo nel campionamento a due stadi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 prob. d’inclusione variabili al I e II stadio . . . . . . . . . . . . . 10.2.1 Inferenza sulla media di popolazione . . . . . . . . . . . . 10.2.2 Inferenza sul totale di popolazione . . . . . . . . . . . . . 10.3 prob. d’inclusione costanti al I e II stadio . . . . . . . . . . . . . 10.3.1 Inferenza sulla media di popolazione . . . . . . . . . . . . 10.3.2 Inferenza sul totale di popolazione . . . . . . . . . . . . . 10.4 unità di primo stadio con la stessa dimensione . . . . . . . . . . . 10.4.1 Inferenza sulla media di popolazione . . . . . . . . . . . . 10.4.2 Inferenza sul totale di popolazione . . . . . . . . . . . . . 10.4.3 Efficienza relativa del campionamento a due stadi nel caso di unità di primo stadio con la stessa dimensione . . . . . 10.5 Stima per quoziente . . . . . . . . . . . . . . . . . . . . . . . . . 10.5.1 Varianza di 1o stadio . . . . . . . . . . . . . . . . . . . . . 10.6 Un esempio svolto in R . . . . . . . . . . . . . . . . . . . . . . . . 10.6.1 Svolgimento nell’ambiente R . . . . . . . . . . . . . . . . 10.6.2 Stima nel campionamento casuale semplice a 2 stadi senza reintroduzione . . . . . . . . . . . . . . . . . . . . . . . . 10.6.3 Riassunto dei risultati calcolati con R . . . . . . . . . . . 10.6.4 Stimatore per quoziente . . . . . . . . . . . . . . . . . . . 10.7 Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 302 303 11 Sviluppi speciali 11.1 Formalizzazione del campionamento a tappe . . . . . . . . . . . . 11.1.1 Campionamento doppio indipendente . . . . . . . . . . . 11.1.2 Campionamento doppio dipendente . . . . . . . . . . . . . 11.1.3 Richiamo utile per il calcolo delle speranze e delle varianze degli stimatori . . . . . . . . . . . . . . . . . . . . . . . . 349 350 350 350 304 305 307 308 311 312 313 315 316 317 320 320 320 322 322 323 326 327 328 329 351 INDICE viii 11.2 Stima 11.2.1 11.2.2 11.2.3 11.2.4 11.3 11.4 11.5 11.6 11.7 per quoziente nel camp. a tappe . . . . . . . . . . . . . . . 351 Lo stimatore per quoziente della media di popolazione . . 351 Campionamento doppio indipendente . . . . . . . . . . . 352 Campionamento doppio dipendente . . . . . . . . . . . . . 356 Confronto tra il campionamento dipendente e quello indipendente . . . . . . . . . . . . . . . . . . . . . . . . . . 360 Le rilevazioni ripetute nel tempo . . . . . . . . . . . . . . . . . . 361 11.3.1 Lo stimatore per regressione nel campionamento a due tappe362 11.3.2 Uno stimatore composto nel caso di rilevazioni ripetute nel tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 Stimatore di stratificazione nel camp. a tappe . . . . . . . . . . . 367 11.4.1 Distribuzione delle variabili aleatorie n1k . . . . . . . . . 368 11.4.2 Uno stimatore stratificato della media di popolazione . . . 369 La post-stratificazione . . . . . . . . . . . . . . . . . . . . . . . . 373 Prop. degli stim. in situazioni non standard . . . . . . . . . . . . 377 11.6.1 La linearizzazione tramite uno sviluppo in serie di Taylor 377 11.6.2 Il caso particolare dello stimatore per quoziente . . . . . . 378 Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380 12 La stima nei domini di studio 12.1 Stimatori di espansione . . . . . . . . . . . . . . . . . 12.1.1 Uno stimatore per il totale . . . . . . . . . . . 12.1.2 Uno stimatore per la media . . . . . . . . . . . 12.1.3 Varianza degli stimatori per i domini di studio 12.1.4 Stimatori per le varianze . . . . . . . . . . . . . 12.2 Stimatori per quoziente . . . . . . . . . . . . . . . . . 12.2.1 Varianza degli stimatori per quoziente . . . . . 12.2.2 Stimatori per le varianze . . . . . . . . . . . . . 12.2.3 Altri stimatori per quoziente . . . . . . . . . . 12.3 Esercizi svolti . . . . . . . . . . . . . . . . . . . . . . . Daniela Cocchi: Teoria dei Campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385 387 387 387 388 391 392 393 394 395 395 Teoria dei Campioni Daniela Cocchi INDICE ii Daniela Cocchi: Teoria dei Campioni Parte I Corso base 1 Capitolo 1 I principi dell’inferenza nel campionamento da popolazioni finite Ultima revisione: 16 febbraio 2011 La progettazione e la realizzazione di indagini campionarie sono strumenti statistici molto diffusi. Un campione ben scelto può dare informazioni che, con un grado di incertezza controllabile tramite gli strumenti del calcolo delle probabilità, possono essere estese alla popolazione da cui esso proviene. Un’indagine campionaria può addirittura dare luogo a risultati più affidabili di una rilevazione completa. Nelle rilevazioni complete, infatti, quanto più la popolazione è grande, tanto più la raccolta dei dati rischia di svolgersi in condizioni molto differenziate, che possono avere come conseguenza grandi errori di misura. Per la buona riuscita di un’indagine campionaria è importante tuttavia che la selezione del campione avvenga realmente dalla popolazione obiettivo su cui è programmata l’indagine. Indagini condotte in modo inadeguato potrebbero rilevare i dati soltanto da gruppi particolari della popolazione, in cui l’informazione oggetto di studio è più facilmente ottenibile. Nel mondo reale le popolazioni hanno dimensione finita. La teoria di base dell’inferenza per popolazioni finite assume che la dimensione della popolazione sia nota e che ogni elemento della popolazione sia identificabile. La teoria dell’inferenza da popolazioni finite è molto diversa dalla teoria dell’inferenza maggiormente conosciuta. Infatti in quest’ultima si fa l’ipotesi che il carattere investigato possa essere rappresentato mediante una variabile aleatoria a cui si associa una distribuzione di probabilità. L’inferenza statistica classica è inoltre fondata sull’idea del campionamento, ripetuto in condizioni di indipendenza, da un processo generatore dei dati, espresso con una legge di probabilità governata da parametri incogniti la cui stima è oggetto di inferenza. In questo caso ci si riferisce quindi a una popolazione infinita o illimitata. La stima dei parametri viene effettuata in base a un’opportuna funzione delle osservazioni campionarie, detta stimatore. La legge di probabilità dello stimatore è legata a quella del carattere oggetto di studio. Le proprietà degli stimatori dipendono dai parametri del modello adottato per tale variabile. 3 4 Nell’inferenza da popolazioni finite il carattere oggetto di studio è considerato non aleatorio. Secondo la terminologia della statistica, i valori individuali del carattere sono quindi parametri della popolazione. Selezionando un campione dalla popolazione, si fronteggia una situazione in cui il numero di osservazioni campionarie è inferiore al numero di parametri da stimare. L’inferenza è comunque possibile perché il suo obiettivo è un valore sintetico della popolazione, funzione dei valori individuali, come la media o il totale. Gli oggetti a cui, nell’inferenza da popolazioni finite, vengono assegnate le probabilità sono i possibili campioni ottenibili dalla popolazione. Nell’inferenza tipica nelle popolazioni finite la fonte di aleatorietà consiste nella probabilità con cui le unità della popolazione possono entrare a far parte del campione. In questo caso l’inferenza è basata esclusivamente sul piano di campionamento. L’universo dei possibili campioni che possono essere potenzialmente costruiti è quindi fondamentale per l’inferenza. Dai valori della variabile rilevabili sugli elementi di ciascun possibile campione si può ricavare il valore dello stimatore per una qualunque funzione dei valori individuali di popolazione. La mancata coincidenza con il valore di popolazione da parte del valore stimato tramite il campione a disposizione è dovuta alla mancata osservazione di una parte della popolazione. L’errore che viene commesso osservando una parte della popolazione è detto errore di campionamento, controllabile con gli strumenti del calcolo delle probabilità. Le proprietà degli stimatori utilizzati dipendono direttamente dalle caratteristiche strutturali della popolazione, che devono quindi essere definite accuratamente. In queste note non si considerano altri tipi di errore tipici delle indagini campionarie quali gli errori di misura, né gli errori da imputare al procedimento di rilevazione, come quelli relativi alla costruzione del questionario, se le informazioni vengono raccolte tramite intervista, né quelli dovuti, nello stesso contesto, al comportamento del rilevatore o dell’intervistato. Le probabilità assegnate ai campioni variano secondo il piano di campionamento adottato. Se non ci sono ragioni per preferire certi campioni piuttosto che altri per l’inferenza, tutti i campioni debono avere la stessa probabilità, dando luogo al campionamento casuale semplice, l’unico ad esser proponibile. Piani di campionamento diversi dal campionamento casuale semplice possono esser proposti se sono disponibili informazioni ausiliarie relative alla popolazione: per una stessa popolazione possono essere proposti piani di campionamento diversi e stimatori alternativi, utilizzando opportunamente le conoscenze da impiegare. Le informazioni ausiliarie rivestono quindi un ruolo molto importante nell’inferenza da popolazioni finite, in quanto permettono di migliorare l’efficienza degli stimatori a parità di dimensione campionaria. L’impiego di informazioni ausiliarie può avvenire sia per assegnare le probabilità ai campioni sia per costruire stimatori che sfruttino le relazioni tra le informazioni ausiliarie e il carattere oggetto di studio. La teoria del campionamento da popolazioni finite ha avuto origine dal problema della progettazione di grandi indagini su popolazioni enormi, quelle considerate dagli istituti nazionali di statistica, e, soprattutto in alcuni aspetti, risente di questa particolarità. Tipiche peculiarità delle popolazioni delle grandi indagini campionarie sono: l’identificabilità degli elementi della popolazione, l’enfasi sulla considerazione di unità complesse che a loro volta contengono unità elementari, la conoscenza della dimensione della popolazione. Dalle esigenze degli istituti nazionali di statistica ha avuto origine la ricerca di uno strumento per Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 5 fare inferenza che non sia collegato ad un modello statistico che descriva il carattere oggetto di studio, ma che possa essere impiegato per qualunque tipo di carattere. L’apparente neutralità dei procedimenti che vengono proposti è comunque mitigata dall’uso appropriato delle informazioni ausiliarie. I capitoli che seguono presentano i metodi che sono particolarmente adeguati per popolazioni umane, o comunque di interesse socio-economico, piuttosto che per popolazioni di tipo biologico o naturalistico. Per queste ultime popolazioni, infatti, non sempre si dispone della lista delle unità e, molto spesso, è la dimensione stessa ad essere incognita e quindi oggetto di stima. Nello studio delle popolazioni finite, a causa della particolarità concettuale del problema da affrontare, si debbono definire in modo preciso la popolazione, il campione, le loro principali sintesi, e descrivere la relazione che intercorre tra popolazione e campione tramite il piano di campionamento. Questi passi vengono affrontati nelle sezioni che seguono. Le quantità di popolazione verranno nel seguito denotate utilizzando l’alfabeto greco, secondo la convenzione della statistica che caratterizza in tal modo tutto ciò che non viene osservato. A sua volta ciò che viene osservato, cioè il campione, verrà denotato utilizzando l’alfabeto latino. 1.1 Descrizione della popolazione Sia data una popolazione di riferimento: Ω, formata da un numero finito di elementi: N e si indichi con λ l’indice, o etichetta, che identifica ciascun elemento appartenente alla popolazione: 1 ≤ λ ≤ N. Il carattere univariato oggetto di studio può essere definito in popolazione con il vettore: η = (η1 , ..., ηλ , ..., ηN ) = {ηλ : 1 ≤ λ ≤ N } , (1.1) mentre con il vettore ζ = (ζ1 , ..., ζλ , ..., ζN ) = {ζλ : 1 ≤ λ ≤ N } (1.2) si definisce, sempre a livello di popolazione un altro carattere univariato che può giocare il ruolo di informazione ausiliaria. 1.1.1 Caratteri quantitativi Si possono definire le funzioni dei valori individuali (1.1) e (1.2) come: a) il totale in popolazione: t(η) = N ηλ , λ=1 Daniela Cocchi: Teoria dei Campioni (1.3) 1.1. DESCRIZIONE DELLA POPOLAZIONE 6 b) la media in popolazione: m(η) = N 1 1 t(η) = ηλ , N N (1.4) λ=1 c) il valore medio del prodotto di due parametri univariati: m(ηζ) = d) Lemma. N 1 ηλ ζλ , N λ=1 (1.5) La covarianza tra due caratteri univariati è: v(η, ζ) = m [(η − m(η)) (ζ − m (ζ))] = m (ηζ) − m (η) m (ζ) , (1.6) Dimostrazione: N 1 (ηλ − m(η)) (ζλ − m(ζ)) N λ=1 N N N N 1 = ζλ − m(ζ) ηλ + m(η)m(ζ) ηλ ζλ − m (η) N λ=1 λ=1 λ=1 λ=1 N 1 = ηλ ζλ − m(η)m(ζ)N − m(ζ)N m(η) + N m(ζ)m(η) N v(η, ζ) = m [(η − m(η)) (ζ − m(ζ))] = λ=1 = m (ηζ) − m (η) m(ζ) = m (ηζ) − m (η) m (ζ) , d’) per sfruttare la proprietà di correttezza spesso richiesta agli stimatori viene proposta, a partire dalla (1.6), anche la seguente espressione: N 1 s (η, ζ) = (ηλ − m (η)) (ζλ − m (ζ)) N −1 λ=1 N = v (η, ζ) , N −1 (1.7) e) la varianza di popolazione: v2 (η) = v (η, η) = N 1 (ηλ − m (η))2 N λ=1 = m η2 − m2 (η) , (1.8) e’) la variante della varianza in popolazione, utile per i risultati riguardanti l’impiego di stimatori corretti della varianza, analoga alla (1.7): s2 (η) = s (η, η) = f) il coefficiente di variazione: N v2 (η) , N −1 Daniela Cocchi: Teoria dei Campioni (1.9) CAPITOLO 1. INTRODUZIONE CV (η) = 7 v (η) m (η) dove v(η) = v2 (η), (1.10) s (η) m (η) dove s(η) = s2 (η), (1.11) f’) con la variante: CV (η) = g) la varianza relativa: RV (η) = CV 2 (η) , h) il coefficiente di correlazione lineare: v (η, ζ) s (η, ζ) = . v (η) v (ζ) s (η) s (ζ) ρ (η, ζ) = 1.1.2 (1.12) Caratteri dicotomici Se la variabile ηλ assume soltanto i valori 1 o 0, che indicano la presenza o l’assenza di una particolare caratteristica di interesse A , si possono definire: h) il totale di popolazione: τ= N ηλ = NA , (1.13) λ=1 i) la media di popolazione: π= N 1 NA ηλ = , N N (1.14) λ=1 che indicano rispettivamente il numero totale e la frazione, o proporzione, di unità che presentano la caratteristica A . Ricordando che, nel caso di variabili dicotomiche, η2 = η, si possono riscrivere le quantità (1.8), (1.9) e (1.10) come segue: l) la varianza di popolazione: v2 (η) = m(η2 ) − m2 (η) = m(η) − m2 (η) = π − π 2 = π(1 − π), (1.15) l’) con la variante: s2 (η) = N N v2 (η) = π(1 − π), N −1 N −1 (1.16) m) il coefficiente di variazione: 1 v(η) [π(1 − π)] 2 = m(η) π 1−π = , π CV (η) = Daniela Cocchi: Teoria dei Campioni (1.17) 1.1. DESCRIZIONE DELLA POPOLAZIONE 8 m’) con la variante: s (η) CV (η) = m (η) 1.1.3 dove s(η) = N π(1 − π). N −1 (1.18) Descrizione di una popolazione suddivisa in gruppi Sia Ω partizionata in M gruppi, o unità complesse, o sottopopolazioni, identificati dall’indice k: 1 ≤ k ≤ M , in modo che ogni elemento possa essere assegnato ad uno ed un solo gruppo di dimensione Nk e che la dimensione globale della popolazione possa essere ricostruita per somma: Ω= M Ωk Ωk k=1 N= M Ωh = φ h = k, Nk . (1.19) (1.20) k=1 In questo caso l’indice λ identifica gli elementi appartenenti ai singoli gruppi: 1 ≤ λ ≤ Nk . I caratteri univariati di popolazione della sezione precedente come (1.1) e (1.2), possono essere ridefiniti con riferimento all’appartenenza ai gruppi: ηk = (ηk1 , ..., ηkλ , ..., ηkNk ) = {ηkλ : 1 ≤ λ ≤ Nk } 1 ≤ k ≤ M, ζk = (ζk1 , ..., ζkλ , ..., ζkNk ) = {ζkλ : 1 ≤ λ ≤ Nk } (1.21) 1 ≤ k ≤ M. (1.22) All’interno di ciascun gruppo si possono definire, come nella sezione precedente: a) il totale di gruppo: t(ηk ) = Nk ηkλ λ=1 1 ≤ k ≤ M, (1.23) ritrovando il totale di popolazione (1.3) come: t(η) = Nk M k=1 λ=1 b) la media di gruppo: ηkλ = M t (ηk ) , k=1 Daniela Cocchi: Teoria dei Campioni (1.24) CAPITOLO 1. INTRODUZIONE m(ηk ) = 9 Nk 1 ηkλ Nk 1 ≤ k ≤ M, λ=1 (1.25) ritrovando la media di popolazione (1.4) come media aritmetica ponderata delle medie di gruppo: m(η) = M Nk M M 1 1 1 ηkλ = Nk m(ηk ) = t(ηk ), N N N k=1 λ=1 k=1 (1.26) k=1 c) il valor medio di gruppo del prodotto di due parametri univariati: m(ηk ζk ) = Nk 1 ηkλ ζkλ Nk 1 ≤ k ≤ M, λ=1 (1.27) d) la covarianza all’interno di ciascun gruppo: v(ηk ,ζk ) = m [(η − m(ηk )) (ζ − m(ζk ))] = N 1 (ηkλ − m(ηk )) (ζkλ − m(ζk )) Nk λ=1 = m (ηk ζk ) − m (ηk ) m (ζk ) 1 ≤ k ≤ M, (1.28) d’) con la variante: s(ηk , ζk ) = Nk v(ηk , ζk ) Nk − 1 1 ≤ k ≤ M, (1.29) e) varianza all’interno di ciascun gruppo: v 2 (ηk ) = Nk 1 (ηkλ − m(ηk ))2 = m ηk2 − m(ηk )2 Nk λ=1 1 ≤ k ≤ M, (1.30) e’) con la variante: s2 (ηk ) = Nk v2 (ηk ) Nk − 1 1 ≤ k ≤ M. (1.31) I gruppi possono essere visti come unità complesse, che costituiscono la popolazione degli M gruppi. Il valore individuale nell’unità complessa è il totale t (ηk )del valore delle unità elementari nel gruppo. Le medie per gruppo sono quindi le medie aritmetiche semplici dei totali di gruppo: f) media per gruppo: m∗ (η) = M t(η) 1 = t (ηk ) . M M k=1 Daniela Cocchi: Teoria dei Campioni (1.32) 1.1. DESCRIZIONE DELLA POPOLAZIONE 10 Si osservi che la grandezza (1.32) differisce dalla media generale, scritta secondo la (1.26), unicamente per effetto di una costante moltiplicativa, infatti si ha la seguente relazione: M 1 N Nk m(ηk ) = m(η). M M m∗ (η) = (1.33) k=1 1.1.4 Scomposizione della varianza totale in varianza entro e tra i gruppi Quando si tiene conto della suddivisione in gruppi della popolazione , è opportuno ricordare un’importante relazione, che nella popolazione ha una interpretazione esclusivamente descrittiva, basata sulla scomposizione della devianza totale. Lemma: Dev (η) = Nk M k=1 λ=1 [ηkλ − m (η)]2 = M Nk v2 (ηk ) + k=1 M k=1 Nk [m (ηk ) − m (η)]2 , (1.34) Dimostrazione: Dev (η) = Nk M k=1 λ=1 = Nk M k=1 λ=1 [ηkλ − m (η)]2 = 2 Nk M k=1 λ=1 M Nk v 2 (ηk ) + k=1 M k=1 +2 M k=1 = M k=1 poiché N k λ=1 k=1 λ=1 [ηkλ − m (ηk )] + +2 = Nk M Nk v 2 (ηk ) + [ηkλ + m (ηk ) − m (ηk ) − m (η)]2 Nk M k=1 λ=1 [m (ηk ) − m (η)]2 (ηkλ − m (ηk )) (m (ηk ) − m (η)) Nk [m (ηk ) − m (η)]2 (m (ηk ) − m (η)) M k=1 Nk λ=1 (ηkλ − m (ηk )) Nk [m (ηk ) − m (η)]2 , (ηkλ − m (ηk )) = 0. Se si indicano rispettivamente come varianza ”entro” e ”tra” le seguenti Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 11 espressioni: ve2 (η) = M 1 Nk v2 (ηk ) , N (1.35) k=1 vt2 (η) = M 1 2 Nk [m (ηk ) − m (η)] , N (1.36) k=1 si ottiene la scomposizione additiva della varianza già definita in (1.8): v 2 (η) = ve2 (η) + vt2 (η) . (1.37) Si definiscono inoltre le seguenti relazioni descrittive, che si basano anch’esse sulla scomposizione della devianza (1.34): N v2 (η) , N −M e N s2t (η) = v 2 (η) , M −1 t s2e (η) = (1.38) (1.39) e quindi dalla (1.34) : (N − 1) s2 (η) = (N − M ) s2e (η) + (M − 1) s2t (η) . (1.40) La relazione additiva di scomposizione riguarda quindi la devianza, come si desume dalle (1.34) e (1.40), e si riferisce la varianza soltanto nel caso semplificato (1.37). Da ricordare: in popolazione ogni carattere ha specifiche caratteristiche strutturali. In particolare è caratterizzato dai valori descrittivi della varianza e del coefficiente di variazione. Gli elementi di una popolazione possono essere raggruppati in unità complesse. Tramite questo raggruppamento, la devianza del carattere può essere scomposta nelle componenti entro e tra. 1.2 1.2.1 Definizione di campione e sua descrizione Definizione di campione Il campionamento consiste nella selezione di una successione di indici li dall’insieme degli indici λ che identificano gli elementi della popolazione Ω, in base ad uno schema predefinito. L’operazione di selezione dà origine al campione formato dall’insieme di etichette selezionato: s = {li : 1 ≤ li ≤ N , 1 ≤ i ≤ n (s)} , (1.41) dove n(s) indica l’ampiezza del campione, che può variare al variare di s. Se n(s) = n, il campione è di ampiezza fissa. Daniela Cocchi: Teoria dei Campioni 1.2. CAMPIONE E SUA DESCRIZIONE 12 La frazione di campionamento Con il termine frazione di campionamento, nel caso di campionamento a dimensione fissa, si intende il rapporto tra la dimensione campionaria e la dimensione della popolazione: f= n . N (1.42) Definizione di universo dei campioni e sua dimensione All’operazione di selezione del campione è associato uno spazio campionario, o universo dei campioni, indicato con S, costituito dall’insieme di tutti i possibili campioni, di qualsiasi dimensione, che si possono formare a partire dalla popolazione di dimensione N. Nel caso di campionamento a dimensione fissa, si definisce spazio campionario relativo ai campioni di dimensione n, e si indica con Sn , l’insieme delle parti di Ω : Sn = {s ∈ S : n (s) = n} . La dimensione del singolo Sn varia a seconda che la selezione delle etichette avvenga con o senza reintroduzione e che l’ordine degli elementi estratti sia considerato o non considerato rilevante. Con S(n) si fa riferimento a campioni ordinati, mentre con S{n} a campioni non ordinati. Per determinare la dimensione dell’universo dei campioni Dim(S{n} ) = S{n} , è utile distinguere tra: a) campioni non ordinati senza ripetizione, o in blocco, dove N! N Dim(S{n} ) = CN,n = = , n n! (N − n)! (1.43) b) campioni ordinati senza ripetizione, dove Dim(S(n) ) = DN,n = N! , (N − n)! (1.44) c) campioni non ordinati con ripetizione, dove r Dim(S{n} ) = CN,n = CN+n−1,n (N + n − 1)! N +n−1 , = = n n! (N − 1)! (1.45) d) campioni ordinati con ripetizione, dove r Dim(S(n) ) = DN,n = N n. Daniela Cocchi: Teoria dei Campioni (1.46) CAPITOLO 1. INTRODUZIONE 13 Gli universi ordinati hanno cardinalità superiore a quelli non ordinati. La dimensione dell’universo dei campioni ordinati, con o senza ripetizione, può essere ottenuta da quello dei campioni non ordinati, moltiplicando ogni campione non ordinato per il numero dei campioni ordinati formati dal medesimo insieme di elementi. Il caso più semplice è quello del campionamento senza ripetizione, in cui l’universo dei campioni ordinati (1.44) può essere ottenuto da quello dei campioni non ordinati (1.43), associando ad ogni campione non ordinato gli n! campioni ordinati che derivano dalle permutazioni del campione iniziale che non presenta elementi ripetuti, infatti si ha: DN,n = CN,n · n!. 1.2.2 (1.47) Descrizione del campione I valori selezionati del carattere multivariato oggetto d’interesse sono, come già accennato nella sezione precedente, denotati con lettere latine: x = (x1 , ..., xn ) = {xi : 1 ≤ i ≤ n}. (1.48) Considerando i valori campionari dei caratteri univariati η e ζ, si ottengono i vettori: y = (y1 , ..., yn ) = (yi : 1 ≤ i ≤ n) , z = (z1 , ..., zn ) = (zi : 1 ≤ i ≤ n) . (1.49) Non vi è quindi differenza tra il valore individuale del carattere in popolazione ed il suo valore nel campione, se non nella notazione: yi = ηli (1.50) e non c’è quindi nessun aspetto aleatorio che riguardi i valori assunti dai caratteri. Da questa scrittura si comprende chiaramente come, se venisse effettuata una rilevazione totale, e quindi il campione coincidesse con la popolazione, non si avrebbe nessun tipo di incertezza nel calcolo di quantità descrittive della popolazione. L’osservazione completa fornita dal campione è composta dalle coppie di etichette e di valori osservati: d = {(li , yi ) : 1 ≤ i ≤ n}. (1.51) I riassunti campionari che vengono presentati nei due paragrafi seguenti, rispettivamente per variabili quantitative o dicotomiche, possono, analogamente alla descrizione effettuata per la popolazione, essere calcolati per gruppi e poi sintetizzati appropriamente. Daniela Cocchi: Teoria dei Campioni 1.2. CAMPIONE E SUA DESCRIZIONE 14 Caratteri quantitativi Se si considerano caratteri quantitativi, analogamente a quanto avviene per la popolazione, si possono definire le principali funzioni di sintesi degli elementi del campione, come: a) il totale campionario: n t(y) = yi , (1.52) i=1 b) la media campionaria: n 1 1 m(y) = t(y) = yi , n n i=1 (1.53) c) la media campionaria del prodotto di due variabili: n m (yz) = d) la covarianza campionaria: 1 yi zi , n i=1 v(y, z) = m [(y − m(y))(z − m(z))] n 1 = (yi − m(y))(zi − m(z)) n i=1 = m(yz) − m(y)m(z), d’) la variante della covarianza campionaria espressa come: n s(y, z) = v(y, z), n−1 (1.54) (1.55) (1.56) e) la varianza campionaria: n v2 (y) = v(y, y) = 1 (yi − m(y))2 n i=1 = m(y 2 ) − [m(y)]2 , (1.57) e’) la variante della varianza campionaria espressa come: n s2 (y) = 1 n 2 (yi − m(y))2 = v (y), n − 1 i=1 n−1 (1.58) f) il coefficiente di variazione campionario: CV (y) = v (y) , m (y) CV (y) = s (y) , m (y) (1.59) f’) con la variante: g) la varianza relativa campionaria: RV (y) = CV 2 (y) . Daniela Cocchi: Teoria dei Campioni (1.60) CAPITOLO 1. INTRODUZIONE 15 Caratteri dicotomici Se la variabile η è dicotomica, le principali funzioni di sintesi del campione sono: h) il totale campionario: n t(y) = yi = nA , (1.61) i=1 che indica il numero di unità campionate che presentano la caratteristica A , i) la media campionaria: n p = m(y) = 1 nA yi = , n i=1 n (1.62) che indica la frazione di unità campionate che presentano la caratteristica A , l) la varianza campionaria: v 2 (y) = m(y 2 ) − [m(y)]2 = p (1 − p) , l’) e la variante: s2 (y) = n p (1 − p) , n−1 m) il coefficiente di variazione campionario: p (1 − p) v (y) CV (y) = = m (y) p 1−p = , p (1.63) (1.64) (1.65) m’) e la variante: p (1 − p) s (y) n CV (y) = = m (y) n−1 p n 1−p = . n−1 p (1.66) Le sintesi descrittive del campione che sono state presentate sono esempi delle quantità da impiegare per stimare i parametri incogniti di popolazione. Da ricordare. In questa sezione si sono definiti il campione e l’universo dei campioni. Le tipologie di universo dei campioni sono 4. I dati di un generico campione possono essere riassunti con le principali quantità della statistica descrittiva. I riassunti che sono stati presentati in questa sezione non possono essere considerati stimatori 1.3 Piano di campionamento Il campionamento è detto casuale, o probabilistico, quando la selezione del campione avviene assegnando una probabilità a ciascuno dei possibili campioni. E’ importante precisare che non necessariamente tutti i campioni sono caratterizzati da uguale probabilità di estrazione e che la probabilità di estrazione di Daniela Cocchi: Teoria dei Campioni 1.3. PIANO DI CAMPIONAMENTO 16 ciascun campione non deve essere strettamente positiva. I campioni con la stessa probabilità sono quindi un caso particolare. Il piano di campionamento è una misura di probabilità che, ad ogni campione s dell’universo S, assegna la probabilità p (s) di essere estratto, nel rispetto delle condizioni di coerenza del calcolo delle probabilità, in particolare: p : S → [0, 1] e cioè p(s) ≥ 0 p (s) = 1. (1.67) s∈S Da questa definizione si comprende come uno stesso universo dei campioni possa essere probabilizzato impiegando piani di campionamento differenti. Il piano di campionamento è il legame probabilistico tra gli elementi della popolazione e gli elementi dei possibili campioni, uno solo dei quali verrà effettivamente estratto. Gli oggetti a cui si assegnano le probabilità sono i campioni. Si definiscono anche altre probabilità, comunque legate alla probabilità dei campioni: la probabilità di estrazione degli elementi del campione e le probabilità di inclusione degli elementi della popolazione nel campione. Per definire la probabilità di inclusione è utile indicare con Sλ il sottoinsieme dei campioni dello spazio campionario S che contengono l’unità di etichetta λ: Sλ = {s ∈ S : λ ∈ s} . (1.68) Le probabilità dei campioni possono essere assegnate direttamente o possono essere ricavate dalle probabilità di estrazione pλ(i) . 1.3.1 Probabilità di estrazione degli elementi del campione In questa sezione si trattano le probabilità di estrazione in termini generali, senza specificare i valori di probabilità associati ai singoli campioni, distinguendo soltanto tra piano di campionamento con o senza reintroduzione. Definizione La probabilità di estrazione è la probabilità che l’unità λ-esima della popolazione venga estratta come unità i-esima del campione e viene indicata con pλ(i) . Tale probabilità, che può variare per ciascun elemento, può variare anche a seconda dell’ordine di estrazione a cui si riferisce. Nei piani di campionamento con dimensione fissa, ad ogni estrazione vale la relazione: N pλ(i) = 1 1 ≤ i ≤ n. (1.69) λ=1 Le probabilità relative alla prima estrazione, denominate anche pesi iniziali, vengono indicate con pλ : pλ(1) = pλ 1 ≤ λ ≤ N. Esse sono fondamentali in molti sviluppi successivi. Daniela Cocchi: Teoria dei Campioni (1.70) CAPITOLO 1. INTRODUZIONE 17 Campionamento con reintroduzione Se lo spazio campionario è formato da campioni estratti con reintroduzione, la probabilità di estrazione pλ(i) della generica unità λ è costante da un’estrazione alla successiva per effetto della reintroduzione: pλ(i) = pλ 1≤λ≤N 1≤i≤n (1.71) e quindi è indipendente da quella delle unità selezionate alle estrazione precedenti. Nel caso con reintroduzione la verifica della (1.69) è immediata. Campionamento senza reintroduzione Se lo spazio campionario è formato da campioni estratti senza reintroduzione, la probabilità di estrazione pλ(i) , nell’ipotesi che l’unità λ non sia ancora stata selezionata alle estrazioni precedenti, aumenta da un’estrazione alla successiva, a causa della riduzione progressiva del numero di unità che rimangono estraibili: pλ(i) = p λ 1− i−1 j=1 plj 0 ∀λ = lj λ = lj (1.72) per 2 ≤ i ≤ n e 1 ≤ j ≤ i − 1. Le pλ(i) sono quindi condizionate dalle unità selezionate alle estrazioni precedenti (si veda anche l’Appendice 1). Di seguito viene svolto per esteso un esempio di calcolo delle probabilità di estrazione nel caso in cui non siano uguali per tutti gli elementi della popolazione, rispettivamente nel caso con e senza reintroduzione, per illustrare il ruolo delle diverse componenti. Nei casi reali, le probabilità di estrazione si usano prevalentemente nel campionamento con reintroduzione, dove restano invariate e pari alle (1.71). L’esempio è svolto senza dare rilievo alla conoscenza delle probabilità dei campioni p(s). Esempio 1.1 Calcolo delle probabilità di estrazione degli elementi del campione (pλ diversi) Da una popolazione di N = 4 elementi si estraggono campioni di numerosità n, con le seguenti probabilità alla prima estrazione indicate con la notazione (1.70): p1 = 0.1 p2 = 0.4 p3 = 0.2 p4 = 0.3. La (1.69) è verificata: p1 + p2 + p3 + p4 = 1. Campioni di dimensione n = 2 Daniela Cocchi: Teoria dei Campioni (1.73) 1.3. PIANO DI CAMPIONAMENTO 18 Caso con reintroduzione Le estrazioni avvengono con reintroduzione, originando, secondo la (1.46), il seguente universo dei campioni ordinati di r dimensione D4,2 = N n = 42 = 16: λ\λ 1 2 3 4 1 (1, 1) (2, 1) (3, 1) (4, 1) 2 (1, 2) (2, 2) (3, 2) (4, 2) 3 (1, 3) (2, 3) (3, 3) (4, 3) 4 (1, 4) (2, 4) . (3, 4) (4, 4) (1.74) Le probabilità di estrazione per la selezione del secondo elemento rimangono invariate, per la (1.71), rispetto alle probabilità di estrazione del primo elemento: p1(2) p2(2) p3(2) p4(2) = p1 = p2 = p3 = p4 = 0.1 = 0.4 = 0.2 = 0.3. Caso senza reintroduzione Le estrazioni avvengono senza reintroduzione, secondo la (1.44), originando il seguente universo dei campioni ordinati di dimensione D4,2 = 4! 2! = 12: λ\λ 1 2 3 4 1 (2, 1) (3, 1) (4, 1) 2 (1, 2) (3, 2) (4, 2) 3 (1, 3) (2, 3) 4 (1, 4) (2, 4) . (3, 4) (1.75) (4, 3) Le probabilità di estrazione non sono più uguali al variare di i. Infatti, applicando la (1.72) si ricavano le probabilità di estrazione del secondo elemento e quindi si verifica empiricamente la relazione (1.117) descritta in Appendice 1, e che è una generalizzazione della (1.69) a seconda di quale elemento della popolazione sia stato estratto come primo elemento del campione. Se l1 = 1 si ottiene: 0.4 = 0.445 1 − 0.1 0.2 = P (l2 = 3|l1 = 1) = = 0.222 1 − 0.1 0.3 = P (l2 = 4|l1 = 1) = = 0.333 1 − 0.1 p2(2) = P (l2 = 2|l1 = 1) = p3(2) p4(2) e la verifica della (1.117) é: p2(2) + p3(2) + p4(2) = 1. Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 19 Si noti che la somma delle probabilità di estrazione uguale all’unità riguarda l’evento certo dell’estrazione di uno dei tre elementi rimasti nella popolazione come secondo elemento del campione. Al variare del primo elemento della popolazione come primo elemento del campione si ottengono i risultati seguenti. Se l1 = 2 0.1 = 0.167 1 − 0.4 0.2 = P (l2 = 3|l1 = 2) = = 0.333 1 − 0.4 0.3 = 0.5 = P (l2 = 4|l1 = 2) = 1 − 0.4 p1(2) = P (l2 = 1|l1 = 2) = p3(2) p4(2) p1(2) + p3(2) + p4(2) = 1. Se l1 = 3 0.1 = 0.125 1 − 0.2 0.4 = P (l2 = 2|l1 = 3) = = 0.5 1 − 0.2 0.3 = P (l2 = 4|l1 = 3) = = 0.375 1 − 0.2 p1(2) = P (l2 = 1|l1 = 3) = p2(2) p4(2) p1(2) + p2(2) + p4(2) = 1. Se l1 = 4 0.1 = 0.143 1 − 0.3 0.4 = P (l2 = 2|l1 = 4) = = 0.571 1 − 0.3 0.2 = P (l2 = 3|l1 = 4) = = 0.286 1 − 0.3 p1(2) = P (l2 = 1|l1 = 4) = p2(2) p3(2) p1(2) + p2(2) + p3(2) = 1 Esempio 1.2 Calcolo delle probabilità di estrazione degli elementi del campione (pλ uguali) Si consideri, come nell’esempio 1.1, una popolazione di N =4 elementi, tutti con la stessa probabilità alla prima estrazione: p1 = p2 = p3 = p4 = 1 = 0.25. N Daniela Cocchi: Teoria dei Campioni 1.3. PIANO DI CAMPIONAMENTO 20 La (1.69) è verificata: 4 pλ = 1. (1.76) λ=1 Campioni di dimensione n = 2 Caso con reintroduzione L’universo dei 16 campioni è quello già descritto con la (1.74) e le probabilità di estrazione del secondo elemento, per la (1.71), rimangono invariate rispetto alla probabilità di estrazione del primo elemento. Caso senza reintroduzione L’universo dei 12 campioni è quello già descritto con la (1.75). Applicando la (1.72), si ricavano le probabilità di estrazione del secondo elemento, tutte uguali qualunque sia stato il primo elemento estratto: pλ 0.25 1 pλ(2) = = = ∀λ = l1 . 1 − pl1 0.75 3 La (1.117), generalizzazione della (1.69), è immediatamente verificata: 4 pλ(2) = 1. λ=1 Campioni di dimensione n = 3 Caso con reintroduzione L’universo dei 64 campioni è quello già descritto con la (1.118) e le probabilità di estrazione del secondo e del terzo elemento rimangono invariate, per la (1.71), rispetto alla probabilità di estrazione del primo elemento. Caso senza reintroduzione L’universo dei 24 campioni è quello già descritto con la (1.119). Le probabilità di estrazione per i primi due elementi del campione sono uguali a quelle del caso con n = 2. Applicando la (1.72), si ricavano le probabilità di estrazione del terzo elemento: pλ(3) = pλ 0.25 1 = = 1 − pl1 − pl2 0.5 2 ∀λ = l1 = l2 . La (1.117), generalizzazione della (1.69), è immediatamente verificata per i due elementi rimasti nella popolazione. Negli esempi 1.1 e 1.2 le probabilità p(s) dei campioni non sono state calcolate. Tali probabilità possono essere assegnate direttamente, tuttavia nell’esempio 1.3 tali probabilità vengono ricavate dalle probabilità di estrazione pλ . Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 21 Esempio 1.3 Calcolo delle probabilità p(s) dei campioni conoscendo le probabilità di estrazione Campioni di dimensione n = 2 Caso con reintroduzione Lo spazio dei campioni, per la (1.45), risulta costituito da 10 elementi. Infatti: 5 5! C4+2−1,2 = C5,2 = = = 10. 2 2!3! Ricordando che la probabilità dell’insieme di coppie di elementi è uguale alla somma delle probabilità delle coppie ordinate: p(s) = P {λ, λ } = P (λ, λ ) + P (λ , λ) = pλ pλ + pλ pλ = 2pλ pλ λ = λ e, nel caso di estrazione di un campione formato dagli stessi elementi: p(s) = P {λ, λ} = P (λ, λ) = p2λ λ = λ, si ricavano le probabilità p(s) dei campioni con reintroduzione non ordinati utilizzando la probabilità dei campioni con reintroduzione ordinati dell’universo (1.74): s {1, 1} {1, 2} {1, 3} {1, 4} {2, 2} {2, 3} {2, 4} {3, 3} {3, 4} {4, 4} p(s) p21 = (0.1)2 = 0.01 2p1 p2 = 2 · 0.1 · 0.4 = 0.08 2p1 p3 = 2 · 0.1 · 0.2 = 0.04 2p1 p4 = 2 · 0.1 · 0.3 = 0.06 p22 = (0.4)2 = 0.16 2p2 p3 = 2 · 0.4 · 0.2 = 0.16 2p2 p4 = 2 · 0.4 · 0.3 = 0.24 p23 = (0.2)2 = 0.04 2p3 p4 = 2 · 0.2 · 0.3 = 0.12 p24 = (0.3)2 = 0.09 da cui si può verificare la (1.67). Le probabilità appena calcolate saranno riprese nell’Esempio 1.4. Caso senza reintroduzione La probabilità delle coppie possibili è: P (λ, λ ) = pλ · P (l2 = λ |l1 = λ) . (1.77) Le probabilità subordinate della (1.77) sono state ricavate quando è stato introdotto l’universo (1.75). Le probabilità p(s) di tale universo sono: Daniela Cocchi: Teoria dei Campioni 1.3. PIANO DI CAMPIONAMENTO 22 s p(s) (1, 2) p1 · P (l2 = 2|l1 = 1) = 0.1 · 0.445 = 0.0445 (2, 1) p2 · P (l2 = 1|l1 = 2) = 0.4 · 0.167 = 0.0668 (1, 3) p1 · P (l2 = 3|l1 = 1) = 0.1 · 0.222 = 0.0222 (3, 1) p3 · P (l2 = 1|l1 = 3) = 0.2 · 0.125 = 0.025 (1, 4) p1 · P (l2 = 4|l1 = 1) = 0.1 · 0.333 = 0.0333 (4, 1) p4 · P (l2 = 1|l1 = 4) = 0.3 · 0.143 = 0.0429 (2, 3) p2 · P (l2 = 3|l1 = 2) = 0.4 · 0.333 = 0.1332 (3, 2) p3 · P (l2 = 2|l1 = 3) = 0.2 · 0.5 = 0.1 (2, 4) p2 · P (l2 = 4|l1 = 2) = 0.4 · 0.5 = 0.2 (4, 2) p4 · P (l2 = 2|l1 = 4) = 0.3 · 0.571 = 0.1713 (3, 4) p3 · P (l2 = 4|l1 = 3) = 0.2 · 0.375 = 0.075 (4, 3) p4 · P (l2 = 3|l1 = 4) = 0.3 · 0.286 = 0.0858 da cui si può verificare la (1.67). Si deve notare che le probabilità della coppie ordinate non sono uguali. Le probabilità dei campioni non ordinati estratti senza reintroduzione dall’universo (1.75) si ottengono dalla seguente relazione, che utilizza la (1.77): p(s) = P {λ, λ } = P (λ, λ ) + P (λ , λ) secondo il prospetto seguente: s p(s) {1, 2} P (1, 2) + P (2, 1) = 0.0445 + 0.0668 = 0.1113 {1, 3} P (1, 3) + P (3, 1) = 0.0222 + 0.025 = 0.0472 {1, 4} P (1, 4) + P (4, 1) = 0.0333 + 0.0429 = 0.0762 {2, 3} P (2, 3) + P (3, 2) = 0.1332 + 0.1 = 0.2332 {2, 4} P (2, 4) + P (4, 2) = 0.2 + 0.1713 = 0.3713 {3, 4} P (3, 4) + P (4, 3) = 0.075 + 0.0858 = 0.1608 da cui si può ancora verificare la (1.67). Le probabilità appena calcolate saranno riprese nell’Esempio 1.4. Il caso dei campioni di dimensione n = 3 è riportato nell’Appendice 3. Da ricordare. Assegnare probabilità di estrazione non eguali agli elementi della popolazione significa avere motivi per non considerare eguali gli elementi della popolazione rispetto al campionamento. Tale diversità, nei casi reali, deriva dalla conoscenza di informazioni ausiliarie. 1.3.2 Probabilità di inclusione delle unità La probabilità di inclusione è la probabilità che singoli elementi, o gruppi di elementi, entrino a far parte del campione. In questo capitolo la probabilità di inclusione viene introdotta distinguendo unicamente tra il caso con e senza reintroduzione, mentre nei capitoli successivi verrà ulteriormente specificata in riferimento ai diversi piani di campionamento. Probabilità di inclusione di primo ordine Si definisce probabilità di inclusione di primo ordine di una unità λ, e si indica con πλ , la probabilità che il campione estratto contenga tale unità: πλ = P (λ ∈ s) 1 ≤ λ ≤ N, Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 23 quindi la probabilità che s appartenga all’insieme Sλ coincide con la somma delle probabilità dei campioni che contengono l’elemento λ: πλ = P (s ∈ Sλ ) = p (s) (1.78) 1 ≤ λ ≤ N. s∈Sλ Probabilità di inclusione di secondo ordine Si definisce probabilità di inclusione di secondo ordine dell’insieme composto dalle unità λ, λ e si indica con πλλ , la probabilità che il campione estratto includa entrambe le unità: πλλ = P ({λ, λ } ⊆ s) , quindi la probabilità che s appartenga all’insieme Sλ ∩Sλ coincide con la somma delle probabilità dei campioni che contengono sia l’elemento λ che l’elemento λ : πλλ = P (s ∈ Sλ ∩ Sλ ) = p (s) s∈{Sλ ∩Sλ } (1.79) 1≤λ≤N 1 ≤ λ ≤ N λ = λ E’ immediato osservare che la definizione (1.79) è invariante rispetto all’ordine delle unità λ e λ , infatti la definizione di probabilità di inclusione non fa alcun riferimento all’ordine di estrazione degli elementi e quindi: πλλ = πλ λ . Nel caso di campionamento senza reintroduzione, poiché non è possibile includere due volte la stessa unità nel campione, viene usata la convenzione: πλλ = πλ 1 ≤ λ ≤ N. (1.80) Si noti che, per la definizione delle probabilità di primo e secondo ordine, non è necessario che la dimensione del campione sia fissa. Nel campionamento da popolazioni finite, le quantità p(s), pλ(i) , πλ sono legate strettamente dalle condizioni di coerenza del calcolo delle probabilità. Lo spazio a cui si conviene di assegnare le probabilità è quello dei campioni, e quindi, dal punto di vista teorico, le p(s) sono le quantità fondamentali. In pratica può rivelarsi più vantaggioso calcolare in primo luogo le probabilità di estrazione o di inclusione. Negli esempi che seguono si dà risalto al fatto che, in situazioni semplici, si passi con relativa facilità, seppure al prezzo di calcoli in qualche caso tediosi, dall’uno all’altro dei tre tipi di probabilità. Le probabilità dei campioni p(s) sono fondamentali per determinare le probabilità di inclusione tramite la definizione (1.78). Nell’esempio seguente le probabilità dei campioni, calcolate nell’Esempio 1.3, possono essere considerate note. Daniela Cocchi: Teoria dei Campioni 1.3. PIANO DI CAMPIONAMENTO 24 Esempio 1.4 Calcolo delle probabilità di inclusione dalla definizione Campioni di dimensione n = 2 Caso con reintroduzione Nell’Esempio 1.3 sono state calcolate le probabilità dei campioni. Applicando le definizioni (1.78) e (1.79) si ottengono le probabilità di inclusione di primo e secondo ordine: π1 = P {1, 1} + P {1, 2} + P {1, 3} + P {1, 4} = 0.01 + 0.08 + 0.04 + 0.06 = 0.19 π2 = P {1, 2} + P {2, 2} + P {2, 3} + P {2, 4} = 0.08 + 0.16 + 0.16 + 0.24 = 0.64 π3 = P {1, 3} + P {2, 3} + P {3, 3} + P {3, 4} = 0.04 + 0.16 + 0.04 + 0.12 = 0.36 π4 = P {1, 4} + P {2, 4} + P {3, 4} + P {4, 4} = 0.06 + 0.24 + 0.12 + 0.09 = 0.51 π11 π12 π13 π14 π22 π23 π24 π33 π34 π44 = P {1, 1} = 0.01 = P {1, 2} = 0.08 = P {1, 3} = 0.04 = P {1, 4} = 0.06 = P {2, 2} = 0.16 = P {2, 3} = 0.16 = P {2, 4} = 0.24 = P {3, 3} = 0.04 = P {3, 4} = 0.12 = P {4, 4} = 0.09. Si noti che, poiché il campione ha dimensione 2, la somma delle probabilità d’inclusione di secondo ordine è 1. Caso senza reintroduzione Le probabilità dei campioni sono state calcolate nell’Esempio 1.3. Applicando le definizioni (1.78) e (1.79) si ottiene: Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 25 π1 = P {1, 2} + P {1, 3} + P {1, 4} = 0.1113 + 0.0472 + 0.0762 = 0.2347 π2 = P {1, 2} + P {2, 3} + P {2, 4} = 0.1113 + 0.2332 + 0.3713 = 0.7158 π3 = P {1, 3} + P {2, 3} + P {3, 4} = 0.0472 + 0.2332 + 0.1608 = 0.4412 π4 = P {1, 4} + P {2, 4} + P {3, 4} = 0.0762 + 0.3713 + 0.1608 = 0.6083 π12 π13 π14 π23 π24 π34 = P {1, 2} = 0.1113 = P {1, 3} = 0.0472 = P {1, 4} = 0.0762 = P {2, 3} = 0.2332 = P {2, 4} = 0.3713 = P {3, 4} = 0.1608. Si noti che, poichè n = 2 ed il campionamento è senza reintroduzione, l’insieme delle coppie di etichette non ordinate costituisce l’evento certo. La sua probabilità, pari ad 1, è quindi la somma delle probabilità di inclusione di secondo ordine. Il caso dei campioni di dimensione n = 3 è riportato nell’Appendice 4. Nota. La continuazione dell’esempio 1.2, su campioni con la stessa probabilità di estrazione da una popolazione di dimensione N = 4, è rinviata al capitolo 2, a partire dall’esempio 2.1. Da ricordare. I metodi di calcolo di probabilità di inclusione diverse per ciascun elemento della popolazione sono rinviati al Capitolo 3. 1.4 Espressione della casualità del campionamento tramite un vettore aleatorio Per una popolazione Ω, dato un piano di campionamento, può essere definito il vettore aleatorio indicato con: a = (a1 ...aλ ...aN ) = {aλ : 1 ≤ λ ≤ N}, (1.81) che associa all’elemento λ-esimo della popolazione un valore che indica il numero di volte in cui l’elemento compare nel campione: n(s) aλ = 1{li =λ} . (1.82) i=1 Ciascuna componente aλ è una variabile aleatoria discreta con distribuzione dipendente dal piano di campionamento adottato. Daniela Cocchi: Teoria dei Campioni 1.4. IL VETTORE ALEATORIO A 26 Tutti gli sviluppi dei capitoli successivi dipendono dalla distribuzione del vettore a. L’introduzione del vettore (1.81) permette di esprimere la dimensione del campione sommando i valori aλ su tutta la popolazione: n(s) = N aλ . (1.83) λ=1 D’ora in poi la teoria riguarderà esclusivamente campioni a dimensione fissa n. 1.4.1 Distribuzione della variabile aleatoria a Ciascuna variabile aleatoria aλ segue una distribuzione univariata discreta con i primi due momenti E (aλ ) e V (aλ ). Il vettore a ha una distribuzione N -dimensionale. La sua speranza è il vettore delle E (aλ ): E (a) = [E (a1 ) ,E (a2 ) ,...,E (aN )] , (1.84) la sua matrice di varianza e covarianza è di dimensione N × N , nella diagonale principale contiene le V (aλ ), all’esterno della diagonale contiene le C (aλ , aλ ): V (a) = V (a1 ) ... C (aλ , a1 ) ... C (aN , a1 ) ... C (a1 , aλ ) ... ... ... V (aλ ) ... ... ... C (aN , aλ ) ... C (a1 , aN ) ... ... ... C (aλ , aN ) ... ... ... V (aN ) (1.85) Si vedrà in seguito come i primi due momenti degli stimatori che saranno di volta in volta proposti siano sempre caratterizzati dai primi due momenti del vettore a. Campionamento con reintroduzione In un piano di campionamento con reintroduzione ogni elemento della popolazione può entrare nel campione sino ad un massimo di n volte. Ciascuna variabile aleatoria aλ , definita in (1.82), può assumere i valori: 0 ≤ aλ ≤ n. Le aλ non sono tra loro indipendenti: pur essendoci indipendenza tra le estrazioni, ciascuna delle quali segue una distribuzione binomiale: aλ ∼ Bin (n, pλ ) . (1.86) Nel campionamento con reintroduzione, il ruolo dei pesi iniziali pλ definiti nella (1.71) è fondamentale, i momenti delle aλ da inserire nella (1.84) e nella (1.85) sono infatti: E (aλ ) = npλ , V (aλ ) = npλ (1 − pλ ) . Daniela Cocchi: Teoria dei Campioni (1.87) (1.88) CAPITOLO 1. INTRODUZIONE 27 La non indipendenza tra le componenti del vettore a può essere riscontrata verificando che la covarianza tra gli elementi della generica coppia aλ aλ non è nulla. Teorema 1.1 La covarianza tra gli elementi di una generica coppia di variabili aλ e aλ ,con λ = λ ,in un campionamento con reintroduzione è: C(aλ , aλ ) = −npλ pλ λ = λ . (1.89) (dimostrazione in Appendice 5) Campionamento senza reintroduzione In un piano di campionamento senza reintroduzione, ogni elemento della popolazione non può entrare nel campione che una sola volta, quindi le aλ definite nella (1.82) sono variabili casuali indicatrici, o di Bernoulli, che possono assumere unicamente i valori 0 o 1: n(s) aλ = 1{li =λ} = 1{λ∈s} (1.90) i=1 e non sono indipendenti. Esempio 1.5 Calcolo della variabile aλ nel caso senza reintroduzione Si supponga di avere un campione di n = 3 elementi estratto senza reintroduzione da una popolazione di N = 4, i valori delle aλ sono: a1 = 1{li =1} = 1{1∈s} , 1≤i≤3 a2 = 1{li =2} = 1{2∈s} , 1≤i≤3 a3 = 1{li =3} = 1{3∈s} , 1≤i≤3 a4 = 1{li =4} = 1{4∈s} . 1≤i≤3 Ciascuna aλ è la somma di tre valori, uno solo dei quali può essere non nullo. Una delle aλ è composta da tre addendi nulli, perchè il campione è formato da tre elementi. Le proprietà del campionamento senza reintroduzione dipendono dalle probabilità di inclusione di primo e secondo ordine (1.78) e (1.79), infatti si ha: aλ ∼ Ber (πλ ) , (1.91) e, ricordando che in questo caso a2λ = aλ , i momenti delle aλ da inserire nella (1.84) e nella (1.85) sono: Daniela Cocchi: Teoria dei Campioni 1.5. RELAZIONI TRA Aλ E πλ 28 E (aλ ) = 0 · P (aλ = 0) + 1 · P (aλ = 1) = P (aλ = 1) = πλ , (1.92) V (aλ ) = E a2λ − E 2 (aλ ) = E (aλ ) − E 2 (aλ ) = πλ − πλ2 = πλ (1 − πλ ) . (1.93) Teorema 1.1.bis La covarianza tra gli elementi di una generica coppia di variabili aλ e aλ con λ = λ , in un campionamento senza reintroduzione, è C(aλ , aλ ) = πλλ − πλ πλ λ = λ . (1.94) La dimostrazione è svolta nell’Appendice 6. 1.5 1.5.1 Relazioni tra la variabile aleatoria a e le probabilità d’inclusione Relazioni proprie del campionamento con reintroduzione A partire dal legame che permette di esprimere le probabilità di inclusione in funzione delle distribuzioni di probabilità, marginali e congiunte, delle aλ , si ricavano ora due relazioni valide in caso di campionamento con reintroduzione di dimensione n. Teorema 1.2 Le probabilità di inclusione del primo ordine nel campionamento con reintroduzione sono: πλ = 1 − (1 − pλ )n . (1.95) La dimostrazione è nell’Appendice 7. Poiché il caso con reintroduzione non è complicato da trattare, le probabilità d’inclusione del primo ordine possono essere ottenute utilizzando direttamente la distribuzione binomiale. Infatti, per la (1.86) si ottiene: n 0 πλ = 1 − p (1 − pλ )n = 1 − (1 − pλ )n . (1.96) 0 λ Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 29 Teorema 1.3 Le probabilità d’inclusione del secondo ordine nel campionamento con reintroduzione sono, nel caso di coppie costituite dallo stesso elemento: n n−1 πλλ = 1 − (1 − pλ ) − npλ (1 − pλ ) (1.97) e, nel caso di coppie contenenti elementi diversi: πλλ = 1 − (1 − pλ )n − (1 − pλ )n + (1 − pλ − pλ )n . (1.98) La dimostrazione è svolta nell’Appendice 8. L’Esempio 1.6, in cui si calcolano le probabilità di inclusione nel campionamento con reintroduzione in funzione dei pesi iniziali, è riportato nell’Appendice 9. 1.5.2 Relazioni proprie del campionamento senza reintroduzione Teorema 1.4 La somma delle probabilità di inclusione di primo ordine è pari alla dimensione del campione: N πλ = n. (1.99) [aλ − E (aλ )] = 0 (1.100) λ=1 Dimostrazione Poiché è noto che: N λ=1 e, nel caso di campionamento senza reintroduzione, vale la (1.92), si potrà scrivere N aλ = λ=1 N πλ , λ=1 da cui N πλ = n. λ=1 Si ricorda che, nel caso di campionamento a dimensione variabile, la somma delle probabilità di inclusione di primo ordine è uguale alla dimensione attesa del campione E(n(s)). Daniela Cocchi: Teoria dei Campioni 1.5. RELAZIONI TRA Aλ E πλ 30 Teorema 1.5 La somma delle probabilità di inclusione di secondo ordine, associate ad ogni elemento della popolazione, è n volte la sua probabilità di inclusione di primo ordine: N πλλ = nπλ 1 ≤ λ ≤ N. (1.101) λ =1 Dimostrazione Direttamente dalla (1.94) si ha: 1≤λ≤N 1 ≤ λ ≤ N λ = λ . πλλ = C [aλ , aλ ] + πλ πλ Sommando rispetto all’indice λ ed impiegando la (1.83), si ottiene: N λ =1 πλλ N λ =1 πλλ N λ =1 N N πλ πλ C [aλ , aλ ] + λ=1 λ=1 N N = C aλ , aλ + πλ πλ = λ =1 λ =1 πλλ = C [aλ , n] + nπλ , ma, essendo n una costante si ha anche C [aλ , n] = 0, quindi: N πλλ = nπλ . λ =1 Corollario 1.1 N λ =1 (πλλ − πλ πλ ) = 0 ∀λ. (1.102) Dimostrazione N λ =1 (πλ πλ − πλλ ) = πλ N λ =1 πλ − N πλλ , λ =1 direttamente dalla (1.99) e dalla (1.101) entrambi i termini sono uguali a nπλ , quindi la (1.102) è dimostrata. Corollario 1.2 La somma delle probabilità d’inclusione di secondo ordine è n2 . Dimostrazione Infatti: N N λ=1 λ =1 π λλ =n N λ=1 πλ = n2 . 1 ≤ λ, λ ≤ N . Daniela Cocchi: Teoria dei Campioni (1.103) CAPITOLO 1. INTRODUZIONE 31 Esempio 1.7 Verifica delle proprietà delle probabilità di inclusione nel campionamento senza reintroduzione Campioni di dimensione n = 2 Si possono verificare sia la relazione (1.99): π1 + π2 + π3 + π4 = 0.234 + 0.715 + 0.444 + 0.611 = 2 sia la relazione (1.101): per per per per λ=1 λ=2 λ=3 λ=4 π11 + π12 + π13 + π14 π22 + π12 + π23 + π24 π33 + π13 + π23 + π34 π44 + π14 + π24 + π34 = 0.234 + 0.111 + 0.047 + 0.076 = 2 · 0.234 = 0.715 + 0.111 + 0.233 + 0.371 = 2 · 0.715 = 0.444 + 0.047 + 0.233 + 0.164 = 2 · 0.444 = 0.611 + 0.076 + 0.371 + 0.164 = 2 · 0.611 sia la relazione (1.103): π11 + π12 + π13 + π14 + π21 + π22 + π23 + π24 + π31 + π32 + π33 + π34 + π41 + π42 + π43 + π44 = 0.234 + 0.111 + 0.047 + 0.076 + 0.111 + 0.715 + 0.233 + 0.371 +0.047 + 0.233 + 0.444 + 0.164 + 0.076 + 0.371 + 0.164 + 0.611 = 4 Il caso dei campioni con dimensione n = 3 è svolto nell’Appendice 10. 1.6 1.6.1 Introduzione alla stima Le proprietà degli stimatori Come è già stato anticipato all’inizio di questo capitolo, tramite il risultato campionario si vuole inferire su una quantità descrittiva di popolazione f (η), come la (1.3) o la (1.4). Per stimare f (η) l’informazione campionaria viene sintetizzata applicando una funzione h (y) alle osservazioni. Informazioni ausiliarie sull’intera popolazione o sul campione possono essere utilizzate nella funzione che si propone per la stima. Il valore della stima calcolato sulla base dello stimatore proposto non coincide, solitamente, con f(η), in quanto tramite il campionamento è stato osservato un sottoinsieme della popolazione. Si ammette quindi l’esistenza dell’errore di campionamento rispetto alla popolazione da cui provengono i dati. La distribuzione campionaria di un generico stimatore dipende solamente dal tipo di campionamento impiegato, quindi il riferimento ad uno stimatore sarà sempre accompagnato dalla esplicitazione del tipo di campionamento considerato. Daniela Cocchi: Teoria dei Campioni 1.6. INTRODUZIONE ALLA STIMA 32 Definizione: strategia campionaria Si definisce strategia campionaria la scelta congiunta del piano di campionamento e dello stimatore impiegato per inferire sulla quantità di popolazione incognita oggetto di interesse. Poiché la fonte di variabilità che viene considerata in questo contesto è la probabilità dei campioni, il calcolo delle principali sintesi di uno stimatore, consistenti in speranza e varianza, si effettua usando le due espressioni: E [h (y)] = h(y)p(s) (1.104) s∈S V [h (y)] = s∈S [h(y) − E(h(y))]2 p (s) (1.105) Se E [h (y)] coincide con il valore della quantità da stimare: E [h (y)] = f (η) , si dice che lo stimatore è corretto, in caso contrario lo stimatore è distorto, e caratterizzato dalla distorsione: B [h (y)] = E [h (y)] − f (η) . Uno stimatore distorto tenderà sistematicamente a sovrastimare o sottostimare f (η) a seconda che sia affetto da distorsione positiva o negativa. Con riferimento a stimatori distorti, si considera il loro comportamento all’aumentare della numerosità campionaria. Se il limite della distorsione è nullo, allora l’effetto dell’errore sistematico tende a scomparire all’aumentare della dimensione del campione e si dice che lo stimatore è asintoticamante corretto. La correttezza non è l’unica proprietà impiegata nel giudizio su uno stimatore e nella scelta tra stimatori alternativi. E’ importante, da un lato, impiegare stimatori che tendono a dare una valutazione corretta di f (η), ma si deve considerare anche la dispersione della distribuzione campionaria dello stimatore attorno al parametro incognito, valutata con l’errore quadratico medio: EQM [h (y)] = E [h (y) − f (η)]2 . Teorema 1.6 L’errore quadratico medio è la somma della varianza e del quadrato della distorsione: EQM [h (y)] = V [h (y)] + B 2 [h (y)] . Dimostrazione Ricordando che E [h (y) − E (h (y))] = 0 Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 33 si ha: 2 EQM [h (y)] = E [h (y) − f (η) + E (h (y)) − E (h (y))] 2 2 = E [h (y) − E (h (y))] + E [E (h (y)) − f (η)] +2E {[h (y) − E (h (y))] [E (h (y)) − f (η)]} = V [h (y)] + E B 2 [h (y)] + 2E {[h (y) − E (h (y))] B [h (y)]} = V [h (y)] + B 2 [h (y)] + 2B [h (y)] E {[h (y) − E (h (y))]} = V [h (y)] + B 2 [h (y)] . L’errore quadratico medio comprende sia l’effetto dell’incertezza dovuta alla casualità campionaria, V [h (y)], che quello dovuto alla distorsione dello stimatore, B [h (y)]. Nel caso di stimatore corretto l’errore quadratico medio coincide con la varianza. 1.6.2 Stimatori lineari ed omogenei La maggior parte degli stimatori che verranno proposti appartiene alla categoria degli stimatori lineari ed omogenei, che sono definiti come segue: h(y) = n wi yi , (1.106) i=1 dove l’insieme delle {wi , 1 ≤ i ≤ n} è un sistema di pesi campionari tale da garantire la correttezza per il parametro da stimare. Si noti che, quando la funzione delle osservazioni campionarie che viene proposta come stimatore è del tipo (1.106), le osservazioni sono trattate in modo simmetrico, e quindi il valore della stima è lo stesso per qualunque permutazione delle osservazioni nel campione. Non vi è quindi differenza, nelle stime, tra quelle calcolate da un campione non ordinato e quelle da un campione ordinato. I vettori delle osservazioni campionarie sono variabili aleatorie per il fatto che le unità vengono scelte in modo casuale e non perchè sia associata una distribuzione di probabilità ai valori del carattere che viene rilevato su di esse. Grazie all’introduzione del vettore delle aλ (1.81), è possibile descrivere una qualunque statistica in funzione dei valori di popolazione anzichè dei soli valori campionari. Questa operazione permette di ricavare i primi due momenti degli stimatori facendo riferimento ai momenti di tale vettore. Teorema 1.7 Uno stimatore lineare omogeneo può essere espresso come funzione dei valori di popolazione: N h(y) = aλ wλ ηλ . (1.107) λ=1 Dimostrazione Poiché Daniela Cocchi: Teoria dei Campioni 1.6. INTRODUZIONE ALLA STIMA 34 N 1{li =λ} = 1 1≤i≤n λ=1 (1.108) introducendo nella (1.106) tale uguaglianza e utilizzando la (1.90), si ricava: h(y) = n wi yi i=1 = N 1{li =λ} λ=1 n N wli ηli 1{li =λ} i=1 λ=1 = N λ=1 wλ ηλ n 1{li =λ} = i=1 N aλ wλ ηλ λ=1 La scrittura (1.107) eguaglia una somma di n elementi a una somma di N elementi mostrando in modo esplicito che una statistica campionaria può essere espressa in funzione di tutte le ηλ . Si noti che l’unica parte aleatoria consiste nelle aλ , infatti le ηλ sono costanti di popolazione. I pesi effettivamente utilizzati nello stimatore (1.106) sono gli n valori di wi , ma debbono essere disponibili e noti prima del campionamento tutti i {wλ , 1 ≤ λ ≤ N } della (1.107). Definizione: Strategie autoponderanti di campionamento Una strategia di campionamento è autoponderante se i pesi wλ per ogni elemento dello stimatore lineare omogeneo associato al piano di campionamento sono uguali. Le strategie autoponderanti sono molto utili in pratica perché, nel caso venga proposto uno stimatore lineare omogeneo, la funzione delle osservazioni campionarie che entra nello stimatore è il totale campionario. Infatti se wλ = w ∀λ abbiamo che n h (y) = w yi = wt (y) (1.109) i=1 Speranza dello stimatore lineare ed omogeneo I primi due momenti degli stimatori lineari ed omogenei dipendono solo dai primi due momenti del vettore multivariato a, dati dalla (1.84) e dalla (1.85), da tutti i valori di popolazione e dal sistema di pesi. In particolare, la speranza dello stimatore lineare ed omogeneo dipende dalla speranza del vettore multivariato a introdotto con la (1.84), da tutti i valori di popolazione e dal sistema di pesi wλ . Applicando l’operatore speranza alla (1.107) si ottiene: E [h(y)] = N E (aλ ) wλ ηλ . λ=1 Daniela Cocchi: Teoria dei Campioni (1.110) CAPITOLO 1. INTRODUZIONE 35 Da questa espressione si può determinare il sistema di pesi {wλ : λ = 1, ..., N } che assicuri la correttezza per la quantità da stimare, dipendente dalla speranza del vettore a. Tale sistema di pesi deve essere fissato prima del campionamento, e applicato agli elementi della popolazione selezionati. Si avranno notevoli semplificazioni se i pesi sono tutti uguali o uguali per gruppi. Covarianza di una coppia di stimatori lineari ed omogenei h(y) e g(z) La covarianza di una coppia di stimatori lineari ed omogenei dipende solo dai primi due momenti del vettore multivariato a, dati dalla (1.84) e dalla (1.85), da tutti i valori di popolazione e dal sistema di pesi scelto. Teorema 1.8 C [h(y), g(z)] = N V (aλ ) wλ wλ∗ ηλ ζλ + 2 C (aλ , aλ ) wλ wλ∗ ηλ ζλ . λ=1 λ <λ λ=1 Dimostrazione N C [h(y), g(z)] = E {[h(y) − E (h(y))] [g(z) − E (g(z))]} N N = E aλ wλ ηλ − E (aλ ) wλ ηλ λ=1 = E = E N λ=1 (aλ − E (aλ )) wλ ηλ N N N N λ=1 = N aλ wλ∗ ζλ λ =1 λ=1 λ =1 = λ=1 N − N E (aλ ) wλ∗ ζλ λ =1 N λ =1 [aλ − E (aλ )] [aλ − E (aλ − E (aλ )) wλ∗ ζλ (aλ )] wλ wλ∗ ηλ ζλ C (aλ , aλ ) wλ wλ∗ ηλ ζλ (1.111) λ =1 V (aλ ) wλ wλ∗ ηλ ζλ λ=1 +2 N C (aλ , aλ ) wλ wλ∗ ηλ ζλ . (1.112) λ=1 λ <λ Corollario 1.3 V [h(y)] = N λ=1 V (aλ ) wλ2 ηλ2 +2 N λ=1 C (aλ , aλ ) wλ wλ ηλ ηλ . λ <λ Dimostrazione Applicando la (1.112) si può ricavare la varianza dello stimatore lineare ed omogeneo h(y): Daniela Cocchi: Teoria dei Campioni 1.6. INTRODUZIONE ALLA STIMA 36 V [f (y)] = C [h(y), h(y)] = N V (aλ ) wλ2 ηλ2 λ=1 +2 N C (aλ , aλ ) wλ wλ ηλ ηλ . (1.113) λ=1 λ <λ Si osserva che la varianza di uno stimatore dipende sia dalla varianza che dalla covarianza della aλ . 1.6.3 La valutazione delle strategie campionarie Data una strategia campionaria per la stima di f (η), si definisce come precisione dello stimatore h (y) il reciproco del suo errore quadratico medio: Π [h(y)] = 1 . EQM [h(y)] (1.114) Lo stimatore h(y) è tanto più preciso quanto più la sua dispersione attorno a f (η) è ridotta e quindi il rapporto (1.114) è elevato. Nel caso di uno stimatore corretto la precisione è pari al reciproco della varianza. Nell’ambito della teoria del campionamento da popolazioni finite, in cui la fonte di casualità risiede nella probabilità dei campioni, e non consiste nella legge distributiva del carattere oggetto di studio, non si possono stabilire criteri assoluti di efficienza analoghi al limite di Cramer-Rao per la varianza. Per realizzare un confronto fra strategie alternative, la prima, (Ah), denotata dal piano di campionamento A, in cui lo stimatore è h(y), e la seconda, (Bg), denotata dal piano di campionamento B, in cui lo stimatore è g(y), per la stima di un parametro f (η) è importante definire la precisione relativa della prima strategia rispetto alla seconda come rapporto delle precisioni definite nella (1.114): ΠA [h(y)] EQMB [g(y)] Π (Ah/Bg) = = (1.115) ΠB [g(y)] EQMA [h(y)] La strategia Ah è tanto più efficiente della strategia Bg quanto più il rapporto Π (Ah/Bg) è superiore all’unità. Se il piano di campionamento A è comune a entrambe le strategie, la (1.115) diventa: EQMA [g(y)] . Π (Ah/Ag) = EQMA [h(y)] Se, viceversa, lo stimatore è comune alle due strategie, si ha: Π (Ah/Bh) = EQMB [h(y)] . EQMA [h(y)] (1.116) Nel caso in cui le strategie campionarie siano caratterizzate da stimatori corretti o asintoticamente corretti, al posto dell’errore quadratico medio, nelle espressioni precedenti, si sostituirà la varianza. Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 1.7 1.7.1 37 Appendici Appendice 1 Nel caso senza reintroduzione, la relazione (1.69), per 2 ≤ i ≤ n, è verificata su un numero di addendi non nulli pari al numero di elementi non ancora estratti: N pλ(i) = λ=1 λ=lj ; 1≤j≤i−1 = 1.7.2 1− pλ λ=lj ; 1≤j≤i−1 1− i−1 j=1 plj pλ i−1 = (1.117) j=1 plj 1− 1− i−1 j=1 plj j=1 plj i−1 = 1. Appendice 2 Esempio 1.1 (continuazione) Calcolo delle probabilità di estrazione degli elementi del campione (pλ diversi) Popolazione di N = 4 elementi: campioni di dimensione n = 3. Caso con reintroduzione Le estrazioni avvengono con reintroduzione, ancora secondo la (1.46), originando l’universo dei campioni ordinati di dimenr sione D4,3 = N n = 43 = 64. Ordinando le triplette (λ, λ , λ ) a partire dai primi due elementi estratti, rappresentati rispettivamente nelle righe e nelle colonne, si ottiene il seguente prospetto: λ\λ 1 (1, 1, 1) (1, 1, 2) (1, 1, 3) (1, 1, 4) 2 (1, 2, 1) (1, 2, 2) (1, 2, 3) (1, 2, 4) 3 (1, 3, 1) (1, 3, 2) (1, 3, 3) (1, 3, 4) 4 (1, 4, 1) (1, 4, 2) (1, 4, 3) (1, 4, 4) (2, 1, 1) (2, 1, 2) (2, 1, 3) (2, 1, 4) (2, 2, 1) (2, 2, 2) (2, 2, 3) (2, 2, 4) (2, 3, 1) (2, 3, 2) (2, 3, 3) (2, 3, 4) (2, 4, 1) (2, 4, 2) (2, 4, 3) (2, 4, 4) 3 (3, 1, 1) (3, 1, 2) (3, 1, 3) (3, 1, 4) (3, 2, 1) (3, 2, 2) (3, 2, 3) (3, 2, 4) (3, 3, 1) (3, 3, 2) (3, 3, 3) (3, 3, 4) (3, 4, 1) (3, 4, 2) (3, 4, 3) (3, 4, 4) 4 (4, 1, 1) (4, 1, 2) (4, 1, 3) (4, 1, 4) (4, 2, 1) (4, 2, 2) (4, 2, 3) (4, 2, 4) (4, 3, 1) (4, 3, 2) (4, 3, 3) (4, 3, 4) (4, 4, 1) (4, 4, 2) (4, 4, 3) (4, 4, 4) 1 2 Daniela Cocchi: Teoria dei Campioni (1.118) 1.7. APPENDICI 38 Dopo che il primo elemento è stato estratto, le probabilità di estrazione del secondo e terzo elemento del campione rimangono invariate per la (1.71): p1(3) p2(3) p3(3) p4(3) = p1(2) = p2(2) = p3(2) = p4(2) = p1 = p2 = p3 = p4 = 0.1 = 0.4 = 0.2 = 0.3. Caso senza reintroduzione Le estrazioni avvengono senza reintroduzione originando, secondo la (1.44), il seguente universo dei campioni ordinati di dimensione D4,3 = 4! 1! = 24: λ\λ 1 1 2 2 (1, 2, 3) (1, 2, 4) (2, 1, 3) (2, 1, 4) 3 (3, 1, 2) (3, 1, 4) (3, 2, 1) (3, 2, 4) 4 (4, 1, 2) (4, 1, 3) (4, 2, 1) (4, 2, 3) 3 (1, 3, 2) (1, 3, 4) 4 (1, 4, 2) (1, 4, 3) (2, 3, 1) (2, 3, 4) (2, 4, 1) (2, 4, 3) (1.119) (3, 4, 1) (3, 4, 2) (4, 3, 1) (4, 3, 2) Le probabilità di estrazione per i primi due elementi del campione sono uguali a quelle del caso con n = 2. Le probabilità di estrazione del terzo elemento del campione si ricavano applicando nuovamente la (1.72): Se l1 = 1 e l2 = 2 0.2 = 0.4 1 − (0.1 + 0.4) 0.3 = P (l3 = 4|l2 = 2 l1 = 1) = = 0.6 1 − (0.1 + 0.4) p3(3) = P (l3 = 3|l2 = 2 l1 = 1) = p4(3) La verifica della somma all’unità delle probabilità di estrazione del secondo elemento è già stata svolta per il campione di numerosità n = 2, mentre quella relativa all’estrazione del terzo elemento è, applicando ancora la (1.117) ai due elementi rimasti nella popolazione dopo l’estrazione dei primi due: p3(3) + p4(3) = 1 Si ripetono i calcoli a seconda di quali siano i primi due elementi del campione. Se l1 = 1 e l2 = 3 0.4 = 0.571 p2(3) = P (l3 = 2|l2 = 3 l1 = 1) = 1 − (0.1 + 0.2) 0.3 p4(3) = P (l3 = 4|l2 = 3 l1 = 1) = = 0.429 1 − (0.1 + 0.2) Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE p2(3) + p4(3) = 1 Se l1 = 1 e l2 = 4 0.4 = 0.667 1 − (0.1 + 0.3) 0.2 = P (l3 = 3|l2 = 4 l1 = 1) = = 0.333 1 − (0.1 + 0.3) p2(3) = P (l2 = 2|l2 = 4 l1 = 1) = p3(3) p2(3) + p3(3) = 1 Se l1 = 2 e l2 = 1 0.2 = 0.4 1 − (0.4 + 0.1) 0.3 = 0.6 = P (l3 = 4|l2 = 1 l1 = 2) = 1 − (0.4 + 0.1) p3(3) = P (l3 = 3|l2 = 1 l1 = 2) = p4(3) p3(3) + p4(3) = 1 Se l1 = 2 e l2 = 3 0.1 = 0.25 1 − (0.4 + 0.2) 0.3 = P (l3 = 4|l2 = 3 l1 = 2) = = 0.75 1 − (0.4 + 0.2) p1(3) = P (l3 = 1|l2 = 3 l1 = 2) = p4(3) p1(3) + p4(3) = 1 Se l1 = 2 e l2 = 4 0.1 = 0.333 1 − (0.4 + 0.3) 0.2 = P (l3 = 3|l2 = 4 l1 = 2) = = 0.667 1 − (0.4 + 0.3) p1(3) = P (l3 = 1|l2 = 4 l1 = 2) = p3(3) Se l1 = 3 e l2 = 1 0.4 = 0.571 1 − (0.2 + 0.1) 0.3 = P (l3 = 4|l2 = 1 l1 = 3) = = 0.429 1 − (0.2 + 0.1) p2(3) = P (l3 = 2|l2 = 1 l1 = 3) = p4(3) p2(3) + p4(3) = 1 Se l1 = 3 e l2 = 2 0.1 = 0.25 1 − (0.2 + 0.4) 0.3 = P (l3 = 4|l2 = 2 l1 = 3) = = 0.75 1 − (0.2 + 0.4) p1(3) = P (l3 = 1|l2 = 2 l1 = 3) = p4(3) p1(3) + p4(3) = 1 Se l1 = 3 e l2 = 4 Daniela Cocchi: Teoria dei Campioni 39 1.7. APPENDICI 40 0.1 = 0.2 1 − (0.2 + 0.3) 0.4 = P (l3 = 2|l2 = 4 l1 = 3) = = 0.8 1 − (0.2 + 0.3) p1(3) = P (l3 = 1|l2 = 4 l1 = 3) = p2(3) p1(3) + p2(3) = 1 Se l1 = 4 e l2 = 1 0.4 = 0.667 1 − (0.3 + 0.1) 0.2 = P (l3 = 3|l2 = 1 l1 = 4) = = 0.333 1 − (0.3 + 0.1) p2(3) = P (l3 = 2|l2 = 1 l1 = 4) = p3(3) p2(3) + p3(3) = 1 Se l1 = 4 e l2 = 2 0.1 = 0.333 1 − (0.3 + 0.4) 0.2 = P (l3 = 3|l2 = 2 l1 = 4) = = 0.667 1 − (0.3 + 0.4) p1(3) = P (l3 = 1|l2 = 2 l1 = 4) = p3(3) p1(3) + p3(3) = 1 Se l1 = 4 e l2 = 3 0.2 = 0.2 1 − (0.3 + 0.2) 0.3 = P (l3 = 2|l2 = 3 l1 = 4) = = 0.8 1 − (0.3 + 0.2) p3(3) = P (l3 = 1|l2 = 3 l1 = 4) = p4(3) p3(3) + p4(3) = 1 1.7.3 Appendice 3 Esempio 1.3 (continuazione) Calcolo delle probabilità p(s) dei campioni conoscendo le probabilità di estrazione Popolazione di N = 4 elementi: campioni di dimensione n = 3. Caso con reintroduzione Lo spazio dei campioni, per la (1.45), risulta composto da 20 elementi. Infatti, 6 6! C4+3−1,3 = C6,3 = = = 20. 3 3!3! Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 41 Le probabilità dei campioni sono quindi: p(s) = P {λ, λ , λ } = P (λ, λ , λ ) + P (λ, λ , λ ) + P (λ , λ , λ) +P (λ , λ, λ ) + P (λ , λ , λ) + P (λ , λ, λ ) = 6pλ pλ pλ λ = λ = λ p(s) = P {λ, λ , λ } = P (λ, λ , λ ) + P (λ , λ, λ ) + P (λ , λ , λ) = 3pλ p2λ λ = λ = λ p(s) = P {λ, λ, λ} = P (λ, λ, λ) = p3λ λ = λ = λ s p(s) {1, 2, 3} {1, 3, 4} {2, 3, 4} {1, 2, 4} {1, 1, 2} {1, 1, 3} {1, 1, 4} {2, 2, 1} {2, 2, 3} {2, 2, 4} {3, 3, 1} {3, 3, 2} {3, 3, 4} {4, 4, 1} {4, 4, 2} {4, 4, 3} {1, 1, 1} {2, 2, 2} {3, 3, 3} {4, 4, 4} 6 · 0.1 · 0.4 · 0.2 = 0.048 6 · 0.1 · 0.2 · 0.3 = 0.036 6 · 0.4 · 0.2 · 0.3 = 0.144 6 · 0.1 · 0.4 · 0.3 = 0.072 3 · (0.1)2 · 0.4 = 0.012 3 · (0.1)2 · 0.2 = 0.006 3 · (0.1)2 · 0.3 = 0.009 3 · (0.4)2 · 0.1 = 0.048 3 · (0.4)2 · 0.2 = 0.096 3 · (0.4)2 · 0.3 = 0.144 3 · (0.2)2 · 0.1 = 0.012 3 · (0.2)2 · 0.4 = 0.048 3 · (0.2)2 · 0.3 = 0.036 3 · (0.3)2 · 0.1 = 0.027 3 · (0.3)2 · 0.4 = 0.108 3 · (0.3)2 · 0.2 = 0.054 (0.1)3 = 0.001 (0.4)3 = 0.064 (0.2)3 = 0.008 (0.3)3 = 0.027 da cui si può verificare la (1.67). Le probabilità appena calcolate saranno riprese nell’Esempio 1.4. Caso senza reintroduzione In questo caso, la probabilità di una tripletta è: p(s) = P (λ, λ , λ ) = pλ · P (l2 = λ |l1 = λ) ·P (l3 = λ |l2 = λ , l1 = λ) . Daniela Cocchi: Teoria dei Campioni (1.120) 1.7. APPENDICI 42 Le probabilità subordinate della (1.120) sono state calcolate con l’introduzione dell’universo (1.119). Le probabilità p(s) di tale universo sono: s p(s) (1, 2, 3) (1, 3, 2) (2, 1, 3) (2, 3, 1) (3, 1, 2) (3, 2, 1) (1, 2, 4) (1, 4, 2) (2, 1, 4) (2, 4, 1) (4, 1, 2) (4, 2, 1) (1, 3, 4) (1, 4, 3) (3, 1, 4) (3, 4, 1) (4, 1, 3) (4, 3, 1) (2, 3, 4) (2, 4, 3) (3, 2, 4) (3, 4, 2) (4, 2, 3) (4, 3, 2) 0.1 · 0.445 · 0.4 = 0.0178 0.1 · 0.222 · 0.571 = 0.0127 0.4 · 0.167 · 0.4 = 0.0267 0.4 · 0.333 · 0.25 = 0.0333 0.2 · 0.125 · 0.571 = 0.0142 0.2 · 0.5 · 0.25 = 0.025 0.1 · 0.445 · 0.6 = 0.0267 0.1 · 0.333 · 0.667 = 0.0222 0.4 · 0.167 · 0.6 = 0.04 0.4 · 0.5 · 0.333 = 0.0667 0.3 · 0.143 · 0.667 = 0.0286 0.3 · 0.571 · 0.333 = 0.057 0.1 · 0.222 · 0.429 = 0.0095 0.1 · 0.333 · 0.333 = 0.0111 0.2 · 0.125 · 0.429 = 0.0107 0.2 · 0.375 · 0.2 = 0.015 0.3 · 0.143 · 0.333 = 0.0143 0.3 · 0.286 · 0.2 = 0.0172 0.4 · 0.333 · 0.75 = 0.0999 0.4 · 0.5 · 0.667 = 0.1334 0.2 · 0.5 · 0.75 = 0.075 0.2 · 0.375 · 0.8 = 0.06 0.3 · 0.571 · 0.667 = 0.1143 0.3 · 0.286 · 0.8 = 0.0687 La (1.67) è ancora verificata. Si ricavano quindi le probabilità dei campioni non ordinati estratti senza reintroduzione dalla seguente relazione: P {λ, λ , λ } = P (λ, λ , λ ) + P (λ, λ , λ ) + P (λ , λ, λ ) + P (λ , λ , λ) + P (λ , λ, λ ) + P (λ , λ , λ) secondo il prospetto seguente: Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 43 s p(s) {1, 2, 3} P (1, 2, 3) + P (1, 3, 2) + P (2, 1, 3)+ P (2, 3, 1) + P (3, 1, 2) + P (3, 2, 1) = 0.130 {1, 2, 4} P (1, 2, 4) + P (1, 4, 2) + P (2, 1, 4) +P (2, 4, 1) + P (4, 1, 2) + P (4, 2, 1) = 0.241 {1, 3, 4} P (1, 3, 4) + P (1, 4, 3) + P (3, 1, 4) +P (3, 4, 1) + P (4, 1, 3) + P (4, 3, 1) = 0.078 {2, 3, 4} P (2, 3, 4) + P (2, 4, 3) + P (3, 2, 4) +P (3, 4, 2) + P (4, 2, 3) + P (4, 3, 2) = 0.551 verificando ancora la (1.67). 1.7.4 Appendice 4 Esempio 1.4 (continuazione) Calcolo delle probabilità di inclusione dalla definizione Campione di dimensione n = 3 Caso con reintroduzione Nell’Esempio 1.3 sono state calcolate le probabilità dei campioni. Applicando le definizioni (1.78) e (1.79) si ottengono le probabilità di inclusione di primo e secondo ordine: π1 = P {1, 2, 3} + P {1, 3, 4} + P {1, 2, 4} + P {1, 1, 2} + P {1, 1, 3} + P {1, 1, 4} + P {2, 2, 1} + P {3, 3, 1} + P {4, 4, 1} + P {1, 1, 1} = 0.048 + 0.036 + 0.072 + 0.012 + 0.006 + 0.009 + 0.048 + 0.012 + 0.027 + 0.001 = 0.271 π2 = P {1, 2, 3} + P {2, 3, 4} + P {1, 2, 4} + P {1, 1, 2} + P {2, 2, 1} + P {2, 2, 3} + P {2, 2, 4} + P {3, 3, 2} + P {4, 4, 2} + P {2, 2, 2} = 0.048 + 0.144 + 0.072 + 0.012 + 0.048 + 0.096 + 0.144 + 0.048 + 0.108 + 0.064 = 0.784 π3 = P {1, 2, 3} + P {1, 3, 4} + P {2, 3, 4} + P {1, 1, 3} + P {2, 2, 3} + P {3, 3, 1} + P {3, 3, 2} + P {3, 3, 4} + P {4, 4, 3} + P {3, 3, 3} = 0.048 + 0.036 + 0.144 + 0.006 + 0.096 + 0.012 + 0.048 + 0.036 + 0.054 + 0.008 = 0.488 Daniela Cocchi: Teoria dei Campioni 1.7. APPENDICI 44 π4 = P {1, 3, 4} + P {2, 3, 4} + P {1, 2, 4} + P {1, 1, 4} + P {2, 2, 4} + P {3, 3, 4} + P {4, 4, 1} + P {4, 4, 2} + P {4, 4, 3} + P {4, 4, 4} = 0.036 + 0.144 + 0.072 + 0.009 + 0.144 + 0.036 + 0.027 + 0.108 + 0.054 + 0.027 = 0.657 π11 = P {1, 1, 2} + P {1, 1, 3} + P {1, 1, 4} + P {1, 1, 1} = 0.012 + 0.006 + 0.009 + 0.001 = 0.028 π12 = P {1, 2, 3} + P {1, 2, 4} + P {1, 1, 2} + P {2, 2, 1} = 0.048 + 0.072 + 0.012 + 0.048 = 0.180 π13 = P {1, 2, 3} + P {1, 3, 4} + P {1, 1, 3} + P {3, 3, 1} = 0.048 + 0.036 + 0.006 + 0.012 = 0.102 π14 = P {1, 2, 4} + P {1, 3, 4} + P {1, 1, 4} + P {4, 4, 1} = 0.072 + 0.036 + 0.009 + 0.027 = 0.144 π22 = P {2, 2, 1} + P {2, 2, 3} + P {2, 2, 4} + P {2, 2, 2} = 0.048 + 0.096 + 0.144 + 0.064 = 0.352 π23 = P {1, 2, 3} + P {2, 3, 4} + P {2, 2, 3} + P {3, 3, 2} = 0.048 + 0.144 + 0.096 + 0.048 = 0.336 π24 = P {1, 2, 4} + P {2, 3, 4} + P {2, 2, 4} + P {4, 4, 2} = 0.072 + 0.144 + 0.144 + 0.108 = 0.468 π33 = P {3, 3, 1} + P {3, 3, 2} + P {3, 3, 4} + P {3, 3, 3} = 0.012 + 0.048 + 0.036 + 0.008 = 0.104 π34 = P {1, 3, 4} + P {2, 3, 4} + P {3, 3, 4} + P {4, 4, 3} = 0.036 + 0.144 + 0.036 + 0.054 = 0.270 Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 45 π44 = P {4, 4, 1} + P {4, 4, 2} + P {4, 4, 3} + P {4, 4, 4} = 0.027 + 0.108 + 0.054 + 0.027 = 0.216 Caso senza reintroduzione Le probabilità dei campioni sono state calcolate nell’Esempio 1.3. Applicando le definizioni (1.78) e (1.79) si ottengono le probabilità d’inclusione di primo e secondo ordine: π1 π2 π3 π4 = P {1, 2, 3} + P {1, 2, 4} + P {1, 3, 4} = 0.449 = P {1, 2, 3} + P {1, 2, 4} + P {2, 3, 4} = 0.922 = P {1, 2, 3} + P {1, 3, 4} + P {2, 3, 4} = 0.759 = P {1, 2, 4} + P {1, 3, 4} + P {2, 3, 4} = 0.870 π12 π13 π14 π23 π24 π34 = P {1, 2, 3} + P {1, 2, 4} = 0.371 = P {1, 2, 3} + P {1, 3, 4} = 0.208 = P {1, 2, 4} + P {2, 3, 4} = 0.319 = P {1, 2, 3} + P {2, 3, 4} = 0.681 = P {1, 2, 4} + P {2, 3, 4} = 0.792 = P {1, 3, 4} + P {2, 3, 4} = 0.629 Si noti che la somma delle probabilità di secondo ordine è diversa da 1, perchè la probabilità dell’evento certo è data dalla somma delle probabilità di inclusione del terzo ordine. 1.7.5 Appendice 5 Dimostrazione del Teorema 1.1 La covarianza tra gli elementi di una generica coppia di variabili aλ e aλ ,con λ = λ ,in un campionamento con reintroduzione è: C(aλ , aλ ) = −npλ pλ λ = λ . Dimostrazione Per ricavare l’espressione della covarianza bisogna considerare la coppia (aλ , aλ ), osservando che, se l’unità di etichetta λ è stata estratta a formare il campione un certo numero di volte, 0 ≤ x ≤ n, la variabile aλ , subordinatamente alle x estrazioni di aλ , si distribuisce secondo una binomiale di parametri n − x e pλ / (1 − pλ ). Infatti aλ non ha più di n − x possibilità di entrare a far Daniela Cocchi: Teoria dei Campioni 1.7. APPENDICI 46 parte del campione, perchè esso è già composto da x elementi. Inoltre se, marginalmente, la probabilità di estrazione dell’elemento λ è pλ , subordinatamente all’estrazione senza reintroduzione del λ-esimo elemento, la probabilità di estrazione del λ -esimo è, per la (1.72), pλ / (1 − pλ ) e quindi si ha: pλ (aλ |aλ = x) ∼ Bin n − x, . 1 − pλ La speranza della variabile subordinata (aλ |aλ = x) è: E (aλ |aλ = x) = (n − x) pλ , 1 − pλ mentre la speranza della variabile prodotto aλ aλ si può ricavare come speranza della speranza subordinata: E(aλ aλ ) = = = = n x=0 n x=0 n x=0 n x=0 E(aλ aλ |aλ = x)p(aλ = x) E(aλ x|aλ = x)p(aλ = x) xp(aλ = x)E(aλ |aλ = x) x n x (pλ )x (1 − pλ )n−x (n − x) pλ 1 − pλ (il primo e l’ultimo termine della somma sono nulli) = n−1 pλ n (n − 1) (n − 2)! pλ (1 − pλ ) x (pλ )x−1 1 − pλ (n − x) (n − x − 1)!x(x − 1)! x=1 (1 − pλ )n−1−x (n − x) semplificando con j = x − 1 = pλ pλ n (n − 1) n−2 j=0 (n − 2)! j n−j−2 (pλ ) (1 − pλ ) (n − j − 2)!j! = pλ pλ n (n − 1) . E’ così possibile ricavare la covarianza: C(aλ , aλ ) = E(aλ aλ ) − E(aλ )E(aλ ) = pλ pλ n (n − 1) − n2 pλ pλ = −npλ pλ λ = λ . Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 1.7.6 47 Appendice 6 Dimostrazione del Teorema 1.1.bis. La covarianza tra gli elementi di una generica coppia di variabili aλ e aλ con λ = λ , in un campionamento senza reintroduzione, è C(aλ , aλ ) = πλλ − πλ πλ λ = λ . (1.121) Dimostrazione Per ricavare l’espressione della covarianza tra gli elementi della generica coppia di variabili aλ e aλ , λ = λ , bisogna osservare che aλ aλ è ancora una variabile casuale indicatrice, in quanto ottenuta dal prodotto di due indicatrici, che assume valore uno solo quando entrambi gli elementi di etichette λ e λ appartengono al campione: aλ aλ = 1[λ∈s] 1[λ ∈s] = 1[(λ∈s)∩(λ ∈s)] , quindi il parametro di tale variabile indicatrice, o di Bernoulli, è la probabilità di inclusione di secondo ordine (1.79): aλ aλ ∼ Ber (πλλ ) , da cui: E (aλ aλ ) = 0 · P (aλ aλ = 0) + 1 · P (aλ aλ = 1) = P (aλ aλ = 1) = πλλ . (1.122) Le covarianze della (1.85) sono a loro volta: C (aλ , aλ ) = E (aλ aλ ) − E (aλ ) E (aλ ) = πλλ − πλ πλ λ = λ . 1.7.7 Appendice 7 Teorema 1.2 Le probabilità di inclusione del primo ordine nel campionamento con reintroduzione sono: πλ = 1 − (1 − pλ )n . Dimostrazione πλ = P (aλ ≥ 1) = 1 − P (aλ < 1) = 1 − P (aλ = 0) Daniela Cocchi: Teoria dei Campioni 1.7. APPENDICI 48 Poiché l’evento (aλ = 0) si verifica quando λ non viene mai selezionato nelle n estrazioni indipendenti, si può scrivere direttamente: πλ = 1 − (1 − pλ )n . 1.7.8 Appendice 8 Teorema 1.3 Le probabilità d’inclusione del secondo ordine nel campionamento con reintroduzione sono, nel caso di coppie costituite dallo stesso elemento: πλλ = 1 − (1 − pλ )n − npλ (1 − pλ )n−1 e, nel caso di coppie contenenti elementi diversi: πλλ = 1 − (1 − pλ )n − (1 − pλ )n + (1 − pλ − pλ )n . Dimostrazione Consideriamo in primo luogo, il caso in cui λ = λ . Analogamente alla dimostrazione del teorema precedente, πλλ = P (aλ ≥ 2) = 1 − P (aλ < 2) = 1 − P (aλ = 0) − P (aλ = 1) n 1 n = 1 − (1 − pλ ) − p (1 − pλ )n−1 . 1 λ Nel caso in cui λ = λ : πλλ = P [(aλ ≥ 1) ∩ (aλ ≥ 1)] = 1 − P [(aλ < 1) ∪ (aλ < 1)] = 1 − P (aλ = 0) − P (aλ = 0) + P [(aλ = 0) ∩ (aλ = 0)] = 1 − (1 − pλ )n − (1 − pλ )n + (1 − pλ − pλ )n . (1.123) 1.7.9 Appendice 9 Esempio 1.6 Calcolo delle probabilità di inclusione nel campionamento con reintroduzione in funzione dei pesi iniziali Campioni di dimensione n = 2 Nel campionamento con reintroduzione di n = 2 elementi da una popolazione di N = 4 si possono calcolare le probabilità d’inclusione di primo e secondo ordine tramite le relazioni appena introdotte. Infatti, impiegando la relazione (1.95) si ottengono in altro modo le probabilità d’inclusione di primo ordine già calcolate nell’esempio 1.3: Daniela Cocchi: Teoria dei Campioni CAPITOLO 1. INTRODUZIONE 49 π1 = 1 − (1 − p1 )2 = 1 − (1 − 0.1)2 = 0.19 π2 = 1 − (1 − p2 )2 = 1 − (1 − 0.4)2 = 0.64 π3 = 1 − (1 − p3 )2 = 1 − (1 − 0.2)2 = 0.36 π4 = 1 − (1 − p4 )2 = 1 − (1 − 0.3)2 = 0.51 e, impiegando le relazioni (1.97) e (1.98), si ottengono le probabilità d’inclusione di secondo ordine: π11 = 1 − (1 − p1 )2 − 2p1 (1 − p1 ) = 0.01 π12 = 1 − (1 − p1 )2 − (1 − p2 )2 + (1 − p1 − p2 )2 = 1 − (1 − 0.1)2 − (1 − 0.4)2 + (1 − 0.1 − 0.4)2 = 0.08 π13 = 1 − (1 − p1 )2 − (1 − p3 )2 + (1 − p1 − p3 )2 = 1 − (1 − 0.1)2 − (1 − 0.2)2 + (1 − 0.1 − 0.2)2 = 0.04 π14 = 1 − (1 − p1 )2 − (1 − p4 )2 + (1 − p1 − p4 )2 = 1 − (1 − 0.1)2 − (1 − 0.3)2 + (1 − 0.1 − 0.3)2 = 0.06 π22 = 1 − (1 − p2 )2 − 2p2 (1 − p2 ) = 0.16 π23 = 1 − (1 − p2 )2 − (1 − p3 )2 + (1 − p2 − p3 )2 = 1 − (1 − 0.4)2 − (1 − 0.2)2 + (1 − 0.4 − 0.2)2 = 0.16 π24 = 1 − (1 − p2 )2 − (1 − p4 )2 + (1 − p2 − p4 )2 = 1 − (1 − 0.4)2 − (1 − 0.3)2 + (1 − 0.4 − 0.3)2 = 0.24 π33 = 1 − (1 − p3 )2 − 2p3 (1 − p3 ) = 0.04 π34 = 1 − (1 − p3 )2 − (1 − p4 )2 + (1 − p3 − p4 )2 = 1 − (1 − 0.2)2 − (1 − 0.3)2 + (1 − 0.2 − 0.3)2 = 0.12 π44 = 1 − (1 − p4 )2 − 2p4 (1 − p4 ) = 0.09 1.7.10 Campioni di dimensione n = 3 Il caso di campioni di dimensione n = 3 dà luogo alle seguenti probabilità di inclusione: π1 = 1 − (1 − 0.1)3 = 0.271 π2 = 1 − (1 − 0.4)3 = 0.784 π3 = 1 − (1 − 0.2)3 = 0.488 π4 = 1 − (1 − 0.3)3 = 0.657 Daniela Cocchi: Teoria dei Campioni 1.7. APPENDICI 50 π11 = 1 − (1 − p1 )3 − 3p1 (1 − p1 )2 = 0.028 π12 = 1 − (1 − 0.1)3 − (1 − 0.4)3 + (1 − 0.1 − 0.4)3 = 0.18 π13 = 1 − (1 − 0.1)3 − (1 − 0.2)3 + (1 − 0.1 − 0.2)3 = 0.102 π14 = 1 − (1 − 0.1)3 − (1 − 0.3)3 + (1 − 0.1 − 0.3)3 = 0.144 3 2 π22 = 1 − (1 − p2 ) − 3p2 (1 − p2 ) = 0.352 π23 = 1 − (1 − 0.4)3 − (1 − 0.2)3 + (1 − 0.4 − 0.2)3 = 0.336 π24 = 1 − (1 − 0.4)3 − (1 − 0.3)3 + (1 − 0.4 − 0.3)3 = 0.468 π33 = 1 − (1 − p3 )3 − 3p3 (1 − p3 )2 = 0.104 π34 = 1 − (1 − 0.2)3 − (1 − 0.3)3 + (1 − 0.2 − 0.3)3 = 0.27 π44 = 1 − (1 − p4 )3 − 3p4 (1 − p4 )2 = 0.216 1.7.11 Appendice 10 Esempio 1.7 Verifica delle proprietà delle probabilità di inclusione nel campionamento senza reintroduzione Campioni di dimensione n = 3 Anche per la dimensione campionaria n = 3 è verificata la relazione (1.99): π1 + π2 + π3 + π4 = 0.449 + 0.922 + 0.759 + 0.870 = 3, e la relazione (1.101) : π11 + π12 + π13 + π14 π22 + π12 + π23 + π24 π33 + π13 + π23 + π34 π44 + π14 + π24 + π34 = 0.449 + 0.371 + 0.208 + 0.319 = 3 · 0.449 = 0.922 + 0.371 + 0.681 + 0.792 = 3 · 0.922 = 0.759 + 0.208 + 0.681 + 0.629 = 3 · 0.759 = 0.870 + 0.319 + 0.792 + 0.629 = 3 · 0.870 e la relazione (1.103): π11 + π12 + π13 + π14 + π21 + π22 + π23 + π24 + π31 + π32 + π33 + π34 + π41 + π42 + π43 + π44 = 0.449 + 0.371 + 0.208 + 0.319 + 0.371 + 0.922 + 0.681 + 0.792 +0.208 + 0.681 + 0.759 + 0.629 + 0.319 + 0.792 + 0.629 + 0.870 = 9 Appendice 11 Teorema 1.5 1.7.12 Appendice 12 Teorema 1.6 Daniela Cocchi: Teoria dei Campioni Capitolo 2 Campionamento casuale semplice Ultima revisione: 16 febbraio 2011 Il campionamento casuale semplice è un caso particolare del campionamento a probabilità variabile, in cui tutte le valutazioni probabilistiche relative alle singole unità assumono lo stesso valore. Le principali motivazioni del campionamento casuale semplice sono le seguenti: 1) è il caso tipico in cui non esistono motivi nè per differenziare le unità della popolazione al momento dell’estrazione del campione nè riguardo al peso da assegnare ai valori campionati per stimare il valore di popolazione; 2) è il caso in cui non si dispone di nessuna informazione ausiliaria, a livello di campione o di popolazione, che permetta di correggere lo stimatore per la variabile studiata; 3) nella versione con reintroduzione, permette il confronto con i risultati dell’inferenza tipica del campionamento in popolazioni infinite. Il campionamento casuale semplice è assimilabile all’estrazione da un’urna che contiene le etichette che identificano la popolazione nel caso in cui ciascun individuo ha la stessa probabilità iniziale di essere selezionato. In questo tipo di campionamento si ipotizza equiprobabilità dei campioni ordinati: 1 ! p(s) = s ∈ S(n) . (2.1) Dim S(n) quindi, usando rispettivamente la (1.46) nel caso con reintroduzione e la (1.44) nel caso senza reintroduzione, si ha: p(s) = 1 1 = n, r DN,n N (2.2) p(s) = 1 (N − n)! 1 = = . DN,n N! N (N − 1) ...(N − n + 1) (2.3) Come è già stato accennato nel capitolo precedente, il risultato campionario può essere trattato, senza perdere informazioni, nella versione non ordinata, 51 2.1. C.C.S. CON REINTRODUZIONE 52 in quanto, proponendo stimatori lineari ed omogenei del tipo (1.106), i calcoli effettuati su campioni ordinati che derivano dalle permutazioni delle stesse unità risultano uguali. Se si calcolano le probabilità dei campioni non ordinati a partire dalle probabilità dei campioni ordinati, si devono sommare le probabilità dei campioni ordinati formati dal medesimo insieme di elementi. 2.1 2.1.1 Campionamento casuale semplice con reintroduzione di dimensione n Probabilità di estrazione dei campioni non ordinati Nel campionamento casuale semplice con reintroduzione, la probabilità di ciascun campione ordinato è la (2.2). Passando ai campioni non ordinati, che, secondo la (1.45), sono r CN,n = CN+n−1,n la probabilità di estrazione di ciascuno è pari alla somma delle probabilità dei campioni ordinati formati dai medesimi elementi. I campioni non ordinati non sono equiprobabili, come si può apprezzare dall’esempio seguente. Esempio 2.1 Probabilità di estrazione dei campioni non ordinati nel campionamento casuale semplice con reintroduzione Si consideri la popolazione di dimensione N = 4 del capitolo precedente. Campioni di dimensione n = 2 Il numero di possibili campioni ordinati, 1 r secondo la (2.2), è D4,2 = 16, ciascuno con probabilità 16 , mentre il numero di r possibili campioni non ordinati, secondo la (1.45), è C4,2 = 10. Tale universo è costituito dalle coppie: λ\λ 1 2 3 4 1 {1, 1} {2, 1} {3, 1} {4, 1} 2 3 4 {2, 2} {3, 2} {4, 2} {3, 3} {4, 3} {4, 4} Si può verificare come i campioni costruiti in questo modo non abbiano tutti la stessa probabilità. In questo esericizio la equiprobabilità riguarda l’universo dei campioni ordinati. Il numero di campioni ordinati costituiti dagli stessi elementi è diverso a seconda che il campione contenga o no replicazioni di elementi, e le probabilità dei campioni costituiti da unità uguali o distinte non è la stessa. Infatti, a partire dalle probabilità dai campioni ordinati, si ottiene " # " # 2 se λ = λ P λ, λ = P λ, λ + P λ , λ = 16 1 P {λ, λ} = se λ = λ 16 Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 53 e quindi P {2, 1} = P {3, 1} = P {4, 1} = P {3, 2} = P {4, 2} = P {4, 3} = P {1, 1} = P {2, 2} = P {3, 3} = P {4, 4} = 2 16 1 16 . Da queste probabilità si verifica nuovamente la (1.67). Il caso relativo a campioni di dimensione n = 3 è trattato nell’Appendice 1. 2.1.2 Probabilità di estrazione delle unità Il campionamento casuale semplice con reintroduzione garantisce che la probabilità di estrazione delle unità, oltre ad essere costante per le diverse unità ad ogni estrazione, sia costante anche per una stessa unità da estrazione ad estrazione. La (1.71) viene quindi esplicitata come: pλ(i) = pλ = 2.1.3 1 N 1≤λ≤N 1≤i≤n . (2.4) Probabilità di inclusione Sostituendo la (2.4) nelle relazioni (1.95), (1.97) e (1.98), si derivano le probabilità d’inclusione di primo e secondo ordine: n 1 πλ = 1 − 1 − , (2.5) N πλλ n n−1 1 1 1 =1− 1− −n 1− , N N N πλλ 2.1.4 se λ=λ n n n 1 1 1 1 − 1− + 1− − =1− 1− N N N N n n 1 2 =1−2 1− + 1− se λ = λ . N N (2.6) (2.7) Primi due momenti della variabile casuale a Sostituendo la (2.4) nella (1.86), la distribuzione di probabilità delle variabili aλ è: 1 aλ ∼ Bin n, ∀λ = 1, ..., N, (2.8) N Daniela Cocchi: Teoria dei Campioni 2.1. C.C.S. CON REINTRODUZIONE 54 da cui si ricavano i casi particolari dei momenti (1.87), (1.88) e (1.89) da inserire nella (1.84) e nella (1.85): 1 n = , N N 1 1 n N −1 V (aλ ) = n 1− = , N N N N 1 1 n C(aλ , aλ ) = −n =− 2 λ= λ. NN N E (aλ ) = n (2.9) (2.10) (2.11) Esempio 2.2 Distribuzione della variabile a nel campionamento casuale semplice con reintroduzione di dimensione n. Campioni di dimensione n = 3. Si consideri una popolazione di N = 4 elementi. Adottando il campionamento casuale semplice con reintroduzione si hanno le versioni della (2.4) e della (2.8): pλ = 1 4 1≤λ≤4 1 aλ ∼ Bin 3, . 4 e quindi le probabilità di inclusione, usando le (2.5) e la (2.7), sono: 3 1 πλ = 1 − 1 − = 0.578, 4 3 2 1 3 1 πλλ = 1 − 1 − − 1− = 0.156 4 4 4 3 3 1 2 πλλ = 1 − 2 1 − + 1− = 0.281. 4 4 Il λ-esimo individuo può entrare nel campione 0,1,2,3 volte. La distribuzione di probabilità della variabile aλ è, per la (2.8): Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 55 0 n 1 N −1 n 0 N N 0 3 3 1 3 3 27 3 = = = = 0.422 0 4 4 4 64 2 1 3 3 p(aλ = 1) = 1 4 4 2 3! 1 3 27 = = = 0.422 24 4 64 2 1 3 3 p(aλ = 2) = 2 4 4 3! 1 3 9 = = = 0.141 2 16 4 64 3 0 3 1 3 p(aλ = 3) = 3 4 4 1 = = 0.015. 64 p(aλ = 0) = Da ricordare. Nelle sezioni da 2.1.1 a 2.1.4 sono stati ripresi i risultati del Capitolo 1 nel caso particolare di eguali probabilità di estrazione. 2.1.5 Inferenza sulla media di popolazione Lo stimatore media campionaria Lo stimatore per la media di popolazione m (η) è proposto sulla base del sistema di pesi in popolazione: 1 1 ≤ λ ≤ N. (2.12) n Tale sistema di pesi viene introdotto nell’espressione dello stimatore lineare omogeneo (1.106) e dà luogo alla media campionaria (1.53), che viene proposta come stimatore della media di popolazione: wλ = n n 1 1 h(y) = yi = yi = m (y) . n n i=1 i=1 e quindi wi = 1 n (2.13) , 1 ≤ i ≤ n. Correttezza dello stimatore media campionaria Teorema 2.1 La media campionaria è stimatore corretto della media di popolazione. Dimostrazione Il sistema di pesi (2.12) è scelto in modo da assicurare la correttezza dello stimatore. Infatti, sostituendo la (2.12) nella (1.107), applicando l’operatore Daniela Cocchi: Teoria dei Campioni 2.1. C.C.S. CON REINTRODUZIONE 56 speranza secondo la (1.110) e usando la (2.9), si ottiene: N N E [m(y)] = E aλ wλ ηλ = E (aλ ) wλ ηλ λ=1 = (2.14) λ=1 N n wλ ηλ N λ=1 ma N n wλ ηλ = m (η) N λ=1 se e solo se wλ = 1 n λ = 1, ..., N . Varianza dello stimatore media campionaria Teorema 2.2 La varianza dello stimatore media campionaria per la media di popolazione è: 1 V [m (y)] = v2 (η). (2.15) n Dimostrazione Introducendo nell’espressione della varianza del generico stimatore lineare ed omogeneo (1.113) i pesi (2.12) e le espressioni (2.10) e (2.11) al posto di V (aλ ) e C (aλ , aλ ) , si ottiene: N N 1 2 1 V [m (y)] = V (aλ ) 2 ηλ + 2 C (aλ , aλ ) 2 ηλ ηλ n n λ=1 λ=1 λ <λ N N N 1 n 1 n 2 = 2 1− ηλ − 2 2 ηλ ηλ n N N N λ=1 λ=1 λ <λ N N N 1 N −1 2 2 = ηλ − 2 ηλ ηλ n N2 N λ=1 λ=1 λ <λ N N N 1 N 2 1 2 2 = ηλ − 2 ηλ − 2 ηλ ηλ n N2 N N λ=1 λ=1 λ=1 λ <λ N 2 N 11 2 1 = ηλ − 2 ηλ n N N λ=1 λ=1 2 N ηλ N 1 1 2 λ=1 = ηλ − n N N λ=1 = ! 1 1 m(η2 ) − m(η)2 = v2 (η). n n Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 57 Sulla base della (1.9) si ottiene l’espressione alternativa: V [m (y)] = N − 1 s2 (η) . N n (2.16) Uno stimatore distorto per la varianza di popolazione Teorema 2.3 L’equivalente campionario di v2 (η), v2 (y), già introdotto nella (1.57), non è un suo stimatore corretto: ! n−1 2 E v 2 (y) = v (η). n (2.17) Dimostrazione E’ noto che la varianza campionaria può essere scritta come: v2 (y) = m y 2 − m (y)2 (2.18) e che la sua speranza è: ! ! E v2 (y) = E m y 2 − E m (y)2 . (2.19) Si noti che, come già visto al capitolo precedente: n N 2 1 1 2 aλ ηλ2 . y = m y = n i=1 i n λ=1 Si può quindi calcolare N 2 ! 1 E m y = E aλ ηλ2 n λ=1 N N 1 2 1 n 2 = ηλ = ηλ = m η2 n λ=1 N N λ=1 (2.20) e ricordando che E m (y)2 = V [m (y)] + {E [m (y)]}2 , (2.21) il valore atteso della varianza campionaria risulta: ! E v 2 (y) = m(η 2 ) − V [m(y)] − {E [m(y)]}2 v2 (η) − m2 (η) n v2 (η) n−1 2 = v2 (η) − = v (η). n n = m(η 2 ) − Daniela Cocchi: Teoria dei Campioni 2.1. C.C.S. CON REINTRODUZIONE 58 Uno stimatore corretto per la varianza di popolazione Teorema 2.4 L’espressione s2 (y), già introdotta nella (1.58), è stimatore corretto della varianza di popolazione (1.8): ! E s2 (y) = v2 (η). (2.22) Dimostrazione Utilizzando il risultato (2.17), si ottiene facilmente: n 2 v (y) n−1 ! n = E v2 (y) = v 2 (η). n−1 ! E s2 (y) = E Uno stimatore per la varianza dello stimatore media campionaria Per stimare la varianza (2.15) dello stimatore media campionaria m(y), si propone la quantità: V̂ [m(y)] = s2 (y) . n (2.23) Correttezza dello stimatore per la varianza dello stimatore media campionaria Teorema 2.5 Lo stimatore (2.23) è corretto per la quantità V [m(y)]. Dimostrazione Dalla (2.15) e dalla (2.22), la speranza dello stimatore (2.23) è: v2 (η) E V̂ [m(y)] = = V [m(y)] . n 2.1.6 Inferenza sul totale di popolazione Lo stimatore di espansione Per inferire sul totale di popolazione (1.3), riscritto come t(η) = N m(η) si possono usare due metodi equivalenti. Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 59 Stimatore di una trasformazione lineare della media di popolazione A partire dalla media campionaria m(y), stimatore corretto di m(η), si propone lo stimatore di espansione come trasformazione lineare dello stimatore già proposto per la media di popolazione: tE (y) = Nm(y) = t(y) N . n (2.24) In altre parole, il totale campionario t(y) viene moltiplicato per il coefficiente N/n che è il reciproco della frazione di campionamento (1.42). Poiché lo stimatore di espansione è una trasformazione lineare della media campionaria, i risultati teorici riguardanti la speranza, la varianza dello stimatore e la stima della varianza dell stimatore del totale sono gli stessi ottenuti per la media moltiplicati per una costante. Infatti, riprendendo il Teorema 2.1, il Teorema 2.2 e il Teorema 2.5, si ottiene: E [tE (y)] = E [Nm(y)] = N m(η) = t(η), (2.25) 2 N 2 v (η) n N − 1 s2 (η) = N2 . N n V [tE (y)] = V [N m(y)] = V̂ [tE (y)] = V̂ [N m(y)] = N 2 s2 (y) . n (2.26) (2.27) (2.28) Anche quest’ultimo stimatore è corretto in quanto: E V̂ [tE (y)] = E N 2 V̂ [m(y)] = N 2 V [m(y)] = N2 2 v (η) . n Lo stimatore per espansione derivato dallo stimatore lineare omogeneo Analogamente a ciò che è stato proposto per stimare la media di popolazione, anche per la stima del totale si può partire dall’espressione del generico stimatore lineare omogeneo (1.106) in caso di campionamento casuale semplice con reintroduzione. In questo caso il sistema di pesi per gli elementi della popolazione diventa: wλ = N n 1 ≤ λ ≤ N, da cui si ottiene la (2.24). Daniela Cocchi: Teoria dei Campioni (2.29) 2.1. C.C.S. CON REINTRODUZIONE 60 Teorema 2.6 Lo stimatore (2.24), visto come stimatore lineare omogeneo con pesi wi = N n , 1 ≤ i ≤ n, è corretto per la quantità t(η). Dimostrazione Sostituendo la (2.29) nella (1.107) e applicando l’operatore speranza secondo la (1.110), si ottiene: E [tE (y)] = E N aλ wλ ηλ = λ=1 = N n ηλ wλ N N E (aλ ) wλ ηλ (2.30) λ=1 λ=1 ma N n wλ ηλ = t (η) N λ=1 se e solo se wλ = N . n Da ricordare. In questa sezione sono stati ricavati, per una via completamente diversa da quella tradizionale, risultati fondamentali dell’inferenza statistica, che sono funzione della (1.8), cioè della varianza in popolazione, per lo stimatore media campionaria in caso di campionamento con osservazioni indipendenti ed identicamente distribuite da popolazioni infinite. Esempio 2.3 Calcolo della speranza e della varianza dello stimatore media campionaria Si consideri la popolazione di dimensione N = 4 più volte trattata nel Capitolo 1, in cui i valori della variabile oggetto di studio sono introdotti per la prima volta: η = {3, 10, 4, 7} Le sintesi descrittive della variabile in popolazione sono: m (η) = 6; v2 (η) = 7.5; s2 (η) = 10. Campioni di dimensione n = 2 Caso con reintroduzione A ciascun campione è associato un vettore di osservazioni y = (y1 , y2 ) che dà luogo ad una media campionaria definita secondo la (2.13): (y1 + y2 ) . m (y) = 2 Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 61 I possibili valori delle medie campionarie m(y) sono riportati nella tabella seguente, che contiene soltanto i risultati relativi ai campioni non ordinati: y2 \y1 3 10 4 7 3 3 6.5 3.5 5 10 4 10 7 8.5 4 5.5 7 (2.31) 7, mentre di seguito sono riportati i valori dei quadrati delle medie campionarie m2 (y) y2 \y1 3 10 4 7 3 9 10 42.25 100 (2.32) 4 12.25 49 16 7 25 72.25 30.25 49. La speranza delle medie campionarie (2.13) può essere ricavata dall’universo dei campioni tramite la (1.104). Poiché nei prospetti precedenti sono riportati i risultati provenienti dai campioni non ordinati, le probabilità da utilizzare nella (1.104) sono quelle calcolate nell’esempio 2.1: E [m (y)] = m (y) p (s) s∈S2 1 2 (3 + 10 + 4 + 7) + (6.5 + 3.5 + 5 + 7 + 8.5 + 5.5) 16 16 1 2 = 24 + 36 = 6 = m (η) . 16 16 = Invece di ricavare la speranza dello stimatore media campionaria dall’universo dei campioni, utilizzando direttamente la proprietà di correttezza (2.14) di m (y) per m (η) si ottiene immediatamente: E [m (y)] = m (η) = 6. Analogamente, la varianza dello stimatore, tramite la (1.105), si ottiene dall’universo dei campioni non ordinati a partire da: ! 2 E m2 (y) = m (y) p (s) s∈S2 1 2 (9 + 100 + 16 + 49) + (42.25 + 12.25 + 25 + 49 + 72.25 + 30.25) 16 16 1 2 = 174 + 231 = 39.75, 16 16 = e ricavando successivamente la: ! V [m (y)] = E m2 (y) − E 2 [m (y)] = 39.75 − 36 = 3.75. Daniela Cocchi: Teoria dei Campioni 2.1. C.C.S. CON REINTRODUZIONE 62 Il risultato coincide con quello che si ottiene applicando direttamente la (2.15): V [m (y)] = v2 (η) 7.5 = = 3.75. n 2 Concludiamo ricavando la speranza della variabile casuale stimatore della varianza campionaria nell’universo dei campioni. La varianza campionaria corretta s2 (y) è, nell’universo dei campioni: y2 \y1 3 10 4 7 3 0 24.5 0.5 8 10 4 7 0 18 4.5 0 4.5 0 Il valore atteso della variabile casuale è, secondo la (2.22): ! 2 E s2 (y) = s (y) p (s) s∈S2 2 1 (0 + 0 + 0 + 0) + (24.5 + 0.5 + 8 + 18 + 4.5 + 4.5) 16 16 2 = 0 + 60 = 7.5 = v2 (η) . 16 = 2.1.7 Stima per variabili dicotomiche: la proporzione e il totale La stima di una proporzione in popolazione, vista secondo la (1.14) come media di una variabile dicotomica, nel caso di campionamento casuale semplice con reintroduzione avviene tramite la proporzione campionaria (1.53): n p = m (y) = 1 t(y) yi = , n i=1 n (2.33) mentre, per la stima del numero totale di elementi della popolazione che possiedono un carattere dicotomico (1.13), si impiega la: τ̂ = N m (y) = n N N yi = t(y). n i=1 n (2.34) Il valore atteso e la varianza di tali stimatori sono, ancora per il Teorema 2.1 e il Teorema 2.2: E (p) = E [m (y)] = m(η) = π, (2.35) 2 π(1 − π) v (η) = , n n E(τ̂ ) = N E [m (y)] = Nπ = τ , π(1 − π) V (τ̂ ) = N 2 . n V (p) = V [m (y)] = Daniela Cocchi: Teoria dei Campioni (2.36) (2.37) (2.38) CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 63 Uno stimatore corretto per la varianza dello stimatore di una proporzione Per stimare la varianza (2.36) di p si propone la quantità: V̂ (p) = p(1 − p) . n−1 (2.39) Tale stimatore deriva direttamente dalla trascrizione della (2.23): V̂ (m(y)) = s2 (y) n in base alla varianza campionaria (1.64): s2 (y) = n p(1 − p), n−1 che stima correttamente la varianza (1.15). Teorema 2.6.1 La (2.39) è stimatore corretto della (2.36). Infatti, applicando ancora il Teorema 2.5: 1 n E V̂ (p) = E p(1 − p) n n−1 1 = π(1 − π) = V (p). n Teorema 2.6.2 La varianza (2.38) di τ̂ è stimata correttamente dallo stimatore V̂ (τ̂ ) = N 2 2.2 p(1 − p) . n−1 (2.40) Campionamento casuale semplice senza reintroduzione di dimensione n In questo tipo di campionamento, le probabilità dei campioni ordinati sono le (2.3). 2.2.1 Probabilità di estrazione dei campioni non ordinati (estrazione in blocco) A differenza di quanto avviene nel campionamento casuale semplice con reintroduzione, nel campionamento senza reintroduzione le probabilità dei campioni non ordinati sono uguali tra loro. Infatti, considerare campioni non ordinati corrisponde all’estrazione in blocco (intrinsecamente non ordinata) del campione di n elementi. Formalmente, si utilizza direttamente la (1.47) per individuare la relazione tra l’universo ordinato senza ripetizione (1.44) e l’universo non ordinato senza ripetizione (1.43), osservando che, per questo tipo di campionamento, tutti i campioni sono equiprobabili. Daniela Cocchi: Teoria dei Campioni 2.2. C. C. S. SENZA REINTRODUZIONE 64 Nel caso di estrazione in blocco dall’universo (1.43) la probabilità dei campioni è: p(s) = 1 CN,n s ∈ S{n} . (2.41) Esempio 2.4 Dimensione dello spazio dei campioni nel caso di campionamento casuale semplice senza reintroduzione. Se si estraggono senza reintroduzione campioni di dimensione n = 2 da una popolazione di dimensione N = 4, il numero dei campioni ordinati è D4,2 = 12, ciascuno con probabilità 1/12, mentre il numero dei campioni non ordinati è C4,2 = 6, ciascuno con probabilità 1/6. 2.2.2 Probabilità di estrazione delle unità Il campionamento casuale semplice senza reintroduzione garantisce, nell’ambito della stessa estrazione, una probabilità di estrazione costante per le diverse unità. Tale probabilità aumenta, da un’estrazione alla successiva, per le unità che non sono ancora state estratte. Infatti dalla (1.72) si ha: 1 pλ(i) = = 1− 1− Ni−1 1 j=1 N 1 N 1 N (i − 1) = 1 N −i+1 , (2.42) ∀λ : ∃j 1 ≤ j ≤ i − 1 lj = λ 2≤i≤n pλ(i) = 0 2.2.3 1≤λ≤N 1≤i≤n Probabilità di inclusione Teorema 2.7 Le probabilità di inclusione di primo ordine, nel campionamento casuale semplice senza reintroduzione, sono: πλ = n N ∀λ La dimostrazione è nell’Appendice 2. Daniela Cocchi: Teoria dei Campioni (2.43) CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 65 Teorema 2.8 La probabilità di inclusione di secondo ordine nel campionamento casuale semplice senza reintroduzione è data da: πλλ = n (n − 1) N (N − 1) ∀λ, λ | λ = λ (2.44) La dimostrazione è nell’Appendice 3. 2.2.4 Primi due momenti della variabile casuale a Sostituendo la (2.104) dell’Appendice 2 nella (1.91) la distribuzione delle variabili aλ è: "n# aλ ∼ Ber (2.45) N da cui si ricavano i casi particolari dei momenti (1.87), (1.88) e (1.89) da inserire nella (1.84) e nella (1.85): n , N n# n N −n n " V (aλ ) = 1− = , N N N N n(n − 1) n2 C(aλ , aλ ) = − 2 N (N − 1) N n N n − N − nN + n = N N (N − 1) n (N − n) =− 2 λ = λ . N (N − 1) E (aλ ) = 2.2.5 (2.46) (2.47) (2.48) Inferenza per la media e per il totale di popolazione Stimatori corretti per la media e per il totale di popolazione Per la (2.46), la speranza del vettore aleatorio a, in caso di campionamento casuale semplice senza reintroduzione, coincide con quella del caso con reintroduzione (2.9). Imponendo la correttezza del generico stimatore lineare ed omogeneo (1.106) per la media in popolazione (1.4) e per il totale corrispondente (1.3) si derivano gli stimatori già proposti nel campionamento casuale semplice con reintroduzione: n m (y) = 1 yi , n i=1 tE (y) = Nm(y) = t(y) (2.49) N . n Daniela Cocchi: Teoria dei Campioni (2.50) 2.2. C. C. S. SENZA REINTRODUZIONE 66 Quindi la media campionaria e lo stimatore di espansione sono ancora stimatori corretti per le corrispondenti quantità di popolazione: E [m (y)] = m(η), E [tE (y)] = t(η). (2.51) (2.52) Varianza della media campionaria e dello stimatore di espansione Teorema 2.9 La varianza della media campionaria è: N − n v2 (η) " n # s2 (η) = 1− N −1 n N n 1 1 2 − s (η) . = n N V [m (y)] = (2.53) Dimostrazione A partire dall’espressione (1.113) si ottiene: N N 1 2 ηλ ηλ C (aλ , aλ ) V [m (y)] = 2 ηλ V (aλ ) + 2 n λ=1 λ<λ λ=1 N N 1 2n " n# n (N − n) = 2 ηλ 1− +2 ηλ ηλ − 2 n N N N (N − 1) λ=1 λ=1 λ<λ N N 1 n " n # 2 n (N − n) ηλ − 2 ηλ ηλ = 2 1− 2 n N N N (N − 1) λ=1 λ=1 λ<λ N N 1 n (N − n) 2 2 ηλ − ηλ ηλ = 2 n N2 (N − 1) λ=1 λ=1 λ<λ N N N 1 N −n N 2 1 2 2 ηλ − ηλ − ηλ ηλ = nN N N −1 N −1 N −1 λ=1 λ=1 λ=1 λ<λ N 2 N N −n 1 2 1 ηλ − ηλ = N nN N N −1 λ=1 λ=1 2 N ηλ N N −n 1 1 N −n 1 2 = ηλ2 − λ=1 = v (η) N − 1 n N N N −1 n λ=1 " N −n 1 N −1 2 N −n 2 n#1 2 s (η) = s (η) = 1 − s (η) N −1 n N nN N n 1 1 = − s2 (η) . n N = Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 67 Si ottiene così un risultato analogo al caso con reintroduzione, con la moltiplin cazione per un fattore di correzione 1 − N dovuto al fatto che si sta trattando una popolazione finita. Teorema 2.10 L’espressione della varianza dello stimatore di espansione del totale è: " N − n v2 (η) n # s2 (η) = N2 1 − N −1 n N n 1 1 − s2 (η) . = N2 n N V [tE (y)] = N 2 (2.54) Dimostrazione La varianza (2.54) è ottenuta semplicemente moltiplicando la (2.53) per N 2 . Uno stimatore distorto per la varianza di popolazione Teorema 2.11 La varianza campionaria (1.57) non è stimatore corretto della varianza in popolazione (1.8) in quanto: ! N (n − 1) 2 E v 2 (y) = v (η) . n (N − 1) (2.55) Dimostrazione ! Dalla E m y 2 = m η 2 e, ricordando la (2.19), la (2.20), (2.21) e la (2.53), il valore atteso della varianza campionaria v2 (y) è: ! E v2 (y) = m η 2 − V [m (y)] − {E [m (y)]}2 N − n v 2 (η) = m η2 − − m2 (η) N −1 n N − n v2 (η) = v2 (η) − N −1 n N −n 2 = v (η) 1 − n (N − 1) nN −n−N +n 2 = v (η) n (N − 1) N (n − 1) = v2 (η) , n (N − 1) da cui si desume che v2 (y) non è uno stimatore corretto di v2 (η). Uno stimatore corretto per la varianza di popolazione Teorema 2.12 Uno stimatore corretto di s2 (η) è s2 (y): ! E s2 (y) = s2 (η) . Dimostrazione Daniela Cocchi: Teoria dei Campioni (2.56) 2.2. C. C. S. SENZA REINTRODUZIONE 68 ! E s2 (y) = ! n E v2 (y) n−1 n N (n − 1) 2 v (η) = n − 1 n (N − 1) N = v2 (η) = s2 (η) . N −1 Si osservi che, mentre nel campionamento casuale semplice senza reintroduzione s2 (y) è stimatore corretto per s2 (η), nel campionamento casuale semplice con reintroduzione s2 (y) è stimatore corretto per v 2 (η). Stimatori corretti per le varianze degli stimatori della media e del totale Teorema 2.13 Per stimare la varianza (2.53) della media campionaria m(y) si propone lo stimatore corretto V̂ [m(y)] = s2 (y) N − n . n N (2.57) Dimostrazione Lo stimatore (2.57) è corretto, in quanto la sua speranza è: s2 (η) N − n E V̂ [m(y)] = = V [m(y)] . n N Teorema 2.14 Per stimare correttamente la varianza (2.54) dello stimatore tE (y) si propone, direttamente dalla (2.57), la quantità: V̂ [tE (y)] = N 2 s2 (y) N − n . n N (2.58) Dimostrazione Lo stimatore è corretto in quanto: E V̂ [tE (y)] = N 2 V [m(y)] = V [tE (y)] . Esempio 2.5 Effetto del coefficiente di correzione per popolazioni finite Nella tabella seguente viene riassunta l’influenza del coefficiente di correzione per popolazioni finite al variare della numerosità della popolazione, per un’ampiezza campionaria costante Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 69 * * N−n N−n N−n n N N N N−1 500 10000 0.95 0.974679 0.974728 500 200000 0.9975 0.998749 0.998752 500 1000000 0.9995 0.99975 0.99975 500 5000000 0.9999 0.99995 0.99995 500 10000000 0.99995 0.999975 0.999975 Si noti, ad esempio, come un campione di ampiezza 500, estratto da una popolazione di numerosità uguale a 10.000.000, dia luogo praticamente allo stesso risultato di un campione della stessa ampiezza estratto da una popolazione di numerosità 200.000. Di seguito viene descritta l’influenza del coefficiente di correzione per popolazioni finite al variare dell’ampiezza del campione, con dimensione di popolazione costante. * * N−n N−n N−n n N N N N−1 1 10000 0.9999 0.99995 1 10 10000 0.999 0.99949 0.9995 100 10000 0.99 0.99499 0.9950 500 10000 0.95 0.97468 0.9747 1000 10000 0.9 0.94868 0.9487 5000 10000 0.5 0.70711 0.7071 9000 10000 0.1 0.31623 0.3162 Si noti che, se la numerosità campionaria aumenta e tende a quella della popolazione, il coefficiente di correzione per popolazioni finite diventa sempre più importante per la riduzione della varianza degli stimatori. Esempio 2.6 Speranza e varianza dello stimatore della media Dalla popolazione studiata nell’Esempio 2.3 si estraggono, con campionamento casuale semplice, campioni senza reintroduzione di dimensione 2. Ai campioni sono associati i vettori di osservazioni y = (y1 , y2 ), ciascuno dei quali dà luogo ad una media campionaria: m (y) = (y1 + y2 ) . 2 I valori delle medie campionarie m(y) provenienti dai campioni non ordinati ed i relativi quadrati compaiono fuori della diagonale nei prospetti (2.31) e (2.32) dell’esempio 2.3. La speranza dello stimatore media campionaria può essere ricavata dall’universo dei campioni tramite la (1.104) come: E [m (y)] = m (y) p (s) s∈S2 = 1 (6.5 + 3.5 + 5 + 7 + 8.5 + 5.5) = 6. 6 Utilizzando invece la proprietà di correttezza (2.51) di m (y) si ha direttamente: E [m (y)] = m (η) = 6. Daniela Cocchi: Teoria dei Campioni 2.2. C. C. S. SENZA REINTRODUZIONE 70 Analogamente, dall’universo dei campioni, tramite la (1.105), a partire da: ! 1 E m2 (y) = m2 (y) p (s) = (42.25 + 12.25 + 25 + 49 + 72.25 + 30.25) 6 s∈S 2 = 1 (231) = 38.5, 6 si ottiene la varianza: ! V [m (y)] = E m2 (y) − E 2 [m (y)] = 38.5 − 36 = 2.5. Lo stesso risultato si ottiene applicando la (2.53): V [m (y)] = 2.2.6 N − n v2 (η) 2 7.5 = = 2.5. N −1 n 3 2 Stima per variabili dicotomiche: la proporzione e il totale I risultati per la proporzione e il totale di variabili dicotomiche sono analoghi a quelli trovati per il campionamento casuale semplice con reintroduzione a meno del coefficiente di correzione per popolazioni finite 1− n . N Si propongono gli stimatori corretti: n 1 t(y) p = m (y) = yi = , n i=1 n (2.59) τ̂ = N m (y) = (2.60) n t(y) N yi = N. n i=1 n Il valore atteso e la varianza di tali stimatori sono: E (p) = E [m (y)] = m(η) = π, 1 1 N −n N V (p) = V [m (y)] = − s2 (η) = π(1 − π) n N nN N −1 N − n π(1 − π) = , N −1 n E(τ̂ ) = NE [m (y)] = N π = τ , V (τ̂ ) = N 2 (2.61) (2.62) (2.63) 2 N −n N N −n N π(1 − π) = π(1 − π) . nN N −1 n N −1 Ricordando che s2 (y) = np (1 − p) ; n−1 V̂ (m(y)) = s2 (y) N −n Nn Daniela Cocchi: Teoria dei Campioni (2.64) CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 71 gli stimatori corretti delle varianze (2.62) e (2.64) sono: N − n p (1 − p) , N n−1 p (1 − p) . V̂ (τ̂ ) = N (N − n) n−1 V̂ (p) = (2.65) (2.66) Campionamento casuale semplice autoponderante La strategia costituita dal campionamento casuale semplice (con o senza reintroduzione) e da uno stimatore lineare omogeneo è autoponderante, secondo la definizione (1.109). Gli stimatori lineari omogenei media campionaria e stimatore di espansione per il totale utilizzano infatti pesi uguali, rispettivamente pari a 1/n e N/n, per ogni elemento della popolazione selezionato nel campione. In queste strategie si nota anche che le probabilità di inclusione di primo ordine sono tutte uguali. 2.3 Riassunto della teoria per il campionamento casuale semplice Per ogni strategia di campionamento, per ogni stimatore proposto, ci sono sempre almeno 5 teoremi I. Calcolo della speranza per saggiare la correttezza II. Calcolo della varianza III. Proposta di stimare il parametro di popolazione che entra nella varianza con il suo equivalente campionario e calcolo della sua speranza per saggiarne la correttezza (la proprietà non è mai verificata) IV. Aggiustamento della statistica del punto precedente in modo da renderla corretta V. Stimatore corretto della varianza Nel campionamento casuale semplice i teoremi per la stima della media aritmetica sono sono: Con reintroduzione Senza reintroduzione I Teorema 2.1 Formula (2.51) II Teorema 2.2 Teorema 2.9 III Teorema 2.3 Teorema 2.11 IV Teorema 2.4 Teorema 2.12 V Teorema 2.5 Teorema 2.13 I teoremi per la stima del totale sono: Con reintroduzione Senza reintroduzione I Teorema 2.6 Formula (2.52) II Formule (2.26)-(2.27) Teorema 2.10 III Si utilizza il Teorema 2.3 Si utilizza il Teorema 2.11 IV Si utilizza il Teorema 2.4 Si utilizza il Teorema 2.12 V Formula (2.28) Teorema 2.14 Daniela Cocchi: Teoria dei Campioni 2.4. C.C.S.: EFFICIENZA E PRECISIONE 72 I teoremi 2.1, 2.2, 2.9 e 2.10 sono semplici applicazioni dei teoremi sulla speranza dello stimatore omogeneo e del corollario 1.3 del capitolo 1. Per la proporzione Con reintroduzione I Formula (2.35) II Formula (2.36) III Si utilizza il Teorema 2.3 IV Formula (1.64) V Teorema 2.6.1 Senza reintroduzione Formula (2.61) Formula (2.62) Si utilizza il Teorema 2.3 Formula (1.64) Formula (2.65) Per il totale di una caratteristica dicotomica Con reintroduzione Senza reintroduzione I Formula (2.37) Formula (2.63) II Formula (2.38) Formula (2.64) III Si utilizza il Teorema 2.3 Si utilizza il Teorema 2.3 IV Formula (1.64) Formula (1.64) V Teorema 2.6.2 Formula (2.66) 2.4 Valutazione delle procedure di campionamento casuale semplice in termini di efficienza e precisione Nel capitolo precedente sono stati introdotti i concetti di strategia campionaria, di valutazione di efficienza e precisione di strategie. 2.4.1 Il design effect Nel caso in cui il disegno campionario B, al quale è associato lo stimatore g(y), è confrontato con il disegno campionario casuale semplice senza reintroduzione(CCSSR), al quale è associato lo stimatore h(y), il rapporto (1.115) prende il nome di effetto del disegno (dall’inglese design effect): Def f = Π (CCSSRh/Bg) = EQMB [g(y)] . EQMCCSSR [h(y)] (2.67) Il piano di campionamento casuale semplice senza reintroduzione è tanto più preferibile ad un altro piano di campionamento (B) quanto più il rapporto (2.67) è superiore all’unità. 2.4.2 Confronto di efficienza tra il campionamento casuale semplice con e senza reintroduzione Siano ora A il disegno campionario casuale semplice senza reintroduzione e B il disegno campionario casuale semplice con reintroduzione. Si consideri lo stimatore media aritmetica campionaria. Per l’ampiezza campionaria n fissata si ha che Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE VA (m(y)) = N − n s2 (η) 1 = v2 (η) N n n N −n N −1 73 e VB (m(y)) = N − 1 s2 (η) 1 = v 2 (η). N n n La precisione relativa del disegno A rispetto al disegno B secondo la (1.116) è: Π(Ah/Bh) = EQMB (m(y)) VB (m(y)) N −1 = = = Def f > 1 EQMA (m(y)) VA (m(y)) N −n ∀n. Questo significa che il campionamento casuale semplice senza reintroduzione è più preciso (ovvero più efficiente) rispetto a quello con reintroduzione: infatti ha sempre varianza inferiore a meno che n = 1 o N → ∞. Nei capitoli seguenti saranno esaminate strategie di campionamento che permettono stime più efficienti a parità di ampiezza campionaria. Esempio 2.7 Confronto di efficienza tra CCSCR e CCSSR Si consideri ancora la popolazione di N = 4 elementi degli esempi 2.3 e 2.6. Si vuole sapere: a) qual é la varianza dello stimatore media campionaria nel caso di campioni di dimensione n = 3 utilizzando il campionamento casuale semplice senza reintroduzione; b) qual é la varianza dello stimatore media campionaria nel caso di campioni di dimensione n = 3 utilizzando il campionamento casuale semplice con reintroduzione; c) a quanto ammonta l’efficienza relativa del campionamento casuale semplice senza reintroduzione rispetto a quello con reintroduzione. a) Se il campionamento avviene senza reintroduzione, nell’esempio 2.3 si è trovato che: " n # s2 (y) 3 10 5 V (m(y)) = 1 − = 1− = = 0, 83333. N n 4 3 6 b) Se il campionamento avviene con reintroduzione, nell’esempio 2.6 si è trovato che: 1 s2 (y) 1 10 5 = 1− = = 2.5 V (m(y)) = 1 − N n 4 3 2 c) L’efficienza relativa è: Π(Af /Bf ) = N −1 4−1 = = 3. N −n 4−3 cioè il campionamento casuale semplice senza reintroduzione è 3 volte più efficiente rispetto a quello con reintroduzione. Daniela Cocchi: Teoria dei Campioni 74 2.5 2.5. COSTR. DI INTERVALLI DI CONFIDENZA SIMMETRICI Costruzione di intervalli di confidenza simmetrici La costruzione di intervalli di confidenza per la quantità descrittiva di popolazione f(η) su cui si fa inferenza richiede la conoscenza della distribuzione seguita da una variabile casuale ottenuta trasformando opportunamente lo stimatore h(y), ad esempio tramite una standardizzazione: W = h(y) − E [h(y)] . V [h(y)] (2.68) Per semplicità si considera che h(y) sia corretto per f(η) e quindi la variabile standardizzata W diventa h(y) − f (η) . W = V [h(y)] Si indica con να , dove 0 ≤ α ≤ 1, un percentile della distribuzione della (2.68) P (W ≤ να ) = 1 − α, (2.69) e si ipotizza che la distribuzione di W sia simmetrica rispetto a 0, ad esempio normale standardizzata o t di Student. In questo caso i percentili verificano la relazione di simmetria: ν1−α = −να . Si può ora individuare un intervallo per la variabile casuale standardizzata W con probabilità, o fiducia, 1 − α come segue: P |W | ≤ ν α2 = 1 − α. (2.70) da cui si ricava univocamente un intervallo casuale centrato in f(η): + + + h(y) − f(η) + + + P |W | ≤ ν α2 = P + + ≤ ν α2 + V [h(y)] + h(y) − f (η) = P −ν α2 ≤ ≤ ν α2 V [h(y)] " # = P +ν α2 V [h(y)] + h(y) ≥ f (η) ≥ −ν α2 V [h(y)] + h(y) " # = P h(y) − ν α2 V [h(y)] ≤ f (η) ≤ h(y) + ν α2 V [h(y)] = 1 − α. (2.71) P (h(y) − ε ≤ f (η) ≤ h(y) + ε) = 1 − α, dove ε = ν α2 V [h(y)] (2.72) è l’errore della stima. L’ampiezza dell’intervallo di confidenza è quindi 2ε, il doppio dell’errore della stima. Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 75 Se la numerosità campionaria è elevata e la numerosità della popolazione è molto grande, l’ignoranza sulla legge distributiva di W può essere risolta, in caso di impiego di stimatori lineari ed omogenei, ricorrendo all’approssimazione indicata dal teorema centrale del limite. Grazie a questo teorema si può affermare che, nel caso di campioni indipendenti, la distribuzione della somma di una successione di variabili casuali standardizzate converge in distribuzione alla normale standardizzata. La versione tradizionale del teorema ipotizza che la popolazione abbia dimensione infinita, tuttavia negli anni ’60 Hajek ne ha dimostrato una versione valida per il caso di popolazioni finite. Quest’ultima viene impiegata per la costruzione di intervalli di confidenza approssimando la distribuzione di W con la normale standardizzata Z. Quando la numerosità campionaria è molto ridotta, non potendo far riferimento al teorema centrale del limite, non si potrebbe impiegare l’approssimazione normale. Quando non è possibile calcolare le distribuzioni esatte, in pratica si può usare la distribuzione t di Student, trascurando il fatto che il suo impiego sottintende la normalità distributiva del carattere. Per decidere se la numerosità campionaria sia sufficiente per far ricorso all’approssimazione normale, si può fare riferimento ad una semplice regola pratica suggerita da Cochran: n > 25G1 ove m(ηλ − m(η))3 m(η3 ) − 3m(η2 )m(η) + 2m3 (η) = v3 (η) v3 (η) che peraltro presuppone la conoscenza del momento terzo della distribuzione della variabile in popolazione. Negli intervalli di confidenza che verranno costruiti si farà ricorso sia ai percentili della distribuzione normale, sia a quelli della t di Student stimando, se necessario, s2 (η) con s2 (y) nel caso di campionamento casuale semplice senza reintroduzione e v2 (η) con s2 (y) nel caso di campionamento casuale semplice con reintroduzione. G1 = 2.5.1 Intervalli di confidenza per la media di popolazione Per grandi campioni si impiegano i percentili della distribuzione normale, quindi gli estremi dell’intervallo (2.71) sono: s(y) m(y) ± z α2 √ n s(y) m(y) ± z √ n α 2 nel caso con reintroduzione N −n nel caso senza reintroduzione N Per piccoli campioni si impiegano i percentili della distribuzione t di Student, quindi gli estremi dell’intervallo (2.71) sono: s(y) m(y) ± tn−1, α2 √ n m(y) ± t n−1, α 2 s(y) √ n nel caso con reintroduzione N −n nel caso senza reintroduzione N Daniela Cocchi: Teoria dei Campioni 2.5. COSTR. DI INTERVALLI DI CONFIDENZA SIMMETRICI 76 2.5.2 Intervalli di confidenza per il totale di popolazione Per grandi campioni si impiegano i percentili della distribuzione normale, quindi gli estremi dell’intervallo (2.71) sono: s(y) tE (y) ± z α2 N √ n s(y) tE (y) ± z α2 N √ n nel caso con reintroduzione N −n N nel caso senza reintroduzione Per piccoli campioni si impiegano i percentili della distribuzione t di Student, quindi gli estremi dell’intervallo (2.71) sono: s(y) tE (y) ± tn−1, α2 N √ n tE (y) ± t n−1, α 2 2.5.3 s(y) N√ n nel caso con reintroduzione N −n N nel caso senza reintroduzione Intervalli di confidenza per variabili dicotomiche: la proporzione In questo caso, le distribuzioni esatte da impiegare sarebbero quella ipergeometrica nel caso senza reintroduzione e quella binomiale nel caso con reintroduzione. Di solito si usa però l’approssimazione normale con la correzione per la continuità. In questo modo la (2.68) e la (2.71) diventano rispettivamente: Z= P −z α 2 p+ 1 −π ≤ 2n ≤ z α2 V (p) 1 p + 2n −π ∼ N (0, 1) V (p) 1 α = P −z V (p) ≤ π − p − ≤ z 2 V (p) 2n 1 1 = P p − z α2 V (p) + ≤ π ≤ p + z α2 V (p) + 2n 2n = 1−α α 2 quindi gli estremi di tale intervallo sono: p (1 − p) 1 + nel caso con reintroduzione n−1 2n p (1 − p) N − n 1 p ± z α2 + nel caso senza reintroduzione n−1 N 2n p ± z α2 Daniela Cocchi: Teoria dei Campioni (2.74) CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 77 Si noti che la varianza campionaria p(1−p) raggiunge il massimo per p = 0.5. Quindi, nella stima della varianza V (p), anzichè utilizzare la varianza stimata nel campione si può usare il valore di popolazione più sfavorevole, ossia v2 (η) = 0.5(1 − 0.5) = 0.25. Si ottiene in questo modo un intervallo conservativo, con probabilità maggiore o uguale ad 1 − α, di estremi: 0.25 1 α p±z2 + nel caso con reintroduzione n 2n 0.25 N − n 1 + nel caso senza reintroduzione (2.75) p ± z α2 n N − 1 2n 2.6 Determinazione della numerosità campionaria che garantisca errori prestabiliti Come si può osservare dai risultati teorici ricavati precedentemente, dimensioni campionarie elevate compensano valori elevati della varianza strutturale in popolazione. Questo comporta una riduzione della varianza degli stimatori: viene così ridotta l’ampiezza dell’intervallo di confidenza (2.71) e quindi l’errore delle stime (2.72). Tuttavia, nella scelta della dimensione del campione bisogna considerare l’incidenza dei costi di realizzazione dell’indagine, infatti quanto più elevata è la dimensione del campione tanto più le stime sono attendibili, ma l’aumento della dimensione campionaria determina un aumento dei costi connessi all’indagine. Trascurando la considerazione di costi connessi all’indagine, le fasi che conducono alla scelta della dimensione campionaria minima che garantisca un livello di errore prefissato possono essere schematizzate nel modo seguente: 1) specificazione del limite di errore ε richiesto per le stime; 2) costruzione di un’uguaglianza che lega l’ampiezza dell’errore prefissato alla numerosità campionaria incognita in base a tale limite ; 3) tale uguaglianza dipende dalla varianza dello stimatore impiegato. Quindi essa dipende dello scarto quadratico medio in popolazione della variabile. Se quest’ultimo è incognito, deve essere stimato. Si osservi che, essendo basata sulla varianza dello stimatore adottato, che a sua volta dipende dalla varianza del carattere oggetto di studio, la dimensione del campione che garantisce un errore prestabilito varia a seconda della variabile oggetto di interesse. Con una indagine campionaria si investiga di solito su più variabili e quindi la determinazione della dimensione campionaria nei casi reali è una soluzione di compromesso tra diverse alternative. La numerosità campionaria che garantisce un errore prefissato viene calcolata supponendo nota la varianza della popolazione che solitamente è, invece, incognita. Per ovviare a questa mancanza di informazione, in alcuni casi si calcola una stima preliminare della varianza, dividendo il campione in due parti, una delle quali è impiegata per la stima. In altre situazioni, per valutare la varianza, si effettuano studi pilota, oppure si riprendono risultati di studi precedenti, o si utilizzano proprietà matematiche delle distribuzioni (esempio: nella Daniela Cocchi: Teoria dei Campioni 2.6. NUMEROSITÀ CAMPIONARIA 78 distribuzione di Poisson la varianza e la media sono uguali). In mancanza di informazioni sulla varianza degli stimatori sono molto utili i calcoli che si basano sul coefficiente di variazione. Seguono alcune definizioni utili per la determinazione della numerosità campionaria, basate sulla varianza degli stimatori e quindi adeguate per stimatori corretti. Per stimatori distorti si dovranno considerare formule analoghe espresse in termini di EQM. Errore assoluto Nei paragrafi che seguono si considereranno i percentili della distribuzione normale, e quindi la (2.72) diventa: ε = z α2 V [h(y)], (2.76) detto anche errore assoluto. Nella determinazione della dimensione campionaria si deve ricordare che l’intervallo di confidenza è stato definito in modo simmetrico intorno alla stima: l’errore complessivo da non superare è 2ε. L’errore assoluto può anche essere definito come multiplo della quantità da stimare ε = kf(η). (2.77) Con questa scrittura si definisce esplicitamente l’errore in funzione del parametro da stimare. Varianza dello stimatore come funzione dell’errore assoluto La varianza di uno stimatore può essere espressa in funzione del rapporto tra l’errore assoluto e il percentile della distribuzione normale che è stato scelto: V [h(y)] = ε z α2 2 = " z α #−2 2 ε . (2.78) Errore relativo L’errore desiderato può anche essere definito come multiplo della quantità da stimare k = ε/m(η). (2.79) Il fattore k è detto errore relativo e viene visto come una percentuale quando è inferiore a 1. Si tratta dell’errore assoluto depurato dell’ordine di grandezza della variabile. La considerazione dell’errore relativo permette di fissare i valori della numerosità campionaria in base a congetture sul coefficiente di variazione. 2.6.1 Determinazione della numerosità campionaria per la stima della media di popolazione Si consideri l’inferenza sulla media di popolazione impiegando la media campionaria come stimatore. Caso con reintroduzione In termini di errore assoluto Sostituendo la varianza dello stimatore (2.15) nella (2.76) si ha: Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 1 = z 2α2 v2 (η) n z α2 v(η) 2 . n = ε 79 ε2 (2.80) Mettendo in relazione l’errore assoluto e la varianza dello stimatore La dimensione campionaria necessaria per garantire un errore prefissato dipende quindi dalla varianza in popolazione della variabile studiata. La (2.80) esprime direttamente la dimensione campionaria in funzione del valore noto della varianza dello stimatore (2.15): n = v2 (η) ε z α2 −2 = v2 (η) " z α #2 2 ε . (2.81) In termini di errore relativo La dimensione campionaria viene determinata supponendo di conoscere la varianza e di aver fissato l’errore assoluto per un certo valore di fiducia e l’ascissa della normale standard. Se si utilizza l’errore relativo (2.79), la (2.80) può essere scritta in funzione della varianza relativa (quadrato del coefficiente di variazione) del carattere oggetto di studio: n = = 2 z α2 v(η) km(η) " z α #2 v(η) 2 2 k m(η) " z α #2 2 = CV 2 (η) . k (2.82) L’espressione (2.82), se confrontata con la (2.80), semplifica le ipotesi necessarie sulle caratteristiche strutturali della popolazione per determinare la dimensione di un campione. Ad esempio, facendo l’ipotesi di varianza relativa pari a 1, si trova il risultato: " z α #2 2 n= . (2.83) k In questo modo si determina una dimensione campionaria conservativa, oppure in difetto, a seconda che il coefficiente di variazione effettivo sia inferiore o superiore ad uno. Caso senza reintroduzione In termini di errore assoluto Sostituendo la varianza dello stimatore (2.53) nella (2.76) si ha: ε2 N − n s2 (η) N n = z 2α2 (N − n) s2 (η) = z 2α2 nNε2 n N ε2 + z 2α2 s2 (η) = N z 2α2 s2 (η) Daniela Cocchi: Teoria dei Campioni 2.6. NUMEROSITÀ CAMPIONARIA 80 da cui n = = Nz 2α s2 (η) 2 N ε2 + z 2α s2 (η) 2 " z α #2 2 s2 (η) ε " z α #2 2 s (η) 1 + ε2 N (2.84) Mettendo in relazione l’errore assoluto e la varianza dello stimatore Usando invece la (2.78), si ottiene: " z α #−2 N −n 2 2 = s (η) ε Nn " #−2 z α2 + s2 (η) = Ns2 (η) n N ε da cui: n = N N s2 (η) = 2 N zεα + s2 (η) ε zα 2 ε zα −1 2 2 2 −1 + s (η) N s2 (η) 2 1 2 = 2 + s (η) N (2.85) In termini di errore relativo Analogamente al caso con reintroduzione, se si fissa l’errore relativo, la (2.84) diventa: n = = = !2 N zα/2 / (km (η)) v2 (η) N−1 !2 2 (η) 1 + zα/2 / (km (η)) vN−1 2 N zα/2 /k CV 2 (η) N−1 2 2 (η) 1 + zα/2 /k CV N−1 N 1 2 CV 2 (η) + 1 zα/2 /k = k/zα/2 N −1 N 2 N−1 CV 2 (η) +1 Facendo l’ipotesi di varianza relativa eguale a uno, si ricava la 2 k N −1 1 n = 1/ + z α2 N N Daniela Cocchi: Teoria dei Campioni (2.86) (2.87) CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 81 che è una dimensione campionaria conservativa o in difetto a seconda che il coefficiente di variazione sia inferiore o superiore ad uno. Si osservi, inoltre, che se N −→ ∞, allora (2.87)−→(2.83). Quando nella determinazione della numerosità campionaria si utilizza la varianza campionaria non si può usare la distribuzione normale, in particolare se n è piccolo, ma bisogna ricorrere alla distribuzione t di Student. Tuttavia i gradi di libertà della t dipendono dalla numerosità campionaria, che è proprio la quantità che si vuole determinare. 2.6.2 Determinazione della numerosità campionaria per la stima del totale di popolazione Si consideri l’inferenza sul totale di popolazione impiegando lo stimatore di espansione. Caso con reintroduzione In termini di errore assoluto Sostituendo la (2.26) nella (2.76), seguendo uno sviluppo analogo a quello della (2.80), si ha: n= zα 2 ε 2 N v(η) . (2.88) Mettendo in relazione l’errore assoluto e la varianza dello stimatore La (2.88) esprime direttamente la dimensione campionaria anche come funzione di valori prestabiliti della varianza dello stimatore (2.78): n = N 2 v2 (η) ε z α2 −2 = N 2 v2 (η) " z α #2 2 ε . (2.89) In termini di errore relativo Se si considera l’errore relativo (2.79) nella ε = kt(η) = kN m(η) la (2.88), seguendo uno sviluppo analogo a quello della (2.82), diventa: z α2 N v(η) kNm(η) " z α #2 2 = CV 2 (η) k n = 2 che è uguale alla (2.82). Daniela Cocchi: Teoria dei Campioni (2.90) 2.6. NUMEROSITÀ CAMPIONARIA 82 Caso senza reintroduzione In termini di errore assoluto Sostituendo la (2.54), cioé V [tE (y)] = N 2 N −n 2 s (η) Nn nella (2.76), seguendo uno sviluppo analogo a quello della (2.84), si ha: " z α #2 N 2 s2 (η) n= " z α #2 1 + ε2 N s2 (η) 2 ε (2.91) Mettendo in relazione l’errore assoluto e la varianza dello stimatore Usando invece la (2.78), si ottiene: n n ε z α2 2 ε z α2 ε z α2 2 2 2 + N s (η) = N N −n 2 s (η) n = N 2 s2 (η) − N ns2 (η) = N 2 s2 (η) da cui: n = N 2 s2 (η) = 2 ε 2 + N s (η) zα 2 ε zα 2 −1 ε zα 2 2 2 −1 + N s (η) N 2 s2 (η) 1 2 = 2 2 + N s (η) N (2.92) In termini di errore relativo In termini di errore relativo (2.79), seguendo uno sviluppo analogo a quello della (2.86), la (2.91) diventa: Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE n = = = zα 2 N N 2 v2 (η) N−1 z α 2 N 2 N v2 (η) N−1 1 + kNm(η) z α 2 N 2 v2 (η) N−1 km(η) z α 2 1 2 v2 (η) N−1 1 + km(η) 2 kNm(η) k zα 2 2 83 N N−1 CV 2 (η) (2.93) +1 che è uguale alla (2.86). Esempio 2.8 La numerosità campionaria per stimare media o totale in condizioni identiche è la stessa. In una popolazione di N = 1500 elementi, la media del carattere oggetto di studio è m (η) = 100 (e quindi t (η) = 150000). Supponendo quindi che la popolazione sia completamente nota, la varianza nella popolazione è v2 (η) = 5000, mentre s2 (η) = 5003.34 e CV 2 (η) = 0.5. Se, nel caso di campionamento casuale semplice con reintroduzione, si vuole determinare la numerosità campionaria che, con una fiducia del 95%, garantisce un errore della stima intorno alla media pari a 2ε = 30, l’errore assoluto è ε = 15 e zα/2 = 1.96. La numerosità richiesta si ricava applicando la (2.80), dopo aver calcolato zα/2 2 = 0.017, ed è n = 86. Lo stesso valore si ricava applicando la (2.81), ε " #2 ε sulla base di zα/2 = 58.57. La conoscenza della media di popolazione permette di ritrovare lo stesso valore della dimensione campionaria in funzione dell’errore relativo corrispondente: k = ε/m (η) = 0.15. Per un errore relativo prefissato, la dimensione campionaria z 2 pari a 86 viene calcolata con la (2.82), dove α/2 = 170.74. k Preservando lo stesso livello di errore e lo stesso grado di fiducia, nel caso senza reintroduzione la dimensione del campione risulta inferiore, n = 81, sia " #2 k applicando la (2.84) e la (2.85) sia usando la (2.86) dove zα/2 = 0.0058. Sotto le stesse condizioni, la numerosità campionaria per la stima del totale non cambia. Volendo determinare la dimensione campionaria fissando l’errore della stima intorno al totale, il valore dell’errore assoluto corrispondente a quello per la stima della media è 2ε = 45000, cioé N volte l’errore per la media, e l’errore assoluto è ε = 22500. L’errore relativo è k = 0.15 come nel caso precedente. Per il caso con reintroduzione si riottiene n = 86 sia applicando la " #2 z 2 ε (2.88), dove α/2 = 7.58E −09, sia in base alla (2.89) dove = 1.3E08, ε zα/2 sia con la (2.90). I risultati analoghi relativi al caso del campionamento casuale semplice senza reintroduzione si ottengono rispettivamente dalle (2.91), (2.92) e (2.93). Per riassumere: Daniela Cocchi: Teoria dei Campioni 2.6. NUMEROSITÀ CAMPIONARIA 84 parametro 2ε ε k m(η) = 100 30 15 0.15 t(η) = 150.000 45.000 22.500 0.15 2.6.3 Determinazione della numerosità campionaria per la stima della proporzione Si consideri l’inferenza sulla proporzione di popolazione in base alla proporzione campionaria, si tratta quindi di un caso particolare di inferenza sulla media. Caso con reintroduzione In termini di errore assoluto Sostituendo la (1.15): V (p) = π(1 − π) n nella (2.76) si ha: π(1 − π) = z 2α2 n " z α #2 2 n = π(1 − π) ε ε2 (2.94) Ricordando che la varianza di popolazione ha un limite superiore pari a 0.25 (quando π = 0.5), nell’ipotesi più sfavorevole di massima variabilità del carattere si ottiene: " z α #2 2 n= 0.25. ε Mettendo in relazione l’errore assoluto e la varianza dello stimatore La (2.94) esprime direttamente la dimensione campionaria anche come funzione di valori prestabiliti della varianza dello stimatore (1.15): n = π(1 − π) ε z α2 −2 = π(1 − π) " z α #2 2 ε . (2.95) In termini di errore relativo La (2.94) diventa: n= " z α #2 2 k CV 2 (η) = " z α #2 (1 − π) 2 k π (2.96) La (2.96) dipende esplicitamente dalla quantità di popolazione oggetto di inferenza. In questo caso, l’ipotesi di varianza relativa uguale a 1 coincide con l’assunzione conservativa di π = 0.5. Sotto tale ipotesi la numerosità campionaria sarà " z α #2 2 n= (2.97) k Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 85 uguale alla (2.83). Quindi, in presenza di scarsa informazione sulla struttura della popolazione, sia nel caso di caratteri quantitativi, sia nel caso di caratteri dicotomici si perviene egualmente ad una valutazione, seppure in base ad un’ipotesi abbastanza forte, della numerosità campionaria. Caso senza reintroduzione In termini di errore assoluto Sostituendo la (1.15) nella (2.84) si ha: " z α #2 s2 (η) " z α #2 2 2 ε n= 1+ s (η) N 2 ε " z α #2 N N−1 π (1 − π) " z α #2 π(1−π) + ε2 N−1 2 = ε 1 (2.98) Nell’ipotesi più sfavorevole di massima variabilità del carattere si ottiene: " z α #2 N 2 ε N−1 0.25 . n= " z α #2 0.25 1 + ε2 N−1 Mettendo in relazione l’errore assoluto e la Usando invece la (2.78), si ottiene: 2 ε = z α2 2 π (1 − π) ε + n = z α2 N −1 varianza dello stimatore N − n π (1 − π) N −1 n N π (1 − π) N −1 da cui: N π (1 − π) N−1 = 2 π(1−π) ε + N−1 zα n = 2 ε zα −1 2 ε zα 2 + π(1−π) N−1 −1 N π (1 − π) N−1 2 1 2 = N + N−1 π (1 − π) N (2.99) In termini di errore relativo Se si fissa l’errore desiderato ε come multiplo di π, ricordando la (2.86), la (2.98) diventa: n= k zα 2 2 N N−1 CV 2 (η) +1 = k zα 2 2 N (N − 1) (2.100) π 1−π +1 Daniela Cocchi: Teoria dei Campioni 2.6. NUMEROSITÀ CAMPIONARIA 86 Facendo l’ipotesi di coefficiente di variazione o varianza relativa uguale a uno, si ricava la 2 k 1 N −1 n = 1/ + (2.101) z α2 N N che coincide con la (2.87). Come nel caso con reintroduzione appena illustrato, si ritrova la stessa dimensione campionaria sia per caratteri quantitativi che dicotomici. Da ricordare. La dimensione campionaria che garantisce una precisione prestabilita può essere fissata in modo conservativo, senza conoscere il valore della varianza in popolazione, bensì fissando i valori del coefficiente di variazione ( o della varianza relativa). Esempio 2.9 Intervallo di confidenza per una proporzione In un supermercato da un insieme di 4112 targhette dei prezzi si estrae senza reintroduzione un campione di 200 unità e si trovano 44 targhette inesatte. Si chiede di stimare, al livello di confidenza 0.95, la proporzione di targhette inesatte. I dati del problema sono: N = 4112 n = 200 t (y) = 44 α = 0.05 quindi la stima della proporzione è p= 44 = 0.22 200 Stimando la varianza dal campione si ottiene: p (1 − p) 0.22(0.78) = = 0.0294 n−1 199 N −n 4112 − 200 = = 0.9754 N 3042 quindi dalla (2.74) l’intervallo ha per estremi 0.22 ± 1.96 · 0.0294 · 0.9754 + 0.22 ± (0.0562 + 0.0025) = 0.22 ± 0.0587. 1 2 · 200 L’intervallo è quindi (0.1613; 0.2787). Se si decide di valutare la varianza di popolazione nell’ipotesi più sfavorevole si ottiene: 0.5(1 − 0.5) 0.25 = = 0.0354 n 200 Daniela Cocchi: Teoria dei Campioni CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 87 quindi, dalla (2.75), l’intervallo ha per estremi 0.22 ± 1.96 · 0.0354 · 0.9754 + 0.22 ± (0.0677 + 0.0025) = 0.22 ± 0.0702. 1 2 · 200 L’intervallo è più ampio del precedente e pari a (0.1598; 0.1902). Esempio 2.10 Errori assoluti nella determinazione della numerosità campionaria per la stima di una proporzione Si vuole stimare, tramite campionamento casuale semplice con reintroduzione, una proporzione π con un errore assoluto prima pari all’ 1%, e poi al 3%, con livelli di confidenza 1 − α pari prima a 0.99 e poi a 0.95 Applicando la (2.94) con ε = 0.01 e ε = 0.03, le numerosità campionarie e gli errori assoluti corrispondenti, al variare di α e di alcuni valori di π sono le seguenti: α ε π n 0.95 0.03 0.5 1067 0.99 0.03 0.5 1843 0.95 0.01 0.5 9604 0.99 0.01 0.5 16587 0.95 0.03 0.4 1024 0.99 0.03 0.4 1775 0.95 0.01 0.4 9219 0.99 0.01 0.4 15975 Esempio 2.11 Errori relativi nella determinazione della numerosità campionaria per la stima di una proporzione Si desidera conoscere la numerosità campionaria minima che permette di stimare, in caso di campionamento casuale semplice con reintroduzione, una proporzione π con un errore relativo k del 10% e con un livello di confidenza maggiore o uguale a 0.95. P [|p − π| < 0.10π] ≥ 0.95. Dalla (2.96) si può esprimere la numerosità campionaria minima in funzione della proporzione in popolazione e del k=0.1 costante: n= 1.96 0.1 2 (1 − π) . π L’errore relativo è sempre mantenuto costante e pari al 10% secondo la (2.79): ε k= π Al variare di π le numerosità minime e gli errori assoluti corrispondenti sono i seguenti: Daniela Cocchi: Teoria dei Campioni 2.7. APPENDICI 88 π ε n 0.1 0.01 3457 0.2 0.02 1537 0.3 0.03 896 0.4 0.04 576 0.5 0.05 384 0.6 0.06 256 0.7 0.07 165 0.8 0.08 96 0.9 0.09 43 l’errore è espresso in funzione del parametro, ad esempio, se π=0.5, si richiede che l’errore assoluto sia pari a 0.1(0.5)=0.05, se π=0.1 si chiede un errore pari a 0.1(0.1)=0.01, in unità di misura del carattere, in questo caso la percentuale. 2.7 2.7.1 Appendici Appendice 1 Esempio 2.1 Probabilità di estrazione dei campioni non ordinati nel campionamento casuale semplice con reintroduzione (continuazione) Si consideri la popolazione di dimensione N = 4 del capitolo precedente, con campioni di dimensione n = 3. r Il numero di possibili campioni ordinati è D4,3 = 64, ciascuno con probabilità 1 r , mentre il numero di possibili campioni non ordinati è C4,3 = 20. 64 Ordinando le triplette (λ, λ , λ ) a partire dai primi due elementi estratti, rappresentati rispettivamente nelle righe e nelle colonne, si ottiene il prospetto: λ\λ 1 2 3 4 1 {1, 1, 1} {1, 1, 2} {1, 1, 3} {1, 1, 4} {2, 1, 2} {2, 1, 3} {2, 1, 4} {3, 1, 3} {3, 1, 4} {4, 1, 4} 2 3 4 {2, 2, 2} {2, 2, 3} {2, 2, 4} {3, 2, 3} {3, 2, 4} {4, 2, 4} {3, 3, 3} {3, 3, 4} {4, 3, 4} {4, 4, 4} Partendo dalle probabilità dei campioni ordinati, e sommandole opportunamente, si ottiene: # " " # " " # # P λ, λ , λ = P λ, λ , λ + P λ, λ , λ + P λ , λ, λ + P λ , λ , λ " # " # 6 + P λ , λ, λ + P λ , λ , λ = se λ = λ = λ 64 " # " # " # 3 P λ, λ, λ = P λ, λ, λ + P λ, λ , λ + P λ , λ, λ = se λ = λ 64 1 P {λ, λ, λ} = se λ = λ = λ . 64 Infine, si ottiene la (1.67) come: 6 3 1 P λ, λ , λ 4 + P λ, λ, λ 12 + P {λ, λ, λ} 4 = 4 + 12 + 4 = 1. 64 64 64 Daniela Cocchi: Teoria dei Campioni λ=λ CAPITOLO 2. CAMPIONAMENTO CASUALE SEMPLICE 2.7.2 89 Appendice 2 Dimostrazione del Teorema 2.7 Le probabilità di inclusione di primo ordine, nel campionamento casuale semplice senza reintroduzione, sono: πλ = n N ∀λ Dimostrazione Si consideri Sλ , il sottospazio campionario (1.68) che include l’unità di etichetta λ. La sua dimensione è: Dim (Sλ ) = 1[s∈Sλ ] = CN−1,n−1 s∈Sn = N −1 n−1 = (N − 1)! . (n − 1)! (N − n)! (2.102) Infatti, per calcolare il numero di campioni non ordinati di dimensione n che contengono l’elemento λ, lo si elimina dalla popolazione, calcolando il numero di campioni di dimensione n − 1 ai quali viene aggiunto con certezza l’elemento λ. Analogamente, per trovare il numero di campioni non ordinati di dimensione n che contengono gli elementi λ e λ , si eliminano dalla popolazione questi due elementi, e si calcola il numero di campioni di dimensione n − 2, ai quali si aggiungono con certezza i due elementi: Dim (Sλ ∩ Sλ ) = = 1[s∈Sλ ] 1[s∈Sλ ] = CN−2,n−2 s∈Sn N −2 n−2 = (N − 2)! . (n − 2)! (N − n)! (2.103) Ricordando la definizione (1.78), la (2.41) e la (2.102), si ricavano le probabilità di inclusione del primo ordine: N −1 n−1 1 = πλ = N N s∈Sλ n n n(n − 1)! (N − n)! n (N − 1)! = = . (N − n)! (n − 1)! N (N − 1)! N 2.7.3 Appendice 3 Dimostrazione del Teorema 2.8 Daniela Cocchi: Teoria dei Campioni (2.104) 2.7. APPENDICI 90 La probabilità di inclusione di secondo ordine nel campionamento casuale semplice senza reintroduzione è data da: πλλ = n (n − 1) N (N − 1) ∀λ, λ | λ = λ Dimostrazione Le probabilità di inclusione del secondo ordine possono essere ricavate dalla definizione (1.79), dalla (2.41) e dalla (2.103): N −2 n−2 1 = πλλ = N N s∈[Sλ ∩S λ ] n n (N − 2)! n(n − 1)(n − 2)! (N − n)! (N − n)! (n − 2)! N (N − 1)(N − 2)! n (n − 1) = . N (N − 1) = Daniela Cocchi: Teoria dei Campioni (2.105) Capitolo 3 Campionamento a probabilità variabile Ultima revisione: 16 febbraio 2011 Il campionamento casuale semplice assume campioni equiprobabili e probabilità di inclusione costanti. Nel campionamento a probabilità variabile questa ipotesi è abbandonata. Nella presentazione del campionamento a probabilità variabile della Sezione 3.1 non si discute il modo con cui si assegnano le diverse probabilità ai campioni o alle unità. Se il campionamento a probabilità variabile è eseguito con reintroduzione, per la (1.71) le probabilità delle singole unità nelle varie estrazioni rimangono diverse e costanti. Nel caso senza reintroduzione tali probabilità sono condizionate dalla probabilità delle unità che sono state estratte precedentemente, come è stato descritto nella (1.72). Nella Sezione 3.2 si illustra il campionamento a probabilità variabile con reintroduzione in cui le probabilità di estrazione dipendono da una variabile di dimensione. La Sezione 3.3 introduce invece il campionamento a probabilità variabile senza reintroduzione. 3.1 Campionamento a probabilità variabile con reintroduzione di dimensione n Per questo tipo di campionamento è fondamentale la probabilità di estrazione (1.71) del generico elemento della popolazione, che rimane costante per tutto il campionamento e, come si è visto nella Sezione 1.4.1, caratterizza i primi due momenti del vettore a con la (1.87), la (1.88) e la (1.89), che sono qui riportate: E (aλ ) = npλ V (aλ ) = npλ (1 − pλ ) C (aλ , aλ ) = −npλ pλ 91 ∀λ = λ . 3.1. P.V. CON REINTRODUZIONE 92 3.1.1 Inferenza sulla media di popolazione Lo stimatore di Hansen-Hurwitz per la media Lo stimatore che viene proposto per la media di popolazione (1.4) è un’ulteriore versione dello stimatore lineare omogeneo (1.106). Il sistema di pesi assegnato agli elementi della popolazione è: wλ = 1 Nnpλ 1 ≤ λ ≤ N. (3.1) Utilizzando il sistema di pesi (3.1) nell’espressione (1.106) dello stimatore lineare omogeneo si ottiene lo stimatore di Hansen-Hurwitz per la media di popolazione m (η): f(y) = n i=1 n 1 1 yi yi = = mHH (y) . N npli n i=1 N pli (3.2) dove wi = 1/(N npli ). Si osservi come tale stimatore abbia al denominatore probabilità che non sommano all’unità. Si noti inoltre che nel caso del campionamento casuale semplice, poiché pλ = 1/N , si ricava il caso particolare: mHH (y) = m (y) . Correttezza dello stimatore di Hansen-Hurwitz per la media Teorema 3.1 Lo stimatore di Hansen-Hurwitz per la media è uno stimatore corretto per la media di popolazione. Dimostrazione Sostituendo la (3.1) nella (1.110), si ottiene: E [mHH (y)] = E N λ=1 aλ wλ ηλ = N λ=1 N 1 = ηλ = m (η) . N E [aλ ] wλ ηλ = N λ=1 npλ 1 ηλ Nnpλ λ=1 Varianza dello stimatore di Hansen-Hurwitz per la media Teorema 3.2 La varianza dello stimatore di Hansen-Hurwitz per la media è: N 1 ηλ2 2 V [mHH (y)] = − m (η) . (3.3) n N 2 pλ λ=1 Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 93 Dimostrazione Sostituendo il sistema di pesi (3.1) nell’espressione della varianza del generico stimatore lineare ed omogeneo (1.113) in cui, al posto di V (aλ ) e C (aλ , aλ ) , vengono introdotte le corrispondenti espressioni (1.88) e (1.89), si ottiene: V [mHH (y)] = N V (aλ ) wλ2 ηλ2 + 2 = λ=1 = N λ=1 C (aλ , aλ ) wλ wλ ηλ ηλ λ=1 λ <λ λ=1 N N npλ (1 − pλ ) 1 N npλ 1 1 − pλ 2 η −2 nN 2 pλ λ 2 N 2 ηλ − 2 N λ=1 λ <λ N N npλ pλ λ=1 λ <λ 1 1 ηλ ηλ N npλ N npλ 1 ηλ ηλ nN 2 N N 1 1 1 − pλ 2 2 = η − ηλ ηλ n N2 pλ λ N 2 λ=1 λ=1 λ <λ N N N N 1 2 2 1 1 ηλ2 − η − ηλ ηλ . = n N 2 λ=1 pλ N 2 λ=1 λ N 2 λ=1 λ <λ N I due ultimi termini sono il quadrato di una somma, si ottiene quindi: N 2 N 1 1 ηλ2 1 V [mHH (y)] = − ηλ n N 2 λ=1 pλ N 2 λ=1 N 1 ηλ2 2 = − m (η) . n N 2 pλ λ=1 Corollario 3.1 La varianza dello stimatore di Hansen-Hurwitz può essere espressa anche come: 2 N 1 ηλ V [mHH (y)] = pλ − m (η) . n Npλ λ=1 Dimostrazione Sommando e sottraendo m (η)2 , si ottiene: Daniela Cocchi: Teoria dei Campioni (3.4) 3.1. P.V. CON REINTRODUZIONE 94 N 1 ηλ2 2 2 2 − m (η) + m (η) − m (η) n N 2 pλ λ=1 N 1 ηλ2 2 2 + m (η) − 2m (η) n λ=1 N 2 pλ N N N 1 ηλ2 m (η) pλ 2 = pλ 2 2 + m (η) pλ − 2 ηλ n N pλ N pλ λ=1 λ=1 λ=1 N 2 ηλ 1 m (η) ηλ 2 pλ + m (η) − 2 = n N 2 p2λ N pλ λ=1 2 N 1 ηλ pλ − m (η) . = n N pλ V [mHH (y)] = λ=1 E’ consuetudine esprimere la varianza dello stimatore di Hansen-Hurwitz per la media come: 1 2 v (η) , n p (3.5) 2 ηλ − m (η) . N pλ (3.6) V [mHH (y)] = dove vp2 (η) = N λ=1 pλ Questa variante risulta molto utile per il confronto con la varianza dello stimatore media campionaria nel caso di campionamento casuale semplice. Corollario 3.0 Quando le pλ sono tutte uguali tra loro vp2 (η) = v2 (η) , allora V [mHH (y)] = V [m (y)] = 1 2 v (η) n Uno stimatore distorto per il termine di varianza dello stimatore di Hansen-Hurwitz per la media Si consideri l’equivalente campionario di vp2 (η): vp2 (y) = 2 n 1 yi − mHH (y) n i=1 N pli (3.7) che contiene un’importante differenza formale rispetto alla (3.6). Essa consiste nella sostituzione del peso variabile pλ attribuito a ciascun addendo con il peso fisso 1/n. Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 95 Teorema 3.3 La (3.7) non è uno stimatore corretto della (3.6). Dimostrazione Lo sviluppo del quadrato della (3.7) dà luogo a: 2 n n 1 yi n 1 yi + mHH (y)2 − 2mHH (y) n i=1 N pli n n i=1 Npli n 2 1 yi = + mHH (y)2 − 2mHH (y)2 n i=1 N pli 2 n yi 1 − mHH (y)2 . = n i=1 N pli vp2 (y) = (3.8) La sommatoria che compare nella (3.8) può essere espressa in funzione dei valori di popolazione e dare luogo alla: vp2 (y) = 2 N aλ ηλ − mHH (y)2 , n N pλ λ=1 funzione delle osservazioni che ha come speranza: N ! E (aλ ) ηλ2 2 E vp2 (y) = − E m (y) HH n N 2 p2λ λ=1 N npλ ηλ2 2 = − E m (y) HH 2 n N 2 pλ λ=1 = N ηλ2 − E mHH (y)2 . 2 N pλ (3.9) λ=1 Ricordando che E mHH (y)2 = E [mHH (y)]2 + V [mHH (y)] , si può riscrivere la (3.9) come: E ! vp2 (y) N 1 2 ηλ2 2 = − m (η) + vp (η) . N 2 pλ n λ=1 Poiché la differenza tra i primi due termini al secondo membro non è altro che vp2 (η) espressa secondo la (3.3), si ottiene: ! 1 n−1 2 E vp2 (y) = vp2 (η) − vp2 (η) = v (η) , n n p quindi vp2 (y) non è stimatore corretto di vp2 (η). Daniela Cocchi: Teoria dei Campioni (3.10) 3.1. P.V. CON REINTRODUZIONE 96 Uno stimatore corretto per il termine di varianza in popolazione dello stimatore di Hansen-Hurwitz Nel contesto del campionamento con reintroduzione i risultati sono analoghi a quelli visti per il campionamento casuale semplice. Teorema 3.4 Lo stimatore corretto per vp2 (η) è s2p (y) = n 2 v (y) . n−1 p (3.11) Dimostrazione Utilizzando il risultato (3.10) si ottiene: ! E s2p (y) = ! n E vp2 (y) = vp2 (η) . n−1 (3.12) Uno stimatore per la varianza dello stimatore di Hansen-Hurwitz per la media Per stimare la varianza (3.5) si propone pertanto la quantità: V̂ [mHH (y)] = vp2 (y) 1 2 n vp2 (y) sp (y) = = . n n−1 n n−1 (3.13) Correttezza dello stimatore per la varianza dello stimatore di HansenHurwitz per la media Teorema 3.5 Lo stimatore (3.13) è corretto per la quantità V [mHH (y)]. Dimostrazione Dalle (3.5) e (3.12), la speranza di tale stimatore sarà: 1 2 1 E V̂ [mHH (y)] = E sp (y) = vp2 (η) = V [mHH (y)] . n n 3.1.2 Inferenza sul totale di popolazione Lo stimatore di Hansen-Hurwitz per il totale In maniera del tutto analoga al caso della media, lo stimatore che viene proposto per il totale di popolazione (1.3) è la versione dello stimatore lineare omogeneo (1.106) con un sistema di pesi wλ = 1 npλ 1≤λ≤N che assicuri la correttezza per la quantità da stimare t (η). Daniela Cocchi: Teoria dei Campioni (3.14) CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 97 Lo stimatore di Hansen-Hurwitz per il totale di popolazione t (η) è quindi: n n 1 1 yi tHH (y) = yi = . npli n i=1 pli i=1 dove wi = (3.15) 1 . npli Teorema 3.6 Lo stimatore (3.15) è corretto per la quantità t(η). Dimostrazione Sostituendo la (3.14) nella (1.110), si ottiene: N N N 1 E [tHH (y)] = E aλ wλ ηλ = E [aλ ] wλ ηλ = npλ ηλ npλ λ=1 = N λ=1 λ=1 ηλ = t (η) . λ=1 Lo stimatore (3.15) si può derivare anche espandendo lo stimatore di HansenHurwitz della media (3.2) per la dimensione della popolazione N : tHH (y) = N mHH (y) . Nel caso del campionamento casuale semplice, poiché pλ = 1/N , si ricava il caso particolare: tHH (y) = tE (y) . Varianza dello stimatore di Hansen-Hurwitz per il totale Teorema 3.7 V [tHH (y)] = 2 N 1 ηλ pλ − t (η) . n pλ (3.16) λ=1 Dimostrazione Poiché tHH (y) è una semplice trasformazione lineare di mHH (y), i risultati teorici riguardanti lo stimatore del totale sono gli stessi dello stimatore della media a meno di una costante: 2 N ηλ N2 2 21 V [tHH (y)] = N V [mHH (y)] = v (η) = N pλ − m (η) n p n Npλ λ=1 2 N 1 ηλ = pλ − t (η) . n pλ 2 λ=1 Daniela Cocchi: Teoria dei Campioni 3.1. P.V. CON REINTRODUZIONE 98 Si noti che la (3.6) può essere scritta anche come: vp2 (η) = 2 N 1 ηλ p − t (η) . λ N2 pλ (3.17) λ=1 Uno stimatore corretto per la varianza dello stimatore di HansenHurwitz per il totale Uno stimatore corretto della (3.16) può essere costruito a partire dallo stimatore distorto: vp2 (y) = 2 2 n n 1 1 yi 1 1 yi − t (y) = − N m (y) , (3.18) HH HH n N 2 i=1 pli n N 2 i=1 pli il cui valore è identico a quello della (3.7), ottenendo infine: N2 2 V, [tHH (y)] = s (y) n p (3.19) che è funzione della (3.11). Poiché la varianza (3.16) dello stimatore del totale può essere espressa come funzione di vp2 (η), si può ragionare partendo dall’espressione dello stimatore per la media e trasformare direttamente il risultato (3.13), che riguarda la stima della varianza dello stimatore della media, ricavando la (3.19). 3.1.3 Confronto di efficienza tra campionamento casuale semplice e campionamento a probabilità variabile Teorema 3.8 La strategia costituita da campionamento a probabilità variabile con reintroduzione e stimatore per la media di Hansen-Hurwitz è preferibile a quella costituita da campionamento casuale semplice (con reintroduzione) e media campionaria se si verifica la condizione vp2 (η) < v2 (η) . (3.20) oppure equivalentemente se N N ηλ2 ηλ2 < . N 2 pλ N λ=1 (3.21) λ=1 Dimostrazione Abbiamo che Π (CP V CR, mHH (y) /CCSCR, m (y)) = V (m(y)) V (mHH (y)) in quanto entrambi gli stimatori sono corretti. Raccogliendo a fattor comume 1/n nella (3.5) e nella (2.15) abbiamo che lo stimatore di Hansen-Hurwitz è più preciso se si verifica la condizione vp2 (η) < v2 (η). Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 99 Inoltre scrivendo la varianza dello stimatore di Hansen-Hurwitz secondo la (3.3) e la varianza (2.15) come: N 2 ηλ v 2 (η) 1 λ=1 V [m (y)] = = − m (η)2 . (3.22) n n N otteniamo che V (mHH (y)) < V (m(y)) se e solo se N N ηλ2 ηλ2 < N 2 pλ N λ=1 λ=1 Si noti che il risultato del Teorema non dipende dalla dimensione campionaria, ma dalla relazione delle probabilità di estrazione con i valori della variabile oggetto di studio. Teorema 3.9 Se nel campionamento a probabilità variabile con reintroduzione si definiscono le probabilità di estrazione in modo che siano proporzionali al valore assoluto del carattere oggetto di interesse: pλ = |ηλ | N m (|η|) ∀λ. (3.23) allora si minimizza la varianza degli stimatori di Hansen-Hurwitz per media e totale di popolazione. La dimostrazione è nell’Appendice 1. Il Teorema afferma che le probabilità di estrazione ottime sono direttamente proporzionali al carattere oggetto di indagine in popolazione. Tanto maggiore è l’ammontare del carattere in un’unità, tanto più grande dovrebbe essere la probabilità dell’unità di essere campionata per minimizzare la varianza dello stimatore di Hansen-Hurwitz. Corollario 3.2 Se ηλ ≥ 0 e le probabilità di estrazione sono definite in base alla (3.23) abbiamo che mHH (y) = m (η) e tHH (y) = t (η) ∀s ∈ S ovvero, equivalentemente V (mHH (y)) = V (tHH (y)) = 0 Dimostrazione Dalle formule (3.1) e (3.2) abbiamo che n mHH (y) = 1 yi n i=1 Npli Daniela Cocchi: Teoria dei Campioni 100 3.1. P.V. CON REINTRODUZIONE Se ηλ ≥ 0 la (3.23) può essere riscritta come ηλ pλ = N m (η) Sostistuendo queste probabilità di estrazione nell’espressione dello stimatore otteniamo n n 1 Nm (η) yi m (η) yi mHH (y) = = = m (η) n i=1 N ηli n i=1 yi Poiché tHH (y) = N mHH (y) , segue che per qualunque campione tHH (y) = N m (η) = t (η) Sostituendo le probabilità di estrazione ottimali nella formula della varianza (3.3) si ottiene N N 1 ηλ2 N m (η) 1 ηλ m (η) 2 2 V [mHH (y)] = − m (η) = − m (η) n N 2 ηλ n N λ=1 λ=1 N 1 m (η) 1 m (η) 2 2 = ηλ − m (η) = N m (η) − m (η) n N λ=1 n N 1 = m (η)2 − m (η)2 = 0 n Poichè V (tHH (y)) = N 2 V (mHH (y)) ne segue che anche V (tHH (y)) sarà in questo caso uguale a 0. I risultati ottenuti non hanno valenza pratica, perché la variabile oggetto di interesse non è nota al momento del campionamento, ma sono interessanti dal punto di vista concettuale. Per caratteri positivi, infatti, la varianza dello stimatore della media può scendere fino a 0, qualora riuscissimo ad assegnare probabilità di estrazione esattamente proporzionali a ηλ . Tuttavia possiamo notare che, se si riuscisse ad approssimare questa assegnazione nella pratica, si disporrebbe di stimatori estremamente efficienti. Un metodo per assegnare probabilità di estrazione approssimativamente proporzionali a ηλ basato sulla definizione delle pλ come proporzionali ad una variabile ausialiaria ζ, nota in popolazione è descritto dettagliatamente nella Sezione 3.2. Esempio 3.1 Stimatore di Hansen-Hurwitz per il totale della popolazione per diverse numerosità campionarie Data la popolazione di N = 4 elementi già studiata nei capitoli precedenti, si estraggono con reintroduzione tutti i possibili campioni non ordinati, con probabilità variabile corrispondente ai pesi già introdotti nel Capitolo 1 e riportati nella terza colonna del prospetto seguente, che contiene anche tutte le quantità utili per i calcoli: λ ηλ pλ ηλ2 ηλ /pλ [ηλ /pλ − t (η)]2 pλ [ηλ /pλ − t (η)]2 ηλ2 /pλ 1 3 0.1 9 30 36 3.6 90 2 10 0.4 100 25 1 0.4 250 3 4 0.2 16 20 16 3.2 80 4 7 0.3 49 23.3̄ 0.444 0.13 163, 3̄ Totale 24 1 174 98.3̄ 53.444 7.333 583, 3̄3̄ Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 101 Le principali quantità descrittive della popolazione sono: t (η) = 24 m (η) = 6 2 v (η) = 43.5 − 36 = 7.5 e la componente (3.17) della varianza dello stimatore di Hansen-Hurwitz è vp2 (η) = 1 pλ [ηλ /pλ − t (η)]2 = 7.333/16 = 0.458. N2 λ Le probabilità di estrazione sono state determinate in modo da soddisfare la (3.21): N N ηλ2 ηλ2 < , N 2 pλ N λ=1 infatti 583, 3̄3̄ 174 < 16 4 λ=1 cioé 36, 46 < 43, 5. Campioni di dimensione n = 1 L’universo dei campioni origina quattro possibili stime del totale di popolazione secondo la n 1 y1 tHH (y) = yi = np p li l1 i=1 che coincidono con i valori della colonna ηλ /pλ . La proprietà di correttezza dello stimatore del totale viene verificata utilizzando l’universo dei campioni, calcolando la speranza dello stimatore dalle stime campionarie pesate con le probabilità dei campioni, che in questo caso coincidono con le pλ : E [tHH (y)] = tHH (y) p (s) s∈S = 30 · 0.1 + 25 · 0.4 + 20 · 0.2 + 23.3̄ · 0.3 = 24 = t (η) Analogamente si ricava la varianza dello stimatore del totale V [tHH (y)] = s∈S [tHH (y) − t(η)]2 p (s) 2 = (30 − 24)2 0.1 + (25 − 24)2 0.4 + (20 − 24)2 0.2 + (23.3̄ − 24) 0.3 = 7.333. Lo stesso valore poteva essere ricavato utilizzando la (3.16): Daniela Cocchi: Teoria dei Campioni 3.1. P.V. CON REINTRODUZIONE 102 V [tHH (y)] = 2 1 ηλ pλ − t(η) = n pλ λ = 3.6 + 0.4 + 3.2 + 0.13 = 7.333 Campioni di dimensione n = 2 L’universo dei campioni dà luogo, come nell’Esempio 1.3, a C4+2−1,2 = C5,2 = 10 campioni non ordinati. I 10 valori distinti dello stimatore sono mostrati nel prospetto seguente, dove le probabilità dei campioni, già calcolate nell’Esempio 1.3, sono riportate nella quinta colonna: s = λ = li , λ = li ηli / (npli ) ηli / npli tHH (y) p(s) {1, 1} 15 15 30 0.01 {1, 2} 15 12.5 27.5 0.08 {1, 3} 15 10 25 0.04 {1, 4} 15 11.67 26.67 0.06 {2, 2} 12.5 12.5 25 0.16 {2, 3} 12.5 10 22.5 0.16 {2, 4} 12.5 11.67 24.17 0.24 {3, 3} 10 10 20 0.04 {3, 4} 10 11.67 21.67 0.12 {4, 4} 11.67 11.67 23.34 0.09 La proprietà di correttezza dello stimatore del totale può essere verificata utilizzando l’universo dei campioni, calcolando la speranza dello stimatore a partire dalle stime ponderate con la probabilità dei campioni: E [tHH (y)] = tHH (y) p (s) s∈S = 30 · 0.01 + 27.5 · 0.08 + ... + 21.67 · 0.12 + 23.34 · 0.09 = 24 = t (η) . Sempre dall’universo dei campioni, la varianza dello stimatore del totale è: V [tHH (y)] = s∈S [tHH (y) − t(η)]2 p (s) = (30 − 24)2 0.01 + (27.5 − 24)2 0.08 + ... + (21.67 − 24)2 0.12 + (23.34 − 24)2 0.09 = 3.6. Lo stesso valore può essere ricavato dalla (3.16): V [tHH (y)] = N 2 vp2 (η) 7.3 = = 3.6. n 2 Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 3.2 103 Campionamento a probabilità variabile con reintroduzione e probabilità di estrazione legata ad una variabile ausiliaria di dimensione Come è stato accennato in precedenza, spesso le probabilità di estrazione delle unità dipendono dalla conoscenza di variabili ausiliarie. Se si considera una variabile ausiliaria ζ, nota per ogni elemento della popolazione, che si suppone legata alla variabile indagata η secondo l’idea del Teorema 3.9, le probabilità di estrazione approssimano la (3.49) nel modo seguente: pλ = ζλ ζλ = t (ζ) N m (ζ) λ = 1,...,N . (3.24) Le variabili ausiliarie che danno un’idea dell’importanza relativa, o dimensione, dei diversi elementi nell’ambito della popolazione sono particolarmente adatte per determinare le probabilità (3.24). Tali valori di probabilità soddisfano la relazione (1.69): N λ=1 N pλ = t(ζ) 1 ζλ = = 1. N m(ζ) N m(ζ) λ=1 Per estrarre un elemento generico del campione si sceglierà, quindi, un numero compreso tra 1 e t (ζ) e non più tra 1 e N, in quanto si campiona tramite la variabile ausiliaria. Agli elementi della popolazione selezionati nel campione sono associati i pesi campionari: pli = ζli zi = . t (ζ) t (ζ) (3.25) Alcuni teoremi che mostrano le modifiche dello stimatore di Hansen-Hurwitz in funzione della variabile oggetto di studio e della variabile ausiliaria, quando questa fa variare le probabilità di estrazione, sono riportati nell’Appendice 2. Esempio 3.2 Le probabilità di estrazione nel campionamento a probabilità variabile Le probabilità di estrazione variabili proposte negli esempi del Capitolo 1 ed associate ai valori della variabile oggetto d’interesse nell’Esempio 3.1 risultano assegnate in modo da rispettare il profilo dell’incidenza del valore individuale della variabile η sul totale. Per rendere più veritiero l’esempio, supponiamo di disporre della variabile ausiliaria ζ = {1, 4, 2, 3}. Se consideriamo le probabilità di estrazione delle unità proporzionali al valore della variabile ausiliaria ζ secondo la relazione (3.24), otteniamo i pesi più volte proposti nei capitoli precedenti: p = {0.1, 0.4, 0.2, 0.3} . Questi pesi sono abbastanza simili ai pesi relativi della variabile di interesse η : Daniela Cocchi: Teoria dei Campioni 3.2. P.V. CON V.A. DIMENSIONALE 104 λ ηλ 1 3 2 10 3 4 4 7 ηλ t(η) 0.125 0.416 0.167 0.292 e si mostrano molto adeguati per la proposta della strategia costituita dal campionamento a probabilità variabile, in questo caso con reintroduzione, e dallo stimatore di Hansen-Hurwitz. In questo caso si ottiene infatti uno stimatore con varianza teorica molto inferiore a quella dello stimatore di espansione nel caso di campionamento casuale semplice dell’Esempio 2.3, che risultava pari a: V [tE (y)] = N 2 3.2.1 v2 (η) 7.5 = 16 = 16 (3.75) = 60. n 2 Confronto di efficienza nel caso di campionamento casuale semplice e campionamento a probabilità variabile con reintroduzione Teorema 3.12 Il campionamento a probabilità variabile è preferibile a quello casuale semplice (caso con reintroduzione) se si verifica la condizione: 2 1 2 η 1 v (η) − v ,ζ < v2 (η) , (3.26) n ζ n ovvero quando 2 η v , ζ > 0. ζ La dimostrazione" è svolta # nell’Appendice 3. η2 La condizione v ζ , ζ > 0 non è tuttavia facile da verificare in pratica e non viene quindi solitamente usata per scegliere tra il campionamento a probabilità variabile con reintroduzione e il campionamento casuale semplice con reintroduzione. Corollario 3.3 Il campionamento a probabilità variabile è preferibile a quello casuale semplice (caso con reintroduzione) se si verifica la condizione: 2 2 η m η >m m (ζ) . (3.27) ζ Dimostrazione Poiché v η2 ,ζ ζ =m η2 ζ ζ −m η2 ζ m (ζ) , la condizione (3.26) può anche essere scritta secondo la (3.27). Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 3.3 105 Campionamento a probabilità variabile senza reintroduzione di dimensione n In questo tipo di campionamento sono fondamentali le probabilità di inclusione di primo e secondo ordine (1.78) e (1.79) che, come si è visto nel Capitolo 1, caratterizzano la distribuzione del vettore a con la (1.92), la (1.93) e la (1.94) nel modo seguente: E (aλ ) = πλ V (aλ ) = πλ (1 − πλ ) C (aλ , aλ ) = πλλ − πλ πλ . 3.3.1 Probabilità di inclusione In letteratura sono state proposte decine di piani di campionamento a probabilità variabile senza reintroduzione. Il metodo di Yates e Grundy Si tratta di uno dei metodi per il calcolo delle probabilità di inclusione di primo e di secondo ordine che, a partire da pesi iniziali diversi, ossia dalle probabilità iniziali di estrazione degli elementi della popolazione, tengono conto delle modifiche delle condizioni di estrazione durante la realizzazione del campione. Per le numerosità campionarie n = 2 e n = 3, applicando questo metodo per il calcolo delle probabilità di inclusione si ritrovano i risultati già ricavati nell’Esempio 3.1, seppur organizzati in modo diverso. Infatti, se n = 2, le probabilità di inclusione di primo ordine sono rispettivamente: pλ pλ πλ = pλ + (3.28) 1 − pλ λ =λ La probabilità di inclusione del primo ordine è infatti costituita dalla somma delle probabilità di due eventi. Alla prima estrazione, la probabilità del λ-mo elemento è pλ . Alla seconda estrazione tale probabilità deve essere divisa per 1 − pλ , dove pλ è la probabilità che qualunque elemento diverso dal λ-mo venga estratto come primo elemento. Perciò, la probabilità congiunta che il λ-mo elemento venga estratto come secondo quando il λ -mo è stato estratto alla prima estrazione è il prodotto di una probabilità subordinata, pλ / (1 − pλ ) per una marginale, sommata su tutti i λ e λ . A loro volta, le probabilità di inclusione di secondo ordine sono: 1 pλ pλ pλ pλ 1 + = + . (3.29) πλλ = pλ pλ 1 − pλ 1 − pλ 1 − pλ 1 − pλ Se n = 3, le probabilità d’inclusione di primo e secondo ordine sono: pλ pλ pλ πλ = pλ + pλ + pλ∗ (3.30) ∗ − pλ∗ 1 − p 1 − p 1 − p λ λ λ ∗ λ =λ λ =λ λ =(λ,λ ) Daniela Cocchi: Teoria dei Campioni 3.3. P.V. SENZA REINTRODUZIONE 106 πλλ 1 1+ 1 − pλ p 1 + ∗ 1 − p − p 1 − pλ λ λ λ∗ =(λ ,λ) pλ∗ + 1 + 1 − pλ − pλ∗ λ∗ =(λ ,λ) ∗ ∗ ∗ pλ pλ pλ + (3.31) ∗ ∗ 1 − p 1 − p − p 1 − p λ λ λ λ − pλ∗ ∗ = pλ pλ λ∗ λ =(λ ,λ) Esempio 3.3 Probabilità di inclusione nel campionamento a probabilità variabile senza reintroduzione Nella popolazione di N = 4 elementi più volte studiata, si estraggono senza reintroduzione campioni di n = 2 elementi. I pesi iniziali degli elementi della popolazione sono calcolati, sulla base di una variabile ausiliaria nota, secondo la relazione (3.24), dando luogo a: p = {0.1, 0.4, 0.2, 0.3} . Le probabilità d’inclusione che tengono conto di tali pesi sono già state calcolate nel corso dell’Esempio 1.3 applicando le definizioni di probabilità d’inclusione di primo e secondo ordine (1.78) e (1.79), ma possono essere ricavate applicando la (3.28): p1 pλ 1 − pλ 1 =λ p1 p2 p1 p3 p1 p4 = p1 + + + 1 − p2 1 − p3 1 − p4 (0.1)(0.4) (0.1)(0.2) (0.1)(0.3) + + = 0.1 + 0.6 0.8 0.7 = 0.1 + 0.066 + 0.025 + 0.043 = 0.234 π1 = p1 + π2 = p2 + p2 pλ 1 − pλ 2 =λ p2 p1 p2 p3 p2 p4 = p2 + + + 1 − p1 1 − p3 1 − p4 (0.4)(0.1) (0.4)(0.2) (0.4)(0.3) = 0.4 + + + 0.9 0.8 0.7 = 0.4 + 0.044 + 0.1 + 0.171 = 0.715 Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE π3 π4 107 p3 pλ 1 − pλ 3 =λ p3 p1 p3 p2 p3 p4 = p3 + + + 1 − p1 1 − p2 1 − p4 (0.2)(0.1) (0.2)(0.4) (0.2)(0.3) + + = 0.2 + 0.9 0.6 0.7 = 0.2 + 0.22 + 0.133 + 0.086 = 0.441 = p3 + p4 pλ 1 − pλ 4 =λ p4 p2 p4 p3 p4 p1 + + = p4 + 1 − p1 1 − p2 1 − p3 (0.3)(0.1) (0.3)(0.4) (0.3)(0.2) = 0.3 + + + 0.9 0.6 0.8 = 0.3 + 0.03̄ + 0.2 + 0.075 = 0.608 = p4 + Le probabilità d’inclusione di secondo ordine (3.29) coincidono con le probabilità dei campioni di dimensione n = 2 estratti senza reintroduzione e non ordinati dell’universo (1.75), già calcolate nell’Esempio 1.3. Metodi legati alla conoscenza di una variable ausiliaria Diversi metodi per la determinazione delle probabilità di primo e secondo ordine sono legati alla conoscenza di una variabile ausiliaria. Si tratta dei cosiddetti metodi πps in cui la probabilità di inclusione è proporzionale alla dimensione. Se si dispone di una variabile ausiliaria, che assume solo valori positivi, le probabilità di inclusione possono essere assegnate come: ζλ πλ = n N λ=1 ζλ = npλ Anche nel campionamento senza reintroduzione la precisione dello stimatore aumenta al crescere della proporzionalità tra la variabile su cui si fa inferenza e la variabile ausiliaria. Il metodo di Sampford Per selezionare un campione a probabilità variabile senza reintroduzione con probabilità proporzionale alla dimensione di una variabile ausiliaria: a) si effettua la prima selezione con probabilità pλ e tutte le successive (con reintroduzione) con probabilità proporzionale a: pλ = πλ , 1 − πλ N pλ = 1. λ=1 Se tutte le selezioni portano a unità diverse, si accetta il campione, altrimenti si rifiuta l’intero campione non appena un elemento compare due volte e si ripete l’intera procedura fino a che sono selezionate n unità distinte. Daniela Cocchi: Teoria dei Campioni 3.3. P.V. SENZA REINTRODUZIONE 108 Si tratta di un metodo secondo il quale non tutti i campioni sono accettati e può essere molto lungo da implementare. Le probabilità di inclusione di secondo ordine entrano, come si è potuto notare nel Capitolo 1, nella varianza degli stimatori. Sovente le varianza vengono stimate sulla base di approssimazioni di tali probabilità sulla base delle probabilità di inclusione di primo ordine. 3.3.2 Gli stimatori di Horvitz-Thompson per la media e per il totale Lo stimatore che viene proposto per la media di popolazione (1.4) è la versione dello stimatore lineare omogeneo (1.106) con un sistema di pesi wλ = 1 N πλ 1≤λ≤N (3.32) che assicuri la correttezza per la quantità da stimare m (η). Utilizzando il corrispondente campionario wi = 1 , N πi dove πi = πli , nella (1.106), si ottengono gli stimatori di Horvitz-Thompson per la media e per il totale di popolazione: mHT (y) = n n 1 yi 1 yi = , N πi N i=1 πi i=1 tHT (y) = n yi . π i=1 i (3.33) (3.34) I pesi dello stimatore di Horvitz-Thompson per il totale, visti come pesi di uno stimatore lineare omogeneo sono wλ = 1 πλ 1 ≤ λ ≤ N. Nel caso del campionamento casuale semplice senza reintroduzione si ottiene πλ = n/N , da cui si ricavano i casi particolari: mHT (y) = m (y) tHT (y) = tE (y) . Correttezza degli stimatori di Horvitz-Thompson Teorema 3.13 Lo stimatore di Horvitz-Thompson per la media è uno stimatore corretto per m (η). Dimostrazione Sostituendo la (3.32) nella (1.110) si ottiene: Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE E [mHT (y)] = E N λ=1 aλ wλ ηλ = N E (aλ ) wλ ηλ = λ=1 N 1 ηλ = m (η) . = N N λ=1 πλ 109 1 ηλ Nπλ λ=1 La dimostrazione della correttezza dello stimatore di Horvitz-Thompson per il totale è immediata. Varianza degli stimatori di Horvitz-Thompson Teorema 3.14 La varianza dello stimatore di Horvitz-Thompson per la media è: V [mHT (y)] = N 1 1 − πλ 2 η N2 πλ λ λ=1 N 1 πλλ + 2 − 1 ηλ ηλ N πλ πλ (3.35) λ=1 λ =λ = 2 N N ηλ ηλ 1 (πλ πλ − πλλ ) − . 2N 2 πλ πλ (3.36) λ=1 λ =1 Per la varianza (3.35), tutte le probabilità d’inclusione del primo ordine debbono essere strettamente positive. Per determinare la (3.35), la dimensione campionaria non deve necessariamente essere fissa. (Il primo risultato deriva dal calcolo diretto della varianze di uno stimatore lienare omogeneo). Dimostrazione a) Calcoli per l’espressione (3.35) Sostituendo il sistema di pesi (3.32) nell’espressione della varianza del generico stimatore lineare ed omogeneo (1.113) e al posto di V (aλ ) e C (aλ , aλ ) le corrispondenti espressioni (1.93) e (1.94), si ottiene la (3.35): V [mHT (y)] = N N C (aλ , aλ ) wλ wλ ηλ ηλ λ=1 λ =1 = N V (aλ ) wλ2 ηλ2 + C (aλ , aλ ) wλ wλ ηλ ηλ λ=1 λ =λ λ=1 = N N N 1 ηλ ηλ 1 2 1 2 (π − π ) η + (πλλ − πλ πλ ) λ λ λ 2 2 2 N πλ N πλ πλ λ=1 = 1 N2 N (1 − πλ ) 2 1 ηλ + 2 π N λ λ=1 λ=1 λ =λ πλλ − 1 ηλ ηλ . πλ πλ λ=1 λ =λ N Daniela Cocchi: Teoria dei Campioni 3.3. P.V. SENZA REINTRODUZIONE 110 b) Calcoli per l’espressione (3.36). partendo dall’espressione più compatta della varianza di uno stimatore lineare omogeneo. V [mHT (y)] = N N C(aλ , aλ )wλ wλ ηλ ηλ λ=1 λ =1 = N N λ=1 λ =1 = (πλλ − πλ πλ ) ηλ ηλ πλ πλ N 2 N N 1 ηλ ηλ (πλλ − πλ πλ ) . N2 πλ πλ (3.37) λ=1 λ =1 La quantità (3.37) può essere espressa in funzione del quadrato delle differenze: ηλ ηλ − , πλ πλ invece che dei prodotti: ηλ ηλ . πλ πλ Infatti, sviluppando il quadrato delle differenze; si ottiene: 2 N N 1 ηλ ηλ (π − π π ) − λλ λ λ N2 πλ πλ λ=1 λ =1 = N N N N 1 ηλ2 1 ηλ2 (π − π π ) + (πλλ − πλ πλ ) λλ λ λ N2 πλ2 N 2 πλ2 λ=1 − 2 N2 λ =1 N N λ=1 λ =1 λ =1 (πλλ − πλ πλ ) λ=1 ηλ ηλ , πλ πλ in cui, per la (1.102), valida nel caso di ampiezza campionaria fissa, si ha N λ =1 (πλ πλ − πλλ ) = 0, i primi due termini si annullano e resta solo il doppio prodotto. Tale quantità, a meno della moltiplicazione per la costante −2 è uguale alla (3.37), e quindi: V [mHT (y)] = 2 N N 1 ηλ ηλ (π π − π ) − . λ λ λλ 2N 2 πλ πλ λ=1 λ =1 I seguenti risultati mettono in evidenza semplificazioni utili per i calcoli. Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 111 Corollario 3.4 La (3.35) può anche essere scritta come: V [mHT N N 1 1 − πλ 2 2 πλλ (y)] = 2 η + − 1 ηλ ηλ N πλ λ N 2 πλ πλ λ=1 (3.38) λ=1 λ <λ e la (3.36) come: V [mHT 2 N 1 ηλ ηλ (y)] = 2 (πλλ − πλ πλ ) − . N πλ πλ (3.39) λ=1 λ <λ Teorema 3.15 La varianza dello stimatore di Horvitz-Thompson per il totale è: V [tHT (y)] = N 1 − πλ λ=1 = πλ ηλ2 + N πλλ − 1 ηλ ηλ πλ πλ (3.40) λ=1 λ =λ 2 N N 1 ηλ ηλ (πλ πλ − πλλ ) − . 2 πλ πλ (3.41) λ=1 λ =1 Sfruttando la relazione tra totale e media, partendo direttamente dalle (3.35) e (3.36), la dimostrazione è immediata. I seguenti risultati mettono in evidenza semplificazioni utili per i calcoli. Corollario 3.5 La (3.40) può anche essere scritta come: V [tHT (y)] = N 1 − πλ πλ λ=1 ηλ2 + 2 N πλλ − 1 ηλ ηλ πλ πλ (3.42) λ=1 λ <λ e la (3.41) come: V [tHT (y)] = N (π λλ λ=1 λ <λ − πλ π ) λ ηλ ηλ − πλ πλ 2 . (3.43) Nota: Per evitare che i risultati del campionamento a probabilità variabile con reintroduzione abbiano varianza inferiore ai risultati del campionamento senza reintroduzione, deve valere la relazione: πλλ n−1 > πλ πλ n ∀(λ, λ ). Daniela Cocchi: Teoria dei Campioni (3.44) 3.3. P.V. SENZA REINTRODUZIONE 112 Uno stimatore corretto per la varianza degli stimatori di HorvitzThompson Teorema 3.16 La (3.35) è stimata correttamente dall’espressione: n n 1 1 − πi 2 1 1 1 V, [mHT (y)] = 2 y + − yi yi N i=1 πi2 i N 2 i=1 πi πi πii (3.45) i =i Dimostrazione Dalla (1.93), segue che E(aλ ) = πλ . Applicando l’operatore speranza allo stimatore (3.45), si ottiene: E V, [mHT (y)] = N ! 1 1 − πλ 2 ηλ E a2λ 2 2 N πλ λ=1 N 1 1 1 − ηλ ηλ E [aλ aλ ] + 2 N πλ πλ πλλ λ=1 λ =λ 1 N2 = 1 N2 = N λ=1 N λ=1 N 1 − πλ 2 1 1 1 η π + − ηλ ηλ πλλ λ λ πλ2 N2 πλ πλ πλλ λ=1 λ =λ 1 − πλ 2 1 η + πλ λ N 2 N πλλ − 1 ηλ ηλ . πλ πλ λ=1 λ =λ Si noti che per poter effettuare la stima, deve essere πii > 0 ∀i, i . Analogamente la varianza (3.41) è stimata correttamente da: V, [tHT (y)] = n 1 − πi i=1 πi2 yi2 n 1 1 + − yi yi . π π π i i ii i=1 (3.46) i =i Il seguente risultato è dato senza dimostrazione. Teorema 3.17 La (3.36) è stimata correttamente da 2 n n 1 πi πi − πii yi yi V, [mHT (y)] = − . 2N 2 i=1 πii πi πi (3.47) i =1 Per garantire la positività delle stime, deve essere soddisfatta la relazione πi πi − πii > 0 ∀i, i i = i . Analogamente la (3.41) è stimata correttamente da n n 1 V, [tHT (y)] = 2 i=1 i =1 πi πi − πii πii yi yi − πi πi In analogia ai Corollari 3.4 e 3.5 si enuncia l’analogo: Daniela Cocchi: Teoria dei Campioni 2 . (3.48) CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 113 Corollario 3.6 Le espressioni (3.45), (3.46), (3.47), (3.48) possono essere semplificate rispettivamente nelle: n n 1 1 − πi 2 2 1 1 V, [mHT (y)] = 2 y + − yi yi N i=1 πi2 i N 2 i=1 πi πi πii i <i V, [tHT (y)] = n 1 − πi i=1 πi2 1 V, [mHT (y)] = 2 N V, [tHT (y)] = yi2 n 1 1 +2 − yi yi πi πi πii i=1 i <i n i=1 i <i πi πi − πii πii yi yi − πi πi 2 2 n πi πi − πii yi yi − . πii πi πi i=1 i <i Esempio 3.4 Valore atteso e varianza dello stimatore tHT Si consideri la popolazione di N = 4 elementi degli Esempi 3.1 e 3.2. Se si estraggono senza reintroduzione tutti i campioni non ordinati di dimensione n = 2, le probabilità di inclusione di primo e secondo ordine sono quelle calcolate nell’Esempio 3.2 e nell’Esempio 1.3. λ η pλ πλ (n = 2) 1 3 0.1 0.2345 2 10 0.4 0.7159 3 4 0.2 0.4413 4 7 0.3 0.6083 La proprietà di correttezza dello stimatore di Horvitz-Thompson del totale viene verificata utilizzando l’universo dei campioni e calcolando la speranza dello stimatore a partire dalle stime campionarie, pesate con le probabilità dei campioni già calcolate nell’Esempio 1.3: E[tHT (y)] = tHT (y)p(s) s∈S Campioni {1, 2} {1, 3} {1, 4} {2, 3} {2, 4} {3, 4} Totale p(s) 0.111 0.047 0.076 0.233 0.371 0.161 1 ηλ πλ 12.7919 12.7919 12.7919 13.9689 13.9689 9.0647 ηλ πλ 13.9689 9.0647 11.5068 9.0647 11.5068 11.5068 tHT (y) 26.7608 21.8566 24.2987 23.0337 25.4758 20.5716 tHT (y)p(s) 2.973 1.032 1.851 5.375 9.462 3.306 24= t(η) Daniela Cocchi: Teoria dei Campioni 3.3. P.V. SENZA REINTRODUZIONE 114 La varianza dello stimatore del totale può essere calcolata secondo la (3.42). N 1−πλ 2 Il calcolo della quantità πλ ηλ è riassunto nella tabella seguente: λ=1 λ 1 2 3 4 Totale ηλ 3 10 4 7 πλ 0.2345 0.7159 0.4413 0.6083 1−πλ πλ 3.2640 0.3969 1.2662 0.6438 Per il calcolo della quantità N λ η2 1−π πλ 29.3756 39.6896 20.2590 31.5479 120.8722 " λ=1 λ <λ alle coppie non ordinate: πλλ πλ {1, 2} 0.111 0.2345 {1, 3} 0.047 0.2345 {1, 4} 0.076 0.2345 {2, 3} 0.233 0.7159 {2, 4} 0.371 0.7159 {3, 4} 0.161 0.4413 Totale πλ 0.7159 0.4413 0.6083 0.4413 0.6083 0.6083 πλλ πλ πλ # − 1 ηλ ηλ si può fare riferimento πλλ πλ πλ −1 -0.3382 -0.5467 -0.4660 -0.2613 -0.1471 -0.4013 ηλ 3 3 3 10 10 4 ηλ 10 4 7 4 7 7 ( ππλλλ πλ − 1)ηλ ηλ -10.1556 -6.5246 -9.7852 -10.4541 -10.2971 -11.2364 -58.4428 Pertanto: V [tHT (y)] = 120.8722 + 2 (−58.4428) = 3.9865. Poichè il piano di campionamento utilizzato è a dimensione fissa, la varianza dello stimatore del totale può essere calcolata più agevolmente utilizzando la (3.43). #2 " (πλ πλ − πλλ ) · ηλ ηλ " #2 − πλ πλ − πλλ ηλ /πλ ηλ /πλ ηλ ηλ πλ πλ πλ − πλ {1, 2} 0.0568 12.7919 13.9689 1.3855 0.0787 {1, 3} 0.0562 12.7919 9.0647 13.8915 0.7816 {1, 4} 0.0665 12.7919 11.5068 1.6513 0.1098 {2, 3} 0.0826 13.9689 9.0647 24.0513 1.9857 {2, 4} 0.0641 13.9689 11.5068 6.0620 0.3884 {3, 4} 0.1077 9.0647 11.5068 5.9639 0.6425 Totale 3.9865 Alternativamente, la varianza può essere ricavata utilizzando l’universo dei campioni e calcolando la speranza E [tHT (y) − tHT (η)]2 : {1, 2} {1, 3} {1, 4} {2, 3} {2, 4} {3, 4} Totale tHT (y) 26.7608 21.8566 24.2987 23.0337 25.4758 20.5716 [tHT (y) − tHT (η)]2 7.6222 4.5941 0.0892 0.9337 2.1780 11.7539 p(s) 0.111 0.472 0.076 0.233 0.371 0.161 1 [tHT (y) − tHT (η)]2 p(s) 0.8469 0.2169 0.0068 0.2179 0.8090 1.8890 3.9865 Si noti che la varianza di Horvitz-Thompson del totale, ottenuta con un campionamento senza reintroduzione, risulta superiore a quella dello stimatore di Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 115 Hansen-Hurwitz, ottenuta con un campionamento con reintroduzione, calcolata nell’esempio 3.1 e pari a 3.6̄. Infatti non risulta verificata la relazione (3.44), in quanto: π12 /π1 π2 = 0.6612 > (n − 1)/n = 0.5 π13 /π1 π3 = 0.4542 < (n − 1)/n = 0.5 π14 /π1 π4 = 0.5328 > (n − 1)/n = 0.5 π23 /π2 π3 = 0.7375 > (n − 1)/n = 0.5 π24 /π2 π4 = 0.8519 > (n − 1)/n = 0.5 π34 /π3 π4 = 0.5998 > (n − 1)/n = 0.5. In questo esempio, in cui la dimensione dei campioni è 2, le probabilità dei campioni, p(s), sono uguali alle probabilità di inclusione di secondo ordine πλλ . 3.4 Sintesi degli argomenti del campionamento a probabilità variabile La strategia che considera il campionamento a probabilità variabile costriusce lo stimatore assegnando coefficienti di riporto diversi agli elementi di una popolazione, predisponendo in anticipo ciascuno di essi. La teoria propone stimatori corretti per la media e per il totale assegnando a ciascun valore di popolazione un peso che garantisca la correttezza dello stimatore lineare omogeneo. A ogni elemento all’universo dei campioni viene assegnato un peso diverso. Per ogni strategia di campionamento, per ogni stimatore proposto, ci sono almeno 5 teoremi I. Calcolo della speranza per saggiare la correttezza II. Calcolo della varianza III. Proposta di stimare il parametro di popolazione che entra nella varianza con il suo equivalente campionario e calcolo della sua speranza per saggiarne la correttezza (la proprietà non è mai verificata) IV. Aggiustamento della statistica del punto precedente in modo da renderla corretta V. Stimatore corretto della varianza Nel campionamento a probabilità variabile i teoremi per la stima della media aritmetica sono: Con reintroduzione: Senza reintroduzione: Stimatore di Hansen Hurwitz Stimatore di Horwitz Thompson Sezione 3.1.1 Sezione 3.3.2 I Teorema 3.1 Teorema 3.13 II Teorema 3.2 Teorema 3.14 III Teorema 3.3 no IV Teorema 3.4 no V Formula (3.13) Teorema 3.16, Teorema 3.17 Per il totale Daniela Cocchi: Teoria dei Campioni 3.4. SINTESI 116 Con reintroduzione: Senza reintroduzione: Stimatore di Hansen Hurwitz Stimatore di Horwitz Thompson Sezione 3.1.1 Sezione 3.3.2 I Teorema 3.6 Dal Teorema 3.13 II Teorema 3.7 Teorema 3.15 III Dal Teorema 3.3 no IV Dal Teorema 3.4 no V Formula (3.19) Formula (3.46) Nel campionamento a probabilità variabile con reintroduzione, per l’inferenza sulla media di popolazione, lo stimatore lineare omogeneo per la media (stimatore di Hansen Hurwitz, Sezione 3.1.1), nel caso di campionamento con reintroduzione, dipende dalle probabilità di estrazione. Viene costruito in modo da godere della proprietà della correttezza (Teorema 3.1) e se ne ricava la varianza (Teorema 3.2). L’espressione della varianza viene modificata per consentire confronti successivi (Corollario 3.1). La varianza dello stimatore di Hansen Hurwitz viene anche scritta in modo da essere direttamente confrontabile con quella dello stimatore analogo nel campionamento casuale semplice con reintroduzione. Si propone uno stimatore corretto per la varianza dello stimatore. I passi da compiere sono: -) verificare che l’equivalente campionario della componente che riassume la varaibilità in popolazione non è un suo stimatore corretto (Teorema 3.3) -) determinarne una variante che gode della proprietà della correttezza (Teorema 3.4) -) propore uno stimatore corretto per la varianza dello stimatore -) verificarne la correttezza (Teorema 3.5) L’appropriatezza del campionamento a probabilità variabile viene valutata mediante il confronto di efficienza tra di esso e il campionamento casuale semplice. Una strategia costituita da campionamento a probabilità variabile e stimatore lineare omogeneo corretto appropriatamente associato può avere varianza inferiore all’analoga strategia basata sul campionamento casuale semplice se le probabilità di estrazione sono scelte in modo adeguato (Teorema 3.8). Il punto cruciale consiste nel modo con cui assegnare le probabilità. Se ciascun elemento della popolazione avesse come probabilità di estrazione l’incidenza della variabile oggetto di studio sul totale, allora la stima calcolata su qualunque campione darebbe esattamente il valore di popolazione che si vuole stimare (Teorema 3.9 e Corollario 3.2). Assegnazione in pratica delle probabilità avviene sulla base di una variabile ausiliaria quantitativa nota per ogni elemento della popolazione, il cui profilo tende a riprodurre il profilo della variabile oggetto di studio (Sezione 3.2) Nel campionamento a probabilità variabile senza reintroduzione lo stimatore lineare omogeneo (stimatore di Horvitz Thompson, Sezione 3.3.2) dipende dalle probabilità di inclusione nel caso di campionamento senza reintroduzione. Le probabilità di inclusione possono essere calcolate secondo vari schemi: lo schema di Yates e Grundy o schemi che tengano conto di una variabile ausiliaria. Nel caso della media, lo stimatore di Horvitz Thompson viene costruito in modo da avere la proprietà della correttezza (Teorema 3.13) e se ne ricava la varianza (Teorema 3.14). Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 117 L’espressione della varianza viene ricavata in due modi diversi. Il primo risultato è l’applicazione diretta del calcolo della varianza di uno stimatore omogeneo. Il secondo vale solo per una dimensione campionaria fissa ed, è più semplice da calcolare. Il corollario 3.4 corrisponde ad un’ulteriore scrittura della varianza utile per i calcoli. Si determina direttamente uno stimatore corretto per la varianza dello stimatore (Teorema 3.16 e Teorema 3.17). Nel caso del totale, lo stimatore di Horvitz Thompson viene costruito in modo da godere della proprietà della correttezza (Teorema 3.13) e se ne ricava la varianza (Teorema 3.15). Il corollario 3.5 propone un’ulteriore scrittura, utile quando si fanno calcoli. Si determina direttamente uno stimatore corretto per la varianza dello stimatore. Gli stimatori delle varianze di media e totale sono semplificati con il Corollario 3.6. 3.5 3.5.1 Appendici Appendice 1 Dimostrazione del Teorema 3.9 Se nel campionamento a probabilità variabile con reintroduzione si definiscono le probabilità di estrazione in modo che siano proporzionali al valore assoluto del carattere oggetto di interesse: pλ = |ηλ | N m (|η|) ∀λ. allora si minimizza la varianza degli stimatori di Hansen-Hurwitz per media e totale di popolazione. Dimostrazione Dalla (3.3) possiamo notare che la varianza degli stimatori dipende dalle pλ solo attraverso la quantità N η2 λ λ=1 N 2 pλ Per rendere minime queste varianze è quindi sufficiente minimizzare il funzionale φ= N 1 ηλ2 pλ N 2 λ=1 sotto il vincolo N pλ = 1. λ=1 Un modo generale per risolvere problemi di massimo vincolato di questo tipo è costituito dal metodo dei moltiplicatori di Lagrange. Seguendo questo metodo Daniela Cocchi: Teoria dei Campioni 3.5. APPENDICI 118 il problema di ricerca del mimimo vincolato per il funzionale φ è riconducibile alla ricerca del minimo non vincolato del funzionale Ψ(p1 , ..., pN ; θ) = φ + θ λ pλ − 1 che è appunto detto funzionale di Lagrange. Imponiamo quindi le condizioni di primo ordine sulle derivate prime: ∂Ψ ∂pλ = 0 ∂Ψ = 0 ∂θ La prime N equazioni danno luogo alle seguenti soluzioni: |ηλ | pλ = √ θN ∀λ. (3.49) mentre l’ultima equazione in λ dà luogo alla condizione: pλ = 1, (3.50) λ che consiste nel vincolo che si vuole rispettato. Risolvendo il sistema otteniamo quindi il minimo vincolato cercato. Sostituendo la (3.49) nella (3.50) otteniamo che pλ = λ |ηλ | √ . θN λ da cui, risolvendo in θ si ricava: √ N θ pλ = √ θ = λ λ |ηλ | |ηλ | λ = N pλ λ |ηλ | N λ Inserendo la soluzione trovata nella (3.49), otteniamo il risultato cercato. pλ = |ηλ | N |ηλ | = N |ηλ | N m (|η|) ∀λ . Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 3.5.2 119 Appendice 2 Modifica degli stimatori di Hansen-Hurwitz per la media e il totale Tenendo conto della definizione (3.24), le espressioni degli stimatori per la media (3.2) e per il totale (3.15) possono essere scritte come: "y # 1 yi 1 1 yi N m (ζ) = = m (ζ) m , n i=1 N pli n i=1 N zi z n mHH (y) = n "y # 1 yi t (ζ) = t (ζ) m . n i=1 zi z (3.51) n tHH (y) = (3.52) Modifica della varianza degli stimatori e confronto con il campionamento casuale semplice Calcolando le probabilità di estrazione sulla base di una variabile ausiliaria di dimensione risultano modificate anche le varianze degli stimatori della media e del totale. Teorema 3.10 V [mHH (y)] = 2 N 1 m (ζ) 1 m (η) ηλ − ζλ n N ζλ m (ζ) (3.53) λ=1 Dimostrazione Sostituendo la (3.24) nella (3.4) si ha: 2 N 1 ζλ ηλ N m (ζ) V [mHH (y)] = − m (η) n N m (ζ) N ζλ λ=1 2 N 1 m (ζ) ηλ m (η) = ζλ − n N ζλ m (ζ) λ=1 2 N 1 m (ζ) ζλ m (η) . = η − ζ λ λ n N ζλ2 m (ζ) λ=1 Teorema 3.11 V [tHH (y)] = m (ζ) 2 N N 1 m (η) ηλ − ζλ n ζλ m (ζ) (3.54) λ=1 Modifica degli stimatori delle varianze Anche gli stimatori delle varianze si modificano. Infatti, sostituendo opportunamente la (3.25) nella (3.11): 2 n 1 yi 2 sp (y) = − mHH (y) n − 1 i=1 Npli Daniela Cocchi: Teoria dei Campioni 3.5. APPENDICI 120 si ottiene: n " y #2 1 yi Nm (ζ) − m (ζ) m n − 1 i=1 Nzi z n "y# 2 yi 1 = m2 (ζ) −m . n−1 zi z i=1 s2p (y) = Ponendo 2 s "y# z si ricava n " y #2 1 yi = −m n − 1 i=1 zi z s2p (y) = m2 (ζ) s2 "y # z . Lo stimatore della varianza dello stimatore di Hansen-Hurwitz per la media è pertanto "y # 1 V̂ [mHH (y)] = m2 (ζ) s2 . (3.55) n z e quello del totale risulta: V̂ [tHH (y)] = "y # N2 2 m (ζ) s2 . n z (3.56) Si osservi che per quanto riguarda le informazioni sulla variabile ausiliaria in popolazione, il calcolo dello stimatore di Hansen-Hurwitz e dello stimatore della sua varianza necessitano della sola conoscenza di m (ζ). Al contrario, il piano di campionamento richiede la conoscenza dell’intera variabile ausiliaria ζ. 3.5.3 Appendice 3 Dimostrazione del Teorema 3.12 Il campionamento a probabilità variabile è preferibile a quello casuale semplice (caso con reintroduzione) se si verifica la condizione: 2 1 2 η 1 v (η) − v ,ζ < v2 (η) , n ζ n ovvero quando v η2 ,ζ ζ > 0. Dimostrazione Si consideri l’espressione della varianza (3.53). In essa: 2 N m (η) 1 1 ηλ − ζλ N ζλ m (ζ) λ=1 η2 m2 (η) m2 (η) = m −2 + 2 m (ζ) ζ m (ζ) m (ζ) 2 η m2 (η) = m − , ζ m (ζ) Daniela Cocchi: Teoria dei Campioni CAPITOLO 3. CAMPIONAMENTO A PROBABILITÀ VARIABILE 121 da cui, ricordando che 2 2 η2 η η v ζ, =m ζ −m m (ζ) , ζ ζ ζ la (3.53) diventa: 2 1 η 2 V [mHH (y)] = m (ζ) m − m (η) n ζ 2 1 η2 2 m η − v ζ, − m (η) = n ζ 1 2 η2 v (η) − v ζ, . = n ζ (3.57) Poiché il primo termine della (3.57) è esattamente la varianza (2.15) dello stimatore media aritmetica nel caso di campionamento casuale semplice con reintroduzione, il campionamento a probabilità variabile è preferibile a quello casuale semplice se si verifica la condizione: 2 1 2 η 1 v (η) − v ,ζ < v2 (η) , n ζ n ovvero quando v η2 ,ζ ζ > 0. Daniela Cocchi: Teoria dei Campioni 3.5. APPENDICI 122 Daniela Cocchi: Teoria dei Campioni Capitolo 4 La stima per quoziente Ultima revisione: 16 febbraio 2011 Con la stima per quoziente si intende migliorare la precisione di uno stimatore corretto della quantità d’interesse modificando l’espressione dello stimatore con informazioni sintetiche riferite ad una variabile ausiliaria. Lo stimatore per quoziente viene usato quando si conoscono i valori di una variabile ausiliaria proporzionale alla variabile su cui si effettua il campionamento. Le informazioni necessarie riguardanti la variabile ausiliaria si limitano alla media, o al totale, in popolazione e nel campione: i valori della variabile ausiliaria possono quindi essere noti anche solo a livello aggregato, rispettivamente nel campione e nella popolazione. L’impiego dello stimatore è utile se la variabile oggetto d’interesse è difficile o costosa da osservare, contrariamente a quanto accade alla variabile ausiliaria, che è di più semplice rilevazione. Ad esempio si può stimare sulla base di un campione di dimensione n, la superficie media m(η) delle N foglie contenute in un sacco conoscendo il peso medio m (ζ) delle foglie che vi sono contenute, più semplice da rilevare; oppure si inferisce sulla domanda totale di un bene t (η) basandosi sulla quantità totale consumata di un altro bene t (ζ), complementare al primo. Ancora, si può stimare il numero medio di apparecchi televisivi per individuo m(η), sfruttando la conoscenza del numero di componenti del suo nucleo familiare t(ζ), o il numero di nascite t(η) in un paese, conoscendo l’ammontare della popolazione del paese t(ζ). La descrizione della popolazione secondo due variabili, seguendo la notazione introdotta nel primo capitolo, è: ξ = (η, ζ) = {(ηλ , ζλ ); λ = 1, ..., N } e la realizzazione campionaria corrispondente è: x = (y, z) = {(yi , zi ); i = 1, ..., n} . 123 4.1. STIMATORI PER QUOZIENTE 124 4.1 4.1.1 Stimatori per quoziente Uno stimatore per la media Il primo problema che si affronta con il metodo del quoziente è quello della ricerca di uno stimatore per m(η). Per semplicità espositiva, la teoria viene presentata con riferimento allo stimatore media campionaria nel campionamento casuale semplice, ma vale per qualunque stimatore corretto, come gli stimatori di Hansen-Hurwitz e di Horvitz-Thompson nel campionamento a probabilità variabile con o senza reintroduzione. Si spiegherà nel seguito la ragione dell’impiego di stimatori corretti come base per il calcolo dello stimatore per quoziente. Se la media della variabile ausiliaria in popolazione m (ζ) è nota, ed è possibile, tramite il campione, stimarla correttamente, si procede in base alla seguente semplice idea di proporzionalità tra uno stimatore corretto e il valore di popolazione sia per la variabile oggetto d’interesse, sia per la variabile ausiliaria: mQ (y) : m(ζ) = m(y) : m(z), (4.1) da cui lo stimatore per quoziente della media è: mQ (y) = m(y) m(ζ). m(z) (4.2) L’idea alla base del metodo del quoziente è l’impiego della relazione lineare passante per l’origine tra le variabili η e ζ: si corregge m(y) nella proporzione pari al rapporto di m(ζ) e m(z). Ogni valutazione di η in popolazione può essere rappresentata come la valutazione del coefficiente angolare della retta moltiplicato per il valore corrispondente di ζ: m(η) ηλ∗ = ζλ = βQ ζλ (4.3) m(ζ) sommata a un termine d’errore 9Qλ : ηλ = βQ ζλ + 9Qλ λ = 1,...,N. (4.4) La retta (4.3) riassume, seppure rozzamente e tramite la sola relazione di porporzionalità diretta, la relazione lineare tra i due caratteri rilevati: si tratta della retta interpolante i valori di popolazione che si ottiene imponendo l’ordinata all’origine nulla. La retta passa per il baricentro della popolazione (m (ζ) , m (η)). Con riferimento alla popolazione, il coefficiente angolare della retta viene così imposto pari a: m(η) βQ = . (4.5) m(ζ) La rappresentazione della popolazione in questi termini ha senso se la correlazione lineare tra η e ζ è forte e se la retta interpolante dei minimi quadrati presenta un’ordinata all’origine poco rilevante. Facendo riferimento ai soli risultati campionari si ha: yi∗ = m(y) zi = bQ zi . m(z) Daniela Cocchi: Teoria dei Campioni (4.6) CAPITOLO 4. LA STIMA PER QUOZIENTE 125 La (4.6) rappresenta la retta, analoga alla (4.3), che interpola i punti (y, z) corrispondenti al campione rilevato yi = bQ zi + eQi , (4.7) dove bQ rappresenta la realizzazione campionaria di βQ bQ = m(y) . m(z) (4.8) Il valore dell’espressione (4.2), stimatore di m(η), corrisponde alla valutazione dell’ordinata della retta campionaria (4.6) in corrispondenza dell’ascissa m(ζ). 4.1.2 Uno stimatore per il totale Per la stima del totale della popolazione, si propone lo stimatore analogo allo stimatore per la media (4.2): tQ (y) = t(y) m(y) m(y) tE (y) t(ζ) = t(ζ) = t(ζ) = N m(ζ) = N mQ (y). (4.9) tE (z) t(z) m(z) m(z) Anche per calcolare lo stimatore (4.9) devono essere noti la media o il totale della variabile ausiliaria. 4.1.3 Uno stimatore per rapporti aleatori Lo stimatore per quoziente viene usato anche per stimare rapporti tra medie o totali di popolazione. Un esempio di stima di un rapporto aleatorio è costituito dalla stima del numero medio di auto per individuo sulla base di un campione di famiglie, in cui si calcolano il totale di auto e il totale di individui appartenenti alle famiglie campionate. Lo stimatore non è un valor medio da trattare con le tecniche presentate finora, in quanto il suo denominatore è aleatorio, ma è da vedere come il rapporto tra due stimatori di totali o di medie. Il rapporto da stimare è la quantità definita nella (4.5): βQ = m(η) t(η) = , m(ζ) t(ζ) (4.10) tale quantità viene stimata con il rapporto tra due stimatori corretti. Nel caso del campionamento casuale semplice, con o senza reintroduzione, lo stimatore è definito dalla (4.8): bQ = bQ (y, z) = tE (y) t(y) m(y) = = . tE (z) t(z) m(z) (4.11) Il rapporto campionario (4.11) è il coefficiente angolare di una retta come la (4.7), che stima il coefficiente angolare βQ della retta di popolazione. Si adotta dunque bQ come stimatore di βQ . Daniela Cocchi: Teoria dei Campioni 4.2. LA SPERANZA DEGLI STIMATORI PER QUOZIENTE 126 4.2 4.2.1 La speranza degli stimatori per quoziente Scrittura di bQ in forma utile al calcolo dei momenti Teorema 4.1 Lo stimatore bQ può essere espresso attraverso la: m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ) bQ = βQ 1 + − − m(η) m(ζ) m(η) m(ζ) 2 m(z) − m(ζ) 1 + +O , (4.12) m(ζ) n3 nel caso in cui si trascurino i termini di grado superiore al secondo, oppure attraverso la: m(y) − m(η) m(z) − m(ζ) 1 − +O , (4.13) bQ = βQ 1 + m(η) m(ζ) n2 nel caso in cui si trascurino i termini di grado superiore al primo. La dimostrazione è svolta nell’Appendice 1. Nota. Si osservi che, nella (4.13), i termini a partire dai quali si opera il troncamento sono divisi per n12 , perchè il primo termine trascurato contiene il 2 valore 1 [m (z)] . Considerazioni analoghe valgono per spiegare il significato di O n3 nella (4.12). La teoria che illustra le proprietà degli stimatori per quoziente (4.2), (4.9) e (4.11) è la stessa. In particolare si può notare come in tutti e tre i casi si riscontri non linearità rispetto a m(z), o t(z). Il calcolo delle speranze e delle varianze viene condotto impiegando la (4.12) e la (4.13). 4.2.2 Correttezza approssimata degli stimatori per quoziente Si può dimostrare che lo stimatore bQ , come tutti gli stimatori che si ottengono tramite il metodo del quoziente, non è corretto. Correttezza approssimata di bQ Teorema 4.2 Lo stimatore bQ è corretto in modo approssimato: E(bQ ) βQ . Dimostrazione Applicando l’operatore speranza all’espressione (4.13), si ottiene: 1 m(η) E [m(y) − m(η)] E [m(z) − m(ζ)] 1 1+ − +O E(bQ ) = m(ζ) m(η) m(ζ) n2 m(η) 1 m(η) 1 1 = 1+0−0+O = + O = β + O , Q m(ζ) n2 m(ζ) n2 n2 (4.14) Daniela Cocchi: Teoria dei Campioni CAPITOLO 4. LA STIMA PER QUOZIENTE in quanto la speranza dei termini di ordine 127 1 è nulla. n Correttezza approssimata di mQ (y) Teorema 4.3 Lo stimatore mQ (y) è corretto in modo approssimato: E [mQ (y)] m(η). Dimostrazione Dalla (4.2) applicando la proprietà di linearità del valore atteso si ottiene: E [mQ (y)] = E [bQ ] m(ζ) βQ m(ζ) = m(η). (4.15) Correttezza approssimata di tQ (y) Teorema 4.4 Lo stimatore tQ (y) è corretto in modo approssimato: E [tQ (y)] t(η). Dimostrazione Riprendendo la (4.9), analogamente al caso precedente si ottiene: E [tQ (y)] = E [bQ ] N m(ζ) βQ N m(ζ) = N m(η) = t(η). 4.2.3 (4.16) Distorsione approssimata degli stimatori per quoziente Viene fornito prima di tutto un risultato utile per ricavare la distorsione degli stimatori degli stimatori per quoziente nel caso di campionamento casuale semplice senza reintroduzione. L’estensione al caso del campionamento con reintroduzione è immediato. Teorema 4.5 L’espressione della covarianza tra le medie campionarie m(y) e m(z), che, nel campionamento casuale semplice senza reintroduzione, stimano correttamente le medie ed i totali della variabili η e ζ, è: C [m(y), m(z)] = N −n 1 N −n 1 v (η, ζ) = s (η, ζ) . (N − 1) n N n Dimostrazione Daniela Cocchi: Teoria dei Campioni (4.17) 128 4.2. LA SPERANZA DEGLI STIMATORI PER QUOZIENTE Richiamando l’espressione generica della covarianza tra stimatori lineari ed omogenei (1.112) con wλ = n1 e con la (2.47) e la (2.48) al posto di V (aλ ) e C (aλ , aλ ), si ottiene: N N n N −n 1 n N −n 1 ηλ ζλ + 2 − 2 ηλ ζλ C [m(y), m(z)] = N N n2 N N − 1 n2 λ=1 λ <λ λ=1 N N N −n 1 1 1 ηλ ζλ − ηλ ζλ = N n N (N − 1) N λ=1 λ=1 λ =λ N −n 1 {(N − 1) m (ηζ) − (N − 1) N n N N N 1 ηλ ζλ − ηλ ζλ N = λ=1 λ =1 λ=1 N −n 1 = [Nm (ηζ) − m (ηζ) − N m (η) m (ζ) + m (ηζ)] (N − 1) N n = N [m (ηζ) − m (η) m (ζ)] N −n 1 N −n 1 = v (η, ζ) = s (η, ζ) . (N − 1) n N n Corollario 4.1 La covarianza tra gli stimatori di espansione tE (y) e tE (z) è: C [tE (y), tE (z)] = N 2 C [m(y), m(z)] = N 2 N −n N −n s (η, ζ) = N s (η, ζ) . Nn n (4.18) Distorsione approssimata di bQ Teorema 4.6 La distorsione approssimata dello stimatore bQ è: 2 N −n 1 s (ζ) s (η, ζ) B(bQ ) βQ − . N n m(ζ)2 m(ζ)m(η) (4.19) Dimostrazione Applicando l’operatore speranza all’espressione (4.12), si ottiene: 2 E [(m(z) − m(ζ)) (m(y) − m(η))] E (m(z) − m(ζ)) + E(bQ ) = βQ 1 − m(ζ)m(η) m(ζ)2 1 1 +O n3 1 C [m (y) , m (z)] V [m (z)] βQ 1 − + m(ζ)m(η) m(ζ)2 Daniela Cocchi: Teoria dei Campioni CAPITOLO 4. LA STIMA PER QUOZIENTE 129 e, impiegando la (4.17): 2 N −n 1 s (ζ) s (η, ζ) E(bQ ) βQ + βQ − N n m(ζ)2 m(ζ)m(η) la distorsione approssimata risulta dunque: 2 N −n 1 s (ζ) s (η, ζ) βQ − . B(bQ ) N n m(ζ)2 m(ζ)m(η) La distorsione approssimata dello stimatore bQ è di ordine 1/n2 , quindi lo stimatore non è corretto, ma la sua distorsione tende a zero se n aumenta. Un corollario che esprime la distorsione approssimata dello stimatore bQ in funzione dei residui è riportato nell’Appendice 2. Distorsione approssimata di mQ (y) Teorema 4.7 La distorsione approssimata dello stimatore mQ (y) può essere espressa, partendo dalla (4.2) e moltiplicando la distorsione di bQ della (4.19) per una costante, come: 2 N −n 1 s (ζ) s (η, ζ) B [mQ (y)] = m(ζ)B(bQ ) m(η) − (4.20) N n m(ζ)2 m(ζ)m(η) Una serie di risultati espressi in funzione dei residui in popolazione sono riportati nell’Appendice 3. Distorsione approssimata di tQ (y) Teorema 4.8 La distorsione approssimata dello stimatore tQ (y) può essere espressa, partendo dalla (4.9) e moltiplicando la distorsione di bQ della (4.20) per una costante, come: 2 N −n s (ζ) s (η, ζ) B [tQ (y)] = N B [mQ (y)] m(η) − n m(ζ)2 m(ζ)m(η) 4.3 4.3.1 (4.21) La varianza approssimata degli stimatori per quoziente Varianza approssimata di bQ Teorema 4.11 La varianza approssimata dello stimatore bQ può essere espressa come: Daniela Cocchi: Teoria dei Campioni 4.3. VARIANZA APPROSSIMATA PER QUOZIENTE 130 V (bQ ) ! N −n 1 2 2 s2 (η) + βQ s (ζ) − 2βQ s(η, ζ) 2 nN m(ζ) (4.22) Dimostrazione Applicando l’operatore varianza all’espressione (4.13), si ottiene, dalla (2.53) e dalla (4.17): 1 m(y) − m(η) m(z) − m(ζ) βQ 1 + − m(η) m(ζ) 1 V [m(y)] V [m(z)] C [m(y), m(z)] 2 = βQ + − 2 m(η)2 m(ζ)2 m(η)m(ζ) 2 2 s (η) s (ζ) s(η, ζ) 2 N −n = βQ + − 2 nN m(η)2 m(ζ)2 m(η)m(ζ) ! N −n 1 2 2 s2 (η) + βQ s (ζ) − 2βQ s(η, ζ) . = 2 nN m(ζ) V (bQ ) V La versione del Teorema 4.11 in funzione dei residui è riportata nell’Appendice 5. Un corollario (Corollario 4.5) che esprime diversamente la distorsione approssimata in funzione dei residui è riportato nell’Appendice 6. Le espressioni (4.42) e l’espressione equivalente del Corollario 4.5 mettono in evidenza che, se il modello lineare passante per l’origine è poco adeguato per la popolazione, il metodo del quoziente fornisce stime poco precise. 4.3.2 Varianza approssimata di mQ (y) Partendo dalla (4.22), usando la (4.2): Teorema 4.12 V [mQ (y)] ! N −n 2 2 2 s (η) + βQ s (ζ) − 2βQ s(η, ζ) . nN (4.23) Dimostrazione V [mQ (y)] = m2 (ζ) V [bQ ] 2 N −n 2 s (η) s2 (ζ) s(η, ζ) m (η) + − 2 nN m(η)2 m(ζ)2 m(η)m(ζ) ! N −n 2 2 2 = s (η) + βQ s (ζ) − 2βQ s(η, ζ) . nN L’Appendice 7 riporta il Corollario 4.6, che esprime la varianza approssimata dello stimatore per quoziente della media in funzione dei residui. Daniela Cocchi: Teoria dei Campioni CAPITOLO 4. LA STIMA PER QUOZIENTE 4.3.3 131 Varianza approssimata di tQ (y) Teorema 4.13 La varianza approssimata per lo stimatore per quoziente del totale è pari a: V [tQ (y)] N ! N −n 2 2 2 s (η) + βQ s (ζ) − 2βQ s(η, ζ) . n (4.24) Dimostrazione Ricordando che tQ (y) = NmQ (y), segue che: V [tQ (y)] = N 2 V [mQ (y)] 2 N (N − n) s2 (ζ) s(η, ζ) 2 s (η) m(η) + −2 n m(η)2 m(ζ)2 m(η)m(ζ) ! N −n 2 2 2 = N s (η) + βQ s (ζ) − 2βQ s(η, ζ) . n L’Appendice 8 riporta il Corollario 4.7, che esprime la varianza approssimata dello stimatore per quoziente del totale in funzione dei residui. 4.3.4 Stimatori delle varianze approssimate degli stimatori per quoziente Le varianze V [bQ ], V [mQ (y)] e V [tQ (y)] vengono stimate sostituendo le quantità s2 (η), s2 (ζ) e s(η, ζ) , incognite, con le quantità corrispondenti valutate nel campione: Stima della varianza di bQ V̂ (bQ ) = ! N −n 1 s2 (y) + b2Q s2 (z) − 2bQ s(y, z) N nm(ζ)2 Stima della varianza di mQ (y) V̂ [mQ (y)] = ! N −n 1 2 s (y) + b2Q s2 (z) − 2bQ s(y, z) N n Stima della varianza di tQ (y) V̂ [tQ (y)] = ! N −n 1 2 2 N s (y) + b2Q s2 (z) − 2bQ s(y, z) N n Le quantità equivalenti espresse in temini dei residui sono riportate nell’Appendice 9. Nota. Riassumiamo lo schema per gli stimatori e le loro proprietà Daniela Cocchi: Teoria dei Campioni 4.4. EFFICIENZA PER LO STIMATORE PER QUOZIENTE 132 Correttezza approssimata degli stimatori Distorsione approssimata degli stimatori Varianza approssimata degli stimatori Stimatori della varianza approssimata degli stimatori 4.4 4.4.1 Stima di bq Stima della media Stima del totale Teorema 4.2 Teorema 4.3 Teorema 4.4 Teorema 4.6 Teorema 4.7 Teorema 4.8 Teorema 4.11 Teorema 4.12 Teorema 4.13 Formule del paragrafo 4.3.4 Formule del paragrafo 4.3.4 Formule del paragrafo 4.3.4 Confronti di efficienza per lo stimatore per quoziente Confronto di efficienza tra media campionaria e stimatore per quoziente nel campionamento casuale semplice con o senza reintroduzione Comparando in termini di efficienza le strategie: media campionaria e stimatore della media per quoziente nel caso di campionamento casuale semplice senza reintroduzione è lecito attendersi che il risultato del confronto dipenda dal termine r(η, ζ), che misura la correlazione lineare tra la variabile oggetto dell’indagine e la variabile ausiliaria in popolazione. Il rapporto delle precisioni relative ai due stimatori è dato da: Def f = Π (c.c.s.) [m(y)] (c.c.s.) [mQ (y)] 1 = EQMccs [mQ (y)] V [mQ (y)] . EQMccs [m(y)] V [m(y)] Il confronto tra le varianze, e non tra gli errori quadratici medi, ha senso quando la dimensione campionaria è tale da rendere trascurabile la distorsione dello stimatore per quoziente. Teorema 4.14 Nel caso di campionamento casuale semplice, con o senza reintroduzione e βQ > 0, lo stimatore per quoziente della media è preferibile alla media campionaria quando: 1 CV (ζ) ρ(η, ζ) > . (4.25) 2 CV (η) Dimostrazione La verifica dell’efficienza nel caso in cui il Def f < 1 (caso in cui la precisione di mQ è superiore a quella di m(y)) viene condotta sulla seguente diseguaglianza : V [mQ (y)] = V [m(y)] N−n 1 N n ! 2 2 s2 (η) + βQ s (ζ) − 2βQ s(η, ζ) N−n 1 2 N n s (η) Daniela Cocchi: Teoria dei Campioni <1 CAPITOLO 4. LA STIMA PER QUOZIENTE 133 che è verificata quando 2 2 s2 (η) > s2 (η) + βQ s (ζ) − 2βQ s(η, ζ) 2 2 2βQ s(η, ζ) > βQ s (ζ). (4.26) Se βQ > 0, la diseguaglianza (4.26) è verificata se s(η, ζ) βQ > s2 (ζ) 2 s(η, ζ) βQ > s(ζ). s(ζ) 2 Dividendo entrambi i membri per s(η): s(η, ζ) βQ s(ζ) = ρ(η, ζ) > s(ζ)s(η) 2s(η) e sostituendo il valore di βQ , si conclude che la diseguaglianza (4.26) è verificata quando: 1 CV (ζ) 1 s(ζ)/m(ζ) = . ρ(η, ζ) > 2 s(η)/m(η) 2 CV (η) Affinchè lo stimatore per quoziente risulti adeguato, ci deve essere una forte correlazione positiva tra η e ζ, ma la variabilità strutturale di ζ non può essere molto superiore a quella di η. Se, più in generale di quanto avviene in questa presentazione, si considerano rapporti tra stimatori corretti m , (η), m , (ζ), determinati con un piano di campionamento qualunque, la relazione analoga viene espressa come: ρ [m , (η) , m , (ζ)] > 1 CV [m , (ζ)] . 2 CV [m , (η)] Nel caso di campionamento con reintroduzione si ricavano risultati analoghi. Nell’Appendice 10 viene dimostrata la relazione, basata sui residui, che valuta l’efficienza dello stimatore nel campionamento casuale semplice e lo stimatore di Hansen Hurvitz nel campionamento a probabilità variabile. 4.5 4.5.1 Appendici Appendice 1 Dimostrazione del Teorema 4.1 Lo stimatore bQ può essere espresso attraverso la: m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ) bQ = βQ 1 + − − m(η) m(ζ) m(η) m(ζ) 2 m(z) − m(ζ) 1 + +O , m(ζ) n3 Daniela Cocchi: Teoria dei Campioni 4.5. APPENDICI 134 nel caso in cui si trascurino i termini di grado superiore al secondo, oppure attraverso la: m(y) − m(η) m(z) − m(ζ) 1 bQ = βQ 1 + − +O , m(η) m(ζ) n2 nel caso in cui si trascurino i termini di grado superiore al primo. Dimostrazione L’espressione (4.11) può essere modificata nel modo seguente: m(y) 1 = m(y) m(z) m(ζ) + m(z) − m(ζ) m(y) m(ζ) m(y) = = m(ζ) m(ζ) + m(z) − m(ζ) m(ζ) 1 + bQ = 1 m(z)−m(ζ) m(ζ) , (4.27) dove compare la somma della serie 1 1 1 + 2 − 3 + ... . (4.28) a a a + + Tale scrittura è possibile solo se la quantità + a1 + è minore di 1, cioè quando 0 < m(z) < 2m(ζ). Segue quindi che: 2 m(y) m(z) − m(ζ) m(z) − m(ζ) bQ = 1− + − ... . (4.29) m(ζ) m(ζ) m(ζ) 1 1+ Ponendo 1 a =1− m(y) − m(η) m(y) = m(η) 1 + m(η) (4.30) e sostituendo la (4.30) nella (4.27) si può riscrivere bQ come: 2 m(η) m(y) − m(η) m(z) − m(ζ) m(z) − m(ζ) bQ = 1+ 1− + + ... m(ζ) m(η) m(ζ) m(ζ) m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ) = βQ 1 + − − m(η) m(ζ) m(η) m(ζ) 2 2 m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ) + + ... . (4.31) m(ζ) m(η) m(ζ) I singoli addendi entro parentesi graffa sono medie campionarie, loro prodotti o potenze. Ciascuno di essi contiene quindi un termine n1 o n12 o potenze superiori. Trascurando i termini di grado superiore al secondo, si ottiene: m(y) − m(η) m(z) − m(ζ) m(y) − m(η) m(z) − m(ζ) bQ = βQ 1 + − − m(η) m(ζ) m(η) m(ζ) 2 m(z) − m(ζ) 1 + +O , m(ζ) n3 Daniela Cocchi: Teoria dei Campioni CAPITOLO 4. LA STIMA PER QUOZIENTE dove in generale con O n1k si indica un termine di ordine rando i termini di grado superiore al primo, si ottiene: m(y) − m(η) m(z) − m(ζ) 1 bQ = βQ 1 + − +O . m(η) m(ζ) n2 4.5.2 135 1 , nk mentre, trascu- Appendice 2 Corollario 4.2 Un modo alternativo per esprimere la distorsione approssimata dello stimatore bQ è: B [bQ ] = − N − n 1 s(9Q , ζ) . N n m(ζ)2 (4.32) Dimostrazione Partendo dalla (4.19) si può ricavare l’espressione della distorsione approssimata in funzione della covarianza tra i residui introdotti con la (4.4) e la variabile ausiliaria. Ricordando che l’espressione del residuo è: 9Qλ = ηλ − βQ ζλ (4.33) si ricava infatti: s(η, ζ) N − n 1 m (η) s2 (ζ) − B [bQ ] N n m(ζ) m(ζ)2 m(ζ)m (η) N −n1 1 s(η, ζ) s2 (ζ) =− − βQ N n m(ζ) m(ζ) m(ζ) N − n 1 s(η, ζ) − βQ s(ζ, ζ) =− N n m(ζ)2 N − n 1 s(η − βQ ζ, ζ) =− N n m(ζ)2 N − n 1 s(9Q , ζ) =− . N n m(ζ)2 4.5.3 Appendice 3 Teorema 4.7 bis La distorsione approssimata dello stimatore mQ (y) può essere espressa in funzione dei residui (4.33) come: N − n 1 s(9Q , ζ) N − n 1 s(9Q , ζ) B [mQ (y)] m(ζ) − =− (4.34) N n m(ζ)2 N n m(ζ) Daniela Cocchi: Teoria dei Campioni 4.5. APPENDICI 136 Teorema 4.8.bis La distorsione approssimata dello stimatore tQ (y) può essere espressa, analogamente al caso precedente (4.34) - in funzione dei residui (4.33) come: N − n 1 s(9Q , ζ) N − n s(9Q , ζ) B [tQ (y)] N − =− (4.35) N n m(ζ) n m(ζ) 4.5.4 Appendice 4 Un limite superiore per la distorsione degli stimatori Si può ricavare una espressione della distorsione esatta degli stimatori per quoziente. Distorsione esatta di bQ Teorema 4.9 La distorsione esatta dello stimatore bQ è pari a: B (bQ ) = − 1 C [bQ , m (z)] m(ζ) (4.36) Dimostrazione Ricordando che m(ζ) = E [m (z)], la distorsione dello stimatore per quoziente bQ si può riscrivere in questa forma: m(y) m(η) B (bQ ) = E [bQ − βQ ] = E − m(z) m(ζ) 1 m(y) m(η) = E m(ζ) − m(ζ) m(ζ) m(z) m(ζ) 1 = [m(ζ)E (bQ ) − m(η)] m(ζ) 1 = {E [m(z)] E (bQ ) − E [m(z)bQ ]} m(ζ) 1 C [bQ , m (z)] =− m(ζ) Corollario 4.3 La distorsione può essere ottenuta anche con riferimento al totale piuttosto che alla media B (bQ ) = − 1 1 C [bQ , N m (z)] = − C [bQ , tE (z)] t(ζ) t(ζ) Daniela Cocchi: Teoria dei Campioni (4.37) CAPITOLO 4. LA STIMA PER QUOZIENTE 137 Teorema 4.10 Il limite superiore per la distorsione dello stimatore bQ è pari a: |B (b ) | Q ≤ CV [m (z)] . V (bQ ) Dimostrazione Ricordando che C [bQ , m (z)] = ρ [bQ , m(z)] e quindi osservando che |C [bQ , m (z)] | ≤ utilizzando la (4.36), si ricava: (4.38) * V (bQ ) V [m (z)] * V (bQ ) V [m (z)], * 1 V (bQ ) V [m (z)] E [m (z)] 2 * V [m (z)] |B (bQ ) | ≤ V (bQ ) E 2 [m (z)] |B (bQ ) | ≤ da cui |B (b ) | Q ≤ CV [m (z)] . V (bQ ) Alternativamente, in termini dello stimatore di espansione per il totale secondo la (4.37), si ha: Corollario 4.4 |B (b ) | Q ≤ CV [tE (z)] . V (bQ ) (4.39) Quindi, la distorsione normalizzata dello stimatore di un rapporto aleatorio, in valore assoluto, è minore (o uguale) al coefficiente di variazione dello stimatore della media, o del totale, della variabile ausiliaria. Le relazioni (4.38) e (4.39) servono quindi a fissare un limite superiore per la distorsione degli stimatori. Distorsione esatta dello stimatore mQ (y) Partendo dalla (4.2), dalla (4.36) si ottiene: 1 C [bQ , tE (z)] N (4.40) B [tQ (y)] = N B [mQ (y)] = −N C [bQ , m (z)] = −C [bQ , tE (z)] (4.41) B [mQ (y)] = m(ζ)B [bQ ] = −C [bQ , m (z)] = − Distorsione esatta dello stimatore tQ (y) Partendo dalla (4.9), dalla (4.36) si ottiene: Daniela Cocchi: Teoria dei Campioni 4.5. APPENDICI 138 4.5.5 Appendice 5 Teorema 4.11bis La varianza approssimata dello stimatore bQ può essere espressa in funzione dei residui come: V (bQ ) = N − n s2 (9Q ) nN m(ζ)2 N − n v 2 (9Q ) . n (N − 1) m(ζ)2 (4.42) Dimostrazione Ricordando la definizione (4.33) della variabile residuo 9Q , si può esprimere V (bQ ) in funzione della variabilità di 9Q . Ripartendo dalla (4.22) si ha: V (bQ ) = = = = 4.5.6 ! N −n 1 2 2 s2 (η) + βQ s (ζ) − 2βQ s(η, ζ) 2 nN m(ζ) ! N −n 1 s2 (η) + s2 (βQ ζ) − 2s(η, βQ ζ) 2 nN m(ζ) N −n 1 s2 (η − βQ ζ) nN m(ζ)2 N − n s2 (9Q ) nN m(ζ)2 N − n v 2 (9Q ) . n (N − 1) m(ζ)2 Appendice 6 Corollario 4.5 V (bQ ) N − n m(92Q ) . n (N − 1) m(ζ)2 (4.43) Dimostrazione Ricordando che, per costruzione, dalla (4.33) si ottiene: m (9Q ) = m (η) − m (η) m (ζ) = 0, m (ζ) si rileva anche che: v2 (9Q ) = m 92Q E’ dunque possibile riscrivere la varianza approssimata dello stimatore bQ come: V (bQ ) N − n m(92Q ) . n (N − 1) m(ζ)2 Daniela Cocchi: Teoria dei Campioni CAPITOLO 4. LA STIMA PER QUOZIENTE 4.5.7 139 Appendice 7 Corollario 4.6 La varianza approssimata dello stimatore per quoziente della media può essere espressa anche in funzione dei residui, sfruttando la (4.43): V [mQ (y)] 4.5.8 N −n 1 2 s (9Q ). N n (4.44) Appendice 8 Corollario 4.7 La varianza approssimata dello stimatore per quoziente del totale può essere espressa anche in funzione dei residui, sfruttando la (4.43): V [tQ (y)] 4.5.9 4.5.10 N (N − n) 2 s (9Q ). n (4.45) Appendice 9 Stimatori delle varianze approssimate degli stimatori per quoziente Le varianze V [bQ ], V [mQ (y)] e V [tQ (y)] vengono stimate sostituendo la quantità s2 (9Q ), incognita, con la quantità corrispondente valutata nel campione, notando che s2 (eQ ) stima correttamente s2 (9Q ) nella (4.43), nella (4.44) e nella (4.45). Stima della varianza di bQ V̂ (bQ ) = 1 N −n 1 2 s (eQ ) m (ζ)2 N n Stima della varianza di mQ (y) V̂ [mQ (y)] = N −n 1 2 s (eQ ) N n Stima della varianza di tQ (y) V̂ [tQ (y)] = N −n 1 2 2 N s (eQ ) N n Daniela Cocchi: Teoria dei Campioni 4.5. APPENDICI 140 4.5.11 Appendice 10 Confronto di efficienza tra lo stimatore per quoziente nel campionamento casuale semplice con reintroduzione e lo stimatore di HansenHurwitz nel campionamento a probabilità variabile Teorema 4.15 Nel campionamento con reintroduzione la strategia costituita dal campionamento con probabilità variabile e dallo stimatore di Hansen-Hurwitz è preferibile all’impiego di una variabile ausiliaria nello stimatore del rapporto se si verifica la condizione: 92Q v , ζ > 0, (4.46) ζ o, analogamente: m (ζ) m 92Q ζ < m 92Q . (4.47) Dimostrazione Si ricordi che, nel Capitolo 3, la conoscenza di una variabile ausiliaria viene sfruttata per assegnare probabilità variabile agli elementi della popolazione. Nel caso di campionamento con reintroduzione, la varianza dello stimatore di Hansen-Hurwitz può essere scritta con la (3.53): 2 N 1 m (ζ) 1 m (η) V [mHH (y)] = ηλ − ζλ . n N ζλ m (ζ) λ=1 Si osservi che l’espressione entro la parentesi quadra è il residuo 9Qλ definito nella (4.33). La riformulazione della varianza dello stimatore di Hansen-Hurwitz in termini di una variabile di dimensione ne permette quindi un’interpretazione alla luce della teoria dello stimatore per quoziente: N m (ζ) 92Qλ nN ζ λ=1 λ 92Q m (ζ) = m , n ζ V [mHH (y)] = (4.48) notando che la varianza (4.48) si annullerebbe se valesse esattamente la relazione ηλ = βQ ζλ . La varianza approssimata dello stimatore per quoziente della media nel caso di campionamento con reintroduzione si ottiene eliminando il coefficiente di correzione per popolazioni finite nella (4.44): N −n 2 N −n 1 2 s (9Q ) = v (9Q ) Nn N −1 n 1 1 v2 (9Q ) = m 92Q . n n V [mQ (y)] Daniela Cocchi: Teoria dei Campioni (4.49) CAPITOLO 4. LA STIMA PER QUOZIENTE 141 Dalle (4.48) e (4.49) si può vedere come il campionamento a probabilità variabile sia preferibile all’impiego di una variabile ausiliaria nello stimatore del rapporto a partire da un campionamento casuale semplice se si verifica la condizione: 92Q 1 1 m (ζ) m < m 92Q . n ζ n Ricordando che v 92Q ,ζ ζ =m la condizione precedente equivale a v 92Q ζ ζ 92Q ,ζ ζ −m 92Q ζ m (ζ) > 0, che può essere scritta anche come m 92Q > m 92Q ζ m (ζ) . Se le considerazioni sulla popolazione portano ad affermare che la relazione (4.46) sia valida, allora è più conveniente usare le informazioni ausiliarie per costruire un piano di campionamento a probabilità variabile piuttosto che una correzione per quoziente ad uno stimatore diretto in campionamento casuale semplice. Daniela Cocchi: Teoria dei Campioni 4.5. APPENDICI 142 Daniela Cocchi: Teoria dei Campioni Capitolo 5 La stima per regressione Ultima revisione: 16 febbraio 2011 5.1 Il principio della stima per regressione Con lo stimatore per regressione si modifica uno stimatore corretto di una quantità descrittiva di popolazione sfruttando la relazione lineare esistente tra il carattere d’interesse η e una variabile ausiliaria ζ. Si definisce quindi la seguente relazione: η = α + βR ζ, (5.1) in per tutte le coppie (ηλ , ζλ ) si pone il legame: ηλ = α + βR ζλ + εRλ λ = 1, ..., N . (5.2) Interpolando i valori di popolazione con il metodo dei minimi quadrati, i valori N di α e βR che minimizzano la quantità ε2Rλ sono: λ=1 s (η, ζ) , s2 (ζ) α = m (η) − βR m (ζ) , βR = (5.3) (5.4) da cui, sostituendo tali espressioni nella (5.2), si ottiene: ηλ = m (η) + s (η, ζ) [ζλ − m (ζ)] + εRλ . s2 (ζ) (5.5) La tecnica dei minimi quadrati prevede che la somma dei residui sia nulla, dunque nella (5.5) per costruzione: m (εR ) = m (η − α − βR ζ) = m (η) − α − βR m (ζ) = m (η) − [m (η) − βR m (ζ)] − βR m (ζ) = 0. 143 (5.6) 5.1. IL PRINCIPIO DELLA STIMA PER REGRESSIONE 144 Si osservi che, se la retta di regressione dei minimi quadrati passa per l’origine (α = 0), dalla (5.4) si ha direttamente: βR m (ζ) = m (η) e quindi βR = m (η) = βQ . m (ζ) In questo caso il coefficiente angolare della retta interpolante coincide con quello utilizzato nella stima per quoziente. Si può quindi concludere che βR generalizza il rapporto βQ introdotto nel capitolo precedente, ipotizzando che tra i due caratteri considerati esista una relazione più generale di quella alla base dello stimatore per quoziente. Lo schema descrittivo (5.1), riferito alla popolazione, ha un corrispondente campionario nella relazione: y = a + bR z, (5.7) dove il legame tra le coppie (yi , zi ) è dato da: yi = a + bR zi + eRi n i=1 i = 1, ..., n. (5.8) Nel campione si calcolano pertanto i valori a, b che minimizzano la quantità e2Ri ottenendo: s (y, z) , s2 (z) a = m (y) − bR m (z) , bR = (5.9) (5.10) che, sostituiti nella (5.7) e nella (5.8), danno luogo a: y = m (y) + yi = m (y) + s (y, z) [z − m (z)] , s2 (z) s (y, z) [zi − m (z)] + eRi s2 (z) i = 1, ..., n, (5.11) (5.12) dove m (eR ) = 0 per costruzione. Il principio della stima per regressione può essere applicato ad un qualunque stimatore corretto. 5.1.1 Uno stimatore per la media Lo stimatore per regressione della media di popolazione (1.4) si ottiene come ordinata della retta (5.11) in corrispondenza dell’ascissa m (ζ): mR (y) = m (y) + bR [m (ζ) − m (z)] s (y, z) = m (y) + 2 [m (ζ) − m (z)] . s (z) (5.13) Nella (5.13) si può riconoscere la proposta di una correzione additiva ad un generico stimatore corretto di m (η). Daniela Cocchi: Teoria dei Campioni CAPITOLO 5. LA STIMA PER REGRESSIONE 5.1.2 145 Uno stimatore per il totale Lo stimatore per regressione del totale di popolazione (1.5) è pari a: tR (y) = N mR (y) = N m (y) + bR [N m (ζ) − N m (z)] = tE (y) + bR [t (ζ) − tE (z)] . 5.2 (5.14) La speranza degli stimatori per regressione Analogamente a quanto proposto nell’esposizione della stima per quoziente, si deriva un’espressione approssimata dello stimatore (5.13). 5.2.1 Scritture utili per il calcolo dei momenti Teorema 5.1 bR − βR s (y, z) − s (η, ζ) s2 (z) − s2 (ζ) − s (y, z) . s2 (ζ) [s2 (ζ)]2 (5.15) La dimostrazione è presentata nell’Appendice 1. 5.2.2 Correttezza approssimata degli stimatori per regressione Teorema 5.2 Lo stimatore (5.13) di m (η) è approssimativamente corretto: E [mR (y)] m (η) . (5.16) La dimostrazione è presentata nell’Appendice 2. Teorema 5.3 La correttezza approssimata dello stimatore per il totale si ricava dalla (5.14), applicando la proprietà di linearità del valore atteso: C [s (y, z) , m (z)] s2 (ζ) ! N + 4 E s2 (z) − s2 (ζ) s (y, z) [m (z) − m (ζ)] s (ζ) t (η) . E [tR (y)] = N E [mR (y)] t (η) − N 5.2.3 Distorsione esatta e approssimata degli stimatori espressa in funzione dei residui I due risultati seguenti sono presentati senza dimostrazione. Daniela Cocchi: Teoria dei Campioni 146 5.3. APPROSSIMAZIONE DELLA VARIANZA DEGLI STIMATORI Teorema 5.4 La distorsione esatta dello stimatore mR (y) è: B [mR (y)] = −C [bR , m (z)] (5.17) Teorema 5.5 La distorsione approssimata dello stimatore mR (y) è pari a: B [mR (y)] − N − n m (δ) N − 2 ns2 (ζ) (5.18) dove δλ = ελ ζλ2 . Dalla (5.39) si nota che il termine di distorsione è di ordine 1/n2 . Pertanto esso può essere trascurato per campioni sufficientemente grandi. 5.3 5.3.1 La varianza approssimata degli stimatori per regressione Approssimazione della varianza degli stimatori In questa sezione vengono presentate tre differenti versioni della varianza approssimata. Teorema 5.6 V [mR (y)] V [m (ẽR )] = N −n 2 s (εR ) Nn (5.19) Dimostrazione Partendo dall’espressione (5.36), la varianza dello stimatore mR (y) può essere scritta come: V [mR (y)] V {(bR − βR ) [m (z) − m (ζ)]} + V [m (ẽR )] . In questo caso la varianza della somma dei due addendi è uguale alla somma delle loro varianze, in quanto le covarianze di popolazione che entrano nel calcolo sono nulle per costruzione: s (ζ, ε) = 0. Il primo termine dell’espressione ha ordine di grandezza 1/n2 . Infatti, per la correttezza approssimata degli stimatori per regressione, i termini trascurati hanno ordine 1/n2 . Il primo termine può quindi essere ignorato e si considera solo il secondo come valore approssimato della varianza. N −n 2 s (εR ) V [mR (y)] V [m (ẽR )] = Nn Daniela Cocchi: Teoria dei Campioni CAPITOLO 5. LA STIMA PER REGRESSIONE 147 Teorema 5.7 V [mR (y)] ! N −n 2 2 2 s (η) + βR s (ζ) − 2βR s (η, ζ) Nn (5.20) Dimostrazione Si ricorda che l’errore può essere espresso come: εR = η − α − βR ζ = η − m (η) + βR m (ζ) − βR ζ s (η, ζ) s (η, ζ) m (ζ) − 2 ζ = η − m (η) + 2 s (ζ) s (ζ) s (η, ζ) = η − m (η) − 2 [ζ − m (ζ)] s (ζ) Utilizzando questo risultato si può scrivere la varianza dei residui in popolazione nel modo seguente, poiché m (εR ) = 0, nel modo seguente: N N 2 N s2 (εR ) = v2 (εR ) = m εR − m (εR )2 = m ε2R N −1 N −1 N −1 2 s (η, ζ) N = m [η − m (η)]2 + m [ζ − m (ζ)]2 N −1 s2 (ζ) 1 s (η, ζ) −2 2 m {[η − m (η)] [ζ − m (ζ)]} s (ζ) N s2 (η, ζ) 2 s (η, ζ) = v2 (η) + 4 v (ζ) − 2 2 v (η, ζ) N −1 s (ζ) s (ζ) 2 N s (η, ζ) N s (η, ζ) N = v2 (η) + 4 v 2 (ζ) − 2 2 v (η, ζ) N −1 s (ζ) N − 1 s (ζ) N −1 = s2 (η) + s2 (η, ζ) 2 s (η, ζ)2 s (ζ) − 2 . s4 (ζ) s2 (ζ) (5.21) Dalla (5.21) si ottiene un’espressione alternativa della varianza (5.19) come: V [mR (y)] ! N −n 2 2 2 s (η) + βR s (ζ) − 2βR s (η, ζ) . Nn Corollario 5.1 V [mR (y)] ! N −n 1 2 s (η) 1 − r2 (η, ζ) . N n Dimostrazione Sviluppando la (5.21) si ottiene che: s2 (η, ζ) 2 s (η, ζ)2 s2 (εR ) = s2 (η) + 4 s (ζ) − 2 2 s (ζ) s (ζ) 2 s (η, ζ) = s2 (η) 1 − 2 , s (η) s2 (ζ) Daniela Cocchi: Teoria dei Campioni (5.22) 148 5.3. APPROSSIMAZIONE DELLA VARIANZA DEGLI STIMATORI da cui V [mR (y)] ! N −n 1 2 s (η) 1 − r2 (η, ζ) . N n Sono immediati i risultati seguenti, relativi alla varianza dello stimatore del totale. Teorema 5.8 N −n 2 s (εR ) Nn ! N −n 2 2 2 s (η) + βR s (ζ) − 2βR s (η, ζ) N2 Nn ! N −n 2 N2 s (η) 1 − r2 (η, ζ) . Nn V [tR (y)] N 2 5.3.2 (5.23) Stimatori della varianza approssimata degli stimatori per regressione Non conoscendo s2 (η) o r (η, ζ) , si stima la V [mR (y)] sulla base delle osservazioni campionarie tramite i seguenti risultati, la cui dimostrazione è immediata. Teorema 5.9 La varianza approssimata dello stimatore per regressione mR (y) viene stimata correttamente dalle seguenti espressioni: V̂ [mR (y)] = N −n 1 2 s (eR ) N n (5.24) (corrispondente alla (5.19)) eRi = yi − m (y) − bR [zi − m (z)] , o con V̂ [mR (y)] = ! N −n 1 2 s (y) + b2R s2 (z) − 2bR s (y, z) N n (corrispondente alla (5.20)) oppure, infine, con la V̂ [mR (y)] = ! N −n 1 2 s (y) 1 − r2 (y, z) . N n (corrispondente alla (5.22)). Analogamente, per il totale, valgono i risultati seguenti. Daniela Cocchi: Teoria dei Campioni (5.25) CAPITOLO 5. LA STIMA PER REGRESSIONE 149 Teorema 5.10 L’espressione della varianza dello stimatore tR (y) può essere stimata attraverso le espressioni seguenti: V̂ [tR (y)] = N 2 o con V̂ [tR (y)] = N 2 oppure ! N −n 2 s (y) + b2R s2 (z) − 2bR s (y, z) Nn V̂ [tR (y)] = N 2 5.4 N −n 2 s (eR ) Nn ! N −n 2 s (y) 1 − r2 (y, z) . Nn Confronto di efficienza tra gli stimatori per regressione e altri stimatori precedentemente proposti Nel caso in cui la dimensione campionaria sia tale da rendere trascurabili i termini di ordine superiore o uguale a 1/n2 , si confrontano le varianze degli stimatori, espresse con le (5.22), (4.23) e (2.53). Il confronto tra le varianze ha infatti senso quando la dimensione campionaria giustifica l’utilizzo della varianza approssimata per lo stimatore per quoziente. Nel caso in cui la distorsione non sia trascurabile, i confronti debbono essere fatti in termini di EQM e non solo in termini di varianze. 5.4.1 Confronto di efficienza tra lo stimatore per regressione e la media campionaria nel campionamento casuale semplice con o senza reintroduzione Il rapporto delle precisioni relative ai due stimatori, entrambi proposti nel caso di campionamento casuale semplice con o senza reintroduzione, è dato da: Def f = Π (c.c.s.) [m(y)] (c.c.s.) [mR (y)] 1 = EQMccs [mR (y)] V [mR (y)] . EQMccs [m(y)] V [m(y)] Il confronto tra le varianze e non tra gli errori quadratici medi è affrontato quantdo la dimensione campionaria giustifica l’utilizzo della sola varianza approssimata per lo stimatore per regressione senza tener conto della distorsione. Teorema 5.11 Lo stimatore per regressione è più efficiente di quello del campionamento casuale semplice senza reintroduzione se r (η, ζ) = 0. Dimostrazione Daniela Cocchi: Teoria dei Campioni (5.26) 5.4. CONFRONTI DI EFFICIENZA 150 Ricordando, dalla (2.53), che la varianza per lo stimatore della media nel caso di campionamento casuale semplice senza reintroduzione è: V [m (y)] = N −n 2 s (η) . Nn e che, per la (5.22), nel caso dello stimatore per regressione per la media nel caso di campionamento casuale semplice, è: V [mR (y)] ! N −n 2 s (η) 1 − r2 (η, ζ) , Nn La condizione di efficienza in termini di Def f < 1, corrispondente alla situazione in cui la precisione di mR (y) è superiore a quella di m(y), porta alla seguente condizione: V [mR (y)] <1 V [m (y)] se r (η, ζ) = 0. Il risultato è di facile interpretazione. Basta una minima correlazione lineare tra η e ζ per suggerire l’impiego dello stimatore per regressione rispetto alla decisione di non utilizzare una correzione tramite valori di una variabile ausiliaria. Tuttavia il miglioramento potrebbe risultare modesto e tale da sconsigliare il lavoro supplementare di reperimento di valori della variabile ausiliaria. 5.4.2 Confronto di efficienza tra lo stimatore per regressione e quello per quoziente nel campionamento casuale semplice con o senza reintroduzione Teorema 5.12 Lo stimatore per regressione è sempre più efficiente dello stimatore per quoziente. Dimostrazione Considerando la (5.22) e la (4.23): V [mR (y)] V [mQ (y)] ! N −n 2 s (η) 1 − r2 (η, ζ) , Nn ! N −n 2 2 2 s (η) + βQ s (ζ) − 2βQ s (η, ζ) , Nn Il rapporto tra le precisioni dei due stimatori può essere definito come: 1 (c.c.s.) [mQ (y)] EQMccs [mR (y)] V [mR (y)] Π = . (c.c.s.) [mR (y)] EQMccs [mQ (y)] V [mQ (y)] La condizione per cui lo stimatore per regressione è più efficiente di quello per quoziente è: V [mR (y)] <1 (5.27) V [mQ (y)] Essa è verificata quando ! 2 2 s2 (η) 1 − r2 (η, ζ) < s2 (η) + βQ s (ζ) − 2βQ s (η, ζ) Daniela Cocchi: Teoria dei Campioni CAPITOLO 5. LA STIMA PER REGRESSIONE 151 2 2 −s2 (η) r2 (η, ζ) < βQ s (ζ) − 2βQ s (η, ζ) 2 2 βQ s (ζ) + s2 (η) r2 (η, ζ) − 2βQ s (η, ζ) > 0 (5.28) espressione che, poichè vale la relazione s (η, ζ) = r (η, ζ) s (η) s (ζ) , può essere riscritta come 2 2 βQ s (ζ) + s2 (η) r2 (η, ζ) − 2βQ s (ζ) s (η) r (η, ζ) > 0. La diseguaglianza è quindi verificata quando [βQ s (ζ) − s (η) r (η, ζ)]2 2 r (η, ζ) s (η) = βQ − s (ζ) 2 s (η, ζ) = βQ − 2 = (βQ − βR )2 > 0. s (ζ) Ne consegue che la (5.27) è verificata quando (βQ − βR )2 > 0. Quindi, lo stimatore per regressione è sempre più efficiente dello stimatore per quoziente. Nota. Il guadagno conseguente dall’usare lo stimatore per regressione sarà piccolo se βQ e βR sono abbastanza simili, cioé se la retta dei minimi quadrati che interpola la popolazione passa vicino all’origine. Alcuni confronti di efficienza tra lo stimatore per regressione e lo stimatore di Hansen Hurvitz nel campionamento con reintroduzione sono presentati nell’Appendice 3. 5.5 Stimatori generalizzati per differenza per la media e il totale In tutti i casi in cui ci siano motivi per ipotizzare che in popolazione possa essere assunto un valore non stimato di β, lo stimatore dall’espressione analoga allo stimatore per regressione è detto stimatore generalizzato per differenza ed è definito come: mDif f g (y) = m (y) + β [m (ζ) − m (z)] (5.29) La variante con β = 1 è detta stimatore per differenza mDif f (y) = m (y) + [m (ζ) − m (z)] . Lo stimatore generale per differenza del totale di popolazione (1.3) è pari a: tDif f g (y) = N mDiff g (y) = N m (y) + β [N m (ζ) − N m (z)] = tE (y) + β [t (ζ) − tE (z)] . Daniela Cocchi: Teoria dei Campioni (5.30) 5.5. STIMATORI GENERALIZZATI PER DIFFERENZA 152 e il corrispondente stimatore per differenza è: tDif f (y) = N mDiff (y) = N m (y) + [Nm (ζ) − Nm (z)] = tE (y) + [t (ζ) − tE (z)] . 5.5.1 (5.31) Correttezza degli stimatori generalizzati per differenza Teorema 5.14 Gli stimatori generalizzati per differenza per media e totale sono corretti. Dimostrazione La dimostrazione è immediata, applicando l’operatore valore atteso agli stimatori proposti, sia per mDif f g (y): E (mDif f g (y)) = E (m (y)) + β [m (ζ) − E (m (z))] = m (η) + β [m (ζ) − m (ζ)] = m (η) , e analogamente per tDif f g (y) : E (tDiff g (y)) = E (tE (y)) + β [t (ζ) − E (tE (z))] = t (η) . 5.5.2 Varianza degli stimatori generalizzati per differenza Il fatto che β non venga stimato sul campione semplifica notevolmente il calcolo della varianza. A differenza del caso in cui β viene stimato è possibile calcolare agevolmente la formula esatta. Teorema 5.15 V (mDif f g (y)) = Dimostrazione N −n 2 s (η) + β 2 s2 (ζ) − 2βs (η, ζ) Nn (5.32) V (mDif f g (y)) = V (m (y) + β [m (ζ) − m (z)]) = V (m (y)) + β 2 V [m (ζ) − m (z)] − 2βC [m(y), m(z)] N −n 2 = s (η) + β 2 s2 (ζ) − 2βs (η, ζ) . Nn Si noti come la (5.32) coincida con la (5.20), ma costituisca in questo caso un risultato esatto e non approssimato. Analogamente, per il totale vale il teorema seguente. Teorema 5.16 V (tDif f g (y)) = N 2 N −n 2 s (η) + β 2 s2 (ζ) − 2βs (η, ζ) Nn Daniela Cocchi: Teoria dei Campioni (5.33) CAPITOLO 5. LA STIMA PER REGRESSIONE 5.5.3 153 Stimatori per la varianza degli stimatori generalizzati per differenza Teorema 5.17 Le varianze (5.32) e (5.33) sono stimate correttamente da: e N −n 2 V, (mDif f g (y)) = s (y) + β 2 s2 (z) − 2βs (y, z) Nn N −n 2 V, (tDif f g (y)) = N 2 s (y) + β 2 s2 (z) − 2βs (y, z) . Nn 5.5.4 Confronto di efficienza tra gli stimatori per regressione e gli stimatori generalizzati per differenza La validità del confronto è limitata dal fatto che si raffrontano una varianza esatta e una approssimata, operazione ammessa solo nel caso di grandi campioni. Teorema 5.18 La precisione dello stimatore generalizzato per differenza è sempre inferiore a quella dello stimatore per regressione. Dimostrazione Per effettuare il confronto è utile esprimere entrambe le varianze in funzione dei residui: N −n 2 V (mDif f g (y)) = s (εDg ) Nn V (mR (y)) N −n 2 s (εR ) Nn In termini di rapporto di precisioni si deve verificare sotto quale condizione valga la disuguaglianza: 3 (c.c.s.) [mDif f g (y)] (c.c.s.) [mR (y)] = V (mR (y)) <1 V (mDif f g (y)) Poichè per costruzione βR è il parametro per cui s2 (εR ) è minimo, si avrà che: s2 (εR ) 2 s (εDif f g ) < 1. Tale condizione è verificata per qualsiasi valore di β non stimato inserito in uno stimatore generalizzato per differenza. L’uguaglianza varrà solo per βR = β. Daniela Cocchi: Teoria dei Campioni 5.5. STIMATORI GENERALIZZATI PER DIFFERENZA 154 5.5.5 Confronto di efficienza tra gli stimatori generalizzati per differenza e gli stimatori diretti del campionamento casuale semplice Teorema 5.19 Lo stimatore generalizzato per differenza è più efficiente dello stimatore media campionaria, nel caso di campionamento casuale semplice, se: |β| < 2 |βR | . Dimostrazione La condizione secondo cui lo stimatore generalizzato per differenza è preferibile allo stimatore diretto è: 3 (c.c.s) [m (y)] V [mDiff g (y)] Def f = = <1 (c.c.s) [mDif f g (y)] V [m (y)] da cui: s2 (η) + β 2 s2 (ζ) − 2βs(η, ζ) s2 (η) 2 s (ζ) s(η, ζ) 1 + β2 2 − 2β 2 s (η) s (η) 2 s (ζ) s(η, ζ) β2 2 − 2β 2 s (η) s (η) 2 2 β s (ζ) − 2βs(η, ζ) < 1 < 1 < 0 < 0 ossia se β 2 s2 (ζ) < 2βs (η, ζ) (5.34) s (η, ζ) s2 (ζ) + + + s (η, ζ) + + + |β| < 2 + 2 s (ζ) + β 2 < 2β |β| < 2 |βR | . Corollario 5.3 Lo stimatore generalizzato per differenza è più efficiente dello stimatore diretto, nel caso di campionamento casuale semplice, nel caso particolare di β = 1, quando: 1 βR > . 2 Daniela Cocchi: Teoria dei Campioni CAPITOLO 5. LA STIMA PER REGRESSIONE 155 Dimostrazione Def f = 3 (c.c.s) [m (y)] (c.c.s) [mDif f (y)] = V [mDif f (y)] <1 V [m (y)] se, dalla (5.34): s2 (ζ) < 2s (η, ζ) 2 s (η, ζ) >1 s2 (ζ) e quindi 1 βR > . 2 Nota. Schema per gli stimatori di regressione e le loro proprietà Correttezza approssimata degli stimatori Distorsione approssimata degli stimatori Varianza approssimata degli stimatori Stima della media Stima del totale Teorema 5.2 Teorema 5.3 Teorema 5.5 Non c’è ma è immediata Teorema 5.6 Teorema 5.7 Teorema 5.8 Corollario 5.1 Stimatori della varianza Teorema 5.9 Teorema 5.10 approssimata degli stimatori Nota. Schema per gli stimatori generalizzati per differenza e le loro proprietà Stima della media Stima del totale Correttezza approssimata degli stimatori Teorema 5.14 Teorema 5.14 Varianza degli stimatori Teorema 5.15 Teorema 5.16 Stimatori della varianza degli stimatori Teorema 5.17 Teorema 5.17 5.6 5.6.1 Appendici Appendice 1 Dimostrazione del Teorema 5.1 bR − βR s (y, z) − s (η, ζ) s2 (z) − s2 (ζ) − s (y, z) . s2 (ζ) [s2 (ζ)]2 Dimostrazione Le coppie di valori (yi , zi ) appartenenti al campione sono realizzazioni dei valori di popolazione. Tali valori possono essere espressi in termini della retta di popolazione (5.5): yi = m (η) + βR [zi − m (ζ)] + ẽRi , dove ẽRi = εRli Daniela Cocchi: Teoria dei Campioni (5.35) 5.6. APPENDICI 156 sono i residui della retta di popolazione associati ai valori effettivamente campionati, la cui media non è nulla. Calcolando la media dei valori campionari (5.35): m (y) = m (η) + βR (m (z) − m (ζ)) + m (ẽR ) , e, sostituendo l’espressione così ottenuta nella (5.13), si ricava: mR (y) = m (η) + βR [m (z) − m (ζ)] + m (ẽR ) + bR [m (ζ) − m (z)] = m (η) + (bR − βR ) [m (ζ) − m (z)] + m (ẽR ) . (5.36) Il denominatore di bR = s(y,z) s2 (z) può essere scritto come: 1 1 = 2 2 (ζ) s2 (z) 2 s (ζ) 1 + s (z)−s 2 s (ζ) e, sotto la condizione 0 < s2 (z) < 2s2 (ζ), può essere ricondotto allo sviluppo in serie 1 1 1 1 1 = 1 − a + a2 − a3 + .... 1+ a Effettuando il troncamento al termine di primo ordine, vale a dire conservando i termini che moltiplicano per n1 e tralasciando quelli che moltiplicano per n12 , si ottiene l’approssimazione: 1 s2 (z) − s2 (ζ) 1 s2 (z) − s2 (ζ) 1 1 − = − . s2 (z) s2 (ζ) s2 (ζ) s2 (ζ) s4 (ζ) Si può scrivere allora la forma troncata: bR − βR s (y, z) s (η, ζ) − 2 s2 (z) s (ζ) 1 s2 (z) − s2 (ζ) s (η, ζ) s (y, z) − − 2 s2 (ζ) s (ζ) [s2 (ζ)]2 = = = 5.6.2 s (y, z) s2 (z) − s2 (ζ) s (η, ζ) − s (y, z) − 2 2 2 2 s (ζ) s (ζ) [s (ζ)] 2 2 s (y, z) − s (η, ζ) s (z) − s (ζ) − s (y, z) . s2 (ζ) [s2 (ζ)]2 Appendice 2 Dimostrazione del Teorema 5.2 Lo stimatore (5.13) di m (η) è approssimativamente corretto: E [mR (y)] m (η) . Daniela Cocchi: Teoria dei Campioni CAPITOLO 5. LA STIMA PER REGRESSIONE 157 Dimostrazione Applicando l’operatore speranza allo stimatore mR (y) espresso secondo la (5.35) si ha: E [mR (y)] = m (η) − E [(bR − βR ) [m (z) − m (ζ)]] + E [m (ẽR )] , (5.37) dove E [m (ẽR )] = m (εR ) = 0. (5.38) Sostituendo la (5.15) nella (5.37) si ottiene: 1 s (y, z) − s (η, ζ) E [mR (y)] m (η) − E [m (z) − m (ζ)] + s2 (ζ) 2 ! 1 s (z) − s2 (ζ) s (y, z) [m (z) − m (ζ)] . 2E 2 [s (ζ)] Ricordando che s (η, ζ) = E [s (z, y)] , m (ζ) = E [m (z)] segue che: E [mR (y)] m (η) − + 1 s4 (ζ) C [s (y, z) , m (z)] s2 (ζ) 2 ! E s (z) − s2 (ζ) s (y, z) [m (z) − m (ζ)] , (5.39) dove gli ultimi due termini sono dello stesso ordine della parte che è già stata troncata: 1 E [mR (y)] = m (η) + O n2 e quindi lo stimatore può essere considerato approssimativamente corretto. 5.6.3 Appendice 3 Confronto di efficienza tra lo stimatore per regressione e lo stimatore di Hansen Hurwitz nel campionamento con reintroduzione Teorema 5.13 La strategia consistente nel campionamento casuale semplice e stimatore per regressione è preferibile alla strategia di campionamento a probabilità variabile associato allo stimatore di Hansen-Hurwitz se si verifica la condizione: 2 εR , ζ < 0. (5.40) v ζ Dimostrazione L’equivalente della (5.19), nel caso di campionamento con reintroduzione, direttamente dalla (2.15) è il risultato approssimato: Daniela Cocchi: Teoria dei Campioni 5.6. APPENDICI 158 V [mR (y)] 1 2 v (εR ) , n (5.41) mentre la varianza dello stimatore di Hansen-Hurwitz può essere scritta, secondo la (3.57), come: V [mHH (y)] = 1 2 η2 v (η) − v ζ, . n ζ In termini di rapporto tra le precisioni si deve verificare la condizione: Π (p.v.) [mHH (y)] (c.c.s) [mR (y)] V [mR (y)] < 1. V [mHH (y)] 2 1 2 1 2 η v (εR ) < v (η) − v ,ζ , n n ζ (5.42) Considerando che α è costante, si può scrivere: v2 (εR ) = v 2 (η − α − βR ζ) = v 2 (η − βR ζ) 2 2 = v 2 (η) + βR v (ζ) − 2βR v (η, ζ) = v (η, ζ) 2 2 = v 2 (η) + βR v (ζ) − 2 2 v (η, ζ) = v (ζ) 2 2 2 2 = v 2 (η) + βR v (ζ) − 2βR v (ζ) = 2 2 = v 2 (η) − βR v (ζ) , (5.43) da cui 2 2 βR v (ζ) = v2 (η) − v2 (εR ) . (5.44) Pertanto la (5.41) può essere scritta come: V [mR (y)] ! 1 2 1 2 2 2 v (εR ) = v (η) − βR v (ζ) n n e quindi la (5.42) è verificata se: 2 2 − βR v (ζ) < −v η2 ,ζ . ζ E’ conveniente esprimere la disuguaglianza in funzione di v scopo, scrivendo: (5.45) " ε2R ζ ,ζ 2 2 ε2R = η2 + βR ζ − 2βR ζη + α2 − 2α(η + βR ζ) e omettendo i termini che moltiplicano per α costante, si ottiene: Daniela Cocchi: Teoria dei Campioni # . A questo CAPITOLO 5. LA STIMA PER REGRESSIONE v ε2R ,ζ ζ 159 1 2 2 2 =v η − 2βR ζη + βR ζ , ζ ζ 2 η 2 2 , ζ − 2βR v (η, ζ) + βR v (ζ) =v ζ 2 η 2 2 2 2 =v , ζ − 2βR v (ζ) + βR v (ζ) ζ 2 η 2 2 , ζ − βR v (ζ) , =v ζ da cui, per la (5.44): v η2 ,ζ ζ =v ε2R ,ζ ζ 2 2 + βR v (ζ) . (5.46) La disuguaglianza (5.45) può essere scritta tramite la (5.46): 2 εR 2 2 2 2 βR v (ζ) > v , ζ + βR v (ζ) . ζ La condizione richiesta affinchè il campionamento a probabilità variabile sia preferibile all’impiego di uno stimatore per regressione è quindi 2 εR , ζ < 0. v ζ Corollario 5.2 La condizione per cui lo stimatore per regressione impiegato nel campionamento casuale semplice con reintroduzione è preferibile al campionamento a probabilità variabile associato allo stimatore di Hansen-Hurwitz è: 2 ε m ε2R < m R m (ζ) . (5.47) ζ Dimostrazione Basta osservare che: 2 2 2 εR ε εR v ,ζ = m ζ − m R m (ζ) . ζ ζ ζ Daniela Cocchi: Teoria dei Campioni 5.6. APPENDICI 160 Daniela Cocchi: Teoria dei Campioni Capitolo 6 Campionamento stratificato Ultima revisione: 16 febbraio 2011 La conoscenza del valore di una variabile ausiliaria per ciascun elemento della popolazione rende possibile la suddivisione della popolazione in gruppi. Questa informazione può essere impiegata per progettare piani di campionamento che permettano di ottenere un’inferenza più accurata sulla variabile di interesse rispetto al caso in cui non si prevede la ripartizione degli elementi della popolazione in sottogruppi. Nel campionamento stratificato, i parametri di popolazione t (η) e m (η) sono stimati a partire da un campione di dimensione n formato dall’unione di sk , k = 1, ..., M , campioni casuali, ciascuno di dimensione nk estratti a probabilità costante o variabile da ognuno degli M strati. Il campione ha quindi una dimensione pari alla somma delle dimensioni dei campioni estratti dai diversi strati di dimensione Nk : sk = {li : 1 ≤ li ≤ Nk , 1 ≤ i ≤ nk } s= M sk n= k=1 M nk . k=1 Nel corso del capitolo viene presentata per esteso la teoria che, all’interno di ciascuna sottopopolazione di dimensione Nk , prevede un campionamento casuale semplice. L’estensione al campionamento a probabilità variabile è comunque immediata. Viene descritto principalmente il caso di estrazioni senza reintroduzione (i confronti con il campionamento con reintroduzione saranno introdotti quando necessario). Tra le condizioni che rendono vantaggiosa la stratificazione si possono elencare le seguenti: a) la popolazione oggetto di studio può essere ripartita in gruppi, in modo che ciascun gruppo sia relativamente omogeneo al suo interno e diverso dagli altri gruppi; b) i campioni vengono estratti in modo indipendente da ciascuno strato; in tal modo si possono applicare i risultati teorici del campionamento da una 161 162 popolazione di unità elementari di dimensione N al campionamento da ogni strato di dimensione Nk ; c) se ci sono dei raggruppamenti “naturali“, si desidera rappresentarli convenientemente nel campione; d) la popolazione oggetto d’interesse è ripartita in sottopopolazioni e non è disponibile una lista unica delle unità elementari, ma esistono liste separate per ogni sottopolazione. Con il campionamento stratificato si persegue il miglioramento della precisione degli stimatori dei parametri della popolazione rispetto al campionamento dall’intera popolazione di unità elementari, sfruttando la possibilità di campionare separatamente all’interno di diverse sottopopolazioni, e quindi meglio rappresentando la popolazione stessa. La conoscenza di variabili ausiliarie in popolazione è alla base dell’adozione di strategie diverse da quelle basate sul campionamento casuale semplice e sull’impiego di stimatori diretti. Le informazioni ausiliarie possono essere usate per costituire gruppi. Condizione necessaria per la realizzazione del campionamento stratificato è la conoscenza, per ciascun elemento della popolazione, del valore di una variabile ausiliaria per assegnare ciascun elemento della popolazione ad uno di M strati esaustivi e mutualmente esclusivi. La suddivisione di una popolazione in strati è un esempio di raggruppamento di unità elementari in unità complesse. Elenchiamo alcune motivazioni che confermano la grande popolarità di questa tecnica. La stratificazione può fornire notevoli guadagni nell’efficienza delle stime senza uscire dall’idea del campionamento casuale semplice, che continua a valere all’interno degli strati. E’ l’unico procedimento che assicura valutazioni all’interno di ciascuna sottopopolazione. Di solito non dà risultati peggiori del campionamento casuale semplice, a meno che non si verifichi un’allocazione del campione che stravolga completamente le considerazioni sulla omogeneità all’interno degli strati e sull’importanza relativa degli strati stessi. Se la suddivisione in strati, e quindi la conoscenza dei valori della variabile ausiliaria, non è costosa da ottenere, vale la pena di impiegare questa tecnica. L’onerosità di questo metodo sta nell’obbligo di costruire tante liste quante sono le sottopopolazioni evidenziate. A questo riguardo si vedrà che meno impegnativo è invece il campionamento a grappolo che segue la logica opposta a quella della stratificazione. La procedura di campionamento stratificato richiede scelte preliminari riguardo: • all’individuazione di un criterio di stratificazione, che può fare riferimento ad una o più variabili ausiliarie; • alla determinazione del numero degli strati; • alla definizione dei valori soglia che determinano l’appartenenza allo strato, nel caso in cui la variabile di stratificazione sia continua; • alla scelta di un criterio di allocazione, vale a dire di assegnazione delle nk unità campionarie in ogni strato. Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 6.1 163 [Il campionamento stratificato s. r.]Il campionamento stratificato senza reintroduzione di dimensione n Come è stato già accennato nell’introduzione, in questo capitolo viene illustrato il caso di campionamento a probabilità costante all’interno di ciascuno strato. 6.1.1 Probabilità dei campioni non ordinati Il campionamento stratificato senza reintroduzione prevede l’estrazione di campioni indipendenti da ogni strato k (k = 1, ..., M) in cui è stata suddivisa la popolazione. Nel caso di campionamento casuale semplice all’interno di ciascuno strato, la probabilità di estrazione di un campione casuale semplice senza reintroduzione per il k-esimo strato è data direttamente dalla (2.41), cioè: p (sk ) = 1 Nk nk ∀k = 1, .., M . Poiché il campione è costituito dagli M campioni indipendenti, la probabilità di estrazione del campione s dalla popolazione è data dalla: p(s) = M 3 p (sk ) k=1 k=1 = 6.1.2 M 3 1 Nk nk ∀s ∈ S{n} . (6.1) Probabilità di inclusione Le probabilità di inclusione vengono ricavate a partire dai risultati sul campionamento casuale semplice senza reintroduzione per ciascuna sottopopolazione di numerosità Nk . La probabilità di inclusione di primo ordine, direttamente dalla (2.104), sono: πλ = P (λ ∈ s) = P (λ ∈ sk ) = nk Nk 1≤k≤M . 1 ≤ λ ≤ Nk (6.2) Per ricavare le probabilità di inclusione di secondo ordine per le coppie di unità che appartengono ad uno stesso strato si ha: λ; λ ⊆ s = P λ; λ ⊆ sk nk nk − 1 1≤k≤M = 1 ≤ λ = λ ≤ Nk Nk Nk − 1 πλλ = P (6.3) mentre, se si considera una coppia di unità che appartengono a strati diversi si ottiene: Daniela Cocchi: Teoria dei Campioni 6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI 164 DIMENSIONE N " # λ; λ ⊆ s = P (λ ∈ sk ) ∩ λ ∈ sh " # = P (λ ∈ sk ) · P λ ∈ sh πλλ = P = πλ πλ = 6.1.3 1 ≤ k, h ≤ M 1 ≤ λ ≤ Nk . 1 ≤ λ ≤ Nh nk nh Nk Nh (6.4) Inferenza sulla media di popolazione Per lo studio degli stimatori della media di popolazione è fondamentale la descrizione della popolazione ripartita in M sottopolazioni introdotta nel paragrafo 1.1.3, in cui la media generale (1.26) è ricavata come media ponderata delle medie di gruppo. La devianza globale può essere scomposta, come illustrato nella (1.34) e nella (1.40), in due componenti additive, la devianza entro gruppi e la devianza tra gruppi. Si tralascia, per il momento, il problema legato all’allocazione del campione rispetto ai diversi strati e la si consideri prefissata. Lo stimatore della media di popolazione Utilizzando la teoria del campionamento casuale semplice senza reintroduzione, lo stimatore lineare omogeneo per la media di ciascuno strato in popolazione è: m(yk ) = nk 1 t(yk ) yi = nk i=1 nk 1 ≤ k ≤ M, (6.5) Teorema 6.1 Lo stimatore media campionaria di strato stima correttamente la media di strato (1.25): E [m(yk )] = m(ηk ) 1 ≤ k ≤ M. Dimostrazione La dimostrazione di tale teorema è immediata perché si basa sulle proprietà del campionamento casuale semplice, già viste nel Capitolo 2. Lo stimatore per la media in popolazione nel campionamento stratificato è: ms (y) = M 1 Nk m(yk ). N k=1 Daniela Cocchi: Teoria dei Campioni (6.6) CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 165 Teorema 6.2 Lo stimatore (6.6) è corretto per m(η). Dimostrazione M 1 E [ms (y)] = E Nk m(yk ) N k=1 = M M 1 1 Nk E [m(yk )] = Nk m(ηk ) N N k=1 k=1 1 = t(η) = m(η). N Lo stimatore (6.6) è costituito da una combinazione lineare di stimatori di strato. Poichè i pesi della combinazione lineare sono dati dalle frequenze relative degli strati in popolazione, questi stimatori sono a loro volta corretti. Varianza dello stimatore della media Teorema 6.3 La varianza dello stimatore della media di popolazione nel caso di campionamento stratificato è la varianza della combinazione lineare degli stimatori delle medie di strato: V [ms (y)] = M 1 2 N V [m(yk )] , N 2 k=1 k (6.7) dove V [m(yk )] è la varianza (2.53) dello stimatore della media nel campionamento casuale semplice senza reintroduzione all’interno dello strato: Nk − nk v2 (ηk ) Nk − 1 nk Nk − nk s2 (ηk ) = . Nk nk V [m(yk )] = (6.8) (6.9) Dimostrazione Il risultato deriva dalla considerazione che l’estrazione delle unità da ogni strato avviene in modo indipendente, rendendo nulle quindi le covarianze tra quantità aleatorie provenienti da strati diversi. V [ms (y)] = V = 1 N2 M 1 Nk m(yk ) N k=1 M Nk2 V [m(yk )] . k=1 Corollario 6.1 A seconda della quantità descrittiva di popolazione utilizzata per indicare la variabilità di strato, la varianza dello stimatore (6.6) sarà: Daniela Cocchi: Teoria dei Campioni 6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI 166 DIMENSIONE N V [ms (y)] = M 1 Nk2 (Nk − nk ) v2 (ηk ) N2 (Nk − 1) nk k=1 M 1 s2 (ηk ) N (N − n ) k k k N2 nk k=1 M 1 2 1 1 = 2 Nk − s2 (ηk ). N nk Nk = (6.10) k=1 Nel caso in cui le Nk assumano valori elevati, si può ricorrere ad espressioni approssimate per la varianza dello stimatore della media nel caso di campionamento stratificato. Dalle espressioni delle varianze appena proposte si può osservare che, se all’interno di uno strato tutti gli elementi presentano lo stesso valore della variabile oggetto d’interesse, il contributo della varianza di quello strato alla varianza dello stimatore della media globale è nullo. Si giustifica così l’affermazione secondo la quale la stratificazione è vantaggiosa quando, a parità di varianza complessiva in popolazione, gli strati costituiscono gruppi omogenei al loro interno, tanto più piccole sono le s2 (ηk ). Se in una popolazione ripartita in strati in qualche strato viene effettuato un censimento, la varianza di quello strato non contribuisce alla varianza dello stimatore. Per gli strati censiti, il contributo alla varianza dello stimatore è zero in quanto è nulla la differenza (Nk − nk ). La varianza dello stimatore di stratificazione dipende soltanto dalle varianze di popolazione all’interno dei sottogruppi, opportunamente pesate, e non dalla varianza descrittiva di popolazione. Di solito, quindi, la stratificazione dà luogo ad uno stimatore con varianza inferiore a quella del campionamento casuale semplice con la stessa dimensione campionaria. Esempio 6.1 Stima della media di popolazione mediante la media campionaria nel caso di campionamento stratificato; valutazione della correttezza e della precisione di tale stima. Riprendendo l’esempio 2.3, si consideri la seguente ripartizione in due strati della popolazione di 4 elementi: k Nk ηkλ m (ηk ) s2 (ηk ) 1 . 2 3, 4 3.5 0.5 2 2 10, 7 8.5 4.5 Si estraggono da ogni strato campioni di dimensione nk = 1 con campionamento casuale semplice senza reintroduzione. L’universo dei possibili campioni non ordinati ha dimensione C2,1 · C2,1 = 4, quindi per la (6.1) ciascun campione ha probabilità 41 , e l’universo è costituito dalle seguenti 4 coppie di osservazioni campionarie yk : (3, 10) (4, 10) (3, 7) (4, 7) Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 167 Infatti con la stratificazione si effettua una riduzione della dimensione dello spazio dei campioni rispetto alla dimensione dell’universo dei campioni relativo all’intera popolazione. Poichè si estrae un solo elemento per ogni gruppo, le medie campionarie di gruppo coincidono con l’osservazione stessa. I valori campionari dello stimatore della media (6.6) ed i relativi quadrati m2s (y), sono riportati nelle tabelle seguenti: y1 \y2 3 4 y1 \y2 3 4 10 6.5 7.0 7 5.0 5.5 10 42.25 49.00 7 25.00 30.25 In base al Teorema 6.2 si ottiene: E [ms (y)] = m (η) = 6, Tale proprietà può essere verificata nell’universo dei campioni: E [ms (y)] = ms (y) p (s) s∈S2 = 1 (6.5 + 7 + 5 + 5.5) = 6. 4 Analogamente, per la varianza si ottiene, direttamente dalla (6.10): V [ms (y)] = 2 2 (2 − 1) k=1 = 16 s2 (ηk ) 1 (0.5 + 4.5) = 0.625, 8 oppure, ricorrendo all’universo dei campioni: ! 2 ms (y) p (s) E m2s (y) = s∈S = 1 (42.25 + 49 + 25 + 30.25) = 36.625, 4 quindi ! V [ms (y)] = E m2s (y) − E 2 [ms (y)] = 36.625 − 36 = 0.625. La varianza dello stimatore proposto nel caso della stratificazione è più piccola di quella dello stimatore della media del campionamento casuale semplice, Daniela Cocchi: Teoria dei Campioni 6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI 168 DIMENSIONE N calcolata con la (2.57) in quanto, con la definizione del piano di campionamento stratificato, sono state eliminate le coppie con la media campionaria m(y) più lontana dalla media m(η). Non sarà possibile stimare la varianza dello stimatore con i dati ottenuti da questo piano di campionamento: all’interno di ciascuno strato le varianze non possono essere stimate perché il campione all’interno di ciascuno strato ha dimensione 1. Uno stimatore per la varianza dello stimatore della media Per stimare la varianza (6.10) dello stimatore ms (y), si propone la quantità: V̂ [ms (y)] = M Nk (Nk − nk ) s2 (yk ) N2 nk M 1 2 1 1 N − s2 (yk ). k N2 nk Nk k=1 = (6.11) k=1 Correttezza dello stimatore per la varianza dello stimatore della media Teorema 6.4 Lo stimatore (6.11) è corretto per la quantità V [ms (y)] . Dimostrazione Poiché all’interno di ciascuno strato valgono tutte le proprietà del campionamento casuale semplice senza reintroduzione, in particolare vale: ! E s2 (yk ) = s2 (ηk ), e quindi: M Nk (Nk − nk ) s2 (yk ) E V̂ [ms (y)] = E N2 nk k=1 M ! 1 2 1 1 Nk − E s2 (yk ) = N2 nk Nk k=1 M 1 2 1 1 N − s2 (ηk ). = k N2 nk Nk k=1 6.1.4 Inferenza sul totale di popolazione Anche in questo caso, come era già stato osservato per l’inferenza sulla media di popolazione, è fondamentale il riferimento alla descrizione della popolazione ripartita in M sottopolazioni introdotta nel paragrafo 1.1.3. Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 169 Lo stimatore del totale di popolazione Il totale di gruppo (1.23), analogamente a quanto visto per la media, è stimato correttamente dallo stimatore di espansione (2.50) calcolato nello strato: tE (yk ) = Nk m(yk ) = Nk t(yk ) nk 1 ≤ k ≤ M. (6.12) Lo stimatore del totale di popolazione nel campionamento stratificato è: ts (y) = M tE (yk ) = k=1 M Nk m(yk ). (6.13) k=1 Teorema 6.5 Lo stimatore (6.13) è corretto per t(η). Dimostrazione M E [ts (y)] = E Nk m(yk ) k=1 = M Nk E [m(yk )] = k=1 M Nk m(ηk ) = t(η). k=1 Varianza dello stimatore del totale Teorema 6.6 La varianza dello stimatore del totale in popolazione nel caso di campionamento stratificato è pari a: V [ts (y)] = M Nk2 V [m(yk )] , (6.14) k=1 dove V [m(yk )] è la varianza (6.9)o (6.8) dello stimatore della media nel campionamento casuale semplice senza reintroduzione all’interno dello strato. Analogamente a quanto visto per la media è possibile proporre versioni alternative della (6.14), esposte nel seguente Corollario: Corollario 6.2 A seconda della quantità descrittiva di popolazione utilizzata per indicare la variabilità di strato, la varianza dello stimatore (6.13) è: V [ts (y)] = M N 2 (Nk − nk ) v2 (ηk ) k k=1 (Nk − 1) M Nk (Nk − nk ) nk s2 (ηk ) nk k=1 M 1 1 = Nk2 − s2 (ηk ). nk Nk = k=1 Daniela Cocchi: Teoria dei Campioni (6.15) 6.1. [IL CAMPIONAMENTO STRATIFICATO S. R.]IL CAMPIONAMENTO STRATIFICATO SENZA REINTRODUZIONE DI 170 DIMENSIONE N Uno stimatore per la varianza dello stimatore del totale Per stimare la varianza (6.15) dello stimatore ts (y), si propone la quantità: V̂ [ts (y)] = N 2 V̂ [ms (y)] = N 2 = M Nk2 k=1 M Nk (Nk − nk ) s2 (yk ) N2 k=1 1 1 − nk Nk s2 (yk ). nk (6.16) Correttezza dello stimatore per la varianza dello stimatore del totale Teorema 6.7 Lo stimatore (6.16) è corretto per la quantità V [ts (y)] . Dimostrazione L’estrazione di un campione da ogni strato avviene mediante un campionamento casuale semplice senza reintroduzione e vale la: ! E s2 (yk ) = s2 (ηk ). quindi: M Nk (Nk − nk ) s2 (yk ) 2 E V̂ [ts (y)] = E V̂ [Nms (y)] = E N N2 nk k=1 M ! 1 1 2 = Nk − E s2 (yk ) n N k k k=1 M 1 1 = Nk2 − s2 (ηk ) nk Nk k=1 6.1.5 Stima per variabili dicotomiche: la proporzione e il totale Nel caso particolare in cui la variabile η è dicotomica, lo stimatore per la proporzione in popolazione diventa: ps = M 1 Nk pk . N k=1 (6.17) Teorema 6.8 Lo stimatore (6.17) è uno stimatore corretto della proporzione π. Dimostrazione M M 1 1 E [ps ] = E Nk pk = Nk E(pk ) N N = k=1 k=1 M 1 Nk πk = π N k=1 Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 171 dove le πk sono le proporzioni nello strato k-esimo della popolazione. La stima del numero totale di elementi della popolazione che possiedono un carattere dicotomico nel caso di campionamento stratificato è: τ,s = M k=1 τ,k = M Nk pk (6.18) k=1 Analogamente a quanto già mostrato per la stima, nel caso di campionamento stratificato, della media, del totale e della proporzione, vale il seguente teorema, la cui dimostrazione non è riportata in quanto è immediata. Teorema 6.9 Lo stimatore (6.18) è uno stimatore corretto del totale τ . Le varianze degli stimatori (6.17) e (6.18) sono equivalenti a quelle viste per media e totale; infatti la proporzione è la media di un carattere dicotomico, mentre l’espressione per il totale si ottiene facilmente, sfruttando la relazione che lega media e totale; dalle (6.10) e (??). Teorema 6.10 La varianza dello stimatore della proporzione in popolazione nel caso di campionamento stratificato è: V [ps ] = V [ps ] M 1 2 1 1 N − s2 (ηk ) k N2 nk Nk k=1 M 1 1 2 1 Nk − πk (1 − πk ) N2 nk Nk (6.19) k=1 Dimostrazione La varianza del carattere nello strato k-esimo è pari a: Nk πk (1 − πk ) Nk − 1 πk (1 − πk ). s2 (ηk ) = (6.20) Sostituendo la (6.20) nella (6.10) si avrà dunque: V [ps ] = M 1 2 1 1 N − s2 (ηk ) k N2 nk Nk k=1 Se Nk è tale che Nk 1 allora potremo scrivere che Nk − 1 M 1 2 1 1 N − πk (1 − πk ) N 2 k=1 k nk Nk M Nk2 Nk − nk πk (1 − πk ) N2 nk Nk k=1 Nota. I passaggi appena presentati sono l’equivalente del Corollario 6.1. Daniela Cocchi: Teoria dei Campioni 172 6.2. CAMPIONAMENTO STRATIFICATO PROPORZIONALE Teorema 6.11 La varianza dello stimatore del numero totale di unità che possiedono un carattere dicotomico in una popolazione stratificata è: 1 1 − s2 (ηk ) nk Nk k=1 M Nk − nk Nk2 πk (1 − πk ) nk Nk V [τ̂s ] = M Nk2 (6.21) k=1 Stimatori per la varianza dello stimatore della proporzione e del totale per variabili dicotomiche Per stimare la varianza (6.19) dello stimatore ps , si propone la quantità: V̂ [ps ] = M Nk (Nk − nk ) s2 (yk ) N2 nk M 1 1 2 1 N − s2 (yk ). k N2 nk Nk k=1 = (6.22) k=1 dove s2 (yk ) = nk pk (1 − pk ). nk − 1 Analogamente, per stimare la varianza (6.21) dello stimatore τ̂s , si propone la quantità: V̂ [τ̂s ] = M k=1 Nk (Nk − nk ) s2 (yk ) . nk (6.23) Teorema 6.12 Gli stimatori (6.22) e (6.23) sono corretti rispettivamente per la (6.19) e la (6.21). Nota. Se si preferisce utilizzare uno stimatore della varianza che non contenga lo stimatore della quantità oggetto di studio come nella (6.22), si può fare l’assunzione conservativa pari a 0.25 riguardo alla varianza di ciascuno strato e modificare conseguentemente lo stimatore della varianza per ciascuno strato. 6.2 Campionamento stratificato proporzionale Quando le frazioni di campionamento sono costanti in ogni strato, allora: fk = nk n = =f Nk N 1 ≤ k ≤ M. Daniela Cocchi: Teoria dei Campioni (6.24) CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 173 L’allocazione risultante è detta proporzionale. Le numerosità campionarie per ogni strato possono essere espresse dalla: Nk 1 ≤ k ≤ M. (6.25) N L’allocazione proporzionale nk = fNk dà luogo a campioni che hanno la proprietà di essere autoponderanti, ossia le probabilità di inclusione di primo e secondo ordine sono costanti per ogni unità statistica. Infatti, le probabilità di inclusione del primo ordine (6.2) in caso di allocazione proporzionale sono pari a: nk n πλ = = 1 ≤ λ ≤ Nk . Nk N nk = n Le probabilità di inclusione del secondo ordine nel caso in cui le unità appartengano allo stesso strato (6.3) sono pari a: nk nk − 1 n n−1 πλλ = = 1 ≤ λ = λ ≤ Nk ; Nk Nk − 1 N N −1 mentre le probabilità di inclusione del secondo ordine nel caso in cui le unità appartengano a strati diversi sono: nk nh n "n# n2 1 ≤ λ ≤ Nk πλλ = = = 2 . 1 ≤ λ ≤ Nh Nk Nh N N N Costruendo il campione in questo modo le intensità del campionamento nei diversi strati sono tutte uguali. Viene riprodotta la situazione del campionamento casuale semplice con la garanzia di eguale rappresentazione di ciascuno strato nel campione. L’allocazione proporzionale è l’unica che permette di fare calcoli anche con i pacchetti statistici tradizionali (in quanto questi lavorano sempre sotto l’ipotesi di campionamento casuale semplice). 6.2.1 Stimatore per la media e per il totale in caso di stratificazione proporzionale Teorema 6.13 Quando si usa l’allocazione proporzionale, lo stimatore della media (6.6) coincide con la media campionaria non ponderata valutata nell’intero campione, stimatore naturale nel campionamento casuale semplice: msp (y) = m(y). (6.26) Dimostrazione msp (y) = nk nk M M 1 Nk 1 1 yki = yki N nk i=1 N f i=1 k=1 k=1 M nk M nk 1 N 1 = yki = yki = m(y). N n n i=1 i=1 k=1 k=1 Il campionamento stratificato proporzionale è il solo campionamento stratificato che possiede questa proprietà. La proprietà appena enunciata vale anche per il totale. Daniela Cocchi: Teoria dei Campioni 174 6.2. CAMPIONAMENTO STRATIFICATO PROPORZIONALE Teorema 6.14 Lo stimatore del totale nel campionamento stratificato proporzionale coincide con lo stimatore di espansione tsp (y) = tE (y). 6.2.2 (6.27) Varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale Teorema 6.15 La varianza dello stimatore (6.26) è: V [msp (y)] = M 1 s2 (ηk ) N (N − n ) k k k N2 nk k=1 M = N −n Nk s2 (ηk ) nN 2 (6.28) k=1 M = N − n Nk2 2 v (ηk ). nN 2 Nk − 1 (6.29) k=1 Dimostrazione Dalla (6.24) nel caso di allocazione proporzionale si possono effettuare le semplificazioni presentate nell’enunciato del teorema, dato che: Nk − nk Nk 1 1−f = −1= −1 = nk nk f f n 1− N N −n (N − n)N = n = = . Nn n N Corollario 6.3 Un’espressione alternativa per la varianza dello stimatore della media nel caso di campionamento stratificato proporzionale espressa dalla (6.28) è: V [msp (y)] = Dimostrazione Se si definisce s̄2 (η) = N −n 2 s̄ (η) nN M 1 Nk s2 (ηk ), N (6.30) (6.31) k=1 che è una quantità descrittiva di popolazione formalmente simile alla varianza entro (1.35), ma calcolata con denominatori uguali a Nk − 1 per ciascuna componente invece che uguali a Nk , si può riscrivere la (6.28) mediante l’espressione (6.30). La (6.30) è la formulazione della varianza dello stimatore della media nel caso di stratificazione proporzionale più adatta per effettuare il confronto di efficienza con il campionamento casuale semplice. Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 175 Teorema 6.16 La varianza dello stimatore (6.27) è: V [tsp (y)] = N N −n 2 s̄ (η) n (6.32) Dimostrazione V [tsp (y)] = M k=1 = Nk (Nk − nk ) s2 (ηk ) nk M N −n Nk s2 (ηk ) n k=1 M = N − n Nk2 2 v (ηk ) n Nk − 1 k=1 N −n 2 =N s̄ (η). n 6.2.3 Uno stimatore per la varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale (estrazione senza reintroduzione) L’espressione (6.30) può essere stimata mediante la: V̂ [msp (y)] = N −n 2 s̄ (y) nN (6.33) Teorema 6.17 Lo stimatore (6.33) è uno stimatore corretto per la (6.30). Dimostrazione Poiché s2 (yk ) è stimatore corretto di s2 (ηk ), in quanto è stato effettuato un campionamento casuale semplice senza reintroduzione da ogni strato, allora : M 1 s̄ (y) = Nk s2 (yk ) N 2 (6.34) k=1 è stimatore corretto di s̄2 (η), e quindi lo stimatore (6.33) è stimatore corretto della varianza (6.29). Analogamente, la stessa condizione vale anche per lo stimatore del totale: Corollario 6.4 L’espressione (6.32) può essere stimata dalla: N −n 2 s̄ (y). n Se le dimensioni degli strati Nk sono elevate, la varianza dello stimatore msp (y) nel campionamento senza reintroduzione approssima quella del campionamento con reintroduzione. In Appendice 1 sono riportati vari risultati al riguardo. V̂ [tsp (y)] = N Da qui in poi presentiamo i risultati riguardanti la stima della media. I risultati per il totale sono una loro facile estensione. Daniela Cocchi: Teoria dei Campioni 176 6.3. [EFFICIENZA DEL CAMPIONAMENTO STRAT. PROP.]CONFRONTO DI EFFICIENZA TRA IL CAMPIONAMENTO CASUALE SEMPLICE SENZA REINTRODUZIONE E IL CAMPIONAMENTO STRATIFICATO PROPORZIONALE 6.3 [efficienza del campionamento strat. prop.]Confronto di efficienza tra il campionamento casuale semplice senza reintroduzione e il campionamento stratificato proporzionale Il confronto di efficienza tra gli stimatori media campionaria nel caso di campionamento casuale semplice senza reintroduzione e nel caso di campionamento stratificato proporzionale viene effettuato attraverso il rapporto delle precisioni: 3 (c.c.s) [m (y)] 1 Deff = (SP ) [msp (y)] Se il Deff<1, allora il campionamento stratificato proporzionale è più efficiente del campionamento casuale semplice. Teorema 6.21 Il campionamento stratificato proporzionale è più efficiente del campionamento casuale semplice. Dimostrazione Riprendendo le espressioni (2.53) e (6.29) delle varianze: V [m (y)] = N −n 1 2 v (η) , N −1 n M V [msp (y)] = N − n Nk2 2 v (ηk ) nN 2 Nk − 1 k=1 Sfruttando il rapporto delle precisioni e poiché i due stimatori sono corretti, la valutazione può essere fatta in termini di varianze. Si ha dunque: 3 (c.c.s) [m (y)] 1 V [msp (y)] Deff = = (SP ) [msp (y)] V [m (y)] M 1 Nk 2 N Nk −1 Nk v (ηk ) k=1 = < 1. N 2 N−1 v (η) Se Nk Nk −1 → 1 allora, in base alla (1.35) vale la relazione V [msp (y)] v2 (η) = e2 < 1. V [m (y)] v (η) Ossia: ve2 (η) < v2 (η). (6.35) Tale condizione è sempre verificata. L’uguaglianza corrisponde al caso in cui è indifferente effettuare la stratificazione. Quindi, il campionamento stratificato rappresentativo è tanto più efficiente del campionamento casuale semplice quanto più è piccola la varianza entro gli strati. La conclusione a cui si arriva con questo teorema è molto generica. Sotto condizioni particolari si può arrrivare a conclusioni più precise. Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 6.3.1 177 Caso particolare di strati della stessa ampiezza Quando gli strati sono della stessa ampiezza si ha il caso particolare: Nk N = N0 = MN0 nk = n0 n = Mn0 Teorema 6.22 Il campionamento stratificato con strati della stessa ampiezza è più efficiente del campionamento casuale semplice quando: s2t (η) > 1. s2e (η) (6.36) Dimostrazione In questo caso il rapporto delle precisioni diventa: 3 (c.c.s) [m (y)] 1 V [msp (y)] Def f = = (SP ) [msp (y)] V [m (y)] M N0 1 N0 v2 (ηk ) N N k=1 N0 −1 = N −1 vt2 (η) + ve2 (η) = N0 2 N0 −1 ve (η) N 2 2 N−1 [vt (η) + ve (η)] N0 M N0 − 1 ve2 (η) N0 − 1 MN0 vt2 (η) + ve2 (η) ve2 (η) N −1 . = N − M vt2 (η) + ve2 (η) = Ne segue che tale rapporto è inferiore all’unità se e solo se si verifica: N −1 ve2 (η) <1 N − M vt2 (η) + ve2 (η) ve2 (η) N −M < 2 2 vt (η) + ve (η) N −1 vt2 (η) + ve2 (η) N −1 > 2 ve (η) N −M vt2 (η) N −1−N +M > 2 ve (η) N −M Quindi, la condizione per cui il campionamento stratificato rappresentativo nel caso di strati della stessa ampiezza è più efficiente del campionamento casuale semplice diventa: vt2 (η) M −1 > ve2 (η) N −M che equivale, usando le varianze (1.38) e (1.39), a s2t (η) > 1. s2e (η) Daniela Cocchi: Teoria dei Campioni 178 6.4. CAMPIONAMENTO STRATIFICATO OTTIMALE La condizione (6.36) è cruciale per valutare la bontà dell’allocazione proporzionale, seppure nel caso particolare di strati della stessa dimensione. Se il rapporto risulta poco superiore ad 1, o addirittura inferiore ad 1, si rivela inutile formare i gruppi, ossia effettuare la stratificazione. Si può dunque notare che, se le medie di strato tendono ad avere lo stesso ordine di grandezza, non si guadagna in efficienza nella stratificazione proporzionale; se invece le medie di strato sono molto diverse, si può ottenere una notevole riduzione della varianza dello stimatore e quindi un aumento della sua precisione. 6.4 Campionamento stratificato ottimale L’allocazione proporzionale rappresenta una soluzione naturale nel caso di stratificazione in quanto garantisce che le dimensioni relative degli strati siano rispettate nel campione. Un criterio alternativo è costituito dalla ricerca dei valori nk che, fissata la dimensione n del campione, rendono minima la varianza degli stimatori, data la variabilità strutturale della popolazione. Si consideri il caso dello stimatore della media di popolazione. E’ intuitivo attendersi che la varianza (6.10) di tale stimatore tenderà a ridursi se si campiona più intensamente dagli strati in cui s2 (ηk ) è elevata e meno intensamente da quelli in cui s2 (ηk ) è piccola. Teorema 6.23 In una popolazione suddivisa in M strati di cui si conoscano le dimensioni degli strati Nk e la varianza di strato nella espressione s2 (ηk ), l’allocazione ottimale negli strati di un campione di dimensione n è nk = n s (ηk ) Nk . M Nk∗ s (ηk∗ ) (6.37) k∗ =1 La dimostrazione è svolta nell’Appendice 2. In base a questo risultato la numerosità campionaria nk ottimale è tanto più elevata quanto più sono elevate la dimensione Nk dello strato e s (ηk ), ossia la variabilità interna allo strato k-esimo. Nota. Quando si usa l’allocazione ottima si può verificare un inconveniente in quanto all’interno dello strato potrebbe essere richiesta una numerosità campionaria superiore alla popolazione dello strato. Solitamente, in questi casi si effettua la rilevazione totale su quello strato e si riapplica l’allocazione ottimale sulla numerosità rimanente. Si supponga, ad esempio, di voler estrarre da una popolazione di N = 1000 elementi un campione di n = 50 sotto l’ipotesi di aver individuato nella popolazione tre strati rispettivamente di dimensione N1 = 540, N2 = 450, N3 = 10. Avendo ottenuto, in base a considerazioni sulla varianza degli strati, l’allocazione ottimale n1 = 15, n2 = 20, n3 = 15 rimarrebbero da allocare 5 elementi. Su questi si effettua nuovamente l’allocazione ottima nei primi due strati. Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 6.4.1 179 Equivalenza del campionamento stratificato ottimale al campionamento proporzionale nel caso di uguale varianza all’interno degli strati. Teorema 6.24 L’allocazione ottimale coincide con l’allocazione proporzionale nel caso in cui vi è uguale variabilità interna in ciascuno strato. Dimostrazione Se la partizione della popolazione in strati è tale da garantire la stessa variabilità di ciascuno strato, le varianze entro s2 (ηk ) sono uguali tra loro e coincidono con la loro media: s2 (η1 ) = s2 (η2 ) = . . . = s2 (ηM ) = M 1 Nk s2 (ηk ) = s̄2 (η) . N (6.38) k=1 Sostituendo la (6.38) nella (6.37) l’allocazione ottimale di nk è realizzata quando n Nk s̄ (η) = Nk , (6.39) nk = n N s̄ (η) N dunque, se vale la (6.38), l’allocazione ottimale coincide con l’allocazione proporzionale. Le proprietà teoriche della stratificazione che sono state esposte dipendono dalle varianze all’interno delle sottopopolazioni. L’unico elemento su cui poter intervenire per ridurre la varianza teorica consiste nella scelta dell’allocazione in modo da ridurre il peso delle componenti di varianza entro. Le allocazioni maggiormente utilizzate sono la (6.25) e la (6.37). L’allocazione uguale per ogni strato, nk = n/M, si effettua se si vogliono verificare differenze tra strati, spesso assumendo che le varianze di strato siano uguali. L’allocazione proporzionale nk = fNk , si usa frequentemente quando si hanno indagini con molte domande. L’allocazione ottimale consiste nella ricerca dei valori nk che, fissata la dimensione n del campione, rendono minima la varianza degli stimatorirelativi ad una variabile unidimensionale, data la variabilità strutturale della popolazione. Se ci sono molte variabili oggetto di studio la ricerca dell’allocazione ottimale per ogni variabile può dare risultati contraddittori. Le variabili di stratificazione devono essere associate alla variabile oggetto di inferenza in quanto hanno la funzione di individuare strati omogenei al loro interno. Sono usate frequentemente, a questo proposito, variabili di dimensione in base alle quali la popolazione viene ripartita in gruppi di numerosità diseguale. Alcune valutazioni generali sui costi di campionamento sono riportate nell’Appendice 3. Esempio 6.2 Confronti tra diverse strategie di campionamento legate alla stratificazione per una dimensione campionaria fissa Si vuole stimare il consumo medio di lubrificante m(η) di un’azienda del settore energetico che ha N = 330 impianti ad energia eolica in Europa. Tali impianti sono raggruppati secondo la potenza (in megawatt) e danno origine alla seguente tabella descrittiva di popolazione: Daniela Cocchi: Teoria dei Campioni 6.4. CAMPIONAMENTO STRATIFICATO OTTIMALE 180 Gruppo 1 2 3 4 Potenza 0 − 900 901 − 2000 2001 − 4000 > 4000 Nk 55 187 65 23 m(ηk ) 13, 48 26, 78 56, 79 100, 9 s(ηk ) 6, 67 12, 35 17, 9 40 Si ricava s2 (η) impiegando la scomposizione della devianza (1.40): 4 1 Nk m(ηk ) = 35, 64 330 k=1 4 4 1 2 2 2 Nk [m(ηk ) − 35, 64] + (Nk − 1) s (ηk ) s (η) = 330 − 1 m(η) = k=1 k=1 1 = [86477.83 + 168717.95] = 775.67. 329 Si pongono a confronto diverse strategie per una dimensione campionaria costante n = 27. a) Se si effettua un campionamento casuale semplice senza reintroduzione e si impiega lo stimatore (2.49), la varianza (2.53) è: " n # s2 (η) V [m (y)] = 1 − = 26.37 N n b) Se si effettua un campionamento stratificato senza reintroduzione con allocazione proporzionale si ottengono le seguenti numerosità campionarie di strato: n1 = 5 n2 = 15 n3 = 5 n4 = 2 e impiegando lo stimatore (6.27) la relativa varianza è: 4 V [msp (y)] = 330 − 27 Nk s2 (ηk ) = 9.13. 27 · 3302 k=1 c) Se si effettua un campionamento stratificato senza reintroduzione con allocazione ottimale si ottengono le seguenti numerosità campionarie di strato: n1 = 2 n2 = 13 n3 = 7 n4 = 5 e impiegando lo stimatore (6.6) la relativa varianza è: 2 4 1 1 Nk − s2 (ηk ) = 6.90. V [mso (y)] = N nk Nk k=1 Si osservi che: V [mso (y)] < V [msp (y)] < V [m (y)] . Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 6.5 181 [Numerosità campionaria in stratificazione]Determinazione della numerosità campionaria complessiva nel campionamento stratificato La teoria esposta fino ad ora assume che la dimensione complessiva del campione sia stata prefissata. Anche nel caso della stratificazione si può determinare la numerosità campionaria complessiva che garantisca errori prestabiliti, in modo analogo a quanto visto nel Capitolo 2, per il campionamento casuale semplice. La determinazione della numerosità campionaria complessiva n viene effettuata nell’ipotesi di campionamento stratificato proporzionale. L’allocazione negli strati avviene successivamente, secondo il criterio scelto dal ricercatore. Per la stima della media, utilizzando la (2.78) e la (6.30): 2 N −n 2 ε s (η) = Nn z α2 si ottiene direttamente, riprendendo direttamente la derivazione della (2.85): 2 −1 −1 2 ε ε zα N zα 1 1 2 2 n= 2 + = (6.40) + . N s (η) Nk s2 (ηk ) N Per il totale, con passaggi simili a quelli che portano dalla (2.78) alla (2.92), si ottiene: ε zα 2 −1 1 2 n= 2 2 + N s (η) N ε zα 2 −1 1 2 = + N Nk s2 (ηk ) N . (6.41) Esempio 6.3 Determinazione della numerosità campionaria per stimare una media con un errore prestabilito Si consideri la popolazione dell’esempio 6.2. Si determini la dimensione campionaria, nel caso di campionamento stratificato, che dia luogo ad un errore complessivo pari a 14 per la stima della media di popolazione, con una fiducia complessiva pari al 99%. In questo caso l’errore assoluto è ε=7. Nella distribuzione normale, il valore della variabile standardizzata da usare è z0.005 =2.58, quindi 2 ε = 7.361. z α2 La dimensione campionaria per la stima della media secondo la (6.40) è: −1 2 ε −1 N zα 1 330 × 7.361 1 2 n= + = + = 32.84 33. Nk s2 (ηk ) N 88595.25 330 Daniela Cocchi: Teoria dei Campioni 6.6. APPENDICI 182 La stessa richiesta di controllo di errore, in un campionamento casuale semplice, necessita una dimensione campionaria, calcolata con la (2.85), pari a n = 79.86 80. La dimensione campionaria ridotta nel caso di stratificazione rispetto al campionamento casuale semplice è dovuta al fatto che la varianza degli stimatori proposti per la stratificazione dipende solo da una componente della varianza di popolazione. La varianza degli stimatori nel campionamento casuale semplice dipende invece dalla varianza complessiva. Nelle Appendici 3 e 4 sono riportati i risultati dell’applicazione della stima per quoziente nel campionamento stratificato. 6.6 6.6.1 Appendici Appendice 1 Valori approssimati per la varianza dello stimatore della media nel caso di campionamento stratificato con allocazione proporzionale D I risultati riguardano la stima della media; quelli per il totale sono una loro facile estensione. Teorema 6.18 Nel caso di dimensioni Nk degli strati elevate la varianza dello stimatore della media si può esprimere mediante l’approssimazione: V [msp (y)] N −n 2 v (η). Nn e (6.42) Dimostrazione Riprendendo la (6.29), nel caso di dimensioni elevate degli strati in popok lazione, si potrà considerare NN → 1, ottenendo: k −1 M V [msp (y)] = N − n Nk2 2 v (ηk ) nN 2 Nk − 1 k=1 N −n 2 v (η). Nn e Analogamente, partendo dalla (6.30), sotto la medesima condizione si ottiene la stessa approssimazione: V [msp (y)] = N −n 2 N −n 2 s̄ (η) v (η). nN Nn e Corollario 6.7 Nel caso di dimensioni elevate degli strati Nk e di piccola dimensione n dell’intero campione rispetto alla dimensione della popolazione N , Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 183 N−n N → 1, la varianza dello stimatore per la media nel campionamento stratificato proporzionale (6.30) è approssimativamente equivalente all’espressione della varianza nel caso di campionamento con reintroduzione: N −n 2 s̄2 (η) s̄ (η) . Nn n V [msp (y)] = (6.43) Teorema 6.19 Nel caso di gruppi di grande dimensione e piccola dimensione globale del campione si può usare l’approssimazione: V [msp (y)] ve2 (η) . n Dimostrazione Le varianze degli stimatori delle medie di strato possono essere approssimate da quelle del caso di campionamento casuale semplice con reintroduzione: V [m (yk )] = v2 (ηk ) nk 1≤k≤M e quindi, sostituendo questa espressione nella (6.7) e ricordando che l’allocazione è proporzionale: V [msp (y)] M N 2 v2 (ηk ) k k=1 = N2 nk M N 1 Nk v 2 (ηk ) v2 (η) = e . nN N n k=1 Nota. La relazione V [msp (y)] = ve2 (η) n è esatta se, indipendentemente dal tipo di allocazione, si effettua campionamento casuale semplice con reintroduzione all’interno di ciascuno strato. 6.6.2 Uno stimatore della varianza dello stimatore della media nel campionamento stratificato proporzionale La (6.43) può essere stimata da: V̂ [msp (y)] = s̄2 (y) N −n 2 s̄ (y) . Nn n Teorema 6.20 Lo stimatore (6.44) è corretto per la (6.43). Daniela Cocchi: Teoria dei Campioni (6.44) 6.6. APPENDICI 184 6.6.3 Appendice 2 Teorema 6.23 In una popolazione suddivisa in M strati di cui si conoscano le dimensioni degli strati Nk e la varianza di strato nella espressione s2 (ηk ), l’allocazione ottimale negli strati di un campione di dimensione n è nk = n s (ηk ) Nk . M Nk∗ s (ηk∗ ) k∗ =1 Dimostrazione Si tratta di risolvere un problema di minimo vincolato, in cui il vincolo è dato da: M nk = n. (6.45) k=1 Utilizzando il metodo dei moltiplicatori di Lagrange la funzione da minimizzare sarà data da: Ψ(n1 , n2 , ..., nM ; θ) = V [ms (y)] + θ( M k=1 dove V [ms (y)] = nk − n), (6.46) M s2 (ηk ) 1 N (N − n ) . k k k N2 nk k=1 Per determinare il minimo, si risolve il sistema: dΨ 1≤k≤M dnk = 0 dΨ = 0 dθ L’annullamento della seconda derivata dà luogo a M nk = n. (6.47) k=1 coincidente con la (6.45). Le derivate parziali rispetto a nk sono nulle quando s2 (ηk ) −Nk nk − Nk2 + Nk nk +θ =0 N2 n2k e quindi −s2 (ηk ) Nk2 + θN 2 n2k = 0 1 ≤ k ≤ M. Dunque, dalla prima condizione si ottiene n2k = s2 (ηk ) Nk2 θN 2 1≤k≤M Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 185 ed estraendo la radice: s (ηk ) Nk √ θN 1≤k≤M √ Nk s (ηk ) θ= N nk 1 ≤ k ≤ M. nk = da cui si ricava che (6.48) Tenendo conto della (6.47), deve valere: M s (ηk ) Nk √ = n, θN k=1 quindi √ θ= Nk s (ηk ) . Nn Perciò, eguagliando le due espressioni (6.48) e (6.49), si ottiene: nk = M Nk s (ηk ) (6.49) n Nk∗ s (ηk∗ ) k∗ =1 da cui si ricava in modo immediato: nk = n s (ηk ) Nk . M Nk∗ s (ηk∗ ) k∗ =1 6.6.4 Appendice 3 Costi di campionamento Si consideri il caso in cui tutte le unità nello stesso strato hanno uguale costo di campionamento Ck , 1 ≤ k ≤ M , ed il costo complessivo di campionamento viene definito tramite una funzione lineare, ossia C= M k=1 nk Ck . Se si desidera effettuare l’allocazione ottima in questo caso, la ricerca del minimo della varianza dello stimatore dipende dalle due quantità Ck e nk . Il problema può essere risolto seguendo due vie alternative: 1) nel primo caso si tiene fissa la numerosità campionaria n e si risolve il problema di minimo rispetto a Ck . L’allocazione che dà luogo ad una stima con la varianza inferiore è: √ Nk s(ηk )/ Ck nk = n M 1 ≤ k ≤ M; √ Nk∗ s(ηk∗ )/ Ck∗ k∗ =1 Daniela Cocchi: Teoria dei Campioni 6.6. APPENDICI 186 2) se si tiene fisso il costo totale di campionamento a C, l’allocazione che dà luogo a stime con la varianza minore è: √ Nk s(ηk )/ Ck nk = C M 1 ≤ k ≤ M. √ ∗ ∗ ∗ Nk s(ηk )/ Ck k∗ =1 Si osserva che, tenendo conto del costo della rilevazione negli strati, si aggiunge, nelle formule di allocazione ottimale, una relazione inversa con tale costo. 6.6.5 Appendice 4 [Metodo del quoziente nella stratificazione]Gli stimatori per quoziente nel campionamento stratificato In base alle informazioni a disposizione nella costruzione del campione stratificato, si distinguono due casi di stima tramite il metodo del quoziente: la stima separata e la stima combinata. Nell’esposizione che segue si considera solo il caso della stima della media di popolazione. 6.6.6 Stimatore per quoziente separato della media di popolazione Quando si conosce la media di una variabile ausiliaria ζ, m(ζk ), per ogni strato della popolazione, diviene possibile proporre lo stimatore (4.2) in ogni strato: mQ (yk ) = m(yk ) m(ζk ) = bQk m(ζk ), m(zk ) (6.50) Lo stimatore per quoziente separato della media di popolazione è la media ponderata delle medie (6.50) stimate negli strati: mQS (y) = M 1 Nk mQ (yk ) . N k=1 (6.51) Utilizzando la teoria della stima in stratificazione e richiamandosi alla (6.10) ed alla (4.36), si dimostra che il termine principale della dello stimatore " varianza # (4.23), a meno di un’approssimazione dell’ordine O n12 , è: k V [mQS (y)] M ! 1 2 Nk − nk 1 2 2 Nk s (ηk ) + βQk s2 (ζk ) − 2βQk s (ηk , ζk ) , 2 N Nk nk k=1 (6.52) dove βQk = m(ηk ) . m(ζk ) La varianza (6.52) può essere stimata con lo stimatore V̂ [mQS (y)] = M ! 1 2 Nk − nk 1 2 Nk s (yk ) + b2Qk s2 (zk ) − 2bQk s (yk , zk ) 2 N Nk nk k=1 (6.53) Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 187 E’ importante tener presente che la stima negli strati con la correzione per quoziente diviene opportuna solo quando la numerosità nk delle osservazioni negli strati raggiunge valori abbastanza elevati. Infatti, per valori bassi di nk , il rischio è che il termine di distorsione (4.20) della stima nello strato diventi rilevante. Si deve inoltre considerare che le distorsioni degli stimatori delle medie negli strati si sommano algebricamente nello stimatore (6.51), quindi, se questa ha lo stesso segno nei vari strati, lo stimatore mQS (y) può risultare gravemente distorto. 6.6.7 Stimatore per quoziente combinato della media di popolazione Nel caso in cui non siano note le medie di ζ nei vari strati, ma soltanto la media generale m(ζ), si utilizzano le medie campionarie negli strati per calcolare gli stimatori di stratificazione per m(η) e m(ζ). Quindi si determina il quoziente bQS , rapporto tra due stimatori corretti, che stima il coefficiente angolare della retta di popolazione che passa per l’origine: bQC = dove ms (y) = ms (y) ms (z) M 1 Nk m(yk ) N (6.54) (6.55) k=1 ms (z) = M 1 Nk m(zk ) N (6.56) k=1 Lo stimatore per quoziente combinato della media della popolazione è: mQC (y) = bQC m(ζ). (6.57) Si può dimostrare che: V [mQC (y)] M ! 1 2 Nk − nk 1 2 2 2 Nk s (ηk ) + βQ s (ζk ) − 2βQ s(ηk , ζk ) , N2 Nk nk k=1 (6.58) dove βQ coincide con la (4.5). Tale varianza può essere stimata con lo stimatore V̂ [mQC (y)] = M ! 1 2 Nk − nk 1 2 Nk s (yk ) + b2QC s2 (zk ) − 2bQC s(yk , zk ) 2 N Nk nk k=1 (6.59) Quando la dimensione del campione in ogni strato è sufficientemente elevata lo stimatore (6.51) è più preciso dello stimatore (6.57): V [mQC (y)] > V [mQS (y)] . Tale differenza si accentua quando la relazione tra le due variabili in esame nei vari strati, descritta da βQk , è diversa da strato a strato. Daniela Cocchi: Teoria dei Campioni 6.6. APPENDICI 188 6.6.8 Appendice 5 [Stimatore per regressione nella stratificazione]Gli stimatori per regressione nel campionamento stratificato Per l’uso dello stimatore di regressione nel caso di campioni stratificati si possono ripetere le stesse considerazioni fatte sul metodo del quoziente in campioni stratificati. Anche in questo caso si considera solo il caso della stima della media di popolazione. 6.6.9 Stimatore di regressione separato della media di popolazione Dalla (5.13) segue che lo stimatore di regressione per ogni strato è: mRG (yk ) = m (yk ) + bRk {m (ζk ) − m (zk )} , dove bRk = s (yk , zk ) k = 1, ..., M . s2 (zk ) (6.60) (6.61) Lo stimatore di regressione separato stratificato è: mRGS (y) = M Nk k=1 N mRG (yk ) (6.62) Direttamente dalla teoria della stratificazione e ricordando la (5.22), si dimostra che la varianza approssimata dello stimatore (6.62) è: V [mRGS (y)] M ! Nk2 Nk − nk 1 2 s (ηk ) 1 − r2 (ηk , ζk ) 2 N Nk nk (6.63) k=1 Tale varianza può essere stimata con lo stimatore: M ! Nk2 Nk − nk 1 2 V̂ (mRGS (y)) = s (yk ) 1 − r2 (yk , zk ) 2 N Nk nk (6.64) k=1 6.6.10 Stimatore di regressione combinato della media di popolazione In analogia con quanto visto per lo stimatore combinato (6.57), anche nel caso dello stimatore di regressione combinato per la media di popolazione sono utilizzati i due stimatori di stratificazione corretti (6.55) e (6.56) per m(η) e per m(ζ) . Lo stimatore per regressione combinato è quindi: mRGC (y) = ms (y) + bc [m (ζ) − ms (z)] (6.65) dove bc è scelto in modo da minimizzare la somma dei quadrati degli scarti degli errori ei : M Nk (Nk −nk ) s (yk , zk ) nk k=1 bc = M (6.66) Nk (Nk −nk ) 2 s (z ) k nk k=1 Daniela Cocchi: Teoria dei Campioni CAPITOLO 6. CAMPIONAMENTO STRATIFICATO 189 Il termine principale della varianza dello stimatore (6.65) è: M ! Nk2 Nk − nk 1 2 s (ηk ) + βc2 s2 (ζk ) − 2βc s (ηk , ζk ) , V [mRGC (y)] 2 N Nk nk k=1 (6.67) dove M Nk (Nk −nk ) s (ηk , ζk ) nk k=1 βc = M (6.68) Nk (Nk −nk ) 2 s (ζ ) k nk k=1 Si noti che βc è una media ponderata dei coefficienti angolari in ogni strato βRk = s (ηk, ζk ) s2 (ζk ) (6.69) Lo stimatore (6.62) ha varianza minore dello stimatore (6.65), a meno che βRk = βc ∀ strato. In effetti l’interpolazione della nuvola degli N punti di popolazione con una sola retta ha senso solo se nella popolazione le rette dei minimi quadrati in ciascuno strato non hanno inclinazioni troppo diverse. La stima combinata ha ipotesi molto forti di omogenità della pendenza della retta in tutti gli strati. Uno stimatore della varianza (6.67) è: M ! Nk2 Nk − nk 1 2 V̂ (mRGC (y)) = s (yk ) + b2c s2 (zk ) − 2bc s (yk , zk ) . 2 N Nk nk k=1 (6.70) Daniela Cocchi: Teoria dei Campioni 6.6. APPENDICI 190 Daniela Cocchi: Teoria dei Campioni Capitolo 7 Introduzione al campionamento a grappolo Il campionamento probabilistico di unità complesse ad uno stadio, a cui segue quindi la rilevazione totale delle unità elementari contenute nei gruppi selezionati, è comunemente detto campionamento a grappolo. La principale motivazione del campionamento a grappolo è la mancata disponibilità di liste che identifichino le unità elementari della popolazione, mentre si dispone di liste riguardanti gruppi di unità elementari. L’estrazione riguarda quindi i grappoli, ovvero le unità complesse costituite da insiemi di unità elementari non direttamente identificabili, e il campione è formato dalle unità elementari selezionate. La disponibilità delle liste degli individui contenuti nelle unità complesse permette a sua volta di identificare le unità elementari che vi appartengono. Uno svantaggio connesso al campionamento a grappolo consiste nel fatto che gli elementi che fanno parte della stessa unità complessa tendono ad essere omogenei rispetto alla variabile oggetto di studio, mentre, in teoria, l’idea di campionare gruppi è vantaggiosa quando essi sono simili tra loro ed eterogenei al loro interno. L’intera popolazione verrebbe così rappresentata adeguatamente tramite il campionamento. Se i gruppi tendessero ad essere omogenei, non ci sarebbe infatti bisogno di replicare un grande numero di osservazioni al loro interno, mentre sarebbero opportune le replicazioni dei gruppi. La dimensione del campione di grappoli è meno elevata della dimensione del campione di unità elementari corrispondente, e i costi di formazione o di individuazione delle liste sono commisurati soprattutto a tali unità e non alle unità elementari. A parità di dimensione campionaria complessiva, quindi, il costo di un campione a grappolo tende ad essere inferiore a quello di un campione estratto dalla popolazione di unità elementari. Al contrario, a parità di costo complessivo del campione, il campione ottenuto con la grappolatura contiene un numero di unità elementari maggiore di un campione estratto dalla popolazione di unità elementari. Le ragioni per cui si costruiscono liste di gruppi di unità possono essere di tipo organizzativo, nei casi in cui la lista delle unità complesse sia l’unico tipo di lista disponibile. Altre motivazioni per il campionamento a grappolo sono il risparmio nei costi di costruzione delle liste o per lo spostamento dei rilevatori. 191 192 Questo tipo di campionamento viene usato quando il costo per avvicinare tutte le unità all’interno del grappolo è basso. Ad esempio, se le unità complesse sono ospedali e le unità elementari tutti i pazienti con una certa diagnosi, può non essere costoso rilevare i dati su tutti questi pazienti. Dal punto di vista dell’inquadramento teorico, il campionamento a grappolo può essere visto come: 1. un’alternativa al campionamento stratificato, se si riescono a controllare i contributi delle componenti entro i gruppi e tra i gruppi della varianza globale, 2. un caso particolare di campionamento a più stadi, che viene trattato succesivamente, 3. una motivazione per spiegare il campionamento sistematico. Si considera la popolazione di dimensione N= M Nk , k=1 partizionata in M gruppi, in questo caso detti grappoli, con k = 1, ..., M , che spesso hanno piccola dimensione. La variabile oggetto di inferenza è quindi descritta, in popolazione, secondo la (1.21), con un indice che scorre entro i gruppi ed uno che scorre tra i gruppi. Dalla popolazione si estrae un campione di m grappoli, o unità complesse. I gruppi campionati vengono indicati come: {kj : 1 ≤ j ≤ m} . Il campione è formato da tutte le unità elementari appartenenti ai grappoli selezionati. Si osservi che, mentre la dimensione del campione di unità complesse m è nota a priori, la dimensione del campione di unità elementari n in generale è aleatoria, infatti si ha: m n= Nkj . (7.1) j=1 La manifestazione del carattere η nel j-esimo grappolo campionato è: yjλ = ηkj 1 ≤ λ ≤ Nkj , quindi il vettore delle osservazioni del carattere oggetto di studio nelle unità elementari campionate è: y = {yjλ : 1 ≤ j ≤ m, 1 ≤ λ ≤ Nkj }. (7.2) In questo tipo di campionamento, l’estrazione di un generico grappolo comporta l’osservazione di tutte le unità elementari che formano il grappolo stesso. Per stimare valori sintetici di popolazione della variabile oggetto di indagine, come il totale (1.3) e la media (1.4), è utile considerare come elemento base la somma dei valori rilevati nei grappoli, vale a dire nelle unità complesse. Nella j-ma unità complessa appartenente al campione si osserva quindi Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 193 Nk Nk λ=1 λ=1 j j t (yj ) = t ηkj = yjλ = ηjλ (7.3) che è il totale della variabile oggetto di studio nel grappolo selezionato, in cui viene effettuata la rilevazione completa. Il grappolo è un’unità complessa, in cui viene effettuata una rilevazione totale. Se si ridefinisce la popolazione in modo che sia formata da M unità complesse e quindi il campione è formato da m unità complesse, se si propone la strategia costuita da campionamento casuale semplice, e si propongono gli stimatori lineari omogenei per l’inferenza sulla media per grappolo (e sul totale di popolazione), il campionamento a grappolo è un caso semplificato di campionamento casuale semplice. Se si vuole inferire sulla media nella popolazione di unità elementari, la trattazione si complica leggermente. In ogni gruppo selezionato si dispone anche di t ηkj t (yj ) m (yj ) = = . Nkj Nj (7.4) La dimensione dell’universo dei campioni formati da unità elementari coincide con la dimensione dell’universo dei campioni formati da unità complesse che, in caso di estrazione senza reintroduzione, nel caso di campioni non ordinati, è: Dim(Sm ) = CM,m = M! . m! (M − m)! Nel seguito, le Sezioni 7.1, 7.2, 7.3 descrivono l’inferenza nel caso di campionamento casuale semplice senza reintroduzione di unità complesse. Il paragrafo 7.4 presenta il campionamento sistematico come caso particolare del campionamneto a grappolo. Nelle Appendici sono riportati ulteriori risultati, in particolare, nelle Appendici 3 e 4, si verifica come due stimatori intuitivi nel caso di campionamento a grappolo abbiano una giustificazione teorica in termini, rispettivamente, di campionamento a probabilità variabile con reintroduzione e della stima per quoziente. 7.1 7.1.1 Il campionamento casuale semplice di grappoli Probabilità dei campioni non ordinati La probabilità di estrazione di ciascun campione non ordinato estratto senza reintroduzione, nel caso in cui tutti i campioni abbiano la stessa probabilità, è: p(s) = 1 CM,m = m! (M − m)! M! ∀s ∈ Sm . Daniela Cocchi: Teoria dei Campioni 194 7.1.2 7.1. IL CAMPIONAMENTO CASUALE SEMPLICE DI GRAPPOLI Probabilità di inclusione Le probabilità di inclusione, che valgono sia per le unità complesse sia per le unità elementari, vengono ricavate a partire dai risultati noti sul campionamento casuale semplice senza reintroduzione. Ricordando che ciascuna unità elementare compare nel campione solo nel caso in cui il relativo grappolo di appartenenza sia stato selezionato, la probabilità d’inclusione di primo ordine è: m 1≤k≤M πk = πλ = . (7.5) 1 ≤ λ ≤ Nk M Le probabilità d’inclusione di secondo ordine sono diverse se ci si riferisce a unità appartenenti allo stesso grappolo o a grappoli diversi. Nel caso di unità appartenenti allo stesso grappolo: πλλ = πk = m M 1≤k≤M , 1 ≤ λ = λ ≤ Nk (7.6) e, nel caso di unità appartenenti a grappoli diversi: πλλ = πkk = m m−1 M M −1 1 ≤ k = k ≤ M . 1 ≤ λ = λ ≤ Nk (7.7) Poiché viene effettuato un campionamento casuale semplice dei grappoli, si applica quindi la teoria relativa a questo campionamento applicandola alla popolazione delle unità complesse. 7.1.3 Espressione della casualità del campionamento di unità complesse tramite un vettore aleatorio Nella popolazione delle M unità complesse, si definisce, analogamente a quanto si è fatto nel Capitolo 1, il vettore aleatorio b = (b1 , ..., bk , ..., bM ) = {bk : 1 ≤ k ≤ M } , che associa alla k-ma unità complessa un valore che indica il numero di volte in cui tale unità complessa entra nel campione. Le più importanti sintesi della distribuzione multivariata di b sono il vettore delle E(bk ), le V (bk ) e le C(bk , bk ), analogamente a quanto è stato esposto nella sezione 1.4. In particolare, se il campionamento delle unità complesse è casuale semplice senza reintroduzione, ciascuna bk segue una distribuzione di Bernoulli di m parametro πk = M con: m , M m M −m V (bk ) = M M E (bk ) = e (7.8) (7.9) m M −m k = k . (7.10) M2 M − 1 Se il campionamento è con reintroduzione, ciascuna bk segue una distribuzione binomiale di parametri (m, pk ). C(bk , bk ) = − Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 195 7.1.4 Stimatori lineari omogenei nel caso di campionamento di unità complesse La dimensione complessiva del campione risulta aleatoria, come già messo in evidenza con la (9.1). Tale fatto è confermato dalla relazione: n= m Nj = j=1 M bk Nk . (7.11) k=1 Riscrivendo lo stimatore lineare omogeneo (1.106) in riferimento alla popolazione formata dalle unità complesse, si ottiene l’equivalente della (1.107): ft (y) = m wj t (yj ) = j=1 M bk wk t (ηk ) . (7.12) k=1 L’espressione della speranza dello stimatore lineare omogeneo corrispondente alla (1.110) è: M E [ft (y)] = E (bk ) wk t (ηk ) , (7.13) k=1 mentre l’espressione della varianza dello stimatore lineare omogeneo, corrispondente alla (1.113) è: V [ft (y)] = M V (bk ) wk2 t(ηk )2 + 2 C (bk , bk ) wk wk t(ηk )t(ηk ). (7.14) k=1 k <k k=1 7.2 M Il campionamento casuale semplice senza reintroduzione di grappoli con dimensioni diverse Per la presentazione degli stimatori nel caso di campionamento casuale semplice di grappoli con dimensione diversa, lo stimatore della media per grappolo ha un ruolo fondamentale. Per questo motivo viene introdotto per primo lo stimatore della media per grappolo, poi quello del totale e, come ultimo, quello della media generale. 7.2.1 Inferenza sulla media per grappolo Lo stimatore lineare omogeneo della media per grappolo Lo stimatore lineare omogeneo della media per grappolo è proposto a partire dal sistema di pesi in popolazione: wk = 1 m 1 ≤ k ≤ M. (7.15) Tale sistema di pesi viene introdotto nell’espressione dello stimatore lineare omogeneo (9.14). Lo stimatore della media per grappolo (8.2) diventa perciò: Daniela Cocchi: Teoria dei Campioni 7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE 196 m m∗g (y) = m 1 1 Nj m (yj ) = t (yj ) , m j=1 m j=1 (7.16) vale a dire la media aritmetica semplice dei totali dei grappoli campionati. In riferimento al campione di unità elementari, lo stimatore m∗g (y) può essere interpretato come il rapporto tra il totale campionario nelle unità complesse selezionate e la dimensione del campione di unità complesse, infatti riprendendo la (9.18) si ottiene: m m∗g (y) = N k 1 t(y) yjλ = . m j=1 m (7.17) λ=1 Correttezza dello stimatore della media per grappolo Teorema 7.1 Lo stimatore (9.18) è corretto per la media per grappolo (8.2). Dimostrazione Sostituendo la (9.17) nella (9.15) si ha: E m∗g M M M ! m 1 1 (y) = E (bk ) wk t (ηk ) = t (ηk ) = t (ηk ) M m M k=1 k=1 k=1 t (η) = = m∗ (η) . M Varianza dello stimatore della media per grappolo In questo piano di campionamento sono stati estratti con campionamento casuale semplice senza reintroduzione m grappoli su M . Valgono quindi i risultati della teoria del campionamento casuale semplice. Si definisce la quantità vg2 (η) = 2 M 1 M Nk m (ηk ) − m (η) M N (7.18) k=1 Corollario 7.1 La (9.24) può anche essere scritta nel modo seguente, moltiplicando e dividendo per N 2 /M 2 : vg2 (η) = = = = 2 2 M 1 M N N M Nk m (ηk ) − m (η) M k=1 N M M N2 M 1 M2 [Nk m (ηk ) − m∗ (η)]2 2 M N k=1 M M 2 2 2 2 Nk m (ηk ) − 2Mm∗ (η) + Mm∗ (η) N2 k=1 M 2 M 1 2 2 2 ∗ Nk m (ηk ) − m (η) N2 M k=1 Daniela Cocchi: Teoria dei Campioni (7.19) (7.20) CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 197 L’espressione (7.19) corrisponde alla varianza degli M totali di gruppo, la cui media è appunto m∗ (η): v2 (t (ηk )) = M 1 2 2 2 Nk m (ηk ) − m∗ (η) M k=1 = M 1 (Nk m (ηk ) − m∗ (η))2 . M k=1 Rispetto ai valori individuali, rappresenta quindi una varianza di tipo ”tra”. Teorema 7.2 La varianza dello stimatore della media per grappolo è: ! N 2 M − m vg2 (η) V m∗g (y) = 2 M M −1 m (7.21) Dimostrazione Introducendo nell’espressione della varianza del generico stimatore lineare ed omogeneo (9.16) i pesi (9.17) e le espressioni (9.11) e (9.12) per varianza e covarianza di bk si ottiene: M M ! m M −m 1 m M −m 1 2 V m∗g (y) = t(η ) − 2 t(ηk )t(ηk ) k 2 M − 1 m2 M M m2 M k=1 k=1 k <k M M M −m 2 2 = Nk m(ηk )2 − Nk m(ηk )Nk m(ηk ) M 2m M −1 k=1 k=1 k <k M M M −m 2 2 Nk2 m(ηk )2 = M Nk m(ηk ) − M 2 m(M − 1) k=1 k=1 M −2 Nk m(ηk )Nk m(ηk ) k=1 k <k = = M 2 M M −m M Nk m(ηk ) Nk2 m(ηk )2 − M 2 m(M − 1) k=1 k=1 M M −m 1 2 2 ∗ 2 Nk m(ηk ) − m (η) m(M − 1) M k=1 in cui si ritrova la (7.20), ottenendo: ! N 2 M − m vg2 (η) V m∗g (y) = 2 . M M −1 m Si definisce ora la quantità di popolazione: M v2 (η) . (7.22) M −1 g Nota. La ragione per cui N compare nella definizione precedente è dovuta al fatto che la popolazione che si sta trattando è cositutita dalle M unità complesse. E’ possibile individuare un’ulteriore versione della varianza (9.21) espressa dal seguente: s2g (η) = Daniela Cocchi: Teoria dei Campioni 7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE 198 Corollario 7.2 La (9.21) può essere calcolata utilizzando la (9.25), come: V ! m∗g (y) M −m = Mm N M 2 s2g (η) (7.23) Corollario 7.3 La varianza dello stimatore della media per grappolo (9.21) può essere scritta, riscrivendo la (7.19) nella (9.21), come: V m∗g ! M −m 1 (y) = M −1 m M k=1 [Nk m (ηk ) M − m∗ (η)]2 . (7.24) Ciò si verifica in quanto è stato effettuato un campionamento casuale semplice senza reintroduzione di m grappoli su M e quindi la varianza (7.24) dipende dalla varianza dei totali di gruppo definita nel modo più semplice: 2 v (t (ηk )) = M k=1 [Nk m (ηk ) M − m∗ (η)]2 Sono infatti validi i risultati della teoria del campionamento casuale semplice applicata al campionamento delle unità complesse. Uno stimatore distorto per la varianza vg2 (η) Per la stima dell’espressione vg2 (η) si può partire dall’equivalente campionario della (7.19): vg2 (y) = m !2 1 M2 Nj m (yj ) − m∗g (y) 2 m N j=1 (7.25) Teorema 7.3 La quantità (9.32) può essere espressa come: vg2 (y) = m !2 M2 1 M2 2 ∗ [N m (y ) − m (η)] − m∗g (y) − m∗ (η) j j m N 2 j=1 N2 Dimostrazione Daniela Cocchi: Teoria dei Campioni (7.26) CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 199 vg2 (y) = m !2 1 M2 Nj m (yj ) − m∗g (y) m N 2 j=1 m !2 1 M2 Nj m (yj ) − m∗ (η) − m∗g (y) + m∗ (η) 2 m N j=1 m m !2 1 M 2 2 ∗ = [N m (y ) − m (η)] + m∗g (y) − m∗ (η) j j 2 mN j=1 j=1 m ! −2 m∗g (y) − m∗ (η) [Nj m (yj ) − m∗ (η)] = j=1 = m 2 1 M m N2 j=1 [Nj m (yj ) − m∗ (η)]2 !2 !2 M2 M2 m∗g (y) − m∗ (η) − 2 2 m∗g (y) − m∗ (η) 2 N N m 2 !2 M 1 M2 2 ∗ = [N m (y ) − m (η)] − m∗g (y) − m∗ (η) . j j 2 2 m N j=1 N + Teorema 7.4 La quantità campionaria vg2 (y) non stima correttamente vg2 (η) : ! m−1 M E vg2 (y) = v 2 (η) m M −1 g (7.27) Dimostrazione Facendo la speranza della (9.28), si ha: m 2 2 ! ! 1 M M 2 [Nj m (yj ) − m∗ (η)]2 − 2 m∗g (y) − m∗ (η) E vg2 (y) = E m N 2 j=1 N La dimostrazione viene svolta separatamente per i due addendi. Daniela Cocchi: Teoria dei Campioni 7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE 200 m 2 1 M 2 E [Nj m (yj ) − m∗ (η)] m N 2 j=1 M 1 M2 2 ∗ bk (Nk m(ηk ) − m (η)) =E m N2 k=1 M 1 M2 2 ∗ E (bk ) (Nk m(ηk ) − m (η)) = m N 2 k=1 M 1 M2 m 2 ∗ = (Nk m(ηk ) − m (η)) m N2 M k=1 M M 2 ∗ (Nk m(ηk ) − m (η)) = vg2 (η) = 2 N k=1 Il primo addendo ritrova la (7.19). ! Il secondo addendo coincide con la definizione della V m∗g (y) . !2 ! M − m vg2 (η) M2 M2 ∗ ∗ ∗ E m (y) − m (η) = V m (y) = . g g N2 N2 M −1 m Riunendo i due risultati si trova: ! M − m vg2 (η) M (m − 1) E vg2 (y) = vg2 (η) − = vg2 (η) M −1 m (M − 1) m Uno stimatore corretto per la varianza vg2 (η) Teorema 7.5 Lo stimatore s2g (y) = m 2 v (y) . m−1 g (7.28) stima correttamente s2g (η) . Dimostrazione Applicando il valore atteso alla (9.30) e ricordando la definizione di s2g (η) della (9.25) si ha: ! ! m E s2g (y) = E vg2 (y) m−1 m m−1 M = v2 (η) = s2g (η) . m−1 m M −1 g Uno stimatore per la varianza dello stimatore della media per grappolo Per stimare la varianza (9.26) dello stimatore della media per grappolo, si propone la quantità: ! M −m V, m∗g (y) = Mm N M 2 s2g (y) Daniela Cocchi: Teoria dei Campioni (7.29) CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 201 Correttezza dello stimatore per la varianza dello stimatore della media per grappolo ! Teorema 7.6 Lo stimatore (9.31) è corretto per la varianza V m∗g (y) . Dimostrazione Dalla (9.26) e dalla (9.30), la speranza dello stimatore (9.31) è: 2 M −m N 2 sg (y) Mm M 2 ! M −m N E s2g (y) Mm M 2 ! M −m N s2g (η) = V m∗g (y) Mm M ! E V, m∗g (y) = E = = 7.2.2 Inferenza sul totale di popolazione Lo stimatore del totale Partendo dallo stimatore della media per grappolo, per inferire sul totale di popolazione (1.3), si propone il seguente stimatore: tg (y) = M m∗g (y) = M t (y) . m (7.30) Nota. Nel campionamento casuale semplice, anziché M e m, si usano rispettivamente N e n. In questo caso, l’espansione del totale campionario si effettua in relazione alle unità complesse e non rispetto alle unità elementari. Correttezza dello stimatore del totale Teorema 7.7 Lo stimatore (9.34) è corretto per il totale t(η). Dimostrazione ! ! E [tg (y)] = E M m∗g (y) = ME m∗g (y) = Mm∗ (η) = t (η) . Varianza dello stimatore del totale Data la relazione che lega lo stimatore del totale tg (y) e lo stimatore della media per grappolo vista nella (9.34), è immediato il: Teorema 7.8 La varianza dello stimatore tg (y) è: V [tg (y)] = N 2 M − m vg2 (η) M −1 m Dimostrazione La dimostrazione segue immediatamente dalla (9.21): ! V [tg (y)] = M 2 V m∗g (y) . Daniela Cocchi: Teoria dei Campioni (7.31) 202 7.2. C.C.S.S.R. DI GRAPPOLI CON DIMENSIONI DIVERSE Corollario 7.4 La (9.36) può essere riscritta, usando la (9.25), come: V [tg (y)] = M −m 2 2 N sg (η) . Mm (7.32) Corollario 7.5 La (9.36) può essere riscritta, riscrivendo la (7.19) nella (9.21), come M −m 1 M −1 m 2 = v (t (ηk )) . V [tg (y)] = M 2 M k=1 [Nk m (ηk ) M − m∗ (η)]2 (7.33) Uno stimatore per la varianza dello stimatore del totale La (7.32) può essere stimata dalla: simile alla (9.31). M −m 2 2 V, [tg (y)] = N sg (y) , Mm (7.34) Teorema 7.9 Lo stimatore (9.38) stima correttamente V [tg (y)] . Dimostrazione M −m 2 2 E V, [tg (y)] = E N sg (y) Mm ! M −m 2 = N E s2g (y) Mm M −m 2 2 = N sg (η) = V [tg (y)] . Mm 7.2.3 Inferenza sulla media di popolazione Lo stimatore della media di popolazione Lo stimatore della media di popolazione (1.4) è: mg (y) = tg (y) M ∗ M t (y) = mg (y) = . N N N m (7.35) Correttezza dello stimatore della media di popolazione Il teorema viene enunciato senza dimostrazione, data l’immediata verifica della proprietà. Teorema 7.10 Lo stimatore (9.39) è corretto per m(η). Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 203 Varianza dello stimatore della media di popolazione Teorema 7.11 La varianza dello stimatore della media di popolazione è pari a: V [mg (y)] = M − m vg2 (η) . M −1 m (7.36) Dimostrazione Il risultato segue immediatamente dalla (9.36). Corollario 7.6 La (9.41) può essere riscritta, usando la (9.25), come: V [mg (y)] = M −m 2 s (η) . Mm g (7.37) Corollario 7.7 La (9.41) può essere riscritta, riscrivendo la (7.19) nella (9.21), come: V [mg (y)] = M N 2 M −m 1 M −1 m = v 2 (t (ηk )) . M k=1 [Nk m (ηk ) M − m∗ (η)]2 (7.38) Uno stimatore per la varianza dello stimatore della media di popolazione Per stimare la varianza (9.42) dello stimatore della media di popolazione, si propone la quantità: M −m 2 V, [mg (y)] = s (y) Mm g (7.39) simile alla (9.38) e alla (9.31). Correttezza dello stimatore della varianza dello stimatore della media di popolazione Teorema 7.12 Lo stimatore (9.44) è corretto per la quantità V [mg (y)] . Dimostrazione Dalla (9.30), la speranza dello stimatore (9.44) è: ! M −m M −m 2 , E V [mg (y)] sg (y) = E s2g (y) = E Mm Mm M −m 2 = s (η) = V [mg (y)] . Mm g Daniela Cocchi: Teoria dei Campioni 204 7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE 7.3 Il campionamento casuale semplice senza reintroduzione di grappoli con la stessa dimensione Se le unità complesse sono formate dallo stesso numero di unità elementari N0 si ha: N = M N0 , (7.40) con la conseguenza che anche la dimensione del campione di unità elementari è nota. Infatti, sostituendo Nk = N0 nella (9.1), si ottiene: n= m N0 = mN0 . j=1 Inoltre, sostituendo la dimensione costante delle unità complesse N0 nelle espressioni della media generale e della media per grappolo si ottiene, per la (1.26), che la media generale è la media aritmetica semplice delle medie di grappolo: m (η) = M M 1 1 N0 m (ηk ) = t (ηk ) N N k=1 = (7.41) k=1 M M M 1 t (ηk ) 1 1 t (ηk ) = = m (ηk ) M N0 M N0 M k=1 k=1 k=1 mentre la (8.2), media per grappolo, si semplifica in: m∗ (η) = N m (η) = N0 m (η) . M (7.42) A sua volta, la varianza ”tra” (1.36) si semplifica nella: vt2 (η) = M 1 N0 [m (ηk ) − m (η)]2 N k=1 M 1 [m (ηk ) − m (η)]2 M k=1 M 1 2 2 = m (ηk ) − M m (η) , M = (7.43) (7.44) k=1 mentre la (1.39) si può scrivere come: M s2t (η) 1 N = vt2 (η) = N0 [m (ηk ) − m (η)]2 . M −1 M −1 (7.45) k=1 Quindi, in questo caso particolare, la media di popolazione e la varianza ”tra” sono medie aritmetiche semplici rispetto alla popolazione delle unità complesse di dimensione M, mentre rispetto alla popolazione di unità elementari di dimensione N sono medie ponderate dei valori individuali. Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 205 7.3.1 Inferenza sulla media di popolazione Lo stimatore della media di popolazione Lo stimatore che viene proposto per la media di popolazione (1.4) è una versione dello stimatore lineare omogeneo (9.14). Il sistema di pesi {wk : 1 ≤ k ≤ M} assegnato agli elementi della popolazione è: wk = 1 M 1 = = mN0 mN n 1 ≤ k ≤ M. (7.46) Utilizzando il sistema di pesi (9.53) si ottiene lo stimatore della media di popolazione: m m 1 1 mG (y) = t (yj ) = m (yj ) (7.47) mN0 m j=1 j=1 che consiste nella media aritmetica semplice, sugli m grappoli, delle medie dei grappoli campionati. Correttezza dello stimatore della media di popolazione Teorema 7.13 Lo stimatore (9.54) è stimatore corretto della media di popolazione. Dimostrazione Il sistema di pesi (9.53) è scelto in modo da assicurare la correttezza dello stimatore. Infatti, sostituendo la (9.53) nella (9.14), applicando l’operatore speranza secondo la (9.15) e usando la (9.10), si ottiene: E [mG (y)] = M E (bk ) wk t (ηk ) = k=1 = 1 M M m 1 t (ηk ) M mN0 k=1 M k=1 t (ηk ) 1 = N0 M M m (ηk ) = m (η) . k=1 Corollario 7.8 In riferimento al campione di n unità elementari, lo stimatore mG (y), che usa i pesi (9.53), non è altro che la media aritmetica semplice delle unità appartenenti ai grappoli selezionati. Dimostrazione Infatti dalla (9.54) si ha: mG (y) = N0 m m 1 1 1 m (yj ) = yjλ m j=1 m j=1 N0 λ=1 = 1 mN0 m = m N0 j=1 λ=1 yjλ = 1 n 1 t (yj ) = m (y) . n j=1 m N0 yjλ j=1 λ=1 Daniela Cocchi: Teoria dei Campioni (7.48) 206 7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE Varianza dello stimatore della media di popolazione Nel campionamento casuale semplice dei grappoli vengono estratti senza reintroduzione m unità complesse su M , quindi valgono i risultati del campionamento casuale semplice dei totali di grappolo t (ηk ) . La varianza descrittiva di popolazione che entra nella varianza degli stimatori è quindi la varianza ”tra”, in questo caso nella versione semplificata (9.48). Si ricava quindi l’espressione della varianza dello stimatore (9.54). Teorema 7.14 La varianza dello stimatore per la media di popolazione è: M − m vt2 (η) M −1 m M −m 2 = s (η) mN t V [mG (y)] = (7.49) Dimostrazione Introducendo nell’espressione della varianza del generico stimatore lineare ed omogeneo (9.16) i pesi (9.53) e le espressioni (9.11) e (9.12) per le varianze e le covarianze delle bk si ottiene V [mG (y)] = = = = = = M M m M −m 1 m M −m 1 2 t(η ) − 2 t(ηk )t(ηk ) k 2 M − 1 m2 N 2 M M m2 N02 M 0 k=1 k=1 k <k M M M −m 2 2 t(ηk ) − t(ηk )t(ηk ) M 2 mN02 M −1 k=1 k=1 k <k M M M −m 2 2 m(ηk ) − m(ηk )m(ηk ) M 2m M −1 k=1 k=1 k <k M M M M −m 2 2 m(ηk ) − m(ηk ) − 2 m(ηk )m(ηk ) M M 2 m(M − 1) k=1 k=1 k=1 k <k M 2 M M −m M m(ηk )2 − m(ηk ) M 2 m(M − 1) k=1 k=1 M M −m 2 2 m(ηk ) − Mm(η) M m(M − 1) k=1 e, ricordando la (9.49), si ottiene: V [mG (y)] = M − m vt2 (η) . M −1 m Corollario 7.9 La varianza (9.56) dello stimatore della media di popolazione può essere scritta anche come: N −n 2 1 1 V [mG (y)] = s (η) = − s2t (η) . (7.50) Nn t n N Dimostrazione Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 207 Ricordando che M −m MN0 − mN0 N −n = = , m mN0 n (7.51) segue immediatamente che la (9.56) può essere riscritta secondo la (9.57). Uno stimatore distorto per la varianza ”tra” di popolazione La varianza campionaria ”tra” (1.36), nel caso del campionamento a grappolo, è data dalla varianza campionaria delle medie di grappolo: m vt2 (y) = m 1 1 N0 (m (yj ) − mG (y))2 = (m (yj ) − m (y))2 . n j=1 m j=1 (7.52) Teorema 7.15 Lo stimatore (9.59) non è stimatore corretto della varianza ”tra” di popolazione (1.36) espressa nella versione (9.48). Dimostrazione Applicando il risultato (2.55), relativo al campionamento casuale semplice di unità elementari, al caso di una popolazione composta da unità complesse, si ha: ! m−1 M E vt2 (y) = v2 (η) . m M −1 t Dunque tale stimatore non risulta corretto per vt2 (η). (7.53) Uno stimatore corretto per la varianza ”tra” di popolazione La quantità campionaria s2t (y) = n v2 (y) , m−1 t (7.54) nel caso del campionamento a grappolo con grappoli di dimensione eguale può essere scritta come: m s2t (y) = = n 1 N0 (m (yj ) − m (y))2 m − 1 n j=1 m 1 N0 (m (yj ) − m (y))2 . m−1 j=1 Teorema 7.16 Lo stimatore (9.62) è uno stimatore corretto di s2t (η). Dimostrazione Direttamente dalla (9.61) si ottiene ! ! n n 2 2 E st (y) = E v (y) = E vt2 (y) m−1 t m−1 mN0 m − 1 M N = v2 (η) = v2 (η) = s2t (η) . m−1 m M −1 t M −1 t Daniela Cocchi: Teoria dei Campioni (7.55) 208 7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE Uno stimatore per la varianza dello stimatore della media di popolazione Per stimare la varianza (9.57) dello stimatore mG (y), si propone la quantità: V̂ [mG (y)] = M −m 2 N −n 2 s (y) = s (y) , Nm t Nn t (7.56) Teorema 7.17 Lo stimatore (9.63) è corretto per la quantità V [mG (y)] . Dimostrazione Dalla (9.57) e dal Teorema 7.4 segue che: ! M −m 2 N −n st (y) = E s2t (y) E V̂ [mG (y)] = E Nm Nn N −n 2 = s (η) = V [mG (y)] . Nn t 7.3.2 Inferenza sulla media per grappolo Lo stimatore della media per grappolo E’ immediato proporre come stimatore corretto della media per grappolo (8.2), nella forma particolare (9.47), la quantità: m∗G (y) = N0 mG (y) = N0 m (y) . (7.57) Teorema 7.18 La varianza dello stimatore della media per grappolo (9.64) è: M −m 2 M −m 2 s (η) = N0 s (η) . (7.58) mN t mM t Analogamente a quanto detto per la media generale, l’espressione (9.65) può essere espressa dal seguente: V [m∗G (y)] = N02 Corollario 7.10 Una forma alternativa per la varianza dello stimatore della media per grappolo è la: 1 1 ∗ 2N −n 2 2 V [mG (y)] = N0 s (η) = N0 − s2t (η) . (7.59) nN t n N Essa deriva direttamente dalla (9.65) sfruttando la relazione (9.58). Uno stimatore per la varianza dello stimatore della media per grappolo Teorema 7.19 La varianza (9.66) è stimata correttamente dalla quantità: M −m 2 M −m 2 s (y) = N0 s (y) Nm t Mm t N −n 2 = N02 s (y) . Nn t V̂ [m∗G (y)] = N02 Daniela Cocchi: Teoria dei Campioni (7.60) CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 209 7.3.3 Inferenza sul totale di popolazione Lo stimatore del totale di popolazione Per inferire sul totale di popolazione (1.3) nel caso di campionamento a grappolo con grappoli della stessa dimensione, si propone lo stimatore: tG (y) = N mG (y) = Nm (y) . (7.61) Tale stimatore, analogamente a quanto visto per la (9.54), può anche essere ottenuto dalla teoria dello stimatore lineare omogeneo, mediante l’impiego dei pesi: M wk = 1≤k≤M (7.62) m nella espressione (9.14). I pesi impiegati sono gli stessi, (9.53), usati per la stima della media, a meno di una moltiplicazione per N. Lo stimatore per il totale è quindi: tG (y) = M m t (yj ) j=1 m =M m N0 j=1 m m (yj ) = N m m (yj ) j=1 m = N m (y) . (7.63) Correttezza dello stimatore del totale di popolazione Teorema 7.20 Lo stimatore (9.68) è uno stimatore corretto del totale di popolazione. Dimostrazione In tal caso, applicando l’operatore speranza allo stimatore (9.68) si ha: E [tG (y)] = M E (bk ) wk t (ηk ) = k=1 = M M mM t (ηk ) M m k=1 t (ηk ) = t (η) . k=1 Varianza dello stimatore del totale di popolazione Si ricava, come per la media generale, l’espressione della varianza dello stimatore (9.68), con un procedimento analogo a quello che porta alla (2.53). Il teorema che segue è quindi presentato senza dimostrazione. Teorema 7.21 La varianza dello stimatore del totale è: V [tG (y)] = N 2 M −m 2 M −m 2 s (η) = N st (η) . mN t m (7.64) Tale varianza può essere espressa anche utilizzando la (9.58). Si ha dunque: Corollario 7.11 V [tG (y)] = N N −n 2 st (η) = N 2 n 1 1 − n N Daniela Cocchi: Teoria dei Campioni s2t (η) . (7.65) 210 7.3. C.C.S.S.R. DI GRAPPOLI CON LA STESSA DIMENSIONE Uno stimatore per la varianza dello stimatore del totale di popolazione Uno stimatore per la varianza dello stimatore del totale è: V̂ [tG (y)] = N M −m 2 N −n 2 st (y) = N st (y) . m n (7.66) Teorema 7.22 Lo stimatore (9.73) è stimatore corretto della varianza (9.72). 7.3.4 Confronto di efficienza tra il campionamento casuale semplice di unità complesse e il campionamento casuale semplice di unità elementari Come già visto nel Capitolo 2, il confronto tra strategie alternative in termini di efficienza può essere fatto in termini di effetto del disegno (Deff ). Teorema 7.23 Il campionamento a grappolo, in caso di grappoli formati dallo stesso numero di elementi, è più efficiente del campionamento casuale semplice se vale la: s2t (η) < s2e (η) . (7.67) Dimostrazione Nel caso del campionamento casuale semplice di unità complesse della stessa dimensione, vengono estratte n = mN0 unità elementari su N = M N0 . La varianza della media campionaria, in caso di campionamento casuale semplice senza reintroduzione di unità elementari, è data dalla (2.53). Nel caso di estrazione di grappoli della stessa dimensione la varianza della media campionaria è data invece dalla (9.57). L’efficienza relativa del campionamento a grappolo rispetto al campionamento casuale semplice misurata dal Deff, definito nella (2.67), diventa: Deff = Π = CCS; m (y) GR; mG (y) N−n 2 Nn st (η) N−n 2 Nn s (η) = = V [mG (y)] V [m (y)] s2t (η) . s2 (η) Sostituendo N = M N0 nella scomposizione (1.40), si ha: (M N0 − 1) s2 (η) = M (N0 − 1) s2e (η) + (M − 1) s2t (η) . Il Deff è minore di 1 se: ! M (N0 − 1) s2e (η) + (M − 1) s2t (η) < (M N0 − 1) ! (M N0 − 1) s2t (η) < M (N0 − 1) s2e (η) + (M − 1) s2t (η) s2t (η) (M N0 − 1 − M + 1) s2t (η) < M (N0 − 1) s2e (η) s2t (η) < s2e (η) . Daniela Cocchi: Teoria dei Campioni (7.68) CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 211 Il risultato è da confrontare con l’analogo ottenuto per la stratificazione con il criterio proporzionale. Nota. E’ importante precisare che non è sempre vero che s2 (η) sia sempre maggiore di s2t (η), al contrario di quanto avviene per le varianze, per cui è sempre valida la diseguaglianza vt2 (η) ≤ v2 (η). Quando si considerano unità complesse, importanti risultati possono essere espressi in termini di una quantità descrittiva di popolazione detta coefficiente di correlazione intracluster. La quantità, le sue proprietà e il suo impiego sono illustrati nell’Appendice 1. I risultati sulle proprietà dei grappoli di eguali dimensioni sono casi particolari di quelli relativi ai grappoli di dimensioni diverse. Alcune eguaglianze utili per la verifica sono presentati nell’Appendice 2. Nel campionamento casuale semplice di grappoli che hanno numerosità diverse, lo stimatore diretto presentato precedentemente tende a generare stime con varianza elevata. Si può, in alternativa, estrarre il campione con probabilità proporzionale alla dimensione dei grappoli ottenendo, nel caso con reintroduzione, un risultato semplice e intuitivo, che è presentato nell’Appendice 3. La diversa dimensione dei grappoli è un’informazione nota al momento della progettazione del campione. Nella popolazione delle M unità complesse, la dimensione di ciascuna unità può quindi assumere il ruolo di variabile ausiliaria nota per ogni elemento della popolazione. Si dispone quindi degli elementi per il calcolo dello stimatore per quoziente nel caso di campionamento casuale semplice di unità complesse di diversa dimensione. Per i confronti con i risultati precedenti, si considera, anche in questo caso, il campionamento casuale semplice con reintroduzione. I risultati sono presentati nell’Appendice 4. Nell’Appendice 5 sono riportati i confronti di efficienza tra strategie alternative nel caso di campionamento di grappoli con dimensioni diverse. 7.4 Campionamento sistematico Si supponga che il reciproco della frazione di campionamento sia intero: N/n = M. Gli N valori individuali di η possono essere ordinati in una tabella: η1 ηM+1 η2M+1 η(n−1)M+1 ... η2 ηM+2 η2M+2 η(n−1)M+2 ... ... ... ηM η2M η3M ... ηnM formata da M righe che contengono gli M grappoli. Il campione sistematico di base k (k ∈ {1, ..., M}) e di ragione M è formato dagli elementi della k-ma riga della tabella e si ottiene estraendo con campionamento casuale semplice una riga della tabella. Ciò equivale a estrarre un solo grappolo di n elementi nella popolazione degli M grappoli. La relazione tra campionamento a grappolo nel caso in cui nel grappolo m = 1 e N0 = n e campionamento sistematico è immediata: il numero di Daniela Cocchi: Teoria dei Campioni 212 7.4. CAMPIONAMENTO SISTEMATICO grappoli diventa il passo di campionamento, mentre la numerosità da estrarre per ogni gruppo è la numerosità del campione, quindi restano validi i risultati del campionamento a grappolo. In questo caso non si può calcolare uno stimatore della varianza degli stimatori per il campionamento a grappolo, perchè, essendo stato estratto solo un grappolo, s2t (y) non può essere calcolato. In alcune circostanze il campionamento avviene con più di una estrazione sistematica, ottenendo in tal caso più di un grappolo, con la possibilità di stimare la varianza. Se gli elementi della popolazione sono ordinati in modo aleatorio lungo le righe, il campionamento sistematico e quello casuale semplice hanno la stessa efficacia: facendo l’ipotesi che l’ordinamento degli elementi della popolazione sia di questo tipo, si può stimare la varianza s2 (η) con i dati del campione, come nel caso del campionamento casuale semplice. I vantaggi del campionamento sistematico sono quindi di due tipi. Esso dà risultati teoricamente equivalenti a quelli del campionamento casuale semplice se i valori della variabile oggetto d’indagine sono disposti casualmente rispetto all’ordinamento implicito nei gruppi. In questo caso si ha un risparmio nei costi di campionamento, dovuto all’effettuazione di una sola estrazione invece che n. Se, invece, la popolazione mostra, rispetto ai valori della variabile d’interesse, un andamento crescente o decrescente che viene colto dal passo di campionamento, il campionamento sistematico può rivelarsi più efficace del campionamento casuale semplice. Il campionamento sistematico risulta più efficace del campionamento casuale semplice quando si riescono a numerare le unità in modo che quelle simili rispetto al carattere studiato si trovino vicine tra loro. Infatti, se le unità di una stessa riga sono molto eterogenee, il campionamento sistematico è più efficace del campionamento casuale semplice; se le unità di una stessa riga sono più omogenee che nel caso in cui le righe siano composte casualmente, il campionamento sistematico è meno efficace del campionamento casuale semplice. Quando gli elementi all’interno di ogni potenziale campione sistematico sono molto diversi tra loro, o, in altre parole, rappresentativi della popolazione di elementi, se cioè c’è eterogeneità nell’unico gruppo selezionato, si ottiene una riduzione della varianza rispetto al campionamento casuale semplice, ed il campionamento sistematico risulta migliore. Il contrario avviene quando gli elementi entro ciascun grappolo sono simili ma differenti da elementi in altri grappoli. Il campionamento sistematico può dare risultati molto peggiori del campionamento casuale semplice se gli elementi presentano un ordinamento ciclico che viene colto dal passo di campionamento. In questo caso, il campione risulta formato da unità molto simili, che rappresentano il fenomeno oggetto di studio sempre nella stessa fase del ciclo. Se il passo di campionamento M è diverso da un intero N = (n)M + d, può non essere possibile completare il campione fino alle n unità perchè l’ultima colonna della tabella presentata all’inizio del paragrafo rimane incompleta. Il modo più semplice per ovviare a questo inconveniente consiste nel completare l’ultima colonna della tabella ripartendo dal primo valore η1 . Successivamente si sceglie la riga da campionare estraendo un numero casuale r uniforme tra 1 e M (su {1, 2, ..., M }) e si applica il campionamento sistematico a questa matrice. In questo caso non si ottiene uno stimatore corretto della media di popolazione, anche se si hanno i vantaggi della dimensione n costante e ogni Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 213 campione ha sempre probabilità 1/M di essere estratto. Questa variante del campionamento sistematico è nota come campionamento sistematico circolare. 7.5 7.5.1 Appendici Appendice 1 Il coefficiente di correlazione intracluster Definizione del coefficiente di correlazione intracluster La varianza ”tra” (9.48) può essere scritta come: vt2 M 1 [m (ηk ) − m (η)]2 (η) = M k=1 2 N0 M 1 1 = [ηλk − m (η)] M N0 k=1 λ=1 M N0 1 1 = [ηkλ − m (η)]2 M N02 k=1 λ=1 M 1 2 + [ηkλ − m (η)] [ηkλ − m (η)] . M N02 (7.69) k=1 λ<λ Il passaggio dal primo al secondo termine avviene notando che N0 1 ηλk − m (η) N0 λ=1 N 0 1 = ηλk − N0 m (η) N0 m (ηk ) − m (η) = λ=1 N0 1 = [ηλk − m (η)] . N0 λ=1 Si definisce coefficiente di correlazione intracluster la seguente quantità: 2 1 M N0 (N0 −1) δ= M k=1 λ<λ [ηλk − m (η)] [ηλ k − m (η)] v2 (η) . (7.70) La (9.77) è il coefficiente di correlazione lineare tra le M N0 (N0 − 1) coppie di valori distinti ηkλ e ηkλ con λ = λ = 1, ..., N0 e k = 1, ..., M. Riscrittura della varianza ”tra” in popolazione in termini del coefficiente di correlazione intracluster Ricordando che v2 (η) = M N0 1 [ηλk − m (η)]2 , MN0 k=1 λ=1 Daniela Cocchi: Teoria dei Campioni 7.5. APPENDICI 214 la varianza ”tra” (9.76) può essere riscritta come: vt2 (η) = 1 2 N0 − 1 1 2 v (η) + v2 (η) δ= v (η) [1 + (N0 − 1) δ] . N0 N0 N0 (7.71) Teorema 7.24 La varianza ”tra” può essere riscritta in funzione della varianza di popolazione e del coefficiente di correlazione intracluster: s2t (η) = s2 (η) 1 N −1 [1 + (N0 − 1) δ] N0 M − 1 (7.72) Dimostrazione Sostituendo la (9.79) nella (1.39) si ottiene: M N0 2 M N0 1 2 vt (η) = v (η) [1 + (N0 − 1) δ] M −1 M − 1 N0 N −1 M N0 1 2 = s (η) [1 + (N0 − 1) δ] M − 1 N0 N 1 N −1 = s2 (η) [1 + (N0 − 1) δ] . N0 M − 1 s2t (η) = Scrittura del coefficiente di correlazione intracluster in funzione delle varianze descrittive di popolazione Il coefficiente di correlazione intracluster può quindi essere ricavato dalla (9.79). Da essa, infatti, isolando il termine che contiene δ, si ottiene: da cui: 1 + (N0 − 1) δ = (N0 − 1) δ = vt2 (η) N0 v 2 (η) vt2 (η) N0 − 1 v 2 (η) 2 1 vt (η) N0 − v2 (η) δ= . N0 − 1 v2 (η) (7.73) Proprietà del coefficiente di correlazione intracluster Teorema 7.25 Il coefficiente δ è compreso tra i valori − N01−1 e 1. Dimostrazione Poiché la varianza ”tra” varia tra 0 e v2 (η), se vt2 (η) = 0, dalla (9.79) si ricava: −v2 (η) = v2 (η) (N0 − 1) δ, e quindi δ=− 1 . (N0 − 1) Se vt2 (η) = v2 (η) dalla (9.79) si ricava: da cui N0 = 1 + (N0 − 1) δ δ = 1. Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 215 Varianza degli stimatori della media di popolazione, della media per grappolo e del totale in termini di coefficiente di correlazione intracluster Tramite l’introduzione del coefficiente di correlazione intracluster, la varianza dello stimatore della media, o del totale, nel caso di campionamento a grappolo può essere espressa come funzione della varianza di popolazione (1.8) e non solo della varianza ”tra” (1.36) o (9.48). Teorema 7.26 V [mG (y)] = N −n 1 N −1 2 s (η) [1 + (N0 − 1) δ] , M − 1 nN0 N (7.74) Dimostrazione Sostituendo la (9.80) nell’espressione (9.57), si ottiene: V [mG (y)] = = N −n 2 N −n 2 1 N −1 st (η) = s (η) [1 + (N0 − 1) δ] Nn Nn N0 M − 1 N −n 1 N −1 2 s (η) [1 + (N0 − 1) δ] . M − 1 nN0 N Teorema 7.27 V [m∗G (y)] = N −n 1 N −1 2 s (η) [1 + (N0 − 1) δ] . M −1n M (7.75) Dimostrazione Sostituendo la (9.80) nell’espressione (9.66) si ottiene N −n 2 s (η) Nn t N −n 2 N −1 = N0 s (η) [1 + (N0 − 1) δ] nN M −1 1 N −n 2 N −1 = s (η) [1 + (N0 − 1) δ] . M n M −1 V [m∗G (y)] = N02 Teorema 7.28 V [tG (y)] = M N −nN −1 2 s (η) [1 + (N0 − 1) δ] . M −1 n Dimostrazione Sostituendo la (9.80) nella (9.72) si ha: N −n 2 st (η) n N −nN −1 2 =N s (η) [1 + (N0 − 1) δ] M − 1 nN0 N −nN −1 2 =M s (η) [1 + (N0 − 1) δ] . M −1 n V [tG (y)] = N Daniela Cocchi: Teoria dei Campioni (7.76) 7.5. APPENDICI 216 Reinterpretazione del confronto di efficienza tra campionamento casuale semplice e campionamento a grappolo in base al coefficiente di correlazione intracluster Teorema 7.29 Il campionamento a grappolo nel caso di gruppi con eguale dimensione è più efficiente del campionamento casuale semplice se il coefficiente di correlazione intracluster è minore di 0. Dimostrazione Se si sostituisce la (9.80) nella (9.75) si ottiene: " # s2 (η) 1 N−1 (1 + (N − 1) δ) 0 N0 M−1 CCS; m (y) Deff = Π = 2 GR; mG (y) s (η) N −1 = [1 + (N0 − 1) δ] . (7.77) N0 (M − 1) Per N elevato rispetto a N0 si può trascurare il primo termine della (9.85) e considerare il valore della precisione in base al solo δ : CCS; m (y) 1 + (N0 − 1) δ. (7.78) Deff = Π GR; mG (y) Dalla (9.86) si osserva che: se δ = 0, il rapporto delle precisioni è pari a 1, quindi l’efficienza dei due campionamenti sarà identica; se δ > 0, il rapporto delle precisioni è inferiore ad 1, quindi la varianza del campionamento casuale semplice è minore dell’altra perchè gli elementi di uno stesso grappolo sono più omogenei tra loro di quelli di grappoli diversi, infatti valori positivi del coefficiente di correlazione intracluster indicano somiglianza; se δ < 0, il rapporto delle precisioni è superiore ad 1, quindi la varianza del campionamento casuale semplice è più elevata di quella del campionamento a grappolo perchè gli elementi di uno stesso grappolo sono più eterogenei rispetto a elementi di grappoli diversi, infatti valori negativi indicano dissomiglianza. In termini di efficienza è opportuno usare il campionamento a grappolo nel caso di popolazioni in cui elementi diversi tendono a raggrupparsi e gli elementi simili tendono ad allontanarsi. In pratica è più verosimile riscontrare attrazione tra gli elementi appartenenti ad uno stesso gruppo. In questo senso, a parità di dimensione campionaria effettiva n, il campionamento a grappolo è spesso poco costoso e poco efficace. Il basso costo deriva dall’aver effettuato un campionamento delle sole m unità complesse. 7.5.2 Appendice 2 [alcune rel. utili per grappoli di eguale e diversa dim.]Relazioni tra i risultati per grappoli con eguale dimensione e per grappoli con dimensioni diverse Quando i gruppi hanno tutti la stessa dimensione, i risultati relativi al campionamento a grappoli con diverse dimensioni coincidono con i risultati propri dei grappoli di dimensione uguale. Le eguaglianze sono mostrate per la stima della media generale m (η) . Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 217 Equivalenza delle varianze Teorema 7.30 Se Nk = N0 allora: V [mg (y)] = V [mG (y)] . Dimostrazione Quando vale la (9.45), la (9.24) diventa: vg2 (η) = M 1 [m (ηk ) − m (η)]2 = vt2 (η) . M (7.79) k=1 In questo caso, quindi, la (9.41) diventa: V [mg (y)] = M −m 1 2 M −m 1 2 v (η) = v (η) = V [mG (y)] . M −1 m g M −1 m t Allo stesso risultato si giunge anche utilizzando l’espressione (9.43) nel caso in cui sia verificata la (9.45). Corollario 7.12 L’espressione (9.43) è uguale alla prima delle (9.56) se è verificata la condizione (9.45). Dimostrazione La (9.43) diventa, in quel caso: M 2 M − m 1 k=1 N02 [m (ηk ) − m (η)] M −1 m M 2 2 M 2 M −m 1 M N k=1 [m (ηk ) − m (η)] M −1 m N M M M −m 1 2 v (η) = V [mG (y)] . M −1 m t V [mg (y)] = = = M N 2 Corollario 7.13 Se Nk = N0 V [mg (y)] = N −n 2 s (η) nN t Dimostrazione Notando che, nel caso in cui vale la (9.50): s2g (η) = = M M vg2 (η) = v2 (η) M −1 M −1 t 1 2 s2 (η) N vt (η) = t M − 1 N0 N0 dalla (9.42) si ricava: V [mg (y)] = M −m 2 N − n N0 2 N −n 2 s (η) = s (η) = s (η) . Mm g n N g nN t Daniela Cocchi: Teoria dei Campioni (7.80) 7.5. APPENDICI 218 Equivalenza degli stimatori delle varianze Nell’ambito dei risultati relativi ai grappoli di dimensione uguale, si usa direttamente s2t (y) per stimare correttamente s2t (η). Riallacciandoci alla notazione del caso di grappoli di dimensioni diverse, si usa s2g (y) = s2t (y) /N0 per stimare s2g (η) = s2t (η) /N0 , secondo il teorema seguente. Teorema 7.31 Per Nk costante: s2g (y) = s2t (y) . N0 (7.81) Dimostrazione Il risultato si ricava ricordando che s2t (y) è espressa dalla (9.62). Per Nk costante, in popolazione m∗ (η) = N0 m (η) vale la (9.47), mentre nel campione m∗ (y) = N0 m (y) vale la (9.64) e quindi s2g (y) , scritto a partire dalla (9.32) e dalla (9.30), corrisponde a: s2g (y) = = m 1 M2 [N0 m (yj ) − N0 m (y)]2 m − 1 N 2 j=1 m 1 M2 2 N [m (yj ) − m (y)]2 m − 1 N 2 j=1 0 m = 1 s2 (y) [m (yj ) − m (y)]2 = t . m − 1 j=1 N0 Anche in termini di stimatori della varianza è possibile individuare una relazione analoga. Teorema 7.32 Se Nk = N0 allora: V, [mg (y)] = V, [mG (y)] Dimostrazione Partendo dalla (9.44), usando la (9.58) e il risultato (9.88), si ottiene infatti la (9.63): V, [mg (y)] = = 7.5.3 N − n N0 2 M −m 2 s (y) = s (y) Mm g n N g N − n N0 s2t (y) N −n 2 = s (y) = V, [mG (y)] . n N N0 nN t Appendice 3 [Camp. dei grappoli con probabilità variabile]Campionamento di grappoli con probabilità variabile con reintroduzione Si consideri il campionamento con reintroduzione di grappoli, con probabilità variabili di estrazione. Per ogni grappolo, la probabilità di estrazione è pari a: pk = Nk . N Daniela Cocchi: Teoria dei Campioni (7.82) CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 219 Da questo paragrafo in poi, come è già stato fatto per la stratificazione, si tratterà unicamente dello stimatore della media, ricordando che il totale si ottiene come semplice prodotto della media per una costante. I risultati riguardanti lo stimatore del totale seguono dunque in modo immediato. Si è quindi ottenuto uno stimatore intuitivo, la media aritmetica semplice delle medie di grappolo, che ha buone proprietà se il campionamento avviene con probabilità variabile con reintroduzione. Si deve però associare la varianza appropriata allo stimatore. 7.5.4 Inferenza sulla media di popolazione Modifica dello stimatore di Hansen-Hurwitz Si definisce per ogni grappolo la variabile trasformata ζk = M Nk m (ηk ) , N (7.83) che è funzione dei totali di gruppo e ha la stessa media della variabile oggetto di indagine: M 1 Nk m (ζ) = M m (ηk ) = m (η) . (7.84) M N k=1 Per ciascun grappolo selezionato, si osserva il valore della variabile: zj = ζkj e si calcola lo stimatore di Hansen-Hurwitz per m (ζ), che è anche stimatore per m (η) per la (9.91). Teorema 7.33 Lo stimatore della media di popolazione nel caso di campionamento dei grappoli a probabilità variabile con reintroduzione è: m mpg (y) = 1 m (yj ) m j=1 (7.85) Dimostrazione Scrivendo lo stimatore di Hansen-Hurwitz per la m (ζ), si ritrova: m mHH (z) = m 1 zj 1 MNj m (yj ) 1 = m j=1 Mpkj m j=1 N M Nj N m = 1 m (yj ) = mpg (y) , m j=1 che corrisponde alla media aritmetica semplice delle medie dei grappoli selezionati. Esso, a causa della (9.91) è anche stimatore di m (η) . Nota. In caso di strategia in cui il piano di campionamento a probabilità costante, lo stimatore (9.92) viene proposto se Nk = N0 , 1 ≤ k ≤ M ; ovvero per grappoli di uguale numerosità. Daniela Cocchi: Teoria dei Campioni 7.5. APPENDICI 220 Correttezza dello stimatore mpg (y) Teorema 7.34 Lo stimatore mpg (y) è corretto per m (η) . Dimostrazione Per la dimostrazione, si sfrutta la conoscenza della varianza dello stimatore di Hansen-Hurwitz per m (ζ). La speranza dello stimatore (9.92) è ottenuta sulla base della (3.1): E [mHH (z)] = E [mpg (y)] = m (ζ) = m (η) . Varianza dello stimatore mpg (y) Teorema 7.35 La varianza dello stimatore mpg (y) è pari a: V [mpg (y)] = 1 2 v (η) m t (7.86) Dimostrazione Si riprendano la (3.5) e la (3.6), in questo contesto si ottiene: 2 M 1 ζk 1 2 vp (ζ) = pk − m (ζ) V [mHH (z)] = m m M pk k=1 2 M 1 Nk M NNk m (ηk ) = − m (ζ) m N M NNk k=1 M = 1 Nk [m (ηk ) − m (η)]2 m N k=1 1 2 = v (η) = V [mpg (y)] m t La varianza dello stimatore di m (η) dipende dalla varianza ”tra” i grappoli. Uno stimatore corretto per vt2 (η) L’espressione dello stimatore di Hansen-Hurwitz contiene l’espressione vp2 (ζ), che si riferisce alle unità complesse. Il suo equivalente campionario, analogo alla (3.7), è: 2 m 1 zj − mHH (z) vp2 (z) = m j=1 M pj 2 m 1 M Nj N = m (yj ) − mpg (y) m j=1 M N Nj m = 1 2 [m (yj ) − mpg (y)]2 = vpg (y) . m j=1 Si tratta, poiché mpg (y) è la media aritmetica delle medie dei grappoli, della varianza delle medie dei grappoli, che però, non essendo ponderata con le dimensioni dei gruppi, non è la varianza ”tra”. Sulla base di aspetti ormai noti dalla teoria, si definisce: m 2 s2pg (y) = v (y) . (7.87) m − 1 pg Daniela Cocchi: Teoria dei Campioni CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 221 Teorema 7.36 Lo stimatore (9.94) è corretto per vt2 (η). Dimostrazione Nel caso di campionamento con reintroduzione, con quantità di tipo s2 (y) stimano correttamente le quantità del tipo v2 (η). Quindi: ! E s2pg (y) = vp2 (ζ) = vt2 (η) . (7.88) Uno stimatore per la varianza dello stimatore mpg (y) Teorema 7.37 La quantità 1 2 s (y) m pg V̂ [mpg (y)] = è una stima corretta della varianza dello stimatore della media a probabilità variabili con il campionamento a grappoli (9.93). Dimostrazione La dimostrazione segue in modo immediato considerando che vale la (9.95) e che può essere associata alla (9.93). 7.5.5 Appendice 4 [la stima per quoziente nel camp. a grappolo]La stima per quoziente nel campionamento a grappolo Nel caso dei grappoli, la retta di popolazione passante per l’origine mette in relazione quantità relative agli M grappoli e non agli N individui: in essa, non si considerano i valori individuali ηλk , bensì i valori di grappolo ζk definiti nella (9.90), che, come già detto, hanno media m (η), per la (9.91). I valori della variabile ausiliaria, per ciascuna unità complessa, sono: ξk = Nk . N (7.89) Teorema 7.38 Uno stimatore di m (η) nel caso di campionamento a grappolo è derivato come stimatore per quoziente di m (ζ): mgQ (y) = m Nj m (yj ) j=1 m . (7.90) Nj j=1 Dimostrazione Dalla definizione dello stimatore per quoziente della media della variabile ζ, con variabile ausiliaria ξ, si ha: mQ (z) = m (z) m (ξ) m (x) Daniela Cocchi: Teoria dei Campioni (7.91) 7.5. APPENDICI 222 dove M 1 Nk 1 = M k=1 N M m (ξ) = (7.92) m 1 Nj M m (yj ) m j=1 N m (z) = m 1 Nj . m j=1 N m (x) = Lo stimatore (9.98) diventa quindi: 1 mQ (z) = mgQ (y) = M m j=1 M Nj m(yj ) N m m j=1 Nj mN = m Nj m (yj ) j=1 m . Nj j=1 Teorema 7.39 La varianza dei residui è pari a: v 2 (εQζ ) = M M N2 k k=1 N2 [m (ηk ) − m (η)]2 (7.93) Dimostrazione L’errore associato alla relazione su cui si costruisce lo stimatore per quoziente è: εQζ = ζk − m (ζ) ξk m (ξ) Nk m (ζ) Nk m (ηk ) − N m (ξ) N Nk = M [m (ηk ) − m (η)] . N = M Poiché in popolazione la media dei residui è nulla, si ottiene: v2 (εQζ ) = m ε2Qζ − m (εQζ )2 = m ε2Qζ M = 1 2 Nk2 M [m (ηk ) − m (η)]2 . M N2 k=1 Teorema 7.40 La formula approssimata della varianza dello stimatore per quoziente, ricordando che il campionamento avviene con reintroduzione, è quindi, direttamente dalla (9.100): M V [mgQ (y)] N2 1 2 1 k v (εQζ ) = M [m (ηk ) − m (η)]2 . m m N2 k=1 Daniela Cocchi: Teoria dei Campioni (7.94) CAPITOLO 7. INTRODUZIONE AL CAMPIONAMENTO A GRAPPOLO 223 Teorema 7.41 La varianza (9.101) può essere stimata con la: m 1 M Nj2 2 V, [mgQ (y)] v2 (eQz ) = [m (yj ) − mgQ (y)] . m m j=1 N 2 7.5.6 Appendice 5 [confronti di effic. tra strategie alternative]Confronto di efficienza tra strategie alternative nel caso di campionamento di grappoli con dimensioni diverse Riscrittura utile per effettuare confronti di efficienza Per questo confronto si introduce una nuova variabile: ρk = m (ηk ) m (η) 1≤k≤M e si usa, oltre alla (9.99), il risultato: m (ξρ) = M 1 1 1 Nk m (ηk ) = M N m (η) M k=1 per esprimere in modo diverso le variabili ζk = M Nk m (η) m (ηk ) = Mm (η) ξk ρk N m (η) e il coefficiente della retta βQζ m (ζ) = = m (ξ) 1 M M Nk k=1 M N m (ηk ) M Nk 1 k=1 N M = Mm (η) . In questo modo ζ può essere espresso in funzione di ξ, ovvero: ζk = βQζ ξk ρk . Se, alla luce di questa riscrittura, si riesamina il residuo della retta collegata allo stimatore del quoziente, si ottiene: εQζ = ζk − βQζ ξk = βQζ ξk ρk − βQζ ξk = βQζ ξk (ρk − 1) , quantità che può essere usata nei confronti successivi. Daniela Cocchi: Teoria dei Campioni 7.5. APPENDICI 224 7.5.7 Confronto tra strategie alternative nel caso di campionamento a grappoli con dimensione diversa I tre stimatori: mg (y) , introdotto con la (9.39), abbinato al campionamento casuale semplice dei grappoli senza usare informazioni ausiliarie; mpg (y) , introdotto con la (9.92), abbinato al campionamento a grappolo con estrazione a probabilità variabile; mgQ (y) , stimatore per quoziente in un campionamento casuale semplice di grappoli, introdotto con la (9.97) possono essere confrontati in termini di efficienza. Si possono dimostrare i risultati seguenti: 1) lo stimatore per quoziente riferito al campionamento a grappoli, (9.97), è da preferire allo stimatore diretto del grappolo (9.39) quando 1 v (ξρ, ξ) > v2 (ξ) ; 2 2) il campionamento a grappolo con estrazione a probabilità variabile (9.92) è da preferire al campionamento casuale semplice dei grappoli con stimatore (9.39) quando v ξρ2 , ξ > 0; 3) il campionamento a grappolo con probabilità variabile, e lo stimatore di Hansen-Hurwitz associato, (9.92), sono da preferire al campionamento casuale semplice dei grappoli e all’impiego dello stimatore per quoziente (9.97) quando v ξ (ρ − 1)2 , ξ > 0. Scrivendo le tre varianze nel caso di campionamento con reintroduzione, rispettivamente dalla adattando la (9.41) al caso con reintroduzione, dalla (9.93) e dalla (9.101), V [mg (y)] = 2 M 1 Nk M m (ηk ) − m (η) mM N k=1 V [mpg (y)] = M 1 Nk [m (ηk ) − m (η)]2 m N k=1 V [mgQ (y)] M M Nk2 [m (ηk ) − m (η)]2 m N2 k=1 si possono interpretare ulteriormente i risultati ricavati in precedenza. Se le medie dei grappoli tendono ad essere uguali tra loro, sarà preferibile non utilizzare il campionamento casuale semplice dei grappoli e il relativo stimatore diretto. Se, invece, i totali dei grappoli tendono ad essere uguali tra loro, è più conveniente utilizzare il campionamento a grappoli con estrazione casuale semplice dei grappoli stessi e lo stimatore diretto. Se Nk = N0 , ovvero tutte le numerosità sono identiche, saranno ugualmente identici anche tutti i risultati, in termini di varianze. Daniela Cocchi: Teoria dei Campioni