DISEGNI DI CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE (schede riassuntive da A. Stuart, I sondaggi di opinione. Idee per il campionamento) CAMPIONAMENTO PROBABILISTICO: ci si riferisce a tutte quelle tecniche di selezione del campione per le quali sia nota la probabilità che ciascuna unità della popolazione ha di entrare a far parte del campione. Caratteristica fondamentale dei metodi probabilistici è quella di non consentire discrezionalità nella selezione delle unità che entrano a far parte del campione; bensì definire un meccanismo di selezione che prevede l’introduzione e l’utilizzo pianificato del CASO. Di conseguenza, affidandosi alla teoria del calcolo delle probabilità, è possibile calcolare la probabilità che ogni singola unità ha essere selezionata. CAMPIONAMENTO CASUALE SEMPLICE: il meccanismo di selezione è assimilabile ad un esperimento aleatorio di estrazione di palline da un urna, dove ciascuna pallina è associata ad una unità della popolazione. Tutte le unità hanno la stessa probabilità di entrare a far parte del campione . L’informazione utilizzata per questa strategia di selezione del campione è la seguente: lista delle unità facenti parte della popolazione, dimensione della popolazione N e dimensione del campione n. Siamo interessati allo studio delle caratteristiche della distribuzione di probabilità della media campionaria x 1 n xi al fine di poterne valutare la bontà (sulla base dei risultati ottenibili su tutti i campioni potenzialmente n i 1 estraibili) come stimatore della media incognita nella popolazione. Caso A: campionamento casuale semplice con rimpiazzo (ad ogni estrazione l’unità viene reinserita nella popolazione da cui si campiona, quindi una stessa unità può potenzialmente entrare a far parte dello stesso campione più volte). ESEMPIO: poniamoci nella situazione fittizia nella quale sia nota la composizione della popolazione dalla quale campioniamo, in particolare supponiamo di essere interessati alla variabile casuale reddito mensile, che in una popolazione di 4 individui (N=4) assume i seguenti valori (espressi in migliaia di euro): 2, 4, 5, 1. Se supponiamo di estrarre campioni di dimensione 2 otteniamo 16 possibili campioni su cui calcolare la media e derivare la seguente distribuzione campionaria (associando a ciascun possibile risultato la somma delle probabilità dei campioni che realizzano quella media campionaria): Media campionaria 1 1.5 2 2.5 3 3.5 4 4.5 5 Probabilità 1/16 2/16 1/16 2/16 4/16 2/16 1/16 2/16 1/16 Campioni che danno quella media e loro probabilità: (1,1) con prob. 1/16 (1,2) (2,1) ciascuno con prob. 1/16 (2,2) con prob. 1/16 (1,4) (4,1) ciascuno con prob. 1/16 (2, 4) (4, 2) (5, 1) (1,5) ciascuno con prob. 1/16 (5, 2) (2, 5) ciascuno con prob. 1/16 (4, 4) con prob. 1/16 (4, 5) (5,4) ciascuno con prob. 1/16 (5,5) con prob. 1/16 Vorremmo che la media campionaria fosse il più vicino possibile alla media vera della popolazione (pari a 3) con la probabilità più elevata possibile (idealmente vorremmo che fosse pari alla media vera con probabilità 1, ma come e’ evidente ciò non è possibile). Vediamo che un valore campionario pari alla media nella popolazione si verifica, per l’esempio considerato, in 4 casi su 16, in tutti gli altri casi il valore medio campionario è diverso (più o meno) dal valore del parametro nella popolazione. Possiamo però valutare alcune utili caratteristiche della distribuzione di probabilità nel suo complesso. In particolare, la media (valore atteso) della distribuzione campionaria costruita risulta pari a 3, che corrisponde alla media calcolata sulla popolazione nel complesso. Calcoliamo ora la varianza di tale distribuzione, vale a dire Var ( x ) k (x i 1 i ) 2 pi , che misura la variabilità delle possibili diverse medie campionarie ottenibili sui potenziali diversi campioni di dimensione fissata n estraibili dalla popolazione di dimensione N (nel caso con rimpiazzo i possibili campioni, distinguibili tra loro per l’ordine o per il n cambiamento di almeno una unità, sono in numero N ). Tale varianza risulta pari a 1.25. RISULTATO: il valore medio della distribuzione di probabilità della media campionaria risulta pari a (ciò ci indica che la media campionaria è uno stimatore CORRETTO della media vera nella popolazione) e la varianza di tale media (misura della variabilità della media campionaria sui diversi campioni estraibili), Var (x ) , è pari a 2/n (2 nella popolazione è pari a 2.5), dipende, quindi, dalla varianza, incognita, della v.c. reddito nella popolazione, ma anche, in maniera inversa, dalla dimensione del campione (dicendoci in tal modo che, aumentando la dimensione del 1 campione, possiamo ridurre la variabilità della media campionaria assicurandoci di avere una probabilità più elevata di selezionare campioni con reddito medio vicino al reddito medio della collettività; tale proprietà dello stimatore media campionaria prende il nome di CONSISTENZA). OSSERVAZIONE 1: per avere un’idea dell’effettiva variabilità della media campionaria (che fornisce una misura della PRECISIONE della stima) dobbiamo poter valutare l’ordine di grandezza della varianza della media campionaria, cosa che può essere fatta sostituendo a 2 una sua stima nell’ espressione di Var (x ) =2/n . Uno stimatore corretto della varianza 2 della v.c. nella popolazione è dato dalla cosiddetta varianza campionaria corretta s 2 1 n ( xi x ) 2 , n 1 i 1 il cui valore, come per la media campionaria, differisce nei diversi possibili campioni. Con riferimento all’esempio precedente otteniamo infatti la seguente distribuzione di probabilità per la varianza campionaria corretta: Varianza camp.corr. 0 0.5 2 4.5 8 Probabilità 4/16 4/16 2/16 4/16 2/16 Campioni che danno quella varianza e loro probabilità: (2, 2) (4, 4) (5, 5) (1, 1) ciascuno con prob. 1/16 (2, 1) (1, 2) (4, 5) (5, 4) ciascuno con prob. 1/16 (4, 2) (2, 4) ciascuno con prob. 1/16 (2, 5) (5, 2) (4, 1) (1, 4) ciascuno con prob. 1/16 (5, 1) (1, 5) ciascuno con prob. 1/16 la cui media è pari a 2.5 (varianza del reddito nella popolazione), a dimostrare che si tratta di uno stimatore corretto. OSSERVAZIONE 2: sulla base di un risultato fondamentale della statistica (noto come Teorema Limite Centrale) la distribuzione della media campionaria può essere approssimata (sempre meglio all’aumentare della dimensione campionaria) dalla distribuzione normale (o di Gauss). Le caratteristiche della curva normale (e la possibilità di determinare agevolmente aree sotto la curva, vale a dire la probabilità di trovarsi in un certo intervallo), insieme al valore della media campionaria osservato e alla stima della variabilità di tale media, ottenuta come s2/n, possono essere sfruttate per fare affermazioni (costruzione di intervalli di confidenza) del tipo: s s ; x 2.8 x 2.8 contiene il valore della media incognita n n s s ;x 2 con probabilità circa del 95% l’intervallo x 2 contiene il valore della media incognita n n con probabilità circa del 99.5% l’intervallo con probabilità circa del 68% l’intervallo s s ; x 1 x 1 contiene il valore della media incognita n n Tali affermazioni permettono di associare alle stime una misura del grado di affidabilità (si osservi che aumentando la misura di probabilità aumenta anche l’ampiezza dell’intervallo che quindi si rivela più affidabile ma meno informativo): ad esempio possiamo dire che ci sono 95 possibilità su 100 che la media campionaria non si discosti dalla media vera più di 2 volte la sua deviazione standard (radice quadrata della sua varianza). Caso B: campionamento casuale semplice senza rimpiazzo (detto anche in blocco, l’unità estratta non viene reinserita nella popolazione, quindi una stessa unità non può entrare a far parte dello stesso campione più volte). ESEMPIO: con riferimento all’esempio precedente (stessa popolazione di 4 unità con valori del reddito pari a 2, 4, 5, 1 migliaia di euro) supponiamo ora di estrarre campioni di dimensione 2 senza rimpiazzo, ottenendo 6 possibili campioni su cui costruiamo la seguente distribuzione campionaria: Media campionaria 1.5 2.5 3 3.5 4.5 Probabilità 1/6 1/6 2/6 1/6 1/6 Campioni che danno quella media e loro probabilità: (2, 1) con prob. 1/6 (4, 1) con prob. 1/6 (2, 4) (5, 1) ciascuno con prob. 1/6 (2, 5) con prob. 1/6 (4, 5) con prob. 1/6 Il numero dei possibili campioni (consideriamo in questo caso campioni diversi quelli distinguibili sulla base della diversità di almeno un’unità, mentre non è necessario distinguere in base all’ordine con cui le unità compaiono, ad 2 esempio il campione (2,1) non è considerato distinguibile da (1,2)) è calcolabile sulla base del coefficiente binomiale: N n La media della distribuzione è ancora una volta pari a 3, e quindi uguale alla media vera del reddito nella ppolazione. Calcoliamo ora la varianza di tale distribuzione, Var (x ) , che risulta pari a 0.83 (rispetto al caso con rimpiazzo la varianza ottenuta è più bassa). RISULTATO: il valore medio della distribuzione di probabilità della media campionaria risulta anche nel caso senza rimpiazzo pari a (la media campionaria è ancora uno stimatore CORRETTO della media vera nella popolazione); mentre la varianza di tale media è legata alla varianza, incognita, della v.c. reddito nella popolazione dalla seguente relazione: Var ( x ) 2 n N n N 1 Tale espressione determina (come abbiamo visto anche nell’esempio) una minore variabilità della media campionaria rispetto al caso con rimpiazzo, quindi una maggiore PRECISIONE della stima, nel senso che nel caso di campionamento senza rimpiazzo è maggiore la probabilità di trovare realizzazioni della media campionaria più vicine al valore vero. Si osservi tuttavia che, se n è sufficientemente piccolo rispetto alla dimensione della popolazione N, il fattore moltiplicativo (N-n)/(N-1) diviene irrilevante (praticamente pari a 1): in tal caso non si ha differenza tra i due tipi di campionamento casuale semplice, con o senza rimpiazzo. Anche in questo caso, infine, la varianza si riduce all’aumentare della dimensione (CONSISTENZA della media campionaria). In modo analogo a quanto visto per la media campionaria, possiamo studiare le caratteristiche della distribuzione di probabilità della proporzione campionaria (numero di unità che presentano una certa caratteristica nel campione) al fine di poterne valutare la bontà come stimatore della proporzione incognita di unità che presentano una certa caratteristica nella popolazione. Tale caso può essere trattato alla stregua di una media campionaria codificando opportunamente le osservazioni, vale a dire associando il valore 1 alla presenza e 0 all’assenza della caratteristica di interesse (esempio abitudine o non abitudine al fumo), supponendo di selezionare un campione casuale semplice con rimpiazzo da una popolazione costituita tutta da valori 0 e 1 (il numero complessivo N in questo caso diviene irrilevante al fine della derivazione dei risultati, ciò che è rilevante è esclusivamente la proporzione di valori pari 1 nella popolazione, che corrisponde alla probabilità di selezionare un individuo con la caratteristica desiderata). ESEMPIO: poniamoci nella situazione fittizia nella quale sia noto che 2/3 della popolazione presentano la caratteristica di essere fumatori, vale a dire la distribuzione di probabilità della v.c. abitudine al fumo è la seguente: Abitudine al fumo Probabilità 0 1/3 1 2/3 la cui media (valore atteso) è pari alla proporzione 2/3 (che indichiamo con p) e la cui varianza è pari a 2/9=0.22 (che si ottiene anche come p(1-p)). Se supponiamo di estrarre campioni di dimensione 3 otteniamo 8 possibili campioni su cui calcolare la proporzione osservata e derivare la seguente distribuzione campionaria (associando a ciascun possibile risultato la somma delle probabilità dei campioni che realizzano quella proporzione): Proporzione camp. 0 1/3 2/3 1 Probabilità 1/27 6/27 12/27 8/27 Campioni che danno quella proporzione e loro probabilità: (0,0,0) con prob. 1/27 (1,0,0) (0,1,0) (0,0,1) ciascuno con prob. 2/27 (1,1,0) (0,1,1) (1,0,1) ciascuno con prob. 4/27 (1,1,1) con prob. 8/27 Per la quale il valore medio risulta pari a 2/3 e la varianza pari a 2/27=0.074. RISULTATO: il valore medio della distribuzione di probabilità della proporzione campionaria risulta pari a p (ciò ci indica che la proporzione campionaria è uno stimatore CORRETTO della proporzione vera nella popolazione) e la varianza di tale proporzione (misura della variabilità della proporzione campionaria sui diversi campioni estraibili) è pari a p(1-p)/n [utilizzare questa espressione al posto della p(1-p)/(n-1) di pag. 43; le due espressioni si equivalgono per campioni numerosi] e dipende, quindi, dalla proporzione vera ma anche, in maniera inversa, dalla dimensione del campione (dicendoci in tal modo che, aumentando la dimensione del campione, possiamo ridurre la variabilità della proporzione campionaria assicurandoci di avere una probabilità più elevata di selezionare campioni con proporzione di fumatori vicina alla proporzione di fumatori nella collettività; in altre parole la proporzione campionaria è uno stimatore CONSISTENTE). 3 INFORMAZIONI SUPPLEMENTARI: supponiamo di poter disporre di ulteriori informazioni (a parte la lista) sulla popolazione, informazioni che riteniamo connesse in qualche modo alle caratteristiche del fenomeno che stiamo studiando. In particolare pensiamo di poter suddividere le unità facenti parte della popolazione in gruppi sulla base della conoscenza di variabili che le caratterizzano (potrebbe essere ad esempio il luogo di residenza, l’età, il titolo di studio, etc.) e di andare a campionare estraendo dai singoli gruppi unità in modo casuale o selezionando casualmente interi gruppi anziché unità. Nel primo caso si configura un disegno di campionamento detto campionamento stratificato, nel secondo invece si parla di campionamento a grappoli. Qualora queste due strategie siano utilizzate in maniera congiunta si ha il cosiddetto campionamento a due (o più) stadi. La natura dei gruppi e il modo di sfruttare l’informazione supplementare è diversa, come vedremo, nei due casi: nella stratificazione ha senso la ripartizione delle unità in gruppi che presentino caratteristiche omogenee al loro interno e nello stesso tempo tra loro ben differenziati; mentre nella costruzione dei grappoli i gruppi dovranno presentarsi omogenei tra loro e invece differenziati (variabili) il più possibile nella composizione interna. Ciò al fine di migliorare la PRECISIONE (che vuol dire ridurre la varianza) degli stimatori, che rimane il nostro principale obiettivo. CAMPIONAMENTO STRATIFICATO: Suddivisione della popolazione in sottogruppi (detti strati) Estrazione di un certo numero di unità (secondo la frazione di campionamento f=n/N prescelta) in modo casuale (c.c.s. con o senza rimpiazzo) da ciascuno strato Possibili motivazioni per il ricorso a questo tipo di strategia: a) se ad esempio vogliamo che nel campione risultino rappresentate tutte le aree amministrative oppure tutti i ceti sociali all’interno di una certa collettività il campionamento casuale semplice non ci fornisce alcuna garanzia al riguardo, dato che per effetto del caso potremmo anche selezionare tutti individui residenti in una stessa regione oppure lasciare completamente fuori dal campione una certa classe sociale. La costruzione di strati per le diverse regioni e/o diverse classi sociali consente di ottenere tale rappresentatività (estraendo unità da tutti gli strati); b) altre motivazioni possono risiedere nel desiderio di studiare anche singolarmente i sottocollettivi che compongono gli strati nella popolazione; c) il raggiungimento di una maggiore PRECISIONE degli stimatori a parità di dimensione campionaria è una delle motivazioni che determinano la scelta per questo tipo di disegno di campionamento. Rispetto al campionamento casuale semplice è possibile migliorare in precisione (vale a dire ridurre la variabilità della media campionaria a parità di dimensione del campione) se gli strati presentano la caratteristica (o sono costruiti in modo tale) di essere molto diversi tra loro e nello stesso tempo omogenei al loro interno. Vogliamo studiare come sia effettivamente possibile migliorare nella PRECISIONE delle stime mediante la stratificazione. Consideriamo come punto di partenza un caso in cui dividiamo la popolazione in due strati “qualsiasi” (senza alcun particolare criterio) e campioniamo con la stessa frazione in entrambi gli strati, per poi vedere cosa cambia in termini di precisione modificando queste condizioni (l’esempio è quello riportato in Stuart, pag. 46). Consideriamo come termine di confronto il caso del campionamento casuale semplice senza rimpiazzo (si valuta l’aumento o la riduzione rispetto alla varianza della media campionaria nel caso del c.c.s., posto che la media campionaria rimanga uno stimatore corretto). ESEMPIO: si consideri la popolazione fittizia costituita da 6 unità che presentano valori pari a 2, 6, 10, 8, 10, 12, dalla quale si desideri estrarre un campione di 4 unità, dopo aver preventivamente suddiviso la popolazione in due strati di uguale ampiezza: I Strato: 2, 6, 10 II Strato: 8, 10, 12 Caso A: frazione di campionamento costante (estraiamo in modo casuale, senza rimpiazzo, 2 unità da ciascuno strato, quindi f=2/3 per entrambi gli strati). L’obiettivo rimane quello di ottenere una stima della media della popolazione nel complesso. I campioni ottenibili con questo modo di procedere sono 9 (anziché 15 come avremmo avuto nel caso di c.c.s. senza rimpiazzo dalla popolazione non stratificata) e la distribuzione campionaria della media è la seguente: Media campionaria 6.5 7 7.5 8 8.5 9 9.5 Probabilità 1/9 1/9 2/9 1/9 2/9 1/9 1/9 Campioni che danno quella media e loro probabilità: (I: 2,6 II: 8, 10) con prob. 1/9 (I: 2, 6 II: 8, 12) con prob. 1/9 (I: 2, 6 II: 10, 12) (I: 2, 10 II: 8, 10) ciascuno con prob. 1/9 (I: 2, 10 II: 8, 12) con prob. 1/9 (I: 2, 10 II: 10, 12) (I: 6, 10 II: 8, 10) ciascuno con prob. 1/9 (I: 6, 10 II: 8, 12) con prob. 1/9 (I: 6, 10 II: 10, 12) con prob. 1/9 4 Il valore atteso è pari a 8 (che corrisponde alla media nella popolazione), a conferma che la media campionaria continua ad essere uno stimatore corretto anche con questo meccanismo di selezione. La Var (x ) risulta pari a 5/6 (più bassa della varianza ottenibile per la distribuzione della media campionaria sui 15 campioni selezionati con meccanismo c.c.s. senza rimpiazzo, pari a 16/15, si veda pag. 28). Quindi, nel caso specifico, la stratificazione con frazione di campionamento costante ha portato un guadagno in precisione. Caso B: frazione di campionamento variabile (estraiamo 3 unità dal primo strato e 1 dal secondo). Ciò significa che campioniamo interamente il primo strato e selezioniamo una unità casualmente dal secondo, quindi abbiamo tre possibili campioni di 4 elementi e la distribuzione della media campionaria diventa: Media campionaria 6.5 7 7.5 Probabilità 1/3 1/3 1/3 Campioni che danno quella media e loro probabilità: (I: 2,6, 10 II: 8) con prob. 1/3 (I: 2, 6 , 10 II: 10) con prob. 1/3 (I: 2, 6, 10 II: 12) con prob. 1/3 Attenzione: se non teniamo conto della diversa frazione di campionamento e calcoliamo la media campionaria come semplice media aritmetica dei quattro valori che compongono il campione lo stimatore non è più corretto (infatti otteniamo un valore medio pari a 7, anziché 8). Lo stimatore media campionaria deve essere opportunamente modificato per tenere conto della diversa frazione di campionamento: dobbiamo calcolare la media separatamente sulle componenti del campione provenienti dai due strati e calcolare poi una media delle medie di strato: Media I strato Media II strato Media delle medie di strato Probabilità I campione 6 8 7 1/3 II campione 6 10 8 1/3 III campione 6 12 9 1/3 La media delle medie di strato (che indichiamo con x * ad indicare che si trattta di una media campionaria opportunamente modificata) è uno stimatore corretto della media della popolazione (infatti il suo valore atteso è pari a 8). La varianza della media delle medie di strato (che indichiamo con con Var (x *) ) è pari a 2/3, più bassa del valore 5/6 trovato nel caso A, quindi abbiamo un guadagno in precisione. Si osservi, tuttavia, che se avessimo proceduto campionando tutto il II strato ed un solo elemento dal primo, si sarebbe ottenuta una varianza pari a 8/3 (con perdita in precisione rispetto al caso A). Ciò è dovuto alla variabilità che caratterizza i due strati della popolazione: la varianza del primo strato I è pari a 16 (con media 6) e quella del secondo strato II è pari a 4 (con media 10). Quello che abbiamo ottenuto è che campionando più intensamente dallo strato più variabile la precisione migliora rispetto al caso con frazione di campionamento costante. RISULTATO: Utilizzando una frazione di campionamento costante la precisione può o meno migliorare rispetto al c.c.s., dipendentemente dalla formazione degli strati; Con frazione di campionamento variabile il guadagno in precisione dipende da dove decidiamo di campionare più intensamente, in particolare è opportuno che la frazione di campionamento sia maggiore negli strati caratterizzati da maggior variabilità. Come regola generale potremmo dire che la frazione di campionamento dovrebbe essere proporzionale alla radice quadrata della varianza nello strato (nell’esempio abbiamo un rapporto di 2 a 1 tra le due radici delle varianze nei due strati, quindi volendo estrarre un campione di 4, 3 dal primo strato ed 1 dal secondo è effettivamente il meglio che possiamo fare). 2 2 Caso C: consideriamo ancora due strati della stessa ampiezza ma costruiti in modo diverso, per valutare l’effetto della formazione degli strati. Mettiamo a confronto tre diversi casi (tornando a supporre, per facilità di confronto, una frazione di campionamento costante, vale a dire due elementi da ogni strato): CASO I CASO II CASO III I strato II strato Var (x *) 2, 6, 10 2, 10, 12 2, 6, 8 8, 10 , 12 6, 8, 10 10, 10, 12 5/6 4/3>5/6 (ma anche>16/15) 4/9<5/6 (ma anche <2/3) Il terzo caso è quello che fornisce i risultati migliori ottenuti finora: si osservi che i due strati del caso III sono costruiti in modo da avere i valori più bassi della popolazione nel I strato ed i valori più alti nel II. L’idea che si può trarre da questo esempio è che è opportuno differenziare tra loro il più possibile gli strati (facendo in modo che le medie di strato 5 siano tra loro il più differenziate possibile, nel caso III la media del primo strato I è 16/3=5.33 e quella del secondo II 32/3=10.67). RISULTATO: Nella formazione degli strati è bene privilegiare omogeneità all’interno degli stessi e massimizzare la differenziazione da strato a strato. Mettendo insieme considerazioni relative a variabilità e medie interne agli strati si osservi che costruendo gli strati in modo da differenziare il più possibile i valori medi degli strati contemporaneamente riduciamo anche la variabilità interna allo strato (in quanto stiamo costruendo strati omogenei al loro interno). Caso D: è possibile avere un numero diverso di strati ed una diversa ampiezza, con l’accorgimento di dover poi calcolare la media campionaria tenendo conto della diversa frazione di campionamento per strato. Abbiamo, infatti, già visto nel Caso B come il calcolo della media delle medie di strato implicitamente tenesse conto della diversa frazione di campionamento per strato fs=ns/Ns, dovuto al diverso numero di unità campionate per strato ns; in questo caso la frazione di campionamento diventa variabile, anche tenendo ermo il numero di unità campionate per strato, dal momento che Ns è diversa nei diversi strati. Ci chiediamo, infine, quanti strati sia opportuno costruire e di che dimensione. Da quanto detto finora appare che la stratificazione (se effettuata seguendo i criteri che abbiamo enunciato) porta ad un miglioramento in precisione: ciò induce a pensare di aumentare il numero degli strati al limite fino alla dimensione campionaria stessa n (si ricordi comunque che per poter calcolare una misura di variabilità dovremmo avere almeno due elementi per strato), tuttavia quanto detto finora si basa sull’ipotesi irrealistica di conoscere effettivamente la popolazione e quindi di poter costruire gli strati in maniera ottimale. Nella pratica ci aspettiamo guadagni più modesti: il guadagno rispetto al c.c.s. può essere misurato come differenza tra variabilità delle medie per i due diversi disegni di campionamento. Per far ciò è necessario che entrambe tali varianze siano quantificabili, quindi dobbiamo disporre anche per il campione stratificato di una stima per la varianza della media Var (x *) , che può essere ottenuta mediante un’opportuna combinazione delle stime delle varianze delle medie campionarie x calcolate strato per strato. 6 CAMPIONAMENTO A GRAPPOLI: Suddivisione della popolazione in sottogruppi (detti grappoli) Estrazione casuale (con un meccanismo casuale semplice con o senza rimpiazzo) di uno o più grappoli Questo disegno di campionamento determina in generale una perdita di precisione rispetto al campionamento casuale semplice: l’attenzione viene rivolta alla cosiddetta precisione per unità di costo. Finora abbiamo proceduto alla selezione di singole unità dalla popolazione o da strati, non c’era alcun collegamento tra le diverse unità nel meccanismo di selezione: nel campionamento stratificato necessariamente la selezione di una unità è legata alla selezione delle altre che fanno parte dello stesso grappolo. Stiamo campionando i grappoli (con c.c.s.) anziché le unità. ESEMPIO: si consideri ancora una volta la popolazione fittizia costituita da 6 unità che presentano valori pari a 2, 6, 10, 8, 10, 12, che supponiamo di suddividere in tre grappoli della stessa ampiezza: I grappolo: 2, 8 II grappolo: 6, 10 III grappolo: 10, 12 Caso A: supponiamo di voler estrarre campioni di dimensione 2, ciò corrisponde alla selezione casuale di un grappolo, quindi abbiamo soltanto tre possibili diversi campioni di dimensione 2, sulla base dei quali possiamo costruire la seguente distribuzione di probabilità della media campionaria: Media campionaria 5 8 11 Probabilità 1/3 1/3 1/3 Campioni che danno quella media e loro probabilità: (2, 8) con prob. 1/3 (6, 10) con prob. 1/3 (10.12) con prob. 1/3 Il valore atteso è pari a 8 (che corrisponde alla media nella popolazione), a conferma che la media campionaria continua ad essere uno stimatore corretto anche con questo meccanismo di selezione. La Var (x ) risulta pari a 6 (più elevata della varianza ottenibile per la distribuzione della media campionaria sui 15 campioni di dimensione 2 selezionati con meccanismo c.c.s. senza rimpiazzo, pari a 64/15, si veda pag. 25). Quindi, nel caso specifico, il campionamento a grappoli ha portato una perdita in precisione. Caso B: la varianza della media campionaria dipende dal modo in cui vengono formati i grappoli. Consideriamo ora tre diversi modi di costruire tre grappoli dalla popolazione fittizia che stiamo studiando: CASO I CASO II CASO III I grappolo II grappolo III grappolo Var (x ) 2, 8 2, 6 2, 12 6, 10 8, 10 6, 10 10 , 12 10, 12 8, 10 6 26/3>6 2/3<64/15 guadagno in precisione RISULTATO: Al fine di ottenere guadagni in precisione delle stime, è necessario che le unità all’interno degli grappoli presentino la maggiore variabilità possibile (conseguentemente i grappoli si differenzieranno meno tra di loro): deve quindi essere privilegiata la variabilità interna ai grappoli anziché la variabilità tra gli stessi (diversamente da quanto abbiamo visto per la stratificazione). In generale possiamo aspettarci questo tipo di relazione tra variabilità (interna ai grappoli e totale nella popolazione) e precisione rispetto al c.c.s.: Maggiore variabilità nei grappoli che nella popolazione: maggiore precisione rispetto al c.c.s. (per n fissato) Stessa variabilità nei grappoli che nella popolazione: stessa precisione rispetto al c.c.s. (per n fissato) Minore variabilità nei grappoli che nella popolazione: minore precisione rispetto al c.c.s. (per n fissato) La maggiore o minore precisione rispetto al c.c.s. dipende, quindi, da come sono formati i grappoli. Si osservi che, nella realtà, i grappoli sono per lo più “naturali”, vale a dire costruiti non artificialmente (cosa possibile nell’esempio trattandosi di una popolazione supposta nota) ma, ad esempio, formati sulla base di criteri di contiguità territoriale: in tal modo le caratteristiche delle unità interne ai grappoli tendono ad essere simili e quindi ad andare contro il criterio generale sopra enunciato. Introduciamo il concetto di precisione per unità di costo: varrà la pena accettare una varianza della media campionaria più elevata rispetto al c.c.s. qualora i costi di campionamento risultino, col meccanismo a grappoli, ridotti più che proporzionalmente rispetto all’aumento di variabilità: ad esempio se la varianza della media campionaria aumenta del 10% ed i costi si riducono solo del 5% si riterrà che non ci sia convenienza a passare al campionamento a grappoli. 7 Caso C: vediamo cosa succede qualora si considerino grappoli di ampiezza variabile. In questo caso non siamo in grado di fissare a priori la dimensione del campione n, che dipenderà da quali grappoli selezioniamo. Fissiamo il numero di grappoli da estrarre, supponiamo 1, e ipotizziamo la seguente ripartizione della popolazione in tre grappoli: I grappolo: 2 II grappolo: 6, 8, 10 III grappolo: 10, 12 Abbiamo tre potenziali possibili campioni (di dimensione1, 2 o 3 a seconda del grappolo che selezioniamo), ciascuno dei quali ha la medesima probabilità di essere estratto. Possiamo ancora una volta costruire la distribuzione campionaria della media: Media campionaria 2 8 11 Probabilità 1/3 1/3 1/3 Campioni che danno quella media e loro probabilità: (2) con prob. 1/3 (6, 8, 10) con prob. 1/3 (10, 12) con prob. 1/3 Si osservi che il valore medio di questa distribuzione è pari a 7 e quindi differisce dalla media vera nella popolazione (=8). Come abbiamo già visto per il campionamento stratificato con frazione di campionamento variabile (Casi B e D), dobbiamo anche in questo caso procedere ad una modifica dello stimatore media campionaria per tenere conto della diversa dimensione dei grappoli, attribuendo un peso diverso a ciascuna media campionaria, in paricolare il peso è ottenuto come rapporto tra l’ampiezza del grappolo e l’ampiezza media dei grappoli in cui è suddivisa la popolazione (nel nostro caso pari a 2): Media campionaria 2 8 11 Peso 1/2 3/2 2/2 Media modificata 1 12 11 Il valore atteso calcolato sul nuovo stimatore è pari a 8 (media vera nella popolazione) e quindi soddisfa la proprietà di correttezza. La varianza della nuova media campionaria risulta pari a 74/3 (che è il valore più elevato ottenuto fino ad ora). Consideriamo ora un modo alternativo di costruire i tre grappoli, per vedere come si modifica la precisione delle stime: I grappolo: 2, 6, 8 II grappolo: 10, 10 III grappolo: 12 Come si vede, si è isolato il termine più grande (mentre nel raggruppamento precedente il più piccolo), ottenendo la seguente distribuzione campionaria: Media campionaria 16/3 10 12 Probabilità 1/3 1/3 1/3 Campioni che danno quella media e loro probabilità: (2, 6, 8) con prob. 1/3 (10, 10) con prob. 1/3 (12) con prob. 1/3 Con l’accorgimento di modificare la media per tenere conto della diversa dimensione dei grappoli, abbiamo: Media campionaria 16/3 10 12 Peso 3/2 2/2 1/2 Media modificata 8 10 6 In questo caso la varianza della media campionaria modificata si riduce a 8/3 . RISULTATO Il modo in cui sono formati i grappoli è determinante nel contributo alla varianza della media campionaria (questo sia nel caso di grappoli aventi la stessa dimensione che per grappoli aventi dimensione variabile). Ricordiamo che nella pratica non si ha la possibilità di influire sulla formazione dei grappoli, spesso i grappoli sono aggregazioni naturali, ad esempio i nuclei familiari (per i quali ci aspettiamo una omogeneità di comportamento), oppure aree geografiche contigue (quartieri o isolati) e quindi dobbiamo aspettarci una perdita in precisione che però può essere compensata da costi ridotti. 8 INTRODUZIONE DI UNO STADIO ULTERIORE PER COMPENSARE LA PERDITA IN PRECISIONE: CAMPIONAMENTO A DUE STADI Suddivisione della popolazione in sottogruppi (detti grappoli) Selezione casuale (con un meccanismo casuale semplice con o senza rimpiazzo) di uno o più grappoli (unità di primo stadio) Estrazione casuale (con un meccanismo casuale semplice con o senza rimpiazzo) di un certo numero di unità da ogni grappolo selezionato (unità di secondo stadio) ESEMPIO: si consideri ancora una volta la popolazione fittizia costituita da 6 unità che presentano valori pari a 2, 6, 10, 8, 10, 12, suddivisa nei tre grappoli della stessa ampiezza (Caso A precedente): I grappolo: 2, 8 II grappolo: 6, 10 III grappolo: 10, 12 Caso A: ipotizziamo il seguente meccanismo di selezione: I stadio: selezione casuale di 2 grappoli (senza rimpiazzo) II stadio: selezione casuale di un individuo da ciascun grappolo (senza rimpiazzo) Abbiamo potenzialmente 12 possibili campioni (ciascuno con probabilità 1/12): I stadio II stadio Grappolo I e II (2, 6), (2, 10), (8, 6), (8, 10) Grappolo I e III (2, 10), (2, 12), (8, 10), (8, 12) Grappolo II e III (6, 10), (6, 12), (10, 10), (10, 12) Otteniamo la seguente distribuzione campionaria della media: Media campionaria 4 6 7 8 9 10 11 Probabilità 1/12 2/12 2/12 1/12 3/12 2/12 1/12 Campioni che danno quella media e loro probabilità: (2, 6) con probabilità 1/12 (2, 10), (2, 10) ciascuno con probabilità 1/12 (8, 6), (2, 12) ciascuno con probabilità 1/12 (6, 10) con probabilità 1/12 (8, 10), (8, 10), (6, 12) ciascuno con probabilità 1/12 (8, 12), (10, 10) ciascuno con probabilità 1/12 (10, 12) Il valore medio della distribuzione è 8 (pari al valore medio nella popolazione), quindi lo stimatore media campionaria è corretto, la varianza della distribuzione è pari a 46/12 (<6, valore che avevamo osservato per il campionamento a grappoli selezionando un campione di 2 elementi, con la stessa formazione dei grappoli): abbiamo un miglioramento di precisione rispetto al caso di un unico stadio, a parità di condizioni relativamente alla suddivisione in grappoli e alla dimensione del campione. Caso B: se applichiamo la stessa metodologia ai possibili diversi raggruppamenti in tre grappoli della stessa dimensione (Caso B del campionamento a grappoli) otteniamo nel CASO II, dove I grappolo: 2, 6, II grappolo: 8, 10, III grappolo: 10, 12, otteniamo una varianza della media campionaria pari a 32/12 (migliorando rispetto ai 26/3 di un unico stadio), nel CASO III, dove I grappolo: 2, 12, II grappolo: 6, 10, III grappolo: 8, 10, otteniamo una varianza della media campionaria pari a 62/12 (peggiorando rispetto ai 2/3 di un unico stadio, che peraltro rappresentava il caso più efficiente nel campionamento a grappoli e corrispondeva ad una maggiore variabilità interna ai grappoli). RISULTATO: Quanto più piccola è la variabilità all’interno dei grappoli comparata alla variabilità complessiva nella popolazione, tanto maggiore sarà il guadagno in precisione ottenibile, a parità di ampiezza campionaria, inserendo un secondo stadio nel meccanismo di selezione. Caso C: campionamento a due stadi con frazione di campionamento variabile. Può aversi tale situazione sia per grappoli della stessa ampiezza che di ampiezza variabile. Nel primo, supponiamo di avere la suddivisione in grappoli della stessa ampiezza del Caso A: I grappolo: 2, 8 II grappolo: 6, 10 III grappolo: 10, 12 e di selezionare 2 grappoli al primo stadio e poi 2 unità da un grappolo e 1 dall’altro, ottenendo campioni di dimensione n=3 con frazione di campionamento variabile (dato che n1=2, n2=1 e quindi f1 è diversa da f2, anche se la dimensione dei due grappoli è la stessa). Alternativamente possiamo ottenere una frazione di campionamento variabile supponendo la seguente suddivisione in grappoli di ampiezza variabile (Caso C, grappoli con ampiezza variabile): 9 I grappolo: 2 II grappolo: 6, 8, 10 III grappolo: 10, 12 e andando a selezionare 2 grappoli al primo stadio e poi 1 unità da un grappolo e 1 dall’altro, ottenendo campioni di dimensione n=2 con frazione di campionamento variabile (dato che n1=n2=1, ma è diversa la dimensione dei grappoli quindi f1 è diversa da f2). In questo caso secondo abbiamo 11 possibili campioni, che possiamo individuare sulla base del seguente schema: I stadio II stadio Grappolo I e II (2, 6), (2, 8), (2, 10) Grappolo I e III (2, 10), (2, 12) Grappolo II e III (6, 10), (8, 10), (10, 10), (6, 12), (8, 12), (10, 12) Come si vede il numero di potenziali campioni estraibili al secondo stadio dipende dai grappoli selezionati al primo. Si verifica una situazione nuova: questo meccanismo di selezione determina una probabilità differenziata per i diversi possibili campioni: mentre i tre gruppi (individuati dalla selezione delle unità di primo stadio) sono equiprobabili, i campioni del secondo gruppo hanno probabilità tre volte maggiore di verificarsi rispetto a quelli del terzo (si osservi che il caso è diverso da ciò che accadeva per la stratificazione con frazione di campionamento variabile, dove le singole unità avevano probabilità diversa di realizzarsi, di cui tenevamo conto nel calcolo delle medie di strato, ma la probabilità assegnata ai singoli campioni era la stessa). La media campionaria non risulta in questo caso essere uno stimatore corretto e per recuperare tale CORRETTEZZA è necessario apportare delle modifiche all’espressione dello stimatore, che in questo caso devono tenere conto della concomitanza di più fattori: 1. Per tenere conto della frazione di campionamento variabile: ciascun elemento del campione deve essere ponderato con l’inverso della frazione di campionamento (si pensi alla media delle medie di strato vista nel campionamento stratificato). La media sul campione è calcolata attribuendo tali pesi ai singoli valori e dividendo la somma per il totale dei pesi (si veda Tab. 41 a pag. 83). 2. Per tenere conto della provenienza da grappoli di ampiezza diversa: ciascuna media campionaria deve essere moltiplicata per un peso ottenuto come rapporto tra l’ampiezza totale dei grappoli di provenienza e l’ampiezza media dei grappoli (si veda quanto detto per il campionamento a grappoli e la Tab. 41 a pag. 83). 3. Al fine di valutare la correttezza dello stimatore media campionaria (modificato sulla base di 1 e 2), per tenere conto della diversa probabilità di realizzazione dei potenziali campioni, possiamo calcolare la media delle medie di gruppo (tenendo presente che ogni gruppo è equiprobabile) oppure costruire la distribuzione di probabilità della media replicando i campioni in modo da avere lo stesso numero di campioni per ogni gruppo (vale a dire utilizzare 2 volte ciascun campione appartenente al primo gruppo e 3 volte ciascuno di quelli del secondo, si veda Tab. 42 pag. 84). OSSERVAZIONE: nella pratica tendenza ad utilizzare frazioni di campionamento costanti, per semplificare i problemi derivanti per la stima (scegliendo opportunamente la numerosità campionaria al secondo stadio se i grappoli hanno ampiezza variabile). ULTERIORI GENERALIZZAZIONI: Campionamento a più stadi come naturale estensione del campionamento a due stadi: possiamo avere una struttura che prevede la selezione di grappoli di dimensione più ampia e poi all’interno ancora grappoli via via più piccoli fino ad arrivare all’estrazione di singole unità: ad esempio città, quartieri, strade, famiglie, individui. Inoltre, potremmo introdurre all’interno del disegno anche una procedura di stratificazione ad un certo stadio (stratificando grappoli o le unità al loro interno). Campionamento con probabilità non uguali. Abbiamo visto come la selezione con frazione di campionamento variabile porti ad assegnare implicitamente probabilità differenziate di selezione alle diverse unità. Possiamo anche assegnare esplicitamente probabilità diverse di entrare a far parte del campione alle diverse unità indipendentemente dall’eventuale procedura di stratificazione. Tale probabilità di inclusione (assegnata in modo differenziato alle diverse unità) dovrà essere utilizzata come ponderazione (peso pari al reciproco della probabilità di inclusione) nella determinazione delle stime. La motivazione per ricorrere a disegni di campionamento più o meno sofisticati, naturalmente, rimane sempre quella di poter raggiungere una precisione superiore, a parità delle altre condizioni: un risultato generale è che si guadagna in precisione se le probabilità di inclusione sono proporzionali (e quindi i pesi inversamente proporzionali) al valore della variabile nella popolazione: in altre parole, nella stima diamo peso inferiore ai valori molto elevati (ai quali si attribuisce probabilità di inclusione superiore). Naturalmente ciò rimane valido in teoria, ma difficilmente realizzabile nella pratica, dato che i valori delle variabili di interesse sono ovviamente incogniti e, inoltre, quando selezioniamo un campione normalmente siamo interessati alla rilevazione di più variabili e non una soltanto (quindi non possiamo legare la precisione ad un’unica variabile). 10 ESEMPI DI DOMANDE APERTE SU (A) probabilità e disegni di campionamento 1. Si delinei il ruolo della teoria dei campioni nell’inferenza statistica, con particolare attenzione alla differenza tra campionamento probabilistico e non probabilistico. 2. Si descrivano le caratteristiche della distribuzione di probabilità binomiale (legge di probabilità, valore atteso e varianza della distribuzione) riportando anche esempi di casi in cui la distribuzione binomiale è applicabile. 3. Si descrivano le caratteristiche della distribuzione di probabilità normale (specificando la forma della funzione di densità e le sue peculiarità) riportando anche esempi di casi in cui la distribuzione normale è applicabile. 4. Si descrivano le principali caratteristiche delle distribuzione di probabilità della media campionaria, nel caso in cui il meccanismo di selezione del campione adottato sia il campionamento casuale semplice con rimpiazzo. 5. Si descrivano le principali caratteristiche delle distribuzione di probabilità della media campionaria, nel caso in cui il meccanismo di selezione del campione adottato sia il campionamento casuale semplice senza rimpiazzo. 6. Si descrivano le principali caratteristiche delle distribuzione di probabilità della proporzione campionaria (proporzione o frequenza relativa di unità campionarie che presentano una certa caratteristica di interesse), nel caso in cui il meccanismo di selezione del campione adottato sia il campionamento casuale semplice con rimpiazzo. 7. Si mettano a confronto il campionamento casuale semplice con rimpiazzo e quello senza rimpiazzo e se ne evidenzino analogie e differenze con particolare riferimento alle proprietà dello stimatore media campionaria. 8. Si analizzi il diverso ruolo dell’informazione supplementare nel campionamento stratificato e nel campionamento a grappoli. 9. Si descrivano le principali caratteristiche del campionamento stratificato, con particolare attenzione alle condizioni che possono consentite un guadagno in precisione rispetto al campionamento casuale semplice. 10. Si descrivano le principali caratteristiche del campionamento a grappoli, con particolare attenzione al confronto con il campionamento casuale semplice per quanto riguarda la precisione delle stime. 11. Si descrivano le principali caratteristiche del campionamento a due stadi, con particolare attenzione alle condizioni che possono consentite un guadagno in precisione rispetto al campionamento casuale semplice. (B) manuali di tecniche di indagine ISTAT 1. 2. 3. Si descrivano brevemente le diverse fasi del processo di costruzione di un questionario. Si individuino gli elementi di principale rilevanza nella fase di redazione del questionario. Si descrivano gli strumenti utilizzabili per la fase di verifica del questionario, sottolineandone analogie e differenze. 4. Si evidenzi la differenza tra errori campionari e non campionari e si analizzino le potenzialità del questionario come strumento di prevenzione degli errori non campionari. 5. Con riferimento alla struttura del questionario, si definiscano le due diverse tipologie di domanda, aperta o a risposta chiusa, e se ne analizzino potenzialità e limiti. 6. Si evidenzi il ruolo delle scale di valutazione nella redazione del questionario e si descrivano i diversi tipi di scala utilizzabili. 7. Si illustrino brevemente le diverse possibili tecniche di somministrazione del questionario, sottolineando pregi e difetti di ciascuna. 8. Si descrivano le principali caratteristiche dell’intervista diretta come modo di somministrazione del questionario, sottolineandone pregi e difetti a confronto con l’intervista telefonica. 9. Si descrivano le principali caratteristiche dell’autocompilazione come modo di somministrazione del questionario, sottolineandone pregi e difetti a confronto con l’intervista diretta. 10. Si descriva il diverso ruolo degli strumenti di rilevazione (lettera rivolta ai rispondenti, questionario e istruzioni per la compilazione) a seconda della tecnica di somministrazione adottata. 11