TIS_II 1 Campione casuale semplice (CCS) senza reinserimento, in blocco, senza ripetizione TIS_II 2 Tavole di numeri casuali TIS_II 3 Selezione sistematica a partire da un inizio casuale, è selezionata una unità ogni k N passo di campionamento k= n 2000 esempio N = 2000 studenti k= =8 250 n = 250 1≤ x ≤ 8 inizio: numero casuale unità nel campione con posizione x, x + k , x + 2k , ..., x + (n − 1)k x=5 5, 13, 21… problema: che fare se k non è un numero intero? TIS_II 4 k non è un numero intero N = 1872 n = 250 a) si arrotonda all’intero n variabile es: 1872/250=7.488 ~7 n=267 ~8 n=234 N b) lista circolare k= n b1. si arrotonda ~ 7 b2. inizio casuale x da 1 a N (1-1872) b3. si procede fino a ottenere 250 unità c) moltiplicare per 10d (d= cifre decimali) es: 7,488 x 1000 = 7488 c1. inizio fra 1 e 7488 es: 3654 c2. 3,654 + 7,488 = 11,142 +7,488 = 18,630 + 7,488 = 26,118 campione: 3, 11, 18, 26... TIS_II 5 Selezione sistematica 1. probabilità di selezione costante 2. probabilità di possibili insiemi di unità variabile esempio: campione con k = 8 P(1,2) = 0 P(1,9) = 1/8 media campionaria O.K. formule per S .E.( x ) non più direttamente applicabili ipotesi: lista ordinata più o meno casualmente (es. liste alfabetiche) quasi casuale in realtà: problemi solo se la lista segue una qualche sequenza ciclica TIS_II 6 Dimensione del campione casuale semplice quanto grande deve essere n? in generale S2 var( y ) = (1 − f ) n p (1 − p ) ⎛ n ⎞ var( p ) = 1 − ⎜ ⎟ n − 1 ⎝ N ⎠ ~ n se n è grande p(1 − p) ≈ n ~ 1 se la popolazione è grande fissato il grado di precisione desiderato con una certa probabilità, è possibile determinare il valore di n corrispondente IC 7 Dimensione del campione casuale semplice quanto grande deve essere n? Esempio: precisione 2% con probabilità = 95% intervallo di confidenza al livello 95% sarà p ± 1.96SE ( p) 2% SE ( p) ≈ p ± 2% , Pr( p ± 2%) = 95% trascurando (1-f) e dividendo per n p(1 − p) p(1 − p ) ⇒ 0.02 = 1.96 n n 1.962 p(1 − p) Se si ipotizza p=0.35 n= = 2185 0.0004 Nn ⇒ n' = = 1907 Se N=15000 N +n se si tiene conto del tasso di non risposta del 75% se precisione = 3% ⇒ n = 971 e n' ' = n' = 2543 0.75 n'= 912 IC 8 s s ⎤ ⎡ ⎢⎣ pˆ − z n ; pˆ + z n ⎥⎦ z s n 1.96 variabilità dei dati numerosità del campione c’è relazione con N, numerosità della popolazione ✳ non ✳ la precisione varia con n Esempio p=97% n=1000 zα s ⇒ ≈ 0.03 = A n s= se A= 0.01 ⇒ p(1 − p) ≈ 0.4951 n~ 9417 IC 9 IC 10 Alcune considerazioni a proposito di n § livello di precisione a. analisi per sottogruppi incroci di più variabili es. tasso di disoccupazione per età, sesso, titolo di studio la precisione dipende dal valore di n * nel campione con quelle caratteristiche, non da n ' totale b. indagini multiscopo: più proporzioni e/o medie da stimare che importanza (precisione) si deve dare? diversa variabilità nella popolazione TIS_II 11 Alcune considerazioni a proposito di n § stime di π o di s2 per proporzioni è più facile, perché π (1- π ) non (π : {0.1;0.9}) è molto variabile per s2 è più complicato – – – – indagini pilota indagini precedenti campione preliminare (campione in due fasi) considerazioni su struttura della popolazione TIS_II 12 Pesi (weights) di campionamento πi = probabilità di inclusione unità i nel campione Possono essere usate per calcolare stime puntuali dei parametri di interesse wi = peso di campionamento = 1/πi = Numero di unità della popolazione rappresentate da unità i CCS: πi = n/N da cui wi = 1/πi =N/n CCS pesi tutti uguali: ogni unità nel campione rappresenta se stessa e altre N/n-1 unità (non selezionate) della popolazione (in totale N/n) Σ wi = Σ N/n = N Σ wiyi = Σ(N/n) yi = ť Σ wiyi / Σwi = ť/N = ŷ TIS_II 13 Quando usare un CCS ? • La popolazione è omogenea. • Si dispone di buone liste dell’intera popolazione. • Il costo per raggiungere ogni unità è omogeneo e non varia se si prevedesse l’uso di disegni più complessi. • Si vogliono usare stimatori semplici. • Si vogliono stimare relazioni complesse ed altri disegni hanno costi comparabili. TIS_II 14 Quando si può fare di meglio del CCS ? • Si hanno informazioni ausiliarie sulla popolazione. • La popolazione è suddividibile in gruppi omogenei al loro interno. • Le liste sono presenti per gruppi di unità e non per l’intera popolazione (struttura gerarchica delle liste). • I costi per raggiungere le unità possono variare notevolmente e disegni diversi comportano costi molto inferiori. TIS_II 15 ESEMPIO uso informazione ausiliarie Lohr, 2010, p.117 TIS_II 16 Lohr, 2010, p.73 TIS_II 17 Campione stratificato TIS_II 18 Campione stratificato Incorpora nel disegno informazioni sulla popolazione 1. “garanzia” contro campioni che, per puro effetto del caso, potrebbero sembrare “poco” rappresentativi 2. stime per gruppi separati (con precisione comparabile) 3. liste disponibili per aree/gruppi separati 4. differenti tecniche di rilevazione con telefono senza telefono telefonica postale face to face 5. migliora l’efficienza delle stime (maggiore precisione rispetto CCS) TIS_II 19 La stratificazione 1. la popolazione di N unità è classificata in H strati a seconda di informazioni supplementari (es. sesso, età, titolo di studio, caratteristiche del comune, ecc…) 2. è selezionato un campione di numerosità nh, h=1,…H da ogni strato a. se Nh>1, almeno nh=2 per avere stime della variabilità nello strato H n = ∑ nh h =1 b. campione negli strati: in genere CCS mediante procedure di selezione casuale o sistematica TIS_II 20 1. la stratificazione della popolazione (classificazione negli strati) deve essere nota prima della selezione (ogni unità appartiene a un solo strato) 2. scelta numerosità complessiva del campione n influenza efficacia stime 3. scelta dell’allocazione di n entro gli H strati nh frazione di campionamento entro gli H strati uguale negli H strati n f = N stratificato proporzionale proporzione nel campione = proporzione nella popolazione Nh ωh = N fh = diversa negli H strati nh Nh nh fh = Nh stratificato non proporzionale stratificato ottimale TIS_II 21 Stima Campione Stratificato caso generale Y Y2 Y1 1 N= N1 2 + N2 h + … n= n1 y y1 + n2 y2 + Nh + … + nh yh = = = n1 n2 nh ∑ yi1 i =1 n1 ∑ yi 2 i =1 n2 H + Nh = wh N N2 = w2 N N1 = w1 N YH Yh … + NH NH = wH N + … + nH NOTE H = ∑ Nh h =1 H ∑ wh = 1 h =1 H = ∑ nh h =1 yH ∑ yih i =1 nh TIS_II 22 Stima Campione Stratificato caso generale Valor medio: popolazione campione H con wh = Y = ∑ whYh h =1 H Nh N y = ∑ wh yh h =1 N h ⎛ n yih ⎞ ⎜⎜ ∑ ⎟⎟ =∑ h =1 N ⎝ i =1 nh ⎠ H = H Varianza var( ystr ) = ∑ wh 2 var( yh ) campionaria h =1 se CSS entro strati Intervallo di confidenza (con 1. nh grande e 2. tanti strati 2 s (1 − f h ) h nh h n 1 2 sh 2 = ( y − y ) ∑ hi h nh − 1 i =1 h ystr ± zα 2 SE(ystr ) Krewski e Rao, 1981) TIS_II 23 Stima Campione Stratificato caso generale Nh H Totale: popolazione i=1 h=1 H H tˆstr = ∑ tˆh = ∑ N h yh campione h=1 H Varianza campionaria th = ∑ yih t = ∑ th h=1 H 2 n S 2 var(tˆstr ) = ∑V (tˆh ) =∑ (1− h )N hh h Nh nh h=1 h=1 H 2 n s vâr(tˆstr ) = ∑ (1− h )N h2h h Nh nh h=1 TIS_II 24 Stima Campione Stratificato caso generale Proporzione: H pˆ = ∑ wh pˆ h h =1 H con var( pˆ ) = ∑ wh 2 pˆ h h =1 nh n *hi pˆ h = ∑ i =1 nh (1 − pˆ h ) (1 − f h ) nh − 1 Dove n*hi indica che l’ unità i nello strato h presenta la caratteristica di interesse TIS_II 25 Campione stratificato proporzionale la proporzione degli strati nel campione è la stessa della popolazione n n f h = f ⇒ h = ⇒ nh = wh n Nh N la probabilità di inclusione π ih = nh N h è uguale per ogni unità in ogni strato ⎛ n ⎞ ⎜ yhi ⎟ ∑ H n y n y n H H ⎛ ⎞ hi N h ⎜ i =1 ⎟ =∑ ∑ =∑ i y p = ∑ wh ⎜⎜ ∑ yhi nh ⎟⎟ = ∑ n i =1 n h =1 ⎝ i =1 ⎠ h =1 N ⎜⎜ nh ⎟⎟ N h =1 i =1 ⎝ ⎠ n = 2 2 H N H N sh (1 − f ) H ⎛ h ⎞ 2 Nh 2 h var( y p ) = ∑ ⎜ = (1 − f ) ∑ sh = ∑ wh sh ⎟ (1 − f h ) nh nh n h =1 h =1⎝ N ⎠ h =1N ⋅ N h h h H n ni * pˆ p = ∑ wh pˆ h = ∑ h =1 i =1 n var( pˆ p ) = (1 − f ) n2 nh 2 pˆ h (1 − pˆ h ) ∑ h =1nh − 1 H TIS_II 26 varianza stimatore della media campionaria in un campione stratificato proporzionale nh n fh = f = = Nh N wh = Nh N ⇒ nh = n N h = nwh N H var(y p ) = ∑ wh2 var(yh ) h=1 2 s = ∑ wh 2 (1 − f h ) h nh h =1 H 2 sh 2 ⎛ N h ⎞ = ∑ ⎜ ⎟ (1 − f h ) nh h =1⎝ N ⎠ H N 2 N = (1 − f ) ∑ h2 sh h nh h =1 N H (1 − f ) H 2 = w s ∑ h h n h =1 N n H n N Vp (tˆstr ) = (1− ) ∑ N h sh2 N n h=1 TIS_II 27 Effetto della stratificazione sull’efficienza delle stime var(z ) > Design Deff = 1 var(zcs ) < effect z stimatore disegno complesso zcs stimatore campione casuale semplice con campione stratificato, in generale: var( yst ) Deff ( yst ) = ≤1 var( ycs ) con stratificato proporzionale var( ycs ) ≅ var( yst ) + ∑ wh ( yh − y ) 2 var( ycs ) ≥ var( yst ) entro gli strati tra gli strati > 0 Il guadagno è maggiore, data la variabilità S2 nella popolazione, quanto più gli strati sono eterogenei tra di loro (omogenei al loro interno) • Con proporzioni si hanno guadagni più modesti TIS_II 28 Esempio stratificato proporzionale Campione di 300 studenti da una popolazione di 3000 Facoltà Economia Sociologia Statistica Sc. Politiche Giurisprudenza Storia Nh 950 430 250 390 320 660 3000 stima proporzionale Wh 0,32 0,14 0,08 0,13 0,11 0,22 1 p= nh 95 43 25 39 32 66 300 ch 86 22 18 31 20 33 210 1 300 f = = 10 3000 ph nh ph (1-ph ) 0,905 8,147 0,512 10,744 0,720 5,040 0,795 6,359 0,625 7,500 0,500 16,500 54,291 ∑ ch = 210 = 70% n 300 (1− f ) nh* (nh − nh* ) var( p̂ p ) = ∑ n −1 trascurando 1-f e dividendo solo per nh n2 h h n p (1− p ) var( p p ) = ∑ h h 2 h = 0, 0006033 var( pcs ) = 0,0007 n Deˆff = 0,0006033 = 0.862 0,0007 300 = 348 0,862 proporzionale con n=300 Un CCS con n = var(pp) 14% più piccola di var(pcs) dà la stessa varianza di uno stratificato TIS_II 29 Esempio stratificato proporzionale Spesa annua per abbigliamento delle famiglie italiane nel XXXX (dati fittizi) N = 18 500 000 n = 10 000 wh CAPOLUOGHI PROVINCIA ALTRI COMUNI >20 000 AB COMUNI < 20 000 yh 0.2 500 0.3 300 0.5 220 s h2 2500 1600 400 y = ∑ wh yh = 500(0.2) + 300(0.3) + 220(0.5) = 300 h var( y prop ) = 1− f 2 ∑ wh sh n h 1 1.180 . . = . [2 500(0.2) + 1 600(0.3) + 400(0.5)] = . = 0.118 10 000 10 000 . varianza fra 1 − f w ( y − y ) 2 = 1 [(500 − 300) 2 0.2 + (220 − 300) 2 0.5] = 11 200 = 1.12 ∑ h h gli strati n 10.000 10.000 Deff = var( y prop ) var( yccs ) = 0.118 = 0.095 = 9.5% 0.118 + 1.12 G = 1 - Deff = 0.905 = 90.5% TIS_II 30 Stratificazione implicita per selezionare un campione stratificato proporzionale Una sola variabile di stratificazione: ordinamento delle unità da quella con il valore più elevato a quella con il valore minore (o viceversa), poi selezione sistematica 4 effetto sulle stime: lo stesso della stratificazione esplicita 4 elimina il problema dell’arrotondamento all’intero delle numerosità campionarie degli strati Una variabile di stratificazione quantitativa e altre anche qualitative: ordinamento (implicito) “a serpentina” o “funicolare” 4 effetto sulle stime: come sopra 4 rischio: ciclicità TIS_II 31 Stratificazione implicita TIS_II 32 Esempio di stratificazione implicita Medici appartenenti alla USL di Torino, per età del medico e numero di persone assistibili Età medici Fino a 39 40 e più Numero assistibili Fino 500 1 4 245 175 501-1500 2 5 35 46 Totale oltre 1500 3 6 163 304 443 525 7 968 Maschi 968 + 243 femmine = 1211 N Invece di suddividere le N unità in 7 strati e selezionare 7 campioni stratificazione (es. femmine n7= n243/1211= n(0.201) ) implicita 1 ordinare le 1211 unità: 2 medici sotto i 40 anni per numero di assistiti (crescente) medici sopra i 40 anni per numero di assistiti (decrescente) 3 6 e così via, poi le femmine 5 N ☛ selezione sistematica k = 4 n 7 ☛ crescente per numero di assistiti ordine decrescen te TIS_II 33 Campione stratificato non proporzionale allocazione non proporzionale • • • vincoli, costi di indagine obiettivi di ricerca – strati più variabili – elaborazioni per sottopopolazioni “domini di studio” – confronti fra strati massima precisione delle stime date le risorse (o min costi) allocazione ottima: sh fh ∝ ch sh = variabilità strato h ch = costo per unità strato h con nh fh = Nh TIS_II 34 Allocazione non proporzionale nh = n wh * wh sh ch wh * = ∑ wh sh ch se ch ~ c per ogni h: con N wh = h N H e ∑ wh * = 1 h =1 allocazione ottima di Neyman-Tschuprow nwh sh nh = ∑ wh sh più unità negli strati più eterogenei e negli strati meno costosi N.B. se sh = s ∀h ⇒ nh = nwh allocazione proporzionale ∑ wh • conoscenza di sh • stimatori pesati con wh* (campione non autoponderante) TIS_II 35 Stima stratificato non proporzionale formule generali in cui si utilizzano gli wh* specificati in nh yo = ∑ wh yh se allocazione di Neyman (ch ~ c ∀h) e 1-fh ~ 1-f ∀h 1− f var(yo ) = w2 h sh2 ∑ n h 1− f s = ∑ wh sh var( y p ) = var( yo ) + ∑ wh ( sh − s ) 2 n h varianza media entro gli strati varianza tra le varianze degli strati var( y p ) > var( yo ) varianza campione stratificato allocazione ottima delle unità sh 2 var( ystr ) = ∑ wh (1 − f h ) nh h =1 H 2 nh = wh 2 sh 2 (1 − f h )∑ wh sh wh 2 (1 − f h ) sh 2 ∑ var( yo ) = =∑ nwh sh ∑ wh sh ch ch h n wh sh wh 2 sh 2 (1 − f h ) =∑ n ch ch ch n wh sh ∑ wh sh ch ch = ch TIS_II 36 Formazione degli strati: scelta delle variabili di stratificazione non esistono “criteri oggettivi” condizioni generali: 1. wh noti wh = Nh N 2. possibilità di selezionare un campione da ogni strato poststratificazione 3. numerosità Nh tale che sia possibile: - almeno una selezione per la stima di y h - almeno due selezioni per la stima di var( yh ) TIS_II 37 Formazione degli strati: scelta delle variabili di stratificazione obiettivi della stratificazione: 1. strati omogenei al loro interno rispetto alle variabili di studio [var( ycs ) − var( yst ) = ∑ nh ( yh − y ) 2 n 2 ] 2. stime separate per “domini” 3. diversi metodi di campionamento nei vari strati più variabili, possibilmente non correlate tra loro, combinate anche in modo diverso per definire i vari strati TIS_II 38 Variabili di stratificazione: candidate tipiche n = 10000 TIS_II 39 Determinazione della numerosità campionaria 2 n* = s y Deff ( st ) var( yst ) = Deff var( ycs ) var( yst ) s2 n 4 Deff trasferibile fra indagini svolte sulla stessa popolazione 4 Deff congetturabile per proporzioni 4 Per allocazione ottimale (N.T.) del campione c ∑ N h sh n = n tenendo fisso c = ∑ ch nh ∑ N h sh ch h n tenendo fissa var( y ) 4 Per indagini multiscopo ch n= (∑ wh sh ch )∑ wh sh ch var( y ) + ∑ wh sh 2 N – selezionare variabili più importanti – calcolare allocazione ottima per ogni variabile scelta – strato per strato, trovare il compromesso più ragionevole tra le numerosità calcolate nh i (es media o mediana?) TIS_II 40 condizioni per la stratificazione 1. wh noti wh = Nh N 2. assegnazione univoca delle unità negli h strati in assenza di questa condizione non è possibile mettere in atto la stratificazione Post-stratificazione stratificazione dopo la selezione del campione 1. si seleziona un CCS di n elementi rilevando anche i caratteri di stratificazione 2. si classifica il campione selezionato in H strati, sulla base dei caratteri di stratificazione rilevati 3. si trova il peso wh di ogni strato nella popolazione media campionaria y ps = ∑ wh yh = ∑ wh ∑ h h j yhj nh con wh = Nh N TIS_II 41 Esempio scelta stratificazione: “the statistics class” TIS_II 42 Campionamento casuale semplice Campionamento stratificato TIS_II 43 Cluster sampling: campionamento a grappoli (one-stage cluster sampling) TIS_II 44 Cluster sampling: campionamento a due stadi (two-stage cluster sampling) TIS_II 45 Campionamento su più stadi Popolazione può essere ben definita ma non necessariamente può essere agevole raggiungere le sue unità (unità di osservazione) Es: campione di 400 famiglie residenti in una area per stimare il n.ro di biciclette possedute (10.000 famiglie in totale) a. CCS di 400 famiglie b. suddivisione dell’area in blocchi di 20 famiglie (≈) e indagine a tutte le famiglie residenti nei 20 blocchi selezionati a caso dai 500 totali: blocchi = primary sampling units (psu/up/clusters) famiglie = secondary sampling units (ssu/unità secondo livello) Quali conseguenze di b) rispetto ad a) ? TIS_II 46 Campionamento su più stadi Gerarchie di popolazioni Gerarchiche sono le popolazioni per le quali la popolazione finale di unità (unità di osservazione) è contenuta in un aggregato di unità di livello, o stadio, superiore, le quali possono essere contenute in unità sempre più ristrette in numero e ampie in dimensione TIS_II 47 Campionamento su più stadi Campione su più stadi: perché? 4 Necessarie solo le liste delle sub-popolazioni contenute nelle unità selezionate al livello superiore 4 Rilevazione concentrata nelle unità primarie – agevolata l’organizzazione del lavoro in loco (formazione delle liste, selezione del campione, reclutamento del personale per la rilevazione, supervisione del lavoro sul campo) – facilità di esecuzione della rilevazione (minori spostamenti, i rilevatori conoscono e sono conosciuti dai rispondenti, ecc.); controllo di copertura – riduzione dei costi e tempi di esecuzione – unità reperibili presso le comunità (famiglie, convivenze, reparti operativi, ecc.) Tuttavia 4 Campione complesso, stime complesse 4 Rischio di inefficienza delle stime (correlazione interna delle unità primarie) TIS_II 48 Campionamento da strati e da cluster TIS_II 49 Campionamento a più stadi solo i cluster (unità di primo stadio) selezionati al primo stadio devono rappresentare tutta la popolazione i gruppi (cluster) dovrebbero essere quindi molto eterogenei al loro interno in realtà l'appartenenza ad un gruppo fa sì che le unità risultino interdipendenti o omogenee o correlate tra loro (a causa di fattori misurabili e non: condivisione di uno stesso contesto/esperienze simili) le informazioni “originali” sono perciò “inferiori” al numero di unità del gruppo (selezionando tutte le unità del cluster, si ripete parzialmente una informazione già nota) stime meno efficienti usato poiché meno costoso e molto conveniente dal punto di vista operativo selezionare clusters che non casualmente dalla TIS_II 50 popolazione Campionamento a stadi: notazione/1 Unità di campionamento: psu (primary sampling unit/unità primarie) unità osservate: ssu (secondary sampling unit) (2 livelli) U = popolazione di N psu/up S = campione di psu/up selezionato dalla popolazione di psu Si = campione di ssu selezionato dall’insieme di ssu entro la psu i yij = variabile d’interesse (relativa all’elemento j-esimo entro la iesima psu) (livello psu: più agevole riferirsi in termini di totali di cluster) “No matter how you define it, the notation for cluster sampling is messy, because you need notation for both psu and the ssu levels.” (Lohr, 2010, p.168) TIS_II 51 Campionamento a stadi: notazione/2 (scuole sup. Fvg = 140 a.s. 2010/11) (studenti nella scuola) (Fvg a.s. 2010/11: 46077) (Y= essere ripetente), ti = ripetenti (ripetenti a.s. 2010/11: 3041 ) TIS_II 52 Campionamento a stadi: notazione/3 N M o = ∑ M i = # ssu i=1 (% ripetenti Fvg 2010/1: 6.6% TIS_II 53 Campionamento a stadi: notazione/4 TIS_II 54 Campionamento a grappolo (one-stage cluster sampling) • tutti (o nessuno de)gli elementi del cluster entrano nel campione • usato in molte indagini in cui il costo di campionamento per unità è trascurabile rispetto al costo di campionamento del cluster (classe scolastica/scuola: psu naturale per indagini su istruzione. Intervistare tutti gli studenti in una classe aumenta di poco i costi rispetto ad intervistarne solo alcuni) Disegno più semplice: 1. campione CCS di n psu 2. osservazione variabile di interesse (Y) su tutti gli elementi delle psu selezionate: Mi (numero ssu in psu i) = mi (numero ssu della psu i nel campione) TIS_II 55 Campionamento a grappoli (one-stage cluster sampling) A. Cluster di uguale dimensione Mi (numero ssu in psu i) = mi (numero ssu della psu i nel campione) = M Stima del totale (media) della popolazione: totali (medie) psu considerate come le “osservazioni” ignorando quelle individuali: CCS di n ti (i entro S) ti = totale di tutti gli elementi della psu i Es. Stima del reddito in famiglie di due persone (coppie) yij = redditi individuali ti = reddito (totale) coppia i (osservato per ogni coppia selezionata) tm(u) = reddito medio per famiglia/coppia ym(u) = reddito medio per individuo nella coppia TIS_II 56 Stima campionamento a grappoli caso A Stimatore totale (n psu) wij = 1/ P(ssu j della psu i è nel campione) = N/n (come CSS di nM unità da pop.ne di NM = (NM)/(nM) = N/n TIS_II 57 Confronto CCS e campionamento a grappoli caso A/1 Cluster sampling: sempre stimatori meno precisi di CCS di pari numerosità (in stratificato: varianza < se var within piccola rispetto a varianza totale = var with + var betw o, equivalentemente, Media dei quadrati degli scarti [N(M-1)] with – MSW – è piccola rispetto a S2. Se MSB/MSW è grande, stratificato aumenta precisione) Situazione opposta si verifica nel cluster sampling (A): variabilità stimatore di t dipende interamente dalla variabilità tra (between) le psu: Se MSB/MSW è grande nel cluster sampling: precisione diminuisce Elementi in cluster (psu) diversi spesso più variabili che elementi nello stesso cluster, poiché cluster diversi hanno medie diverse (es. diverso rendimento di classi di studenti, dovuto a insegnanti/contesti diversi) TIS_II 58 Confronto CCS e campionamento a grappoli caso A/2 Se MSB/MSW è grande nel cluster sampling: precisione diminuisce MSW (media varianze with psu) è piccola se psu omogenee al loro interno se MSB > S2 : V(tclust) > V(tSRS) TIS_II 59 Coefficiente di correlazione intraclasse (ICC) N M M ∑ ∑ ∑ (y ICC = i j ij − yU )(y ik − yU ) j ≠k (NM −1)(M −1)S 2 ⇒ ICˆ C grado di omogeneità interna dei gruppi al 1° stadio (quanto “simili” sono tra loro gli elementi di un cluster, è il coeff.di corr.ne tra NM(M-1) coppie yij, yik con i =1,…N e j≠k) € ICC = 1 − M SSW M −1 SSTO 0 ≤ SSW /SSTO ≤ 1 −1 ≤ ICC ≤ 1 (M −1) € € Se gruppi perfettamente omogenei, SSW = 0 e ICC = 1 NM −1 2 MSB = S [1+ (M −1)ICC ] M(N −1) € V ( tˆclust ) MSB NM −1 = 2 = [1+ (M −1)ICC] ˆ V ( tSRS ) S M(N −1) se N grande: NM-1 ≈ M(N-1), il rapporto è ≈ [1+ (M −1)ICC] ICC = 0.5, M= 5, 1+(M-1)ICC = 3: osservazione di 300 elementi con cluster sampling per ottenere la precisione di 100 elementi in SRS (in cluster “naturali” ICC > 0) € TIS_II 60 Coefficiente di correlazione intraclasse (ICC) Precisazione: definito per cluster di uguale ampiezza Misura di omogeneità interna alternativa per popolazioni generali è R2 corretto (R2 diviso i gradi di libertà) TIS_II 61 Campionamento a grappoli (one-stage cluster sampling) B. Cluster di dimensione diversa Stima: Differenza tra caso A e B: variazione tra i ti è verosimilmente più ampia se i gruppi hanno dimensioni diverse (anche in questo caso, wij sempre = N/n, perché psu selezionate con probabilità uguale –in genere, CCS di n psu) Stimatore può anche essere scritto anche come: tˆunb = ∑ ∑ wij yij i∈S j∈Si TIS_II 62 Campionamento a grappoli (one-stage cluster sampling) B. Cluster di dimensione diversa Stima della media TIS_II 63 Campionamento a grappoli (one-stage cluster sampling) B. Cluster di dimensione diversa: Stimatore alternativo della media = N/n Σ ti Stimato dagli n Mi campionari: Mo = N/n Σ Mi TIS_II 64 B. Cluster di dimensione diversa: Standar Error (SE) stimatore alternativo della media Lo stimatore rapporto in questo caso è analogo alla quantità B definita precedentemente (stimatore rapporto da CCS): il denominatore è una variabile casuale che dipende dalle particolari psu inserite nel campione (con Mi variabile) La varianza dello stimatore rapporto dipende dalla variabilità delle medie di clusters e può essere minore di quella dello stimatore corretto ^ y unb TIS_II 65 Campionamento a due stadi (two stage cluster sampling) - elementi del cluster molto simili tra loro: spreco di risorse osservarli tutti - molto costosa l’osservazione delle ssu rispetto a psu Campione su 2 stadi 1. campione (CCS) di n unità di primo livello (o stadio) UP o PSU 2. campione Si (CCS) di unità ssu (mi) entro le unità di primo stadio Per ogni psu: Stimatore corretto del totale della popolazione: pij = pi p j|i n mi pij = N Mi ogni unità selezionata rappresenta sé stessa e (NMi) / [(nmi)-1] (in totale = (NMi) / (nmi)) unità della popolazione (per EPSEM: mi proporzionale a Mi così mi /Mi circa costante € Peso di campionamento ssu j della psu i TIS_II 66 Campionamento a grappolo e a due stadi TIS_II 67 Campionamento a due stadi (two stage cluster sampling) Varianza stimatore: come one stage ma con termine in più che tiene conto del fatto che i totali di cluster sono ora delle stime da campionamento entro psu Se N grande, secondo termine trascurabile e, tralasciando anche fcp WR = With Replacement variance TIS_II 68 Scelte per formare un campione su più stadi INDIVIDUAZIONE DEL NUMERO APPROPRIATO DI STADI INDIVIDUAZIONE DELLE CARATTERISTICHE PER STRATIFICARE LE UNITÀ DI PRIMO STADIO DETERMINAZIONE DELLA NUMEROSITÀ DEL CAMPIONE (precisione) Dimensione psu (aree) QUANTE UNITÀ SELEZIONARE AL PRIMO E AI SUCCESSIVI (secondo) STADI: numerosità psu e ssu (conoscenza di costi di campionamento per psu e ssu e ICC o R 2α) ASSEGNAZIONE DI PROBABILITÀ DI INCLUSIONE ALLE UNITÀ COME SELEZIONARE LE UNITÀ AL PRIMO E AI SUCCESSIVI STADI TIS_II 69 Probabilità di inclusione delle unità pij = pi p j|i pijk = pi p j|i pk |ij = pij pk |ij su due stadi su tre stadi Se campione autoponderante (probabilità di selezione uguale per ogni unità): pij = pi p j|i = p ∀i, j A. probabilità costanti ad ogni stadio n mi pij = ⋅ =p N Mi (se UP circa di dimensione costante M, nessun problema) Molto spesso si cerca autoponderazione anche entro psu TIS_II 70 € € Esempio Comuni A B C Popolazione Mi . 20 000 . 2.000 8 000 . 30 000 M0 – selezione di un comune (1° stadio) – selezione di un campione di individui dal comune estratto n = 100 (2° stadio) 1 campione autoponderante con fc = 300 campione a due stadi: Se si estrae 1 UP: n = 1 pij = 1 1 1 = ⋅ 300 3 100 € 1 ⋅ 20.000 = 200 = nc1 100 1 B⇒ ⋅ 2.000 = 20 = nc 2 100 A⇒ 1 C⇒ ⋅ 8.000 = 80 = nc 3 100 Se si estraggono 2 UP: n = 2 pij = 1 2 1 = ⋅ 300 3 200 AB =110 = ncAB A ⇒ 100 B ⇒ 10 AC = 140 = nc AC C ⇒ 40 BC = 50 = nc BC TIS_II 71 € € Campionamento psu con probabilità variabili Deliberatamente, le psu sono selezionate con probabilità diverse (che eventualmente saranno compensate con pesi opportuni nella fase di stima) Sono note le probabilità con cui è selezionata una data unità: P (unità i è selezionata alla prima estrazione) = ψi P (unità i è nel campione) = πi (probabilità distinte poiché, essendo la probabilità di selezione diversa, l’estrazione –fatta senza replicazione- o meno al primo giro può influenzare le probabilità di selezione delle altre unità) In molti casi, la selezione di psu con probabilità variabili produce un campione che “rappresenta” meglio la popolazione di uno analogo selezionato con probabilità uguali. TIS_II 72 Campionamento con probabilità variabili/1 selezione di n=1 psu (da N psu in totale) Valore del totale psu i = ti Obiettivo: stima del totale t Esempio (con popolazione nota): stima del totale delle vendite Ci si attende che: 1. in un “big” store le vendite siano maggiori che in “small” store 2. variabilità vendite totali > in “big” che “small” In questo caso, poiché n=1: ψi = πi = P(store i è selezionato) = proporzionale alla dimensione (size) TIS_II 73 Campionamento con probabilità variabili/2 selezione di n=1 psu (da N psu in totale) Esempio per selezione 1 negozio: estrazione da 16 biglietti numerati da 1-16. Se estratto 1: A 2-3: B 4-6: C 7-16: D Peso di campionamento da usare (per compensazione) nella stima: wi = 1 / P(i è selezionato nel campione) = ψi TIS_II 74 Campionamento psu con probabilità variabili/3 selezione di n=1 psu (da N psu in totale) Stimatore del totale (one-stage cluster) 4 possibili campioni di ampiezza 1 (totale t =300): TIS_II 75 Campionamento con probabilità variabili/4 selezione di n=1 psu (da N psu in totale) Varianza dello stimatore del totale (4 campioni di ampiezza 1) TIS_II 76 Campionamento con probabilità variabili/5 selezione di n=1 psu (da N psu in totale) Confronto con CCS Con CCS: ψi = ¼, 1/ψi = 4 =N Stimatore non distorto ma varianza molto più grande (nel primo caso è usata più informazione, sempre che l’ipotesi di base sia ragionevole) TIS_II 77 Campionamento con probabilità variabili/6 selezione di n=1 psu (da N psu in totale) Selezione unica psu non è così inusuale: - a seguito della stratificazione, ogni strato può contenere poche psu - possono essere definiti un grande numero di strati per aumentare la precisione Ovviamente, con una psu non è possibile ottenere stime della variabilità tra psu entro lo strato: procedure per “suddividere” le psu in pseudopsu In generale, con probabilità variabili di selezione per le psu: § è favorita in termini probabilistici l’entrata nel campione delle unità di grandi dimensioni § le unità finali sono estratte da blocchi mediamente più estesi, e quindi sono più disperse e la stima è più efficiente di un campione selezionato con probabilità costanti ad ogni stadio TIS_II 78 Campionamento con probabilità variabili/7 selezione di n > 1 psu (da N psu in totale) Caso semplice: selezione con replicazione P (unità i è selezionata alla prima estrazione) = ψi = P (unità i è selezionata alla seconda estrazione) = P (terza) … Idea sottostante: - selezione di n psu con replicazione - stimare il totale per ciascuna psu come con n=1 - se psu replicate, il totale sarà incluso tante volte quante la psu è stata selezionata - stima totale popolazione = media delle n stime ti indipendenti - stima varianza = varianza campionaria delle n stime indipendenti diviso n TIS_II 79 Campionamento con probabilità variabili selezione di n > 1 psu (da N psu in totale) Metodi per selezione con replicazione I vari metodi presuppongono la conoscenza di una misura di dimensione (measure of size) per tutte le psu nella popolazione 1. Metodo della cumulata (vedi esempio dei negozi con generazione di numeri casuali e inserite psu corrispondenti a tali valori) 2. Metodo di Lahiri (particolarmente utile quando il n.ro di psu è grande) TIS_II 80 Metodo della cumulata/1 Esempio: 647 studenti in 15 classi, campione di 5 classi con replicazione e prob. proporzionale a Mi (= n.ro studenti per classe) Ψi = Mi / 647 1. Generazione di 5 numeri casuali : 487, 369, 221, 326, 282 2. Classi nel campione: 13, 9, 6, 8, 7 (se n.c.= 553, 082, 245, 594, 150, campione: 14, 3, 6, 14, 5 con classe 14 inserita 2 volte) Si utilizza anche selezione sistematica (che produce campioni non replicati ma in grandi pop.ni, differenza minima) TIS_II 81 Metodo della cumulata /2 Gruppo A B C D E F G H I Mi 20 100 50 € 15 18 43 20 36 13 M=315 I ∑M j =1 j =M 20 120 170 185 203 246 266 302 315 Tavola di numeri casuali: 3 cifre 0- 1 21 - 120 121 - 170 … gruppo A; gruppo B; gruppo C Estrazione di una UP: 1 numero casuale con Estrazione di due UP: 2 numeri casuali reinserimento … Selezione sistematica per avere un’estrazione senza reinserimento: es. 3 estrazioni: 315/3= 105 1 ≤ x ≤ 105 ⇒ prima UP x + 105 ⇒ seconda UP + 105 ⇒ terza UP TIS_II 82 Esempio con selezione sistematica (che produce campioni non replicati ma in grandi pop.ni, risultati molto simili) - Lista degli elementi per la prima psu, poi la seconda e così via. - selezione sistematica dalla lista Esempio 15 classi: 1 <k < 129 (647/5 ≈ 129.4), psu nel campione: k, k+129, … N.B.: se k= 112 Non vero campione con replicazione, poiché classi <= 129 non entrano più di una volta nel campione e classi > 129 hanno P = 1 di far parte del campione ma facile da fare ! (se psu organizzate geograficamente, campione ottenuto è più sparso con risultati migliori) TIS_II 83 Metodo di Lahiri (rejective method) N = n.ro psu, max (Mi) = dimensione massima psu 1. selezione numero casuale (n.c.) tra 1 e N (psu da considere) 2. selezione n.c. tra 1 e max (Mi): • n.c. <= Mi , psu i è inclusa nel campione • altrimenti si torna al punto 1 3. ripetere fino a ottenere il numero di psu (ampiezza campionaria 1^ stadio) desiderato. Esempio classi: max (studenti) = 100, generazioni di coppie di n.c.: 1^: 1, …15; 2^: 1,…100 TIS_II 84 Metodo di Lahiri: esempio 15 classi: max (studenti) = 100, generazioni di coppie di n.c., 1^: 1, …,15 (psu); 2^: 1,…,100 (per decidere se tenere psu) TIS_II 85 Stima campionamento a due stadi con probabilità variabili e con replicazione 1. Qualunque sia la psu i selezionata, si utilizza sempre lo stesso disegno per selezionare al suo interno le ssu (campioni indipendenti di ssu se la psu è replicata - stimatore non distorto della varianza ) es.: campione di 5 ssu da psu X se selezionata. Se X selezionata 2 volte: estratti 2 campioni diversi 2. Estrazione del j-esimo campione (j = 1, …Qi = n.ro di replicazioni psu i nel campione) TIS_II 86 Passi per campionamento a due stadi con probabilità variabili e replicazione 1. Determinare: Ψi , n = n.ro psu da estrarre, metodo selezione ssu entro psu 2. Selezionare con probabilità ψi e con replicazione n psu (metodo cumulata o Lahiri) 3. Selezionare ssu come definito in 1. Selezionare tanti campioni di ssu quante volte è estratta la psu 4. Stimare il totale di popolazione da ogni psu per ogni campione di ssu (n stime t^ij / ψi) 5. Calcolare t^ = media delle n stime punto 4. 6. Calcolare SE= (1/ √ n) (deviazione standard campionaria delle n stime punto 4.) TIS_II 87 Stima campionamento a due stadi con probabilità variabili e senza replicazione: Maggiori complicazioni poiché la probabilità di selezione di una unità (psu) cambia se è selezionata come prima, seconda, terza, … Necessaria conoscenza di Prob inclusione 1^ e 2^ ordine (πi e πik). Stimatore di Horvitz-Thompson (HT) (non distorto) Zi = 1 se psu i è nel campione, 0 altrimenti TIS_II 88 Campionamento a due stadi con probabilità variabili e senza replicazione Pesi di campionamento e stimatore HT Probabilità che la ssu j della psu i sia nel campione è πi πj/i , il peso di campionamento di (i,j)-esima ssu è: Stimatore rapporto TIS_II 89 Campione autoponderante da disegno su due stadi Selezione con probabilità proporzionali alla dimensione PPS (Probability Proportional to Size) 1° STADIO 20.000 2.000 8.000 P( A) = . ; P( B) = . ; P(C ) = . 30 000 30 000 30 000 b = 100 (# ssu selezionate al 2^ stadio) P( j | A) = 100 100 100 ;P( j | B) = ;P( j | C) = 20.000 2.000 8.000 pij = pi ⋅ p j|i = p p Aj 20.000 100 1 = . ⋅ . = 30 000 20 000 300 pBj 2.000 1 8.000 100 1 = . ⋅ . = pCj = . ⋅ . = 30 000 2 000 300 30 000 8 000 300 100 Equazione di selezione con PPS per campione autoponderante di ampiezza fissa nb nM i b nb pij = ⋅ = M0 Mi M 0 Attenzione a bilanciamento tra dispersione del campione e guadagno in Deff TIS_II 90 Modello di costo per determinare b ottimo in funzione dei costi C = nCi + nbc con var( y ) = min C costo totale Ci costo per psu/UP € b* ≈ c costo per elemento (unità di 2° livello) Ci (1 − ICC) c ICC Poiché campione = nb, fissata dimensione e b* si trova n a parità di altre condizioni, più l’omogeneità interna è elevata, più alti i costi per unità e più bassi i costi per gruppo più il campione sarà sparpagliato tra le UP N.B. indagini multiscopo usuali considerazioni TIS_II 91 Campione per aree (o areale, di areole, aereolare) campione formato selezionando con criteri probabilistici le superfici su cui si vuole osservare un fenomeno – lista/e: mappa/e del territorio suddiviso in aree aspetto più cruciale: confini ben definiti – popolazione: unità da osservare campione a più stadi: selezione aree (1° stadio) stratificazione geografica (anche implicita e PPEstimatedS) 2° stadio: selezione di un campione dalle aree selezionate per avere un campione autoponderante: formula per PPES due possibilità: 1) lista di tutte le unità residenti nell’area selezionata e selezione con frazione b M i 2) dividere l’area in segmenti; selezionare con frazione b M i e poi considerare tutte le unità nei segmenti selezionati (3° stadio)TIS_II 92