Il DEFF Il DEFF (Design EFFect) è l’Effetto del Piano di Campionamento prescelto, definito come: ˆ Var ( Y ) compl DEFF (Yˆcompl ) Var (Yˆ ) sempl Lo schema di campionamento complesso sarà quindi più efficiente di quello casuale semplice se il DEFF è minore di 1, ugualmente efficiente se è uguale a 1 e meno efficiente se è minore di 1 Campionamento casuale << STRATIFICATO>> (1) «Stratificare significa ripartire la popolazione sottopopolazioni dette strati » PERCHE’ Stratificare ? Evidenziare in insiemi di unità particolari (unità rare, gruppi estremali o devianti, come le grandi imprese) Separare dagli altri, strati fisicamente isolati o con caratteristiche speciali Individuare particolari unità da osservare con tecniche Introdurre sulla selezione il massimo controllo, pur mantenendo la casualità Campionamento casuale << STRATIFICATO>> (2) INDIVIDUARE SOTTOPOPOLAZIONI AL MASSIMO OMOGENEE RISPETTO ALLA VARIABILE (o alle variabili) DA RILEVARE STIME PIU’ EFFICIENTI di quelle ottenibili con un campionamento casuale semplice (di pari numerosità) Campionamento casuale << STRATIFICATO>> (3) Ogni strato Ph è una popolazione Se la popolazione P è suddivisa in H strati allora H h 1 Ph P Il campione Ch estratto dallo strato h è idoneo a rappresentarlo H h 1 C h C Rappresenta l’intera popolazione P Campionamento casuale << STRATIFICATO>> (4) REGOLE per la stratificazione Le CARATTERISTICHE per la stratificazione devono essere note prima della selezione Ogni unità statistica deve appartenere ad uno e ad un solo strato STRATIFICATO è un campione estratto da una popolazione STRATIFICATO Il campionamento stratificato proporzionale Da ogni strato si seleziona un campione casuale mantenendo la proporzione dello strato nella popolazione (k = 1, …, K con K numero degli strati): fk = nk / Nk = f = n/N Campionamento casuale << STRATIFICATO>> (5) Selezione di un campione stratificato OTTIMALE La frazione di campionamento che permette di raggiungere l’obiettivo è più elevata negli strati in cui la variabilità è maggiore, rispetto a quelli in cui i valori si addensano attorno ai valori medi A parità di varianza, si campionerà negli strati in cui il costo unitario di rilevazione è più basso: Whs h C h nh n H h 1Whs h C h dove sh è lo scarto quadratico medio della variabile scelta come fattore di stratificazione all’interno dell’h-esimo strato Campionamento casuale << STRATIFICATO>> (6) Selezione con ALLOCAZIONE OTTIMA secondo Neyman (1934) e Chuprov (1923) Quando non si hanno vincoli di costo, o quando il costo è uguale in tutti gli strati, la numerosità ottima per l’h-esimo strato è data da: Whs h nh n H h 1Whs h N.B. può accadere che nh > Nh. Si campioneranno, allora le Nh unità e si aumenterà la numerosità da attribuire agli altri (H-1) strati, ignorando l’h-esimo Campionamento casuale << STRATIFICATO>> (7) STIMA con ALLOCAZIONE OTTIMA Il campione stratificato con allocazione ottima delle unità non è autoponderante Occorre, quindi, introdurre un sistema di pesi wi nel calcolo delle stime per tener conto delle differenti probabilità di inclusione pi delle singole unità (schema di campionamento con probabilità variabili) wi 1 pi Campionamento casuale << STRATIFICATO>> (8) STIMA con ALLOCAZIONE OTTIMA della MEDIA m della variabile X Chiamiamo: mh la media della variabile X, all’interno dell’h-esimo strato della popolazione X la media della variabile X, all’interno dell’h-esimo strato del campione s2 h la varianza della variabile X, all’interno dell’h-esimo strato della popolazione s2h la varianza della variabile X, all’interno dell’h-esimo strato del campioni Campionamento casuale << STRATIFICATO>> (9) STIMA con ALLOCAZIONE OTTIMA della MEDIA m della variabile X La MEDIA m della variabile X è corretta stimata dalla media aritmetica ponderata delle medie stimate nei singoli strati: x ott h 1Wh x h h 1 Nh x h N H x h i 1 x hi nh nh H Campionamento casuale << STRATIFICATO>> (5) Selezione di un campione stratificato OTTIMALE La frazione di campionamento che permette di raggiungere l’obiettivo è più elevata negli strati in cui la variabilità è maggiore, rispetto a quelli in cui i valori si addensano attorno ai valori medi A parità di varianza, si campionerà negli strati in cui il costo unitario di rilevazione è più basso: Whs h C h nh n H h 1Whs h C h dove sh è lo scarto quadratico medio della variabile scelta come fattore di stratificazione all’interno dell’h-esimo strato Campionamento casuale << A STADI>> (1) «Alla base di un campionamento a stadi c’è una struttura gerarchica della popolazione » : la popolazione finale delle unità è contenuta in un insieme di unità di livello superiore, che possono a loro volta appartenere ad un numero più ridotto di insiemi di dimensione più ampia Esempio: Si campiona in un primo stadio fra i comuni italiani. Successivamente al secondo stadio si campionano le famiglie all’interno dei comuni estratti. Si intervistano, quindi, tutti i componenti delle famiglie estratte (grappolo) Campionamento casuale << A STADI>> (2) Si noti che : • • • la successione gerarchica dei campionamenti può non coincidere con la struttura della popolazione l’estrazione del campione si può effettuare con criteri differenti ad ogni stadio: o con probabilità costanti o variabili o da liste stratificate o meno la stratificazione si effettua di regola al primo stadio, perché è più economico e si hanno più informazioni fissata la numerosità campionaria si può decidere come combinare i diversi stadi AMPIA FLESSIBILITA’ Campionamento casuale << A STADI>> (3) Le fasi di un campionamento a stadi sono : 1. individuare il numero degli stadi 2. individuare le caratteristiche per stratificare (di solito le unità di primo stadio) 3. decidere quante unità estrarre ad ogni stadio 4. decidere come selezionare ad ogni stadio Il DEFF di un campionamento a stadi è inversamente legato al coefficiente di correlazione interclasse Campionamento casuale << RUOTATO>> «Quando con l’indagine si vogliono stimare le caratteristiche della popolazione ad intervalli di tempo esistono diverse soluzioni » : 1. si costruisce un campione permanente, il panel Vantaggi: consente di studiare flussi e persistenze Limiti: rischio di perdita di rappresentatività col tempo 2. si selezionano campioni indipendenti ogni volta Vantaggi: garantisce la rappresentatività nel tempo Limiti: consente confronti temporali solo per aggregati 3. si sostituiscono a rotazione alcune unità Vantaggi: presenta il vantaggio della continuità (parziale) Limiti: complessità dei processi di stima LO SCHEMA DI ROTAZIONE «Un campione di dimensione n costante nel tempo può essere visto come composto da n’ unità incluse nella prima rilevazione seconda e così via » + n’’ unità incluse nella P=n’/n è la frazione di sovrapposizione tra due periodi successivi Si definiscono g gruppi di rotazione che hanno generalmente uguale dimensione n/g Il DEFF di un campionamento ruotato è legato al coefficiente di auto-correlazione e alla frazione di sovrapposizione Un semplice schema di ROTAZIONE Consideriamo il caso più semplice con: P=1/2 SCHEMA PER T RILEVAZIONI GRUPPI DI ROTAZIONE 1 2 … T-1 T OCCASIONI DELL’ INDAGINE 1 x x 2 x x … … … … … … T-1 x x T x x