Alcuni richiami e definizioni (1) Popolazione: è l’insieme finito o infinito di unità, definito nei contenuti, nello spazio e nel tempo, oggetto dell’indagine Campione: data una popolazione, è l’insieme delle n unità, selezionate tra le N che compongono la popolazione, al fine di rappresentarla, quanto a caratteri oggetto di studio Campione statistico è detto casuale (o probabilistico) La casualità si ottiene: • attribuendo ad ogni unità una probabilità positiva di essere selezionata • utilizzando in modo appropriato le tecniche per la selezione casuale del campione Alcuni richiami e definizioni (2) • Popolazione N unità • Campione n unità • Probabilità di estrazione pi • Probabilità di inclusione nel campione πi • Frazione di campionamento f • Fattore di correzione per popolazioni finite (1-f) • Fattore di riporto all’universo 1/f Schema di campionamento: << probabilità di selezione >> In un campionamento casuale le probabilità di selezione delle unità possono essere : 1 p = p = ∀i, j ∈ {1, K, N} • costanti i j • variabili N La probabilità di selezione pi varia tra 0 e 1: 0 < pi ≤ 1 N i =1 ∑ pi = 1 Schema di campionamento: << regole per la selezione >> TECNICHE PER LA SELEZIONE CASUALE: CASUALE • Tavole dei numeri casuali • Algoritmi di generazione di numeri pseudo-casuali TIPI DI SELEZIONE CASUALE: • Bernoulliana, o con reinserimento o con ripetizione N.B. f = 0 • In blocco, o senza reinserimento o ripetizione Schema di campionamento: << probabilità di inclusione >> La probabilità di inclusione πi è la probabilità di includere nel campione l’i-esima unità: πi =npi Se la probabilità iniziale è costante (pi=1/N), la probabilità totale è πi = n N Si dimostra che, se la probabilità di selezione è costante, sia nel campionamento bernoulliano, sia nel campionamento in blocco πi =n/N Schema di campionamento: << selezione sistematica >> Si mettono in sequenza le unità e se ne seleziona una ogni tante, a partire da una, scelta casualmente Il passo di campionamento si determina sulla base del rapporto k=N/n La posizione dell’unità da cui partire r è: 1≤r≤k Si includono nel campione le n unità nelle posizioni: r; r + k; r + 2k; … ; r + (n-1)k Schema di campionamento: << la numerosità campionaria >> La numerosità ottima di un campione è quella che permette di ottenere gli obiettivi dell’indagine al minimo costo (e nel minor tempo) Sarà data, quindi, dal più piccolo numero in base al quale le stime raggiungono il livello di attendibilità desiderato dal ricercatore Nel seguito vedremo come determinare la numerosità campionaria all’interno dei diversi tipi di campionamento probabilistico Schema di campionamento: << struttura del campione >> • campionamento casuale semplice • campionamento stratificato • campionamento su più stadi • campionamento per aree • campionamento ruotato • … La STRUTTURA del campione è data dall’insieme delle LISTE che si adoperano per formarlo Se la lista della popolazione è unica, il campione ha una struttura semplice, se sono necessarie più liste ha una struttura complessa Campionamento casuale << SEMPLICE >> (1) • Probabilità di estrazione pi =1/N ∀i∈{1, …, N} • Probabilità di inclusione nel campione πi =n/N • Fattore di espansione all’universo: N/n • Frazione di campionamento f=n/N • Fattore di riporto all’universo (1-f)=(N-n)/N La precisione delle stime dipende da n quando N è molto grande, mentre f è determinante quando N è piccolo E’ il campione della teoria statistica Nella pratica è spesso troppo dispendioso Campionamento casuale << SEMPLICE>> (2) Determinazione della numerosità campionaria Problema: stimare la media µ di una caratteristica X della popolazione, nel caso di un campionamento casuale semplice, con reimmissione. Ricordando che, in questo caso, la varianza dello stimatore media campionaria X è dato da: Var (X ) = σ 2 / n si ha, quindi: n = σ 2 /Var (X ) σ2 è la varianza del fenomeno X nella popolazion e Dato σ, basta quindi fissare un livello massimo accettabile per Var (X ) (o, in altri termini, l’ampiezza accettabile per l’intervallo di confidenza, ad un α fissato) per determinare n Campionamento casuale << SEMPLICE>> (3) Determinazione della numerosità campionaria Nei casi in cui lo stimatore media campionaria si distribuisce normalmente, allora la metodologia statistica ci viene in aiuto. Infatti, si ha che: σ 2z α / 2 n= , dove : d2 z α / 2 è il valore dell' ascissa di una distribuzi one n ormale standardiz zata α è il valore di confidenza prefissato 2d è l' ampiezza dell'intervallo centrato su µ all'interno del quale, con probabilit à (1 - α ) si desidera cada la stima Il problema è che generalmente σ non è noto prima della rilevazione e occorre, quindi, fare riferimento o ad indagini similari, oppure porre in essere una indagine pilota e controllare il livello nel corso dell’indagine Campionamento casuale << SEMPLICE>> (4) Determinazione della numerosità campionaria Nelle indagini di mercato è più frequente il caso in cui si voglia stimare una proporzione di soggetti, piuttosto che una media. In questo caso la teoria statistica consente di semplificare ulteriormente la soluzione di questo problema Il problema può essere formalmente rappresentato, per ciascun soggetto, in termini di possesso, o meno dell’attributo di interesse (oppure favorevole, o contrario ad una certa affermazione, ecc.) e, quindi, attraverso una v.c. Bernoulliana Ricordando le caratteristiche di una distribuzione bernoulliana, è noto che se Y~Ber(p), allora Var(Y)=p(1-p) e poiché p è la probabilità di successo, e varia fra 0 e 1, ha come massimo 0,25, situazione di massima incertezza Campionamento casuale << SEMPLICE>> (5) Determinazione della numerosità campionaria Questo significa che, in assenza di informazioni su σ2, la numerosità campionaria può essere cautelativamente calcolata ponendo p=0,5 Considerando l’intero campione, la proporzione di interesse sarà quindi descritta da una binomiale di parametri n e p. Nei casi di applicabilità del teorema di de Moivre-Laplace e, quindi, di approssimazione alla normale, avremo, quindi (fissato un α=0,5): p (1 − p )zα 2 1 2 2 ( ) 0 , 25 1 , 96 nMax = = d ≅ d2 d2 Campionamento casuale << SEMPLICE>> (6) Determinazione della numerosità campionaria In genere, un’indagine si pone obiettivi di conoscenza relativi a più caratteristiche del collettivo oggetto di analisi «Come si procede quando gli obiettivi rilevazione riguardano più variabili?» 1. 2. 3. della Soluzione prudenziale: si adotta la numerosità più grande Soluzione riduttiva: si riduce la precisione della stima di alcune variabili Soluzione ponderata: si assegna alla varianza di stima delle diverse variabili dei pesi che esprimono l’importanza della precisione attesa per la statistica stimata (Kish, 1976): n = ∑Qqw q nq con : nq la numerosità stimata per la q - esima variabile w q il peso attribuito alla q - esima variabile Q il numero delle variabili di interesse e Q ∑q w q = 1 Campionamento casuale << SEMPLICE>> (7) Un esempio (Fabbris, 1989) Viene commissionata una indagine longitudinale su 2000 persone sottoposte a cobalto terapia Obiettivo: 1. Rilevare la frazione di sopravvissuti a uno, a due, a cinque anni 2. A distanza di un anno dalla dimissione dell’ospedale, stimare la media dei giorni di letto nel periodo Per determinare la numerosità si pone: 1. Un errore di campionamento delle frazioni di sopravvisuti non superiore al 5% del valore della frazione 2. Un errore di campionamento per il numero medio dei giorni di letto ≤ 0,5 Campionamento casuale << SEMPLICE>> (8) Un esempio (Fabbris, 1989) Conoscenze a priori: Si suppone che le sole informazioni in possesso provengano da uno studio straniero, da cui si ricava questa curva di sopravvivenza 1 0,8 0,6 0,4 0 1 2 3 4 5 6 7 8 9 10 Per il numero di giorni letto, l’esperienza passata dello stesso ospedale committente porta a ritenere che la varianza sia di 40 giorni2 in un anno Campionamento casuale << STRATIFICATO>> (1) «Stratificare significa ripartire la popolazione sottopopolazioni dette strati » PERCHE’ Stratificare ? Evidenziare in insiemi di unità particolari (unità rare, gruppi estremali o devianti, come le grandi imprese) Separare dagli altri, strati fisicamente isolati o con caratteristiche speciali Individuare particolari unità da osservare con tecniche Introdurre sulla selezione il massimo controllo, pur mantenendo la casualità Campionamento casuale << STRATIFICATO>> (2) INDIVIDUARE SOTTOPOPOLAZIONI AL MASSIMO OMOGENEE RISPETTO ALLA VARIABILE (o alle variabili) DA RILEVARE STIME PIU’ EFFICIENTI di quelle ottenibili con un campionamento casuale semplice (di pari numerosità) Campionamento casuale << STRATIFICATO>> (3) Ogni strato Ph è una popolazione Se la popolazione P è suddivisa in H strati allora H Uh =1 Ph = P Il campione Ch estratto dallo strato h è idoneo a rappresentarlo H Uh =1 C h = C Rappresenta l’intera popolazione P Campionamento casuale << STRATIFICATO>> (4) REGOLE per la stratificazione Le CARATTERISTICHE per la stratificazione devono essere note prima della selezione Ogni unità statistica deve appartenere ad uno e ad un solo strato STRATIFICATO è un campione estratto da una popolazione STRATIFICATO Campionamento casuale << STRATIFICATO>> (5) Selezione di un campione stratificato PROPORZIONALE ¾La frazione di campionamento è determinata proporzionalmente alla presenza degli individui in uno strato nh = n ¾Si Wh ∑ h =1 W h H tratta di uno schema di campionamento AUTOPONDERANTE, perché la probabilità di inclusione di una unità nel campione è uguale a quella del campionamento casuale semplice (n/N) Campionamento casuale << STRATIFICATO>> (6) con ALLOCAZIONE OTTIMA secondo Neyman (1934) e Chuprov (1923) Selezione ¾Quando non si hanno vincoli di costo, o quando il costo è uguale in tutti gli strati, la numerosità ottima per l’h-esimo strato è data da: Whσ h nh = n H ∑h =1Whσ h N.B. può accadere che nh > Nh. Si campioneranno, allora le Nh unità e si aumenterà la numerosità da attribuire agli altri (H-1) strati, ignorando l’h-esimo Campionamento casuale << STRATIFICATO>> (7) STIMA con ALLOCAZIONE OTTIMA ¾Il campione stratificato con allocazione ottima delle unità non è autoponderante ¾Occorre, quindi, introdurre un sistema di pesi wi nel calcolo delle stime per tener conto delle differenti probabilità di inclusione πi delle singole unità (schema di campionamento con probabilità variabili) wi = 1 πi Campionamento casuale << STRATIFICATO>> (8) STIMA con ALLOCAZIONE OTTIMA della MEDIA µ della variabile X Chiamiamo: µh la media della variabile X, all’interno dell’h-esimo strato della popolazione X la media della variabile X, all’interno dell’h-esimo strato del campione σ2 h la varianza della variabile X, all’interno dell’h-esimo strato della popolazione s2h la varianza della variabile X, all’interno dell’h-esimo strato del campioni Campionamento casuale << STRATIFICATO>> (9) STIMA con ALLOCAZIONE OTTIMA della MEDIA µ della variabile X La MEDIA µ della variabile X è corretta stimata dalla media aritmetica ponderata delle medie stimate nei singoli strati: x ott = ∑h =1Wh x h = ∑h =1 Nh x h N x h = ∑in=1 x hi nh H h H Campionamento casuale << STRATIFICATO>> (5) Selezione di un campione stratificato OTTIMALE ¾La frazione di campionamento che permette di raggiungere l’obiettivo è più elevata negli strati in cui la variabilità è maggiore, rispetto a quelli in cui i valori si addensano attorno ai valori medi ¾A parità di varianza, si campionerà negli strati in cui il costo unitario di rilevazione è più basso: Whσ h C h nh = n H ∑h =1Whσ h C h dove σh è lo scarto quadratico medio della variabile scelta come fattore di stratificazione all’interno dell’h-esimo strato Campionamento casuale << A STADI>> (1) «Alla base di un campionamento a stadi c’è una struttura gerarchica della popolazione » : la popolazione finale delle unità è contenuta in un insieme di unità di livello superiore, che possono a loro volta appartenere ad un numero più ridotto di insiemi di dimensione più ampia Esempio: Si campiona in un primo stadio fra i comuni italiani. Successivamente al secondo stadio si campionano le famiglie all’interno dei comuni estratti. Si intervistano, quindi, tutti i componenti delle famiglie estratte (grappolo) grappolo Campionamento casuale << A STADI>> (2) Si noti che : • • • la successione gerarchica dei campionamenti può non coincidere con la struttura della popolazione l’estrazione del campione si può effettuare con criteri differenti ad ogni stadio: o con probabilità costanti o variabili o da liste stratificate o meno la stratificazione si effettua di regola al primo stadio, perché è più economico e si hanno più informazioni fissata la numerosità campionaria si può decidere come combinare i diversi stadi AMPIA FLESSIBILITA’ Campionamento casuale << A STADI>> (3) Le fasi di un campionamento a stadi sono : 1. individuare il numero degli stadi 2. individuare le caratteristiche per stratificare (di solito le unità di primo stadio) 3. decidere quante unità estrarre ad ogni stadio 4. decidere come selezionare ad ogni stadio Il DEFF di un campionamento a stadi è inversamente legato al coefficiente di correlazione interclasse Campionamento casuale << RUOTATO>> «Quando con l’indagine si vogliono stimare le caratteristiche della popolazione ad intervalli di tempo esistono diverse soluzioni » : 1. si costruisce un campione permanente, il panel Vantaggi: consente di studiare flussi e persistenze Limiti: rischio di perdita di rappresentatività col tempo 2. si selezionano campioni indipendenti ogni volta Vantaggi: garantisce la rappresentatività nel tempo Limiti: consente confronti temporali solo per aggregati 3. si sostituiscono a rotazione alcune unità Vantaggi: presenta il vantaggio della continuità (parziale) Limiti: complessità dei processi di stima LO SCHEMA DI ROTAZIONE «Un campione di dimensione n costante nel tempo può essere visto come composto da n’ unità incluse nella prima rilevazione + n’’ unità incluse nella seconda e così via » P=n’/n è la frazione di sovrapposizione tra due periodi successivi Si definiscono g gruppi di rotazione che hanno generalmente uguale dimensione n/g Il DEFF di un campionamento ruotato è legato al coefficiente di auto-correlazione e alla frazione di sovrapposizione Un semplice schema di ROTAZIONE Consideriamo il caso più semplice con: P=1/2 SCHEMA PER T RILEVAZIONI GRUPPI DI ROTAZIONE 1 2 … T-1 T OCCASIONI DELL’ INDAGINE 1 x x 2 x x … … … … … … T-1 x x T x x