sommario • Cosa si intende per campionamento • Sitma puntuale o intervallare per un parametro incognito della popolazione • Indagini multiscopo • Due approcci al campionamento • Caratteristiche del campionamento • Tecniche di selezione • La numerosità ottimale Analisi di Mercato Facoltà di Economia francesco mola Il campionamento Cosa si intende per campionamento Pop Inferenza Si definisce campionamento un procedimento attraverso il quale da un insieme di unità costituenti l’oggetto dello studio, si estrae un numero ridotto di casi scelti con criteri tali da consentire la generalizzazione all’intera popolazione dei risultati ottenuti. Sitma puntuale o intervallare per un parametro incognito della popolazione Estrazione casuale C • Ricorre spesso l’esigenza di stimare un parametro incognito della popolazione. Non sempre si dispone di tutti i dati e/o spesso i vincoli di tempo e costi sono tali da indurci al campionamento • L’obiettivo è trovare uno stimatore che produca stime quanto più vicine possibile al parametro incognito.. incognito Sitma puntuale o intervallare per un parametro incognito della popolazione • La stima può essere di tipo puntuale o intervallare. – Es1. la variabile casuale media campionaria, stimatore della media, quando lavora con i dati campionari genera la stima della media della popolazione – Es2. Considerando la tecnica degli intervalli di confidenza, ed utilizzando come funzione pivot la media campionaria, ottengo una stima intervallare della media della popolazione Indagini multiscopo – Es3. la variabile casuale proporzione campionaria, stimatore della proporzione, quando lavora con i dati campionari genera la stima della proporzione della popolazione – Es4. Considerando la tecnica degli intervalli di confidenza, ed utilizzando come funzione pivot la proporzione campionaria, ottengo una stima intervallare della media della popolazione Due approcci al campionamento Il campionamento “ragionato” • L’obiettivo è analizzare la complessità di un fenomeno e lo studio delle relazioni fra le variabili osservate, attraverso una procedura standardizzata di interrogazione e raccolta dei dati dati.. • Precede storicamente il campionamento casuale, di cui non può utilizzare le proprietà derivanti dall’applicazione della teoria della probabilità; • Le unità sono scelte in modo da somigliare nell’insieme, per alcuni caratteri strutturali, alla popolazione da cui sono tratti; • Produce campioni che saranno tanto più affidabili quanto più sono vere le informazioni su cui si basa la scelta. Il campionamento probabilistico (statistico) • Le unità sono scelte in modo casuale (e non “a casaccio”!). • In particolare, la casualità interviene nella selezione delle unità e si ottiene: - attribuendo ad ogni unità della popolazione una probabilità nota e diversa da zero di essere selezionata; - utilizzando in modo appropriato le tecniche per la selezione. Caratteristiche del campionamento • • • • • • • Rappresentatività Disegno di campionamento Numerosità e Attendibilità Precisione Errore di campionamento Errore di rilevazione Il DEFF La rappresentatività del campione è una proprietà del disegno di campionamento e non dei gruppi di unità che si estraggono. Caratteristiche del campionamento: il disegno di campionamento E’ l’insieme delle decisioni prese nel formare il campione. Occorre definire: • La struttura del campione Caratteristiche del campionamento: rappresentatività Il problema delle liste Caratteristiche del campionamento: numerosità e attendibilità • La numerosità ottimale di un campione è quella che consente di ottenere gli obiettivi dell’indagine al minimo costo. • Sarà quindi individuata dal numero più piccolo in base al quale le stime raggiungono il livello di attendibilità atteso dal ricercatore. • Le regole per identificare gli insiemi di unità Con reintroduzione, senza reintroduzione, sistematica… da inserire nel campione • La probabilità di inclusione delle singole unità • La numerosità campionaria Costante ; Variabile • D’altra parte, è opportuno ricordare sempre che la scelta del livello di attendibilità è funzione degli scopi della ricerca, ed è quindi solo in parte competenza dello statistico. Caratteristiche del campionamento: precisione Caratteristiche del campionamento: errore campionario E’ legato al fatto che il campione estratto è uno dei possibili campioni di uguale numerosità estraibili casualmente dalla stessa popolazione. popolazione. Alla numerosità del campione è invece legata la precisione delle stime ottenute dal campione stesso. Stima dell’intervallo per il parametro incognito con un campione grande e σ noto: µ X m zα ⋅ 2 La stima ottenuta è, quindi, una delle tante possibili determinazioni di una variabile casuale, lo stimatore, caratterizzato da un proprio valore medio e una propria variabilità. variabilità. σ n θˆ Stimatore ; () E θˆ ; Valore atteso () ∑ θˆ c c () 2 − E θˆ × pc Varianza La Var θˆ è la varianza di campionamento delle stime o varianza di stima. stima. La sua radice quadrata è l’ l’errore errore campionario delle stime; stime; L’e L’e..c. diminuisce all’aumentare del campione e, nel caso di estrazione senza reintroduzione, è nullo per n=N. Se lo stimatore è distorto, la variabilità delle stime viene misurata con un altro indice, l’errore quadratico medio (Mse Mse)): Caratteristiche del campionamento: errore di rilevazione () () Mse θˆ = Var θˆ + ∆2 Caratteristiche del campionamento: DEFF (Design Effect) Tra i vari disegni di campionamento, il campionamento casuale semplice è quello che si accompagna alla teoria più elementare. elementare. Un errore di rilevazione si realizza quando il valore osservato su un’unità statistica differisce dal valore “vero” “vero”.. Tale errore è dunque indipendente dal campionamento, nel senso che si può manifestare sia nelle rilevazioni campionarie che in quelle esaustive esaustive.. Disegni di campionamento diversi da quello casuale semplice si dicono “complessi”. “complessi”. In un campione casuale complesso, l’errore di campionamento può essere espresso in una forma che evidenzi il guadagno o la perdita di precisione delle stime rispetto all’analoga stima ottenibile con un campione casuale semplice di uguale numerosità. numerosità. Nelle rilevazioni campionarie, le stime sono quindi affette sia da errori di campionamento che da errori di rilevazione rilevazione.. La varianza dello stimatore attorno al suo valore atteso è data dalla somma delle varianze varianze:: () ( ) ( ) Var θˆ = Var θˆs + Var θˆr Deff ( ) = Var (θˆ) Var θˆ′ Varianza dello stimatore coerente con un disegno di campionamento complesso. complesso. Varianza dello stimatore coerente con un disegno di campionamento semplice. semplice. Tecniche di selezione Selezione casuale con reintroduzione Il campione casuale semplice E’ lo schema di riferimento della teoria dell’inferenza statistica; La numerosità della popolazione è, di fatto, considerata infinita; Una unità può essere estratta più volte; La probabilità di estrazione rimane costante. Al campionamento casuale semplice si applicano stimatori con i quali si confrontano quelli propri di altri disegni di campionamento (per questo motivo detti complessi complessi)); Selezione casuale senza reintroduzione La probabilità di estrazione varia ad ogni passo dell’estrazione. In realtà, il campione casuale semplice è uno schema di campionamento raramente applicato perché perché:: Selezione casuale sistematica Si effettua mettendo in sequenza le unità e selezionandone una ogni k; Il salto tra due unità selezionate è il “passo di “campionamento”; k = N n a. Risulta “pesante” sia relativamente ai costi di rilevazione dei dati che all’organizzazione della rilevazione stessa; b. Non utilizza le informazioni a priori sulla popolazione o sulle caratteristiche distributive delle variabili. L’unità da cui partire è un numero scelto a caso tra 1 e k. Campionamento casuale semplice in R La numerosità ottimale: media campionaria X = ( ) E X = ( ) µ Var X = 1 n ∑ Xi n i =1 σ2 σ2 n Schema con reintroduzione n × N−n N −1 Schema senza reintroduzione La numerosità ottimale: media campionaria Intervallo della stima per la media: Xmax − Xmin 2 max(σ) Xmax − Xmin 3 La numerosità ottimale: media campionaria Intervallo della stima per la media: per distribuzioni unimodali Metodo empirico a. Con n grande σ x m zα ⋅ e schema di campionamento con reintroduzione: 2 ε n= n zα2 ⋅ σ 2 Si determina la numerosità n0 seguendo lo schema A; 2 ε n0 = zα2 ⋅ σ 2 2 2 ε2 Se il valore di n0 così calcolato risulta più piccolo del 5% di N, si utilizza il valore di n0; 2 b. Con n grande x m zα e schema di 2 campionamento senza reintroduzione: σ N−n ⋅ ⋅ N −1 n ε zα ⋅ σ 2 ε n= z α ⋅σ 1 1+ ⋅ 2 N ε La numerosità ottimale: proporzione campionaria Lo stimatore proporzione campionaria E (P ) = π ( ) Var X = π ⋅ (1 − π ) n ni n Schema con reintroduzione n π ⋅ (1 − π ) P = N−n × N −1 2 n= Se n0 risulta superiore al 5% di N, si introduce un fattore di correzione che calcola il valore corretto con la formula: n0 n 1+ 0 N La numerosità ottimale: proporzione campionaria Intervallo della stima per la proporzione: a. Con n grande π × (1 − π ) p m zα ⋅ e schema di 2 n campionamento con reintroduzione: zα2 × π (1 − π ) n= 2 ε ε2 Schema senza reintroduzione b. Con n grande e schema di campionamento senza reintroduzione: p m zα ⋅ 2 π × (1 − π ) n ε ⋅ N−n N −1 zα2 ⋅ π (1 − π ) 2 n= ε2 1 zα 2 × π (1 − π ) ⋅ ε2 N 2 1+ La numerosità ottimale: proporzione campionaria Intervallo della stima per la proporzione: Indagine sui clienti di un’azienda Metodo empirico Nel caso di massima variabilità (π=0,5), si può porre z=2. Si ha allora: n= zα2 × π (1 − π ) 2 ε 2 = 22 × ε 1 1 ⋅ 2 2 2 = 1 ε Il campionamento a stadi Campionamento su più stadi Come ci si può costruire la lista da cui selezionare il campione? Si considera cliente chi, in un giorno determinato, effettua un acquisto presso un punto vendita; I punti vendita fungono, quindi, da contenitori dei clienti che vi si trovano al momento della rilevazione; 2 Le popolazioni che si considerano sono, di fatto, due: i primi ad un livello gerarchicamente superiore ai secondi; Campionamento su più stadi A Campionamento su più stadi B C D Sono popolazioni gerarchiche quelle per le quali la popolazione finale di unità è contenuta in un insieme di unità di livello superiore; Per selezionare un campione è necessaria la lista delle unità; Il vantaggio del campionamento a più stadi è nel fatto che ad ogni stadio sono necessarie le sole liste delle sub-popolazioni contenute nelle unità selezionate a livello superiore; 1. Una selezione dei punti vendita; 2. L’estrazione di un campione da ciascuno dei punti vendita selezionati Il campionamento a più stadi è quindi tipico delle situazioni in cui le liste della popolazione da sottoporre a indagine non sono disponibili o sono costose da reperire; Vantaggi e svantaggi + I passi Flessibilità e adattabilità L’estrazione si può effettuare con criteri differenti a ogni stadio; • Accessibilità delle liste; • Costi; • Reperibilità delle informazioni. Riduzione dei costi La rilevazione dei dati è concentrata sui punti selezionati al primo stadio; L’organizzazione del lavoro (formazione delle liste, selezione del campione, reclutamento del personale, esecuzione della rilevazione, supervisione sul campo, …) risulta quindi facilitata; - • Dimensioni Complessità della metodologia di stima Rischio di stime inefficienti Le unità appartenenti ad un insieme coeso tendono ad assomigliarsi e quindi le risposte risultano penalizzate nella loro variabilità Campionamento su più stadi La selezione PPS (Probability Proportional to Size) • Si applica quando si conoscono le dimensioni delle unità di primo stadio; • Al primo stadio si attribuisce ad ogni unità una probabilità di selezione proporzionale alla dimensione della stessa; Esempio 1: la lotteria Supponiamo che siano stati venduti 100mila biglietti di una certa lotteria, e supponiamo che questi biglietti siano stati venduti in tre sole città, Milano, Napoli e Palermo secondo la seguente distribuzione: Città • Da ogni unità individuata al primo stadio si estrae con reimmissione un numero costante b di unità. La probabilità di inclusione così ottenuta è costante per ogni unità di secondo stadio; • Il campione di unità dello stadio finale, invece, essendo estratto da blocchi mediamente più grandi di quelli che si avrebbero con selezione casuale semplice delle unità di primo stadio, è più disperso e, quindi, generalmente più efficiente. Tra questi biglietti ne verranno estratti 100, che vinceranno un premio (uguale per tutti). Peso (Wi) Milano 50.000 0,5 Napoli 30.000 0,3 20.000 0,2 Palermo • Il campionamento PPS favorisce probabilisticamente l’entrata nel campione delle unità più grandi; Biglietti venduti Avendo io acquistato un unico biglietto, a Napoli, la mia probabilità di vincita, in caso di estrazione casuale semplice è 0,001. 100.000 Ora, supponiamo che l’Ente Lotterie di Stato decida che l’estrazione dei biglietti vincenti si fa in modo diverso, e cioè: Passo 1: Si estraggono due città, con schema di campionamento con reintroduzione. Ogni città ha una probabilità di estrazione pari al peso dei biglietti venduti, Wi; Passo 2: Da ognuna delle due città estratte si estraggono 50 biglietti. La selezione delle unità finali • La selezione delle unità finali è generalmente realizzata senza reinserimento; • Operativamente, uno dei criteri più utilizzati è il campionamento sistematico. Di questa novità, mi devo preoccupare, mi devo rallegrare o devo rimanere indifferente? Esempio 2 Campionamento su più stadi Devo selezionare un campione di 150 unità dalla popolazione residente nelle 10 province riportate in tabella: La stima Prov MI Pop • Gli stimatori associati a campioni selezionati su più stadi sono complessi; W 1.371.000 0,376 MN 52.900 0,015 MO 176.100 0,048 MS 65.300 0,018 MT 53.800 0,015 NA 1.054.600 0,290 NO 102.400 0,028 NU 37.500 0,010 OR 30.800 0,008 PA 697.200 0,191 3.641.600 1,000 Decido di fare un campionamento a due stadi. • Si fa quindi generalmente riferimento al campionamento a due soli stadi. Al primo stadio, la probabilità di inserire una provincia è data dal suo peso Wi. Al secondo stadio, la probabilità di estrarre un soggetto è la stessa per tutti. Le unità di primo stadio sono a=3. Le unità di secondo stadio sono b=50 da ogni unità di primo stadio (quindi, un campione complessivo di 150 unità). a. Qual è la probabilità che Milano venga estratta tra le 3 unità di primo stadio? b. Qual è la probabilità che un cittadino di Milano venga scelto nel campione finale? c. Un cittadino di Nuoro (NU) ha minori, uguali o maggiori probabilità di essere estratto di uno di Milano? Due popolazioni strutturate gerarchicamente I stadio II stadio • Dalle A unità del primo stadio si estrae un campione di numerosità a; • da ognuna delle a unità primarie estratte, si seleziona un campione di unità di secondo livello; Obiettivo: stimare un parametro relativo alle unità di secondo livello. Campionamento stratificato Il campionamento stratificato La stratificazione “Stratificare” una popolazione consiste nel suddividere la stessa in sottopopolazioni (strati) il più possibile omogenee rispetto alla variabile da studiare, utilizzando una variabile ad essa correlata. Quando si stratifica La stratificazione si usa quando si vuole… • Evidenziare insiemi di unità significative per la ricerca; • Separare sottopopolazioni con caratteristiche speciali; • Utilizzare informazioni note, mantenendo la casualità dell’estrazione; Es.: Stima del Reddito Variabile correlata: Professione 1. Si estrae un campione da ciascuno strato mediante un processo di campionamento casuale semplice; • • • • Operaio Impiegato Dirigente Libero prof. 2. Si calcolano le medie dei vari strati; 3. Si stima la media attraverso la media ponderata delle medie campionarie, con pesi dati dalle numerosità relative dei vari strati. • Individuare sottopopolazioni omogenee rispetto alla variabile in studio e ottenere stime più efficienti di quelle ottenibili con un campione casuale semplice. La stratificazione può essere “forzata” … • Quando le sottopopolazioni si trovano su liste distinte; Es.: Campione estratto dalle liste elettorali, con schedine di diverso colore tra maschi e femmine. I diversi tipi di stratificazione I diversi tipi di stratificazione • Il campione stratificato proporzionale • Il campione stratificato non proporzionale Riproduce la stessa composizione degli strati nella popolazione Es.: Popolazione occupati • • • • n=3000 La numerosità dei singoli strati si ottiene moltiplicando n per la frequenza relativa (il peso) del singolo strato: • • • • Operaio Impiegato Dirigente Libero prof. Operaio: Impiegato: Dirigente: Libero prof.: Tipicamente, gli strati sovrarappresentati sono quelli meno numerosi. 35% 45% 15% 5% 3000×0,35 3000×0,45 3000×0,15 3000×0,05 Es.: Popolazione occupati = 1050 = 1350 = 450 = 150 I diversi tipi di stratificazione • Il campione stratificato ottimale Operaio: Impiegato: Dirigente: Libero prof.: (variabile di stratif.: depositi) Depositi presso l’Istituto Sqm (Sh) Wh×Sh n×Wh×Sh nh 1. Fino a 500 € 36.140 0,4044 8,3 3,356 6.712 240 246 2. 501-2000 € 25.860 0,2894 9,6 2,778 5.556 199 203 3. 2001-5000 € 20.400 0,2283 10,1 2,306 4.612 165 168 4. 5001-25000 € 6.600 0,0738 218,0 16,088 32.176 1151 1152 5. 25000-100mila € 300 0,0034 703,2 2,390 4.780 170 6. Oltre 100mila € 60 0,0007 1506,9 1,055 2.110 75 89.360 1,0000 27,973 55.946 2000 Num. Str. h Peso Num. campione str. h nh = n=2000 “Peso” (Wh) Dim. (Nh) Strato Es.: Analisi della clientela di un Istituto di credito per il lancio di un nuovo prodotto finanziario. 1000 1200 500 300 1050 1350 450 150 Il campione, quindi, non riproduce la composizione della popolazione, e nelle analisi andrà dunque effettuata una operazione di riponderazione. (Allocazione ottima di Neyman-Tschuprow) La frazione di campionamento sarà dunque più elevata negli strati in cui la variabilità è maggiore. Dimensione del campione: • • • • Esempio L’ampiezza degli strati nel campione è proporzionale alla variabilità S nello strato della variabile oggetto di stima; Variabile di stratificazione: Si usa quando si decide di sovrarappresentare alcuni strati (e quindi di sottorappresentarne altri). ∑W h =1 h 171 60 Sqm str. h n ⋅ Wh ⋅ Sh H * ⋅ Sh Allocazione ottima di Neyman-Tschuprow (*) Se la numerosità campionaria di uno strato supera quella della popolazione, si includono tutte le unità dello strato e si assegnano le unità residue agli altri strati. La stima con il disegno generico La stima con il disegno proporzionale La media µ può essere stimata, qualunque disegno di stratificazione si adotti, come media ponderata delle medie stimate nei singoli strati. X = H ∑W h ⋅ Xh x = h (1) Var ( x ) = H ∑W 2 h ⋅ Var ( xh ) = h H ∑W 2 h h ⋅ s ⋅ (1 − fh ) nh H ∑ h La varianza di X può essere ottenuta come media ponderata delle varianze delle stime nei singoli strati. 2 h La media campionaria semplice coincide con la media ponderata dei vari strati. Si può, cioè, ignorare la stratificazione. Nh ⋅ Xh = N h ( ) ∑W var X = H 2 h ⋅ i i n sh2 n2 S 2 n2 S 2 n2 S 2 ⋅ (1 − fh ) = 12 ⋅ 1 (1 − f ) + 22 ⋅ 2 (1 − f ) + L + H2 ⋅ H (1 − f ) nh n n1 n n2 n nH [h = 1,..., H ] = n1 n 1 − f n2 1−f 1−f ⋅ S12 ⋅ + ⋅ S22 ⋅ + L + H ⋅ SH2 ⋅ n n n n n n = 1−f n ∑ WS h 2 h h Le variabili di stratificazione • Campione proporzionale vs. campione semplice Regola n° 1 1−f 2 ⋅ ∑ ( µh − µ ) n h Non esistono criteri assoluti o oggettivi per la scelta delle variabili di stratificazione ma solo indicazioni di massima. La varianza della media di un campione stratificato proporzionale è inferiore a quella di un campione casuale semplice. Il guadagno della stratificazione è proporzionale alla varianza delle medie di strato (ed è nullo quando tutte le medie sono uguali tra loro). • Stratificazione ottimale vs. stratificazione proporzionale Il guadagno che proporzionale della interne degli strati. popolazione; è nullo ∑x (campionamento senza reintroduzione) Effetti della stratificazione var ( xot ) = var ( x pr ) − = Nh ⋅ Xh N La varianza di X può essere ottenuta come media ponderata delle varianze delle stime nei singoli strati. Poiché è fh=f, si ha: N.B.- Se nello strato h il campione è stato estratto con reintroduzione, nella formula (1) non comparirà il fattore di correzione. var ( x pr ) = var ( xse ) − H ∑ h nh ⋅ Xh n n n1 x n2 n2 xi nH nH xi = 1 ⋅∑ i + ⋅∑ + L + ⋅∑ n i =1 n1 n i =1 n2 n i =1 nH h 2 1 nh sh2 = xhj − xh ) ( ∑ nh − 1 j H ∑ X = 1−f ⋅ ∑ Wh Sh − S n h ( ) 2 con : Suggerimenti Le variabili scelte per la stratificazione devono essere correlate con la variabile, o le variabili, osservate e tra loro indipendenti; Una buona variabile di stratificazione è, normalmente, la suddivisione territoriale; S = ∑W h ⋅ Sh Un’altra è la dimensione dell’unità. h la stratificazione ottimale introduce in più sulla ripartizione numerosità tra strati è funzione della varianza tra le variabilità Il guadagno è nullo se ogni strato ha la stessa variabilità della se negli strati sono diverse non solo le medie ma anche le varianze. Nelle indagini multiscopo, la scelta delle variabili di stratificazione non è più finalizzata alla massima efficienza ma ad una migliore suddivisione della popolazione sulla base delle conoscenze che si hanno sul fenomeno; Il numero di strati Regola n° 1 Non esistono criteri assoluti o oggettivi per la scelta del numero di strati ma solo indicazioni di massima. La determinazione della numerosità • Nel campione stratificato, la numerosità campionaria necessaria ad ottenere stime ugualmente efficienti a quelle che si ottengono con il campionamento casuale semplice è inferiore. n ∗ = n × Deff ( st ) Suggerimenti L’efficienza delle stime aumenta con il numero di strati; Tuttavia, in linea di tendenza, dopo un certo numero di suddivisioni della popolazione il beneficio in termini di efficienza è modesto; Inoltre, all’aumentare del numero di strati crescono i costi della stratificazione e della selezione del campione; Un numero elevato di strati è auspicabile quando il campionamento è su base territoriale, poiché si controlla la dispersione delle unità e si rende più agevole l’organizzazione e l’esecuzione del lavoro sul campo. • Va ricordato che la rilevazione di un’unica variabile raramente costituisce la regola. Molto più spesso le indagini sono “multiscopo”, ossia rivolte allo studio di una molteplicità di variabili. In questo caso occorre: a) Selezionare le variabili ritenute più importanti tra quelle da analizzare (o quelle per le quali si hanno maggiori informazioni); b) Calcolare l’allocazione ottima per ogni variabile scelta; c) Trovare, strato per strato, il compromesso più ragionevole tra le numerosità calcolate