Statistica per le ricerche di mercato A.A. 2011/12 Prof.ssa Tiziana Laureti Dott. Luca Secondi 08. Errore campionario e numerosità campionaria 1 Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile, seppur in scala ridotta, la popolazione di interesse. La rappresentatività è fondamentale per estendere le conclusioni delle analisi svolte sul campione all’intera popolazione. Ogni procedura inferenziale è caratterizzata da un certo livello di incertezza, per le seguenti ragioni: – da ogni popolazione sufficientemente grande è possibile estrarre un numero virtualmente infinito di campioni di una determinata ampiezza; – ognuno di questi campioni rappresenta la popolazione in modo probabilistico; – in ogni singolo studio viene analizzato solo uno dei possibili campioni di ampiezza prefissata. Quindi anche la procedura di campionamento più perfetta ed accurata è soggetta ad errore: l’errore campionario. L’errore campionario è l’errore che si commette quando si esamina una parte della popolazione, popolazione, il campione, campione, anzichè anzichè la sua totalità totalità. 2 2 Si immagini di calcolare la media della caratteristica in esame su un numero molto elevato di campioni estratti dalla stessa popolazione. Tali valori non saranno completamente diversi gli uni dagli altri ma tenderanno ad approssimare il valore vero incognito. ►ricordando le caratteristiche della distribuzione campionaria della media La media campionaria è uno stimatore corretto della media della popolazione. Nonostante la correttezza, la maggior parte, se non la totalità, delle medie campionarie differirà in più o in meno da quella della popolazione. In altre parole le medie campionarie avranno una variabilità più o meno elevata intorno al valore centrale rappresentato, come si è detto, dalla media della popolazione. 3 3 E' intuitivo che se questa variabilità è elevata sarà elevata anche la probabilità che la media di un campione casuale risulti molto diversa da quella della popolazione. Al contrario, se la variabilità è piccola la distribuzione campionaria è non solo centrata ma anche addensata sulla media della popolazione e, di conseguenza, è alta la probabilità di selezionare casualmente campioni con media prossima a quella della popolazione. La precisione dello stimatore è espressa dal grado di addensamento della distribuzione campionaria intorno alla propria media e si misura con un indice denominato ‘errore standard’. L'errore standard è la radice quadrata della varianza della distribuzione campionaria delle medie. Questa varianza non deve essere confusa con quella elementare (cioè degli elementi o unità) della popolazione, di cui è una funzione. 4 4 Errore standard È possibile stimare la variabilità della media campionaria attraverso il valore della deviazione standard della sua distribuzione, denominato errore standard [ES] (in inglese standard error) che costituisce una misura della precisione della stessa media campionaria: ES = Var ( y ) Poiché si può dimostrare che la media campionaria (sotto alcune condizioni) segue una distribuzione Normale: ⎛ σ2 ⎞ Y ∼ N ⎜ µ; ⎟ n ⎠ ⎝ L’errore standard per la media campionaria (standard error of the mean), a seconda dello schema di campionamento seguito, si determina come: ES = σ n In genere il vero valore di σ è ignoto, pertanto può essere utilizzata la sua stima corretta. 5 5 Errore standard per la media campionaria -- CCS L’errore standard si ottiene dalla radice quadrata della varianza della media campionaria ES ( yccs ) = Var ( yccs ) CCS ES ( yccs ) = σ2 N −n n ⋅ N −1 σ = n N −n N −1 ⋅ dove σ rappresenta la deviazione standard della caratteristica in esame nella popolazione, N è la dimensione della popolazione e n la dimensione campionaria. n Quando σ non è noto si stima utilizzando lo stimatore S = ∑( y − y ) i =1 i 2 ccs n −1 6 6 La stima dell’errore campionario s N −n ES ( yccs ) = ⋅ n N −1 1/2 s2 ES ( yccs ) = (1 − f ) n oppure La stima dell’errore campionario nel caso di dati provenienti da campionamento casuale semplice è pari a: Errore campionario s N −n ⋅ e = tα ⋅ ES = tα ⋅ n N −1 2 2 dove tα/2 è il quantile della distribuzione t di Student legato al livello di fiducia della stima. Per n sufficientemente grande (n>100) si può ricorrere all’approssimazione normale (per esempio, nel caso di un livello di fiducia pari al 95% vale approssimativamente 1,96). Livello di fiducia 1-α tα/2 Zα/2 n=50 0,90 1,6759 1,68 0,95 2,0086 1,96 0,99 2,6778 2,58 7 7 La stima dell’errore campionario 2/2 Sulla base della sua stima si deduce che l’errore campionario è tanto più grande: grande ¾ quanto maggiore è il livello di fiducia che si ha nella stimaÎ i valori dei coefficienti t (z) crescono al crescere del livello di fiducia ¾ quanto più elevata è la variabilità della caratteristica studiata nella popolazione Î che si riflette nella variabilità della caratteristica osservata sul campione ¾ quanto minore è la dimensione del campione Î legata alla varianza campionaria secondo una proporzione inversa 8 8 Sulla base della stima dell’errore campionario è possibile costruire l’intervallo di confidenza (IC) della media, per un livello di fiducia (1-α)%: ycss ± e IC: s N −n ycss ± [tα /2 ⋅ ES ( ycss )] = tα ⋅ ⋅ n N −1 2 9 9 Stima dell’errore campionario e dell’intervallo di confidenza Esempio tratto dal libro di testo Al fine di stimare il fatturato relativo ad un certo anno solare, dalla popolazione di 10000 imprese a conduzione familiare di una certa regione, vengono estratte 500 unità mediante CCS. La media campionaria è risultata pari a 495 migliaia di Euro, mentre la stima della deviazione standard (s) è pari a 10 mila Euro. Determinare: la frazione di campionamento; la stima dell’errore campionario in corrispondenza di un livello di fiducia del 95%; il corrispondente intervallo di confidenza (sempre per un livello di fiducia del 95%) per la media; 10 10 Stima dell’errore campionario e dell’intervallo di confidenza La stima dell’errore campionario, in corrispondenza di un livello di fiducia del 95% è pari a: e = 1,96 ⋅ 10 10000 − 500 1,96 ⋅10 19,6 ⋅ = ⋅ 0,95 = ⋅ 0,95 = 0,88 ⋅ 0,95 = 0,84 22, 4 22, 4 500 10000 − 1 Tale risultato equivale a dire che nella stima della media del fatturato delle aziende - per un livello di fiducia del 95%- si può commettere un errore pari a 0,84 migliaia di Euro - per difetto o per eccesso Equivalentemente nell’IC [495-0,84; 495+0,84] si trova il valore vero incognito per un livello di fiducia pari al 95%. 11 11 Determinazione della numerosità campionaria La frazione di campionamento svolge un ruolo trascurabile sulla precisione delle stime. Il ruolo preponderante è svolto dalla dimensione assoluta del campione n. Possiamo allora chiederci quale dimensione debba avere il campione affinché la precisione delle stime sia pari o non inferiore ad un prefissato valore. A questa domanda è possibile rispondere ma a condizione di disporre di informazioni non troppo vaghe sulla varianza elementare della popolazione relativamente al carattere o ai caratteri di maggiore interesse nell’indagine. 12 12 Determinazione della numerosità campionaria In generale la dimensione del campione dipende da 3 elementi fondamentali: 1. variabilità esistente nella popolazione: – – – 2. livello di precisione che si vuole raggiungere: – – – 3. popolazione con alta variabilità Î campione più grande popolazione con minore variabilità Î campione più piccolo Es. estremo: popolazione con individui aventi le medesime caratteristiche Æ BASTA una sola persona per rappresentarli. alta precisione richiesta Î campione più grande bassa precisione Î campione più piccolo NB: raggiunta un certa dimensione del campione, la precisione aumenta in modo quasi impercettibile costo del campione Il campione non deve essere necessariamente proporzionale alla dimensione della popolazione: Non necessariamente se raddoppia la popolazione deve raddoppiare anche il campione Î oltre un certo limite, aggiungere altre unità non apporta miglioramenti apprezzabili In 1. e 2. si fa riferimento alla precisione degli stimatori che è funzione inversa della varianza e, ovviamente, dell’ampiezza degli intervalli di confidenza 13 13 Determinazione della numerosità campionaria In particolare, si possono seguire due strade: a) si può fissare a priori un valore per la varianza dello stimatore di interesse e, quindi, ricercare la numerosità n che consente di raggiungere tale precisione. b) Prefissato un certo piano di campionamento, si ricerca n in modo tale che sia superiore ad 1-α la probabilità che il parametro θ sia incluso entro un intervallo ±δ attorno alla stima. In quest’ultimo caso, si ritorna alla teoria degli intervalli di confidenza per un parametro θ 14 14 Determinazione della numerosità campionaria-B Nella progettazione di un’indagine la numerosità campionaria è in genere stabilita in base all’errore campionario massimo che si è disposti a commettere. Dalla formula base per la stima dell’errore campionario (vista per il CCS) si ricava: σ 2 ⋅ z α2 n = 2 e2 N −1 + N σ 2 ⋅ z α2 2 N σ, in genere incognita, incognita può essere approssimata: ¾con una misura della variabilità della caratteristica in esame derivante da eventuali indagini pregresse; ¾con una stima proveniente da un’indagine pilota 15 15 Determinazione della numerosità campionaria Nell’ambito della stima di una proporzione la stima della varianza della caratteristica in esame può essere effettuata a prescindere da conoscenze pregresse del fenomeno, utilizzando piuttosto il valore massimo della varianza, ossia 0,25 (derivante da una ipotetica stima della proporzione pari p = 0,5 ) . Tale stima per eccesso è anche denominata a prudenziale. 2 ⎛z ⎞ n = ⎜ α 2 ⎟ ⋅ 0, 25 ⎝ e ⎠ 2 In generale si ha: 2 ⎛ zα2 2 ⎞ l l n=⎜ ⎟ ⋅ p 1− p ⎝ e ⎠ ( ) 16 16 Determinazione della numerosità campionaria- Esempi Si supponga di riprendere l’esempio sulla stima del fatturato medio. Ipotizzare di voler limitare l’errore relativo alla media del fatturato ad un massimo di 500 Euro (0,5 mila Euro). Si supponga inoltre che da una indagine pregressa la stima della deviazione standard del fatturato nella popolazione sia risultata pari a 8000 Euro. La numerosità campionaria, a parità delle altre condizioni, necessaria a veder verificate le ipotesi effettuate è la seguente: σ 2 ⋅ zα2 n= 2 e2 N −1 + N σ 2 ⋅ zα2 2 N 82 ⋅ 1,962 64 ⋅ 3,84 245,8 n= = = ≅ 895 2 2 64 ⋅ 3,84 0, 25 + 0,025 10000 − 1 8 ⋅1,96 0, 25 ⋅ 0,9999 + + 0,5 10000 10000 10000 17 17 Determinazione della numerosità campionaria Riepilogando, Riepilogando per il calcolo della numerosità campionaria si devono conoscere: il livello di significatività che vogliamo per le nostre stime (α), l’intervallo che accettiamo per le nostre stime (±e ), il valore della varianza della popolazione (Var) e la numerosità della popolazione (N). • Esempio Determinare la numerosità del campione casuale che deve essere assunta per stimare l’età media degli studenti alla laurea specialistica, sapendo che la varianza è pari a 45, affinché l’errore di campionamento massimo ammesso (e) sia pari a ±0.7, assumendo un intervallo al 95%. Per semplicità adottiamo la formula in cui il fattore di correzione è omesso e ricaviamo n: n= σ 2 ⋅ zα2 e 2 2 n≅ σ 2 ⋅ z 2α e 2 2 45 ⋅1,962 = = 352,8 ≅ 353 2 (0,7) 18 18