Statistica per le ricerche di mercato A.A. 2014/15 05. Errore campionario e numerosità campionaria Gli schemi di campionamento condividono lo stesso principio di fondo: rappresentare il più fedelmente possibile, possibile seppur in scala ridotta, ridotta la popolazione di interesse. La rappresentatività è fondamentale per estendere le conclusioni delle analisi svolte sul campione all’intera popolazione. Ogni procedura inferenziale è caratterizzata da un certo livello di incertezza, per le seguenti ragioni: – da ogni popolazione sufficientemente grande è possibile estrarre un numero virtualmente infinito di campioni di una determinata ampiezza; – ognuno di questi campioni rappresenta la popolazione in modo probabilistico; – in ogni singolo studio viene analizzato solo uno dei possibili campioni di ampiezza prefissata. fi t Quindi anche la procedura di campionamento più perfetta ed accurata è soggetta ad errore: l’errore campionario. campionario L’errore campionario è l’errore che si commette quando si esamina una na parte della popola popolazione, ione il campione campione, an anzichè ichè la ssua a totalità totalità. 2 Si immagini di calcolare la media della caratteristica in esame su un numero molto lt elevato l t di campioni i i estratti t tti dalla d ll stessa t popolazione. Tali valori non saranno completamente diversi gli uni dagli altri ma tenderanno ad approssimare il valore vero incognito. ►ricordando le caratteristiche della distribuzione campionaria della media La media campionaria è uno stimatore corretto della media della popolazione. Nonostante la correttezza, la maggior parte, se non la totalità, delle medie campionarie differirà in più o in meno da quella della popolazione. In altre parole le medie campionarie avranno una variabilità più o meno elevata intorno al valore centrale rappresentato, come si è detto, dalla media della popolazione. popo a o e 3 E' intuitivo che se questa variabilità è elevata sarà elevata anche la probabilità che la media di un campione casuale risulti molto diversa da quella della popolazione. Al contrario,, se la variabilità è p piccola la distribuzione campionaria p è non solo centrata ma anche addensata sulla media della popolazione e, di conseguenza, è alta la probabilità di selezionare casualmente campioni con media prossima a quella della popolazione. popolazione La precisione dello stimatore è espressa dal grado di addensamento della distribuzione campionaria intorno alla propria media e si misura con un indice denominato ‘errore standard’. L'errore standard è la radice quadrata della varianza della distribuzione campionaria delle medie. Questa varianza non deve essere confusa con quella elementare (cioè degli elementi o unità) della popolazione, di cui è una funzione. 4 Errore standard È possibile stimare la variabilità della media campionaria attraverso il valore della deviazione standard della sua distribuzione denominato errore standard [ES] (in inglese distribuzione, standard error) che costituisce una misura della precisione della stessa media ed a ca campionaria: po a a ES = Var ( y ) Poiché si può dimostrare che la media campionaria (sotto alcune condizioni) segue una distribuzione Normale: ⎛ σ2 ⎞ Y ∼ N ⎜ μ; ⎟ n ⎠ ⎝ L’errore standard per la media campionaria (standard error of the mean), a seconda dello schema di campionamento seguito, si determina come: ES = σ n In genere il vero valore di σ è ignoto, pertanto può essere utilizzata la sua stima corretta. 5 Errore standard p per la media campionaria p -- CCS L’errore standard si ottiene dalla radice quadrata della varianza della media campionaria ES S ( yccs ) = Va Var ( yccs ) CCS ES ( yccs ) = σ2 N −n σ N −n ⋅ = ⋅ n N −1 n N −1 dove σ rappresenta la deviazione standard della caratteristica in esame nella popolazione, N è la dimensione della popolazione e n la dimensione campionaria. n Quando σ non è noto si stima utilizzando lo stimatore S = ∑( y − y ) i =1 i 2 ccs n −1 6 La stima dell’errore campionario s N −n ⋅ ES ( yccs ) = n N −1 1/2 s2 ES ( yccs ) = (1 − f ) n oppure La stima dell’errore campionario nel caso di dati provenienti da campionamento casuale semplice è pari a: Errore campionario p s N −n ⋅ e = tα ⋅ ES = tα ⋅ n N −1 2 2 dove tα/2 è il quantile della distribuzione t di Student legato al livello di fiducia della stima. Per n sufficientemente g grande ((n>100)) si p può ricorrere all’approssimazione pp normale (p (per esempio, p , nel caso di un livello di fiducia pari al 95% vale approssimativamente 1,96). Livello di fiducia 1-α 1α tα/2 Zα/2 0,90 1,6759 1,68 0,95 2,0086 1,96 0,99 2,6778 2,58 n=50 7 La stima dell’errore campionario 2/2 Sulla base della sua stima si deduce che l’errore l errore campionario è tanto più grande: grande ¾ quanto maggiore è il livello di fiducia che si ha nella stimaÎ i valori dei coefficienti t (z) crescono al crescere del livello di fiducia ¾ quanto più elevata è la variabilità della caratteristica studiata nella popolazione Î che si riflette nella variabilità della caratteristica osservata sul campione ¾ quanto minore è la dimensione del campione Î legata alla varianza campionaria secondo una proporzione inversa 8 Sulla base della stima dell’errore campionario è possibile costruire ll’intervallo intervallo di confidenza (IC) della media, per un livello di fiducia (1--α)%: (1 ycss ± e IC: s N −n ⋅ ycss ± [tα /2 ⋅ ES ( ycss )] = tα ⋅ n N −1 2 9 Stima dell’errore dell errore campionario e dell’intervallo dell intervallo di confidenza Esempio tratto dal libro di testo Al fine di stimare il fatturato relativo ad un certo anno solare, dalla popolazione di 10000 imprese a conduzione familiare di una certa regione, vengono estratte 500 unità mediante CCS. CCS La media campionaria è risultata pari a 495 migliaia di Euro, mentre la stima della deviazione standard (s) è pari a 10 mila Euro. Determinare: la frazione di campionamento; la stima dell’errore campionario in corrispondenza di un livello di fiducia del 95%; il corrispondente i d t iintervallo t ll di confidenza fid ((sempre per un lilivello ll di fid fiducia i d dell 95%) per la media; 10 Stima dell’errore campionario e dell’intervallo di confidenza L stima La ti d ll’ dell’errore campionario, i i in i corrispondenza i d di un livello li ll di fiducia fid i del 95% è pari a: e = 1,96 ⋅ 10 10000 − 500 11,96 96 ⋅10 19 19,66 ⋅ = ⋅ 0,95 = ⋅ 0,95 = 0,88 ⋅ 0,95 = 0,84 10000 1 22, 4 22, 4 − 500 Tale risultato equivale a dire che nella stima della media del fatturato delle aziende - per un livello di fiducia del 95%- si può commettere un errore parii a 0,84 0 84 migliaia i li i di Euro E - per difetto dif tt o per eccesso Equivalentemente nell nell’IC IC [495-0,84; [495 0 84; 495+0,84] 495+0 84] si trova il valore vero incognito per un livello di fiducia pari al 95%. 11 Determinazione della numerosità campionaria La frazione di campionamento svolge un ruolo trascurabile sulla precisione delle stime. stime Il ruolo p preponderante p è svolto dalla dimensione assoluta del campione n. Possiamo P i allora ll chiederci hi d i quale l di dimensione i d bb avere il debba campione affinché la precisione delle stime sia pari o non inferiore ad un prefissato valore. valore Aq questa domanda è p possibile rispondere p ma a condizione di disporre di informazioni non troppo vaghe sulla varianza elementare della popolazione relativamente al carattere o ai caratteri tt i di maggiore i i t interesse nell’indagine. ll’i d i 12 Determinazione della numerosità campionaria In generale la dimensione del campione dipende da 3 elementi fondamentali: 1. variabilità esistente nella popolazione: – – – 2. livello di precisione che si vuole raggiungere: – – – 3. popolazione con alta variabilità Î campione più grande popolazione con minore variabilità Î campione più piccolo Es. estremo: popolazione con individui aventi le medesime caratteristiche Æ BASTA una sola persona per rappresentarli. alta precisione richiesta Î campione più grande b bassa precisione i i Î campione i più iù piccolo i l NB: raggiunta un certa dimensione del campione, la precisione aumenta in modo quasi impercettibile costo del campione Il campione non deve essere necessariamente proporzionale alla dimensione della popolazione: Non necessariamente se raddoppia la popolazione deve raddoppiare anche il campione Î oltre un certo limite, aggiungere altre unità non apporta miglioramenti apprezzabili In 1. e 2. si fa riferimento alla precisione degli stimatori che è funzione inversa della varianza e, ovviamente, dell’ampiezza degli intervalli di confidenza 13 Determinazione della numerosità campionaria In particolare, si possono seguire due strade: a) si può fissare a priori un valore per la varianza dello stimatore di interesse e, quindi, ricercare la numerosità n che consente di raggiungere tale precisione. b) Prefissato un certo piano di campionamento, si ricerca n in modo tale cche e s sia a supe superiore o e ad 1-α α la a p probabilità obab tà c che e il pa parametro a et o θ s sia a incluso c uso entro un intervallo ±δ attorno alla stima. In quest’ultimo caso, si ritorna alla teoria degli intervalli di confidenza per un parametro θ 14 Determinazione della numerosità campionaria-B Nella progettazione di un’indagine la numerosità campionaria è in genere stabilita in base all all’errore errore campionario massimo che si è disposti a commettere. Dalla formula base per la stima dell’errore campionario (vista per il CCS) si ricava: σ 2 ⋅ z α2 n = 2 N −1 e + N σ 2 ⋅ z α2 2 2 N σ, in genere incognita, incognita può essere approssimata: ¾con una misura della variabilità della caratteristica in esame derivante da eventuali indagini g p pregresse; g ; ¾con una stima proveniente da un’indagine pilota 15 Determinazione della numerosità campionaria Nell’ambito della stima di una proporzione la stima della varianza della caratteristica in esame può essere effettuata a prescindere i d d conoscenze pregresse del da d l fenomeno, f utilizzando piuttosto il valore massimo della varianza, ossia 0 25 (derivante da una ipotetica stima della proporzione pari 0,25 a p = 0,5 ) . Tale stima per eccesso è anche denominata stima p prudenziale. 2 ⎛ zα 2 ⎞ n=⎜ ⎟ ⋅ 0,, 25 ⎝ e ⎠ 2 In generale si ha: 2 ⎛ zα 2 ⎞ l l n=⎜ ⎟ ⋅ p 1− p ⎝ e ⎠ 2 ( ) 16 Determinazione della numerosità campionaria- Esempi Si supponga di riprendere i d l’ l’esempio i sulla ll stima ti d l fatturato del f tt t medio. Ipotizzare di voler limitare l’errore relativo alla media del fatturato ad un massimo di 500 Euro ((0,5 , mila Euro). ) Si supponga inoltre che da una indagine pregressa la stima della deviazione standard del fatturato nella popolazione sia risultata pari a 8000 Euro. Euro La numerosità campionaria, a parità delle altre condizioni, ecessa a a veder ede verificate e ca e le e ipotesi po es e effettuate e ua e è la a necessaria seguente: σ 2 ⋅ zα2 n= 2 e2 N −1 + N σ 2 ⋅ zα2 2 N 82 ⋅ 1,96 1 962 64 ⋅ 3,84 3 84 245 245,88 n= = = ≅ 895 10000 − 1 82 ⋅ 1,962 0, 25 ⋅ 0,9999 + 64 ⋅ 3,84 0, 25 + 0,025 0,5 + 10000 10000 10000 17 Determinazione della numerosità campionaria Riepilogando, per il calcolo della numerosità campionaria si devono Riepilogando conoscere: il livello di significatività che vogliamo per le nostre stime (α), per le nostre stime ((±e )), il valore della varianza l’intervallo che accettiamo p della popolazione (Var) e la numerosità della popolazione (N). • Esempio Determinare la numerosità del campione casuale che deve essere assunta per stimare l’età media degli studenti alla laurea specialistica, sapendo che la varianza è pari a 45, affinché l’errore di campionamento massimo ammesso ((e)) sia p pari a ±0.7, assumendo un intervallo al 95%. Per semplicità p adottiamo la formula in cui il fattore di correzione è omesso e ricaviamo n: n= σ 2 ⋅ zα2 e 2 2 n≅ σ 2 ⋅ z 2α e2 2 45 ⋅1,962 = = 352,8 ≅ 353 2 (0 7) (0,7) 18