Laboratorio di Didattica di elaborazione dati – 5 STIMA PUNTUALE DEI PARAMETRI [Adattato dal libro “Excel per la statistica” di Enzo Belluco] Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione. Il problema della stima puntuale consiste nella migliore valutazione di θ ottenibile sulla base delle osservazioni campionarie, sintetizzate da un'opportuna statistica. Tale statistica viene generalmente chiamata stimatore del parametro θ. Il problema della stima puntuale di una media consiste nel valutare da un campione il valore μ della popolazione. Risulta ragionevole, quanto ovvio, stimare μ mediante il valore medio del campione: n x x=∑ i . i =1 n A questo valore si associa lo scarto quadratico medio delle medie dei campioni, detto errore medio di campionamento (errore standard della media), che è dato da: SE = . n Per calcolare lo scarto quadratico medio da associare al valore medio x per valutare la dispersione delle medie campionarie da μ, bisogna concoscere la varianza della popolazione 2 , poiché non è nota in quanto si ha a disposizione solo un campione di n elementi, si deve utilizzare una stima (varianza campionaria coretta) data da: n s =∑ 2 c i=1 xi −x n−1 2 . Sostituendo nella formula dell'errore standard il valore della varianza campionaria corretta al posto di 2 , si ottiene: sc SE x = . n−1 Per rendere minore l'errore medio di campionamento e avere quindi una stima più precisa, occorre aumentare il numero di elementi del campione (n); poiché sc è inversamente proporzionale alla n , per dimezzare l'errore standard occorre quadruplicare la dimensione del campione. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 1. Un campione casuale di lampadine, estratto da una produzione di 2000 lampadine e sottoposto ad una prova di durata, ha presentato una durata media di 800 ore. Da esperienze precedenti si sa che lo scarto quadratico medio della durata delle lampadine prodotte è di 120 ore. Si vuole stimare l'errore medio di campionamento nei casi in cui: a) il campione sia di 10 lampadine; b) il campione sia di 100 lampadine. c) il campione sia di 1000 lampadine. Io ho ottenuto a) 37.95; b) 12.00; c) 3.79. 2. Per un lancio del dado ci sono 6 risultati che possiamo ottenere. Calcola la media μ e la deviazione standard σ (vedi 4A, es. 1) della popolazione. Poi genera un matrice 10x10 che contiene risultati di 100 lanci di un dado. Questo è un campione dell'ampiezza 100. Calcola il suo valore medio ( x ), il quale è un stimatore della media vera μ. Nella colonna seguente calcola l'errore standard della media SE (è possibile, perché la deviazione standard di un singolo lancio del dado la conosciamo). Nella colonna seguente calcola la stima dell'errore standard SE x , usando la deviazione standard campionaria coretta (la calcola usando DEV.ST() con il nostro campione). Nella colonna seguente calcola l'errore reale (vero), cioè il valore assoluto della differenza tra il valore medio del campione ( x ) e la media vera (μ, per un singolo lancio del dado). Premendo F9 puoi vedere come cambiano i respettivi valori quando cambiano i campioni. Verifica se la stima dell'errore standard aprossima bene il errore standard vero. Nota che è possibile avere un errore reale superiore all'errore standard. 3. Ripete l'ultimo esercizio usando una matrice 100x100 (10000 valori). Nota come decresce l'errore standard. Nota come la stima dell'errore standard si prossima all'errore standard. Nota che è possibile avere un errore reale superiore all'errore standard tuttavia. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic STIMA INTERVALLARE DEI PARAMETRI INTERVALLI DI CONFIDENZA I metodi di stima puntuale forniscono, per i parametri stimati, un unico valore e non offrono alcuna informazione sulla precisione di tale valore. Per questo motivo sovente si preferisce utilizzare stime intervallari che forniscono un intervallo di possibili valori. Il metodo delle stime intervallari, dovuto a Neyman, permette di determinare, sulla base delle osservazioni campionarie, un intervallo detto intervallo di confidenza, entro il quale si trova, con una prefissata probabilità detta livello di confidenza (1-α), il vero ed ignoto parametro θ (ad esempio la media) da stimare. Scelto lo stimatore (T), poiché si conosce la sua distribuzione di probabilità, è possibile determinare due valori, detti valori critici, t c, e t c, , , tali che: P( t c, ≤ T ≤ t c, , ) = 1– α. Poiché T è funzione solamente di θ, si può risolvere la disuguaglianza in funzione di θ ottenendo: P( , ≤ T ≤ , , ) = 1– α, dove , e , , sono i limiti dell'intervallo di confidenza, α è detto livello di significatività e rappresenta la probabilità che il parametro θ non sia compreso nell'intervallo ( , , , , ), ovvero la probabilità di compiere un errore affermando che il valore del parametro θ è compreso nell'intervallo ( , , , , ). Intervallo di confidenza per la media, quando il carattere della popolazione è normalmente distribuito e la varianza è nota Sia x1, x2, ..., xn un campione casuale estratto da una popolazione normalmente distribuita con media μ e varianza 2 ; la statistica media campionaria X ha distribuzione di probabilità normale con x− . Pasiamo a una nuova variabile Z = , ne sappiamo che n /n segue una distribuzione normale standarizzata N(0,1). Fissato il valore α, è possibile determinare due valori -zc e zc, detti valori critici, tali che media μ e la deviazione standard P(-zc ≤ Z ≤ zc)=1–α. Tornando alla variabile originale, si ottiene P(-zc ≤ Z = x− ≤ zc)=1–α /n e dopo P( x− z c ≤ μ ≤ x z c )=1–α n n Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic la quale esprime che l'intervallo di confidenza x± z c , con probabilità 1–α potrà comprendere il n vero ed ignoto valore medio della popolazione μ. Questo significa che, si estraggono ad esempio 100 campioni dalla stessa popolazione, si hanno circa (1–α)×100 casi in cui la media della popolazione è compresa nell'intervallo x± z c n e α×100 casi in cui è esclusa. Nota bene: parliamo sempre della media. Questo non significa che (1–α)% di elementi di un campione sono compresi in qualsiasi intervallo! 4. Sono state pesate 10 pastiglie di un farmaco ed è stato ottenuto un peso medio di x =3.7 gr; da misure precedenti si sa che la distribuzione dei pesi delle pastiglie risulta normale con deviazione standard =0.3 grammi. Determina l'intervallo fiduciario ad un livello del 95% per il peso medio di tutte le pastiglie prodotte. Si deve determinare: P( x− z c ≤ μ ≤ x z c )=0.95. n n Pertanto α=0.05. Passiamo alla distribuzione normale standardizzata N(0,1) (e la variabile Z) Prima dobbiamo determinare il valore di zc che corrisponde alla probabilità di 0.95: A=0.95 -zc zc ? Se sarebbe esistita una funzione inversa di ERF() (detta FUNZ.ERRORE() in Italiano) avremmo potuto usarla, ma, purtroppo, non esiste (in Excel). Per fortuna c'è una funzione simile, INV.NORM.ST() che restituisce l'inversa della distribuzione normale standard cumulativa, cioè prende una probabilità (indichata qua con l'area verde) e restituisce il valore di zc. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic zc Trova da solo la relazione tra l'area rossa e l'area verde e poi, usando la funzione INV.NORM.ST(), trova il valore di zc che corrisponde alla probabilità “rossa” di 0.95. (dovresti ottenere un valore di zc = 1.96). Avendo il valore di zc è facile trovare l'intervallo. Io ho ottenuto 3.514 – 3.886. Questo significa che il peso medio di tutte le pastiglie è compreso nell'intervallo 3.514 – 3.886 con probabilità del 95%. Ricorda bene, questo non significa che 95% delle pastiglie (né di una campione né della popolazione) hanno un peso compreso in questo intervallo. 5. Lo stesso possiamo calcolare automaticamente, senza trovare zc, usando la funzione CONFIDENZA(), che prende tre argomenti: il primo è il valore di α, il secondo corrisponde a , il terzo è il valore di n. L'intervallo della media è ( x – CONFIDENZA(α, ,n), x + CONFIDENZA(α, ,n)). Cerca di usarlo nel nostro caso, verifica se il risultati sono d'accordo. 6. Come varia l'intervallo fiduciario nell'esempio precedente se si utilizza un livello di confidenza del 99%? Calcolalo prima in modo manuale e poi usando la funzione CONFIDENZA(). Io ho ottenuto (3.456 – 3.944). 7. Se vogliamo dire, con un livello di confidenza del 99%, che il peso medio di tutte le pastiglie sia compreso nell'intervallo 3.6 – 3.8, qual è l'ampiezza del campione il quale dobbiamo estrarre? =3.6, x z c =3.8 e devi trovare n. Avendo calcolato n, verifica la n n risposta calcolando l'intervallo fiduciario. Io ho ottenuto n=60. Ora sai che x− z c 8. Alcuni sponsor di show televisivi desiderano conoscere la quantità di tempo che i ragazzi dedicano alla televisione, perché il tipo e il numero di programmi e messaggi publicitari dipende significativamente da questa informazione. È stata svolta un'indagine per calcolare il numero medio di ore settimanali che i ragazzi del nord America dedicano alla televisione. Dai dati precedenti era emerso che la deviazione standard della popolazione era 8 ore. Nel campione corrente di 100 ragazzi, la media campionaria è 27.5 ore. Calcola (usando CONFIDENZA() o in modo manuale, come vuoi) l'intervallo fiduciario del numero medio di ore i ragazzi del nord America impiegano a guardare la televisione, con un livello di significatività del 5%. Io ho ottenuto (25.932 – 29.068). Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic 9. Se il sponsor vuole sapere, con una confidenza di 99%, che il numero medio di ore i ragazzi impiegano a guardare la tv sia compreso nell'intervallo 27 – 28, qual è l'ampiezza del campione il quale deve estrarre? Io ho ottenuto circa 1700. Laboratorio di Didattica di elaborazione dati 2008-2009, Jacek Dziedzic