Esercizio 5 (04.03.2009, circa 2.5 ore, lo finiamo domani)

annuncio pubblicitario
Laboratorio di Didattica di elaborazione dati – 5
STIMA PUNTUALE DEI PARAMETRI
[Adattato dal libro “Excel per la statistica” di Enzo Belluco]
Sia θ un parametro incognito della distribuzione di un carattere in una determinata popolazione.
Il problema della stima puntuale consiste nella migliore valutazione di θ ottenibile sulla base delle
osservazioni campionarie, sintetizzate da un'opportuna statistica. Tale statistica viene generalmente
chiamata stimatore del parametro θ.
Il problema della stima puntuale di una media consiste nel valutare da un campione il valore μ
della popolazione. Risulta ragionevole, quanto ovvio, stimare μ mediante il valore medio del
campione:
n
x
x=∑ i .
i =1 n
A questo valore si associa lo scarto quadratico medio delle medie dei campioni, detto errore medio
di campionamento (errore standard della media), che è dato da:
SE =

.
n
Per calcolare lo scarto quadratico medio da associare al valore medio x per valutare la
dispersione delle medie campionarie da μ, bisogna concoscere la varianza della popolazione  2 ,
poiché non è nota in quanto si ha a disposizione solo un campione di n elementi, si deve utilizzare
una stima (varianza campionaria coretta) data da:
n
s =∑
2
c
i=1
 xi −x 
n−1
2
.
Sostituendo nella formula dell'errore standard il valore della varianza campionaria corretta al
posto di  2 , si ottiene:
sc
SE x =
.
 n−1
Per rendere minore l'errore medio di campionamento e avere quindi una stima più precisa, occorre
aumentare il numero di elementi del campione (n); poiché sc è inversamente proporzionale alla  n ,
per dimezzare l'errore standard occorre quadruplicare la dimensione del campione.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
1. Un campione casuale di lampadine, estratto da una produzione di 2000 lampadine e
sottoposto ad una prova di durata, ha presentato una durata media di 800 ore. Da esperienze
precedenti si sa che lo scarto quadratico medio della durata delle lampadine prodotte è di 120
ore. Si vuole stimare l'errore medio di campionamento nei casi in cui:
a) il campione sia di 10 lampadine;
b) il campione sia di 100 lampadine.
c) il campione sia di 1000 lampadine.
Io ho ottenuto a) 37.95; b) 12.00; c) 3.79.
2. Per un lancio del dado ci sono 6 risultati che possiamo ottenere. Calcola la media μ e la
deviazione standard σ (vedi 4A, es. 1) della popolazione. Poi genera un matrice 10x10 che
contiene risultati di 100 lanci di un dado. Questo è un campione dell'ampiezza 100. Calcola il
suo valore medio ( x ), il quale è un stimatore della media vera μ. Nella colonna seguente
calcola l'errore standard della media SE  (è possibile, perché la deviazione standard di un
singolo lancio del dado la conosciamo). Nella colonna seguente calcola la stima dell'errore
standard SE x , usando la deviazione standard campionaria coretta (la calcola usando
DEV.ST() con il nostro campione). Nella colonna seguente calcola l'errore reale (vero), cioè il
valore assoluto della differenza tra il valore medio del campione ( x ) e la media vera (μ, per
un singolo lancio del dado). Premendo F9 puoi vedere come cambiano i respettivi valori
quando cambiano i campioni. Verifica se la stima dell'errore standard aprossima bene il
errore standard vero. Nota che è possibile avere un errore reale superiore all'errore standard.
3. Ripete l'ultimo esercizio usando una matrice 100x100 (10000 valori). Nota come decresce
l'errore standard. Nota come la stima dell'errore standard si prossima all'errore standard. Nota
che è possibile avere un errore reale superiore all'errore standard tuttavia.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
STIMA INTERVALLARE DEI PARAMETRI
INTERVALLI DI CONFIDENZA
I metodi di stima puntuale forniscono, per i parametri stimati, un unico valore e non offrono alcuna
informazione sulla precisione di tale valore. Per questo motivo sovente si preferisce utilizzare stime
intervallari che forniscono un intervallo di possibili valori.
Il metodo delle stime intervallari, dovuto a Neyman, permette di determinare, sulla base delle
osservazioni campionarie, un intervallo detto intervallo di confidenza, entro il quale si trova, con
una prefissata probabilità detta livello di confidenza (1-α), il vero ed ignoto parametro θ (ad
esempio la media) da stimare.
Scelto lo stimatore (T), poiché si conosce la sua distribuzione di probabilità, è possibile determinare
due valori, detti valori critici, t c, e t c, , , tali che:
P( t c, ≤ T ≤ t c, , ) = 1– α.
Poiché T è funzione solamente di θ, si può risolvere la disuguaglianza in funzione di θ ottenendo:
P(  , ≤ T ≤  , , ) = 1– α,
dove  , e  , , sono i limiti dell'intervallo di confidenza, α è detto livello di significatività e
rappresenta la probabilità che il parametro θ non sia compreso nell'intervallo (  , ,  , , ), ovvero la
probabilità di compiere un errore affermando che il valore del parametro θ è compreso
nell'intervallo (  , ,  , , ).
Intervallo di confidenza per la media,
quando il carattere della popolazione è normalmente distribuito e la varianza è nota
Sia x1, x2, ..., xn un campione casuale estratto da una popolazione normalmente distribuita con media
μ e varianza  2 ; la statistica media campionaria X ha distribuzione di probabilità normale con

x−
. Pasiamo a una nuova variabile Z =
, ne sappiamo che
n
 /n
segue una distribuzione normale standarizzata N(0,1). Fissato il valore α, è possibile determinare
due valori -zc e zc, detti valori critici, tali che
media μ e la deviazione standard
P(-zc ≤ Z ≤ zc)=1–α.
Tornando alla variabile originale, si ottiene
P(-zc ≤ Z =
x−
≤ zc)=1–α
 /n
e dopo
P( x− z c


≤ μ ≤ x z c
)=1–α
n
n
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
la quale esprime che l'intervallo di confidenza x± z c

, con probabilità 1–α potrà comprendere il
n
vero ed ignoto valore medio della popolazione μ.
Questo significa che, si estraggono ad esempio 100 campioni dalla stessa popolazione, si hanno

circa (1–α)×100 casi in cui la media della popolazione è compresa nell'intervallo x± z c
n
e α×100 casi in cui è esclusa.
Nota bene: parliamo sempre della media. Questo non significa che (1–α)% di elementi di un
campione sono compresi in qualsiasi intervallo!
4. Sono state pesate 10 pastiglie di un farmaco ed è stato ottenuto un peso medio di x =3.7 gr;
da misure precedenti si sa che la distribuzione dei pesi delle pastiglie risulta normale con
deviazione standard  =0.3 grammi. Determina l'intervallo fiduciario ad un livello del 95%
per il peso medio di tutte le pastiglie prodotte.
Si deve determinare:
P( x− z c


≤ μ ≤ x z c
)=0.95.
n
n
Pertanto α=0.05.
Passiamo alla distribuzione normale standardizzata N(0,1) (e la variabile Z) Prima dobbiamo
determinare il valore di zc che corrisponde alla probabilità di 0.95:
A=0.95
-zc
zc
?
Se sarebbe esistita una funzione inversa di ERF() (detta FUNZ.ERRORE() in Italiano) avremmo potuto
usarla, ma, purtroppo, non esiste (in Excel). Per fortuna c'è una funzione simile, INV.NORM.ST() che
restituisce l'inversa della distribuzione normale standard cumulativa, cioè prende una probabilità
(indichata qua con l'area verde) e restituisce il valore di zc.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
zc
Trova da solo la relazione tra l'area rossa e l'area verde e poi, usando la funzione INV.NORM.ST(),
trova il valore di zc che corrisponde alla probabilità “rossa” di 0.95. (dovresti ottenere un valore di zc
= 1.96). Avendo il valore di zc è facile trovare l'intervallo. Io ho ottenuto 3.514 – 3.886. Questo
significa che il peso medio di tutte le pastiglie è compreso nell'intervallo 3.514 – 3.886 con
probabilità del 95%. Ricorda bene, questo non significa che 95% delle pastiglie (né di una campione
né della popolazione) hanno un peso compreso in questo intervallo.
5. Lo stesso possiamo calcolare automaticamente, senza trovare zc, usando la funzione
CONFIDENZA(), che prende tre argomenti: il primo è il valore di α, il secondo corrisponde a
 , il terzo è il valore di n. L'intervallo della media è
( x – CONFIDENZA(α,  ,n), x + CONFIDENZA(α,  ,n)).
Cerca di usarlo nel nostro caso, verifica se il risultati sono d'accordo.
6. Come varia l'intervallo fiduciario nell'esempio precedente se si utilizza un livello di
confidenza del 99%? Calcolalo prima in modo manuale e poi usando la funzione
CONFIDENZA(). Io ho ottenuto (3.456 – 3.944).
7. Se vogliamo dire, con un livello di confidenza del 99%, che il peso medio di tutte le pastiglie
sia compreso nell'intervallo 3.6 – 3.8, qual è l'ampiezza del campione il quale dobbiamo
estrarre?


=3.6, x z c
=3.8 e devi trovare n. Avendo calcolato n, verifica la
n
n
risposta calcolando l'intervallo fiduciario. Io ho ottenuto n=60.
Ora sai che x− z c
8. Alcuni sponsor di show televisivi desiderano conoscere la quantità di tempo che i ragazzi
dedicano alla televisione, perché il tipo e il numero di programmi e messaggi publicitari
dipende significativamente da questa informazione. È stata svolta un'indagine per calcolare il
numero medio di ore settimanali che i ragazzi del nord America dedicano alla televisione. Dai
dati precedenti era emerso che la deviazione standard della popolazione era 8 ore. Nel
campione corrente di 100 ragazzi, la media campionaria è 27.5 ore. Calcola (usando
CONFIDENZA() o in modo manuale, come vuoi) l'intervallo fiduciario del numero medio di
ore i ragazzi del nord America impiegano a guardare la televisione, con un livello di
significatività del 5%. Io ho ottenuto (25.932 – 29.068).
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
9. Se il sponsor vuole sapere, con una confidenza di 99%, che il numero medio di ore i ragazzi
impiegano a guardare la tv sia compreso nell'intervallo 27 – 28, qual è l'ampiezza del
campione il quale deve estrarre? Io ho ottenuto circa 1700.
Laboratorio di Didattica di elaborazione dati
2008-2009, Jacek Dziedzic
Scarica