STATISTICA A – K
(60 ore)
Marco Riani
[email protected]
http://www.riani.it
Esercizio: stima della percorrenza media
delle vetture diesel di un certo modello al
primo guasto
• n=400
scor=9000 Km
X=34.000 Km;
• Livello di confidenza (1-α)=0,95 z(0,05)=1,96
• P{33118 < µ< 34882}=0,95
• Livello di confidenza (1-α)=0,99
z(0,01)=2,58
• P{32839 < µ< 35161}=0,99
Esercizio
• Il tempo impiegato da un meccanico in un
negozio di biciclette per assemblare un
certo tipo di bicicletta può essere
considerato una vv.c.
c normale con media
32 minuti e deviazione standard 3,5
minuti. Si calcoli la probabilità che il tempo
medio per assemblare 10 biciclette
– Non superi 33 minuti
– Sia compreso tra 28,5 e 31,5 minuti
Soluzione
• Calcolo di
Pr( 28,5 < X < 31,5) = ?
Pr( X < 31,5) = Pr( Z < -0,45175 ) = 0,32572
Pr(( X < 28,5) = Pr(( Z < -3,16228 ) = 0,00078
Pr( 28,5 < X < 31,5) = 0,32494
Soluzione
• X=v.c. tempo impiegato
• X~N(32, 3,52)
X ~ N( μ ,
σ
2
n
Pr( X < 33) = Pr(
)
X ~ N ( 32 ,
n=10
3 ,5 2
)
10
X −μ
33 − 32
<
)
σ / n 3,5 / 10
Pr( X < 33) = Pr( Z < 0,9035 ) = 0,8169
Il valore 0.8169 è stato ottenuto dalla funzione di
Excel =DISTRIB.NORM.ST(0,9035). Utilizzando
le tavole F(0,90)=0,81594
Esercizio
• Sia X1 X2 …, X80 un campione casuale
proveniente da una popolazione distribuita
secondo il modello f(x)=3x2 (0<x<1). Si
determini la probabilità che la media
campionaria sia minore di 0,8.
I valori 0,32572 e 0,00078 sono stati ottenuti con
le funzioni di Excel =DISTRIB.NORM.ST(-0,45175) e
=DISTRIB.NORM.ST(-3,16228).
Utilizzando le tavole si ottiene F(-0,45)-F(-3,16)=
0.32636- 0.00079=0.32557
1
Soluzione
• Passo 1. Calcolare la media e la varianza
dell’universo X che presenta densità
f(x)=3x2 (0<x<1)
Distribuzione del fenomeno
nell’universo
• Rappresentazione grafica di f(x)=3x2
(0<x<1)
• X presenta distribuzione non normale con
E(X)=µ=3/4 e VAR(X)=σ2=3/80
• X presenta distribuzione non normale con
E(X)=µ=3/4 e VAR(X)=σ2=3/80
Si consideri una generica popolazione X con
media µ e varianza σ2
• La media campionaria di un campione di
80 osservazioni estratte da X presenta la
seguente distribuzione approssimata (per
il teorema centrale del limite)
• Siano T1=(X1+X2+X3+X4)/4 e
T2=(3X1+4X2+X3+2X4)/10 due stimatori di
µ per campioni di ampiezza n=4
• Si effettuino le seguenti operazioni:
X ~ N( μ ,
σ2
n
– Si verifichi che lo stimatore T2 è non distorto
– Si determini la varianza dei due stimatori e si
stabilisca quale dei due stimatori è più
efficiente
Hint: X1 X2 X3 X4 are random variables IID
(independent and identically distributed) with the
same distribution of X
)
Soluzione
• Verifica che T2 è non distorto
• E(T2)=(1/10)E(3X1+4X2+X3+2X4)
=(1/10) [3 E(X1)+4E(X2)+E(X3)+2E(X4)]=
= (1/10) [ 3µ +4µ + µ + 2µ]=µ
• Calcolo della varianza dei due stimatori
• VAR(T1)=σ2/4=0,25σ2
• VAR(T2)= (1/100) [ 9σ2 +16σ2 + σ2+4σ2]
=(30/100) σ2=0,3σ2
• Dato che VAR(T1)<VAR(T2)
T1 è più efficiente e quindi preferibile
Esercizio
• Si definisce errore quadratico medio
(MSE=mean square error) di uno
stimatore T di un parametro θ la quantità
• E(TE(T θ)2.
– Dimostrare che se lo stimatore T è corretto il
suo MSE coincide con la sua varianza
– Dimostrare che se lo stimatore T è distorto il
suo MSE può essere scritto come:
MSE(T)=VAR(T) + Bias2
2
Soluzione: Dimostrare che se lo stimatore T è
corretto il suo MSE coincide con la sua
varianza
• Se T è uno stimatore non distorto di θ
allora E(T)= θ quindi
• MSE=E(T- θ)2.
• MSE=E(TMSE E(T θ)2= E(TE(T E(T))2=VAR(T)
VAR(T)
Soluzione: Dimostrare che se lo stimatore T è
distorto il suo MSE può essere scritto come:
MSE(T)=VAR
MSE(T)
=VAR(T)
(T) + Bias2
• MSE(T)=E(T - θ)2= E(T- E(T) +E(T) - θ)2
• Svolgendo il quadrato si ottiene:
• MSE(T)=E(T – E(T))2 + (E(T) - θ)2
2*(E(T) - θ)*E(T – E(T))
• Il doppio prodotto è zero quindi
MSE(T)= E(T – E(T))2 + (E(T) - θ)2=VAR(T)+Bias2
Esercizio
• La deviazione standard della statura degli
studenti iscritti ad una università è 5,8 cm.
Quanti studenti si devono estrarre a sorte
dalla popolazione se si vuole con
probabilità del 90% che l’errore di stima
della media non superi i 2 cm.
Soluzione: informazioni note
X~(µ
X~
(µ 5,82)
• Se l’intervallo di confidenza è al 90% si ottiene
σ
σ ⎫
⎧
P ⎨ X − 1,65
≤ μ ≤ X + 1,65
⎬ = 0,90
n
n⎭
⎩
σ ⎫
⎧
P ⎨| X − μ |≤ 1,65
⎬ = 0,90
n⎭
⎩
Se vogliamo che l’errore di stima della
media non superi i 2 cm | X − μ |≤ 2
1,65
Esercizio
• I dati che seguono si riferiscono alla
durata (in migliaia di Km) di una cinghia da
automobile in un campione di 15
osservazioni
• 115,4 85,2 89,1 118,3 88,4 109,3 104,3
69,3 105,5 106,8 103,1 101,6 102,9 89,6
109,3
• Facendo le opportune ipotesi, si costruisca
un intervallo di confidenza per la media al
99%
σ
n
≤2
n≥
(1,65 * 5,8)2
≈ 23
4
Soluzione
X
• n=15
=99,87 mila Km;
s2cor=170,24
• Ip. Distribuzione normale nell’universo
s
s ⎫
⎧
P ⎨ X − t (α ) cor ≤ μ ≤ X + t (α ) cor ⎬ = 1 − α
n
n⎭
⎩
13,05
13,05 ⎫
⎧
≤ μ ≤ 99,87 + 2,977
P ⎨99,87 − 2,977
⎬ = 0,99
15
15 ⎭
⎩
P{89,84 ≤ μ ≤ 109,9} = 0,99
3
Esercizio
• Di seguito sono riportati i Km percorsi in un
giorno da un campione di taxi operante in
una grande città
• 173 195 115 122 154 149 120 148 152 68
132 91 120 148 103 101
• Sulla base di questo campione assumendo
che la popolazione generatrice sia normale
è stato determinato il seguente intervallo di
confidenza (116,55 144,7). Si calcoli il livello
di confidenza su cui è stato calcolato
Soluzione
Media campionaria=130,6875 n=16 Scor=32,21122
s ⎫
s
⎧
P ⎨ X − t (α ) cor ≤ μ ≤ X + t (α ) cor ⎬ = P{116,55 ≤ μ ≤ 144,7} = 1 − α
n⎭
n
⎩
• Equazione da risolvere x + t (α ) scor = 144,7
n
t (α ) = (144,7 − x ) n / scor = 1,74
Dalla tavola t(α)=1,74 con g=15 corrisponde ad α
di poco superiore a 0,1 ossia ad un 1- α di poco
inferiore a 0,9 (Utilizzando la funzione di Excel
distrib.t(1,74;15;2) si ottiene α =0,102329)
Variante al precedente esercizio
• Se i dati di base fossero stati i seguenti:
• 172 195 115 122 154 149 120 148 152 68
132 91 120 148 103 101
• Quale
Q l sarebbe
bb stato
t t il lilivello
ll di confidenza
fid
dell’intervallo (116,55 144,7)?
• Media campionaria=130,625
• Scor=32,1245 t(α)=1,75 Î α≈0,10
• Î 1- α ≈ 0,9
Stima di µ in distribuzioni di
frequenze
Esercizio
Un’azienda produce rotoli di stoffa della
lunghezza di 70m. Tali rotoli possono
presentare difetti di diversa natura. L’azienda
è interessata a stimare il numero medio di
difetti presenti nei rotoli prodotti.
prodotti In un
campione casuale di 85 rotoli si è trovata la
seguente distribuzione
n. difetti
0
1
2
3
4
5
6
Frequenza
16
26
22
13
5
2
1
Si determini l’intervallo di confidenza al 99% per
la media dei difetti presenti nei rotoli di stoffa
Stima corretta di σ in presenza di
distribuzioni di frequenze
r
s cor =
∑ (x
i =1
− x ) ⋅ ni
2
i
r
∑n
i
−1
i =1
4
Soluzione
• Media campionaria=1,7059
Scor=1,3347
• S2= 1,760554
s ⎫
s
⎧
P ⎨ X − 2,58 cor ≤ μ ≤ X + 2,58 cor ⎬ = 0,99
n
n⎭
⎩
P{1,33 ≤ μ ≤ 2,08} = 0,99
5