prova del 28-6-2001

annuncio pubblicitario
Esame di Statistica I – 28 giugno 2001
docente: Prof.ssa J. Mortera
I quesiti in corsivo sono di carattere teorico
1 [7]. E’ finito il campionato e la Roma campione vuole cambiare il portiere. Sul mercato ci sono Buffon e
Toldo e la Roma non sa quale dei due scegliere. Consulta uno statistico che si guarda le registrazioni delle
partite e vede che in un campione casuale di 80 tiri in porta dall’area di rigore, Buffon ne ha parati 68 e
Toldo 76.
a) C’è sufficiente evidenza per preferire Toldo a Buffon?
b) Costruire l’intervallo di confidenza per la probabilità di parata di Buffon. Usare il livello di confidenza
0,70.
c) Quanti tiri in porta dovrebbe guardare lo statistico affinché la lunghezza massima dell’intervallo sia un
terzo della precedente?
d) Per campioni di numerosità elevata descrivere come si arriva alla costruzione di un intervallo di
confidenza per la differenza tra proporzioni.
Soluzione
La frequenza relativa dei tiri parati (sB) da Buffon sul totale dei tiri (nB) è:
pˆ B 
s B 68

 0,85 .
n B 80
La frequenza relativa dei tiri parati (sT) da Toldo sul totale dei tiri (nT) è:
pˆ T 
sT 76

 0,95.
nT 80
a) Occorre un test per il confronto fra proporzioni:
H0: pB=pT H1: pT>pB
La statistica test è:
Z
pˆ T  pˆ B
 1
1 
pˆ (1  pˆ )  
 nB nT 
dove
pˆ 
s B  sT 68  76 144


 0,9.
nB  nT
160
160
Il valore osservato della statistica-test è:
z oss 
0,95  0,85
1
1
0,9  0,1    
 80 80 
 2,11.
Il corrispondente valore di probabilità osservato (p-value) è:
p  P(Z  1,32 | H 0 )  1  (2,11)  1  0,9826  0,0171.
Il test non è altamente significativo: se =0,05 allora rifiuto H0; se =0,01 allora accetto H0.
b) L’intervallo di confidenza al livello 1- per la proporzione incognita pB è definito dalla formula:

P pˆ B  z / 2

pˆ B (1  pˆ B )
 p B  pˆ B  z / 2
nB
pˆ B (1  pˆ B ) 
  1 .

nB

(1)
Avendo posto 1-=0,7, e quindi /2=0,15, il valore z0,15, deve essere scelto in modo tale che
z 0,15   0,85
che fornisce il valore: z0,125=1,04. Essendo pˆ B  0,85 , e quindi
pˆ B (1  pˆ B ) 0,85  0,15

 0,0016
nB
80
sostituendo nella formula (1) si ottiene l’intervallo cercato:
(0,81;0,89).
c) La lunghezza dell’intervallo (1) è
2  z / 2
pˆ B (1  pˆ B )
nB
La lunghezza massima di questo intervallo si ha quando pˆ B  0,5 , cioè
2  z / 2
1
1
 z / 2
.
4n B
nB
L’obiettivo dell’esercizio consiste nel determinare nB in modo tale che la lunghezza massima dell’intervallo
sia pari a un terzo della lunghezza dell’intervallo determinato al punto b), cioè 0,027. Quindi:
2
1
 1,04 
1,04
 0,027  n B  
  1484. .
nB
 0,027 
2. [7] Sia Y1,…Yn un campione di ampiezza n,( n 4) estratto da una popolazione Y con E(Y)= e varianza
2. Si considerino i seguenti stimatori alternativi per 
S1  2
Y1 Y3  Y4

 Y2 e
n
n
S1  Y1 
Y2  Y3  Y4
n
a) Lo stimatore S1 è non distorto? In caso di risposta negativa proporre uno stimatore non distorto per 
modificando S1.
b) Lo stimatore S2 è non distorto? In caso di risposta negativa proporre uno stimatore non distorto per 
modificando S2.
c) Calcolare l’errore quadratico medio di S1 e S2
d) S1 e S2 sono consistenti in media quadratica?
Soluzione
a) Sia E(Y)= e Var(Y)= .
2
E ( S1 ) 
Quindi S1 è corretto.
2
1
2
2
E (Y1 )  E (Y3 )  E (Y4 )  E (Y2 )        
n
n
n
n
b) E ( S 2 )  E (Y1 ) 
1
E (Y2 )  E (Y3 )  E (Y4 )    1 (     )   1  1    n  1 .
n
n
n
 n
Quindi lo stimatore è distorto. Lo si può rendere corretto ponendo
S 2  S1
n
.
n 1
Infatti
E ( S1 ) 
n
n n 1
E ( S1 ) 
  .
n 1
n 1 n
c) Sappiamo che, dato uno stimatore T:
MSE(T)=Var(T)+B(T)2
dove
B(T)=E(T)-.
Per S1:
Var ( S1 ) 
4
1
4
2
6 

Var (Y1 )  2 Var (Y3 )  Var (Y4 )  Var (Y2 )  2  2  2  2   2   2 1  2 
2
n
n
n
n
 n 
Essendo lo stimatore corretto, la sua distorsione è nulla e l’errore quadratico medio è:
6 

MSE ( S1 )   2 1  2 .
 n 
Per T2:
Var ( S 2 )  Var (Y1 ) 
B 2 (S 2 ) 
1
Var (Y2 )  Var (Y3 )  Var (Y4 )   2  32  2   2  32  1.
2
n
n
n

1 2

n2
L’errore quadratico medio è quindi:
 3
 1
MSE ( S 2 )   2  2  1  2  2 .
n
 n
d) Per dimostrare che S1 e S2 sono consistenti in media quadratica, è sufficiente dimostrare che
lim MSE ( S1 )  0
n 
lim MSE ( S 2 )  0
n 
Ma sia per S1 che per S2 si ha:
6 

lim Var ( S1 )  lim  2 1  2    2  0
n 
n 
 n 
3 

lim Var ( S 2 )  lim  2 1  2    2  0
n 
n 
 n 
quindi né S1 né S2 sono consistenti in media quadratica.
3. [9] Una società produttrice di chiusure lampo ha due stabilimenti A e B. La probabilità che una chiusura
lampo sia difettosa è pari a 0.15 e 0.20 se è prodotta in A e B rispettivamente. Non avendo informazioni a
priori sulla provenienza delle chiusure lampo:
a) calcolare la probabilità di trovare una chiusura lampo difettosa
b) supponiamo di avere trovato una chiusura lampo difettosa, qual è la probabilità che sia stata prodotta
nello stabilimento A?
c) In uno stock di 6 chiusure lampo se ne trovano al più due difettose, qual è la probabilità che lo stock
provenga dallo stabilimento A?
Prendiamo uno stock di 200 chiusure lampo prodotte da A
d) calcolare la probabilità che almeno 40 chiusure lampo siano difettose
e) calcolare la probabilità che le chiusure lampo difettose siano comprese tra 20 e 40 (estremi inclusi).
f)
Enunciare e dimostrare il teorema di Bayes.
Soluzione
Indicando con D l’evento “la chiusura lampo è difettosa”, il testo suggerisce le seguenti probabilità:
P(D|A)=0,15, P(D|B)=0,2, P(A)=P(B)=0,5.
a) P(D)=P(D|A)P(A)+P(D|B)P(B)=0,150,5+0,20,5=0,175.
b)
P ( A | D) 
P( D | A) P( A) 0,15  0,5

 0,43
P ( D)
0,175
c) Sia X la variabile casuale “numero di chiusure lampo difettose”.
P( A | X  2) 
P( X  2 | A) P( A)
P( X  2)
dove
P( X  2)  P( X  2 | A) P( A)  P( X  2 | B) P( B)
Essendo X|ABin(6;0,15) si ha:
P( X  2 | A)  0,9527.
Essendo X|BBin(6;0,2) si ha:
P( X  2 | B)  0,9011.
Quindi:
P( X  2)  0,9527  0,5  0,9011  0,5  0,9269.
Di conseguenza:
P( A | X  2) 
0,9527  0,5
 0,514.
0,9269
d) Sia XA la variabile casuale “numero di chiusure difettose prodotte da A”. Questa variabile si distribuisce
come una Bin(200; 0,15). Essendo la numerosità campionaria sufficientemente elevata, tale distribuzione
può essere approssimata da una distribuzione Normale di media np=30 e varianza np(1-p)=25,5.
Quindi la probabilità cercata è:

40  0,5  30 
P( X A  40)  P Z 
 P( Z  1,88)  1  (1,88)  1  0,9699  0,0301.
25,5 

e)

19  0,5  30 
P(20  X A  40)  P( X A  40)  P( X A  19)  0,9699  P Z 

25,5 

 0,9699  (2,08)  0,9699  1  0,9812  0,9511.
4. [2] La media aritmetica è più grande della mediana quando
A
quando la moda è grande
B
quando ci sono valori anomali estremamente piccoli
C
quando la popolazione non è normale
D
quando ci sono valori anomali estremamente grandi
Soluzione
La risposta esatta è D.
5. [2] Se Z è una variabile casuale standardizzata, il valore di E(Z2) è
A
0
B
1 se Z è normale
C
non ho sufficienti dati per calcolarlo
D
1
Soluzione
La risposta esatta è D.
6. [6] “La torre di Pisa che pende che pende…”. Prima che la torre venisse chiusa, era stata condotta, con
frequenza trimestrale, una rilevazione statistica sull’incremento dell’inclinazione della torre. Sia Y=
“pendenza” X= “tempo” e Z= “cm di pioggia caduti su Pisa”. Sono state stimate le seguenti relazioni lineari
A: Y  3x  0.5
B: Y  3z  0.5
Per la relazione A l’output di computer è
Stima di 1
t
p
Modello A
3
2.896
0.02
2.025
2.25
Modello B
3
0.13
0.90
0.0225
2.25
SL=Dev
spiegata
Dev(Y)
a) per entrambi i modelli A e B, calcolare R2 e RL=Devianza residua.
b) Confrontare i due modelli commentando i dati della tabella (t e p) e i risultati ottenuti in a).
c) Dato il modello di regressione lineare Yi  1xi   0   i , considerando le ipotesi assunte riguardo
all’errore , quali tra le seguenti affermazioni sono vere?
A
E( i )   0 , Var( i )   2 e cov( i ,  j )  0
B
E(Yi | xi )  1xi   0 , Var( i )   2 e E( i   j )  0
2
C
E (Yi | xi )  1 xi   0 , Var (Yi | xi ) 
D
E( i )  0, Var( i )   2 e  ( i ,  j )  0
n
e cov( i ,  j )  0
Soluzione
a) Per il modello A
R2 
2,025
 0,9
2,25
RL  Dev (Y )  S L  2,25  2,025  0,225
Per il modello B
R2 
0,0225
 0,01
2,25
c) Le risposte esatte sono B e D.
RL  Dev (Y )  S L  2,25  0,0225  2,2275.
Scarica