Tema - Andreadd.it

13.02.2015 - 2^ Prova in itinere di STATISTICA per studenti ENE - docente: E. Piazza
obbligatorio - n. iscrizione sulla lista
se non ve lo ricordate
siete fritti; o no?
il presente elaborato si compone di 4 (quattro) pagine
Cognome
Nome
matr.n.
Avvertimento: nello svolgimento degli esercizi se una quantità è indicata con il simbolo x continuare a chiamarla x, e se si chiama W non chiamarla X, e se si chiama ti non chiamarla xi , e se si
chiama T̄n non indicarla con X̄n . Se volete scrivere dipendenti non scrivete indipendenti, se dovete
sottrarre non sommate. Si fanno troppi errori di distrazione. Mi raccomando: concentrazione.
–––––––––––––––––––––––––––––––––––––––
Si consiglia di lavorare con 3 decimali, arrotondando opportunamente.
c I diritti d’autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà p erseguito.
Problema 1. Il Dottor H. vuole inferire sulla durata X di un automa MM. A tal ﬁne registra le durate in
minuti di 111 automi MM indipendenti. I dati raccolti hanno media campionaria e varianza campionaria
s2111 = 4.9902,
x111 = 1.96,
e, relativamente alle classi di seguito introdotte, risultano così distribuiti
Classi
[0 − 2)
[2 − 4)
[4 − 6)
[6 − 8)
[8 − 10)
[10 − 12)
2
Frequenze assolute
74
24
5
4
3
1
1.1 Fornire una stima puntuale e una stima intervallare di conﬁdenza 0.95 asintotica della durata media
µ = E[X] di un automa MM.
Stima puntuale: µ = x111 = 1.96.
Stima intervallare di conﬁdenza 0.95 (anche se il campione non proviene da una normale, è tuttavia suﬃcientemente numeroso, essendo n = 111 > 40):
s111
µ± √
t0,025 (110) = 1.96 ±
111
2
4.9902
1.9818 = 1.96 ± 0.42 = (1.54 , 2.38).
111
Il Dottor H. sospetta che la durata X di un automa MM abbia distribuzione esponenziale.
1.2 Impostare un opportuno test di adattamento per veriﬁcare se X abbia distribuzione esponenziale.
Esplicitare le ipotesi statistiche e la regione critica di livello α, utilizzabile con i dati a disposizione.
1
H0 : X ∼ E, H1 : X ≁ E.
La regione critica Rα dipende dalla scelta delle classi Aℓ ed è utilizzabile se
n pℓ = 111 · P(X ∈ Aℓ ) > 5 per ogni ℓ.
Le probabilità vanno stimate con la distribuzione esponenziale di media µ = 1.96, ovvero di parametro λ =
1/µ = 0.510204082. Per le classi assegnate si ha
Aℓ
[0 , 2)
[2 , 4)
[4 , 6)
[6 , 8)
[8 , 10)
[10 , 12)
[12 , +∞)
Nℓ
74
24
5
4
3
1
0
pℓ
0.6395522114
0.2305251803
0.0830922915
0.0299504327
0.0107955672
0.0038912383
0.0021930786
n pℓ
70.9902954656
25.5882950125
9.2232443512
3.3244980301
1.1983079631
0.4319274554
0.243431722
per cui conviene accorpare le ultime quattro classi
Aℓ
[0 , 2)
[2 , 4)
[4 , 6)
[6 , ∞)
Nℓ
74
24
5
8
pℓ
0.6395522114
0.2305251803
0.0830922915
0.0468303169
n pℓ
70.9902954656
25.5882950125
9.2232443512
5.1981651706
e utilizzare la corrispondente regione critica
4
Rα : Q =
ℓ=1
2
(Nℓ − npℓ )2
> χ2α (2).
npℓ
1.3 Calcolare il p-value dei dati raccolti e trarre le dovute conclusioni circa la distribuzione di X.
Il p-value dei dati raccolti è la soluzione α di
4
χ2α (2) = Q =
ℓ=1
(Nℓ − npℓ )2
= 3.67
npℓ
Con le tavole
χ20.5 (2) = 1.39 < χ2α (2) = 3.67 < χ20.1 (2) = 4.61
0.1 < α < 0.5
2
mentre il valore esatto è α = 0, 16. Il p-value non è particolarmente alto, ma comunque superiore a 0.1.
Pertanto, agli usuali livelli di signiﬁcatività, non possiamo riﬁutare H0 e concludiamo che la distribuzione di X
è un’esponenziale. La conclusione tuttavia è debole.
1.4 Fornire una stima puntuale della probabilità che un automa MM duri più di 12 minuti.
Coerentemente con la conclusione del test stimiamo la probabilità di X > 12 con
P(X > 12) = e−12/µ = 0.0021930786 = 0.22%.
2
Problema 2. Il Dottor H. vuole confrontare il carico di rottura µM degli elmetti M con il carico di rottura
µS degli elmetti S. In particolare vuole capire se si può aﬀermare, con forte evidenza statistica, che µM > µS .
Usando uno strumento con errore di misura casuale gaussiano standard (ﬁssata opportunamente l’unità di
misura), intende eﬀettuare m misure indipendenti di µM , con risultati
X1 , . . . , Xm
campione casuale N (µM , 1),
e n misure indipendenti di µS , con risultati
Y1 , . . . , Yn
2
2.1 Impostare un opportuno test statistico per poter rispondere alla domanda del Dottor H. Esplicitare
ipotesi nulla, ipotesi alternativa e regione critica di livello α.
1
1
+ zα .
m n
2.2 Calcolare la probabilità β dell’errore di seconda specie per il test impostato in funzione di d = µM − µS .
H0 : µM µS ≤ 0,
2
β = P Xm − Y n <
2
campione casuale N (µS , 1).
1
1
+ zα
m n
H1 : µM − µS > 0,
=P

Rα : X m − Y n > +
 X m − Y n − (µM − µS )
1
m
+
1
n
< zα −

µM − µS 
1
m
+
1
n

= Φ zα −

µM − µS 
1
m
+
1
n
2.3 Supponendo m = n e α = 0.05, calcolare la minima ampiezza campionaria n capace di rivelare una
diﬀerenza µM − µS = 0.5 con una probabilità di errore del II tipo del 40% al massimo.


µ
−
µ
S
β = Φ z0.05 − M
≤ 0.4
2
n
z0.05 −
µM − µS
2
n
≤ z0.6
2
2
z0.05 − z0.6
1.645 + 0.253
=2
= 28.8
µM − µS
0.5
Alla ﬁne il Dottor H. esegue 49 misure sugli elmetti M e 45 misure sugli elmetti S, ottenendo
n≥2
x49 = 13.24
y 45 = 13.05,
e i seguenti boxplot
3
2
2.4 Calcolare il p-value dei dati raccolti.
Il p-value dei dati raccolti è la soluzione α di
1
1
+ zα
m n
xm = yn +
per cui
zα =
2
2
x49 − y 45
1
49
+
1
45
√
0.19 2205
√
=
= 0.92
94
α = 1 − Φ(0.92) = 1 − 0.821214 = 0.178786.
2.5 Trarre le dovute conclusioni agli usuali livelli di signiﬁcatività.
Nonostante x49 > y45 , abbiamo un p-value > 0.1 e quindi non possiamo riﬁutare l’ipotesi nulla agli usuali livelli
di signiﬁcatività: µM ≤ µS
2.6 Se la conclusione fosse sbagliata, avreste commesso un errore del primo o del secondo tipo?
Secondo tipo.
4
Problema 3. Il dottor H. vuole trovare un buon modello lineare empirico gaussiano che spieghi l’energia
Y consumata al minuto da un automa MM con la sua altezza x1 e la sua larghezza x2 . Raccoglie pertanto i
dati relativi a 21 diﬀerenti automi MM, e li elabora con due regressioni lineari multiple: Y su x1 e x2 (modello
1) e Y su x1 , x2 e x1 x2 (modello 2). Per ciascun modello trovate in allegato lo specchietto riassuntivo della
regressione, alcuni graﬁci dei residui standardizzati, il p-value dei residui standardizzati per il test di normalità
di Shapiro-Wilk.
Modello ridotto
Modello completo
2
2
3.1 Scrivere il legame fra le variabili Y , x1 e x2 ipotizzato dai due modelli lineari empirici gaussiani.
Modello 1: Y = β 0 + β 1 x1 + β 2 x2 + ǫ dove ǫ ∼ N (0, σ2 ).
Modello 2: Y = β 0 + β 1 x1 + β 2 x2 + β 3 x1 x2 + ǫ dove ǫ ∼ N (0, σ2 ).
3.2 Spiegare quale dei due modelli è il migliore spiegando tutti i pro e contro.
È migliore il modello 2 in quanto:
( ) è decisamente meglio confermata l’ipotesi gaussiana:
( ) entrambi gli scatterplot dei residui standardizzati sono a nuvola senza struttura, ma il modello 1 avrebbe
ben 9 outlier su 21 dati, mentre il modello 2 non ha outlier
( ) il normal Q-Q plot dei residui standardizzati è migliore per il modello 2
5
2
( ) il p-value di Shapiro-Wilk è molto più alto per il modello 2
( ) è maggiore R2corretto (0.9978 per il modello 1, 0.9993 per il modello 2), ovvero è minore la stima di σ2
Non danno invece indicazioni la signiﬁcatività globale della regressione (che è la medesima per entrambi i
modelli) e le signiﬁcatività dei singoli regressori (che sono tutte ottime per tutti i regressori per entrambi i
modelli).
3.3 Dare una stima puntuale del consumo medio di energia al minuto degli automi MM alti 13 e larghi 8.
E[Y |x1 = 13, x2 = 8] = β 0 + β 1 x1 + β 2 x2 + β 3 x1 x2
= 108.34230 + 8.75735 · 13 + 9.41282 · 8 + 0.54069 · 13 · 8 = 353.722.
2
3.4 Dare una stima puntuale della variazione media di energia consumata al minuto passando da automi
MM alti 13 e larghi 8 ad automi alti 15 e larghi 8.
E[Y |x1 = 15, x2 = 8] − E[Y |x1 = 13, x2 = 8] = β 1 · (15 − 13) + β 3 · (15 − 13) · 8
= 8.75735 · 2 + 0.54069 · 2 · 8 = 25.80.
2
3.5 Il dottor H. ritiene tuttavia che l’intercetta del modello debba valere 50. Stabilire con un opportuno
test di livello 1% se i dati possono confutare tale convinzione. Esplicitare ipotesi statistiche, regione critica e
conclusione.
H0 : β 0 = 50,
Per i dati raccolti
H1 : β 0 = 50,
Rα : |β 0 − 50| > se(β 0 ) tα/2 (n − 1).
|β 0 − 50| = 58.3423 > se(β 0 ) t0.005 (20) = 10.25250 · 2.845 = 29.1684
quindi ad un livello dell’1% i dati consentono di riﬁutare l’ipotesi nulla. Pertanto β 0 = 50.
6