I Appello di Statistica per Ingegneria Energetica

Politecnico di Milano - Scuola di Ingegneria Industriale e dell'Informazione
I Appello di Statistica per Ingegneria Energetica
18 luglio 2013
c I
diritti d'autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Cognome, Nome e Numero di matricola:
Problema 1. L'esercito al comando del Re oltre la Barriera è composto per lo più da Bruti, per il 20%
da Giganti e per lo 0.2% da Metamor.
(a) Calcolare la probabilità che, su 10 guerrieri, vi siano almeno 2 Giganti.
(b) Calcolare la probabilità che, su 100 guerrieri, vi siano almeno 15 Giganti.
(c) Determinare il numero minimo
n∗
di guerrieri, anché la probabilità che vi siano almeno 15 Giganti
superi 0.99.
(d) Calcolare la probabilità che, su 1000 guerrieri, vi siano almeno 3 Metamor.
Risultati.
X ∼ Binom(n = 10, p = 0.2),
10
10
0
10
1
9
P[X ≥ 2] = 1 − P[X ≤ 1] = 1 −
0.2 0.8 +
0.2 0.8 ' 0.6242.
0
1
(a) Detto
X
il numero di Giganti in un gruppo di 10, ovviamente
(b) Detto
X
il numero di Giganti un gruppo di 100, ovviamente
prossimabile con una normale
n(1 − p) = 80 > 5,
dunque
X ∼ Binom(n = 100, p = 0.2), apN orm(µ = np = 20, σ 2 = np(1 − p) = 16), dato che np = 20 > 5 e
per cui (usando la correzione di continuità) otteniamo
X − 20
14.5 − 20
P[X ≥ 15] = P
≥
' P[Z ≥ −1.375] = Φ(1.375) ' 0.915.
4
4
(c) Chiamiamo
Y
il numero di Giganti in un gruppo di
n∗ ,
osserviamo per confronto dal punto b)
∗
n > 100, dunque possiamo usare l'approssimazione normale e approssimare Y ∼
Binom(n = n∗ , p = 0.2) con N orm(µ = 0.2n∗ , σ 2 = 0.16n∗ ), usando la correzione di continuità,
che sicuramente
otteniamo
Y − 0.2n∗
14.5 − 0.2n∗
14.5 − 0.2n∗
0.99 < P[Y ≥ 15] = P √
≥ √
'P Z≥ √
,
0.16n∗
0.16n∗
0.16n∗
dalle tabelle, otteniamo che
P[Z > −2.326] ' 0.99,
14.5 − 0.2n∗
√
< −2.326
0.16n∗
poniamo allora
⇒
n∗ ≥ 124.36,
occorrono dunque almeno 125 guerrieri.
(d) Detto
X
X ∼ Binom(n = 1000, p = 0.002),
P ois(λ = np = 2), otteniamo
e−2 2
= 1 − 5e−2 ' 0.3233.
P[X ≥ 3] = 1 − P[X ≤ 2] ' 1 − e−2 + 2e−2 +
2!
il numero di Metamor in un gruppo di 1000, ovviamente
approssimando con una Poissoniana
1
Problema 2. Alla Scuola di Magia e di Stregoneria di Hogwarts, una delle materie principali che i giovani
maghi devono frequentare è Incantesimi, insegnata dal professor Filius Vitious. In una delle prime lezioni
il professore fa la seguente osservazione:
È stato dimostrato che la lunghezza media delle bacchette
magiche è maggiore di 25 cm. Harry, Ron e Hermione, tre studenti molto amici, decidono di non darsi
ciecamente di quanto detto dal professore e cercano di vericare la veridicità di tale osservazione. Pertanto
Hermione, la più studiosa del trio, facendo delle ricerche scopre che una materia (chiamata Statistica)
studiata nel mondo dei babbani potrebbe aiutarli. In particolare trova uno strumento molto utile in tal
senso, il test d'ipotesi.
Assumendo che le lunghezze delle bacchette siano distribuite normalmente con una deviazione standard
uguale a 2 cm,
(a) impostare un test d'ipotesi di livello
α = 0.01
coerente con il problema di Harry, Ron e Hermione
specicando ipotesi nulla, ipotesi alternativa e regione critica.
I tre maghetti decidono quindi di recarsi a Diagon Alley, al negozio di bacchette di Olivander, per
raccogliere i dati necessari a risolvere il loro problema.
(b) Supponendo che la lunghezza media delle bacchette sia uguale a 26 cm, calcolare il numero
n minimo
di bacchette che i tre maghi dovranno acquistare anché la probabilità dell'errore di secondo tipo
del test descritto al punto (a) sia al più 0.2.
(c) Per tale valore di
n
quanto vale esattamente la potenza del test?
I tre maghetti per motivi di budget (la bacchetta più economica costa 10 galeoni e 13 falci!!) comprano
solamente 9 bacchette, ottendo una media campionaria delle lunghezze pari a 26.8 cm.
(d) Calcolare il p-value dei dati per il test traendone le opportune conclusioni. In particolare indicare
se i tre amici si deranno nelle prossime lezioni di quello che dirà il professor Vitious.
Risultati.
(a) Sia
X =
lunghezza di una bacchetta magica (in cm). Allora
X ∼ N (µ, 4).
Il test d'ipotesi da
impostare è il seguente:
H0 : µ ≤ 25
vs
H1 : µ > 25,
con statistica test e regione critica:
Z0 =
(b)
µvera = 26.
X n − 25
√
2/ n
In questo caso
RC = {Z0 > z0.01 } = {Z0 > 2.3263}.
X n ∼ N (26, 4/n).
Quindi:
√
√
2
n
n
β = P (Z0 ≤ 2.3263) = P (X n ≤ 25+2.3263 √ ) = P (Z ≤ −
+2.3263) = Φ(−
+2.3263) ≤ 0.2
2
2
n
√
√
√
n
n
n
1 − Φ(
− 2.3263) ≤ 0.2 ⇒ Φ(
− 2.3263) ≥ 0.8 ⇒
− 2.3263 ≥ 0.8416
2
2
2
n ≥ 40.1436 ⇒ n ≥ 41.
(c)
√
2
41
γ = P (Z0 > 2.3263) = P (X n > 25 + 2.3263 √ ) = P (Z > −
+ 2.3263) =
2
41
= 1 − Φ(−0.88) = Φ(0.88) = 0.8106.
(d) Utilizzando i dati raccolti otteniamo
z0 =
26.8 − 25
= 2.7.
2/3
Quindi:
p − value = P (Z > z0 ) = P (Z > 2.7) = 1 − Φ(2.7) = 1 − 0.996533 = 0.003467.
Quindi c'è forte evidenza a favore di
H1
e pertanto Harry, Ron e Hermione si deranno di ciò che
dirà loro il professor Vitious nelle prossime lezioni.
2
Problema 3.
Un tetro giorno d'autunno due hobbit della Contea, Frodo e Sam, stanno girovagando
allegramente nella foresta di Fangorn, quando si imbattono in una minacciosa impronta di orco. A tale
vista, si interrogano subito su quanto possa pesare quell'essere spaventoso.
Per rispondere a questa
domanda, Frodo consulta il suo vecchio libro di statistica in cui si trovano i dati relativi a 172 orchi: per
ciascuno di essi si ha il peso corporeo
P
(kg) e la lunghezza dei piedi
L
(cm). Frodo decide di spiegare
la relazione fra queste due quantità impostando un modello empirico lineare gaussiano con responso
predittore
P
e
L.
a) Aiuta Frodo a scrivere la relazione ipotizzata fra
P
ed
L
nel suo modello.
Per vericare la validità del suo modello, utilizza il software statistico R sul suo portatile, di cui riportiamo
in Figura 1 una sintesi dell'analisi e alcuni graci dei residui del modello.
b) Sapendo anche che per i 172 orchi catalogati
172
X
li = 5074.109
i=1
172
X
pi = 18449.46
172
X
(pi − p)(li − l) = 10368.18
i=1
i=1
172
172
X
X
(pi − p)2 = 44024.5
(li − l)2 = 2806.916
i=1
i=1
completa l'output di R in Figura 1, riportando i calcoli eettuati.
c) Spiega a Frodo se e perché, sulla base dei dati analizzati, si può concludere che l'intercetta del suo
modello sia nulla.
Il suo amico Sam decide invece di impostare un'altro modello empirico gaussiano, sempre con responso
P,
ma con due predittori:
L
ed
L2 .
d) Aiuta Sam a scrivere la relazione ipotizzata fra
P
ed
L
nel suo modello.
In Figura 2 riportiamo una sintesi dell'analisi e alcuni graci dei residui del modello assunto da Sam.
Naturalmente entrambi gli hobbit sostengono di aver creato il modello migliore.
e) Aiuta Frodo e Sam a stabilire chi ha realizzato il modello migliore (giusticandone le ragioni..)
Finalmente i due hobbit misurano l'impronta di orco trovata nella foresta: 33 cm.
f ) Aiuta Frodo e Sam a stimare il peso atteso di un orco che lasci impronte come quella trovata.
3
Risultati.
a) Modello Frodo:
b)
βb1 =
∼ N (0, σ 2 ).
P = β0 + β1 L + ,
P172
i=1 (pi −p)(li −l)
P172
2
i=1 (li −l)
= 3.6938
βb0 = p − βb1 l = −1.7051
q
2
se(βb1 ) = P172σb(l −l)2 = 0.1095
i=1
i
t0 =
b0
β
b0 )
se(β
= −0.523
t1 =
b1
β
b1 )
se(β
= 33.718
p − value = 2(1 − P (T (172 − 2) > |t0 |)) ≈ 2(1 − φ(|t0 |)) = 0.602
R2 = 1 − SSE/SST = 1 −
c) Si può concludere che
(172−2)·b
σ2
P172
2
(p
−p)
i
i=1
β0 = 0
perché
= 0.8699
β0
è molto poco signicativo in base ai dati raccolti: p-value
0.602 molto grande.
d) Modello Sam:
P = β0 + β1 L + β2 L2 + ,
∼ N (0, σ 2 ).
e) Il primo modello (realizzato da Frodo) presenta dei residui che non sembrano indipendenti dalla
variabile indipendente lunghezza dei piedi
di
L
e negativi per valori centrali di
L.
L:
infatti essi tendono ad essere positivi per valori estremi
Le ipotesi di errori
1 , .., 172
i.i.d. normali a media nulla
non sembra vericata (si veda anche il basso p-value di Shapiro-Wilks: 0.1699) e anzi il graco
dei residui suggerisce l'introduzione di
L2
fra i regressori.
Il secondo modello invece (realizzato
da Sam) presenta un graco dei residui molto buono, con il classico andamento a nuvola, tipico
nel caso di errori casuali e omoschedastici, e un più alto p-value di Shapiro-Wilks: 0.6596. Inoltre
in quest'ultimo modello i coecienti sono tutti signicativi ed
indicazione di eliminare il predittore
f ) Utilizzando il modello migliore:
L
2
2
Rcorretto
).
pb = βb0 + βb1 · 33 + βb2 · 332
4
= 119.3557
è più alto (quindi nessuna
Figura 1: Output del modello di Frodo:
Figura 2: Output del modello di Sam:
5
P = β0 + β1 · L + P = β0 + β1 · L + β2 · L2 +