II Appello di Statistica per Ingegneria Energetica

Politecnico di Milano - Scuola di Ingegneria Industriale
II Appello di Statistica per Ingegneria Energetica
18 settembre 2012
c I
diritti d'autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito.
Cognome, Nome e Numero di matricola:
Problema 1. Aureliano è uno studente fuori sede che vive a Macondo, uno sperduto paesino immerso
nelle foreste pluviali a nord di Milano. Ogni giorno, per andare in università, Aureliano prende l'unico
treno che parte dalla stazione di Macondo alle 7:00 e per tornare a casa dopo le lezioni l'unico treno che
torna da Milano alle 17:00.
Il tempo di percorrenza delle tratte Macondo-Milano e Milano-Macondo (in ore) sono modellizzabili con
T
la stessa variabile aleatoria continua
di densità:
3
I(1,∞) (t) =
t4
fT (t) =
0
3
t4
t≤1
t>1
Aureliano, che purtroppo è un po' debole in statistica, vi chiede di aiutarlo a rispondere alle domande
seguenti.
fT (t),
(a) Disegnare un graco qualitativo di
e calcolare media e varianza del tempo impiegato da
Aureliano per fare un viaggio in treno.
(b) Calcolare la funzione di ripartizione
FT (t)
e tracciarne un graco qualitativo.
(c) Domani Aureliano deve sostenere un esame ed è quindi molto importante che riesca ad arrivare a
Milano entro le 9:00. Calcolare la probabilità che Aureliano arrivi a Milano in tempo.
A causa dei continui ritardi, le ferrovie macondiane da tempo riconoscono ai pendolari un bonus.
In
particolare, se in un mese (che si suppone essere di 30 giorni) il tempo totale di percorrenza dei 60 treni
da e per Milano supera le 100 ore, il mese successivo tutti gli abbonamenti mensili vengono venduti a
metà prezzo. Si suppone che i tempi di percorrenza di viaggi diversi siano tra loro indipendenti.
(d) Calcolare la probabilità, eventualmente approssimata, che Aureliano in un mese qualsiasi abbia
diritto al bonus.
(e) Sapendo che Aureliano compra l'abbonamento mensile 11 mesi all'anno, calcolare la probabilità che
in un anno abbia diritto al bonus almeno una volta.
Risultati.
R∞
R∞
3
E[T ] = 1 tfT (t)dt = 1 t t34 dt = [− 32 t−2 ]∞
1 = 2.
R
∞
3 2
E[T 2 ] = 1 t2 t34 dt = [−3t−1 ]∞
= 0.75.
1 = 3 → V ar(T ) = 3 − 2
(a) Valore atteso:
Varianza:
(b)
Z
t
FT (t) =
fT (u)du =
−∞
(c)
−3
P [T ≤ 2] = Ft (2) = 1 − 2
0
3 −3 t
− 3 u 1 = 1 − t−3
t≤1
t>1
= 0.875.
P60
X = i=1 Ti , con Ti ∼ FT i
tempi di percorrenza dei singoli viaggi: E[X] = 60E[Ti ] = 90, V ar(X) = 60V ar(Ti ) = 45. Essendo
il campione numeroso, per il TCL si ha: X ' N (90, 45), quindi la probabilità di ottenere il bonus
è:
X − 90
100 − 90
√
P [X > 100] = P
> √
' 1 − Φ(1.49) = 0.0681.
45
45
(d) Sia
X
la v.a. che descrive il tempo totale di percorrenza di 60 viaggi:
(e) Vista l'indipendenza tra i tempi di percorrenza dei singoli viaggi, anche i tempi di percorrenza
mensili totali saranno tra loro indipendenti. Quindi la probabilità cercata è
0.5397.
1
1 − P [X ≤ 100]11 =
Problema 2. Sia
X
il numero giornaliero di click che riceve il nuovo banner aggiunto da Stefania sul
proprio sito internet. Stefania non conosce
µ,
la media di
X,
f , la sua distribuzione; per
Xk , k = 1, . . . , 30, che possiamo
né tantomeno
inferire su di essi intende quindi registrare per 30 giorni i click giornalieri
assumere tutti indipendenti.
(a) Proporre uno stimatore corretto per
(b) Impostare un test
χ2
µ = EX
indicandone la legge (eventualmente approssimata).
di buon adattamento per vericare se il numero
H0 e H1
A0 = {0}, A1 = {1}, A2 = {2}, A3 = [3, ∞).
distribuzione di Poisson: indicare le ipotesi statistiche
basata sulle classi:
X
di click giornalieri ha
e la regione critica
Rα
di livello
α
Alla ne dei 30 giorni sono stati registrati i seguenti click giornalieri:
(c) Stimare
Click giornalieri
0
1
2
3
4
5
Frequenza assoluta
7
10
8
3
1
1
30
µ.
(d) Calcolare il
p-value
dei dati relativamente al test impostato in (b).
(e) Trarre una conclusione per il test. Conclusione forte o debole?
Risultati.
(a)
µ
b = X 30 ' N
(b)
H0 : f
µ,
σ2
30
, dove
Poisson contro
σ 2 = Var X .
H1 : f
non Poisson, con regione critica
Rα : Q =
3
X
(N` − 30b
p0 )2
`
30b
p0`
`=0
dove, indicando con
• N`
Pλ=bµ
le probabilità calcolate nell'ipotesi
= frequenza campionaria assoluta della classe
• pb0` = Pλ=bµ (X = `) = e−bµ
• pb03 = Pλ=bµ (X ≥ 3) = 1 −
µ
b
,
`!
2
X
χ2α (2) p.to perc. di ordine
α
per
con la stima
λ=µ
b,
A`
e−bµ
` = 0, 1, 2,
µ
b`
`!
di una
χ2
a gradi di libertà = 4 (classi) - 1 (parametri stimati) - 1.
Tale regione critica ha livello (approssimativamente)
(c)
X ∼ P (λ)
`
`=0
•
> χ2α (2),
α,
purché
30b
p0` > 5
per ogni
`.
µ
b = 1.466667.
p01 = 10.15, 30b
p02 = 7.44, 30b
p03 = 5.49 sono tutti maggiori di 5. Si
30b
p00 = 6.92, 30b
2
può quindi usare la regione critica del punto (b) per cui il p-value è il valore di α tale che Q = χα (2).
Con i dati raccolti Q = 0.089 ⇒ p-value = 0.9564756. Con le tavole, poichè
(d) Per i dati raccolti
χ20.01 (2) = 0.02 < 0.089 = χ2α (2) < 0.1 = χ20.05 (2),
si trova 0.95 <
p-value
< 0.99.
(e) L'adattamento è buono:
X
ha legge di Poisson. Conclusione debole, ma con
2
p-value
alto.
Problema 3 Nell'anno solare 8024 si disputerà la centounesima edizione dei Giochi Galattici.
Gli
scommettitori arturiani sono in attività per cercare di scoprire quale sarà il tempo del vincitore della
gara più prestigiosa, il turbogiro di pista. Per fare questo, hanno raccolto i tempi dei vincitori (variabile
Result, misurati in millisecondi) delle precedenti cento edizioni (disputate in anni compresi tra 4000 e
8000) e vi sottopongono i due modelli statistici seguenti:
Resulti = β0 + β1 Yeari + i
Resulti = β0 + β1 SqYeari + i
Modello 1:
Modello 2:
i ∼ N (0, σ 2 ), i = 1, .√. . , 100. La variabile Year indica l'anno solare in cui
Yeari − 4000 è una misura degli anni in uso presso gli
disputati, mentre SqYeari =
dove
i giochi sono stati
arturiani.
(a) Commentare il Modello 1 sulla base dell'output di R e dei graci dei residui in Fig. 3 e Fig. 4.
(b) Commentare il Modello 2 sulla base dell'output di R e dei graci dei residui in Fig. 5 e Fig. 6.
(c) Quale dei due modelli è il migliore? Perché?
95% per il valore atteso della variabile Result nell'anno
(d) Fornire una stima puntuale e intervallare al
8024, avendo a disposizione media e somma degli scarti al quadrato per i due possibili predittori:
Year = 6000,
100
X
(Yeari − Year)2 = 136026821
i=1
SqYear = 42.04534,
100
X
(SqYeari − SqYear)2 = 23218.89
i=1
Il giovane scommettitore F. vuole fare una puntata sul tempo del vincitore nell'edizione dell'anno
solare 15000 (visto che l'aspettativa vita arturiana è di 30000 anni solari, conta di essere ancora vivo per
riscuotere una sostanziosa vincita).
(e) Fornire una stima puntuale e un intervallo di predizione al
95%
per il tempo del vincitore nell'anno
solare 15000. Il risultato è adabile? Perché?
Soluzione:
(a) Il Modello 1 ha un R2 molto elevato. Tuttavia i residui presentano un leggero trend quadratico
e non è vericata l'ipotesi di normalità, sia dalla valutazione qualitativa del Q-Q plot, sia per il p-value
del test di Shapiro-Wilks molto basso.
In mancanza dell'ipotesi di normalità, non è possibile trarre
conclusioni sulla signicatività del modello, benché il p-value riportato da R sia molto basso.
(b) Il Modello 2 ha anch'esso un R2 molto elevato. In questo caso i residui non presentano anomalie e
sia il Q-Q plot che il test di Shapiro-Wilks permettono di concludere in favore della normalità dei residui.
Pertanto è possibile considerare i test di signicatività proposti nell'output di R. Il p-value è molto basso
e quindi posso concludere che il modello è signicativo.
(c)Il secondo modello è migliore del primo. R2 è leggermente superiore, ma soprattutto le ipotesi del
modello sono vericate e pertanto è possibile fare inferenza.
(d) La stima puntuale utilizzando il secondo modello è
√
\ SqYear=√8024−4000 = β̂0 + β̂1 8024 − 4000 = 9.997 − 0.004961 · 63.43501 = 9.682299.
Result|
Il corrispondente intervallo di condenza è
\ SqYear=√8024−4000 ± t0.025 (100 − 2)se(Result|
\ SqYear=√8024−4000 ),
Result|
t0.025 (98) ' 1.98, Sxx = 23218.89,
quindi:
s
\ SqYear=√8024−4000 ) = σ̂
se(Result|
√
1
( 8024 − 4000 − SqYear)2
+
=
100
Sxx
3
s
= 0.01012
L'intervallo risulta quindi:
√
( 8024 − 4000 − 42.04534)2
1
+
= 0.001744183.
100
23218.89
9.682299±1.98·0.001744183 = 9.682299±0.003453482 = [9.678846; 9.685752].
(e) La stima puntuale utilizzando il secondo modello è
√
\ SqYear=√15000−4000 = β̂0 +β̂1 15000 − 4000 = 9.997−0.004961·104.8809 = 9.476686.
\ SqYear=√15000−4000 = Result|
Result|
L'intervallo di predizione
√
1
( 15000 − 4000 − SqYear)2
1+
+
=
100
Sxx
s
\ SqYear ± t0.025 (98)σ̂
Result|
r
= 9.476686±1.98·0.01012· 1 +
1
(104.8809 − 42.04534)2
+
= 9.476686±0.02176684 = [9.454919; 9.498453].
100
23218.89
Il risultato non è molto adabile perché è richiesta una predizione per un anno molto lontano da quelli
nei quali i dati sono stati raccolti.
4
Figura 1: Graco della funzione densità
fT (t)
Figura 2: Graco della funzione di ripartizione
Figura 3: Modello 1
5
FT (t)
Figura 4: Modello 1
Figura 5: Modello 2
6
Figura 6: Modello 2
7