Politecnico di Milano - Scuola di Ingegneria Industriale II Appello di Statistica per Ingegneria Energetica 18 settembre 2012 c I diritti d'autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Cognome, Nome e Numero di matricola: Problema 1. Aureliano è uno studente fuori sede che vive a Macondo, uno sperduto paesino immerso nelle foreste pluviali a nord di Milano. Ogni giorno, per andare in università, Aureliano prende l'unico treno che parte dalla stazione di Macondo alle 7:00 e per tornare a casa dopo le lezioni l'unico treno che torna da Milano alle 17:00. Il tempo di percorrenza delle tratte Macondo-Milano e Milano-Macondo (in ore) sono modellizzabili con T la stessa variabile aleatoria continua di densità: 3 I(1,∞) (t) = t4 fT (t) = 0 3 t4 t≤1 t>1 Aureliano, che purtroppo è un po' debole in statistica, vi chiede di aiutarlo a rispondere alle domande seguenti. fT (t), (a) Disegnare un graco qualitativo di e calcolare media e varianza del tempo impiegato da Aureliano per fare un viaggio in treno. (b) Calcolare la funzione di ripartizione FT (t) e tracciarne un graco qualitativo. (c) Domani Aureliano deve sostenere un esame ed è quindi molto importante che riesca ad arrivare a Milano entro le 9:00. Calcolare la probabilità che Aureliano arrivi a Milano in tempo. A causa dei continui ritardi, le ferrovie macondiane da tempo riconoscono ai pendolari un bonus. In particolare, se in un mese (che si suppone essere di 30 giorni) il tempo totale di percorrenza dei 60 treni da e per Milano supera le 100 ore, il mese successivo tutti gli abbonamenti mensili vengono venduti a metà prezzo. Si suppone che i tempi di percorrenza di viaggi diversi siano tra loro indipendenti. (d) Calcolare la probabilità, eventualmente approssimata, che Aureliano in un mese qualsiasi abbia diritto al bonus. (e) Sapendo che Aureliano compra l'abbonamento mensile 11 mesi all'anno, calcolare la probabilità che in un anno abbia diritto al bonus almeno una volta. Risultati. R∞ R∞ 3 E[T ] = 1 tfT (t)dt = 1 t t34 dt = [− 32 t−2 ]∞ 1 = 2. R ∞ 3 2 E[T 2 ] = 1 t2 t34 dt = [−3t−1 ]∞ = 0.75. 1 = 3 → V ar(T ) = 3 − 2 (a) Valore atteso: Varianza: (b) Z t FT (t) = fT (u)du = −∞ (c) −3 P [T ≤ 2] = Ft (2) = 1 − 2 0 3 −3 t − 3 u 1 = 1 − t−3 t≤1 t>1 = 0.875. P60 X = i=1 Ti , con Ti ∼ FT i tempi di percorrenza dei singoli viaggi: E[X] = 60E[Ti ] = 90, V ar(X) = 60V ar(Ti ) = 45. Essendo il campione numeroso, per il TCL si ha: X ' N (90, 45), quindi la probabilità di ottenere il bonus è: X − 90 100 − 90 √ P [X > 100] = P > √ ' 1 − Φ(1.49) = 0.0681. 45 45 (d) Sia X la v.a. che descrive il tempo totale di percorrenza di 60 viaggi: (e) Vista l'indipendenza tra i tempi di percorrenza dei singoli viaggi, anche i tempi di percorrenza mensili totali saranno tra loro indipendenti. Quindi la probabilità cercata è 0.5397. 1 1 − P [X ≤ 100]11 = Problema 2. Sia X il numero giornaliero di click che riceve il nuovo banner aggiunto da Stefania sul proprio sito internet. Stefania non conosce µ, la media di X, f , la sua distribuzione; per Xk , k = 1, . . . , 30, che possiamo né tantomeno inferire su di essi intende quindi registrare per 30 giorni i click giornalieri assumere tutti indipendenti. (a) Proporre uno stimatore corretto per (b) Impostare un test χ2 µ = EX indicandone la legge (eventualmente approssimata). di buon adattamento per vericare se il numero H0 e H1 A0 = {0}, A1 = {1}, A2 = {2}, A3 = [3, ∞). distribuzione di Poisson: indicare le ipotesi statistiche basata sulle classi: X di click giornalieri ha e la regione critica Rα di livello α Alla ne dei 30 giorni sono stati registrati i seguenti click giornalieri: (c) Stimare Click giornalieri 0 1 2 3 4 5 Frequenza assoluta 7 10 8 3 1 1 30 µ. (d) Calcolare il p-value dei dati relativamente al test impostato in (b). (e) Trarre una conclusione per il test. Conclusione forte o debole? Risultati. (a) µ b = X 30 ' N (b) H0 : f µ, σ2 30 , dove Poisson contro σ 2 = Var X . H1 : f non Poisson, con regione critica Rα : Q = 3 X (N` − 30b p0 )2 ` 30b p0` `=0 dove, indicando con • N` Pλ=bµ le probabilità calcolate nell'ipotesi = frequenza campionaria assoluta della classe • pb0` = Pλ=bµ (X = `) = e−bµ • pb03 = Pλ=bµ (X ≥ 3) = 1 − µ b , `! 2 X χ2α (2) p.to perc. di ordine α per con la stima λ=µ b, A` e−bµ ` = 0, 1, 2, µ b` `! di una χ2 a gradi di libertà = 4 (classi) - 1 (parametri stimati) - 1. Tale regione critica ha livello (approssimativamente) (c) X ∼ P (λ) ` `=0 • > χ2α (2), α, purché 30b p0` > 5 per ogni `. µ b = 1.466667. p01 = 10.15, 30b p02 = 7.44, 30b p03 = 5.49 sono tutti maggiori di 5. Si 30b p00 = 6.92, 30b 2 può quindi usare la regione critica del punto (b) per cui il p-value è il valore di α tale che Q = χα (2). Con i dati raccolti Q = 0.089 ⇒ p-value = 0.9564756. Con le tavole, poichè (d) Per i dati raccolti χ20.01 (2) = 0.02 < 0.089 = χ2α (2) < 0.1 = χ20.05 (2), si trova 0.95 < p-value < 0.99. (e) L'adattamento è buono: X ha legge di Poisson. Conclusione debole, ma con 2 p-value alto. Problema 3 Nell'anno solare 8024 si disputerà la centounesima edizione dei Giochi Galattici. Gli scommettitori arturiani sono in attività per cercare di scoprire quale sarà il tempo del vincitore della gara più prestigiosa, il turbogiro di pista. Per fare questo, hanno raccolto i tempi dei vincitori (variabile Result, misurati in millisecondi) delle precedenti cento edizioni (disputate in anni compresi tra 4000 e 8000) e vi sottopongono i due modelli statistici seguenti: Resulti = β0 + β1 Yeari + i Resulti = β0 + β1 SqYeari + i Modello 1: Modello 2: i ∼ N (0, σ 2 ), i = 1, .√. . , 100. La variabile Year indica l'anno solare in cui Yeari − 4000 è una misura degli anni in uso presso gli disputati, mentre SqYeari = dove i giochi sono stati arturiani. (a) Commentare il Modello 1 sulla base dell'output di R e dei graci dei residui in Fig. 3 e Fig. 4. (b) Commentare il Modello 2 sulla base dell'output di R e dei graci dei residui in Fig. 5 e Fig. 6. (c) Quale dei due modelli è il migliore? Perché? 95% per il valore atteso della variabile Result nell'anno (d) Fornire una stima puntuale e intervallare al 8024, avendo a disposizione media e somma degli scarti al quadrato per i due possibili predittori: Year = 6000, 100 X (Yeari − Year)2 = 136026821 i=1 SqYear = 42.04534, 100 X (SqYeari − SqYear)2 = 23218.89 i=1 Il giovane scommettitore F. vuole fare una puntata sul tempo del vincitore nell'edizione dell'anno solare 15000 (visto che l'aspettativa vita arturiana è di 30000 anni solari, conta di essere ancora vivo per riscuotere una sostanziosa vincita). (e) Fornire una stima puntuale e un intervallo di predizione al 95% per il tempo del vincitore nell'anno solare 15000. Il risultato è adabile? Perché? Soluzione: (a) Il Modello 1 ha un R2 molto elevato. Tuttavia i residui presentano un leggero trend quadratico e non è vericata l'ipotesi di normalità, sia dalla valutazione qualitativa del Q-Q plot, sia per il p-value del test di Shapiro-Wilks molto basso. In mancanza dell'ipotesi di normalità, non è possibile trarre conclusioni sulla signicatività del modello, benché il p-value riportato da R sia molto basso. (b) Il Modello 2 ha anch'esso un R2 molto elevato. In questo caso i residui non presentano anomalie e sia il Q-Q plot che il test di Shapiro-Wilks permettono di concludere in favore della normalità dei residui. Pertanto è possibile considerare i test di signicatività proposti nell'output di R. Il p-value è molto basso e quindi posso concludere che il modello è signicativo. (c)Il secondo modello è migliore del primo. R2 è leggermente superiore, ma soprattutto le ipotesi del modello sono vericate e pertanto è possibile fare inferenza. (d) La stima puntuale utilizzando il secondo modello è √ \ SqYear=√8024−4000 = β̂0 + β̂1 8024 − 4000 = 9.997 − 0.004961 · 63.43501 = 9.682299. Result| Il corrispondente intervallo di condenza è \ SqYear=√8024−4000 ± t0.025 (100 − 2)se(Result| \ SqYear=√8024−4000 ), Result| t0.025 (98) ' 1.98, Sxx = 23218.89, quindi: s \ SqYear=√8024−4000 ) = σ̂ se(Result| √ 1 ( 8024 − 4000 − SqYear)2 + = 100 Sxx 3 s = 0.01012 L'intervallo risulta quindi: √ ( 8024 − 4000 − 42.04534)2 1 + = 0.001744183. 100 23218.89 9.682299±1.98·0.001744183 = 9.682299±0.003453482 = [9.678846; 9.685752]. (e) La stima puntuale utilizzando il secondo modello è √ \ SqYear=√15000−4000 = β̂0 +β̂1 15000 − 4000 = 9.997−0.004961·104.8809 = 9.476686. \ SqYear=√15000−4000 = Result| Result| L'intervallo di predizione √ 1 ( 15000 − 4000 − SqYear)2 1+ + = 100 Sxx s \ SqYear ± t0.025 (98)σ̂ Result| r = 9.476686±1.98·0.01012· 1 + 1 (104.8809 − 42.04534)2 + = 9.476686±0.02176684 = [9.454919; 9.498453]. 100 23218.89 Il risultato non è molto adabile perché è richiesta una predizione per un anno molto lontano da quelli nei quali i dati sono stati raccolti. 4 Figura 1: Graco della funzione densità fT (t) Figura 2: Graco della funzione di ripartizione Figura 3: Modello 1 5 FT (t) Figura 4: Modello 1 Figura 5: Modello 2 6 Figura 6: Modello 2 7