Politecnico di Milano - Scuola di Ingegneria Industriale e dell'Informazione I Appello di Statistica per Ingegneria Energetica 18 luglio 2013 c I diritti d'autore sono riservati. Ogni sfruttamento commerciale non autorizzato sarà perseguito. Cognome, Nome e Numero di matricola: Problema 1. L'esercito al comando del Re oltre la Barriera è composto per lo più da Bruti, per il 20% da Giganti e per lo 0.2% da Metamor. (a) Calcolare la probabilità che, su 10 guerrieri, vi siano almeno 2 Giganti. (b) Calcolare la probabilità che, su 100 guerrieri, vi siano almeno 15 Giganti. (c) Determinare il numero minimo n∗ di guerrieri, anché la probabilità che vi siano almeno 15 Giganti superi 0.99. (d) Calcolare la probabilità che, su 1000 guerrieri, vi siano almeno 3 Metamor. Risultati. X ∼ Binom(n = 10, p = 0.2), 10 10 0 10 1 9 P[X ≥ 2] = 1 − P[X ≤ 1] = 1 − 0.2 0.8 + 0.2 0.8 ' 0.6242. 0 1 (a) Detto X il numero di Giganti in un gruppo di 10, ovviamente (b) Detto X il numero di Giganti un gruppo di 100, ovviamente prossimabile con una normale n(1 − p) = 80 > 5, dunque X ∼ Binom(n = 100, p = 0.2), apN orm(µ = np = 20, σ 2 = np(1 − p) = 16), dato che np = 20 > 5 e per cui (usando la correzione di continuità) otteniamo X − 20 14.5 − 20 P[X ≥ 15] = P ≥ ' P[Z ≥ −1.375] = Φ(1.375) ' 0.915. 4 4 (c) Chiamiamo Y il numero di Giganti in un gruppo di n∗ , osserviamo per confronto dal punto b) ∗ n > 100, dunque possiamo usare l'approssimazione normale e approssimare Y ∼ Binom(n = n∗ , p = 0.2) con N orm(µ = 0.2n∗ , σ 2 = 0.16n∗ ), usando la correzione di continuità, che sicuramente otteniamo Y − 0.2n∗ 14.5 − 0.2n∗ 14.5 − 0.2n∗ 0.99 < P[Y ≥ 15] = P √ ≥ √ 'P Z≥ √ , 0.16n∗ 0.16n∗ 0.16n∗ dalle tabelle, otteniamo che P[Z > −2.326] ' 0.99, 14.5 − 0.2n∗ √ < −2.326 0.16n∗ poniamo allora ⇒ n∗ ≥ 124.36, occorrono dunque almeno 125 guerrieri. (d) Detto X X ∼ Binom(n = 1000, p = 0.002), P ois(λ = np = 2), otteniamo e−2 2 = 1 − 5e−2 ' 0.3233. P[X ≥ 3] = 1 − P[X ≤ 2] ' 1 − e−2 + 2e−2 + 2! il numero di Metamor in un gruppo di 1000, ovviamente approssimando con una Poissoniana 1 Problema 2. Alla Scuola di Magia e di Stregoneria di Hogwarts, una delle materie principali che i giovani maghi devono frequentare è Incantesimi, insegnata dal professor Filius Vitious. In una delle prime lezioni il professore fa la seguente osservazione: È stato dimostrato che la lunghezza media delle bacchette magiche è maggiore di 25 cm. Harry, Ron e Hermione, tre studenti molto amici, decidono di non darsi ciecamente di quanto detto dal professore e cercano di vericare la veridicità di tale osservazione. Pertanto Hermione, la più studiosa del trio, facendo delle ricerche scopre che una materia (chiamata Statistica) studiata nel mondo dei babbani potrebbe aiutarli. In particolare trova uno strumento molto utile in tal senso, il test d'ipotesi. Assumendo che le lunghezze delle bacchette siano distribuite normalmente con una deviazione standard uguale a 2 cm, (a) impostare un test d'ipotesi di livello α = 0.01 coerente con il problema di Harry, Ron e Hermione specicando ipotesi nulla, ipotesi alternativa e regione critica. I tre maghetti decidono quindi di recarsi a Diagon Alley, al negozio di bacchette di Olivander, per raccogliere i dati necessari a risolvere il loro problema. (b) Supponendo che la lunghezza media delle bacchette sia uguale a 26 cm, calcolare il numero n minimo di bacchette che i tre maghi dovranno acquistare anché la probabilità dell'errore di secondo tipo del test descritto al punto (a) sia al più 0.2. (c) Per tale valore di n quanto vale esattamente la potenza del test? I tre maghetti per motivi di budget (la bacchetta più economica costa 10 galeoni e 13 falci!!) comprano solamente 9 bacchette, ottendo una media campionaria delle lunghezze pari a 26.8 cm. (d) Calcolare il p-value dei dati per il test traendone le opportune conclusioni. In particolare indicare se i tre amici si deranno nelle prossime lezioni di quello che dirà il professor Vitious. Risultati. (a) Sia X = lunghezza di una bacchetta magica (in cm). Allora X ∼ N (µ, 4). Il test d'ipotesi da impostare è il seguente: H0 : µ ≤ 25 vs H1 : µ > 25, con statistica test e regione critica: Z0 = (b) µvera = 26. X n − 25 √ 2/ n In questo caso RC = {Z0 > z0.01 } = {Z0 > 2.3263}. X n ∼ N (26, 4/n). Quindi: √ √ 2 n n β = P (Z0 ≤ 2.3263) = P (X n ≤ 25+2.3263 √ ) = P (Z ≤ − +2.3263) = Φ(− +2.3263) ≤ 0.2 2 2 n √ √ √ n n n 1 − Φ( − 2.3263) ≤ 0.2 ⇒ Φ( − 2.3263) ≥ 0.8 ⇒ − 2.3263 ≥ 0.8416 2 2 2 n ≥ 40.1436 ⇒ n ≥ 41. (c) √ 2 41 γ = P (Z0 > 2.3263) = P (X n > 25 + 2.3263 √ ) = P (Z > − + 2.3263) = 2 41 = 1 − Φ(−0.88) = Φ(0.88) = 0.8106. (d) Utilizzando i dati raccolti otteniamo z0 = 26.8 − 25 = 2.7. 2/3 Quindi: p − value = P (Z > z0 ) = P (Z > 2.7) = 1 − Φ(2.7) = 1 − 0.996533 = 0.003467. Quindi c'è forte evidenza a favore di H1 e pertanto Harry, Ron e Hermione si deranno di ciò che dirà loro il professor Vitious nelle prossime lezioni. 2 Problema 3. Un tetro giorno d'autunno due hobbit della Contea, Frodo e Sam, stanno girovagando allegramente nella foresta di Fangorn, quando si imbattono in una minacciosa impronta di orco. A tale vista, si interrogano subito su quanto possa pesare quell'essere spaventoso. Per rispondere a questa domanda, Frodo consulta il suo vecchio libro di statistica in cui si trovano i dati relativi a 172 orchi: per ciascuno di essi si ha il peso corporeo P (kg) e la lunghezza dei piedi L (cm). Frodo decide di spiegare la relazione fra queste due quantità impostando un modello empirico lineare gaussiano con responso predittore P e L. a) Aiuta Frodo a scrivere la relazione ipotizzata fra P ed L nel suo modello. Per vericare la validità del suo modello, utilizza il software statistico R sul suo portatile, di cui riportiamo in Figura 1 una sintesi dell'analisi e alcuni graci dei residui del modello. b) Sapendo anche che per i 172 orchi catalogati 172 X li = 5074.109 i=1 172 X pi = 18449.46 172 X (pi − p)(li − l) = 10368.18 i=1 i=1 172 172 X X (pi − p)2 = 44024.5 (li − l)2 = 2806.916 i=1 i=1 completa l'output di R in Figura 1, riportando i calcoli eettuati. c) Spiega a Frodo se e perché, sulla base dei dati analizzati, si può concludere che l'intercetta del suo modello sia nulla. Il suo amico Sam decide invece di impostare un'altro modello empirico gaussiano, sempre con responso P, ma con due predittori: L ed L2 . d) Aiuta Sam a scrivere la relazione ipotizzata fra P ed L nel suo modello. In Figura 2 riportiamo una sintesi dell'analisi e alcuni graci dei residui del modello assunto da Sam. Naturalmente entrambi gli hobbit sostengono di aver creato il modello migliore. e) Aiuta Frodo e Sam a stabilire chi ha realizzato il modello migliore (giusticandone le ragioni..) Finalmente i due hobbit misurano l'impronta di orco trovata nella foresta: 33 cm. f ) Aiuta Frodo e Sam a stimare il peso atteso di un orco che lasci impronte come quella trovata. 3 Risultati. a) Modello Frodo: b) βb1 = ∼ N (0, σ 2 ). P = β0 + β1 L + , P172 i=1 (pi −p)(li −l) P172 2 i=1 (li −l) = 3.6938 βb0 = p − βb1 l = −1.7051 q 2 se(βb1 ) = P172σb(l −l)2 = 0.1095 i=1 i t0 = b0 β b0 ) se(β = −0.523 t1 = b1 β b1 ) se(β = 33.718 p − value = 2(1 − P (T (172 − 2) > |t0 |)) ≈ 2(1 − φ(|t0 |)) = 0.602 R2 = 1 − SSE/SST = 1 − c) Si può concludere che (172−2)·b σ2 P172 2 (p −p) i i=1 β0 = 0 perché = 0.8699 β0 è molto poco signicativo in base ai dati raccolti: p-value 0.602 molto grande. d) Modello Sam: P = β0 + β1 L + β2 L2 + , ∼ N (0, σ 2 ). e) Il primo modello (realizzato da Frodo) presenta dei residui che non sembrano indipendenti dalla variabile indipendente lunghezza dei piedi di L e negativi per valori centrali di L. L: infatti essi tendono ad essere positivi per valori estremi Le ipotesi di errori 1 , .., 172 i.i.d. normali a media nulla non sembra vericata (si veda anche il basso p-value di Shapiro-Wilks: 0.1699) e anzi il graco dei residui suggerisce l'introduzione di L2 fra i regressori. Il secondo modello invece (realizzato da Sam) presenta un graco dei residui molto buono, con il classico andamento a nuvola, tipico nel caso di errori casuali e omoschedastici, e un più alto p-value di Shapiro-Wilks: 0.6596. Inoltre in quest'ultimo modello i coecienti sono tutti signicativi ed indicazione di eliminare il predittore f ) Utilizzando il modello migliore: L 2 2 Rcorretto ). pb = βb0 + βb1 · 33 + βb2 · 332 4 = 119.3557 è più alto (quindi nessuna Figura 1: Output del modello di Frodo: Figura 2: Output del modello di Sam: 5 P = β0 + β1 · L + P = β0 + β1 · L + β2 · L2 +