COGNOME NOME: Statistica II, Prof. Bruno Chiandotto Prova scritta intermedia del 28.10.2002 Istruzioni: Usare 4 cifre decimali A) Durante un lungo viaggio un camionista ubriaco incontra lungo la sua strada una pattuglia della polizia stradale ogni 10 Km. Il camionista ha probabilità 0,27 di essere fermato da ogni pattuglia che incontra e, in questo caso, riceve una multa di 100€ per eccesso di velocità. Durante ciascun controllo della polizia, vi è inoltre una probabilità pari a 0,14 che il camionista venga sottoposto a una prova-palloncino e che, di conseguenza, gli venga ritirata la patente e sequestrato il mezzo. 1. Si determini il valore atteso della distanza percorsa dal camionista prima che gli venga ritirata la patente. 2. Si determini il valore atteso dell’ammontare di multe che il camionista dovrà pagare prima che gli venga ritirata la patente. B) Un camionista acquista una scatola con 35 candele di ricambio; la durata media di una candela dichiarata dal produttore è di 9300 Km. 1. Si determini la probabilità che una candela duri più di 10700 Km. 2. Si determini la probabilità che la distanza che il camionista potrà percorrere con l’intera scatola di candele sia minore di 343100 Km. Si noti che l’unico dato a disposizione è il valore atteso della distribuzione: si identifichi sulla base di essa un modello probabilistico adeguato. C) Il produttore delle candele afferma che la probabilità che una candela difettosa superi il controllo di qualità e sia imballata assieme alle altre è 0,003; le candele normali durano in media 9300 Km, quelle difettose invece 937 Km. 1. Si determini la probabilità che in una scatola da 35 pezzi vi sia almeno una candela difettosa. 2. Con una candela estratta a caso da una scatola si riescono a percorrere meno di 1147 Km; si determini la probabilità che la candela sia difettosa. D) Date due variabili aleatorie X e Y, indipendenti e con distribuzione esponenziale di parametri, rispettivamente, α e β, si determini la probabilità P(X < Y). Cognome e nome: Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta intermedia del 28.10.2002 A) Sia F l’evento “il camionista viene fermato” e R l’evento “al camionista viene ritirata la patente”. Si ha allora che P(F) = 0,27 e P(R|F) = 0,14. D’altra parte R⊆F, per cui Rn F = R e P(R) = P(Rn F) = P(R|F)P(F). 1. La sequenza di passaggi davanti alle pattuglie può essere pensata come una variabile casuale geometrica che si interrompe quando si verifica l’evento P(R). Il valore atteso del numero di pattuglie incontrate (compresa quella in corrispondenza del ritiro della patente) è quindi 1/P(R) e la distanza attesa è 10/P(R) = 264,5503 Km. 2. Si noti che, se indichiamo con N il numero di pattuglie incontrate prima che al camionista sia ritirata la patente, l’ammontare di multe M può essere espresso come M = P(F)·N·100€; ne segue che E(M) = P(F)·E(N)·100€ = 0,27·(264,5503/10)·100€ = 714,2857€. B) La variabile aleatoria X (durata di una candela) può essere rappresentata attraverso una x 1 −λ distribuzione esponenziale di parametro ? = 9300: f (x ) = e . Si ricordi che la media della λ distribuzione esponenziale è pari a ? mentre la varianza è ?2 . − x λ 1. La funzione di ripartizione dell’esponenziale è F ( x ) = 1 − e , per cui P(X > 10700) = e–10700/9300 = 0,3165. 2. In questo caso, poiché la numerosità del campione di candele è sufficientemente elevata, possiamo utilizzare il teorema del limite centrale. Sia D la durata complessiva delle 35 ( ) candele; si ha che D = ∑i=1 X i ~ N 35 µx ,35s 2x . 35 Pertanto, P(D > 343100) = 1 – Φ[(343100 – 35·9300)/(35·9300)] = 0,4784. C) Notiamo in primo luogo che entrambe le domande hanno a che vedere con la distribuzione binomiale con probabilità di “successo” 0,003: nella prima domanda si devono estrarre 35 unità, nella seconda 2 unità. 1. Tale situazione può essere rappresentata tramite una variabile casuale binomiale di parametri 35 e 0,003. Se indichiamo con N il numero di candele difettose all’interno della 35 scatola, si ha che P(N = 1) = 1 – P(N = 0) = 1 – 0,0030 (1 – 0,003)35 = 0,0998. 0 2. Nel caso di candela difettosa ?d = 1/937, nel caso di candela normale invece ?n = 1/9300. Sia G l’evento “la candela è difettosa” e Gc l’evento “la candela non è difettosa” Si ha allora che P(G) = 0,003 e P(Gc) = (1 – 0,003). Condizionatamente alla conoscenza del fatto che la candela sia difettosa e indicando con D la durata delle due candele, abbiamo che: § P(D < 1147| G) = 1 – e–1147/937 = 0,7060. § P(D < 1147| Gc) = 1 – e–1147/9300 = 0,1161. Pertanto, per la legge delle probabilità totali: P(D < 1147) = 0,1161·(1 – 0,003) + 0,7060·0,003 = 0,1175. Possiamo ora applicare il teorema di Bayes: P(G|D < 1147) = P(D < 1147|G)P(G)/P(D < 1147) = 0,0180. D) Se definiamo la densità esponenziale come f (x ) = λe − λx , P(X < Y) = α / (α + β), se invece utilizziamo f (x ) = x 1 −λ e otteniamo P(X < Y) = β / (α + β). λ COGNOME NOME: ZZA Statistica II, Prof. Bruno Chiandotto Prova scritta finale del 17.12.2002 Istruzioni: Usare 4 cifre decimali – Svolgere l'esercizio P P) La società di rilevazioni statistiche Wasp svolge ricerche sulle opinioni politiche degli italiani. Poiché in alcuni casi gli elettori sono restii a confessare le loro opinioni politiche, la società utilizza alcune domande di controllo su argomenti diversi che si ritiene caratterizzino fortemente l’appartenenza a uno schieramento. Ad esempio, si sa che, relativamente a una legislazione più restrittiva sull’aborto, la percentuale di consensi è il 15% tra gli elettori di sinistra, 57% tra quelli di centro e 48% tra quelli di destra. Si sa inoltre che, alle ultime elezioni politiche, i partiti di sinistra hanno raccolto il 30% dei consensi, quelli di centro il 14% e quelli di destra il 56%. 1. Si determini la percentuale di elettori favorevoli a una legislazione più restrittiva sull’aborto. 2. Un elettore intervistato si dichiara contrario a una legislazione più restrittiva: si determini la probabilità che esso abbia votato a sinistra. A) La società di rilevazioni statistiche Wasp svolge indagini sulle opinioni politiche degli italiani per una nota trasmissione televisiva. Per analizzare il grado di soddisfazione degli italiani circa l’operato del governo, sono stati raccolti i giudizi di 792 elettori, sulla base di una scala da 0 (completamente insoddisfatto) a 10 (completamente soddisfatto). L’indagine ha prodotto una media campionaria pari a 4,69 con deviazione standard 1,95. Si considera che un elettore sia insoddisfatto se esprime un giudizio inferiore a 5. 1. Vi è sufficiente evidenza campionaria per sostenere (α = 0,05) che gli italiani non sono soddisfatti dell’operato del governo? 2. Si determini la potenza del test in corrispondenza di un’ipotesi alternativa µ = 4,75. B) Allo stesso campione viene chiesto se sarebbe disposto a votare per l’attuale coalizione di governo se le elezioni si svolgessero in questo momento. Il 45,6% degli intervistati hanno risposto affermativamente. 1. Si costruisca un intervallo di confidenza (α = 0,01) per la proporzione di elettori che sarebbero disposti a rieleggere il governo in carica. 2. Per le prossime elezioni politiche, la società Wasp sarà chiamata a svolgere degli exit-poll. Si determini la dimensione campionaria necessaria per avere un margine di errore massimo pari a ± 1%. C) La società Wasp rileva, tra le altre cose, dati sul reddito degli intervistati. Su un campione di 42 elettori, sono state rilevate le variabili reddito mensile (in euro) e giudizio sull’operato del governo (su una scala da 0 a 10). Sono state ricavate le seguenti statistiche riassuntive: 833 Media giudizio 5,66 Media reddito 150391 Devianza giudizio 1,583 Devianza reddito 2 550,3 σ̂ 19,38 Codevianza 1. Si proceda alla specificazione di un adeguato modello lineare per valutare la relazione tra reddito e giudizio sull’operato del governo e si riportino le stime dei parametri. 2. Si sottoponga a test (α = 0,05) l’ipotesi che il reddito influenzi positivamente il giudizio sull’operato del governo. D) Dopo aver lanciato 28 volte una moneta e aver osservato 16 volte testa, si può concludere che la moneta è equilibrata? Rispondere utilizzando il test LR con α = 0,05. COGNOME NOME: ZZA Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta intermedia del 17.12.2002 P) Si tratta di una semplice applicazione del teorema di Bayes. Indichiamo con F l’evento “essere favorevoli a una legislazione più restrittiva sull’aborto” e con, rispettivamente S, C e D l’aver votato per un partito di sinistra, di centro o di destra. Una volta convertite le percentuali in probabilità si ha: 1. P(F) = P(F|S)P(S) + P(F|C)P(C) + P(F|D)P(D) = 0,3936; 2. P(S|Fc) = P(Fc |S)P(S)/P(Fc) = 0,4205. A) In questo caso abbiamo a che vedere con un test di ipotesi per la media di una popolazione. Poiché il campione è sufficientemente grande, l’utilizzo della distribuzione normale è giustificato nonostante la varianza della popolazione sia ignota. Si tratta di un test unidirezionale a sinistra, per cui il punto critico, in termini standardizzati, è -1,645. x − µ0 1. La statistica test da utilizzare è Z = = -4,47, per cui si rifiuta l’ipotesi nulla. s n s 2. Il punto critico espresso in termini della scala dei giudizi è xc = µ 0 − 1,645 = 4,8860. n Standardizzando tale valore in termini dell’ipotesi alternativa si ottiene la potenza: P( x < xc | H1) = 0,9752. B) Si tratta di un intervallo di confidenza per una proporzione; l’ampiezza della dimensione campionaria consente di utilizzare senza problemi l’approssimazione normale. In questo caso, ai fini del calcolo della varianza, il parametro “vero” della distribuzione p è ignoto, per cui una stima conservativa consiglia di utilizzare il valore di p per cui la varianza è massima, ovvero 0,5. 0,5(1 − 0,5) 1. L’intervallo di confidenza al 99% è dato da pˆ ± 2,576 = [0,4102, 0,5018]. n 2. Un margine di errore di ± 1% equivale a un ampiezza dell’intervallo di confidenza pari a 0,5(1 − 0,5) 0,02; si deve quindi risolvere rispetto a n l’equazione 0,02 = 2 ⋅ 2,576 ⋅ . Si n ottiene pertanto n = 16590. C) Si deve utilizzare un modello di regressione lineare in cui la variabile dipendente è il giudizio sull’operato del governo e quella esplicativa il reddito. Le stime dei parametri sono date da: C xy 1. β̂ 1 = = 550,3/150391 = 0,0037; βˆ o = y − βˆ1 x = 5,66 – 0,0037·833 = 2,6119. Dx 2. Calcoliamo in primo luogo la varianza della pendenza: σˆ β2ˆ = σˆ 2 = 0,0025. Si può ora Dx costruire la statistica test T con 42 – 2 = 40 gradi di libertà per testare l’ipotesi nulla che β 1 = 0 contro l’alternativa β 1 > 0 . Il valore critico di T è pertanto, utilizzando le tavole βˆ della t di Student con 40 gradi di libertà, 1,684; poiché la statistica test è T = 1 = 1,4652, σˆ βˆ 1 1 non si rifiuta l’ipotesi nulla e si conclude che la relazione tra reddito e giudizio sull’operato del governo appare non significativa. D) La verosimiglianza di un campione di n osservazioni con distribuzione di Bernoulli è data da n 1− x l( p ) = ∏i =1 p xi (1 − p ) i ⇒ ln l( p ) = ∑in=1 xi ln p + (n − ∑in=1 xi )ln (1 − p ) e lo stimatore di massima verosimiglianza è pˆ = ∑i =1 xi n n = 0,5714, in corrispondenza del quale ln l( p̂ ) = -19,1214. D’altra parte, nel caso in cui la moneta è equilibrata, si ha ln l( 12 ) = -19,4081; Il test LR vale quindi 0,5734 e, poiché il punto critico per α = 0,05 per un χ 12 è 3,84, non si rifiuta l’ipotesi nulla che la moneta sia equilibrata. ZZA COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Prova scritta del 23.1.2003 Istruzioni: Usare 4 cifre decimali P) L’industria alimentare MATTA produce panettoni. Una macchina dosa automaticamente farina e zucchero; in seguito vengono aggiunti burro, latte, uova, uvetta e canditi. Si sa che le quantità di farina e di zucchero erogate (in grammi) si distribuiscono normalmente con medie, rispettivamente, 782 e 440 e varianze 110 e 103. 1. Si determini la distribuzione del peso dell’impasto di farina e zucchero e la probabilità che il peso dell’impasto risulti inferiore a 1217. 2. Durante la cottura, il panettone ha probabilità di bruciare 0,15 se il peso dell’impasto di farina e zucchero è inferiore a 1217 e 0,08 se è superiore. Sapendo che un panettone è bruciato, si determini la probabilità che in esso l’impasto di farina e zucchero pesasse meno di 1217 grammi. A) La macchina che eroga i canditi è regolata su una media di 80 canditi per panettone. Su un campione di 50 panettoni, il controllo di qualità conta un totale di 3750 canditi. 1. Si esegua una stima per intervallo (α = 0,05) del numero di canditi contenuti in ciascun panettone. 2. Si sottoponga a test (α = 0,05) l’ipotesi che il numero medio di canditi per panettone corrisponda al valore su cui la macchina è regolata. B) Osservando il comportamento dell’apparecchio che eroga il latte, il controllo di qualità ha rilevato una media di 165 cl. per panettone con varianza corretta 130 su 25 erogazioni. 1. Si sottoponga a test (α = 0,05) l’ipotesi nulla che la varianza della quantità di latte erogata sia 100 contro un’alternativa che sia maggiore. 2. Si determini la potenza del test in corrispondenza di un’alternativa σ2 = 155. C) La macchina che eroga l’uvetta può essere regolata in tre modi: poca, media, molta. A un campione di 12 clienti sono stati fatti provare panettoni ottenuti modificando la quantità di uvetta ed è stato chiesto di esprimere un giudizio da 0 a 10. I risultati sono presentati nella tabella seguente: Uvetta Giudizi 7 4 7 6 Poca 6 7 8 5 Media 4 4 8 4 Molta 1. Si specifichi un opportuno modello lineare per il giudizio sul panettone e si riportino le stime dei parametri. 2. Esiste sufficiente evidenza campionaria per sostenere che i giudizi medi dipendono dalla quantità di uvetta (utilizzare α = 0,05)? Cognome e nome: A Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta del 23.1.2003 P) Il peso complessivo risulta dalla somma di due variabili aleatorie con distribuzione normale, e ha pertanto anch’esso distribuzione normale con media 791 + 367 e varianza 101 + 99. 1. La probabilità che il peso complessivo sia inferiore a 1151 grammi risulta quindi dalla standardizzazione [1151 – (791 + 367)]/√(101 + 99) e vale 0,3103. 2. Per la legge delle probabilità totali si ha che la probabilità che un panettone bruci è data da 0,15·0,3103 + 0,09 + (1 – 0,3103) = 0,1086. Applicando il teorema di Bayes, la probabilità che un panettone bruciato pesasse meno di 1151 grammi è data da 0,15·0,3103/0,1086 = 0,4285. A) Si può assumere che il numero di canditi presenti in ciascun panettone segua una distribuzione di Poisson. Il fatto che, in un campione di 50 unità, siano stati contati complessivamente 3600 canditi corrisponde a una media per panettone di 3600/50 = 72 canditi. 1. Poiché è noto che la stima di massima verosimiglianza di λ è pari alla media campionaria e che media e varianza coincidono, l’intervallo di confidenza è dato da 72 ± 1,96·√(72/50) → [69,648; 74,352]. 2. Poiché l’intervallo di confidenza non contiene la media ipotizzata sotto H0, si rifiuta l’ipotesi nulla. B) Si tratta di un test di ipotesi per la varianza: La statistica Y = nS2/σ2 ha distribuzione χ n2 , per cui il valore critico è 37,652. 1. La statistica test vale 30,5 per cui non si rifiuta l'ipotesi nulla che la varianza sia uguale 100. 2. Sotto l’ipotesi nulla il corrispondente non standardizzato del valore critico è 37,652·100/25 = 150,608. Tale valore, standardizzato rispetto a H1, è 150,608·25/155 = 24,2916, che corrisponde a una potenza di circa 0,5. C) Poiché la variabile esplicativa (quantità di uvetta) che si intende utilizzare per spiegare il giudizio è di tipo qualitativo, si usa un modello lineare del tipo g ij = µ + α i + ε ij . 1. Le stime dei parametri sono date da: µ̂ = 6,0909, α̂ p = 0,1591, α̂ m = -0,3409, α̂ t = - 0,0909. 2. Calcoliamo la devianza totale e la devianza between: DT = 36,0000, DB = 0,5992, per cui DW = DT – DB = 35,4008. La statistica [DB/(k – 1)]/ [DW/(n – k)] = 0,0762 ha distribuzione F3 – 1, 12 – 3; il valore critico è quindi 4,26. Pertanto, non si rifuta l’ipotesi nulla che le medie siano uguali. COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Prova scritta del 10.02.2003 Istruzioni: Usare 4 cifre decimali P) La società di gestione di capitali HAZARD-SIM ha una divisione di analisti di bilancio. Le aziende quotate vengono ripartite in “quartili” sulla base del fatturato e suddivise come segue: sono considerate piccole le aziende con fatturato inferiore al primo quartile, medie quelle con fatturato inferiore al terzo e grandi le rimanenti. Capita a volte che i bilanci pubblicati dalle aziende presentino errori ed imprecisioni: si è notato che ciò avviene con probabilità 0,14 per le aziende piccole, 0,07 per le aziende medie e 0,02 per le aziende grandi. 1. Si determini la probabilità che un bilancio scelto a caso presenti delle imprecisioni. 2. Sapendo che un bilancio è stato analizzato e ritenuto impreciso, si determini la probabilità che esso appartenga a un’azienda piccola. A) La HAZARD-SIM deve conservare parte dei fondi raccolti per far fronte ad eventuali richieste di rimborso. Sui dati storici a disposizione, si è osservato che la durata media in anni di un contratto è di 8,64 con varianza 17,28. La distribuzione empirica delle durate risulta inoltre fortemente asimmetrica a destra. 1. Si specifichi un opportuno modello statistico riportando le stime puntuali dei parametri. 2. Sarebbe possibile stimare, sulla base dei risultati della domanda precedente, la probabilità che un contratto duri più di 4 anni? Se sì, la si indichi, altrimenti si spieghi perché non è possibile. B) La customer satisfaction della HAZARD-SIM ha rilevato su un campione casuale di 40 soggetti intervistati che, alla scadenza del contratto, il 39% di essi si rivolgeranno ad un altro intermediario. 1. Si sottoponga a test (α = 0,05) l’ipotesi nulla che almeno la metà dei clienti abbandoneranno la HAZARD-SIM alla scadenza del contratto. 2. Si determini la potenza del test in corrispondenza di un’alternativa p = 0,4. C) La HAZARD-SIM seleziona i titoli da consigliare ai propri clienti sulla base della loro sensitività all’andamento del mercato: in fase di contrazione vengono suggeriti titoli che tendono a muoversi inversamente al mercato, in fase di espansione, al contrario, si consigliano titoli che seguano l’andamento del mercato. Tali tendenze vengono stimate sulla base di dati storici attraverso un modello di regressione lineare del rendimento del titolo a cui si è interessati sul rendimento del mercato; il coefficiente di pendenza della retta di regressione è detto beta del titolo. Il titolo della ditta MATTA è stato esaminato per un periodo di un anno (250 osservazioni) e sono state ricavate le seguenti statistiche riassuntive: 1,39% Rendimento medio del mercato -1,4% Rendimento medio MATTA 230 Devianza mercato 291 Devianza MATTA 2 -109,90 σ̂ 1,37 Codevianza 1. Si stimi l’indice beta del titolo MATTA. 2. Si costruisca un intervallo di previsione per il rendimento del titolo sapendo che il rendimento di mercato sarà il 2%. COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta del 10.02.2003 Istruzioni: Usare 4 cifre decimali P) Si tratta di una semplice applicazione del teorema di Bayes. Notiamo in primo luogo che, a causa della suddivisione in quartili, la probabilità di considerare un’azienda piccola è 0,25, quella di considerarne una media 0,5 e quella di considerarne una grande 0,25. 1. Per la legge delle probabilità totali P(I) = P(I|P)P(P) + P(I|M)P(M)+ P(I|G)P(G) = 0,0750. 2. Per il teorema di Bayes, P(P|I) = P(I|P)P(P)/P(I) = 0,4667. A) Consideriamo in primo luogo che, a causa dell’asimmetria, il ricorso alla distribuzione normale non sembra giustificato. Si potrebbe utilizzare una distribuzione di tipo gamma, con funzione di β α α −1 − βx x e , che ha media α/β e varianza α/β2. densità di probabilità f ( x;α , β ) = Γ(α ) 1. Utilizzando il metodo dei momenti, si ricava αˆ = x 2 s 2 = 4,3200 e βˆ = x s 2 = 0,5000. 2. Notiamo ora che, poiché β̂ è prossimo a ½, possiamo approssimare la distribuzione gamma con una χ2 con 2α = 9 gradi di libertà. Si ha quindi P(X > 4) = 0,9114. B) Poiché viene richiesto di testare il fatto che i clienti si rivolgeranno ad altro intermediario, l’ipotesi nulla appropriata è p = 0,5 contro un’alternativa p < 0,5. L’elevata numerosità campionaria consente l’uso dell’approssimazione normale, per cui la regione di rifiuto si trova alla sinistra di -1,645. 1. Il punto critico, espresso in termini di p, vale 0,5 − 1,645 0,5 ⋅ 0,5 n = 0,3700, per cui l’ipotesi nulla non può essere rifiutata. 2. Standardizzando il punto critico rispetto a H1 otteniamo 0,2646, a cui corrisponde una potenza pari a 0,6043. C) L’indice beta è semplicemente il coefficiente di regressione lineare dei rendimenti della MATTA sul rendimento di mercato. 1. La stima di beta coincide con la stima della pendenza della retta di regressione: β̂ 1 = C xy D x = -0,3777. 2. Per calcolare la previsione abbiamo bisogno anche della stima di β0 e delle varianze degli stimatori. Si ha innanzitutto βˆ o = y − βˆ1 x = 0,8613 e, per quanto riguarda le varianze, 1 x2 = 0,0147. La previsione puntuale vale quindi σˆ β2ˆ = σˆ 2 D x = 0,0047 e σˆ β2ˆ = σˆ + n Dx 1 yˆ = βˆ 0 + βˆ1 x ′ = 0 0,1059% [-2,2378%, 2,4497%]. e l’intervallo è dato da yˆ ± 1,96σˆ 1 + 1 (x′ − x ) + = n Dx 2 COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Prova scritta del 23.4.2003 Istruzioni: Usare 5 cifre decimali P) La centrale nucleare di Springfield è dotata di una pompa di raffreddamento principale e una ausiliaria. Quando la principale va in avaria, il reattore si surriscalda e può arrivare a fondere. Se la pompa ausiliaria viene attivata entro 15 minuti, la fusione avviene con probabilità 0,0033, altrimenti con probabilità 0,9057. H. J. Simpson, addetto alla sicurezza della centrale nucleare di Springfield, è responsabile dell’attivazione delle pompe ausiliarie, ma tende ad addormentarsi al suo posto di lavoro con probabilità 0,6005. Nel caso vi sia un allarme, il suo sonno ha durata esponenziale con media 9,9 minuti. 1. Si determini la probabilità che il reattore fonda. 2. Sapendo che il reattore è fuso, si determini la probabilità che Simpson stesse dormendo e non sia intervenuto per tempo. A) La centrale sorveglia il livello di inquinamento controllando la radioattività di campioni delle acque di raffreddamento, che una vengono poi scaricate nel fiume. In una giornata, un campione di 10 prelievi ha riportato un livello medio di 50,26 Becquerel con deviazione standard corretta 4,8. 1. Ipotizzando che la distribuzione del livello di radioattività nelle acque sia normale, si esegua una stima per intervallo (α = 0,05) del livello di radioattività delle acque di raffreddamento della centrale. 2. Sarebbe possibile determinare la dimensione campionaria necessaria per avere un intervallo di ampiezza 2? In caso affermativo la si indichi, altrimenti si spieghi perché non è possibile. B) Uno studio ha rilevato che l’incidenza della leucemia tra gli abitanti di Springfield in fascia d’età 10-30 anni è 0,0048 contro una media nazionale di 0,001. 1. Sapendo che gli abitanti di Springfield nella fascia d’età 10-30 sono 513, esiste sufficiente evidenza campionaria (α = 0,05) per concludere che gli abitanti sono più esposti al rischio di leucemia rispetto alla media nazionale? 2. Si determini la potenza del test in corrispondenza di un’alternativa H1: 0,005. C) Per verificare l’assorbimento di radiazioni da parte dei cittadini, si è rilevato il livello di cesio nelle urine di 7 dipendenti della centrale, 4 dirigenti e 9 cittadini che non hanno rapporti con essa. I risultati sono presentati nella tabella seguente: Professione Milligrammi di Cesio 4,5 3,4 6,5 7,9 4,8 2,3 6,3 Dipendente centrale 2,6 5,6 5,7 5,8 Dirigente centrale 3,0 3,2 3,0 2,9 3,3 3,3 3,2 3,2 3,2 Altro 1. Si specifichi un opportuno modello lineare per il livello di cesio e si riportino le stime dei parametri. 2. Esiste sufficiente evidenza campionaria per sostenere che i dipendenti (non dirigenti) della centrale assumono più cesio rispetto agli altri (utilizzare α = 0,05)? COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta del 23.04.2003 Istruzioni: Usare 4 cifre decimali P) Indichiamo il fatto che Simpson intervenga prima o dopo i 15 minuti con I e Ic. Simpson interviene in due casi: non si addormenta, oppure si addormenta ma si sveglia per tempo. Al contrario, non interviene se si addormenta e non si sveglia per tempo. Consideriamo quest’ultima prospettiva e calcoliamo in primo luogo la probabilità che non si svegli in tempo, data da 1 meno la funzione di ripartizione di un’esponenziale con media 9,9. Tale probabilità vale P(S > 15) = e–15/9,9 = 0,22078. Notiamo ora che la probabilità di addormentarsi e non svegliarsi è data dalla probabilità di addormentarsi per la probabilità di non svegliarsi condizionata al fatto di essersi addormentato, per cui P(Ic) = 0,13258. 1. La probabilità di fusione sarà allora data da P(F) = P(F|I)P(I) + P(F|Ic)P(Ic) = 0,12294. 2. Per il teorema di Bayes, P(Ic|F) = P(F|Ic)P(Ic)/P(F) = 0,9767. A) Poiché lavoriamo con una dimensione campionaria ridotta, dobbiamo ipotizzare che il livello di radioattività abbia distribuzione normale. s ; i limiti inferiore e superiore sono quindi 1. L’intervallo di confidenza è dato da x ± t n −1 n 48,69284 e 51,82716. 2. Si dovrebbe risolvere rispetto a n l’equazione 2 = 2t n −1 σ̂ ; a parte i problemi derivanti n dalla stima della varianza con una dimensione campionaria ridotta, si noti che l’equazione non è risolvibile in forma chiusa poiché da n dipende il valore di t. Non è pertanto possibile rispondere alla domanda. B) Poiché viene richiesto di testare il fatto che la percentuale di persone che si ammalano di leucemia a Springfield sia superiore rispetto alla media nazionale, l’ipotesi nulla appropriata è p0 = 0,001 contro un’alternativa p > 0,001. L’elevata numerosità campionaria consente l’uso dell’approssimazione normale, per cui la regione di rifiuto si trova alla destra di 1,645. pˆ − p 0 1. La statistica test da utilizzare è = 2,72307, per cui si rifiuta l’ipotesi nulla. p 0 (1 − p 0 ) n 2. Il punto critico in termini di proporzione è dato da p 0 + 1,645 p 0 (1 − p 0 ) n = 0,00330; standardizzandolo rispetto a H1 otteniamo -1,22139, a cui corrisponde una potenza pari a 0,88903. C) Poiché la variabile esplicativa (posizione professionale) che si intende utilizzare per spiegare il livello di cesio è di tipo qualitativo, si usa un modello lineare del tipo g ij = µ + α i + ε ij . 1. Le stime dei parametri sono date da: µ̂ = 4,185, α̂ dip = 0,915, α̂ dir = 0,74, α̂ al = -1,04056. 2. Calcoliamo la devianza totale e la devianza between: DT = 47,6055, DB = 17,79578, per cui DW = DT – DB = 29,80972. La statistica [DB/(k – 1)]/ [DW/(n – k)] = 1,3000 ha distribuzione F3 – 1, 20 – 3; il valore critico è quindi 3,59. Pertanto, si rifiuta l’ipotesi nulla che il livello medio di cesio sia uguale sulle tre categorie professionali. COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Prova scritta del 4.6.2003 Istruzioni: Usare 4 cifre decimali P) Durante l’assedio di Minas Tirith, il 43% della popolazione non in armi morì di fame o malattia e il 12% a causa dei combattimenti. Per quanto riguarda la popolazione in armi, invece, il 65% morì in combattimento e il 17% per fame o malattia. Prima dell’assedio, la popolazione in armi costituiva il 77% del totale. 1. Si determini la probabilità che un abitante scelto a caso prima dell’assedio sopravviva allo stesso. 2. Sapendo che un abitante è sopravvissuto all’assedio, si determini la probabilità che esso fosse sotto le armi. A) Nelle prime 18 ore di assedio, la batteria di arcieri guidata da Legolas è riuscita a uccidere 216 assedianti. 0. Si specifichi un opportuno modello statistico per il numero di assedianti colpiti in un’ora e si ricavino le stime dei parametri, precisando le assunzioni necessarie. Suggerimento: notare che si tratta di dati di conteggio. 2. Qual è la probabilità che nella prossima ora vengano colpiti più di 19 assedianti? B) La principessa Arwen, vicecomandante della batteria di arcieri di Legolas, ritiene di saper tirare in maniera più precisa rispetto al suo capo. Durante un’esercitazione, che consiste nel tirare 21 volte a un bersaglio posto a una distanza fissa e misurare la distanza (in centimetri) del punto colpito dal centro del bersaglio, la varianza campionaria corretta di Arwen è risultata 11,654 e quella di Legolas 26,306. 1. Si sottoponga a test (α = 0,05) l’ipotesi nulla che Arwen sia una tiratrice più precisa rispetto a Legolas, assumendo che la distanza media del centro del bersaglio sia la medesima per entrambi gli arcieri. 2. Si determini la potenza del test in corrispondenza di un’alternativa in cui il tiro di Arwen è due volte più preciso rispetto a quello di Legolas. C) Legolas si sottopone a una prova in cui deve colpire un bersaglio circolare posto a una certa distanza (misurata in metri); la prova viene ripetuta 12 volte posizionando il bersaglio a distanze diverse. La precisione del tiro, misurata come distanza (in centimetri) del punto di impatto della freccia dal centro del bersaglio, è stata rappresentata attraverso un modello del tipo E( y ) = β 0 e β1x . I risultati della stima sono riportati nella tabella seguente. 0,002 D = 12 (x − x ) 5694 β̂ 0 x β̂ 1 σ̂ 0,0190 ∑ i =1 x i 348,8 1,63 1. Sottoporre a test (α = 0,05) l’ipotesi nulla β1 = 0. 2. Costruire un intervallo di previsione al 95% per la precisione di un tiro a un bersaglio posto a 350 metri di distanza. COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta del 4.6.2003 P) Sulla base dei dati indicati si ricava che le percentuali di sopravvissuti per popolazione in armi e non in armi sono, rispettivamente, P(S|A) = 18% e P(S|Ac) = 45%. 1. Per la legge delle probabilità totali, la probabilità di sopravvivenza all’assedio è P(S) = 0,2421. 2. Applicando il teorema di Bayes si ricava P(A|S) = 0,5725. A) Si tratta di dati di conteggio, per cui il modello di Poisson potrebbe essere adeguato. 1. Si tratta di dati rilevati in ordine temporale, l’assunzione necessaria è quindi che i dati non siano autocorrelati. La stima del parametro l, sia che la si ricavi col metodo della massima verosimiglianza che col metodo dei momenti, è pari alla media, ovvero 12. 2. Utilizzando le tavole della distribuzione di Poisson, si ricava P(X > 19) = 0,0213. B) Si tratta di un test (unidirezionale) per il rapporto tra varianze. 1. È sufficiente calcolare il rapporto Var(L)/Var(Ar) = 2,2573 che ha distribuzione F20,20. Il corrispondente valore critico per α = 0,05 è 2,12 per cui si rifiuta l’ipotesi nulla che i due tiratori abbiano la medesima varianza. 2. Il valore della statistica test standardizzata sotto H1 è 1,1286, a cui corrisponde una potenza 0,6053. C) Si tratta di un modello di regressione lineare con trasformazione logaritmica: è sufficiente notare che ln y = ln β 0 + β 1 x . 1. La deviazione standard di β̂ 1 è data da σ̂ /Dx = 0,0003 per cui la statistica test vale 66,3311. Il valore critico della t10 è ± 2,228 per cui si rifiuta l’ipotesi nulla. 2. La previsione puntuale per una distanza pari a 350 metri vale ln ŷ = ln 0,002 + 0,0190 · 350 = 3,9510, per cui ŷ = e3,9510 = 51,9889. L’intervallo di previsione si determina utilizzando la formula ln yˆ ± 2,228σˆ 1 + 1 (350 − x ) + Dx 12 2 e vale [1,1833; 2284,0859]. COGNOME NOME: A1 Statistica II, Prof. Bruno Chiandotto Prova scritta del 17.7.2003 Istruzioni: Usare 4 cifre decimali P) Nella popolazione italiana nella fascia d’età 25-30 anni la percentuale di occupati è del 44% nel nord, del 27% nel centro e del 27% nel sud. Nel nord e nel centro, il 32% degli occupati ha un contratto a tempo indeterminato; tale percentuale è invece del 68% nel sud. La popolazione in fascia d’età 25-30 è così distribuita sul territorio nazionale: 20% al nord, 21% al centro, 59% al sud. 1. Si determini la probabilità che un soggetto estratto casualmente non abbia un contratto a tempo indeterminato. 2. Sapendo che un soggetto non ha un contratto a tempo indeterminato, si determini la probabilità che esso abiti nel sud. A) Uno studio ha analizzato, su un campione di 1000 soggetti, il passaggio dall’università al mondo del lavoro, rilevando che il numero di mesi che trascorre tra il conseguimento della laurea e l’ingresso nel mondo del lavoro ha media 8,22. 1. Utilizzando per i dati un modello esponenziale, si ricavi la stima puntuale del parametro col metodo della massima verosimiglianza e si esegua una stima per intervallo dello stesso (α = 0,1). 2. Si stimi la probabilità che un soggetto impieghi meno di 6 mesi per trovare lavoro. B) Un studio sul salario di ingresso di un campione di 73 laureati in statistica alle università di Firenze e 84 all’università di Napoli ha rilevato un salario medio di 900€ con deviazione standard 104€ per l’università di Firenze e una media di 842€ con deviazione standard 66€ per l’università di Napoli. 1. Esiste sufficiente evidenza campionaria per sostenere, con un livello di significatività α = 0,05, che il salario di ingresso dei laureati in statistica a Firenze è mediamente più alto rispetto ai laureati a Napoli? 2. Si determini la potenza del test in corrispondenza di un’alternativa in cui la differenza di salario vale 50€. C) I dati sul salario mensile di un campione di 23 laureati in statistica a Firenze, divisi per tipo di mansione svolta, sono i seguenti. Mansione Salario mensile 802 828 844 809 756 777 806 782 Raccolta/trattamento dati 819 834 831 755 764 887 Informatica 862 851 894 864 Ricerca 1019 881 1041 510 598 Altro 1. Si specifichi un opportuno modello lineare per il salario mensile e si riportino le stime dei parametri. 2. Esiste sufficiente evidenza campionaria per sostenere (α = 0,05) che il salario medio dei laureati in statistica non dipende dal tipo di mansione svolta? COGNOME NOME: A1 Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta del 17.7.2003 Istruzioni: Usare 4 cifre decimali P) Indichiamo rispettivamente con N, C e S la provenienza territoriale, con O l’essere occupato e con I l’avere un contratto a tempo indeterminato. Calcoliamo in primo luogo P(I|N) = P(I|O, N)· P(O|N) = 0,1408, P(I|C) = 0,1504, P(I|S) = 0,1836. 1. Per la legge delle probabilità totali, P(Ic) = 1 – P(I) = 1 – P(I|N)P(N) + P(I|C)P(C) + P(I|S)P(S) = 0,8319. 2. Per il teorema di Bayes, P(S|Ic) = P(Ic|S)P(S)/ P(Ic) = 0,5790. A) La densità esponenziale è f ( x) = 1 λ e − x λ per x > 0. 1. Si ricava λ̂ = x = 8,22, per cui l’intervallo di confidenza è x ± 1,645 λ̂ 8,6476]. 2. Poiché la funzione di ripartizione è 1 − e − n = [7,7924; x λ , si ha P(x < 6) = 0,5181. B) Si tratta di un test unidirezionale per la differenza tra medie. Le varianze sono incognite, ma la popolazione è di dimensione sufficientemente ampia per utilizzare i corrispettivi campionari. 1. La statistica test vale 4,1010, e il punto critico è 2,33, per cui si rifiuta l’ipotesi nulla che le medie siano uguali. 2. Il punto critico in termini non standardizzati vale 32,9529; standardizzando sotto H1 otteniamo -1,2053 a cui corrisponde una potenza 0,8860. C) Poiché la variabile esplicativa (mansione professionale) che si intende utilizzare per spiegare il salario è di tipo qualitativo, si usa un modello lineare del tipo y ij = µ + α i + ε ij . 1. Le stime dei parametri sono date da: µ̂ = 818,0000, α̂ dati = -17,5000, α̂ in = -3,0000, α̂ ric = -3,0000, α̂ al = -8,2000. 2. Calcoliamo la devianza totale e la devianza between: DT = 268430,0000, DB = 12740,4500, per cui DW = DT – DB = 255689,5500. La statistica [DB/(k – 1)]/ [DW/(n – k)] = 0,3156 ha distribuzione F4 – 1, 23 – 4; il valore critico è quindi 3,13. Pertanto, non si rifiuta l’ipotesi nulla che il salario medio di ingresso sia uguale per le quattro mansioni professionali. COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Prova scritta del 5.9.2003 Istruzioni: Usare 5 cifre decimali P) Il numero di richieste che arrivano in un minuto al server delle biblioteche dell’università si distribuisce secondo una legge di Poisson con parametro 10,1. Se il numero di richieste è superiore a 15, il sistema si guasta con probabilità 0,02, altrimenti con probabilità 0,0001. 1. Considerato un minuto a caso nel corso della giornata, si determini P(G), la probabilità che il sistema si guasti. 2. Avendo osservato un guasto, si determini la probabilità che vi siano state più di 15 richieste. A) Dei ricercatori hanno analizzato il tempo di esecuzione delle richieste che pervengono al server delle biblioteche dell’università. Su un campione di 1000 richieste, si è rilevato un tempo di esecuzione medio di 1,94ms. 1. Utilizzando per i dati un modello esponenziale, si ricavi la stima per intervallo del parametro (α = 0,05). 2. Supponendo che al server arrivino simultaneamente 8 richieste, si determini la probabilità che esse siano eseguite entro 15ms. Suggerimento: utilizzare la distribuzione χ2. B) Il nuovo processore K9 viene reclamizzato come più veloce del 10% rispetto alla concorrenza, a parità di frequenza di clock. La velocità di un processore viene misurata in milioni di operazioni al secondo e i produttori del K9 affermano che essa è 3300 Mflops. Una rivista specializzata mette a confronto un campione di 5 processori K9-3GHz contro altri 5 di marca diversa ma sempre con frequenza 3GHz. La velocità media dei processori K9 è stata 3141 con varianza 10300, quella dei processori di altra marca 2956 con varianza 9630. 1. Si verifichi l’ipotesi, con un livello di significatività α = 0,01, che i processori K9 sono più veloci degli altri, specificando le condizioni che consentono la risoluzione del problema. 2. Supponendo che l’affermazione dei produttori circa la velocità dei processori K9 sia attendibile, si determini la potenza del test in corrispondenza di un’alternativa in cui il K9 è più veloce del 10% rispetto alla concorrenza. C) In generale, la performance dei processori tende a peggiorare all’aumentare della temperatura esterna. Un campione di 22 processori K9 è stato sottoposto a test in diverse condizioni atmosferiche e sono state ricavate le seguenti statistiche riassuntive: 3230 Temperatura media 23° Velocità media K9 55032 Devianza temperatura 521 Devianza velocità K9 -2982 σ̂ 2 1898,21 Codevianza 1. Si specifichi un opportuno modello lineare per la velocità del processore K9, si proceda alla stima puntuale dei parametri caratteristici e si sottoponga a test (α = 0,05) l’ipotesi nulla che la temperatura esterna non abbia influenza sulla velocità. 2. Costruire un intervallo di previsione (α = 0,05) per la velocità del processore in corrispondenza di un temperatura esterna di 38°. COGNOME NOME: A Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta del 5.9.2003 Istruzioni: Usare 5 cifre decimali P) Utilizzando le tavole della distribuzione di Poisson, si ricava che la probabilità di avere meno di 15 richieste vale circa 0,973. 1. È sufficiente applicare la legge delle probabilità totali e si ottiene 0,00064. 2. Applicando il teorema di Bayes, si ricava 0,84732. A) La densità esponenziale è f ( x) = 1 λ e − x λ per x > 0. 1. Si ricava λ̂ = x = 1,94, per cui l’intervallo di confidenza è x ± 1,645 λ̂ n = [2,05279; 1,81976]. 2. La somma di n variabili aleatorie esponenziali di parametro λ ha distribuzione Γ(n, λ). Nel nostro caso, una Γ(8, 1,94) può essere ragionevolmente approssimata con una χ 162 , per cui si ricava che P(X > 15) ≈ 0,5. B) Si tratta di un test unidirezionale per la differenza tra medie. Poiché la dimensione campionaria è ridotta, è necessario assumere che le due popolazioni siano normali e abbiano uguale varianza. 1. La statistica test vale 2,93024, e il punto critico è 2,896, per cui si rifuta l’ipotesi nulla che le medie siano uguali. 2. Il punto critico in termini non standardizzati vale 182,83831; standardizzando sotto H1 otteniamo -1,85574 a cui corrisponde una potenza di 0,94971. C) Si esegue una regressione lineare della velocità contro la temperatura. 1. Si ricava β̂ 1 = C xy D x = -5,72361 e βˆ o = y − βˆ1 x = 3361,64299 e, per quanto riguarda le 1 x2 = 2013,63943. La statistica test è varianze, σˆ β2ˆ = σˆ 2 D x = 3,64340 e σˆ β2ˆ = σˆ 2 + 1 0 n Dx quindi data da βˆ1 σˆ β2ˆ = -2,99859 e ha distribuzione t20, pertanto si rifiuta l’ipotesi nulla. 1 2. La previsione puntuale vale yˆ = βˆ 0 + 38 βˆ1 = 3144,14587, per cui l’intervallo è dato da 1 (38 − x ) yˆ ± 1,96σˆ 1 + + n Dx 2 = [3040,35362; 3247,93813].