1 PROVA SCRITTA DI STATISTICA PROGRAMMA CRISTALLO (A) 27 Maggio 2013 1. Un dipendente di una concessione di vendita deve scegliere se lavorare al banco vendite guadagnando una cifra fissa di 50 euro o fare il venditore ambulante di birre su commissione. Se sceglie il secondo lavoro potrebbe guadagnare 90 euro in una serata calda, 70 euro in una serata di caldo moderato, 45 euro in una serata fresca e 15 euro in una serata fredda. In questo periodo dell’anno, la probabilità di una serata calda è 0.1, di una serata di caldo moderato è 0.3 e di una serata fresca è 0.4. Sia X la variabile aleatoria che descrive gli incassi nel caso in cui viene scelto il secondo lavoro. Calcolare la funzione di ripartizione di X. Calcolare la media di X. Quale lavoro conviene scegliere? 2. Il peso netto X delle scatole di cereali impacchettati segue una distribuzione gaussiana con media µ = 368 gr. Se il 98% delle scatole ha un peso netto sotto i 400 gr, si determini la deviazione standard. 3. Effettuare una regressione lineare tra i pesi delle seguenti coppie di dati che si riferiscono ai pesi di padri e figli. Calcolare il coefficiente di correlazione e commentarlo opportunamente. Padre 60 Figlio 63.6 62 65.2 64 66 65 65.5 66 66.9 67 67.1 68 67.4 70 68.3 72 70.1 74 70 4. In una grande città 105 automezzi dei 650 controllati sono risultati non conformi alle normative vigenti (luci, scarichi, …) Sottoporre a test l’ipotesi che la proporzione di auto fuori norma nella città considerata sia pari a 0.2 in alternativa ad un valore superiore. 1 Correzioni e/o registrazioni mercoledì 29 maggio ore 10.00. 2 PROVA SCRITTA DI STATISTICA PROGRAMMA GALLO 27 Maggio 2013 1. Il diametro interno medio di 100 guarnizioni prodotte da una macchina è di 0.502 pollici e la deviazione standard è di 0.05 pollici. Gli scopi per i quali queste guarnizioni sono prodotte permettono una tolleranza massima nel diametro fra 0.496 e 0.508 pollici, mentre in caso contrario le guarnizioni sono considerate difettose. Assumendo la distribuzione dei diametri come normale, si determini la percentuale delle guarnizioni difettose prodotte dalla macchina. 2. Un dado è truccato in modo che la probabilità sia proporzionale al numero dei puntini su ciascuna faccia. Qual è la probabilità che, lanciando un simile dado, si verifichi un numero pari di puntini? Conviene scommettere sull’evento “uscita numero pari” o “uscita numero dispari”? 3. Un medico ricercatore è convinto che la temperatura basale media delle persone sane sia cresciuta nel tempo e non sia più pari a 98.6 gradi Fahrenheit. Per dimostrarlo misura la temperatura di 100 soggetti sani selezionati a caso, trovando una temperatura media di 98.74 gradi Fahrenheit e una deviazione standard campionaria di 1.1 gradi Fahrenheit. Cosa può concludere ad un livello di significatività del 5%? 4. Si consideri un esperimento che ha 6 possibili esiti, le cui rispettive probabilità sono Esito a b c d e f Frequenza 0.15 0.15 0.03 0.33 0.28 0.06 Si effettua un test replicando 40 volte l’esperimento e si ottiene che le frequenze relative degli esiti sono 3, 3, 5, 18, 4 e 7. Va accettata l’ipotesi nulla? 2 Correzioni e/o registrazioni mercoledì 29 maggio ore 10.00. 3 PROVA SCRITTA DI STATISTICA PROGRAMMA CRISTALLO (B) 27 Maggio 2013 1. In una certa regione vi sono due ditte che producono apparecchi telefonici. Quelle della fabbrica A sono difettose con probabilità 0.05 mentre quelle della fabbrica B sono difettose con probabilità 0.01. Supponendo di acquistare una radio dalla ditta A o B con uguale probabilità, determinare la probabilità di acquistare un telefono difettoso. 2. Il rumore si misura in decibel (dB). La soglia di tollerabilità è intorno a 120 dB. Quelli che seguono sono i valori registrati in 36 differenti occasioni alla stazione di Roma. 82 89 94 110 74 122 112 95 100 78 65 60 90 83 87 75 114 85 69 94 124 115 107 88 97 74 72 68 83 91 90 102 77 125 108 65 (a) Commentare opportunamente gli indici di posizione e di variabilità del campione che seguono calcolati con Excel. Colonna1 Media 90,66667 Errore standard 2,966479 Mediana 89,5 Moda 94 Deviazione standard 17,79888 Varianza campionaria 316,8 Curtosi -0,76879 Asimmetria 0,290173 Intervallo 65 Minimo 60 Massimo 125 Somma 3264 Conteggio 36 Livello di confidenza(95,0%) 6,022281 (b) Determinare l’intervallo di confidenza per la media. (c) Verificare con un test chi-quadrato se il campione casuale segue una legge gaussiana. 3 Correzioni e/o registrazioni mercoledì 29 maggio ore 10.00. Soluzioni – Cristallo A 1. Sia X la variabile aleatoria che indica il guadagno ottenuto come venditore ambulante. Si ha X 15 45 70 90 p 0.2 0.3 0.4 0.1 La media risulta E [ X ] = 0.1× 90 + 0.3 × 70 + 0.4 × 45 + 0.2 ×15 = 51. Non basta questo unico risultato per stabilire quale lavoro conviene. Bisogna determinare anche la deviazione standard D [ X ] = 0.1× (90 − 51)2 + 0.3 × ( 70 − 51) + 0.4 × (45 − 51) 2 + 0.2 × (15 − 51) 2 = 23.10 Essendo un valore elevato, conviene scegliere la retribuzione fissa. Per la funzione di ripartizione si ha 2 Valori 15 45 70 90 Prob. 0,2 0,4 0,3 0,1 Cum. 0,2 0,6 0,9 1 Pertanto la funzione è: x < 15 0 0.2 x ∈ 15, 45 ) [ F ( x) = 0.6 x ∈ [ 45, 70 ) 0.9 x ∈ [ 70,90 ) x ≥ 90 1 2. Si ha P ( X < 400 ) = 0.98. Standardizzando si ha 400 − 368 400 − 368 400 − 368 = z0.02 ⇒ =σ PZ < = 0.98 ⇒ σ σ z0.02 Poiché il quantile corrispondente a 0.02 vale 2.05, segue che la deviazione standard è 15.58. 3. I coefficienti della retta di regressione y = a + bx sono b= N ( ∑ xi yi ) − ( ∑ xi )( ∑ yi ) N ( ∑ xi2 ) − ( ∑ xi ) 2 = 0.46 a = y − bx = 35.97 La media del peso dei padri risulta essere 66.8, la media del peso dei figli risulta essere 67.01. La deviazione standard per la variabile padri risulta valere 4.36, mentre quella per la variabile figli risulta essere 2.06. L’ultima colonna della tabella che segue riporta i valori per il calcolo della covarianza. Il coefficiente di correlazione vale 0.98 ed è quindi elevato. somma 4. Z= Padri=X 60 62 64 65 66 67 68 70 72 74 668 figli=Y 63,6 65,2 66 65,5 66,9 67,1 67,4 68,3 70,1 70 670,1 Prod 3816 4042,4 4224 4257,5 4415,4 4495,7 4583,2 4781 5047,2 5180 44842,4 Quadr 3600 3844 4096 4225 4356 4489 4624 4900 5184 5476 44794 Cov 23,188 8,688 2,828 2,718 0,088 0,018 0,468 4,128 16,068 21,528 8,857778 Per effettuare il test è necessario calcolare il valore della statistica test X − p0 p0 (1 − p0 ) n = −2.45 . La regione di accettazione risulta Z < z0.05 = 1.64 Pertanto il test non rigetta l’ipotesi nulla. Soluzioni – Gallo 1. La media campionaria dei diametri prodotti dalla macchina ha distribuzione gaussiana, poiché la numerosità del campione è 100. La media vale 0.502 e la deviazione standard vale 0.005. La percentuale delle guarnizioni difettose prodotte dalla macchina risulta essere: 0.508 − 0.502 0.496 − 0.502 P ( 0.496 < X < 0.508 ) = P <Z< = P ( −1.2 < Z < 1.2 ) = 0.76 0.005 0.005 2. Si tratta di determinare il valore della costante c tale che 6c + 5c + 4c + 3c + 2c + c = 1 ossia c = 1/ 21 . Pertanto le probabilità risultano Esiti 1 2 3 4 5 6 Prob. 0,05 0,10 0,14 0,19 0,24 0,29 La probabilità che, lanciando un simile dado, si verifichi un numero pari di puntini vale 0.58. Essendo maggiore di 0.5 conviene puntare su questo evento. X − µ0 ≈ Tn −1 S n T-student con n-1 gradi di libertà. Si vuole testare l’ipotesi H 0 : µ = 98.6 contro 3. Si tratta di applicare un T-test per la media. La statistica test risulta T = l’ipotesi alternativa H1 : µ > 98.6 . In tal caso la regione di accettazione è T < tα ,n −1 Poiché il quantile vale 2.03 e la statistica test vale 1.27 non si rigetta l’ipotesi nulla del test. 4. Si tratta di un test chi-quadrato per la bontà di adattamento. La tabella delle frequenze attese e quelle osservate risulta essere Esiti a b c d e f Freq 3 3 5 18 4 7 Prob 0,15 0,15 0,03 0,33 0,28 0,06 Freq.att Stat. Test 6 1,50 6 1,50 1,2 12,03 13,2 1,75 11,2 4,63 2,4 8,82 30,22 Il valore della statistica test risulta 30.22. Il quantile è 11.07. Siccome la statistica test supera il quantile, la distribuzione teorica non fitta quella empirica. Soluzioni – Cristallo (B) 1. Si tratta di usare il teorema delle alternative. Indicati con A l’evento “l’apparecchio telefonico selezionato proviene da A”, con B l’evento “l’apparecchio telefonico selezionato proviene da B” e con D l’evento “l’apparecchio telefonico selezionato è difettoso”, si ha P ( D ) = P( D | A) P( A) + P( D | B) P( B) = 0.05 × 0.5 + 0.01× 0.5 2. (a) Media, mediana assumono valori vicini mentre la moda assume un valore piuttosto diverso da media e mediana. Pertanto la distribuzione ha una coda destra più pesante. Questo in accordo anche con l’indice di asimmetria che vale 0.29. La curtosi è negativa e testimonia una distribuzione con maggiore dispersione rispetto a quella gaussiana tant’è che anche l’errore standard della media ha un valore significativo. (b) L’intervallo di confidenza ha semiampiezza 6.022: tale valore viene calcolato usando l’intervallo di confidenza per la media della popolazione con varianza incognita, ossia I = X ± tα /2, n−1 S con t0.025,35 = 2.030, S = 17.7988, n = 36. n (c) Per rispondere al terzo quesito, è necessario effettuare una ripartizione in classi, del campione casuale. Una scelta potrebbe essere la seguente ( −∞, 75] ;(75,90];(90,105]; (105;120];(120, ∞) Le frequenze osservate risultano: 8, 10, 9, 6, 3. Pertanto la tabella per la costruzione della statistica test osservata risulta: Osservate <75 8 90 10 105 9 120 6 >120 3 somma 36 Attese 6,816835 10,65046 10,96907 5,779866 1,783768 36 Stat. Test 0,205356 0,039726 0,353469 0,008384 0,829268 1,436203 La statistica test vale 1,43 mentre il quantile risulta 5,99 poiché i gradi di gradi di libertà della chi-quadrato sono 5-2-1, avendo stimato media e deviazione standard dal campione casuale.