Statistica 1- parte II Esercitazione 3 Dott.ssa Antonella Costanzo 25/02/2016 Esercizio 1. Verifica di ipotesi sulla media (varianza nota) Il preside della scuola elementare XYZ sospetta che i suoi studenti abbiano un IQ, quoziente di intelligenza, superiore alla media italiana. Dopo aver selezionato casualmente 64 bambini tra i suoi studenti e misurato il loro quoziente di intelligenza, il preside riscontra un valore medio di 106. Supponiamo che l’IQ di uno studente della scuola elementare XYZ sia una variabile aleatoria normale con valore atteso µ, e varianza = 256. Si supponga, inoltre, che il valore medio nazionale sia 100. Si assuma che il preside decida di verificare se i suoi studenti siano più intelligenti della media fissando un livello di significatività α = 5%. Può il preside concludere che i suoi studenti siano più intelligenti della media? Soluzione 1. Definizione del sistema di ipotesi : = 100 : > 100 2. Livello di significatività = 0.05 3. Costruzione della statistica test Siccome la varianza della popolazione è nota, allora: = − ~(0,1) √ 4. Definizione della regola di decisione (regione di rifiuto) Il livello di significatività è = 0.05, il test è unidirezionale, quindi = +1.645 1 R.C. (Regione di Rifiuto) Se ≥ +1.645 allora rifiutiamo l’ipotesi nulla o equivalentemente $. %. &' ) > + .*+ ∙ √ ) > 100 + 1.645 ∙ - = &' 5. Valore della statistica sotto l’ipotesi nulla = 6. Decisione 16 √64 → ' ) > 103.29- 106 − 100 =3 16 √64 Poichè = 3 > 1.645 rifiutiamo l’ipotesi nulla. C’è evidenza sufficiente per affermare che gli studenti della scuola elementare XYZ sono mediamente più intelligenti. Decisione in base al p-value del test Definizione Il p-value o livello di significatività osservato è la probabilità di osservare valori della statistica test meno favorevoli ad del valore effettivamente ottenuto. Di conseguenza un p-value molto piccolo è un forte indicatore del fatto che non è vera. Se il p-value < α, si rifiuta quindi l’ipotesi nulla. Nel nostro caso, essendo il test unidirezionale: 1(' ) = 106| = 100) → 13 > |45 6 1( > 3) = (1 − 0.9987) = 0.0013 Siccome il p-value < α, allora rifiutiamo l’ipotesi nulla. 2 Esercizio 2.Verifica di ipotesi sulla media (varianza ignota) Su un campione di giovani fra i 20 e i 25 anni è stato rilevato il numero di libri letti in un anno ottenendo i seguenti risultati campionari X= "nr. libri letti" 4;5;5;2;6;1;4 E' inoltre ipotizzabile che X si distribuisca secondo una normale. Un editore afferma che, in un anno, i giovani in quella fascia di età leggono mediamente due libri. E' possibile confutare l'ipotesi dell'editore con un livello di significatività del 5%? Soluzione 1. Definizione del sistema di ipotesi : = 2 : ≠ 2 2. Livello di significatività = 0.05 3. Costruzione della statistica test Siccome la varianza della popolazione è ignota, e sapendo che X è normale, allora: : = − ; ~< ;>? √ 4. Definizione della regola di decisione (regione di rifiuto) Il livello di significatività è = 0.05, il test è bidirezionale, quindi. <.+;@ = ±2.447 R.C. (Regione di Rifiuto) Se |: | > 2.447 allora rifiutiamo l’ipotesi nulla o equivalentemente $. %. &' ) < − < ;>? = &' ) < 2 − 2.447 ∙ ∙ ; √ ) > + < - ∪ &' ;>? ∙ ; √ -= 1.773 1.773 ) > 2 + 2.447 ∙ - ∪ &' √7 √7 3 5. Valore della statistica sotto l’ipotesi nulla : = valori campionari: 3.857 − 2 = 2.77 1.773 √7 '̅ = 3.857 7 4 + 5 + 5 + 2 + 6 + 1 + 4 E − 3.857 F = 3.143 → ; = 1.773 ; = 7 7−1 6. Decisione Poichè |: | > 2.447 rifiutiamo l’ipotesi nulla. Esercizio 3. Verifica di ipotesi sulla media (varianza ignota, riflessione su G) In un campione di 15 bambini della città di New York il tempo medio passato a guardare la televisione di 28.50 ore a settimana, con varianza campionaria di 16 ore. L’organizzazione per la Salute per i Bambini Americani raccomanda un massimo di 25 ore per settimana. Il sindaco di New York assicura che i suoi bambini non superano questo limite. Usando un livello di significatività del 2.5%, si può concludere che il sindaco abbia ragione? Si assuma che il tempo speso a guardare la TV dai bambini sia distribuito secondo una normale. Cambierebbe il risultato del test fissando un livello di significatività = 0.10? Motivare la risposta. Soluzione 1. Definizione del sistema di ipotesi : ≤ 25 : > 25 2. Livello di significatività = 0.025 3. Costruzione della statistica test Siccome X si distribuisce secondo una normale e la varianza della popolazione è ignota, allora: : = − ; ~<>? √ 4 4. Definizione della regola di decisione (regione di rifiuto) Il livello di significatività è α = 0.025, il test è a una coda, quindi il quantile della distribuzione t di student da individuare è: <I,.+ = 2.145 R.C. (Regione di Rifiuto) Se : ≥ 2.145 rifiutiamo l’ipotesi nulla o equivalentemente ; 4 ) > 25 + 2.145 ∙ → ' ) > 27.22$. %. &' ) > + <I,.+ ∙ - = &' √ √15 5. Valore della statistica sotto l’ipotesi nulla : = 6. Decisione 28.50 − 25 = 3.39 4 √15 : = 3.39 > 2.145 per cui, data l’evidenza campionaria, si può rifiutare l’ipotesi nulla che il tempo medio passato dai bambini newyorkesi a guardare la TV sia inferiore a 25 ore settimanali. Fissando α = 0.1 Per α = 0.1, per cui il quantile della distribuzione t di student da individuare è: <I,. = 1.345 Se : ≥ 1.345 rifiutiamo l’ipotesi nulla o equivalentemente ; 4 $. %. &' ) > + <I,. ∙ - = &' ) > 25 + 1.345 ∙ → ' ) > 26.39√ √15 (nuova) decisione: Poichè : = 3.39 > 1.345 rifiutiamo ancora l’ipotesi nulla. Così facendo aumenta la probabilità di rifiutare l’ipotesi nulla quando è vera (errore di I tipo). 5 Esercizio 4. Verifica di ipotesi sulla proporzione Si consideri la seguente tabella relativa a un campione di persone classificate secondo il titolo di studio e i diversi atteggiamenti sulla guerra in un recente sondaggio di opinione. Contrario Incerto Favorevole Totale Lic. Media 64 120 40 224 Diploma 56 103 26 185 Laurea 38 72 15 125 Totale 158 295 81 534 a) Si costruisca un intervallo di confidenza al 95% per la proporzione di incerti nella popolazione, a prescindere dal titolo di studio. b) Considerando solo i diplomati, si verifichi l’ipotesi che la proporzione di favorevoli alla guerra sia il 20% contro l’alternativa che sia minore ad un livello α=0.10 Soluzione a) La proporzione stimata di incerti è KL = L'intervallo di confidenza al 95% è 295 = 0.5524 534 0.5524(1 − 0.5524) M%N*+%,PQ = R0.5524 ± 1.96S T = 0.5524 ± 0.0422 534 = NU. VWUX; U. VYZ[Q b) La proporzione di diplomati favorevoli è KL = 1.Definizione del sistema di ipotesi 26 = 0.1405 185 : K = 0.2 : K < 0.2 6 2. Livello di significatività = 0.10 3. Costruzione della statistica test П = KL − K ]K (1 − K ) → (0,1) 4. Definizione della regola di decisione (regione di rifiuto) Il livello di significatività è α = 0.10, il test è a una coda, per cui: = −1.285 R.C. (Regione di Rifiuto) Se П ≤ ^ rifiutiamo l’ipotesi nulla o equivalentemente _ 0.20(1 − 0.20) K (1 − K ) $. %. `KL ≤ K − S a = `KL ≤ 0.2 − 1.285S a 185 $. %. bKL ≤ 0.167c 5. Valore della statistica sotto l’ipotesi nulla П = 6. Decisione 0.1405 − 0.20 ]0.20(1 − 0.20) 185 = −1.870 Essendo П = −1.870 < −1.285 si rifiuta l'ipotesi nulla: la percentuale dei favorevoli nella popolazione dei diplomati sembra minore del 20%. 7 Esercizio 5. Verifica di ipotesi sulla varianza Un macchinario produce batterie al lithio che hanno una durata di vita media di 3 anni con un scarto quadratico medio di 1 anno. E' noto che la variabile durata di vita di una batteria segue una legge normale. Estratto il seguente campione di n=5 batterie caratterizzate da una durata di: 1.9,2.4,3,3.5,4.2 si vuole verificare, ad un livello di significatività del 5%, se la varianza dichiarata per le batterie prodotte dal macchinario sia effettivamente pari a 1. Soluzione 1. Definizione del sistema di ipotesi : = 1 : ≠ 1 2. Livello di significatività = 0.05 3. Costruzione della statistica test d = ( − 1) e ~dα⁄,>? 4. Definizione regola di decisione (regione di rifiuto) Il test è bidirezionale, dunque i quantili della distribuzione chi-quadro sono rispettivamente: d.+,I = 11.14 percentile di destra, d.*g+,I = 0.48 percentile di sinistra R.C. (Regione di Rifiuto) se bd < d? ∪ d > d^;>? c = bd < 0.48 ∪ d > 11.14c →rifiuto ossia ^ ;>? _ _ 5. Valore della statistica test sotto l'ipotesi nulla d = (5 − 1) 0.9 = 3.6 1 8 6. Decisione Poichè il valore della statistica test è compreso nei limiti della regione di accettazione, ossia 0.48<3.6<11.14, si accetta l'ipotesi nulla e, di conseguenza, si attesta che la varianza della durata delle batterie prodotte non si discosta significativamente da 1. Esercizio 6. Verifica di ipotesi sulla media (varianza nota), potenza del test Il calore (calorie per grammo) emesso da un composto di cemento segue una distribuzione normale con deviazione standard nota e pari a 2. E' noto che, in media, il calore emesso dal composto è pari a 100. Si estrae un campione di n=9 unità di prodotto e si registra una media di 102 calorie per grammo. a) Verificare, con un livello di significatività = 0.01 il seguente sistema di ipotesi: : = 100h; : ≠ 100. Definire l'errore di I tipo. b) Determinare l'errore di II tipo e la potenza del test ipotizzando che = 103 Soluzione a) 1. Definizione del sistema di ipotesi : = 100 : ≠ 100 2. Livello di significatività = 0.01 3. Costruzione della statistica test = − ~(0,1) √ 4 Definizione della regola di decisione (regione di rifiuto) Il livello di significatività è = 0.01, il test è bidirezionale, allora: = ±2.575 Regione di rifiuto (R.C.): Se| | > 2.575 allora rifiutiamo l’ipotesi nulla o equivalentemente $. %. &' ) < − .**+ ∙ √ ) > + .**+ ∙ - ∪ &' √ ) < 98.27 ∪ ' ) > 101.73c - → b' 9 5. Valore della statistica test sotto l'ipotesi nulla = 6. Decisione 102 − 100 =3 2 √9 Siccome | | > 2.575 rifiuto l'ipotesi nulla Errore di I tipo : 1( ∈ $. %. | hjkl) = 1( < −2.575 ∪ > 2.575| = 100) = 0.01 b) Indichiamo con : = 103, e con R.A. la regione di accettazione tale che: $. m = b98.27 ≤ ' ) ≤ 101.73c allora l'errore di II tipo è definito come: n: 1 o n: 1( ∈ $. m. | hjkl) = 1(98.27 ≤ ' ) ≤ 101.73| = 103) 98.27 − 103 101.73 − 103 ≤ |4p ≤ q = 13−7.05 ≤ |4p ≤ −1.896 = 2 2 √9 √9 = 13|4p ≤ −1.896 = 0.0294 La potenza del test è pari a 1 − n = 1 − 0.0294 = 0.9706 10