UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA A. A. 2011-2012 Esercitazioni del corso: STATISTICA Elena Siletti: [email protected] Sommario Esercitazione 9: • Verifica d’Ipotesi • Test Z e test T • Test d’Indipendenza UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 ESERCIZIO 1 Si vuole sperimentare un nuovo farmaco che, secondo le indicazioni della casa farmaceutica, ha effetto dopo 25 minuti dall’assunzione. Scelto un campione casuale di 25 individui mediante il quale si verifica l’ipotesi nulla: H 0 : µ = 25 contro l’alternativa: H1 : µ ≠ 25 al livello di significatività α = 0.05 , sapendo che la stima campionaria è x = 30 e che la variabile X “tempo che intercorre tra l’assunzione del farmaco e l’effetto” ha una distribuzione Normale con varianza σ 2 = 49 . Svolgimento Siamo nelle condizioni iniziali di: - distribuzione Normale - varianza nota dobbiamo utilizzare la statistica test: Z= X − µ0 σ n che utilizzando i seguenti dati x = 30 ci fornisce il seguente valore: z= µ0 = 25 x − µ0 σ n = σ 2 = 49 n = 25 30 − 25 5 5 25 = = 5⋅ = = 3.57 7 7 7 49 5 25 Ricordando che si rifiuta H0 a un livello di significatività (1 − α ) se il valore sperimentale cade nella regione critica o di rifiuto, ovvero se: x − µ0 x − µ0 oppure se ≥ zα ≤ − zα σ σ 2 n 2 n posto che: α = 0.05 e α 2 = 0.025 ( si ottiene dalle tavole lo zα per cui la P Z ≤ zα 2 2 ) = 0.95 + 0.025 = 0.975 ovvero: zα = 1.96 2 Elena Siletti: [email protected] 2 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 Sapendo che il valore sperimentale è z = 3.57 , ed essendo: 3.57 ≥ 1.96 rifiutiamo l’ipotesi nulla, ovvero il tempo che intercorre tra l’assunzione del farmaco e il suo effetto non è di 25 minuti. Dovendo prendere tale decisione con la regole del p-value dovremmo rifiutare l’ipotesi nulla se p − value ≤ α . 2 Nel nostro caso il p-value è: P ( Z > 3.57 ) = 1 − Φ ( 3.57 ) ≅ 0 quindi essendo 0 ≤ 0.025 rifiutiamo H0. ESERCIZIO 2 Il prodotto contenuto nei barattoli riempiti automaticamente nella catena di montaggio segue una distribuzione Normale di media µ = 2 litri e varianza σ 2 = 0.1 . Si teme che a causa di una momentanea sospensione dell’energia elettrica si sia verificato un mal funzionamento del’impianto e che il contenuto possa essere diverso da quello dichiarato. Si vuole pertanto verificare l’ipotesi che il contenuto medio sia ancora di 2 litri. A tal fine si analizzano 25 barattoli, ottenendo nel campione un valor medio pari a 2.2 litri. Fissato un livello di significatività di α = 0.10 , si può ritenere che il guasto abbia modificato il contenuto medio della produzione ? Ovvero verificare l’ipotesi che H0 : µ = 2 contro l’alternativa: H1 : µ ≠ 2 Successivamente si supponga di non avere la certezza che la varianza sia rimasta invariata, per cui si stima attraverso il campione anche la varianza ottenendo s 2 = 0.2 . Fissato α = 0.01 si voglia sempre verificare se H0 : µ = 2 contro l’alternativa: H1 : µ ≠ 2 Svolgimento Siamo nelle condizioni iniziali di: - distribuzione Normale - varianza nota dobbiamo utilizzare la statistica test: Z= X − µ0 σ n che utilizzando i seguenti dati x = 2.2 ci fornisce il seguente valore: µ0 = 2 σ 2 = 0.1 n = 25 Elena Siletti: [email protected] 3 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 z= x − µ0 σ = n 2.2 − 2 0.2 5 = = 0.2 ⋅ = 3.125 0.32 0.32 0.1 5 25 Ricordando che si rifiuta H0 a un livello di significatività (1 − α ) se il valore sperimentale cade nella regione critica o di rifiuto, ovvero se: x − µ0 x − µ0 ≤ − zα oppure se ≥ zα σ σ 2 n posto che α = 0.10 2 n α e 2 = 0.05 ( si ottiene dalle tavole lo zα per cui la P Z ≤ zα 2 2 ) = 0.90 + 0.05 = 0.95 ovvero: zα = 1.65 2 sapendo che il valore sperimentale è z = 3.125 , ed essendo: 3.125 ≥ 1.65 rifiutiamo l’ipotesi nulla ovvero che il guasto non abbia modificato il contenuto medio della produzione. Dovendo prendere tale decisione con la regole del p-value dovremmo rifiutare l’ipotesi nulla se p − value ≤ α . 2 Nel nostro caso il p-value è: P ( Z > 3.125 ) = 1 − Φ ( 3.125 ) ≅ 0 ovvero essendo 0 ≤ 0.05 rifiutiamo H0. Ora siamo nelle condizioni iniziali di: - distribuzione Normale - varianza ignota dobbiamo utilizzare la statistica test: Tn −1 = che utilizzando i seguenti dati x = 2.2 ci fornisce il seguente valore: t 24 = x − µ0 σ n µ0 = 2 = X − µ0 s n s 2 = 0.2 n = 25 2.2 − 2 0.2 5 = = 0.2 ⋅ = 2.22 0.45 0.45 0.2 5 25 Elena Siletti: [email protected] 4 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 Ricordando che si rifiuta H0 a un livello di significatività (1 − α ) se il valore sperimentale cade nella regione critica o di rifiuto, ovvero se: x − µ0 x − µ0 ≤ −t α oppure se ≥ tα s s 2 2 n n α = 0.01 e α 2 = 0.005 24 = 4.6041 che lascia a Dalle tavole della T di Student con 24 gdl ricaviamo tα24 = t0.005 2 destra una probabilità pari a 0.005. Sapendo che il valore sperimentale è t = 2.22 , ed essendo: −4.6041 < 2.22 < 4.6041 Accettiamo l’ipotesi nulla ovvero che il guasto non abbia modificato il contenuto medio della produzione. ESERCIZIO 3 In occasione delle ultime elezioni amministrative il partito A ha ottenuto una percentuale di voti pari al 30%. Per stabilire, in vista delle prossime lezioni politiche, se si è verificata una perdita nelle preferenze per il partito A, si estrae una campione bernoulliano di n = 100 individui ottenendo una percentuale di voti per A pari al 29%. Si vuole stabilire se lo scarto osservato fra la percentuale delle ultime elezioni e quella del campione può essere considerato casuale o invece indicatore di una perdita di consensi, fissando in α = 0.05 il livello di significatività del test. Svolgimento Le ipotesi risultano essere le seguenti, mantenimento dei consensi: H 0 : p = 0.30 contro l’alternativa, perdita di consensi: H1 : p < 0.30 La v.c. “numero di voti attribuiti al partito A” è Binomiale; tuttavia, poiché la dimensione del campione è sufficientemente grande la distribuzione può essere approssimata ad una Normale. Pertanto la verifica d’ipotesi può essere condotta ricorrendo alla statistica test X − p0 n Z= p0 q0 n Sostituendo i dati forniti dal testo diventa: Elena Siletti: [email protected] 5 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 x − p0 0.29 − 0.30 −0.01 z= n = = = −0.218 p0 q0 0.30 ⋅ 0.70 0.21 100 100 n Osservando che il test è unidirezionale, si ricava il valore critico del test: α = 0.05 Ci interessa conoscere lo − zα per cui la P ( Z ≤ − zα ) = 0.05 Dalle tavole otteniamo zα = 1.65 per cui la P ( Z ≤ zα ) = 0.95 , cambiando segno otteniamo − zα = −1.65 Sapendo che il valore sperimentale è z = −0.218 , ed essendo: −0.218 ≥ −1.65 Si accetta l’ipotesi nulla ovvero si ritiene che la differenza osservata sia casuale e non tale da indicare una riduzione significativa dei consensi. ESERCIZIO 4 Nell’ambito di un indagine sulla qualità della vita, si vuole verificare se sussiste una relazione significativa (α = 0.05) tra il reddito medio mensile delle famiglie residenti e la dimensione delle famiglie stesse. A tale scopo si dispone di un campione di famiglie la cui distribuzione bivariata è riportata nella seguente tabella: Classi di Reddito 500 -| 750 750 -| 1200 1200 -| 1700 1700 -| 3000 1 600 540 300 60 1500 n° Componenti 2o3 4o5 7850 9700 9050 9250 2150 3750 250 500 19300 23200 6o7 650 600 450 10 1710 18800 19440 6650 820 45710 Svolgimento Per verificare l’ipotesi di indipendenza occorre prima calcolare le frequenze teoriche: Classi di reddito 500 -| 750 750 -| 1200 1200 -| 1700 1700 -| 3000 n° Componenti 1 2o3 616.93 7937.87 637.93 8208.09 218.22 2807.81 26.91 346.23 4o5 9541.89 9866.73 3375.19 416.19 6o7 703.30 727.25 248.77 30.68 Successivamente dobbiamo applicare la seguente statistica test: χ = ∑∑ 2 i j (n ij − nˆij ) 2 nˆij Elena Siletti: [email protected] 6 UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA FACOLTÀ DI SOCIOLOGIA Statistica – a. a. 2011-2012 ottenendo: χ = ∑∑ 2 i j (n ij − nˆij ) nˆij 2 = 657.69 Per un livello di significatività α = 0.05 e con gdl = ( h − 1)( k − 1) = 3 ⋅ 3 = 9 , si osserva dalle tavole che χ 29;0.05 = 16.91 ; e poiché la regola di decisione ci impone di rifiutare l’ipotesi nulla se 2 χ 2 ≥ χ 9;0.05 avendo nel nostro caso 657.69 > 16.91 dobbiamo rifiutare l’ipotesi nulla di indipendenza. Questo significa che esiste una relazione significativa tra il reddito mensile delle famiglie e la loro dimensione. Elena Siletti: [email protected] 7