Esercitazioni del corso: STATISTICA

UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
A. A. 2011-2012
Esercitazioni del corso:
STATISTICA
Elena Siletti: [email protected]
Sommario Esercitazione 9:
•
Verifica d’Ipotesi
•
Test Z e test T
•
Test d’Indipendenza
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
ESERCIZIO 1
Si vuole sperimentare un nuovo farmaco che, secondo le indicazioni della casa
farmaceutica, ha effetto dopo 25 minuti dall’assunzione. Scelto un campione casuale di
25 individui mediante il quale si verifica l’ipotesi nulla:
H 0 : µ = 25
contro l’alternativa:
H1 : µ ≠ 25
al livello di significatività α = 0.05 , sapendo che la stima campionaria è x = 30 e che la
variabile X “tempo che intercorre tra l’assunzione del farmaco e l’effetto” ha una
distribuzione Normale con varianza σ 2 = 49 .
Svolgimento
Siamo nelle condizioni iniziali di:
-
distribuzione Normale
-
varianza nota
dobbiamo utilizzare la statistica test:
Z=
X − µ0
σ
n
che utilizzando i seguenti dati
x = 30
ci fornisce il seguente valore:
z=
µ0 = 25
x − µ0
σ
n
=
σ 2 = 49
n = 25
30 − 25 5
5 25
= = 5⋅ =
= 3.57
7
7 7
49
5
25
Ricordando che si rifiuta H0 a un livello di significatività
(1 − α )
se il valore
sperimentale cade nella regione critica o di rifiuto, ovvero se:
x − µ0
x − µ0
oppure se
≥ zα
≤ − zα
σ
σ
2
n
2
n
posto che:
α = 0.05
e
α
2
= 0.025
(
si ottiene dalle tavole lo zα per cui la P Z ≤ zα
2
2
) = 0.95 + 0.025 = 0.975
ovvero: zα = 1.96
2
Elena Siletti: [email protected]
2
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
Sapendo che il valore sperimentale è z = 3.57 , ed essendo:
3.57 ≥ 1.96
rifiutiamo l’ipotesi nulla, ovvero il tempo che intercorre tra l’assunzione del farmaco e il
suo effetto non è di 25 minuti.
Dovendo prendere tale decisione con la regole del p-value dovremmo rifiutare l’ipotesi
nulla se p − value ≤
α
.
2
Nel nostro caso il p-value è:
P ( Z > 3.57 ) = 1 − Φ ( 3.57 ) ≅ 0
quindi essendo 0 ≤ 0.025 rifiutiamo H0.
ESERCIZIO 2
Il prodotto contenuto nei barattoli riempiti automaticamente nella catena di montaggio
segue una distribuzione Normale di media µ = 2 litri e varianza σ 2 = 0.1 . Si teme che a
causa di una momentanea sospensione dell’energia elettrica si sia verificato un mal
funzionamento del’impianto e che il contenuto possa essere diverso da quello
dichiarato. Si vuole pertanto verificare l’ipotesi che il contenuto medio sia ancora di 2
litri. A tal fine si analizzano 25 barattoli, ottenendo nel campione un valor medio pari a
2.2 litri. Fissato un livello di significatività di α = 0.10 , si può ritenere che il guasto
abbia modificato il contenuto medio della produzione ? Ovvero verificare l’ipotesi che
H0 : µ = 2
contro l’alternativa:
H1 : µ ≠ 2
Successivamente si supponga di non avere la certezza che la varianza sia rimasta
invariata, per cui si stima attraverso il campione anche la varianza ottenendo s 2 = 0.2 .
Fissato α = 0.01 si voglia sempre verificare se
H0 : µ = 2
contro l’alternativa:
H1 : µ ≠ 2
Svolgimento
Siamo nelle condizioni iniziali di:
-
distribuzione Normale
-
varianza nota
dobbiamo utilizzare la statistica test:
Z=
X − µ0
σ
n
che utilizzando i seguenti dati
x = 2.2
ci fornisce il seguente valore:
µ0 = 2
σ 2 = 0.1
n = 25
Elena Siletti: [email protected]
3
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
z=
x − µ0
σ
=
n
2.2 − 2 0.2
5
=
= 0.2 ⋅
= 3.125
0.32
0.32
0.1
5
25
Ricordando che si rifiuta H0 a un livello di significatività
(1 − α )
se il valore
sperimentale cade nella regione critica o di rifiuto, ovvero se:
x − µ0
x − µ0
≤ − zα
oppure se
≥ zα
σ
σ
2
n
posto che α = 0.10
2
n
α
e
2
= 0.05
(
si ottiene dalle tavole lo zα per cui la P Z ≤ zα
2
2
) = 0.90 + 0.05 = 0.95
ovvero: zα = 1.65
2
sapendo che il valore sperimentale è z = 3.125 , ed essendo:
3.125 ≥ 1.65
rifiutiamo l’ipotesi nulla ovvero che il guasto non abbia modificato il contenuto medio
della produzione.
Dovendo prendere tale decisione con la regole del p-value dovremmo rifiutare l’ipotesi
nulla se p − value ≤
α
.
2
Nel nostro caso il p-value è:
P ( Z > 3.125 ) = 1 − Φ ( 3.125 ) ≅ 0
ovvero essendo 0 ≤ 0.05 rifiutiamo H0.
Ora siamo nelle condizioni iniziali di:
-
distribuzione Normale
-
varianza ignota
dobbiamo utilizzare la statistica test:
Tn −1 =
che utilizzando i seguenti dati
x = 2.2
ci fornisce il seguente valore:
t 24 =
x − µ0
σ
n
µ0 = 2
=
X − µ0
s
n
s 2 = 0.2
n = 25
2.2 − 2 0.2
5
=
= 0.2 ⋅
= 2.22
0.45
0.45
0.2
5
25
Elena Siletti: [email protected]
4
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
Ricordando che si rifiuta H0 a un livello di significatività
(1 − α )
se il valore
sperimentale cade nella regione critica o di rifiuto, ovvero se:
x − µ0
x − µ0
≤ −t α
oppure se
≥ tα
s
s
2
2
n
n
α = 0.01
e
α
2
= 0.005
24
= 4.6041 che lascia a
Dalle tavole della T di Student con 24 gdl ricaviamo tα24 = t0.005
2
destra una probabilità pari a 0.005.
Sapendo che il valore sperimentale è t = 2.22 , ed essendo:
−4.6041 < 2.22 < 4.6041
Accettiamo l’ipotesi nulla ovvero che il guasto non abbia modificato il contenuto medio
della produzione.
ESERCIZIO 3
In occasione delle ultime elezioni amministrative il partito A ha ottenuto una
percentuale di voti pari al 30%. Per stabilire, in vista delle prossime lezioni politiche, se
si è verificata una perdita nelle preferenze per il partito A, si estrae una campione
bernoulliano di n = 100 individui ottenendo una percentuale di voti per A pari al 29%.
Si vuole stabilire se lo scarto osservato fra la percentuale delle ultime elezioni e quella
del campione può essere considerato casuale o invece indicatore di una perdita di
consensi, fissando in α = 0.05 il livello di significatività del test.
Svolgimento
Le ipotesi risultano essere le seguenti, mantenimento dei consensi:
H 0 : p = 0.30
contro l’alternativa, perdita di consensi:
H1 : p < 0.30
La v.c. “numero di voti attribuiti al partito A” è Binomiale; tuttavia, poiché la
dimensione del campione è sufficientemente grande la distribuzione può essere
approssimata ad una Normale. Pertanto la verifica d’ipotesi può essere condotta
ricorrendo alla statistica test
X
− p0
n
Z=
p0 q0
n
Sostituendo i dati forniti dal testo diventa:
Elena Siletti: [email protected]
5
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
x
− p0
0.29 − 0.30
−0.01
z= n
=
=
= −0.218
p0 q0
0.30 ⋅ 0.70
0.21
100
100
n
Osservando che il test è unidirezionale, si ricava il valore critico del test:
α = 0.05
Ci interessa conoscere lo − zα per cui la P ( Z ≤ − zα ) = 0.05
Dalle tavole otteniamo zα = 1.65 per cui la P ( Z ≤ zα ) = 0.95 , cambiando segno
otteniamo − zα = −1.65
Sapendo che il valore sperimentale è z = −0.218 , ed essendo:
−0.218 ≥ −1.65
Si accetta l’ipotesi nulla ovvero si ritiene che la differenza osservata sia casuale e non
tale da indicare una riduzione significativa dei consensi.
ESERCIZIO 4
Nell’ambito di un indagine sulla qualità della vita, si vuole verificare se sussiste una
relazione significativa (α = 0.05) tra il reddito medio mensile delle famiglie residenti e
la dimensione delle famiglie stesse. A tale scopo si dispone di un campione di famiglie
la cui distribuzione bivariata è riportata nella seguente tabella:
Classi di Reddito
500 -| 750
750 -| 1200
1200 -| 1700
1700 -| 3000
1
600
540
300
60
1500
n° Componenti
2o3
4o5
7850
9700
9050
9250
2150
3750
250
500
19300
23200
6o7
650
600
450
10
1710
18800
19440
6650
820
45710
Svolgimento
Per verificare l’ipotesi di indipendenza occorre prima calcolare le frequenze
teoriche:
Classi di reddito
500 -| 750
750 -| 1200
1200 -| 1700
1700 -| 3000
n° Componenti
1
2o3
616.93
7937.87
637.93
8208.09
218.22
2807.81
26.91
346.23
4o5
9541.89
9866.73
3375.19
416.19
6o7
703.30
727.25
248.77
30.68
Successivamente dobbiamo applicare la seguente statistica test:
χ = ∑∑
2
i
j
(n
ij
− nˆij )
2
nˆij
Elena Siletti: [email protected]
6
UNIVERSITÀ DEGLI STUDI DI MILANO – BICOCCA
FACOLTÀ DI SOCIOLOGIA
Statistica – a. a. 2011-2012
ottenendo: χ = ∑∑
2
i
j
(n
ij
− nˆij )
nˆij
2
= 657.69
Per un livello di significatività α = 0.05 e con gdl = ( h − 1)( k − 1) = 3 ⋅ 3 = 9 , si osserva
dalle tavole che χ 29;0.05 = 16.91 ; e poiché la regola di decisione ci impone di rifiutare
l’ipotesi nulla se
2
χ 2 ≥ χ 9;0.05
avendo nel nostro caso 657.69 > 16.91 dobbiamo rifiutare l’ipotesi nulla di
indipendenza. Questo significa che esiste una relazione significativa tra il reddito
mensile delle famiglie e la loro dimensione.
Elena Siletti: [email protected]
7