Test Statistici

Facoltà di Sociologia
Statistica: 8° settimana
a.a. 20092009-2010
Docente: Elena Siletti - [email protected]
Esercitatore: Alessandro Barbiero
Test Statistici
verificare ipotesi statistiche utilizzando i dati campionari
L’obiettivo non è più utilizzare il campione per costruire un valore od un
intervallo di valori ragionevolmente sostituibili all’ignoto parametro
Supponendo di lavorare in un contesto applicativo che ci permette di
formulare un’ipotesi circa il valore dell’ignoto parametro, i dati
campionari sono impiegati per stabilire se tale ipotesi è
ragionevolmente accettabile o rifiutabile
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
1
Ipotesi Statistica
Un’ipotesi statistica è una congettura formulata a priori riguardante
una qualche caratteristica del fenomeno nella popolazione
Può riguardare il valore di un parametro della popolazione, ad
esempio la media µ
in questo caso si parla di ipotesi parametrica
L’ipotesi di esistenza o meno di una relazione statistica tra due
fenomeni
è un esempio di ipotesi non parametrica
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Ipotesi Nulla
Si chiama ipotesi nulla H 0 la formalizzazione dell’ipotesi
statistica emessa e che si vuole sottoporre a verifica
con un test statistico
H0 : µ = 5
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
2
Verifica di Ipotesi
è la metodologia inferenziale che a partire dai
dati campionari e su base probabilistica
porta a decidere se accettare o rifiutare
l’ipotesi nulla
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test Statistico - Test di Significatività
è la regola pratica che porta ad accettare o
rifiutare l’ipotesi nulla
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
3
Errore Campionario
Un test statistico è basato sui dati campionari, è dunque condotto in
condizioni di incertezza:
• quando il test porta al rifiuto di H 0, questo non significa
necessariamente che H 0 sia falsa, ma solo che i dati campionari non
suffragano sufficientemente H 0
• quando il test porta all’accettazione di H 0, questo non significa
necessariamente che H 0 sia vera, ma solo che i dati campionari
supportano a sufficienza H 0
Accettare o rifiutare H 0 sulla base dei dati campionari comporta
inevitabilmente il rischio di commettere un errore:
Errore di I Specie, l’errore che si commette rifiutando H 0 quando è vera
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Errore Campionario
Errore di II Specie, l’errore che si commette accettando H 0 quando è falsa
Per tener conto di entrambi gli errori è necessaria una teoria dei test più
avanzata, nel nostro caso i test di significatività controllano
probabilisticamente l’errore di I specie
Errore di I Specie, l’errore che si commette rifiutando H 0 quando è
vera quindi ci interessa una “probabilità di sbagliare” = α
α = P ( rifiutare H 0 | H 0 vera )
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
4
Errore Campionario – Livello di Significatività
la “probabilità di fare bene” = 1 – α
è chiamato Livello di Significatività
1 − α = P ( accettare H 0 | H 0 vera )
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test per la Media – Popolazione Normale e Varianza nota
X ∼ N ( µ ; σ 2 nota )
•
H 0 : µ = µ0
Fissata la numerosità n si estrae un campione bernoulliano
•
Si calcola la stima puntuale per µ
x=
•
1 n
∑ xi
n i =1
Si sceglie la probabilità di sbagliare (α ), cioè di commettere l’errore di I specie:
rifiutare H 0 quando è vera
•
Standardizzando otteniamo la Statistica Test
X − µ0
σ2 n
= Z ∼ N ( 0;1)
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
5
Test per la Media – Popolazione Normale e Varianza nota
Se H 0 è vera la differenza tra la stima media campionaria e µ 0 risulta
piccola, mentre se H 0 è falsa la differenza tra la stima media
campionaria e µ 0 risulta grande
Allora:
•
•
I valori della statistica test Z intorno allo 0 depongono a favore
dell’accettazione di H 0
I valori della statistica test Z lontani dallo 0 depongono per il rifiuto di H
0
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test per la Media – Popolazione Normale e Varianza nota


X − µ0
P ( accettare H 0 | H 0 vera ) = P  − zα 2 ≤
≤ zα 2  = 1 − α
2


σ n


 X −µ
 α α
X − µ0
0
P ( rifiutare H 0 | H 0 vera ) = P 
≤ − z α 2 oppure
≥ zα 2  = + = α
 σ2 n
 2 2
σ2 n


valore sperimentale:
x − µ0
σ2 n
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
6
Test per la Media – Popolazione Normale e Varianza nota
Test: si rifiuta H 0 a livello ( 1 – α ) se il valore sperimentale cade nella
regione critica, ovvero se:
x − µ0
σ2 n
≤ − zα 2
x − µ0
oppure se:
σ2 n
≥ zα 2
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test per la Media – Popolazione Normale e Varianza ignota
X ∼ N ( µ ; σ 2 ignota )
•
•
Fissata la numerosità n si estrae un campione bernoulliano
Si calcola la stima puntuale per la media e per la varianza
x=
•
H 0 : µ = µ0
1 n
∑ xi
n i =1
s2 =
1 n
2
∑ ( xi − x )
n − 1 i =1
Si sceglie la probabilità di sbagliare (α ), cioè di commettere l’errore di I specie:
rifiutare H 0 quando è vera
•
Studentizzando otteniamo la Statistica Test
X − µ0
σ2 n
= Tn −1
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
7
Test per la Media – Popolazione Normale e Varianza ignota


X − µ0
P ( accettare H 0 | H 0 vera ) = P  −tα 2 ≤
≤ tα 2  = 1 − α
2


S n


 X −µ
 α α
X − µ0
0
P ( rifiutare H 0 | H 0 vera ) = P 
≤ −t α 2 oppure
≥ tα 2  = + =α
2
 S2 n
 2 2
S n


valore sperimentale:
x − µ0
s2 n
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test per la Media – Popolazione Normale e Varianza ignota
Test: si rifiuta H 0 a livello ( 1 – α ) se il valore sperimentale cade nella
regione critica, ovvero se:
x − µ0
s2 n
≤ −tα 2
oppure se:
x − µ0
s2 n
≥ tα 2
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
8
Test - Grandi Campioni
Se il campione è sufficientemente grande possiamo applicare il TCL:
 p (1 − p ) 
Pˆ ≈ N  p;

n


 σ2 
X ≈ N  µ; 
n 

Si costruiscono test approssimati per grandi campioni per la verifica d’ipotesi
Si tratterà sempre di Z-test con livello di significatività approssimativamente pari
all’ (1 – α ) scelto
Test per p : si rifiuta H 0 a livello ( 1 – α ) se il valore sperimentale cade
nella regione critica, ovvero se:
pˆ − p0
p0 (1 − p0 ) n
≤ − zα 2
pˆ − p0
oppure se:
p0 (1 − p0 ) n
≥ zα 2
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Ipotesi Bilaterali
Sono ipotesi del tipo:
H 0 : µ = µ0
H1 : µ ≠ µ 0
Un test statistico per la verifica di ipotesi bilaterali ha la regione critica formata
dalle due zone sotto le due code della statistica test, ciascuna di probabilità α/2
Chiamiamo questo tipo di test : a due code
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
9
Ipotesi Unilaterali
Sono ipotesi del tipo:
H 0 : µ ≤ µ0
H 0 : µ ≥ µ0
Per verificare queste ipotesi si pone la regione critica tutta sotto la coda di sinistra
o sotto la coda di destra
Chiamiamo questo tipo di test : a una coda
La regione critica è composta da una zona sotto la sola coda corrispondente a
valori lontani dall’ipotesi nulla; la probabilità di sbagliare α è posta tutta
sotto la coda lontana da H 0 con un unico valore critico
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test Chi Quadrato di Indipendenza Statistica
L’ipotesi nulla esprime l’ipotesi di indipendenza
tra le variabili X ed Y:
H0 : χ 2 = 0
La statistica test è lo stimatore dell’indice di connessione Chi Quadrato
•
•
valori del Chi Quadrato piccoli e vicini allo zero depongono a favore
dell’accettazione dell’ipotesi nulla
valori positivi e troppo grandi depongono per il rifiuto dell’ipotesi nulla
Si tratterà di un test ad una coda con la regione critica tutta sotto la coda di destra
È un test approssimato per grandi campioni
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
10
Test Chi Quadrato di Indipendenza Statistica
Statistica Test: v.c. Chi Quadrato con (k – 1)(h – 1) gdl
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test Chi Quadrato di Indipendenza Statistica
Il valore sperimentale si ottiene applicando la formula dell’indice di
connessione Chi Quadrato ai dati della tabella di contingenza
Valore sperimentale:
 k h f2

χ 2 = n  ∑∑ ij − 1
 i =1 j =1 f f

i. . j


k
h
χ = ∑∑
2
i =1 j =1
(f
ij
− f ij* )
2
f ij*
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
11
Test Chi Quadrato di Indipendenza Statistica
Il valore critico si trova sulle tavole della v.c. Chi Quadrato con (k-1)(h-1) gdl
Valore critico: è il valore che lascia a destra una probabilità pari ad α
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
Test Chi Quadrato di Indipendenza Statistica
Test: si rifiuta l’ipotesi nulla di indipendenza statistica con probabilità di
“sbagliare” approssimativamente pari al prescelto α se il valore
sperimentale cade nella regione critica, cioè se la stima del Chi
Quadrato calcolato sulla tabella di contingenza risulta maggiore od
uguale del valore critico

Se
k
h
χ 2 = n  ∑∑

 i =1
j =1

− 1 ≥ χ (2k −1)( h −1)

f i . f. j

f ij2
si rifiuta l’ipotesi nulla
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
12
P-Value
È un numero prodotto dai software che viene utilizzato per
decidere se accettare o rifiutare l’ipotesi nulla qualunque sia
il livello di significatività che vogliamo fissare
È una probabilità, quindi è un numero compreso tra 0 ed 1
Se il p-value risulta più piccolo:
• di α per un test ad una coda
• di α /2 per un test a 2 code
allora si rifiuta l’ipotesi nulla
Università
Università di Milano Bicocca - Facoltà
Facoltà di Sociologia
Statistica a.a. 20092009-20010 Elena Siletti
13