-1cm Corso di Psicometria Progredito - 4.1 I principali test statistici

Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Corso di Psicometria Progredito
4.1 I principali test statistici per la verifica di ipotesi:
Il test t
Gianmarco Altoè
Dipartimento di Pedagogia, Psicologia e Filosofia
Università di Cagliari, Anno Accademico 2013 - 2014
Introduzione
Test t a campione unico
Test t per dati appaiati
Sommario
1
Introduzione
2
Test t a campione unico
3
Test t per dati appaiati
4
Test t per campioni indipendenti
Test t per campioni indipendenti
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
E se la varianza è ignota?
Fino ad ora abbiamo considerato dei problemi di inferenza
statistica in cui la varianza della popolazione da cui è estratto
il campione è nota.
E se la varianza della popolazione non fosse nota (caso assai
frequente nella pratica)?
Potremmo sostituire una stima della varianza. Ma si è visto
che in questo caso, ed in particolare quando la numerosità
campionaria è ridotta, la statistica test sotto H0 non si
distribuisce esattamente come una normale.
Per fortuna uno “statistico birraio”, nei primi del novecento,
ha risolto il problema ... ⇒
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
William Sealy Gosset e la distribuzione t di student
Nei primi del 900 lo statistico William Sealy Gosset, che
lavorava presso una fabbrica di birra Guinnes a Dublino,
risolse il problema proponendo la distribuzione t di Student.
Tale distribuzione è simmetrica ed ha la forma di una
campana, ma rispetto alla normale è caratterizzata da code
contenenti una maggiore probabilità.
Gosset pubblicò i suoi risultati in un articolo passato alla
storia nel 1908. La direzione della Guinnes non permetteva
però ai suoi dipendenti di pubblicare risultati relativi a
esperimenti fatti nei propri laboratori ... e così Gosset fu
costretto ad usare lo pseudonimo di “Student”.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
0.4
t di Student vs. Normale
0.2
0.1
0.0
Densità
0.3
t con 1 grado di libertà
t con 2 gradi di libertà
t con 5 gradi di libertà
t con 10 gradi di libertà
t con 20 gradi di libertà
normale
-3
-2
-1
0
quantili
1
2
3
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
t di Student, gradi di libertà e Normale
I gradi di libertà (degrees of freedom) sono un parametro che
definisce la distribuzione t. Esso dipende dalla numerosità
campionaria e dalla statistica test utilizzata.
Ad esempio nel caso del test t per la verifica di ipotesi sulla
media di una popolazione con varianza ignota, i gradi di
libertà della statistica test sono pari alla numerosità
campionaria meno uno (n − 1).
Osservando il grafico precedente si può notare che al
crescere della numerosità e quindi dei gradi di libertà la
distribuzione t e la distribuzione normale tendono a
coincidere. In particolare per n > 100 le due distribuzioni si
possono considerare praticamente uguali.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Varie tipologie di test t
Nel corso della lezione vedremo, attraverso degli esempi, diverse
applicazioni della distribuzione t di Student:
Test t a campione unico, per la verifica di ipotesi sulla
media della popolazione nel caso di varianza ignota.
Test t per dati appaiati, per il confronto tra le medie di due
campioni dipendenti.
Test t per campioni indipendenti, per il confronto tra le
medie di due campioni indipendenti.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
La stima della varianza della popolazione
Nei casi di verifica di ipotesi in cui la varianza della
popolazione è ignota, si ricorre ad una stima di tale varianza
basata sui dati campionari.
In questi casi utilizzare la formula per il calcolo della varianza
studiata nell’ambito delle statistiche descrittive porta ad una
sottostima della varianza della popolazione.
Si utilizzerà quindi uno stimatore non distorto della varianza
della popolazione, detto varianza campionaria:
Pn
(Xi − X)2
2
s = i
n−1
Naturalmente la deviazione standard campionaria sarà:
√
s = s2
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Le bottigliette di birra
In uno stabilimento di birra, una macchina ha il compito di
versare 33 cl di birra in ogni bottiglietta prodotta. Il
Direttore ha però il sospetto che la macchina non funzioni
correttamente. Per verificare tale ipotesi il Direttore misura
con uno strumento ad alta precisione 8 riempimenti effettuati
dalla macchina selezionandoli in maniera casuale. I risultati
ottenuti sono i seguenti:
33 ; 35 ; 37 ; 33 ; 30 ; 38 ; 34 ; 32
Verificare ad un livello di significatività del 5% (α = 0.05), se
l’eventuale guasto ha prodotto un aumento della quantità di
birra versata dalla macchina.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Alcune considerazioni
L’esercizio chiede di verificare un’ipotesi monodirezionale
sulla media della popolazione. Rispetto agli esempi visti in
precedenza però, la varianza della popolazione è ignota.
Procederemo quindi stimando la varianza della popolazione
sulla base dei dati campionari e utilizzando il cosiddetto test
t a campione unico.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
1. La costruzione del sistema di Verifica di Ipotesi
H0 : µ = 33
H1 : µ > 33
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
Nel caso di test t a campione unico la statistica test da utilizzare
è la seguente:
X − µX
tOSS = s
√
n
dove:
X è la media campionaria delle osservazioni
µ è la media nella popolazione se vale H0
s è la deviazione standard campionaria delle osservazioni
n la numerosità campionaria
Dalla teoria sappiamo che se vale H0 la statistica test si
distribuisce come una t di Student con n − 1 gradi di libertà.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:
Aspetti computazionali
Calcoliamo la media e la deviazione standard campionaria dei dati:
Pn
X=
s
s=
Pn
i
i=1 Xi
n
= 34
(Xi − X)2
= 2.619
n−1
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
X − µX
34 − 33
=
= 1.080
tOSS = s
2.619
√
√
n
8
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Per prima cosa determiniamo il valore critico del test per un
livello di significatività critico pari a α = .05
Essendo il test monodirezionale dovremo cercare sulle tavole
statistiche il quantile della distribuzione t di Student con
n − 1, nel nostro caso 8-1 = 7, gradi di libertà che lascia
destra della distribuzione un’area totale di .05.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
0.5
Distribuzione t di Student con 7 gradi di libertà
Rifiuto Ipotesi Nulla
0.3
0.2
0.1
0.0
Densità
0.4
Non Posso Rifiutare Ipotesi Nulla
α = 0.05
0
t
tOSS = 1.08
tCRIT = 1.895
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3-4. Confronto tra valore osservato e valore critico e
decisione finale
Dall’analisi condotta emerge che il valore osservato della
statistica test è inferiore al valore critico.
L’ipotesi nulla che afferma che la media dei riempimenti
effettuati dalla macchina è pari a 33 cl non può essere
rifiutata per un livello di significatività pari al 5%.
... in sostanza, dal punto di vista statistico i dati non
supportano la sensazione del Direttore.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Il battito cardiaco prima e dopo un esame
Nella seguente tabella sono riportati i battiti cardiaci al
minuto di 10 studenti, rilevati prima e dopo che gli studenti
hanno saputo di dover affrontare un compito di latino a
sorpresa.
Codice studente
1
2
3
4
5
6
7
8
9
10
Battiti - Prima
60
66
73
62
74
63
64
65
71
72
Battiti -Dopo
67
75
68
62
89
74
62
73
76
84
Verificare ad un livello di significatività del 5% (α = 0.05), se
in media i battiti cardiaci sono cambiati tra le due rilevazioni.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Alcune considerazioni
Considerando che le rilevazioni effettuate si riferiscono agli
stessi soggetti, si può parlare di osservazioni dipendenti o di
dati appaiati.
In ogni coppia di valori rilevati prima e dopo la notizia del
compito a sorpresa, le osservazioni non sono indipendenti ma
si riferiscono allo stessa unità statistica (il soggetto).
In questi casi, quando cioè le osservazioni non sono
indipendenti, il test statistico da utilizzare è il test t per dati
appaiati.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
1. La costruzione del sistema di Verifica di Ipotesi
H0 : µ D = 0
H1 : µD 6= 0
Dove µD e la media delle differenze individuali tra prima e dopo la
notizia del compito nella popolazione da cui è estratto il
campione.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
Nel caso di test t per dati appaiati la statistica test da utilizzare è
la seguente:
D − µD
tOSS = s
√D
n
dove:
D è la media campionaria delle differenze individuali tra
prima e dopo
µ è la media nella popolazione delle differenze individuali tra
prima e dopo se vale H0
sD è la deviazione standard campionaria delle differenze
individuali tra prima e dopo
n la numerosità campionaria
Dalla teoria sappiamo che se vale H0 la statistica test si
distribuisce come una t di student con n − 1 gradi di libertà.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:
Aspetti computazionali
Codice studente
Battiti - Prima (X1 )
Battiti -Dopo (X2 )
D = X2 − X1
1
2
3
4
5
6
7
8
9
10
60
66
73
62
74
63
64
65
71
72
67
75
68
62
89
74
62
73
76
84
7
9
-5
0
15
11
-2
8
5
12
Da cui segue che:
s
Pn
D=
i=1 Di
=6
n
sD =
Pn
i
(Di − D)2
= 6.481
n−1
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
D − µD
6−0
=
= 2.928
tOSS = sD
6.481
√
√
n
10
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Per prima cosa determiniamo il valore critico del test per un
livello di significatività critico pari a α = .05
Essendo il test bidirezionale dovremo cercare sulle tavole
statistiche i quantili della distribuzione t di Student con
n − 1, nel nostro caso 10 − 1 = 9, gradi di libertà che
lasciano sulle code di sinistra e destra della distribuzione
un’area totale di .05.
Essendo la distribuzione t simmetrica, ci basterà trovare il
quantile positivo che lascia a destra un’area di probabilità
pari a α/2 = .025. Il quantile negativo sarà pari al quantile
positivo moltiplicato per -1.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
0.5
Distribuzione t di Student con 9 gradi di libertà
Non Posso Rifiutare Ipotesi Nulla
Rifiuto Ipotesi Nulla
0.3
0.2
0.1
0.0
Densità
0.4
Rifiuto Ipotesi Nulla
α
2
α
= 0.025
− tCRIT = − 2.262
2
0
t
= 0.025
tCRIT = 2.262 tOSS = 2.928
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3-4. Confronto tra valore osservato e valore critico e
decisione finale
Dall’analisi condotta emerge che il valore osservato della
statistica test non è compreso tra i valori critici.
L’ipotesi nulla che afferma che la media delle differenze
individuali tra i battiti cardiaci rilevati prima e dopo la notizia
del compito a sorpresa è pari a 0, può essere rifiutata per un
livello di significatività pari al 5%.
... in sostanza, la notizia del compito a sorpresa ha fatto
cambiare in maniera statisticamente significativa il numero di
battiti cardiaci dei soggetti.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Le cavie nel labirinto
In un laboratorio di ricerca vengono costruiti due labirinti:
labirinto A e labirinto B. A un gruppo di 6 cavie (gruppo A)
viene fatto percorrere il labirinto A e ad un gruppo di altre 6
cavie (gruppo B) il labirinto B. Alla fine dell’esperimento per
ciascuna cavia viene rilevato il tempo impiegato in secondi
per uscire dal labirinto. I dati ottenuti sono:
Gruppo A
16
18
22
22
21
21
Gruppo B
20
21
15
19
19
20
Ipotizzando che le varianze dei due gruppi siano omogenee,
verificare ad un livello di significatività del 5% (α = .05) se i
due labirinti presentano una diversa difficoltà.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
Alcune considerazioni
Considerando che le rilevazioni effettuate provengono da due
gruppi che non presentano legami di dipendenza, per
verificare l’ipotesi di ricerca, utilizzeremo il test t per
campioni indipendenti.
Per utilizzare tale test le varianze dei gruppi devono poter
essere considerate omogenee, in caso contrario esiste una
versione del t test per campioni indipendenti (test t con
correzione di Welch) che tiene conto della disomogeneità
delle varianze.
Dal punto di vista didattico, per semplicità, ipotizzeremo
sempre l’omogeneità delle varianze.
Dal punto di vista applicativo tuttavia è bene far presente
che la maggior parte dei software statistici permette di
valutare l’omogeneità delle varianze e in caso di
disomogeneità di utilizzare la versione di Welch del test t per
campioni indipendenti.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
1. La costruzione del sistema di Verifica di Ipotesi
H0 : µa − µb = 0
H1 : µa − µb 6= 0
L’ipotesi nulla prevede che la differenza tra le medie delle due
popolazioni da cui sono stati estratti i campioni sia pari a 0. In
pratica ciò significa che se vale H0 i due campioni provengono da
una popolazione con media comune.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
Nel caso di test t per campioni indipendenti la statistica test da
utilizzare è la seguente:
Xa − Xb − (µa − µb )
r
tOSS =
na + nb
sab
na nb
dove:
sab è la deviazione standard campionaria combinata (pooled)
s
(na − 1)sa2 + (nb − 1)sb2
sab =
na + nb − 2
Xa − Xb è la differenza delle medie campionarie
µa − µb è la differenza delle medie delle popolazioni sotto H0
sa2 e sb2 sono le varianze campionarie dei due campioni
na e nb sono le numerosità dei due campioni
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:
Distribuzione della statistica test
Nel caso di test t per campioni indipendenti la statistica test si
distribuisce sotto H0 come una t di student con na + nb − 2
(6 + 6 − 2 = 10, nel nostro caso) gradi di libertà.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test:
Aspetti computazionali
Xa = 20
sa2 = 6
⇒
Xb = 19
sb2 = 4.4
sab = 2.280
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
2. Calcolo del valore osservato della statistica test
tOSS
Xa − Xb − (µa − µb )
(20 − 19) − (0)
r
r
=
= 0.760
=
na + nb
6+6
sab
2.280
na nb
6×6
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
Per prima cosa determiniamo il valore critico del test per un
livello di significatività critico pari a α = .05
Essendo il test bidirezionale dovremo cercare sulle tavole
statistiche i quantili della distribuzione t di Student con
na + nb − 2 (6 + 6 − 2 = 10, nel nostro caso) gradi di libertà
che lasciano sulle code di sinistra e destra della distribuzione
un’area totale di .05.
Essendo la distribuzione t simmetrica, ci basterà trovare il
quantile positivo che lascia a destra un’area di probabilità
pari a α/2 = .025. Il quantile negativo sarà pari al quantile
positivo moltiplicato per -1.
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3. Confronto tra valore osservato e valore critico
0.5
Distribuzione t di Student con 10 gradi di libertà
Non Posso Rifiutare Ipotesi Nulla
Rifiuto Ipotesi Nulla
0.3
0.2
0.1
0.0
Densità
0.4
Rifiuto Ipotesi Nulla
α
2
α
= 0.025
− tCRIT = − 2.228
2
0
t
tOSS = 0.76
= 0.025
tCRIT = 2.228
Introduzione
Test t a campione unico
Test t per dati appaiati
Test t per campioni indipendenti
3-4. Confronto tra valore osservato e valore critico e
decisione finale
Dall’analisi condotta emerge che il valore osservato della
statistica test è compreso tra i valori critici.
L’ipotesi nulla che afferma che i tempi impiegati dalle cavie
per uscire dai labirinti provengano da una popolazione con
una media comune, non può essere rifiutata per un livello di
significatività pari al 5%.
... in sostanza, i dati non supportano dal punto di vista
statistico delle differenze, in termini di tempo impiegato per
uscire, tra i due labirinti.