Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Corso di Psicometria Progredito 4.1 I principali test statistici per la verifica di ipotesi: Il test t Gianmarco Altoè Dipartimento di Pedagogia, Psicologia e Filosofia Università di Cagliari, Anno Accademico 2013 - 2014 Introduzione Test t a campione unico Test t per dati appaiati Sommario 1 Introduzione 2 Test t a campione unico 3 Test t per dati appaiati 4 Test t per campioni indipendenti Test t per campioni indipendenti Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti E se la varianza è ignota? Fino ad ora abbiamo considerato dei problemi di inferenza statistica in cui la varianza della popolazione da cui è estratto il campione è nota. E se la varianza della popolazione non fosse nota (caso assai frequente nella pratica)? Potremmo sostituire una stima della varianza. Ma si è visto che in questo caso, ed in particolare quando la numerosità campionaria è ridotta, la statistica test sotto H0 non si distribuisce esattamente come una normale. Per fortuna uno “statistico birraio”, nei primi del novecento, ha risolto il problema ... ⇒ Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti William Sealy Gosset e la distribuzione t di student Nei primi del 900 lo statistico William Sealy Gosset, che lavorava presso una fabbrica di birra Guinnes a Dublino, risolse il problema proponendo la distribuzione t di Student. Tale distribuzione è simmetrica ed ha la forma di una campana, ma rispetto alla normale è caratterizzata da code contenenti una maggiore probabilità. Gosset pubblicò i suoi risultati in un articolo passato alla storia nel 1908. La direzione della Guinnes non permetteva però ai suoi dipendenti di pubblicare risultati relativi a esperimenti fatti nei propri laboratori ... e così Gosset fu costretto ad usare lo pseudonimo di “Student”. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 0.4 t di Student vs. Normale 0.2 0.1 0.0 Densità 0.3 t con 1 grado di libertà t con 2 gradi di libertà t con 5 gradi di libertà t con 10 gradi di libertà t con 20 gradi di libertà normale -3 -2 -1 0 quantili 1 2 3 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti t di Student, gradi di libertà e Normale I gradi di libertà (degrees of freedom) sono un parametro che definisce la distribuzione t. Esso dipende dalla numerosità campionaria e dalla statistica test utilizzata. Ad esempio nel caso del test t per la verifica di ipotesi sulla media di una popolazione con varianza ignota, i gradi di libertà della statistica test sono pari alla numerosità campionaria meno uno (n − 1). Osservando il grafico precedente si può notare che al crescere della numerosità e quindi dei gradi di libertà la distribuzione t e la distribuzione normale tendono a coincidere. In particolare per n > 100 le due distribuzioni si possono considerare praticamente uguali. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Varie tipologie di test t Nel corso della lezione vedremo, attraverso degli esempi, diverse applicazioni della distribuzione t di Student: Test t a campione unico, per la verifica di ipotesi sulla media della popolazione nel caso di varianza ignota. Test t per dati appaiati, per il confronto tra le medie di due campioni dipendenti. Test t per campioni indipendenti, per il confronto tra le medie di due campioni indipendenti. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti La stima della varianza della popolazione Nei casi di verifica di ipotesi in cui la varianza della popolazione è ignota, si ricorre ad una stima di tale varianza basata sui dati campionari. In questi casi utilizzare la formula per il calcolo della varianza studiata nell’ambito delle statistiche descrittive porta ad una sottostima della varianza della popolazione. Si utilizzerà quindi uno stimatore non distorto della varianza della popolazione, detto varianza campionaria: Pn (Xi − X)2 2 s = i n−1 Naturalmente la deviazione standard campionaria sarà: √ s = s2 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Le bottigliette di birra In uno stabilimento di birra, una macchina ha il compito di versare 33 cl di birra in ogni bottiglietta prodotta. Il Direttore ha però il sospetto che la macchina non funzioni correttamente. Per verificare tale ipotesi il Direttore misura con uno strumento ad alta precisione 8 riempimenti effettuati dalla macchina selezionandoli in maniera casuale. I risultati ottenuti sono i seguenti: 33 ; 35 ; 37 ; 33 ; 30 ; 38 ; 34 ; 32 Verificare ad un livello di significatività del 5% (α = 0.05), se l’eventuale guasto ha prodotto un aumento della quantità di birra versata dalla macchina. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Alcune considerazioni L’esercizio chiede di verificare un’ipotesi monodirezionale sulla media della popolazione. Rispetto agli esempi visti in precedenza però, la varianza della popolazione è ignota. Procederemo quindi stimando la varianza della popolazione sulla base dei dati campionari e utilizzando il cosiddetto test t a campione unico. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 1. La costruzione del sistema di Verifica di Ipotesi H0 : µ = 33 H1 : µ > 33 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test Nel caso di test t a campione unico la statistica test da utilizzare è la seguente: X − µX tOSS = s √ n dove: X è la media campionaria delle osservazioni µ è la media nella popolazione se vale H0 s è la deviazione standard campionaria delle osservazioni n la numerosità campionaria Dalla teoria sappiamo che se vale H0 la statistica test si distribuisce come una t di Student con n − 1 gradi di libertà. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test: Aspetti computazionali Calcoliamo la media e la deviazione standard campionaria dei dati: Pn X= s s= Pn i i=1 Xi n = 34 (Xi − X)2 = 2.619 n−1 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test X − µX 34 − 33 = = 1.080 tOSS = s 2.619 √ √ n 8 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3. Confronto tra valore osservato e valore critico Per prima cosa determiniamo il valore critico del test per un livello di significatività critico pari a α = .05 Essendo il test monodirezionale dovremo cercare sulle tavole statistiche il quantile della distribuzione t di Student con n − 1, nel nostro caso 8-1 = 7, gradi di libertà che lascia destra della distribuzione un’area totale di .05. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3. Confronto tra valore osservato e valore critico 0.5 Distribuzione t di Student con 7 gradi di libertà Rifiuto Ipotesi Nulla 0.3 0.2 0.1 0.0 Densità 0.4 Non Posso Rifiutare Ipotesi Nulla α = 0.05 0 t tOSS = 1.08 tCRIT = 1.895 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3-4. Confronto tra valore osservato e valore critico e decisione finale Dall’analisi condotta emerge che il valore osservato della statistica test è inferiore al valore critico. L’ipotesi nulla che afferma che la media dei riempimenti effettuati dalla macchina è pari a 33 cl non può essere rifiutata per un livello di significatività pari al 5%. ... in sostanza, dal punto di vista statistico i dati non supportano la sensazione del Direttore. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Il battito cardiaco prima e dopo un esame Nella seguente tabella sono riportati i battiti cardiaci al minuto di 10 studenti, rilevati prima e dopo che gli studenti hanno saputo di dover affrontare un compito di latino a sorpresa. Codice studente 1 2 3 4 5 6 7 8 9 10 Battiti - Prima 60 66 73 62 74 63 64 65 71 72 Battiti -Dopo 67 75 68 62 89 74 62 73 76 84 Verificare ad un livello di significatività del 5% (α = 0.05), se in media i battiti cardiaci sono cambiati tra le due rilevazioni. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Alcune considerazioni Considerando che le rilevazioni effettuate si riferiscono agli stessi soggetti, si può parlare di osservazioni dipendenti o di dati appaiati. In ogni coppia di valori rilevati prima e dopo la notizia del compito a sorpresa, le osservazioni non sono indipendenti ma si riferiscono allo stessa unità statistica (il soggetto). In questi casi, quando cioè le osservazioni non sono indipendenti, il test statistico da utilizzare è il test t per dati appaiati. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 1. La costruzione del sistema di Verifica di Ipotesi H0 : µ D = 0 H1 : µD 6= 0 Dove µD e la media delle differenze individuali tra prima e dopo la notizia del compito nella popolazione da cui è estratto il campione. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test Nel caso di test t per dati appaiati la statistica test da utilizzare è la seguente: D − µD tOSS = s √D n dove: D è la media campionaria delle differenze individuali tra prima e dopo µ è la media nella popolazione delle differenze individuali tra prima e dopo se vale H0 sD è la deviazione standard campionaria delle differenze individuali tra prima e dopo n la numerosità campionaria Dalla teoria sappiamo che se vale H0 la statistica test si distribuisce come una t di student con n − 1 gradi di libertà. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test: Aspetti computazionali Codice studente Battiti - Prima (X1 ) Battiti -Dopo (X2 ) D = X2 − X1 1 2 3 4 5 6 7 8 9 10 60 66 73 62 74 63 64 65 71 72 67 75 68 62 89 74 62 73 76 84 7 9 -5 0 15 11 -2 8 5 12 Da cui segue che: s Pn D= i=1 Di =6 n sD = Pn i (Di − D)2 = 6.481 n−1 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test D − µD 6−0 = = 2.928 tOSS = sD 6.481 √ √ n 10 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3. Confronto tra valore osservato e valore critico Per prima cosa determiniamo il valore critico del test per un livello di significatività critico pari a α = .05 Essendo il test bidirezionale dovremo cercare sulle tavole statistiche i quantili della distribuzione t di Student con n − 1, nel nostro caso 10 − 1 = 9, gradi di libertà che lasciano sulle code di sinistra e destra della distribuzione un’area totale di .05. Essendo la distribuzione t simmetrica, ci basterà trovare il quantile positivo che lascia a destra un’area di probabilità pari a α/2 = .025. Il quantile negativo sarà pari al quantile positivo moltiplicato per -1. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3. Confronto tra valore osservato e valore critico 0.5 Distribuzione t di Student con 9 gradi di libertà Non Posso Rifiutare Ipotesi Nulla Rifiuto Ipotesi Nulla 0.3 0.2 0.1 0.0 Densità 0.4 Rifiuto Ipotesi Nulla α 2 α = 0.025 − tCRIT = − 2.262 2 0 t = 0.025 tCRIT = 2.262 tOSS = 2.928 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3-4. Confronto tra valore osservato e valore critico e decisione finale Dall’analisi condotta emerge che il valore osservato della statistica test non è compreso tra i valori critici. L’ipotesi nulla che afferma che la media delle differenze individuali tra i battiti cardiaci rilevati prima e dopo la notizia del compito a sorpresa è pari a 0, può essere rifiutata per un livello di significatività pari al 5%. ... in sostanza, la notizia del compito a sorpresa ha fatto cambiare in maniera statisticamente significativa il numero di battiti cardiaci dei soggetti. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Le cavie nel labirinto In un laboratorio di ricerca vengono costruiti due labirinti: labirinto A e labirinto B. A un gruppo di 6 cavie (gruppo A) viene fatto percorrere il labirinto A e ad un gruppo di altre 6 cavie (gruppo B) il labirinto B. Alla fine dell’esperimento per ciascuna cavia viene rilevato il tempo impiegato in secondi per uscire dal labirinto. I dati ottenuti sono: Gruppo A 16 18 22 22 21 21 Gruppo B 20 21 15 19 19 20 Ipotizzando che le varianze dei due gruppi siano omogenee, verificare ad un livello di significatività del 5% (α = .05) se i due labirinti presentano una diversa difficoltà. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti Alcune considerazioni Considerando che le rilevazioni effettuate provengono da due gruppi che non presentano legami di dipendenza, per verificare l’ipotesi di ricerca, utilizzeremo il test t per campioni indipendenti. Per utilizzare tale test le varianze dei gruppi devono poter essere considerate omogenee, in caso contrario esiste una versione del t test per campioni indipendenti (test t con correzione di Welch) che tiene conto della disomogeneità delle varianze. Dal punto di vista didattico, per semplicità, ipotizzeremo sempre l’omogeneità delle varianze. Dal punto di vista applicativo tuttavia è bene far presente che la maggior parte dei software statistici permette di valutare l’omogeneità delle varianze e in caso di disomogeneità di utilizzare la versione di Welch del test t per campioni indipendenti. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 1. La costruzione del sistema di Verifica di Ipotesi H0 : µa − µb = 0 H1 : µa − µb 6= 0 L’ipotesi nulla prevede che la differenza tra le medie delle due popolazioni da cui sono stati estratti i campioni sia pari a 0. In pratica ciò significa che se vale H0 i due campioni provengono da una popolazione con media comune. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test Nel caso di test t per campioni indipendenti la statistica test da utilizzare è la seguente: Xa − Xb − (µa − µb ) r tOSS = na + nb sab na nb dove: sab è la deviazione standard campionaria combinata (pooled) s (na − 1)sa2 + (nb − 1)sb2 sab = na + nb − 2 Xa − Xb è la differenza delle medie campionarie µa − µb è la differenza delle medie delle popolazioni sotto H0 sa2 e sb2 sono le varianze campionarie dei due campioni na e nb sono le numerosità dei due campioni Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test: Distribuzione della statistica test Nel caso di test t per campioni indipendenti la statistica test si distribuisce sotto H0 come una t di student con na + nb − 2 (6 + 6 − 2 = 10, nel nostro caso) gradi di libertà. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test: Aspetti computazionali Xa = 20 sa2 = 6 ⇒ Xb = 19 sb2 = 4.4 sab = 2.280 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 2. Calcolo del valore osservato della statistica test tOSS Xa − Xb − (µa − µb ) (20 − 19) − (0) r r = = 0.760 = na + nb 6+6 sab 2.280 na nb 6×6 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3. Confronto tra valore osservato e valore critico Per prima cosa determiniamo il valore critico del test per un livello di significatività critico pari a α = .05 Essendo il test bidirezionale dovremo cercare sulle tavole statistiche i quantili della distribuzione t di Student con na + nb − 2 (6 + 6 − 2 = 10, nel nostro caso) gradi di libertà che lasciano sulle code di sinistra e destra della distribuzione un’area totale di .05. Essendo la distribuzione t simmetrica, ci basterà trovare il quantile positivo che lascia a destra un’area di probabilità pari a α/2 = .025. Il quantile negativo sarà pari al quantile positivo moltiplicato per -1. Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3. Confronto tra valore osservato e valore critico 0.5 Distribuzione t di Student con 10 gradi di libertà Non Posso Rifiutare Ipotesi Nulla Rifiuto Ipotesi Nulla 0.3 0.2 0.1 0.0 Densità 0.4 Rifiuto Ipotesi Nulla α 2 α = 0.025 − tCRIT = − 2.228 2 0 t tOSS = 0.76 = 0.025 tCRIT = 2.228 Introduzione Test t a campione unico Test t per dati appaiati Test t per campioni indipendenti 3-4. Confronto tra valore osservato e valore critico e decisione finale Dall’analisi condotta emerge che il valore osservato della statistica test è compreso tra i valori critici. L’ipotesi nulla che afferma che i tempi impiegati dalle cavie per uscire dai labirinti provengano da una popolazione con una media comune, non può essere rifiutata per un livello di significatività pari al 5%. ... in sostanza, i dati non supportano dal punto di vista statistico delle differenze, in termini di tempo impiegato per uscire, tra i due labirinti.