Riferimento bibliografici: • Levine, Krehbiel, Berenson (2006): Statistica, II ed., Apogeo. • Piccolo D., (2000): Statistica, il Mulino, Bologna. Lezione 8 Test basati su due campioni Test Chi - quadro Insegnamento: Statistica Corso di Laurea in Matematica Facoltà di Scienze, Università di Ferrara E-mail: [email protected] 1 Argomenti Confronto tra le medie di due popolazioni indipendenti Confronto tra le medie di due popolazioni non indipendenti Confronto tra le proporzioni di due popolazioni Test Chi-Quadro per la bontà di adattamento Test Chi-Quadro per l’indipendenza 2 Confronto tra medie di due pop. indipendenti Consideriamo due popolazioni indipendenti e supponiamo di estrarre un campione di ampiezza n1 dalla prima popolazione di ampiezza n2 dalla seconda popolazione Siano μ1 e μ2 le medie che caratterizzano rispettivamente la prima e la seconda popolazione e si assumano i due scarti quadratici medi σ1 e σ2 come noti Si vuole verificare l’ipotesi nulla che le medie delle due popolazioni (indipendenti) sono uguali tra loro H0: μ1 = μ2 (μ1 − μ2 = 0) contro l’ipotesi alternativa H1: μ1 ≠ μ2 (μ1 − μ2 ≠ 0) A questo scopo viene definita la statistica test Z per la 3 differenza tra le due medie Confronto tra medie di due pop. indipendenti 4 Confronto tra medie di due pop. indipendenti Se si assume che i due campioni siano estratti casualmente ed indipendentemente da due popolazioni normali la statistica Z ha distribuzione normale Se le due popolazioni non hanno distribuzione normale il test Z può essere utilizzato con ampiezza campionarie sufficientemente elevate (n≥30) - in virtù del teorema centrale del limite In molti casi le varianze delle due popolazioni non sono note. Nel caso di grandi campioni le varianze incognite possono essere sostituite con i valori delle varianze campionarie dei due campioni. Se si assume l’ipotesi di omogeneità della varianze (σ21=σ22) con distribuzioni normali; nel caso di piccoli campioni (n < 30) per il confronto tra le medie di due pop. indipendenti si utilizza il test t basato sulle5 varianze campionarie combinate Confronto tra medie di due pop. indipendenti 6 Confronto tra medie di due pop. indipendenti Regione di rifiuto e di accettazione per la differenza tra due medie utilizzando la statistica test t basata sulle varianze combinate (test a due code) Quando l’assunzione dell’omogeneità delle varianze non è plausibile occorre fare riferimento al test t con varianze 7 diverse (ricorrendo all’Excel o ad altri software statistici) Confronto tra medie di due pop. indipendenti Esempio: confronto tra le vendite settimanali (numero di pezzi venduti) della BLK cola in due gruppi di supermercati, dove il primo adotta la collocazione a scaffale mentre il secondo utilizza uno spazio dedicato 8 Confronto tra medie di due pop. indipendenti 9 Confronto tra medie di due pop. indipendenti In base al fatto che l’ipotesi alternativa sia nella forma A: H1:μ1≠μ2 oppure B: H1:μ1<μ2 o C: H1:μ1>μ2 si parla di test ad una coda e test a due code 10 Intervallo di confidenza per la differenza tra le medie di due pop. indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza tra le medie μ1 e μ2 delle due popolazioni: Intervallo di confidenza per la differenza (μ1−μ2) ( X 1 X 2 ) tn1 n2 1; / 2 S p2 1 n1 1 n2 1 2 ( X 1 X 2 ) tn1 n2 1; / 2 S p2 1 n1 1 n2 (10.3) dove tn1−n2−2;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n1−n2−2) gradi di libertà. 11 Confronto tra medie di 2 pop. non indipendenti Ci sono situazioni in cui le due popolazioni poste a confronto non sono indipendenti di modo che il campione estratto dalla prima popolazione non è indipendente dal campione estratto dalla seconda: 1. campioni appaiati (individui o casi che condividono una stessa caratteristica) 2. misurazioni ripetute (stesso insieme di individui o casi) L’attenzione si sposta sulla differenze tra i valori nei due campioni: 12 Confronto tra medie di 2 pop. non indipendenti Quindi verificare l’ipotesi di uguaglianza delle medie μ1 e μ2 di due popolazioni non indipendenti equivale a verificare ipotesi di uguaglia a zero della media della differenza D tra le due popolazioni, cioè H0: μD=0. Se lo scarto quadratico medio della popolazione delle differenze σD è noto, allora il test di riferimento è basato sulla statistica Z. In caso σD sia ignoto si può fare ricorso al test t su campioni appaiati. Statistica test Z per la media delle differenze n D D Z , con D 1 n Di D / n i 1 (10.4) Statistica test t per la media delle differenze n D D t , con D SD / n Di i 1 n n e SD 2 ( D D ) i (10.5) i 1 (n 1) 13 Confronto tra medie di 2 pop. non indipendenti Esempio: Misurazioni ripetute del tempo (in secondi) di elaborazione di un progetto utilizzando due diversi software 14 Confronto tra medie di 2 pop. non indipendenti Test t a una coda per la differenza tra le medie di due popolazioni non indipendenti a un livello di significatività pari a 0.05 e con 9 gradi di libertà 15 Intervallo di confidenza per la differenza tra le medie di due pop. non indipendenti Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due medie sono uguali, possiamo ottenere un intervallo di confidenza per la differenza μD: Intervallo di confidenza per la differenza tra le medie di due popolazioni non indipendenti D tn1; / 2 S D / n D D tn1; / 2 S D / n (10.6) dove tn−1;α/2 è il valore critico a cui corrisponde un’area cumulata pari a (1−α/2) della distribuzione t di Student con (n−1) gradi di libertà 16 Confronto tra le proporzioni di due popolazioni Spesso si è interessati a effettuare confronti e ad analizzare differenze tra due popolazioni con riferimento alla proporzione di casi con una certa caratteristica Per confrontare due proporzioni sulla base dei risultati di due campioni si può ricorrere al test Z per la differenza tra due proporzioni, la cui statistica test ha distribuzione approssimativamente normale quando le ampiezza campionarie sono sufficientemente elevate Statistica Z per la differenza tra due proporzioni (10.7) Z ( p1 p2 ) (1 2 ) X1 X 2 X1 X2 con p , p1 , p2 n1 n2 n1 n2 1 1 p (1 p ) n1 n2 17 Confronto tra le proporzioni di due popolazioni A seconda di come è formulata l’ipotesi alternativa avremo un test a due code (H1: π1 ≠ π2 (π1−π2 ≠ 0)) o un test a una coda (ipotesi direzionali: H1: π1 > π2 (π1−π2 > 0) oppure H1: π1 < π2 (π1−π2 < 0)) Esempio La catena di alberghi TC Resort è interessata a valutare se esiste differenza tra la proporzione di clienti che intendono visitare nuovamente due dei suoi alberghi. Vengono campionati 227 clienti nel primo albergo e 262 dal secondo di cui 163 si dicono disposti a ritornare nel primo campione, 154 nel secondo. Adottando un livello di significatività pari a 0.05 si può affermare che nei due alberghi esiste una differenza tra la proporzione di coloro che sono disposti a ritornare? 18 Confronto tra le proporzioni di due popolazioni Z= + 3,01 > +1,96 perciò si rifiuta H0 concludendo che le19 percentuali sono diverse Intervallo di confidenza per la differenza tra due proporzioni Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla secondo la quale due proporzioni sono uguali, possiamo utilizzare l’equazione (10.8) per ottenere un intervallo di confidenza per la differenza tra le due proporzioni Intervallo di confidenza per la differenza tra due proporzioni ( p1 p2 ) Z / 2 ( p1 p2 ) Z / 2 p1 (1 p1 ) p2 (1 p2 ) ( 1 2 ) n1 n2 p1 (1 p1 ) p2 (1 p2 ) n1 n2 (10.8) 20 Il test Chi-quadro La distribuzione Chi-quadro ha numerose applicazioni in statistica, in particolare in verifica d’ipotesi ne faremo uso con dati disponibili sotto forma di frequenze. Test di adattamento (goodness of fit) e test d’indipendenza Test Chi-quadro di adattamento: studiano la bontà di adattamento delle frequenze osservate rispetto alle frequenze che si presume dovrebbero verificarsi sotto una qualche ipotesi. Il termine “bontà di adattamento” viene di solito usato in senso stretto (confronto tra la distribuzione osservata e teorica) 21 Test Chi-quadro di adattamento Test sulla bontà di adattamento: si vuole verificare se una certa distribuzione è compatibile con i dati del campione. Supponiamo di avere un campione di n osservazioni di una variabile raggruppate in una tabella contenente k classi. Classi possono rappresentare: Caratteristiche qualitative Valori assunti da una variabile discreta (ogni classe raggruppa tutte le osservazioni che assumono un dato valore Intervalli di valori di una variabile continua 22 Test Chi-quadro di adattamento Tabella: rappresenta la distribuzione di frequenza di una variabile qualitativa o di una variabile numerica discreta o continua. Per ciascuna classe supponiamo di avere una frequenza osservata (Oi) ed una frequenza attesa (Ai) con cui si vuole confrontare la frequenza osservata. Le frequenze attese sono quelle che si osserverebbero se i dati del campione fossero distribuiti secondo la distribuzione ipotizzata. Per valutare quantitativamente la bontà dell’adattamento delle frequenze osservate alle frequenze attese si utilizza la statistica test Chiquadro calcolata dal campione. 23 Statistica test Chi-quadro 2 ( O A ) i 2 i Ai i 1 k Si dimostra che per n sufficientemente grande tale statistica si distribuisce come una v. c. chi-quadro con grado di libertà v=k-m1. k è il numero delle classi. m è il numero dei parametri della distribuzione teorica stimati servendosi dei dati del campione. Se l’ipotesi nulla è che i dati si adattino alla distribuzione teorica ipotizzata la regola di decisione sarà: si rifiuti H0 se il valore della 2 statistica test calcolato dai dati è maggiore del valore critico α è il livello di significatività stabilito Il grado di libertà della distribuzione è v=k-m-1 Tale procedura è valida purché le frequenze assolute attese siano tutte maggiori o uguali a 5. 2 2 24 Test Chi–quadro di indipendenza Il test Chi-quadro può essere utilizzato anche per verificare l’indipendenza o meno di due variabili. Si sottopone a test l’ipotesi nulla che due criteri di classificazione, quando applicati al medesimo insieme di dati, siano indipendenti. Due criteri di classificazione sono indipendenti se la distribuzione rispetto ad un criterio non viene influenzata dalla classificazione rispetto all’altro. Se rifiutiamo l’ipotesi nulla allora i due criteri di classificazione sono dipendenti. Si dispongono in generale di n osservazioni congiunte di due variabili e ci chiediamo se esiste una forma di dipendenza tra le due variabili. Tale osservazioni sono raccolte in forma di tavole di contingenza: n osservazioni sono classificate secondo un criterio X (ossia secondo il valore di una certa variabile) in r classi e contemporaneamente sono classificate secondo un criterio Y (ossia secondo i valori assunti dall’altra variabile) in c classi; la tabella riporta all’incrocio di ogni riga con ogni colonna la frequenza assoluta Oij . 25 Tabelle di contingenza Classi Classi 1 2 3 ... ... c 1 O11 O12 O13 ... ... O1c 2 O21 O22 O23 ... ... O2c 3 O31 O32 O33 ... ... O3c ... ... ... ... ... ... ... c Or1 Or2 Or3 ... ... Orc • Partendo da questa tabella si costruisce la tabella delle frequenze attese Aij che si ottengono con la seguente: ( totale riga i) (totale colonna j) Aij totale generale 26 Test Chi-quadro di indipendenza Per n sufficientemente grande la statistica test chiquadro ha approssimativamente la distribuzione chiquadro con grado di libertà v = (r-1)(c-1) r c 2 i 1 j 1 (Oij Aij ) 2 Aij La regola decisionale consiste nel rifiutare H0 se il valore osservato della statistica 2 è maggiore del valore critico 2U della distribuzione 2 con (r−1)(c−1) gdl. Tale procedura è valida purché le frequenze assolute attese 27 siano tutte maggiori o uguali a 5. Test Chi-quadrato per l’indipendenza Esempio: tabella della frequenze osservate con riferimento al principale motivo di insoddisfazione e all’albergo Frequenze attese 28 Test Chi-quadrato per l’indipendenza Calcolo della statistica χ2 per il test di indipendenza 29 Test Chi-quadrato per l’indipendenza Regione di rifiuto e di accettazione del test χ2 per l’indipendenza nell’esempio sulla soddisfazione dei clienti (al livello di significatività 0.05 con 6 gradi di libertà) 30 Test Chi-quadrato per l’indipendenza Foglio di Microsoft Excel con i calcoli necessari per la verifica dell’ipotesi di indipendenza tra motivo di insoddisfazione e albergo 31