Riferimento bibliografici:
• Levine, Krehbiel, Berenson (2006): Statistica, II ed., Apogeo.
• Piccolo D., (2000): Statistica, il Mulino, Bologna.
Lezione 8
Test basati su due campioni
Test Chi - quadro
Insegnamento: Statistica
Corso di Laurea in Matematica
Facoltà di Scienze, Università di Ferrara
E-mail: [email protected]
1
Argomenti

Confronto tra le medie di due popolazioni
indipendenti

Confronto tra le medie di due popolazioni non
indipendenti

Confronto tra le proporzioni di due popolazioni

Test Chi-Quadro per la bontà di adattamento

Test Chi-Quadro per l’indipendenza
2
Confronto tra medie di due pop. indipendenti




Consideriamo
due
popolazioni
indipendenti
e
supponiamo di estrarre un campione di ampiezza n1
dalla prima popolazione di ampiezza n2 dalla seconda
popolazione
Siano μ1 e μ2 le medie che caratterizzano rispettivamente la prima e la seconda popolazione e si assumano
i due scarti quadratici medi σ1 e σ2 come noti
Si vuole verificare l’ipotesi nulla che le medie delle due
popolazioni (indipendenti) sono uguali tra loro
H0: μ1 = μ2 (μ1 − μ2 = 0)
contro l’ipotesi alternativa
H1: μ1 ≠ μ2 (μ1 − μ2 ≠ 0)
A questo scopo viene definita la statistica test Z per la
3
differenza tra le due medie
Confronto tra medie di due pop. indipendenti
4
Confronto tra medie di due pop. indipendenti




Se si assume che i due campioni siano estratti
casualmente ed indipendentemente da due popolazioni
normali la statistica Z ha distribuzione normale
Se le due popolazioni non hanno distribuzione normale il
test Z può essere utilizzato con ampiezza campionarie
sufficientemente elevate (n≥30) - in virtù del teorema
centrale del limite
In molti casi le varianze delle due popolazioni non sono
note. Nel caso di grandi campioni le varianze incognite
possono essere sostituite con i valori delle varianze
campionarie dei due campioni.
Se si assume l’ipotesi di omogeneità della varianze
(σ21=σ22) con distribuzioni normali; nel caso di piccoli
campioni (n < 30) per il confronto tra le medie di due
pop. indipendenti si utilizza il test t basato sulle5
varianze campionarie combinate
Confronto tra medie di due pop. indipendenti
6
Confronto tra medie di due pop. indipendenti
Regione di rifiuto e di accettazione per la differenza tra due
medie utilizzando la statistica test t basata sulle varianze
combinate (test a due code)
Quando l’assunzione dell’omogeneità delle varianze non è
plausibile occorre fare riferimento al test t con varianze
7
diverse (ricorrendo all’Excel o ad altri software statistici)
Confronto tra medie di due pop. indipendenti
Esempio: confronto tra le vendite settimanali (numero di
pezzi venduti) della BLK cola in due gruppi di supermercati,
dove il primo adotta la collocazione a scaffale mentre il
secondo utilizza uno spazio dedicato
8
Confronto tra medie di due pop. indipendenti
9
Confronto tra medie di due pop. indipendenti
In base al fatto che l’ipotesi alternativa sia nella forma A:
H1:μ1≠μ2 oppure B: H1:μ1<μ2 o C: H1:μ1>μ2 si parla di test ad
una coda e test a due code
10
Intervallo di confidenza per la differenza tra le
medie di due pop. indipendenti
Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla
secondo la quale due medie sono uguali, possiamo ottenere
un intervallo di confidenza per la differenza tra le medie μ1 e
μ2 delle due popolazioni:
Intervallo di confidenza per la differenza (μ1−μ2)
( X 1  X 2 )  tn1 n2 1; / 2  S p2 1 n1  1 n2   1  2 
 ( X 1  X 2 )  tn1 n2 1; / 2  S p2 1 n1  1 n2 
(10.3)
dove tn1−n2−2;α/2 è il valore critico a cui corrisponde un’area
cumulata pari a (1−α/2) della distribuzione t di Student con
(n1−n2−2) gradi di libertà.
11
Confronto tra medie di 2 pop. non indipendenti
Ci sono situazioni in cui le due popolazioni poste a
confronto non sono indipendenti di modo che il campione
estratto dalla prima popolazione non è indipendente dal
campione estratto dalla seconda:
1. campioni appaiati (individui o casi che condividono una
stessa caratteristica)
2. misurazioni ripetute (stesso insieme di individui o casi)
L’attenzione si sposta sulla differenze tra i valori nei due
campioni:
12
Confronto tra medie di 2 pop. non indipendenti
Quindi verificare l’ipotesi di uguaglianza delle medie μ1 e μ2
di due popolazioni non indipendenti equivale a verificare
ipotesi di uguaglia a zero della media della differenza D tra
le due popolazioni, cioè H0: μD=0. Se lo scarto quadratico
medio della popolazione delle differenze σD è noto, allora il
test di riferimento è basato sulla statistica Z. In caso σD sia
ignoto si può fare ricorso al test t su campioni appaiati.
Statistica test Z per la media delle differenze
n
D  D
Z
, con D  1 n  Di
D / n
i 1
(10.4)
Statistica test t per la media delle differenze
n
D  D
t
, con D 
SD / n
 Di
i 1
n
n
e SD 
2
(
D

D
)
 i
(10.5)
i 1
(n  1)
13
Confronto tra medie di 2 pop. non indipendenti
Esempio: Misurazioni ripetute del tempo (in secondi) di
elaborazione di un progetto utilizzando due diversi software
14
Confronto tra medie di 2 pop. non indipendenti
Test t a una coda per la differenza tra le medie di due
popolazioni non indipendenti a un livello di significatività pari a
0.05 e con 9 gradi di libertà
15
Intervallo di confidenza per la differenza tra le
medie di due pop. non indipendenti
Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla
secondo la quale due medie sono uguali, possiamo
ottenere un intervallo di confidenza per la differenza μD:
Intervallo di confidenza per la differenza tra le medie di
due popolazioni non indipendenti
D  tn1; / 2 S D / n  D  D  tn1; / 2 S D / n
(10.6)
dove tn−1;α/2 è il valore critico a cui corrisponde un’area
cumulata pari a (1−α/2) della distribuzione t di Student con
(n−1) gradi di libertà
16
Confronto tra le proporzioni di due popolazioni


Spesso si è interessati a effettuare confronti e ad
analizzare differenze tra due popolazioni con riferimento
alla proporzione di casi con una certa caratteristica
Per confrontare due proporzioni sulla base dei risultati di
due campioni si può ricorrere al test Z per la differenza
tra due proporzioni, la cui statistica test ha
distribuzione approssimativamente normale quando le
ampiezza campionarie sono sufficientemente elevate
Statistica Z per la differenza tra due proporzioni (10.7)
Z
( p1  p2 )  (1   2 )
X1  X 2
X1
X2
con p 
, p1 
, p2 
n1  n2
n1
n2
1 1
p (1  p )   
 n1 n2 
17
Confronto tra le proporzioni di due popolazioni


A seconda di come è formulata l’ipotesi alternativa
avremo un test a due code (H1: π1 ≠ π2 (π1−π2 ≠ 0)) o un
test a una coda (ipotesi direzionali: H1: π1 > π2 (π1−π2 >
0) oppure H1: π1 < π2 (π1−π2 < 0))
Esempio
La catena di alberghi TC Resort è interessata a valutare
se esiste differenza tra la proporzione di clienti che
intendono visitare nuovamente due dei suoi alberghi.
Vengono campionati 227 clienti nel primo albergo e 262
dal secondo di cui 163 si dicono disposti a ritornare nel
primo campione, 154 nel secondo.
Adottando un livello di significatività pari a 0.05 si può
affermare che nei due alberghi esiste una differenza tra
la proporzione di coloro che sono disposti a ritornare? 18
Confronto tra le proporzioni di due popolazioni
Z= + 3,01 > +1,96 perciò si rifiuta H0 concludendo che le19
percentuali sono diverse
Intervallo di confidenza per la differenza tra
due proporzioni
Anziché (o oltre a) sottoporre a verifica l’ipotesi nulla
secondo la quale due proporzioni sono uguali, possiamo
utilizzare l’equazione (10.8) per ottenere un intervallo di
confidenza per la differenza tra le due proporzioni
Intervallo di confidenza per la differenza tra due
proporzioni
( p1  p2 )  Z / 2
 ( p1  p2 )  Z / 2
p1 (1  p1 ) p2 (1  p2 )

 ( 1   2 ) 
n1
n2
p1 (1  p1 ) p2 (1  p2 )

n1
n2
(10.8)
20
Il test Chi-quadro




La distribuzione Chi-quadro ha numerose
applicazioni in statistica, in particolare in verifica
d’ipotesi ne faremo uso con dati disponibili sotto
forma di frequenze.
Test di adattamento (goodness of fit) e test
d’indipendenza
Test Chi-quadro di adattamento: studiano la bontà di
adattamento delle frequenze osservate rispetto alle
frequenze che si presume dovrebbero verificarsi
sotto una qualche ipotesi.
Il termine “bontà di adattamento” viene di solito
usato in senso stretto (confronto tra la distribuzione
osservata e teorica)
21
Test Chi-quadro di adattamento



Test sulla bontà di adattamento: si vuole
verificare se una certa distribuzione è
compatibile con i dati del campione.
Supponiamo di avere un campione di n
osservazioni di una variabile raggruppate in
una tabella contenente k classi.
Classi possono rappresentare:



Caratteristiche qualitative
Valori assunti da una variabile discreta (ogni
classe raggruppa tutte le osservazioni che
assumono un dato valore
Intervalli di valori di una variabile continua
22
Test Chi-quadro di adattamento




Tabella: rappresenta la distribuzione di frequenza di
una variabile qualitativa o di una variabile numerica
discreta o continua.
Per ciascuna classe supponiamo di avere una
frequenza osservata (Oi) ed una frequenza attesa
(Ai) con cui si vuole confrontare la frequenza
osservata.
Le frequenze attese sono quelle che si
osserverebbero se i dati del campione fossero
distribuiti secondo la distribuzione ipotizzata.
Per
valutare
quantitativamente
la
bontà
dell’adattamento delle frequenze osservate alle
frequenze attese si utilizza la statistica test Chiquadro calcolata dal campione.
23
Statistica test Chi-quadro
2
(
O

A
)
i
2   i
Ai
i 1
k







Si dimostra che per n sufficientemente grande tale statistica si
distribuisce come una v. c. chi-quadro con grado di libertà v=k-m1.
k è il numero delle classi.
m è il numero dei parametri della distribuzione teorica stimati
servendosi dei dati del campione.
Se l’ipotesi nulla è che i dati si adattino alla distribuzione teorica
ipotizzata la regola di decisione sarà: si rifiuti H0 se il valore della
2
statistica test calcolato dai dati è maggiore del valore critico  
α è il livello di significatività stabilito
Il grado di libertà della distribuzione è v=k-m-1
Tale procedura è valida purché le frequenze assolute attese
siano tutte maggiori o uguali a 5.
 2   2
24
Test Chi–quadro di indipendenza






Il test Chi-quadro può essere utilizzato anche per verificare
l’indipendenza o meno di due variabili.
Si sottopone a test l’ipotesi nulla che due criteri di classificazione,
quando applicati al medesimo insieme di dati, siano indipendenti.
Due criteri di classificazione sono indipendenti se la distribuzione
rispetto ad un criterio non viene influenzata dalla classificazione
rispetto all’altro.
Se rifiutiamo l’ipotesi nulla allora i due criteri di classificazione sono
dipendenti.
Si dispongono in generale di n osservazioni congiunte di due
variabili e ci chiediamo se esiste una forma di dipendenza tra le due
variabili.
Tale osservazioni sono raccolte in forma di tavole di contingenza:
n osservazioni sono classificate secondo un criterio X (ossia
secondo il valore di una certa variabile) in r classi e
contemporaneamente sono classificate secondo un criterio Y (ossia
secondo i valori assunti dall’altra variabile) in c classi; la tabella
riporta all’incrocio di ogni riga con ogni colonna la frequenza
assoluta Oij .
25
Tabelle di contingenza
Classi
Classi
1
2
3
...
...
c
1
O11
O12
O13
...
...
O1c
2
O21
O22
O23
...
...
O2c
3
O31
O32
O33
...
...
O3c
...
...
...
...
...
...
...
c
Or1
Or2
Or3
...
...
Orc
• Partendo
da questa tabella si costruisce la tabella delle frequenze
attese Aij che si ottengono con la seguente:
( totale riga i) (totale colonna j)
Aij 
totale generale
26
Test Chi-quadro di indipendenza
Per n sufficientemente grande la statistica test chiquadro ha approssimativamente la distribuzione chiquadro con grado di libertà v = (r-1)(c-1)
r
c
 2  
i 1 j 1
(Oij  Aij ) 2
Aij
La regola decisionale consiste nel rifiutare H0 se il valore
osservato della statistica 2 è maggiore del valore critico 2U
della distribuzione 2 con (r−1)(c−1) gdl.
Tale procedura è valida purché le frequenze assolute attese
27
siano tutte maggiori o uguali a 5.
Test Chi-quadrato per l’indipendenza
Esempio: tabella della frequenze osservate con
riferimento al principale motivo di insoddisfazione e
all’albergo
Frequenze attese
28
Test Chi-quadrato per l’indipendenza
Calcolo della statistica χ2 per il test di indipendenza
29
Test Chi-quadrato per l’indipendenza
Regione di rifiuto e di accettazione del test χ2 per
l’indipendenza nell’esempio sulla soddisfazione dei clienti
(al livello di significatività 0.05 con 6 gradi di libertà)
30
Test Chi-quadrato per l’indipendenza
Foglio di Microsoft Excel con i calcoli necessari per la
verifica dell’ipotesi di indipendenza tra motivo di
insoddisfazione e albergo
31