6. TEST PER PROPORZIONI
BIOSTATISTICA
5. Test per proporzioni:
confronto tra campioni e
associazione
Marta Blangiardo, Imperial College, London
Department of Epidemiology and Public Health
[email protected]
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.1
6. TEST PER PROPORZIONI
1. Un solo campione: metodo esatto e
approssimazione alla Normale
2. Confronto tra due o più proporzioni
la variabile casuale chi quadro
3. Test per la bontà di adattamento di una
distribuzione di probabilità ad una
distribuzione empirica: il caso di
probabilità stimata
4. Test per la bontà di adattamento di una
distribuzione di probabilità ad una
distribuzione empirica: il caso di
probabilità teorica
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.2
6. TEST PER PROPORZIONI
1. Un solo campione: metodo
esatto e approssimazione alla
Normale
• Dalla teoria mendeliana
dell’ereditarietà ci si aspetta che
certi incroci di varietà di baccelli
producano baccelli gialli o verdi in
rapporto di 3:1.
• In un particolare esperimento si
ottengono 17 baccelli gialli e 5
verdi.
• Possiamo concludere che
l’esperimento supporta la teoria?
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.3
6. TEST PER PROPORZIONI
L’esperimento produce solo due
possibili risultati: giallo o verde
Estraiamo un campione di n=22
incroci. Siamo interessati a valutare
se la proporzione di baccelli verdi e
gialli riscontrata nel campione
riflette la teoria mendeliana
H0 : pverde = ¼ = 0.25
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.4
6. TEST PER PROPORZIONI
Dati campionari:
x (numero baccelli verdi) = 5
n
= 22
Che valori può assumere X?
La variabile di interesse (numero di
baccelli verdi) è quantitativa discreta
X = 0,1,2,3,…,n
i = baccello verde
SUCCESSO
i =baccello giallo
INSUCCESSO
Il nostro interesse è sulla proporzione
di SUCCESSI
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.5
6. TEST PER PROPORZIONI
Variabile casuale binomiale
• X: numero di successi in un dato
numero di prove n indipendenti
• Il risultato di ogni prova è S o I
• La probabilità di S (p) è la stessa in
tutte le prove
• Contiamo il numero di successi in n
prove
X ~ Binom(n,p)
35
30
25
20
15
10
1
2
3 4
5
6
7
8
9 10
successi
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.6
6. TEST PER PROPORZIONI
X ~ Binom(n,p)
P(X=x) =
n
x
px(1-p)n-x
x = 0,1,2,….,n
Media e Varianza
µx = np
σx2 = np(1-p)
n=12, p=0.3
n=12, p=0.8
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.7
6. TEST PER PROPORZIONI
Numerosità
campionaria
P(X=x) =
n
px(1-p)n-x
x
Coefficiente
binomiale
Probabilità di
successo
n*n-1*n-2*…2*1
n!
=
x! (n-x)! (x*x-1*…*2*1) [(n-x)*(n-x-1)*…*2*1]
Fattoriale
5!
5
2
=
5*4*3*2*1
2! (5-2)!
=
(2*1) ((5-2)(5-3)(5-4))
Proprietà del fattoriale
n
n
0
=1
n
=1
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.8
6. TEST PER PROPORZIONI
Successo
L’ipotesi è che pverde=0.25
P(X=x) =
22
x
0.25x(1-0.25)22-x
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.9
6. TEST PER PROPORZIONI
Distribuzione esatta:
dal campione ho n=22 e x=5
P(X=5) =
22
5
0.255(1-0.25)22-5= 0.193
Quanto è estremo il valore osservato nella
distribuzione
X ~ Binom(22,0.25)
P(X≤5) =
P(X=0)+P(X=1)+P(X=2)+P(X=3)+P(X=4)
+P(X=5)= 0.4956
Pvalue=2*0.4956=0.9912
Evidenza a
supporto
dell’ipotesi nulla
H0 : pverde = ¼ = 0.25
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.10
6. TEST PER PROPORZIONI
Se nel campione avessi osservato
x=20
22
P(X=20)=
20
0.2520(1-0.25)22-20=1.18e-10
Quanto è estremo il valore osservato nella
distribuzione
X ~ Binom(22,0.25)
P(X≥20) = P(X=21)+P(X=22) =
1.21986e-10
Pvalue=2* 1.21986e-10
=2.43972e-10
Non sufficiente
evidenza a supporto
dell’ipotesi nulla
RIFIUTO H0 : pverde = ¼ = 0.25
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.11
6. TEST PER PROPORZIONI
Quando n è abbastanza grande (>40)
possiamo approssimare la distribuzione
binomiale a quella normale
X ~ Binom(200,0.2)
In questo caso si possono utilizzare I
valori tabulati per
1) intervalli di confidenza
2) test d’ipotesi
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.12
6. TEST PER PROPORZIONI
Dal campione ottengo
p=
n.successi
n.prove
Posso calcolare lo standard error
campionario
se( p) =
p(1-p)
n
Non conosco p ma posso stimarla
usando p
se( p) =
p(1-p)
n
E ottenere l’intervallo di confidenza
95%
Pr { p - 1.96 se(p) ≤ p ≤ p + 1.96 se( p) } =
0.95
99%
Pr { p – 2.57 se(p) ≤ p ≤ p + 2.57se( p) } =
0.99
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.13
6. TEST PER PROPORZIONI
• Un gruppo di medici ha studiato l’effetto
dell’utilizzo di cravatte strette sul flusso di
sangue che arriva alla testa. Il loro interesse è
valutare come questo fatto influenzi la capacità
del cervello di rispondere a stimoli visivi. Su
un campione di 250 uomini d’affari si è
ottenuto che in 167 casi la cravatta troppo
stretta influenza l’abilità del cervello.
Per calcolare
l’intervallo di
confidenza mi
serve l’errore
standard che
stimo:
Dal campione:
n=250
x=167
p=?
p=167/250 = 0.668
se( p) =
n>40
p(1-p)
=0.03
n
approssimo alla Normale
Pr { 0.668 - 1.96 * 0.03 ≤ p ≤ 0.668 + 1.96 * 0.03 } =
0.95
IC = {0.6092-0.7268 }
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.14
6. TEST PER PROPORZIONI
Dal campione:
n=250
x=167
p=?
p=167/250 = 0.668
IC = {0.6092-0.7268 }
p
Possiamo concludere che ripetendo
l’esperimento 100 volte in 95 casi il p
della popolazione è compreso
nell’intervallo {0.6092-0.7268 }.
In 5 casi su 100 sbaglio stimando p con
p.
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.15
6. TEST PER PROPORZIONI
Dal campione ottengo
n.successi
n.prove
p=
se( p) =
p(1-p)
n
Ipotesi nulla:
H0: p=p0
zp=
p – p0
~ N(0,1)
se(p)
P-value (1 coda) =
Pr ( z >zp sotto H0)
P-value (2 code)=
2*Pr ( z >zp sotto H0)
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.16
6. TEST PER PROPORZIONI
Dalla stessa popolazione di uomini d’affari
voglio valutare se l’ipotesi che la proporzione
di uomini con cravatta troppo stretta è 0.5
Dal campione:
n=250
x=167
p=167/250 = 0.668
Per standardizzare
p devo stimare
l’errore standard
H0: p = 0.5
se( p) =
zp=
p – p0
p(1-p)
=0.03
n
= 5.6
se(p)
Pr ( z >zp sotto H0) = Pr(z>5.6 sotto H0)
Il test è a due code quindi
P-value (2 code)= 2*Pr ( z >5.6 sotto H0)
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.17
6. TEST PER PROPORZIONI
Distribuzione
normale
standardizzata
0
1
2
3
4
5
6
7
8
9
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7704
0.7734
0.7764
0.7794
0.7823
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
……..
5.0
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
5.1
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
5.2
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
5.3
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
5.4
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
5.5
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
5.6
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
1.0000
Tavole
Pr(z >zp) = 1-Pr(z<zp) = 0
Excel
P-value 2 code2*0=0
=1-DISTRIB.NORM.ST(5.6)=0
P-value 2
code2*0=0
Concludiamo che c’è evidenza contro H0
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.18
6. TEST PER PROPORZIONI
2. Confronto tra due o più
proporzioni: la variabile casuale
chi quadro
In una sperimentazione clinica tesa a valutare
l’effetto di un nuovo farmaco nel trattamento
dell’infarto miocardico acuto, 80 pazienti sono
stati assegnati casualmente al gruppo trattato
con il farmaco in studio o al placebo
Dopo 28 giorni dall’episodio di infarto (e
dall’inizio dello specifico trattamento) 10 dei 40
pazienti trattati con il farmaco sono deceduti,
contro 15 decessi verificatisi nei 40 pazienti
trattati con placebo
Questa sperimentazione offre sufficienti
evidenze che il nuovo farmaco sia
efficace nel trattamento dell’infarto
acuto?
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.19
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
E1. In una sperimentazione clinica tesa a
valutare l’effetto di un nuovo farmaco nel
trattamento dell’infarto miocardico acuto, 80
pazienti sono stati assegnati casualmente al
gruppo trattato con il farmaco in studio o al
placebo
Dopo 28 giorni dall’episodio di infarto (e
dall’inizio dello specifico trattamento) 10 dei 40
pazienti trattati con il farmaco sono deceduti,
contro 15 decessi verificatisi nei 40 pazienti
trattati con placebo
Tabella di contingenza 2 X 2
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
p1 = 10 / 40 =
= 0.250
p2 = 15 / 40 =
= 0.375
Questa sperimentazione offre sufficienti evidenze
che il nuovo farmaco sia efficace nel trattamento
dell’infarto acuto?
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.20
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Tabella di contingenza 2 X 2
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
p1 = 10 / 40 =
= 0.250
p2 = 15 / 40 =
= 0.375
p = 25 / 80 =
= 0.3125
Ci si aspetta che la mortalità nei
due gruppi differisca per effetto del
caso (errore di campionamento) in
assenza del quale:
p1 = p2 = p = 0.3125
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.21
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Tabella di contingenza 2 X 2
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
p1 = 10 / 40 =
= 0.250
p2 = 15 / 40 =
= 0.375
sotto:
π1
p = 25 / 80 =
= 0.3125
H0
=
π2
π
=
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.22
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Tabella di contingenza 2 X 2
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
p1 = 10 / 40 =
= 0.250
p2 = 15 / 40 =
= 0.375
p = 25 / 80 =
= 0.3125
Quanti pazienti trattati con il farmaco sarebbero
morti se fossero sottoposti alla stessa mortalità
dell’intero gruppo sperimentale?
.
40 0.3125 =
Pazienti trattati
con il farmaco
deceduti
Pazienti di
controllo
totale
25
12.5
55
vivi
totale
40
80
40
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.23
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Tabella di contingenza 2 X 2
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
p1 = 10 / 40 =
= 0.250
p2 = 15 / 40 =
= 0.375
p = 25 / 80 =
= 0.3125
Quanti pazienti trattati con placebo sarebbero
morti se fossero sottoposti alla stessa mortalità
dell’intero gruppo sperimentale?
.
40 0.3125 =
Pazienti trattati
con il farmaco
deceduti
Pazienti di
controllo
totale
12.5
25
55
vivi
totale
40
80
40
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.24
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Dati
osservati
Tabella di contingenza 2 X 2
Pazienti di
controllo
Pazienti trattati
con il farmaco
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
Dati
attesi
Tabella di contingenza 2 X 2
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
12.5
12.5
25
vivi
27.5
27.5
55
40
40
80
totale
Test del
chi-quadrato
χ g= Σi
2
(Oi - Ei)2
MARTA BLANGIARDO – TEST PER PROPORZION
Ei
-
6.25
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Dati
osservati
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
Dati
attesi
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
12.5
12.5
25
vivi
27.5
27.5
55
40
40
80
totale
χ g= Σi
2
(Oi - Ei)2
Ei
(10-12.5)2
+
=
12.5
(15-12.5)2
(30-27.5)2
(25-27.5)2
+
+
+
= 1.45
12.5
27.5
27.5
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.26
6. TEST PER PROPORZIONI
Distribuzione chi-quadrato
Chi
quadro
gdl
0.3
0.25
0.05
0.025
0.01
1
1.07
1.32
3.84
5.02
6.63
2.41
2.77
5.99
7.38
9.21
…
3.66
4.10
9.34
11.34
4.88
5.39
…
7.81
9.49
11.14
13.28
…
6.06
6.62
…
11.07
12.83
15.09
7.23
7.84
12.59
14.44
16.81
2
3
4
5
6
…
…
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.27
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Perché 1 grado di libertà?
χ1= 1.45
2
Valore empirico:
P-value =
0.2 < Pr(χ22>1.45 sotto H0) < 0.25
> 0.05
Dovremmo accettare l’ipotesi nulla
(p > 0.05): le due proporzioni non
differiscono significativamente
Questa sperimentazione non offre sufficienti
evidenze che il nuovo farmaco sia efficace nel
trattamento dell’infarto acuto
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.28
6. TEST PER PROPORZIONI
Dati
osservati
Pazienti trattati
con il farmaco
Pazienti di
controllo
totale
deceduti
10
15
25
vivi
30
25
55
totale
40
40
80
Se si fissano i totali di riga e di colonna
(marginali) mi basta inserire il valore di
una cella e le altre le trovo per
differenza
Pazienti trattati
con il farmaco
deceduti
vivi
totale
Pazienti di
controllo
totale
10
25-10=15
25
40-10=30
40-15=25
55
40
80
40
Quindi ho solo 1 grado di libertà
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.29
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
In una sperimentazione clinica tesa a valutare
l’effetto di due nuovi farmaci (A e B) nel
trattamento dell’infarto miocardico acuto, 90
pazienti furono assegnati casualmente al gruppo
trattato con il farmaco A, al gruppo trattato con il
farmaco B o al placebo
Dopo 28 giorni dall’episodio di infarto (e
dall’inizio dello specifico trattamento) 10 dei 30
pazienti trattati con il farmaco A, 5 dei 30
pazienti trattati con il farmaco B e 15 dei 30
pazienti trattati con placebo sono deceduti
Tabella di contingenza 2 X 3
Farmaco Farmaco
B
A
Placebo
totale
deceduti
10
5
15
30
vivi
20
25
15
60
totale
30
30
30
90
pA = 10 / 30 =
= 0.333
pB = 5 / 30 =
= 0.167
pP = 15 / 30 =
= 0.5
Questa sperimentazione offre sufficienti evidenze
che i diversi trattamenti determinino diversi
effetti sulla sopravvivenza?
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.30
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Tabella di contingenza 2 X 3
Farmaco Farmaco
B
A
Placebo
totale
deceduti
10
5
15
30
vivi
20
25
15
60
totale
30
30
30
90
pA = 10 / 30 =
= 0.333
pB = 5 / 30 =
= 0.167
sotto:
πA
=
pP = 15 / 30 =
= 0.500
H0
πB
=
πp
π
=
30/90=0.333
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.31
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Dati
osservati
Farmaco Farmaco
B
A
Placebo
totale
deceduti
10
5
15
30
vivi
20
25
15
60
totale
30
30
30
90
pA = 10 / 30
= 0.333
pB = 5 / 30
= 0.167
pP = 15 / 30
= 0.500
p = 30 / 90
= 0.333
Dati attesi sotto H0
0.333 . 30 =
0.333 . 30 =
Farmaco Farmaco
B
A
0.333 . 30 =
Placebo
totale
deceduti
10
10
10
30
vivi
20
20
20
60
totale
30
30
30
90
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.32
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Dati
osservati
Farmaco Farmaco
B
A
Placebo
totale
deceduti
10
5
15
30
vivi
20
25
15
60
totale
30
30
30
90
Placebo
totale
Dati
Farmaco Farmaco
B
A
attesi
deceduti
10
10
10
30
vivi
20
20
20
60
totale
30
30
30
90
χ g= Σi
2
(Oi - Ei)2
Ei
= 6.11
2
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.33
6. CONFRONTO TRA
6. TEST
PROPORZIONI
PER PROPORZIONI
DI DUE O PIÙ CAMPIONI
INDIPENDENTI
Perché 2 gradi di libertà?
χ2= 6.11
2
Valore empirico:
P-value =
0.025< Pr(χ22>6.11 sotto H0) < 0.05
< 0.05
Dovremmo rigettare l’ipotesi nulla
(p < 0.05): le tre proporzioni
differiscono significativamente
Questa sperimentazione offre sufficienti evidenze
che il diverso trattamento determina diverse
mortalità nei pazienti con infarto acuto
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.34
6. TEST PER PROPORZIONI
Dati
osservati
Farmaco Farmaco
B
A
Placebo
totale
deceduti
10
5
15
30
vivi
20
25
15
60
totale
30
30
30
90
In questo caso una cella non è sufficiente per
ottenere tutte le altre per differenza. Ne
servono 2
Dati
osservati
deceduti
vivi
Farmaco Farmaco
B
A
10
5
Placebo
totale
30-10-5=15 30
30-10=20 30-5=25 30-15=15 60
30
totale
30
Quindi ho 2 gradi di libertà
90
30
In generale i gdl si ottengono come
(n.righe-1)*(n.colonne-1)
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.35
6. TEST PER PROPORZIONI
ESERCIZIO di RIEPILOGO 1
In una popolazione di bambini in età
prescolare si vuole verificare se la
percentuale di bambini affetti da dislessia
è pari al 10%. Per questo motivo si estrae
un campione di 200 bambini e si ottiene
che quelli dislessici sono 40. Saggiare
l’ipotesi nulla
ESERCIZIO di RIEPILOGO 2
Si vuole verificare se l’effetto di tre diete è
equivalente nel ridurre il peso in una
popolazione di bambini. A tal fine si
estraggono 3 campioni di 20, 30 e 40
bambini e si assegna loro rispettivamente
la dieta A, B e C. Definiamo che la dieta
ha effetto se riduce il peso di almeno 5
Kg. Il numero di riduzioni di peso nei tre
campioni è rispettivamente 10, 12 e 18
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.36
6. TEST PER PROPORZIONI
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.37
6. TEST PER PROPORZIONI
ESERCIZIO di RIEPILOGO 2
Si vuole verificare se l’effetto di tre diete è
equivalente nel ridurre il peso in una
popolazione di bambini. A tal fine si
estraggono 3 campioni di 20, 30 e 40
bambini e si assegna loro rispettivamente
la dieta A, B e C. Definiamo che la dieta
ha effetto se riduce il peso di almeno 5
Kg. Il numero di riduzioni di peso nei tre
campioni è rispettivamente 10, 12 e 18
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.38
6. TEST PER PROPORZIONI
3. Test per la bontà di adattamento di una
distribuzione di probabilità ad una
distribuzione empirica: il caso di
probabilità teorica
Dalla teoria mendeliana:
Baccelli verdi e lisci
Rugosi e
Lisci e
Rugosi e
Lisci e
verdi (RV) verdi (LV) gialli (RG) gialli (LG)
1/16
3/16
3/16
9/16
Baccelli gialli
e rugosi
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.39
6. TEST PER PROPORZIONI
Distribuzione teorica
Rugosi e
Lisci e
Rugosi e
Lisci e
verdi (RV) verdi (LV) gialli (RG) gialli (LG)
1/16
3/16
3/16
9/16
Da un campione di 160 incroci si ottengono
i seguenti risultati:
Rugosi e
Lisci e
Rugosi e
Lisci e
verdi (RV) verdi (LV) gialli (RG) gialli (LG)
8
32
27
93
N=160
I dati supportano la teoria mendeliana?
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.40
6. TEST PER PROPORZIONI
Vogliamo testare la seguente ipotesi
H0: p1=1/16, p2=3/16, p3=3/16, p4=9/16
Se H0 è vera:
160.
RV
LV
RG
LG
10
30
30
90
1
=10
16
160.
3
160.
=30
16
3
=30
160.
9
=90
16
16
Utilizziamo nuovamentre la statistica chi
quadrato
Test del
chi-quadrato
χ g= Σi
2
(Oi - Ei)2
MARTA BLANGIARDO – TEST PER PROPORZION
Ei
-
6.41
6. TEST PER PROPORZIONI
Valori osservati
Rugosi e
Lisci e
Rugosi e
Lisci e
verdi (RV) verdi (LV) gialli (RG) gialli (LG)
8
32
27
93
Valori attesi sotto H0
RV
LV
RG
LG
10
30
30
90
χ32
+
(32-30)2
+
30
(27-30)2
+
30
=
(8-10)2
10
(93-90)2
90
+
= 0.93
I gradi di libertà sono ncat-1
(nel nostro caso 4-1=3)
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.42
6. TEST PER PROPORZIONI
Distribuzione chi-quadrato
gdl
0.9
0.8
0.7
0.6
1
0.0158
0.0642
0.1485
0.2750
2
0.2107
0.4463
0.7133
1.0217
3
0.5844
1.0052
1.4237
1.8692
4
1.0636
1.6488
2.1947
2.7528
5
1.6103
2.3425
2.9999
3.6555
6
2.2041
3.0701
3.8276
4.5702
Il Pvalue è compreso tra questi due
valori
P-value = Pr(χ23>0.93 sotto H0) ≈ 0.85
> 0.05
Non abbiamo abbastanza evidenza per
rifiutare H0
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.43
6. TEST PER PROPORZIONI
4. Test per la bontà di adattamento di una
distribuzione di probabilità ad una
distribuzione empirica: il caso di
probabilità stimata
Stima dei parametri della popolazione
partendo dai dati campionari
Assunzioni sulla forma della
distribuzione dei parametri
E’ utile verificare tali assunzioni valutando
quanto i valori osservati si discostano dalla
distribuzione teorica
Confronto tramite chi quadrato delle
frequenze osservate e attese sotto la
distribuzione teorica
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.44
6. TEST PER PROPORZIONI
Strategia:
1) Scelta della distribuzione di probabilità
adatta a descrivere il fenomeno in studio
2) Calcolo delle probabilità associate ai
valori che la variabile in studio assume nel
campione
3) Calcolo delle frequenze attese πi.O
4) Valutazione tramite chi quadrato delle
discrepanze tra frequenze osservate (Oi)
ed attese πi.O
χ = Σg
2
(Oi – πi O)2
πi O
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.45
6. TEST PER PROPORZIONI
Verifica dell’adattamento ad una
distribuzione Binomiale
Sono stati raccolti i dati relativi al numero
di figlie femmine in 103 famiglie di 4 figli. Il
rapporto tra maschi e femmine è atteso di
½:½.
1) Scelta della distribuzione di probabilità
adatta a descrivere il fenomeno in studio
Variabile casuale
dicotomica
Successo:
figlia femmina
Variabile casuale teorica:
Binomiale
X~Binom(n,p)
X~Binom(4,0.5)
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.46
6. TEST PER PROPORZIONI
2) Sappiamo che πi=0.5 sotto H0
Valori osservati nel campione
Oi
5
24
44
19
11
X
0
1
2
3
4
50
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
Osservati
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.47
6. TEST PER PROPORZIONI
3) Calcolo delle probabilità associate ai
valori che la variabile in studio assume
nel campione
4
P(X=x) =
0.5x(1-0.5)4-x
x
X
Oi
πi
0
5
(1/2)4=0.0625
1
24
4. (1/2)1. (1/2)3 = 0.25
2
44
6. (1/2)2. (1/2)2 = 0.375
3
19
4 . (1/2)3. (1/2)1 = 0.25
4
11
(1/2)4. (1/2)0 = 0.0625
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.48
6. TEST PER PROPORZIONI
4) Calcolo delle frequenze attese πi.O
X
Oi
πi
πi.O
0
5
(1/2)4=0.0625
0.0625.103=6.44
1
24
4. (1/2)1. (1/2)3 = 0.25
0. 25.103=25.75
2
44
6. (1/2)2. (1/2)2 = 0.375
0.375.103=38.62
3
19
4 . (1/2)3. (1/2)1 = 0.25
0.25.103=25.75
4
11
(1/2)4. (1/2)0 = 0.0625
0.0625.103=6.44
50
45
40
35
30
25
20
15
10
5
0
1
2
3
4
5
Osservati
Attesi
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.49
6. TEST PER PROPORZIONI
5) Valutazione tramite chi quadrato delle
discrepanze tra frequenze osservate (Oi)
ed attese πi.O
χ = Σg
2
(Oi – πi O)2
πi O
(5-6.44)2
(24-25.75)2
(44-38.62)2
+
+
=
6.44
25.75
38.62
(19-25.75)2
(11-6.44)2
+
+
= 6.191
25.75
6.44
Il numero di gdl è ncat-1 = 5 - 1 = 4
Da excel:
=DISTRIB.CHI(6.191,4)
P-value = Pr(χ24>6.191 sotto H0) ≈ 0.18
> 0.05
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.50
6. TEST PER PROPORZIONI
Possiamo concludere che la
differenza tra la distribuzione
osservata e quella teorica
(Binomiale di parametro 0.5 in 4
prove) non è significativa
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.51
6. TEST PER PROPORZIONI
Verifica dell’adattamento ad una
distribuzione Poisson
Si desidera conoscere la distribuzione di
una variante rara di una certa pianta in una
determinata regione. Per fare cio’ la
regione viene suddivisa in aree di uguale
grandezza e si conta il numero di elementi
della variante in studio.
1) Scelta della distribuzione di probabilità
adatta a descrivere il fenomeno in studio
Variabile casuale
discreta, ma
NON
dicotomica
Evento
RARO
Variabile casuale teorica:
Poisson
X~Poisson(λ)
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.52
6. TEST PER PROPORZIONI
Distribuzione Poisson
Caratterizzata da
un parametro
Distribuzone usata
per gli eventi rari
X~Poisson(λ)
E(X) = λ
Var(X) = λ
X~Poisson(5)
X~Poisson(3)
E(X)=5
E(X)=3
Var(X)=5
Var(X)=3
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.53
6. TEST PER PROPORZIONI
2) Non conosciamo i valori di πi nella
popolazione: dobbiamo stimarli
Valori osservati nel campione
Oi
39
34
13
1
0
X
0
1
2
3
>3
45
40
35
30
25
20
15
10
5
0
0
1
2
3
Osservati
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.54
6. TEST PER PROPORZIONI
2) Non conosciamo i valori di πi nella
popolazione: dobbiamo stimarli
Una stima di λ è
x (media campionaria):
x=
ΣxiOi
ΣOi
x = 39 . 0 + 34 . 1 + 13 . 2 + 1 . 3 = 0.7241
87
X~Poisson(0.7241)
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.55
6. TEST PER PROPORZIONI
3) Calcolo delle probabilità associate ai
valori che la variabile in studio assume
nel campione
X~Poisson(0.7241)
P(X=x) =
λx e-λλ
x!
X
0
Oi
39
πi
e-0.7241=0.4847
0.72410 e-0.7241
0!
1
34
e-0.7241. (0.7241)1 = 0.3510
2
13
e-0.7241. (0.7241)2/2=0.1271
3
1
e-0.7241. (0.7241)3/6=0.0306
>3
0
1-0.4847- 0.3510-0.12710.0306 = 0.0065
MARTA BLANGIARDO – TEST PER PROPORZION
-
=1
6.56
6. TEST PER PROPORZIONI
4) Calcolo delle frequenze attese πi.O
X
Oi
πi
πi.O
0
39
e-0.7241=0.4847
0.4847.87=42.17
1
34
e-0.7241. (0.7241)1 =
0.3510
0.3510. 87=30.54
2
13
e-0.7241.
(0.7241)2/2=0.1271
0.1271. 87=11.06
3
1
e-0.7241.
(0.7241)3/6=0.0306
0.0306. 87=2.66
>3
0
1-0.4847- 0.3510-0.12710.0306 = 0.0065
0.0625. 87=0.54
45
40
35
30
25
20
15
10
5
0
Osservati 0
Attesi
1
2
3
MARTA BLANGIARDO – TEST PER PROPORZION
>3
-
6.57
6. TEST PER PROPORZIONI
5) Valutazione tramite chi quadrato delle
discrepanze tra frequenze osservate (Oi)
ed attese πi.n (o pi.n se i parametri sono
ignoti nella popolazione)
χ = Σg
2
(Oi – πi O)2
πi O
(39-42.17)2
(34-30.54)2
(13-11.06)2
+
+
=
42.17
30.54
11.06
(1-2.66)2
(0-0.54)2
+
+
= 2.5095
2.66
0.54
Il numero di gdl è n.cat-2 = 5 - 2 = 3
Da excel:
=DISTRIB.CHI(2.5094,3)
P-value = Pr(χ23>2.5094 sotto H0) ≈ 0.47
> 0.05
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.58
6. TEST PER PROPORZIONI
Possiamo concludere che la
differenza tra la distribuzione
osservata e quella teorica
(Poisson di parametro 0.7241)
non è significativa
PROBLEMA: come mai abiamo usato
un chi quadro con 3 gradi di libertà?
Il numero di gdl è n.cat-2 = 5 - 2 = 3
???
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.59
6. TEST PER PROPORZIONI
Abbiamo visto precedentemente che i
gradi di libertà erano calcolati come
•N.obs-1 (nel caso della T di Student)
•N.cat-1
•(n.righe-1)(n.col-1)
Nel caso del chi
quadro
In questo caso abbiamo un ulteriore vincolo
dato dal fatto che DOBBIAMO stimare λ
tramite i dati campionari (y). Quindi:
1. ΣOi=O
2. ΣxiOi= y
gdl = n.cat - 2
ΣOi
Una regola universale: il numero di gradi di libertà è
sempre uguale al numero di osservazioni MENO il
numero di relazioni tra le osservazioni che abbiamo la
necessità di ottenere
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.60
6. TEST PER PROPORZIONI
Verifica dell’adattamento ad una
distribuzione Normale
In un campione di piante da fiore viene
misurata la lunghezza della corolla (in mm);
si desidera conoscere la sua distribuzione.
1) Scelta della distribuzione di probabilità
adatta a descrivere il fenomeno in studio
Variabile casuale
continua
Ci si aspetta
simmetria
nella
distribuzione
Variabile casuale teorica:
Normale
X~N(µ,σ2)
f ( x) =
1
2πσ 2
⋅e
MARTA BLANGIARDO – TEST PER PROPORZION
-
( x −µ ) 2
−
2σ2
6.61
6. TEST PER PROPORZIONI
f ( x) =
X~N(µ,σ2)
1
2πσ 2
⋅e
( x −µ ) 2
−
2σ2
Standardizzazione
1
f ( z) =
⋅e
2π
Z~N(0,1)
z2
−
2
Per standardizzare devo stimare µ e σ2 dal
campione:
µ
σ2
ΣxiOi
x=
ΣOi
= 67.45
Σ(xi-x)2Oi
s2 =
(ΣOi)-1
= 8.6136
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.62
6. TEST PER PROPORZIONI
Verifica dell’adattamento ad una
Distribuzione normale standardizzata
distribuzione Normale
1
0
z
1. Suddividere l’intero campo di variazione
in intervalli. E’ conveniente che il valore
centrale sia un numero intero.
2. Calcolare la frequenza osservata in ogni
classe
xa -| xb
59.5-|62.5
62.5-|65.5
65.5-|68.5
68.5-|71.5
71.5-|74.5
(xa+xb)/2
61
64
67
70
73
MARTA BLANGIARDO – TEST PER PROPORZION
Oi
5
18
42
27
8
-
6.63
6. TEST PER PROPORZIONI
3. Standardizzare usando l’estremo
superiore di ogni classe
1
f ( z) =
⋅e
2π
z2
−
2
62.5-67.45
2.93
xa -| xb
(xa+xb)/2 Oi
z
59.5-|62.5
61
5
-1.69
62.5-|65.5
64
18
-0.66
65.5-|68.5
67
42
0.36
68.5-|71.5
70
27
1.38
71.5-|74.5
73
8
oo
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.64
6. TEST PER PROPORZIONI
4. Determinare la funzione cumulata I
corrispondenza dei limiti superiori di ogni
classe (per l’ultima classe porre=1)
(xa+xb)/2 Oi
xa -| xb
z
Fi
-1.69 0.0455
59.5-|62.5
61
5
62.5-|65.5
64
18 -0.66 0.2546
65.5-|68.5
67
42
0.36 0.6406
68.5-|71.5
70
27
1.38 0.9126
71.5-|74.5
73
8
oo
1.0000
Usando le tavole
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.65
6. TEST PER PROPORZIONI
5. Per differenze determinare le frequenze
attese relative πi
Fi – Fi-1
(xa+xb)/2 Oi
xa -| xb
z
πi
Fi
-1.69 0.0455 0.0455
59.5-|62.5
61
5
62.5-|65.5
64
18 -0.66 0.2546 0.2091
65.5-|68.5
67
42
0.36 0.6406 0.3860
68.5-|71.5
70
27
1.38 0.9126 0.2756
71.5-|74.5
73
8
oo
1.0000 0.0838
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.66
6. TEST PER PROPORZIONI
6. Calcolare le frequenze attese πiO
xa -| xb20
(xa+xb)/2 Oi
z
Fi
πiO
πi
59.5-|62.5
61
5 -1.69 0.0455 0.0455 4.55
62.5-|65.5
64
18 -0.66 0.2546 0.2091 20.91
65.5-|68.5
67
42 0.36 0.6406 0.3860 38.60
68.5-|71.5
70
27 1.38 0.9126 0.2756 27.56
71.5-|74.5
73
8
oo
1.0000 0.0838 8.38
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.67
6. TEST PER PROPORZIONI
6. Confrontare le frequenze osservate e
attese tramite il chi quadro
χ = Σg
2
(Oi – πi O)2
πi O
(5-4.55)2
(18-20.91)2
(42-38.60)2
+
+
=
4.55
20.91
38.60
(27-27.56)2
(8-8.38)2
+
+
= 0.777
27.56
8.38
Il numero di gdl è n.cat-3 = 5 - 3 = 2
Da excel:
=DISTRIB.CHI(2.5094,2)
P-value = Pr(χ22>0.777 sotto H0) ≈ 0.67
> 0.05
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.68
6. TEST PER PROPORZIONI
Possiamo concludere che la
differenza tra la distribuzione
osservata e quella teorica
(Normale di parametri µ=67.45 e
σ=2.93) non è significativa
MARTA BLANGIARDO – TEST PER PROPORZION
-
6.69