OD
TEST DI IPOTESI
50
OD
TEST D'IPOTESI
• È possibile ipotizzare che la durata media del
ricovero ospedaliero al Policlinico San Matteo,
negli ultimi 3 anni, è stata di 3 giorni?
• È possibile ipotizzare che un dato farmaco induce
il miglioramento del 50% dei pazienti trattati?
In generale
un test d’ipotesi permette di stabilire se ipotesi
come queste sono compatibili con i dati
campionari;
un test d’ipotesi permette di giungere a conclusioni
sulla popolazione, in base alle informazioni
contenute nel campione estratto dalla popolazione.
51
OD
TEST D’IPOTESI
IPOTESI DI RICERCA
Ipotesi,
supposizioni
suggerite
dall’esperienza e che motivano l’indagine
IPOTESI STATISTICHE
Traduzioni delle ipotesi di ricerca in
linguaggio formale, in una proposizione
logica che possa essere testata.
TEST STATISTICI
Permettono di testare le ipotesi statistiche,
confermando o confutando le ipotesi di
ricerca.
52
OD
DALL’IPOTESI DI RICERCA ALL’IPOTESI
STATISTICA
Esempio
Si estrae un campione di 50 cartelle ospedaliere
per calcolare la durata media di un ricovero.
Dai dati campionari si ottiene una durata media di
3,2 giorni.
IPOTESI DI RICERCA
“La durata media di un ricovero ospedaliero nella
popolazione è minore di 4 giorni.”
Il valore campionario ci permette di formulare
un’ipotesi di ricerca di questo genere?
53
OD
IPOTESI STATISTICHE
Sulla base dell’ipotesi di ricerca si formulano due ipotesi
opposte: l’ipotesi nulla H0 e l’ipotesi alternativa H1.
Ipotesi alternativa H1
É l'ipotesi di interesse, l’ipotesi che guida la ricerca e
che si spera di confermare
Ipotesi nulla H0
È l’ipotesi che si spera di rifiutare sulla base dell’esito
del test cui verrà sottoposta.
È complementare all'ipotesi alternativa H1.
Nel nostro esempio:
Ipotesi nulla: H0≥4
Ipotesi alternativa: H1<4
Altri esempi:
Ipotesi di ricerca:”È possibile concludere che la media della
popolazione è diversa da 80 kg?”
Ipotesi statistiche:
H0 = 80 kg H1 ≠ 80 kg
Ipotesi di ricerca:”È possibile concludere che la media della
popolazione è minore di 2000 cal/die?”
H0 ≥ 2000 cal/die H1 < 2000 cal/die
Ipotesi statistiche:
54
OD
LA STATISTICA TEST*
Formulate le ipotesi H0 e H1, in base alle assunzioni
(normalità della popolazione, indipendenza dei campioni,
uguaglianza delle varianze), si decide quale test usare.
Nel caso di un'ipotesi sulla media µ di una
popolazione (assunta distribuita normalmente e con
varianza nota) il test è:
x − µ0
z=
σ n
Dove
x
= media campionaria
µ0 = media ipotizzata della popolazione
σ
n = errore standard della media campionaria
z può assumere valori diversi al variare dei dati
campionari e segue la distribuzione normale
standardizzata, se H0 è vera.
statistica di interesse - parametro ipotizzato
statistica test* =
errore standard della statistica di interesse
55
OD
LA REGIONE DI ACCETTAZIONE E DI
RIFIUTO DI H0
Tutti i possibili valori del test z (che variano al variare del
campione estratto) sono tutti i punti dell’asse x, divisi in
regione di accettazione e regione di rifiuto.
0
Regione di rifiuto
Regione di accettazione
z
Regione di rifiuto
• Regione di rifiuto: comprende i valori con minor
probabilità di verificarsi, se H0 è vera.
• Regione di accettazione: comprende i valori con
maggior probabilità di verificarsi, se H0 è vera.
56
OD
IL LIVELLO DI SIGNIFICATIVITÀ
Come decidere i limiti delle regioni di accettazione
e di rifiuto?
È necessario stabilire, prima di calcolare z, il livello
di significatività α.
È una probabilità: la probabilità di commettere
l’errore di rifiutare l’ipotesi nulla H0 quando essa
è vera (errore di I specie).
Per ridurre la probabilità di questo errore si
sceglie per α un valore piccolo
Valori di α più usati:
0.01, 0.05 e 0.10
Ad ogni valore di α corrisponde un valore di z*
(z critico) che consente di individuare le zone di
accettazione e di rifiuto.
* Vedi tavole
57
OD
IL CALCOLO DELLA STATISTICA TEST
Fissati il livello di significatività α, il valore di z
critico e le regioni di accettazione e di rifiuto di H0,
si procede al calcolo della statistica test:
x − µ0
z=
σ n
DECISIONE STATISTICA
• Il valore della statistica test cade nella regione di
rifiuto di H0 → rifiuto H0 e concludo che H1 è
vera.
• Il valore della statistica test cade nella regione di
accettazione di H0 → non rifiuto H0 e concludo
che H0 può essere vera.
58
OD
CONCLUSIONE
• Rifiutando H0, si vuole significare che essa ci
appare improbabile sulla base dei dati campionari.
Si conclude che H0 è falsa, perché i nostri dati non
sono compatibili con essa, ma supportano l’ipotesi
alternativa H1.
• Non rifiutando H0, si vuole significare che essa ci
appare probabile sulla base dei dati campionari.
Si conclude che H0 può essere vera, perché i dati
non ci forniscono sufficiente evidenza contro di
essa.
59
OD
ERRORI DI 1a E 2a SPECIE
Esiste sempre il rischio di commettere un errore
accettando o rifiutando l’ipotesi nulla.
L’errore α o di 1a specie è la probabilità di rifiutare
l’ipotesi nulla quando essa è vera.
L’errore β o di 2a specie è la probabilità di non
rifiutare l’ipotesi nulla quando essa è falsa.
La probabilità di commettere un errore di I tipo α è
la probabilità che il valore di z cada nella regione di
rifiuto della distribuzione del test z.
H0 vera
H0 falsa
Non rifiutare H0 Scelta corretta
Errore di 2a specie
Rifiutare H0
Errore di 1a specie Scelta corretta
60
OD
RIASSUMENDO
1. Formulare chiaramente le ipotesi statistiche H0 e
H 1;
2. decidere il test statistico appropriato, sulla base
delle assunzioni,
3. decidere il livello di significatività α e, di
conseguenza, le regioni di accettazione e di
rifiuto di H0;
4. calcolare la statistica test dai dati campionari;
5. decidere se accettare o no H0 e giungere ad una
conclusione rispetto all’ipotesi di ricerca.
61
OD
TEST D’IPOTESI SU UNA MEDIA
a. POPOLAZIONE NORMALE CON σ NOTA
Il test per saggiare H0 è:
z=
x − µ0
σ n
Esercizio
Daniel pag. 200 7.2.2
Alcuni ricercatori sono interessati ad ottenere una
risposta alla seguente domanda:
“È possibile concludere che l’età media della
popolazione d’interesse è diversa da 30 anni?”
Dati
x = 27 anni (età media campionaria)
n = 10 (numerosità campionaria)
Assunzioni
• Campione casuale;
• nella popolazione l’età è distribuita normalmente;
• σ2 = 20 anni2.
62
OD
Ipotesi
H0 : µ =30
H1 : µ ≠30
Test
Test z
Livello di significatività
α = 0.05
α = 0.05
→ area compresa in entrambe le code della
distribuzione
I valori della statistica test che portano al rifiuto di H0 sono valori
estremi (decisamente minori o decisamente maggiori di 30), posti
nelle code destra e sinistra della distribuzione; pertanto:
α/2 = 0.025 → area compresa in ciascuna delle due code
della distribuzione
0.95
α/2=0.025
-1.96
α/2=0.025
0
I valori critici di z sono ± 1.96
+1.96
z
Vedi tavole
La regione di rifiuto è formata da tutti i valori della
statistica test ≥ 1.96 o ≤ -1.96.
63
OD
Calcolo della statistica test
z=
x − µ 0 27 − 30
−3
=
=
= −2.12
1.4142
20
σ n
10
Decisione statistica e conclusione
–2.12 < -1.96 → cade nella regione di rifiuto di H0.
Posso rifiutare H0 e concludere che i dati
campionari ci consentono di supportare l’ipotesi
alternativa H1: la media della popolazione è diversa
da 30 ad un livello di significatività uguale a 0.05.
64
OD
LA VERIFICA DELL’IPOTESI H0 CON UN
INTERVALLO DI CONFIDENZA
Nell’esercizio precedente:
Ipotesi:
H0 : µ =30
H1 : µ ≠30
Decisione statistica: Rifiuto di H0
Conclusione:
La media µ della popolazione
è diversa da 30.
Come pervenire alle stesse conclusioni usando un
intervallo di confidenza al (1-α)100 per cento?
I.C. al 95% per µ è:
L1 ; L2 = 27 ± 1.96 20
= 27 ± 1.96 ⋅1.4142 = 27 ± 2.7718 =
10
= 24.2282 ; 29.7718
65
OD
L'intervallo 24.2282;29.7718 non contiene 30:
30 non rappresenta un buon candidato per la media
che si desidera stimare.
Decisione statistica: Rifiuto H0
Conclusione:
µ ≠ 30
In generale
Quando si saggia un’ipotesi nulla con un intervallo
di confidenza bidirezionale e centrato,
- se il parametro ipotizzato non è contenuto
nell’intervallo al (1-α)100 per cento è possibile
rifiutare H0 al livello α di significatività;
- se il parametro ipotizzato è contenuto
nell’intervallo al (1-α)100 per cento non è
possibile rifiutare H0 al livello α di significatività.
66
OD
TEST BIDIREZIONALE E UNIDIREZIONALE
Test bidirezionale
L’esercizio precedente è un esempio di test
bidirezionale.
In un test bidirezionale:
• si è interessati a scostamenti dalla media ipotizzata
in entrambe le direzioni;
• valori estremi in entrambe le direzioni porteranno a
rifiutare H0;
• nell’ipotesi nulla H0 compare il segno di
uguaglianza (=);
nell’ipotesi alternativa H1 compare il segno di
disuguaglianza (≠);
H0: µ = µ0 H1: µ ≠ µ0
• il valore di α è suddiviso equamente tra le due code
della distribuzione.
Esempio
Quantità di un dato farmaco in una capsula:
valori del farmaco in eccesso o in difetto sono entrambi
critici.
67
OD
Test unidirezionale
In un test unidirezionale
• si è interessati a scostamenti dalla media ipotizzata
in una sola direzione;
• valori estremi in una sola direzione porteranno a
rifiutare H0;
• nell’ipotesi nulla H0 compaiono i segni di
disuguaglianza ≤ oppure ≥;
• nell’ipotesi alternativa H1 compaiono i segni di
disuguaglianza > oppure <:
H0: µ ≤ µ0 H1: µ > µ0
oppure
H0: µ ≥ µ0 H1: µ < µ0
• la regione di rifiuto è data dalla coda di destra
quando H1 è di tipo µ > µ0 ed è data dalla coda di
sinistra quando H1 è di tipo µ <µ0;
• il valore di α è interamente attribuito ad una sola
coda della distribuzione.
68
OD
Esercizio
Daniel pag. 200 7.2.2
Con
riferimento
all’esercizio
precedente,
supponiamo che i ricercatori si pongano questa
domanda:
“È possibile concludere che l’età media della
popolazione d’interesse µ è minore di 30 anni?”
Dati
x = 27 anni (età media campionaria)
n=10 (numerosità campionaria)
Assunzioni
• Campione casuale;
• nella popolazione l’età è distribuita normalmente;
• σ2 =20 anni2.
Ipotesi
H0 : µ ≥ 30
H1 : µ <30
Test
Test z
69
OD
Livello di significatività
α = 0.05
I valori della statistica test che portano al rifiuto di H0 sono valori
sufficientemente piccoli, mentre valori grandi rinforzano H0.
La regione di rifiuto deve essere in corrispondenza dei valori più
piccoli della distribuzione, posti nella coda sinistra della
distribuzione.
α = 0.05
→ area compresa nella sola coda di sinistra.
0.95
α=0.05
-1.645
0
Il valore critico di z è -1.645
x
Vedi tavole
La regione di rifiuto è formata da tutti i valori della
statistica test < -1.645.
70
OD
Calcolo della statistica test
−3
x − µ 0 27 − 30
z=
=
=
= −2.12
1.4142
σ n
20
10
Decisione statistica e conclusione
–2.12 < -1.645 → cade nella regione di rifiuto di H0.
Posso rifiutare H0 e concludere che i dati
campionari ci consentono di supportare l’ipotesi
alternativa H1: la media della popolazione è minore
di 30 ad un livello di significatività uguale a 0.05.
71
OD
b. POPOLAZIONE NORMALE CON σ
INCOGNITA
Il procedimento di verifica di ipotesi non cambia se
non nella statistica test per saggiare H0:
x − µ0
t=
s n
Esercizio
Daniel pag. 202 7.2.3
Ipotesi di ricerca:
“La media dell’indice di massa corporea (BMI)
nella popolazione è diversa da 35.”
Dati
x = 30.5 (BMI medio nel campione)
s = 10.6392
n=14 (numerosità campionaria)
Assunzioni
• Campione casuale;
• nella popolazione le misure BMI sono distribuita
normalmente.
72
OD
Ipotesi
H0 : µ =35
H1 : µ ≠35
Test
Test t bidirezionale
Livello di significatività
α = 0.05
α = 0.05 →
α/2 = 0.025
distribuzione
area compresa in entrambe le code della distribuzione
→ area compresa in ciascuna delle due code della
0.95
α/2=0.025
-2.1604
α/2=0.025
0
+2.1604
t
t1-a/2;(n-1)gdl = ±2.1604
La regione di rifiuto è formata da tutti i valori della
statistica test ≥ 2.1604 o ≤ -2.1604.
73
OD
Calcolo della statistica test
x − µ0
30.5 − 35
− 4 .5
t=
=
=
= −1.58
10
.
6392
2.8434
s n
14
Decisione statistica e conclusione
–1.58 > -2.1604 → cade nella regione di non rifiuto
di H0.
Non posso rifiutare H0. Concludo che, sulla base di
questi dati, la media della popolazione da cui il
campione è stato estratto può essere uguale a 35.
74
OD
CAMPIONAMENTO DA POPOLAZIONE
NON DISTRIBUITA NORMALMENTE
• Quando la variabile non ha una distribuzione
normale, se il campione è sufficientemente grande,
in virtù del Teorema del Limite Centrale, è
possibile usare il test z
• Se la varianza della popolazione non è nota, nel
calcolo della statistica test è possibile usare la
varianza campionaria s al posto della varianza della
popolazione σ.
Essendo n grande, s può essere considerata una
buona approssimazione di σ.
75
OD
TEST D’IPOTESI SULLA
DIFFERENZA TRA DUE MEDIE
Spesso si ha l’esigenza di confrontare due gruppi di
dati:
• un insegnante può voler confrontare la media
delle votazioni finali degli studenti di questo anno
scolastico con quella degli studenti dell’anno
scolastico scorso;
• un medico deve confrontare le condizioni
presenti di un paziente con quelle di ieri o della
settimana scorsa.
Queste valutazioni vengono normalmente fatte in
modo intuitivo.
I test di ipotesi sulla differenza tra due medie sono
tecniche che permettono di valutare in modo
oggettivo e statisticamente corretto se è ragionevole
o meno affermare che le medie di due popolazioni
sono diverse.
76
OD
È possibile saggiare le ipotesi che la differenza tra
le medie delle due popolazioni sia:
1. uguale a zero;
2. maggiore o uguale a zero;
3. minore o uguale a zero.
Ipotesi nulla H0
1 µ1 - µ2 = 0 → µ1 = µ2
2 µ1 - µ2 ≥ 0 → µ1 ≥ µ2
3 µ1 - µ2 ≤ 0 → µ1 ≤ µ2
Ipotesi alternativa H1
µ1 - µ2 ≠ 0 → µ1 ≠ µ2
µ1 - µ2 < 0 → µ1 < µ2
µ1 - µ2 > 0 → µ1 > µ2
N.B.
Parametri della popolazione
Statistiche campionarie
Popolazione Dimensione Media Varianza Dimensione Media Varianza
Uno
N1
n1
s12
µ1
σ12
Due
N2
µ2
σ1
x
x2
1
2
n2
s12
77
OD
1. CAMPIONI INDIPENDENTI
Due campioni si dicono indipendenti se non esiste
legame tra di essi.
Esempio
Si vuole stabilire se esiste una differenza
significativa tra la media delle votazioni d’esame
degli studenti che hanno seguito un certo corso
nell’a.a. 2002 e la media delle votazioni degli
studenti che hanno seguito lo stesso corso nell’a.a.
corrente.
I campioni sono indipendenti perché non esiste
legame tra i due gruppi di studenti.
78
OD
a. LE VARIANZE DELLE POPOLAZIONI
SONO NOTE
Popolazione 1:
N (µ1, σ12); n1, x 1
Popolazione 2:
N (µ2, σ22); n2, x 2
Test z
z=
(x
1
− x 2 ) − (µ 1 − µ 2 )
σ 12
n1
+
σ 22
n2
79
OD
b. LE VARIANZE DELLE POPOLAZIONI
NON SONO NOTE
• Se le varianze delle popolazioni non sono note e le
dimensioni campionarie sono ≥ 30 si può ricorrere
alla distribuzione z (utilizzando s al posto di σ) o alla
distribuzione t;
• se le varianze delle popolazioni non sono note e le
dimensioni campionarie sono < 30 si deve ricorrere
alla distribuzione t.
t=
( x − x ) − (µ − µ )
1
2
1
2
s2 pond s2 pond
+
n1
n2
Formula valida nel caso si possa assumere l’uguaglianza
delle varianze delle due popolazioni.
Le varianze campionarie sono impiegate per stimare la
varianza comune come media ponderata
(rispetto ai
rispettivi gradi di libertà) delle due varianze campionarie.
s2
pond
(
n
=
1 − 1) ⋅ s1 + (n 2 − 1) ⋅ s2
n1 + n 2 − 2
2
2
80
OD
Se le varianze nelle due popolazioni non sono note
e non si possono assumere uguali
( ad esempio a seguito di un test F rapporto varianze campionarie s1/s2 significativo)
La formula per il calcolo di t risulta la seguente
(
x1 − x2 ) − (µ1 − µ2 )
t=
2
s 1 s 22
+
n1 n2
Ed il t critico necessario per il calcolo della
decisione statistica si calcola in maniera seguente:
w1t1 + w2 t 2
t critico = w1 + w2
2
dove w1 = s 1 /n1
2
w2 = s 2 /n2
t1= t di 1-alfa per n1-1 gradi
di libertà
t2= t di 1-alfa per n2-1 gradi di libertà
81
OD
TEST per CONFRONTI APPAIATI
o per DATI APPAIATI
È un test sulla differenza tra medie, in cui i dati
sono in qualche modo legati tra loro e provengono
da due campioni non indipendenti.
Esempi
• Medesimi soggetti possono essere sottoposti a test due
volte, prima e dopo un particolare trattamento, così che i
risultati del primo e del secondo test possano essere
confrontati.
È quanto accade negli esperimenti “before-and-after”.
• Cavie dello stesso sesso e/o delle stessa nidiata possono
essere casualmente assegnate alla somministrazione di un
farmaco o di un placebo.
• Coppie di gemelli possono essere assegnati a due
trattamenti, in modo che membri di una stessa coppia
ricevano trattamenti diversi.
L’impiego di coppie di soggetti “simili” rispetto a fattori
(sesso, età, razza, condizioni socio-economiche, …) che
possono interferire con l’esperimento, riduce il numero di
fonti di variazione estranee → le eventuali differenze tra
coppie potrebbero essere dovute alla variabile d’interesse.
82
OD
Quando si lavora con dati appaiati, si focalizza
l’attenzione sulla differenza tra ciascuna coppia di
osservazioni: l’analisi statistica viene condotta non sulle
osservazioni singole, ma sulle differenze tra coppie di
osservazioni.
Esempio 1
Daniel pag. 222 7.4.1
Nella tabelle seguente sono riportati i pesi di 9 donne
prima e dopo dodici settimane di trattamento con una
dieta a basse calorie. Si vuole sapere se sulla base di
questi dati è possibile affermare che il trattamento è
risultato determinante nella riduzione del peso delle
donne obese. Porre alfa= 0.05
Soggetti
1
2
3
4
5
6
7
8
9
Prima P
117.3
111.4
98.6
104.3
105.4
100.4
81.7
89.5
78.2
Dopo D
83.3
85.9
75.8
82.9
82.3
77.7
62.7
69.0
63.9
Differenza
-34.0
-25.5
-22.8
-21.4
-23.1
-22.7
-19.0
-20.5
-14.3
D-P
83
OD
Assunzioni
Le differenze calcolate costituiscono un campione
casuale semplice proveniente da una popolazione di
differenze distribuita normalmente.
Ipotesi
La formulazione delle ipotesi deve essere coerente con
il modo in cui sono state ottenute le differenze.
Nel caso specifico, se il trattamento ha determinato una
riduzione del peso, ci attendiamo che, nella
popolazione, le differenze tra i pesi prima e quelli dopo
(D-P) siano negative: negativa sarà anche la differenza
media nella popolazione.
Ciò è quanto stabilito dall’ipotesi alternativa H1.
L’ipotesi nulla H0 è, come sempre, complementare a H1:
H0: µd≥0
H1: µd<0
Se le differenze fossero state calcolate sottraendo i pesi dopo
da quelli prima (P-D), le ipotesi sarebbero state:
H0: µd≤0
H1: µd>0
Se il problema avesse richiesto un test bidirezionale, le
ipotesi sarebbero state:
H0: µd=0
H1: µd≠0
84
OD
Test
Il test statistico opportuno, quando sono valide le
assunzioni stabilite, è dato da:
d − µd 0
t=
sd
dove:
d
µd
0
sd = sd
è la differenza media campionaria;
è la differenza media ipotizzata della
popolazione;
n è l’errore standard
sd = deviazione standard delle differenze campionarie;
n = numero delle differenze campionarie.
Quando H0 è vera, la statistica test è distribuita
come una t di Student con n-1 gradi di libertà.
85
OD
Regola di decisione
Per alfa = 0.05 e 8 g.d.l., il valore critico di t è –1.8595
(regione di rifiuto nella coda di sinistra).
Rifiutiamo H0 se il valore calcolato di t è minore o
uguale al valore critico.
α=0.05
-1.8595
0
Calcolo di t
d
s
d
∑
=
2
d
t=
i
( −34.0) + ( −25.5) + ... + ( −14.3) − 203 .3
=
= −22.5889
9
9
=
n
∑ (d
=
i−
d )2
n −1
= 28.2961
− 22.5889 − 0 − 22.5889
=
= −12.7395
1
.
77314
28.2961
9
Decisione statistica e conclusione
Poiché –12.7395 cade nella regione di rifiuto, posso
rifiutare H0 e concludere, sulla base di questi dati, che la
dieta ha determinato una significativa diminuzione del
peso.
86
OD
Esempio 2
12 soggetti partecipano ad un esperimento per studiare
l’efficacia di una certa dieta combinata con un programma
di esercizi nel ridurre il livello di colesterolo. Vengono
registrati i livelli di colesterolo ematico (mg/dl) prima e
dopo il trattamento. α = 0.05
Id.
1
2
3
4
5
6
7
8
9
10
11
12
Prima P
201
231
221
260
228
237
326
235
240
267
284
201
Dopo D
200
236
216
233
224
216
296
195
207
247
210
209
D-P
-1
+5
-5
-27
-4
-21
-30
-40
-33
-20
-74
+8
I dati forniscono sufficiente evidenza per concludere che il
programma dieta-esercizio è efficace nel ridurre i livelli di
colesterolo?
87
OD
Assunzioni
Le differenze costituiscono un campione casuale semplice,
proveniente da una popolazione di differenze normalmente
distribuite.
Ipotesi
H0: µd ≥ 0
H1: µd < 0
Test t unidirezionale con regione di rifiuto di H0 nella
coda di sinistra.
t critico = t0.95; 11 gdl = -1,7959
d =
sd =
t =
− 242
= −20.17
12
∑(d
i −d
n −1
)
2
d − µd
t=
sd
n
0
[−1− (−20.17)]2 + ... + [8 − (−20.17)]2
=
= 23.13
12 −1
d − µ d0
− 20 . 17 − 0
=
= − 3 . 02
sd
23 . 13
12
n
Decisione statistica e conclusione
Poiché -3.02 cade nella regione di rifiuto,.posso rifiutare
H0 e concludere che, sulla base di questi dati, il
programma dieta-esercizio ha avuto effetto positivo sulla
diminuzione del colesterolo ematico.
88
OD
TEST D’IPOTESI SU UNA
PROPORZIONE
Se i dati provengono da un campione
sufficientemente grande da consentire il ricorso al
Teorema del Limite Centrale, il test statistico è:
z=
pˆ − p 0
p0 q0
n
che, quando H0 è vera,
approssimativamente
come
standardizzata.
si distribuisce
una
normale
p̂ = proporzione campionaria
p0 = proporzione ipotizzata nella popolazione
89
OD
TEST DI IPOTESI SULLA
DIFFERENZA TRA DUE PROPORZIONI
Il test più frequentemente usato si basa sull’ipotesi
nulla che la differenza tra le proporzioni delle due
popolazioni sia nulla, cioè che le due proporzioni
siano uguali:
H0 :
p1 –p2 =0
Il test statistico è:
( pˆ1 − pˆ 2 ) − ( p1 − p2 )0
z=
s pˆ 1 − pˆ 2
dove:
p̂1 e p̂2 = proporzioni campionarie
(p1 e p2)0 = proporzioni ipotizzate nella popolazione
s pˆ 1 − pˆ 2 = errore standard
90
OD
L’errore standard stimato s pˆ 1 − pˆ 2 è calcolato come
segue:
s pˆ 1 − pˆ 2 =
p (1 − p ) p (1 − p )
+
n1
n2
p è la stima della proporzione, ipotizzata comune,
nelle due popolazioni, calcolata con la seguente
formula:
x1 + x2
p=
n1 + n2
91