Test di ipotesi
Annibale Biggeri
Dipartimento di Statistica
Richiami: Definizioni
• La distribuzione di probabilità di una
statistica campionaria è chiamata la
distribuzione campionaria della statistica
• La deviazione standard della distribuzione
campionaria è chiamata errore standard
Teorema del Limite Centrale
• Se Y è una variabile casuale con media  e
varianza 2 allora Y basato su campioni di
dimensione n sarà distribuito
Gaussianamente con media  e
varianza 2 / n ,
per n sufficientemente grande.
1
2
3
4
5
1
1,1
2,1
3,1
4,2
5,1
2
1,2
2,2
3,2
4,2
5,2
3
1,3
2,3
3,3
4,3
5,3
4
1,4
2,4
3,4
4,4
5,4
5
1,5
2,5
3,5
4,5
5,5
• I campioni sono diversi PERCHE’ i membri
della popolazione da cui sono tratti sono
diversi circa la caratteristica (variabile)
rilevata (variabilità del fenomeno in studio)
• Le medie campionarie sono diverse in
ragione della variabilità del fenomeno e
della dimensione campionaria
(variabilità campionaria)
1
1
2
3
4
5
2
3
1 1.5 2
1.5 2 2.5
2 2.5 3
2.5 3 3.5
3 3.5 4
4
5
2.5 3
3 3.5
3.5 4
4 4.5
4.5 5
.2
.15
.15
Fraction
Fraction
.2
.1
.05
.1
.05
0
0
1
2
3
var2
4
5
1
2
3
var1
4
5
Esempio
• Qual è la probabilità che l’IQ medio di una
classe di 25 studenti superi 106 ?


106  100 

Pr Y  106  Pr  Z 

3


 Pr Z  2 
 1  0.9772
 0.0228
Un esempio dalla letteratura
Bennett et al. hanno condotto uno Studio Clinico
Controllato Randomizzato per valutare la
sicurezza dell’uso di lidocaina in soggetti con
infarto miocardico acuto.
216 pazienti sono stati assegnati con procedura
casuale a due gruppi (di 110 e 106 soggetti) trattati
con lidocaina o con la miglior terapia disponibile.
I decessi osservati nei due gruppi nel periodo di
follow-up sono stati 7 e 3.
L’ipotesi scientifica da saggiare è la seguente:
La lidocaina è un farmaco sicuro ed efficace
nel prevenire aritmie nella fase iniziale
dell’infarto miocardico acuto ?
Per saggiare l’ipotesi il ricercatore confronta i
dati empirici con le previsioni teoriche.
La percentuale di decessi osservata nel gruppo
trattato con lidocaina non deve essere
maggiore di quella osservata nel gruppo di
controllo
Ipotesi statistica
• Una ipotesi statistica è una affermazione
circa il valore di un parametro di una
distribuzione di probabilità
Test statistico
• Un test statistico è una procedura volta a
saggiare la verità o falsità di una ipotesi
statistica.
• E’ costruito secondo il ragionamento per
assurdo (se A è falso allora B).
• La strategia fondamentale nel test d’ipotesi
consiste nel misurare quanto è distante il
valore osservato di una statistica
campionaria dal valore ipotizzato.
• Se la distanza è grande concluderemo che il
valore ipotizzato è incompatibile con i dati
osservati e saremo portati a rifiutare
l’ipotesi.
• Per valutare la grandezza della distanza
terremo in conto della variabilità delle
osservazioni (2) e della dimensione del
campione (n)
• In generale se la statistica campionaria
osservata è a più di due errori standard dal
valore ipotizzato siamo portati a rifiutare
l’ipotesi.
Esempio
• Il peso medio alla nascita di 78 neonati
deceduti per SIDS era di 2994 gr.
La deviazione standard del peso alla nascita
nella popolazione è di 800 gr. , l’errore
standard è pertanto 800/78=90.6 gr.
• Ci si chiede se i bambini con SIDS hanno
peso medio alla nascita diverso dalla media
della popolazione (3300 gr.)
Esempio (segue)
• La distanza tra 2994 e 3300 è pari a 306 gr.
• L’errore standard è 90.6 gr. Per cui la
distanza osservata è a 306/90.6=3.38 errori
standard.
• Concluderemo che i dati osservati sono
incompatibili con l’ipotesi che il peso
medio alla nascita dei bambini con SIDS sia
uguale a quello della popolazione.
Esempio (Lidocaina trial)
• 7/110 = 6.36 % vs 3/106 = 2.83 % sono una differenza
di 3.53 % , con un campione totale di 216 soggetti e 10
decessi e una percentuale di decessi totale di 4.63 % ;
err.standard  (0.0463 x (1 – 0.0463) / 216 ) = 0.0143
• La distanza osservata in unità di err.standard è
0.0353/0.0143 = 2.469
• Concludiamo che i dati osservati non supportano l’ipotesi
di eguale rischio di morte nei due gruppi
Commenti
• La distanza è stata espressa in unità pari
all’errore standard. In modo equivalente
possiamo associare un valore di probabilità
per valori più estremi di quello osservato.
Nel caso gaussiano a 1.96 corrisponde una
probabilità (area) del 2.5%
Commenti (segue)
• Se, prima di eseguire il test, avessimo
deciso di non rifiutare l’ipotesi se il valore
della statistica campionaria fosse caduto
entro due errori standard dal valore
ipotizzato, allora avremmo suddiviso lo
spazio campionario della nostra statistica in
tre regioni.
Definizione 1
• L’ipotesi nulla specifica un determinato
valore per un parametro della popolazione
Definizione 2
• La regione di rifiuto consiste nell’insieme di
tutti i valori della statistica test per i quali
l’ipotesi nulla viene rifiutata. I limiti della
regione sono definiti i valori critici
(soglia/e)
Definizione 3
• L’errore di primo tipo si verifica quando
l’ipotesi nulla viene rifiutata pur essendo
vera.
Definizione 4
• L’ipotesi alternativa specifica un
determinato valore per un parametro della
popolazione da considerarsi quando
l’ipotesi nulla viene rifiutata.
Definizione 5
• L’errore di secondo tipo si verifica quando
l’ipotesi nulla NON viene rifiutata pur
essendo FALSA.
Definizione 6
• La potenza di un test è la probabilità di
rifiutare l’ipotesi nulla quando essa è falsa.
Definizione 7
• Il valore p nel contesto del test di ipotesi è il
valore di probabilità in base al quale,
qualora risulti inferiore ad , l’ipotesi nulla
è rifiutata, oppure, qualora risulti maggiore
di , non rifiutata.
Notazioni
• L’ipotesi nulla è indicata con H0
l’ipotesi alternativa con Ha o H1
• La probabilità di errore di primo tipo è
indicata con  e la probabilità di errore di
secondo tipo con . La potenza è perciò
Potenza 1  
Formalizzazione
Decisione
Normale
Diverso
Stato di natura
peso bambini SIDS
Normale
Diverso
Corretta (1-) Errore II ()
Errore I () Corretta (1-)
L’ipotesi nulla e quella alternativa possono
essere scritte nel modo seguente:
H 0 :   gr.
H a :   gr.
Le regioni di rifiuto e non rifiuto derivano
dalla scelta sulla dimensione della distanza.
Supponiamo di lasciare il valore “2 errori
standard”, allora la regione di rifiuto sarà
delimitata da
3300  2  90.6  3300  181
In termini di probabilità di errore di primo
tipo:


Pr I   1  Pr 3119  Y  3481 
3481  3300 
 3119  3300
 1  Pr
Z

90.6
90.6


 1  Pr  2  Z  2  0.0456
Mentre la probabilità di errore di secondo tipo
sarà calcolabile solo avendo specificato un
valore per l’ipotesi alternativa. Supponendo
Ha:=3000gr. Abbiamo:


Pr II   1  Pr 3119  Y  3481 
3481  3000 
 3119  3000
 1  Pr
Z

90.6
90.6


 1  Pr 1.31  Z  5.31  0.095
• La potenza è pertanto 1-0.095=0.905
• Queste valutazioni vengono fatte a priori, se
i bambini con SIDS avessero peso medio
alla nascita di 3000 gr. Allora un campione
di solo 78 bambini avrebbe una potenza di
crica il 90% di mettere in evidenza questa
differenza (3000-3300)
Schema riassuntivo
H0:=3300gr.
=800gr. (noto)
Ha:=3000gr.
n=78
Regione di rifiuto:±2 errori standard da 3300gr
=0.0456 =0.095 1- =0.905
Si osserva Y  2994 quindi si rifiuta H0
• Di solito si specifica a priori il valore 
(0.05, 0.01, 0.001). E’ chiamato il livello di
significatività
• L’ipotesi alternativa può essere direzionale
o no. A queste opzioni corrispondono
test a una o due code. Queste dipendono
dalle condizioni sperimentali.