I TEST D`IPOTESI

I TEST:
LA VERIFICA DELLE
IPOTESI
La scelta del modello
statistico
1
La verifica d’ipotesi
Spesso è necessario decidere, sulla base
dei dati osservati, della veridicità di
ipotesi sul processo che ha portato a
generare i dati, ipotesi che si assume
siano
formulate
precedentemente
all’esperimento stesso
2
Un esperimento di Darwin
Mi è spesso capitato di pensare che
sarebbe stato consigliabile appurare
se pianticelle ottenute da semi
provenienti
da
impollinazione
incrociata dei fiori fossero in qualche
modo superiori a quelle derivanti da
auto-impollinazione.
3













Charles Darwin (1809-1882), author of The Origin of Species (1859)
later investigated the effect of cross-fertilization on the size
of plants. Pairs of plants, one cross- and one self-fertilized at
the same time and whose parents were grown from the same seed,
were planted and grown in the same pot. The numbers of pairs of
plants were not large because the time and care needed to carry
out the experiments were sub-stantial. Darwin's experiments had
taken 11 years. Darwin had sent the data for several species to
his cousin, Francis Galton. Galton (1822-1911), an eminent statistician, was unaware of any rigorous method for making an inference
about the mean of a population when its standard deviation was
unknown. Certainly that was the case for Darwin's differences in
sizes of pairs of plants.













W.S. Gosset (1876-1937) was employed by the Guniess Brewing
Company of Dublin. Sample sizes available for experimentation in
brewing were necessarily small, and Gosset knew that a correct way
of dealing with small samples was needed. He consulted Karl
Pearson (1857-1936) of Universiy College in London about the
problem. Pearson told him the current state of knowledge was
unsatisfactory. The following year Gosset undertook a course of
study under Pearson. An outcome of his study was the publication
in 1908 of Gosset's paper on "The Probable Error of a Mean," which
introduced a form of what later became known as Student's
t-distribution. Gosset's paper was published under the pseudonym
"Student." The modern form of Student's t-distribution was derived
by R.A. Fisher and first published in 1925.
4
L’ipotesi nulla
L’ipotesi nulla è in genere un’ipotesi di
casualità, quella che vorremmo rifiutare.
H0: le differenze di altezza osservate
nei due insiemi di piante sono dovuti a
variazioni casuali.
5
L’ipotesi alternativa
L’ipotesi alternativa è quella che si
vorrebbe “dimostrare” vera.
H1: le differenze di altezza osservate
nei due insiemi di piante sono dovuti a
alla “superiorità” dei semi ottenuti da
impollinazione incrociata.
6
I test d’ipotesi
Lo statistico, valuta se l’evidenza
sperimentale è tale da condurre a
rifiutare l’ipotesi nulla, accettando di
conseguenza quella alternativa
Il ruolo delle due ipotesi non è
simmetrico: consideriamo vera H0 finchè
non siamo (quasi) certi sia falsa
(presunzione di innocenza)
Accade che non siamo nelle condizioni di
rifiutare H0 anche soltanto perché
l’informazione sperimentale è povera
7
I test d’ipotesi
Di solito disponiamo di conoscenze “a
priori” sul fenomeno che possiamo
utilizzare per formulare un modello
statistico ed esprimere le ipotesi di
interesse sotto forma di parametri del
modello
Aumentando l’informazione complessiva,
riusciamo a ridurre il margine di incertezza
sulle conclusioni a cui giungeremo
I risultati finali dipenderanno pero’ adesso
dalla validita’ del modello che abbiamo
formulato.
8
Nel nostro caso e’ ragionevole
assumere che l’altezza delle piantine,
indipendentemente
dal
tipo
di
impollinazione, segua un modello
normale
9
In altre parole ipotizziamo un valore atteso
(che non conosciamo) per l’altezza intorno
al quale tende a concentrarsi la maggior
parte delle piantine. Solo alcune di loro
saranno molto piu basse o molto piu’ alte del
valore atteso. Tanto piu’ se ne discostano
tante meno saranno. Inoltre se attribuiamo
la variabilita’ della loro altezza a fattori
casuali, la probabilita’ di osservare altezze
piu’ basse o piu’ alte della media sara’ la
stessa a parita’ di distanza dal valore
atteso, cioe’ la loro distribuzione sara’
simmetrica.
10
Misuriamo l’evidenza
Il primo passo nella costruzione di un
test e’ quello di passare dai dati
osservati ad una loro sintesi che
prende il nome di statistica test.
La scelta di tale statistica dipende
dalle caratteristiche del problema
11
Zea Mais
“Student” osservo’ che i dati di Darwin sono
“appaiati” poiche’ si tratta di coppie di
piantine figlie ottenute dalla stessa pianta
madre attraverso due diverse forme di
impollinazione. Propose allora di calcolare la
differenza in altezza separatamente per
ogni coppia di piantine, definendo cosi’ una
nuova variabile statistica Di. Ora le coppie
di piantine figlie tenderanno ad avere
caratteristiche simili e la differenza
nell’altezza raggiunta potrà già essere
considerata una misura,seppure imprecisa,
dell’effetto del diverso tipo di
impollinazione.
12
La matrice dei dati
unita'
diff (inches)
1
49
2
-67
3
8
4
16
5
6
6
23
7
28
8
41
9
14
10
29
11
56
12
24
13
75
14
15
diff. media stimata
stima della varianza
gradi di liberta'
60
-48
20.93
1424.64
14
13
Zea Mais
Otteniamo
15
differenze
osservate
ciascuna delle quali “misura” l’effetto della
diversa impollinazione anche se contaminato
da possibili fluttuazioni casuali
Proprio per ridurre la componente d’errore
sintetizziamo le osservazioni attraverso la
loro media aritmetica
La nostra statistica test sara’ allora basata
sulla media delle singole differenze
n
D
D
i 1
i
n
14
La statistica test
Possiamo interpretare intuitivamente D come
una misura della distanza delle nostre
osservazioni dall’ipotesi nulla. Se le differenze
sono dovute al caso la loro media tenderà ad
essere nulla. Se l’impollinazione incrociata è
superiore a quella diretta ci attendiamo valori
positivi per D, tanto maggiori tanto maggiore è
la sua superiorità. In altre parole D è stata
costruita
in
modo
che
valori
elevati
costituiscano un’evidenza contro H0, mentre
valori piccoli costituiscano un’indicazione a
favore di H0.
15
Statistica test
Possiamo adesso riscrivere il nostro
sistema d’ipotesi in termini della
statistica test D
H0 :E[D]=0
H1 :E[D]>0
Quando il valore di D diventa
sufficientemente alto da potere
essere considerato una “evidenza”
contro l’ipotesi nulla?
16
Per poter rispondere dobbiamo valutare
l’impatto
della
variabilità
casuale
assumendo vera l’ipotesi nulla.
Con che probabilità osserviamo una
differenza media uguale o maggiore di 10
per il solo effetto del caso?
Immaginiamo di ripetere numerose volte
l’esperimento, nelle medesime condizioni,
ipotizzando che non esista alcuna reale
differenza tra i due tipi di impollinazione
Otterremo diversi valori di D al variare del
campione osservato. Sulla base di questi
valori potremo costruire la distribuzione
17
campionaria di D.
Distribuzione campionaria
Se la nostra ipotesi di normalita’ e’
vera, anche i valori di D provenienti da
diversi campioni tenderanno a seguire
la stessa legge.
Il valor medio sara’ nullo
La variabilita’ casuale sara’ pari alla
variabilita’ delle differenze divisa per
la numerosita’ del campione
2
n
18
Possiamo adesso standardizzare la nostra
statistica D ottenendo
~ D0
D

2
n
Raramente conosciamo la variabilita’ del
fenomeno che stiamo studiando. Piu’ spesso
dobbiamo stimarla sulla base dei dati che
abbiamo osservato.
19
D0
T
2
ˆ
n
Questo stima aggiunge un ulteriore
elemento di incertezza
Tradotto in termini di probablita’,
passiamo da una distribuzione normale
standardizzata ad una t di Student
(con n-1 gradi di liberta’)
20
Torniamo al nostro quesito: con che
probabilità osserviamo una differenza
media uguale o maggiore di 10 per il solo
effetto del caso?
La varianza delle differenze di altezza
stimata sui nostri dati e’ 1424.64.
Calcoliamo il corrispondente valore di T
t 
10
10  0
 1.026
1424.64
15
Dalle tavole della distribuzione T di
Student scopriamo che la probabilita’ di
avere valori maggiori di 1.026 e’ 0.16
21
Se decidessimo di rifiutare l’ipotesi nulla
(ammettendo
la
superiorita’
dell’impollinazione
incrociata)
quando
osserviamo valori uguali o maggiori di 10,
sapremmo di sbagliare (a o errore di
primo tipo) con una probabilita’ pari a 0.16.
E’ un margine di errore accettabile?
Tendiamo normalmente ad essere piu’
conservativi, ammettendo una probabilita’
di errore uguale o inferiore a 0.05.
Fissato a=0.05
possiamo ricavare
dalle tavole il percentile corrispondente
(t=1.76) e definire la nostra “regione di
rifiuto” (t > 1.76, D>17.15)
22
La differenza media stimata nel
nostro caso e’ 20.93 che conduce ad
un valore osservato di t pari a 2.148
chiaramente in regione di rifiuto
Rifiutiamo
l’ipotesi
nulla
ed
accettiamo l’ipotesi alternative di
superiorita’ nell’altezza attesa delle
piantine ottenute da impollinazione
incrociata
23
Notate come la regione di rifiuto e’
definita ancor prima di ossservare il nostro
campione. Ancora una volta valutiamo
l’errore sulla base di cosa accadrebbe
sull’insieme dei risultati sperimentali
ossevabili. Ancora una volta e’ una
valutazione sul metodo e non sul nostro
particolare risultato
Anche un valore molto piu’ elevato di t, ad
esempio t=20, condurrebbe a rifiutare
l’ipotesi nulla con lo stesso margine di
errore pari a 0.05. Tuttavia l’evidenza dei
due risultati sembra diversa…
24
Proviamo a chiederci qual’e’ la probabilita’
di osservare, sempre per il solo effetto del
caso, differenze medie di altezza maggiori
o uguali alla quella osservata pari a 20.93 (il
famoso p-value!!)
Da
t 
oss
20.93  0
 2.148
1424.64
15
otteniamo il valore di 0.0248 cioe’ un
probabilita’ decisamente bassa che la
differenza media osservata sia dovuta a
fluttuazioni casuali.
25
Livello di significatività osservato
Quindi il valore p è la probabilità che la
statistica D assuma, nel caso in cui
l’ipotesi H0 sia vera, un valore elevato
almeno quanto quello osservato d; in
altri termini è la probabilità che D sia
distante dall’ipotesi nulla almeno d. Si
capisce come il livello di significatività
osservato possa essere interpretato
come una misura di evidenza
sperimentale a favore di H0.
26
Livello di significatività osservato
Infatti se p(d) è molto piccola allora vuol
dire che, se H0 fosse vera, sarebbe ben
difficile ottenere un valore di DM maggiore
o uguale a quello osservato, e quindi una
distanza tra l’ipotesi e i dati campionari
maggiore o uguale di quella fornita da d; ciò
porta ad affermare che H0 è falsa e quindi
a rifiutarla. Viceversa un valore p(d)
elevato, può essere un’indicazione a favore
di H0, anche se non dà luogo a valutazioni di
tipo conclusivo, in quanto rivela soltanto una
mancanza di evidenza contro H0.
27