La logica statistica della verifica (test) delle ipotesi

La logica statistica della verifica (test) delle ipotesi
Come posso confrontare diverse ipotesi?
Nella statistica inferenziale classica vengono sempre confrontate due ipotesi: l’ipotesi nulla e
l’ipotesi alternativa
In realtà, questo confronto non è diretto. Quello che si confronta realmente sono i dati con
l’ipotesi nulla
In altre parole:
1. Si cerca di prevedere come potrebbero essere i dati se fosse vera l’ipotesi nulla
2. Se i dati osservati sono molto distanti da quelli si potrebbero ottenere se fosse vera l’ipotesi
nulla, allora l’ipotesi nulla VIENE RIFIUTATA (e di conseguenza, si accetta l’ipotesi alternativa)
3. Se invece i dati osservati non sono troppo distanti da quelli si potrebbero ottenere se fosse
vera l’ipotesi nulla, allora l’ipotesi nulla NON VIENE RIFIUTATA (ovvero, si dice che i dati
osservati sono compatibili con l’ipotesi nulla)
L’ipotesi nulla non viene mai accettata!
Ipotesi nulla e ipotesi alternativa
Ipotesi nulla, o H0
o E’ un enunciato specifico che riguarda un parametro nella popolazione (o nelle
popolazioni)
o E’ l'ipotesi che tutto sommato, se verificata, farebbe concludere allo sperimentatore di aver
perso tempo o comunque renderebbe tutta la faccenda meno interessante
o E’ l’ipotesi sulla base della quale si elabora la distribuzione nulla della statistica utilizzata
per il test
Ipotesi alternativa, o Ha o H1
o Rappresenta tutte le altre ipotesi riguardo al parametro non specificate dall’ipotesi nulla
o E’ l’ipotesi che generalmente viene formulata prima di fare un test, l'idea cioè che ha avuto
il ricercatore e che lo ha indotto a fare un esperimento o a raccogliere dei dati sul campo
(e che quindi sarebbe interessante in genere poter verificare)
Esempi di H0
La densità di delfini è la stessa nelle zone aree in cui la pesca viene effettuata con le e senza
pesca con reti a deriva è uguale alla densità di delfini nelle aree in cui la pesca viene effettuata
senza queste reti
Gli effetti antidepressivi della sertralina non differiscono da quelli dell'amitriptilina
Genitori con occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno
figli con occhi marroni e figli con occhi azzurri in un rapporto 3:1
La temperatura corporea media degli esseri umani sani è 37 °C
Esempi di H1
La densità di delfini differisce tra zone con e senza pesca con reti a deriva
Gli effetti andidepressivi della sertralina differiscono da quelli dell'amitriptilina
I genitori con gli occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno
figli con occhi marroni e figli con occhi azzurri in un rapporto diverso da 3:1
La temperatura corporea media degli esseri umani sani non è 37 °C.
Formalizzazione del test di ipotesi con un esempio molto semplice
Vediamo con un esempio semplice: test sulla media per un campione con varianza nota
o Supponiamo che la crescita media tra il terzo mese e il quarto mese di un bambino
allattato con latte materno, in Italia, sia di 0.54 kg (µ = µ0= 0.54)
o Supponiamo anche di sapere che la deviazione standard in questa variabile sia nota e pari
a 0.12 kg (σ = 0.12)
o Un campione di 35 bambini alimentati solo con latte artificiale viene analizzato per questa
variabile, e si ottiene una media campionaria x = 0.47
o Si vuole determinare se l’accrescimento medio dei bambini allattati con latte artificiale è
diverso da quello dei bambini allattati con latte materno.
Si vuole verificare se la media µ nella popolazione dei bambini allattati con latte artificiale (della
quale abbiamo un campione) è diversa dalla media µ0 della popolazione dei bambini allattati
con latte materno (della quale conosciamo la media). La varianza si suppone nota.
Formalmente, possiamo indicare le due ipotesi come
Ipotesi nulla H0 : µ = µ0 (l’ipotesi nulla è molto specifica)
Ipotesi alternativa H1 : µ ≠ µ0 (l’ipotesi alternativa è “tutto quello che non è l’ipotesi
nulla”)
Assumiamo inizialmente che sia vera l’ipotesi nulla per prevedere i risultati che dovremmo
attenderci in un campione con n = 35
o il campione di 35 bambini proviene da una popolazione con media µ = µ0= 0.54, con una
deviazione standard σ = 0.12, e quindi il fatto che x = 0.47 è un semplice effetto del
campionamento casuale
Come sarebbe distribuita la media campionaria standardizzata in tanti campioni con n = 35 se
fosse vera l’ipotesi nulla?
o (la media campionaria standardizzata, quando ho a disposizione σ, è lo scarto dalla
media della popolazione diviso per σ x )
x − µ0
Ovvero, quale sarebbe la distribuzione di
σx
se fosse vera H0? Come una variabile z!
α/2 of
total
area
α/2 of
total
area
-z α/2
0
Questa è la distribuzione nulla in questo test di ipotesi
z α/2
α/2 of
total
area
α/2 of
total
area
-z α/2
0
z α/2
Scelto un certo valore di α (livello di significatività), nella distribuzione nulla si possono
identificare due tipologie di valori di z:
o valori di z compatibili con l’ipotesi nulla, perché sufficientemente vicini a quello che ci
aspetta generalmente se fosse vera l’ipotesi nulla
o valori di z così distanti da quello che ci aspetta se fosse vera l’ipotesi nulla da rendere tale
ipotesi molto improbabile
Per esempio:
o α= 0.05 (in un certo senso, questo valore specifica cosa intendo per “compatibilità con
l’ipotesi nulla”)
o zα/2 =1.96
o valori di z compatibili con l’ipotesi nulla: valori compresi tra -1.96 e +1.96
o valori di z incompatibili con l’ipotesi nulla: valori maggiori di +1.96 o minori di -1.96
Ragionando sull’esempio della crescita di neonati:
o Il 95% dei campioni con n=35 estratti da una popolazione con media pari a 0.54 kg e σ =
x − 0.54
0.12 kg avranno una
0.12 / 35 non superiore a 1.96 e non inferiore a -1.96
o Se nel mio singolo campione questo valore è inferiore a -1.96 o superiore a 1.96, lo
considero così improbabile se fosse vera l’ipotesi nulla, da portarmi al rifiuto di questa
ipotesi
o Se nel mio singolo campione questo valore è compreso tra -1.96 e 1.96, lo considero un
valore non così improbabile se fosse vera l’ipotesi nulla, ovvero compatibile con l’ipotesi
nulla. Quest’ultima non viene rifiutata.
Questa è la logica inferenziale classica, basata sul rifiuto o il non-rifiuto dell’ipotesi nulla, dell’ipotesi
cioè dalla quale partiamo e della quale siamo in grado di definire le caratteristiche in termini di
probabilità.
Quindi, in questo caso, il test dell’ipotesi si realizza calcolando la statistica test z
zcalc =
x − µ0
σx
e confrontando il valore ottenuto con due regioni della distribuzione z
o regione di accettazione: - zα/2 ÷ zα/2
o regione di rifiuto: per valori di z minori di - zα/2 e maggiori di zα/2
Il valore di α (livello di significatività) viene di solito fissato a 0.05, ma può anche essere pari a
0.01 o 0.001 se vogliamo essere più sicuri che il rischio di commettere un errore rifiutando
un’ipotesi nulla vera (errore di primo tipo) sia inferiore
QUINDI
Se zcalc cade nella regione di rifiuto, ci sono evidenze forti che sia vera l’ipotesi alternativa, con
una probabilità α di sbagliarsi (ovvero di compiere un errore di primo tipo)
Se zcalc cade nella regione di accettazione, non possiamo respingere l’ipotesi nulla (che non
viene accettata: i dati disponibili sono compatibili con l’ipotesi nulla, ma altri dati, per esempio
più numerosi, potrebbero portare al rifiuto)
Nel caso numerico dell’esempio, per α = 0.05
2.5% of
total
area
2.5% of
total
area
-1.96
z calc =
0
1.96
0.47 − 0.54
= −3.5
0.02
Questo valore cade nella regione di rifiuto e quindi giungiamo alla conclusione che l’ipotesi
alternativa è corretta, sapendo però che esiste un rischio pari al 5% che questa conclusione sia
errata.
ESEMPIO DEL CONSUMO DI HAMBURGER
L’approccio del P-value (o p-value) nella verifica dell’ipotesi
E’ un approccio alternativo a quello delle regioni di accettazione e rifiuto appena visto
Importante perché fornisce un’informazione più precisa e anche perché è l’approccio utilizzato
nelle analisi statistiche al calcolatore.
Torniamo al nostro esempio di test sui bambini allattati con latte artificiale e materno
x−µ
z
=
calc
σx
E’ possibile determinare (da tabella o mediante computer) la probabilità di osservare valori
uguali o più estremi di quello osservato (più estremi significa meno probabili).
Questa probabilità prende il nome di P-value (o valore p)
Ovviamente, minore è il P-value
o maggiore è l’evidenza che il campione provenga da una popolazione con media diversa
da quella ipotizzata dall’ipotesi nulla
o maggiore è quindi l’evidenza in favore dell’ipotesi alternativa
Con l’approccio del P-value, la logica procede come segue
Se il P-value è minore di α, ho forti motivi per ritenere che la popolazione da cui proviene il
campione di bambini allattati con latte in polvere abbia una crescita media diversa da µ0
(quella ipotizzata dall’ipotesi nulla)
o Si conclude che è vera l’ipotesi alternativa H1 (ossia, il tipo di latte ha un effetto), perché
la probabilità di avere una media così deviante o anche più deviante risulta molto bassa
se fosse vera l’ipotesi nulla
o Il P-value è anche pari alla probabilità di sbagliare giungendo a questa conclusione,
ossia la probabilità di commettere un errore di primo tipo
Se invece il P-value è maggiore di α, non ci sono forti evidenze che la popolazione da cui il
campione proviene abbia una media diversa da µ0.
o Si conclude che i dati sono compatibili con l’ipotesi nulla, sono cioè spiegabili con il solo
effetto del campionamento. L’ipotesi che la crescita non è influenzata dal tipo di latte
non può essere scartata, visto che una certa probabilità non troppo piccola, data dal Pvalue, risultati simili o più estremi di quelli osservati si possono ottenere per caso se è
vera l’ipotesi nulla.
L'approccio basato sui P-value non è altro che l'altra faccia dell'approccio basato sulle regioni di
accettazione e rifiuto
o fissato α, se un valore della statistica test cade nella regione di rifiuto, il suo P-value è
sempre minore di α
Utilizzando i dati nel nostro esempio, otteniamo come prima che
z calc =
0.47 − 0.54
= −3.5
0.02
Cercando in tabella, o usando per esempio un applet in Internet, possiamo calcolare il P-value,
P − value = P(− 3.5 ≤ z ≤ 3.5) = 0.0005
Alcuni punti molto importanti
1. Inferenza statistica e cautela verso le “novità”
La verifica di ipotesi è forse lo strumento statistico più importante per il processo conoscitivo
scientifico
Considerando che H0 tendenzialmente definisce la situazione sperimentale "conservatrice" e H1
quella che porta ad una scoperta nella ricerca, si capisce come la logica dell’inferenza statistica
abbia un carattere di cautela verso l'innovazione: consente di rifiutare l’ipotesi nulla solo se i
dati sono veramente incompatibili con essa (α è in genere fissato al 5%)
Possiamo pensare alla verifica di ipotesi come ad un processo
o L'imputato è il parametro sotto test
o L'assoluzione corrisponde a non rifiutare H0
o La sentenza di colpevolezza è in analogia all'ipotesi alternativa
Il sistema legislativo consente di condannare solo nel caso di forti evidenze di colpevolezza, nel
caso cioè in cui la probabilità che l'imputato (il parametro) sia innocente (assumo H0), sia molto
bassa (minore di α). In questo caso ci garantiamo di non condannare quasi mai un innocente
(che come abbiamo visto in statistica di chiama errore di primo tipo), errore ben più grave di
assolvere un colpevole (che come vedremo si chiama errore di secondo tipo).
2. L’ipotesi nulla non viene mai accettata
Un risultato non significativo indica solo che non si è in grado di rifiutare l’ipotesi nulla
Potrei per esempio avere una media della popolazione campionata (quella dei bambini allattati
con latte in polvere nell’esempio presentato) leggermente diversa dalla media di riferimento
(quella dei bambini allattati con latte materno), ma i dati risultano ancora compatibili con
l’ipotesi nulla.
L’evidenza in favore dell’ipotesi alternativa non è sufficientemente forte per escludere l’ipotesi
nulla.
Niente esclude che in un successivo esperimento questa differenza diventi evidente.
Volendo continuare con l'analogia del processo, questo corrisponde al fatto che l'imputato non
viene mai assolto in modo definitivo, ma all'eventuale presenza di nuove prove di colpevolezza,
il processo verrebbe riaperto (si eseguirebbe di nuovo il test con i nuovi dati raccolti).
3. Il livello di significatività non corrisponde alla dimensione dell’effetto
Lo stesso effetto diventa più o meno significativo semplicemente in funzione del numero di dati
disponibili: avere più dati, significa avere maggiori informazioni, per cui anche l'effetto più
piccolo diventa significativo con un adeguato numero di osservazioni.
Un risultato significativo non significa un risultato importante ci indica solo quanto poco
probabile è che un certo effetto sia dovuto al caso
Interpretare la "dimensione", e quindi l'importanza del risultato, è compito dello studioso.
Per esempio, potrebbe risultare, sulla base di un campione di 10000 persone che fanno jogging
regolarmente, che il loro rischio di infarto è statisticamente maggiore rispetto a chi non lo
pratica (favorendo cioè l’ipotesi alternativa). Se però questo rischio aumenta, pur se in maniera
statisticamente significativa, solo dello 0.01% , questo risultato potrebbe non avere una grande
importanza sociale o comunque biologica.
Test sulla media di un campione quando la varianza è ignota
Le ipotesi nulla e alternativa sono ancora:
H0 : µ = µ0
La media µ della popolazione dalla quale ho estratto il campione è uguale ad un certo
valore prefissato, µ0. In altre parole, il campione proviene da una popolazione con
media µ0.
H1: µ ≠ µ0
La media µ è diversa dal valore prefissato µ0.
La statistica test è il t di Student, calcolato come segue
t calc =
x − µ0 x − µ0
=
sx
s/ n
Se la variabile in esame ha una distribuzione gaussiana, questa statistica test si distribuisce
secondo la distribuzione t di Student con (n-1) gradi di libertà se è vera l’ipotesi nulla
Posso seguire lo stesso approccio (regioni di accettazione/rifiuto o P-value) per testare l’ipotesi
nulla, ovviamente usando la distribuzione t come distribuzione nulla: è un test t di Student
Il test t è relativamente robusto a piccole deviazioni dall’assunzione di normalità
o Ovvero, anche se la variabile ha una distribuzione che si discosta dalla gaussiana, il test t
funziona ugualmente se tale scostamento è piccolo e/o il campione è molto numeroso
Esempio
Test sulla proporzione in un campione (utilizzando il test z)
Un certo numero di individui n, viene assegnato a diverse categorie di una variabile qualitativa
Si calcola la proporzione p di individui che possiedono una specifica caratteristica
Si vuole determinare il valore π nella popolazione da cui il campione è stato prelevato differisce
da un certo valore prefissato π0.
Se nπ e n(1-π) sono maggiori o uguali a 5
o la variabile p ha una distribuzione binomiale
Approssimabile con una distribuzione normale
• La variabile p standardizzata ha una distribuzione approssimativamente normale
standardizzata.
Applico il test z
H0 : π= π0
H1 : π ≠ π0
z calc =
Verifico le ipotesi come di norma
p − π0
σp
=
p −π0
π 0 (1 − π 0 )
n
Esempio
Un campione di 100 cardiopatici viene suddiviso in fumatori e non fumatori
I fumatori risultano essere 21 (p = 0.21)
La proporzione di fumatori nella popolazione generale è pari a 0.15 (π0)
Confrontare l’ipotesi “tra i cardiopatici, i fumatori sono tanto numerosi quanto nella popolazione
generale” (ipotesi nulla) con l’ipotesi “la numerosità di fumatori non differisce nella popolazione
di cardiopatici rispetto alla popolazione generale” (ipotesi alternativa)
z calc =
p − π0
0.21 − 0.15
=
= 1.68
π 0 (1 − π 0 )
0.15(0.85)
100
n
Il valore calcolato cade nella regione di accettazione
o non esistono evidenze statisticamente significative, utilizzando un valore di α = 0.05, che
la frazione di fumatori nei cardiopatici sia diversa dal valore riscontrato nella popolazione
generale
Il p-value è pari a 0.09.