La logica statistica della verifica (test) delle ipotesi Come posso confrontare diverse ipotesi? Nella statistica inferenziale classica vengono sempre confrontate due ipotesi: l’ipotesi nulla e l’ipotesi alternativa In realtà, questo confronto non è diretto. Quello che si confronta realmente sono i dati con l’ipotesi nulla In altre parole: 1. Si cerca di prevedere come potrebbero essere i dati se fosse vera l’ipotesi nulla 2. Se i dati osservati sono molto distanti da quelli si potrebbero ottenere se fosse vera l’ipotesi nulla, allora l’ipotesi nulla VIENE RIFIUTATA (e di conseguenza, si accetta l’ipotesi alternativa) 3. Se invece i dati osservati non sono troppo distanti da quelli si potrebbero ottenere se fosse vera l’ipotesi nulla, allora l’ipotesi nulla NON VIENE RIFIUTATA (ovvero, si dice che i dati osservati sono compatibili con l’ipotesi nulla) L’ipotesi nulla non viene mai accettata! Ipotesi nulla e ipotesi alternativa Ipotesi nulla, o H0 o E’ un enunciato specifico che riguarda un parametro nella popolazione (o nelle popolazioni) o E’ l'ipotesi che tutto sommato, se verificata, farebbe concludere allo sperimentatore di aver perso tempo o comunque renderebbe tutta la faccenda meno interessante o E’ l’ipotesi sulla base della quale si elabora la distribuzione nulla della statistica utilizzata per il test Ipotesi alternativa, o Ha o H1 o Rappresenta tutte le altre ipotesi riguardo al parametro non specificate dall’ipotesi nulla o E’ l’ipotesi che generalmente viene formulata prima di fare un test, l'idea cioè che ha avuto il ricercatore e che lo ha indotto a fare un esperimento o a raccogliere dei dati sul campo (e che quindi sarebbe interessante in genere poter verificare) Esempi di H0 La densità di delfini è la stessa nelle zone aree in cui la pesca viene effettuata con le e senza pesca con reti a deriva è uguale alla densità di delfini nelle aree in cui la pesca viene effettuata senza queste reti Gli effetti antidepressivi della sertralina non differiscono da quelli dell'amitriptilina Genitori con occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno figli con occhi marroni e figli con occhi azzurri in un rapporto 3:1 La temperatura corporea media degli esseri umani sani è 37 °C Esempi di H1 La densità di delfini differisce tra zone con e senza pesca con reti a deriva Gli effetti andidepressivi della sertralina differiscono da quelli dell'amitriptilina I genitori con gli occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno figli con occhi marroni e figli con occhi azzurri in un rapporto diverso da 3:1 La temperatura corporea media degli esseri umani sani non è 37 °C. Formalizzazione del test di ipotesi con un esempio molto semplice Vediamo con un esempio semplice: test sulla media per un campione con varianza nota o Supponiamo che la crescita media tra il terzo mese e il quarto mese di un bambino allattato con latte materno, in Italia, sia di 0.54 kg (µ = µ0= 0.54) o Supponiamo anche di sapere che la deviazione standard in questa variabile sia nota e pari a 0.12 kg (σ = 0.12) o Un campione di 35 bambini alimentati solo con latte artificiale viene analizzato per questa variabile, e si ottiene una media campionaria x = 0.47 o Si vuole determinare se l’accrescimento medio dei bambini allattati con latte artificiale è diverso da quello dei bambini allattati con latte materno. Si vuole verificare se la media µ nella popolazione dei bambini allattati con latte artificiale (della quale abbiamo un campione) è diversa dalla media µ0 della popolazione dei bambini allattati con latte materno (della quale conosciamo la media). La varianza si suppone nota. Formalmente, possiamo indicare le due ipotesi come Ipotesi nulla H0 : µ = µ0 (l’ipotesi nulla è molto specifica) Ipotesi alternativa H1 : µ ≠ µ0 (l’ipotesi alternativa è “tutto quello che non è l’ipotesi nulla”) Assumiamo inizialmente che sia vera l’ipotesi nulla per prevedere i risultati che dovremmo attenderci in un campione con n = 35 o il campione di 35 bambini proviene da una popolazione con media µ = µ0= 0.54, con una deviazione standard σ = 0.12, e quindi il fatto che x = 0.47 è un semplice effetto del campionamento casuale Come sarebbe distribuita la media campionaria standardizzata in tanti campioni con n = 35 se fosse vera l’ipotesi nulla? o (la media campionaria standardizzata, quando ho a disposizione σ, è lo scarto dalla media della popolazione diviso per σ x ) x − µ0 Ovvero, quale sarebbe la distribuzione di σx se fosse vera H0? Come una variabile z! α/2 of total area α/2 of total area -z α/2 0 Questa è la distribuzione nulla in questo test di ipotesi z α/2 α/2 of total area α/2 of total area -z α/2 0 z α/2 Scelto un certo valore di α (livello di significatività), nella distribuzione nulla si possono identificare due tipologie di valori di z: o valori di z compatibili con l’ipotesi nulla, perché sufficientemente vicini a quello che ci aspetta generalmente se fosse vera l’ipotesi nulla o valori di z così distanti da quello che ci aspetta se fosse vera l’ipotesi nulla da rendere tale ipotesi molto improbabile Per esempio: o α= 0.05 (in un certo senso, questo valore specifica cosa intendo per “compatibilità con l’ipotesi nulla”) o zα/2 =1.96 o valori di z compatibili con l’ipotesi nulla: valori compresi tra -1.96 e +1.96 o valori di z incompatibili con l’ipotesi nulla: valori maggiori di +1.96 o minori di -1.96 Ragionando sull’esempio della crescita di neonati: o Il 95% dei campioni con n=35 estratti da una popolazione con media pari a 0.54 kg e σ = x − 0.54 0.12 kg avranno una 0.12 / 35 non superiore a 1.96 e non inferiore a -1.96 o Se nel mio singolo campione questo valore è inferiore a -1.96 o superiore a 1.96, lo considero così improbabile se fosse vera l’ipotesi nulla, da portarmi al rifiuto di questa ipotesi o Se nel mio singolo campione questo valore è compreso tra -1.96 e 1.96, lo considero un valore non così improbabile se fosse vera l’ipotesi nulla, ovvero compatibile con l’ipotesi nulla. Quest’ultima non viene rifiutata. Questa è la logica inferenziale classica, basata sul rifiuto o il non-rifiuto dell’ipotesi nulla, dell’ipotesi cioè dalla quale partiamo e della quale siamo in grado di definire le caratteristiche in termini di probabilità. Quindi, in questo caso, il test dell’ipotesi si realizza calcolando la statistica test z zcalc = x − µ0 σx e confrontando il valore ottenuto con due regioni della distribuzione z o regione di accettazione: - zα/2 ÷ zα/2 o regione di rifiuto: per valori di z minori di - zα/2 e maggiori di zα/2 Il valore di α (livello di significatività) viene di solito fissato a 0.05, ma può anche essere pari a 0.01 o 0.001 se vogliamo essere più sicuri che il rischio di commettere un errore rifiutando un’ipotesi nulla vera (errore di primo tipo) sia inferiore QUINDI Se zcalc cade nella regione di rifiuto, ci sono evidenze forti che sia vera l’ipotesi alternativa, con una probabilità α di sbagliarsi (ovvero di compiere un errore di primo tipo) Se zcalc cade nella regione di accettazione, non possiamo respingere l’ipotesi nulla (che non viene accettata: i dati disponibili sono compatibili con l’ipotesi nulla, ma altri dati, per esempio più numerosi, potrebbero portare al rifiuto) Nel caso numerico dell’esempio, per α = 0.05 2.5% of total area 2.5% of total area -1.96 z calc = 0 1.96 0.47 − 0.54 = −3.5 0.02 Questo valore cade nella regione di rifiuto e quindi giungiamo alla conclusione che l’ipotesi alternativa è corretta, sapendo però che esiste un rischio pari al 5% che questa conclusione sia errata. ESEMPIO DEL CONSUMO DI HAMBURGER L’approccio del P-value (o p-value) nella verifica dell’ipotesi E’ un approccio alternativo a quello delle regioni di accettazione e rifiuto appena visto Importante perché fornisce un’informazione più precisa e anche perché è l’approccio utilizzato nelle analisi statistiche al calcolatore. Torniamo al nostro esempio di test sui bambini allattati con latte artificiale e materno x−µ z = calc σx E’ possibile determinare (da tabella o mediante computer) la probabilità di osservare valori uguali o più estremi di quello osservato (più estremi significa meno probabili). Questa probabilità prende il nome di P-value (o valore p) Ovviamente, minore è il P-value o maggiore è l’evidenza che il campione provenga da una popolazione con media diversa da quella ipotizzata dall’ipotesi nulla o maggiore è quindi l’evidenza in favore dell’ipotesi alternativa Con l’approccio del P-value, la logica procede come segue Se il P-value è minore di α, ho forti motivi per ritenere che la popolazione da cui proviene il campione di bambini allattati con latte in polvere abbia una crescita media diversa da µ0 (quella ipotizzata dall’ipotesi nulla) o Si conclude che è vera l’ipotesi alternativa H1 (ossia, il tipo di latte ha un effetto), perché la probabilità di avere una media così deviante o anche più deviante risulta molto bassa se fosse vera l’ipotesi nulla o Il P-value è anche pari alla probabilità di sbagliare giungendo a questa conclusione, ossia la probabilità di commettere un errore di primo tipo Se invece il P-value è maggiore di α, non ci sono forti evidenze che la popolazione da cui il campione proviene abbia una media diversa da µ0. o Si conclude che i dati sono compatibili con l’ipotesi nulla, sono cioè spiegabili con il solo effetto del campionamento. L’ipotesi che la crescita non è influenzata dal tipo di latte non può essere scartata, visto che una certa probabilità non troppo piccola, data dal Pvalue, risultati simili o più estremi di quelli osservati si possono ottenere per caso se è vera l’ipotesi nulla. L'approccio basato sui P-value non è altro che l'altra faccia dell'approccio basato sulle regioni di accettazione e rifiuto o fissato α, se un valore della statistica test cade nella regione di rifiuto, il suo P-value è sempre minore di α Utilizzando i dati nel nostro esempio, otteniamo come prima che z calc = 0.47 − 0.54 = −3.5 0.02 Cercando in tabella, o usando per esempio un applet in Internet, possiamo calcolare il P-value, P − value = P(− 3.5 ≤ z ≤ 3.5) = 0.0005 Alcuni punti molto importanti 1. Inferenza statistica e cautela verso le “novità” La verifica di ipotesi è forse lo strumento statistico più importante per il processo conoscitivo scientifico Considerando che H0 tendenzialmente definisce la situazione sperimentale "conservatrice" e H1 quella che porta ad una scoperta nella ricerca, si capisce come la logica dell’inferenza statistica abbia un carattere di cautela verso l'innovazione: consente di rifiutare l’ipotesi nulla solo se i dati sono veramente incompatibili con essa (α è in genere fissato al 5%) Possiamo pensare alla verifica di ipotesi come ad un processo o L'imputato è il parametro sotto test o L'assoluzione corrisponde a non rifiutare H0 o La sentenza di colpevolezza è in analogia all'ipotesi alternativa Il sistema legislativo consente di condannare solo nel caso di forti evidenze di colpevolezza, nel caso cioè in cui la probabilità che l'imputato (il parametro) sia innocente (assumo H0), sia molto bassa (minore di α). In questo caso ci garantiamo di non condannare quasi mai un innocente (che come abbiamo visto in statistica di chiama errore di primo tipo), errore ben più grave di assolvere un colpevole (che come vedremo si chiama errore di secondo tipo). 2. L’ipotesi nulla non viene mai accettata Un risultato non significativo indica solo che non si è in grado di rifiutare l’ipotesi nulla Potrei per esempio avere una media della popolazione campionata (quella dei bambini allattati con latte in polvere nell’esempio presentato) leggermente diversa dalla media di riferimento (quella dei bambini allattati con latte materno), ma i dati risultano ancora compatibili con l’ipotesi nulla. L’evidenza in favore dell’ipotesi alternativa non è sufficientemente forte per escludere l’ipotesi nulla. Niente esclude che in un successivo esperimento questa differenza diventi evidente. Volendo continuare con l'analogia del processo, questo corrisponde al fatto che l'imputato non viene mai assolto in modo definitivo, ma all'eventuale presenza di nuove prove di colpevolezza, il processo verrebbe riaperto (si eseguirebbe di nuovo il test con i nuovi dati raccolti). 3. Il livello di significatività non corrisponde alla dimensione dell’effetto Lo stesso effetto diventa più o meno significativo semplicemente in funzione del numero di dati disponibili: avere più dati, significa avere maggiori informazioni, per cui anche l'effetto più piccolo diventa significativo con un adeguato numero di osservazioni. Un risultato significativo non significa un risultato importante ci indica solo quanto poco probabile è che un certo effetto sia dovuto al caso Interpretare la "dimensione", e quindi l'importanza del risultato, è compito dello studioso. Per esempio, potrebbe risultare, sulla base di un campione di 10000 persone che fanno jogging regolarmente, che il loro rischio di infarto è statisticamente maggiore rispetto a chi non lo pratica (favorendo cioè l’ipotesi alternativa). Se però questo rischio aumenta, pur se in maniera statisticamente significativa, solo dello 0.01% , questo risultato potrebbe non avere una grande importanza sociale o comunque biologica. Test sulla media di un campione quando la varianza è ignota Le ipotesi nulla e alternativa sono ancora: H0 : µ = µ0 La media µ della popolazione dalla quale ho estratto il campione è uguale ad un certo valore prefissato, µ0. In altre parole, il campione proviene da una popolazione con media µ0. H1: µ ≠ µ0 La media µ è diversa dal valore prefissato µ0. La statistica test è il t di Student, calcolato come segue t calc = x − µ0 x − µ0 = sx s/ n Se la variabile in esame ha una distribuzione gaussiana, questa statistica test si distribuisce secondo la distribuzione t di Student con (n-1) gradi di libertà se è vera l’ipotesi nulla Posso seguire lo stesso approccio (regioni di accettazione/rifiuto o P-value) per testare l’ipotesi nulla, ovviamente usando la distribuzione t come distribuzione nulla: è un test t di Student Il test t è relativamente robusto a piccole deviazioni dall’assunzione di normalità o Ovvero, anche se la variabile ha una distribuzione che si discosta dalla gaussiana, il test t funziona ugualmente se tale scostamento è piccolo e/o il campione è molto numeroso Esempio Test sulla proporzione in un campione (utilizzando il test z) Un certo numero di individui n, viene assegnato a diverse categorie di una variabile qualitativa Si calcola la proporzione p di individui che possiedono una specifica caratteristica Si vuole determinare il valore π nella popolazione da cui il campione è stato prelevato differisce da un certo valore prefissato π0. Se nπ e n(1-π) sono maggiori o uguali a 5 o la variabile p ha una distribuzione binomiale Approssimabile con una distribuzione normale • La variabile p standardizzata ha una distribuzione approssimativamente normale standardizzata. Applico il test z H0 : π= π0 H1 : π ≠ π0 z calc = Verifico le ipotesi come di norma p − π0 σp = p −π0 π 0 (1 − π 0 ) n Esempio Un campione di 100 cardiopatici viene suddiviso in fumatori e non fumatori I fumatori risultano essere 21 (p = 0.21) La proporzione di fumatori nella popolazione generale è pari a 0.15 (π0) Confrontare l’ipotesi “tra i cardiopatici, i fumatori sono tanto numerosi quanto nella popolazione generale” (ipotesi nulla) con l’ipotesi “la numerosità di fumatori non differisce nella popolazione di cardiopatici rispetto alla popolazione generale” (ipotesi alternativa) z calc = p − π0 0.21 − 0.15 = = 1.68 π 0 (1 − π 0 ) 0.15(0.85) 100 n Il valore calcolato cade nella regione di accettazione o non esistono evidenze statisticamente significative, utilizzando un valore di α = 0.05, che la frazione di fumatori nei cardiopatici sia diversa dal valore riscontrato nella popolazione generale Il p-value è pari a 0.09.