Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l’analisi di uno o più campioni E’ chiaro però che esiste comunque la possibilità di giungere a conclusioni errate, appunto perché i miei dati rappresentano solo una parte dell’evento che sto analizzando Formalizziamo brevemente il concetto, in parte già visto, di errore (di errori) nel processo di verifica delle ipotesi Premessa (riassunto di argomenti già trattati) PRIMA di effettuare un test statistico viene scelto un livello di significatività, α Questo livello di significatività determina i valori critici della statistica test (z, t, chi-quadro, ecc). I valori critici definiscono nella distribuzione teorica della statistica, distribuzione attesa nel caso sia vera l’ipotesi nulla (la distribuzione nulla, appunto), le regioni di accettazione e di rifiuto Il livello di significatività prescelto viene anche utilizzato come confronto se si segue l’approccio del p-value: il p-value calcolato viene confrontato con α Supponiamo ora di aver scelto α =0.05 (scelta tipica), e supponiamo di condurre un test bidirezionale (a due code) La regione di rifiuto nella distribuzione nulla include il 5% dei valori più estremi della statistica (2,5% dalla parte dei valori molto grandi, e 2,5% dalla parte dei valori molto piccoli) Questi sono valori estremi che comunque possiamo otterremmo, con una probabilità del 5%, anche se fosse vera l’ipotesi nulla • Se ripetessimo tante volte il test su campioni diversi, e l’ipotesi nulla fosse sempre vera, il 5% dei test porterebbe ad un valore della statistica test all’interno della zona di rifiuto (e ad un p-value inferiore a 0.05) • Quindi, nel 5% di questi test, rifiuteremmo l’ipotesi nulla vera Distribuzione nulla per la statistica test z. Se è vera l’ipotesi nulla, e ripetessi il test molte volte su campioni diversi, α x 100 delle volte quest’ipotesi vera verrebbe erroneamente rifiutata In pratica, se la statistica calcolata in un singolo test cade nella regione di rifiuto, o il p-value <α, la conclusione del test è quella di rifiutare l’ipotesi nulla. • Ma, per quello che abbiamo appena detto, l’ipotesi nulla potrebbe anche essere vera ma per puro effetto del caso (errore di campionamento) i dati portano ad una statistica test significativa (che cade cioè nella regione di rifiuto e che ha un p-value <α) L’errore che si compie rifiutando un’ipotesi nulla vera si chiama Errore di primo tipo o errore di prima specie, o errore do tipo I La probabilità di compiere un errore di primo tipo è data dal livello di significatività α prescelto E’ la frazione di volte che viene rifiutata un ipotesi nulla vera se ripetessi tante volte il test su campioni diversi (presi dalla stessa, o dalle stesse, popolazione/i) Scegliendo in anticipo α, definiamo il rischio che siamo disposti ad accettare di compiere un errore di primo tipo Alla fine del test, se le evidenze saranno a favore dell’ipotesi alternativa, non sapremo ovviamente se avremo commesso un errore di primo tipo oppure no. Potremo solo dire che la probabilità di averlo commesso, se fosse vera l’ipotesi nulla, sarebbe molto bassa (e pari ad α) La probabilità complementare (1- α) viene chiamata livello di protezione di un test, ed è appunto la probabilità di non rifiutare l’ipotesi nulla quando l’ipotesi nulla è vera. Un test con un altro livello di protezione è detto conservativo • Un test molto conservativo può essere visto come un test che vuole rischiare molto poco di fare un errore di primo tipo, che sappiamo essere un errore molto grave perché rifiutare l’ipotesi nulla è una decisione forte (come condannare un imputato) mentre non rifiutarla non significa in realtà accettarla (ma solo dire che i dati sono compatibili con essa) Da notare che nel calcolo degli intervalli di confidenza (utilizzati nella stima di un parametro, non nella verifica di ipotesi), il termine 1- α prende il nome di grado di confidenza Riassumendo, se l’ipotesi nulla è vera, può succedere che: Vediamo ora un altro tipo di errore che si può commettere nella verifica delle ipotesi Se l’ipotesi nulla è falsa, cioè per esempio la media nella popolazione 1 è diversa dalla media nella popolazione 2, giungerò sempre al suo rifiuto analizzando due campioni? • Ovviamente no, e anche intuitivamente è facile capirne un motivo: se le medie nelle due popolazioni sono diverse ma molto vicine, è possibile che i dati non siano sufficienti a escludere l’ipotesi nulla, visto che l’ipotesi nulla viene rifiutata solo in presenza di forti evidenze L’errore che si compie quando un’ipotesi alternativa è vera ma la conclusione del test è quella che non è possibile escludere l’ipotesi nulla, ovvero, l’errore che si compie non rifiutando un’ipotesi nulla falsa, si chiama Errore di secondo tipo o errore di seconda specie, o errore do tipo II La probabilità di commettere un errore di secondo tipo viene generalmente indicato con il simbolo β La probabilità complementare, (1- β), ossia la probabilità di rifiutare correttamente un ipotesi nulla falsa, si chiama potenza del test • Maggiore è la potenza di un test, maggiore sarà la possibilità del test di identificare come corretta l’ipotesi alternativa quando questa è effettivamente vera La probabilità di fare un errore di secondo tipo, ovvero il rischio di non rifiutare un’ipotesi nulla falsa, e di conseguenza la potenza di un test, non si può stabilire a priori • Dipende infatti dalla distanza tra ipotesi nulla e alternativa (per esempio, la differenza tra µ1 e µ2), distanza che è ignota • Dipende dalla varianza delle variabili in gioco, che non può essere modificata La probabilità di fare un errore di secondo tipo, però, dipende anche dal numero di osservazioni e dal livello di significatività α prescelto. Quindi: • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando la dimensione campionaria • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando il livello di significatività α (ma questa scelta ci espone a maggiori rischi di errore di tipo I) E’ possibile studiare la potenza di un test attraverso l’analisi della potenza Completiamo intanto la tabella degli errori Cerchiamo ora di capire graficamente l’errore di secondo tipo • Supponiamo di svolgere un test z a una coda per verificare le seguenti ipotesi H0: µ = µ0 = 1.5 H1 : µ ≠ µ0 • Abbiamo già visto cosa succede quando l’ipotesi nulla è effettivamente vera (si rischia di commettere un errore di primo tipo) • Vediamo ora cosa succede quando l’ipotesi nulla non è vera In questo caso, per capire e calcolare l’errore di secondo tipo è necessario assumere che sia vera una ipotesi alternativa precisa. Assumiamo che sia vera l’ipotesi alternativa µ = 1.45 Concentriamoci per ora sulla parte inferiore della figura, specifica per un campione con n = 36 osservazioni con σ =0.1 e α = 0.01 • Le due distribuzioni a campana rappresentano le distribuzioni delle medie campionarie secondo l’ipotesi nulla (in viola) e secondo l’ipotesi alternativa (in blu) • Le due linee rosse verticali rappresentano i limiti dell’intervallo all’interno del quale una media campionaria verrebbe considerata compatibile con l’ipotesi nulla Quei limiti, standardizzati, porterebbero ai valori critici nella tabella di z di - 2.576 e 2.576 L’area ombreggiata in giallo è la probabilità di commettere un errore di tipo II • Infatti, quando è vera l’ipotesi alternativa, la media campionaria ha una probabilità pari all’area in giallo di cadere nella regione di accettazione (stabilità ovviamente sulla base della distribuzione nulla) L’area ombreggiata in verde è quindi il potere del test, ovvero la probabilità di rifiutare correttamente l’ipotesi nulla quando questa è falsa (come nel caso considerato) E facile capire da questo grafico che • 1. Maggiore è la distanza tra ipotesi alternativa (che stiamo considerando vera) e l’ipotesi nulla (che stiamo considerando falsa), maggiore sarà la potenza del test Logico: se l’ipotesi alternativa è molto diversa da quella nulla ipotizzata, sarà facile scoprirlo • 2. Minore è la dispersione della variabile, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test Logico: se gli individui sono tutti molto simili, anche pochi sono sufficienti per stimare bene la media della popolazione e verificare se è diversa da µ0 • 3. Maggiore è l’α prescelto, maggiore sarà la potenza del test Logico: se per rifiutare l’ipotesi nulla mi accontento di moderate differenze tra i dati e quanto predetto dall’ipotesi nulla, tenderò a rifiutarla maggiormente quando è vera l’ipotesi nulla ma anche quando è vera l’ipotesi alternativa • 4. Maggiore è la dimensione campionaria, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test Logico: con molti dati “scovo” meglio un’ipotesi alternativa vera Attenzione: per ogni dato test statistico, possiamo aumentare la potenza solo agendo su sul punto 3 (ma ciò comporta un aumento del rischio di errore di tipo I) e sul punto 4. I punti 1 e 2 non sono sotto il nostro controllo • In realtà, poiché per ogni tipo di problema statistico esistono generalmente più test diversi a disposizione (con caratteristiche diverse), e i test che fanno più assunzioni (per esempio sulla distribuzione della variabile) sono di solito più potenti, è anche possibile aumentare la potenza di un test scegliendo il test più potente (ovviamente se le condizioni imposte da quel test sono soddisfatte dai dati) Provate voi stessi come varia il potere di semplice un test in funzione di α, n, σ, e la distanza tra la µ vera e la µ0 ipotizzata dall’ipotesi nulla: http://bcs.whfreeman.com/ips4e/cat_010/applets/power_ips.html Cosa si poteva vedere nella parte superiore della figura discussa in precedenza? L’analisi della potenza e la sua importanza Fare un analisi della potenza significa essenzialmente determinare la potenza di un test in diverse condizioni, ovvero in funzione di α, n, σ, e della distanza tra ipotesi alternativa e ipotesi nulla Nel test appena visto, il calcolo della potenza è semplice (si fa con il calcolatore ma si poteva fare anche a mano). In altri casi è molto più complesso E’ molto importante perché ci permette di capire quale probabilità abbiamo di accettare erroneamente l’ipotesi nulla quando invece è vera una specifica ipotesi alternativa Supponiamo per esempio di avere la possibilità di determinare una certa variabile fisiologica in un gruppo di 5 pazienti, per poterne confrontare la media con l’ipotesi nulla che la media nella popolazione sia pari ad un certo valore medio standard, diciamo 12 (sospettando per esempio che la patologia dei pazienti possa aver alterato la variabile fisiologica che vogliamo analizzare). Supponiamo anche di conoscere la deviazione standard della variabile (così che sia possibile applicare un test z) e che questa sia pari a 3 Dopo aver fatto l’analisi in laboratorio e il test statistico, e aver trovato che l’ipotesi nulla non può essere rifiutata, o meglio ancora prima di cominciare le analisi, potremo chiederci: • qual è la probabilità di non accorgerci (con un certo α = 0.05) che la media della popolazione da cui abbiamo estratto il campione non è quella specificata dall’ipotesi nulla (µ0 = 12), ma é invece pari ad valore specifico di interesse, per esempio di interesse perché indice di una grave patologia? Ci interessa cioè capire se, nell’ipotesi che i pazienti abbiano per esempio un media della variabile studiata alta in maniera preoccupante, per esempio µ = 14, tale differenza verrebbe identificata con il campione a disposizione • in generale, la scelta del valore di µ da analizzare nell’analisi della potenza dovrebbe identificare un valore di media particolarmente anomalo, che se fosse veramente la media della popolazione dalla quale abbiamo estratto il campione che stiamo analizzando vorremmo che venisse evidenziata con alta probabilità Utilizzando l’applet al calcolatore con • • • • • α = 0,05 n=5 σ=3 µ0 = 12 (valore standard previsto dall’ipotesi nulla) µ = 14 (valore ipotizzato per l’ipotesi alternativa) La potenza è pari a 0.316 Questo significa che se la media della popolazione fosse 14, avrei circa il 32% di probabilità di identificare con un campione di 5 individui questa deviazione dall’ipotesi nulla. Ma avrei anche una probabilità molto alta (il 68% circa) che pur con una notevole deviazione della popolazione rispetto a quanto previsto dall’ipotesi nulla (14 rispetto a 12), questa deviazione non verrebbe identificata Una situazione pericolosa, quindi, ci potrebbe sfuggire con alta probabilità (il 68%), suggerendoci per esempio di aumentare la dimensione campionaria (e aumentare quindi la potenza del test)