I TEST: LA VERIFICA DELLE IPOTESI La scelta del modello statistico 1 La verifica d’ipotesi Spesso è necessario decidere, sulla base dei dati osservati, della veridicità di ipotesi sul processo che ha portato a generare i dati, ipotesi che si assume siano formulate precedentemente all’esperimento stesso 2 Un esperimento di Darwin Mi è spesso capitato di pensare che sarebbe stato consigliabile appurare se pianticelle ottenute da semi provenienti da impollinazione incrociata dei fiori fossero in qualche modo superiori a quelle derivanti da auto-impollinazione. 3 Charles Darwin (1809-1882), author of The Origin of Species (1859) later investigated the effect of cross-fertilization on the size of plants. Pairs of plants, one cross- and one self-fertilized at the same time and whose parents were grown from the same seed, were planted and grown in the same pot. The numbers of pairs of plants were not large because the time and care needed to carry out the experiments were sub-stantial. Darwin's experiments had taken 11 years. Darwin had sent the data for several species to his cousin, Francis Galton. Galton (1822-1911), an eminent statistician, was unaware of any rigorous method for making an inference about the mean of a population when its standard deviation was unknown. Certainly that was the case for Darwin's differences in sizes of pairs of plants. W.S. Gosset (1876-1937) was employed by the Guniess Brewing Company of Dublin. Sample sizes available for experimentation in brewing were necessarily small, and Gosset knew that a correct way of dealing with small samples was needed. He consulted Karl Pearson (1857-1936) of Universiy College in London about the problem. Pearson told him the current state of knowledge was unsatisfactory. The following year Gosset undertook a course of study under Pearson. An outcome of his study was the publication in 1908 of Gosset's paper on "The Probable Error of a Mean," which introduced a form of what later became known as Student's t-distribution. Gosset's paper was published under the pseudonym "Student." The modern form of Student's t-distribution was derived by R.A. Fisher and first published in 1925. 4 L’ipotesi nulla L’ipotesi nulla è in genere un’ipotesi di casualità, quella che vorremmo rifiutare. H0: le differenze di altezza osservate nei due insiemi di piante sono dovuti a variazioni casuali. 5 L’ipotesi alternativa L’ipotesi alternativa è quella che si vorrebbe “dimostrare” vera. H1: le differenze di altezza osservate nei due insiemi di piante sono dovuti a alla “superiorità” dei semi ottenuti da impollinazione incrociata. 6 I test d’ipotesi Lo statistico, valuta se l’evidenza sperimentale è tale da condurre a rifiutare l’ipotesi nulla, accettando di conseguenza quella alternativa Il ruolo delle due ipotesi non è simmetrico: consideriamo vera H0 finchè non siamo (quasi) certi sia falsa (presunzione di innocenza) Accade che non siamo nelle condizioni di rifiutare H0 anche soltanto perché l’informazione sperimentale è povera 7 I test d’ipotesi Di solito disponiamo di conoscenze “a priori” sul fenomeno che possiamo utilizzare per formulare un modello statistico ed esprimere le ipotesi di interesse sotto forma di parametri del modello Aumentando l’informazione complessiva, riusciamo a ridurre il margine di incertezza sulle conclusioni a cui giungeremo I risultati finali dipenderanno pero’ adesso dalla validita’ del modello che abbiamo formulato. 8 Nel nostro caso e’ ragionevole assumere che l’altezza delle piantine, indipendentemente dal tipo di impollinazione, segua un modello normale 9 In altre parole ipotizziamo un valore atteso (che non conosciamo) per l’altezza intorno al quale tende a concentrarsi la maggior parte delle piantine. Solo alcune di loro saranno molto piu basse o molto piu’ alte del valore atteso. Tanto piu’ se ne discostano tante meno saranno. Inoltre se attribuiamo la variabilita’ della loro altezza a fattori casuali, la probabilita’ di osservare altezze piu’ basse o piu’ alte della media sara’ la stessa a parita’ di distanza dal valore atteso, cioe’ la loro distribuzione sara’ simmetrica. 10 Misuriamo l’evidenza Il primo passo nella costruzione di un test e’ quello di passare dai dati osservati ad una loro sintesi che prende il nome di statistica test. La scelta di tale statistica dipende dalle caratteristiche del problema 11 Zea Mais “Student” osservo’ che i dati di Darwin sono “appaiati” poiche’ si tratta di coppie di piantine figlie ottenute dalla stessa pianta madre attraverso due diverse forme di impollinazione. Propose allora di calcolare la differenza in altezza separatamente per ogni coppia di piantine, definendo cosi’ una nuova variabile statistica Di. Ora le coppie di piantine figlie tenderanno ad avere caratteristiche simili e la differenza nell’altezza raggiunta potrà già essere considerata una misura,seppure imprecisa, dell’effetto del diverso tipo di impollinazione. 12 La matrice dei dati unita' diff (inches) 1 49 2 -67 3 8 4 16 5 6 6 23 7 28 8 41 9 14 10 29 11 56 12 24 13 75 14 15 diff. media stimata stima della varianza gradi di liberta' 60 -48 20.93 1424.64 14 13 Zea Mais Otteniamo 15 differenze osservate ciascuna delle quali “misura” l’effetto della diversa impollinazione anche se contaminato da possibili fluttuazioni casuali Proprio per ridurre la componente d’errore sintetizziamo le osservazioni attraverso la loro media aritmetica La nostra statistica test sara’ allora basata sulla media delle singole differenze n D D i 1 i n 14 La statistica test Possiamo interpretare intuitivamente D come una misura della distanza delle nostre osservazioni dall’ipotesi nulla. Se le differenze sono dovute al caso la loro media tenderà ad essere nulla. Se l’impollinazione incrociata è superiore a quella diretta ci attendiamo valori positivi per D, tanto maggiori tanto maggiore è la sua superiorità. In altre parole D è stata costruita in modo che valori elevati costituiscano un’evidenza contro H0, mentre valori piccoli costituiscano un’indicazione a favore di H0. 15 Statistica test Possiamo adesso riscrivere il nostro sistema d’ipotesi in termini della statistica test D H0 :E[D]=0 H1 :E[D]>0 Quando il valore di D diventa sufficientemente alto da potere essere considerato una “evidenza” contro l’ipotesi nulla? 16 Per poter rispondere dobbiamo valutare l’impatto della variabilità casuale assumendo vera l’ipotesi nulla. Con che probabilità osserviamo una differenza media uguale o maggiore di 10 per il solo effetto del caso? Immaginiamo di ripetere numerose volte l’esperimento, nelle medesime condizioni, ipotizzando che non esista alcuna reale differenza tra i due tipi di impollinazione Otterremo diversi valori di D al variare del campione osservato. Sulla base di questi valori potremo costruire la distribuzione 17 campionaria di D. Distribuzione campionaria Se la nostra ipotesi di normalita’ e’ vera, anche i valori di D provenienti da diversi campioni tenderanno a seguire la stessa legge. Il valor medio sara’ nullo La variabilita’ casuale sara’ pari alla variabilita’ delle differenze divisa per la numerosita’ del campione 2 n 18 Possiamo adesso standardizzare la nostra statistica D ottenendo ~ D0 D 2 n Raramente conosciamo la variabilita’ del fenomeno che stiamo studiando. Piu’ spesso dobbiamo stimarla sulla base dei dati che abbiamo osservato. 19 D0 T 2 ˆ n Questo stima aggiunge un ulteriore elemento di incertezza Tradotto in termini di probablita’, passiamo da una distribuzione normale standardizzata ad una t di Student (con n-1 gradi di liberta’) 20 Torniamo al nostro quesito: con che probabilità osserviamo una differenza media uguale o maggiore di 10 per il solo effetto del caso? La varianza delle differenze di altezza stimata sui nostri dati e’ 1424.64. Calcoliamo il corrispondente valore di T t 10 10 0 1.026 1424.64 15 Dalle tavole della distribuzione T di Student scopriamo che la probabilita’ di avere valori maggiori di 1.026 e’ 0.16 21 Se decidessimo di rifiutare l’ipotesi nulla (ammettendo la superiorita’ dell’impollinazione incrociata) quando osserviamo valori uguali o maggiori di 10, sapremmo di sbagliare (a o errore di primo tipo) con una probabilita’ pari a 0.16. E’ un margine di errore accettabile? Tendiamo normalmente ad essere piu’ conservativi, ammettendo una probabilita’ di errore uguale o inferiore a 0.05. Fissato a=0.05 possiamo ricavare dalle tavole il percentile corrispondente (t=1.76) e definire la nostra “regione di rifiuto” (t > 1.76, D>17.15) 22 La differenza media stimata nel nostro caso e’ 20.93 che conduce ad un valore osservato di t pari a 2.148 chiaramente in regione di rifiuto Rifiutiamo l’ipotesi nulla ed accettiamo l’ipotesi alternative di superiorita’ nell’altezza attesa delle piantine ottenute da impollinazione incrociata 23 Notate come la regione di rifiuto e’ definita ancor prima di ossservare il nostro campione. Ancora una volta valutiamo l’errore sulla base di cosa accadrebbe sull’insieme dei risultati sperimentali ossevabili. Ancora una volta e’ una valutazione sul metodo e non sul nostro particolare risultato Anche un valore molto piu’ elevato di t, ad esempio t=20, condurrebbe a rifiutare l’ipotesi nulla con lo stesso margine di errore pari a 0.05. Tuttavia l’evidenza dei due risultati sembra diversa… 24 Proviamo a chiederci qual’e’ la probabilita’ di osservare, sempre per il solo effetto del caso, differenze medie di altezza maggiori o uguali alla quella osservata pari a 20.93 (il famoso p-value!!) Da t oss 20.93 0 2.148 1424.64 15 otteniamo il valore di 0.0248 cioe’ un probabilita’ decisamente bassa che la differenza media osservata sia dovuta a fluttuazioni casuali. 25 Livello di significatività osservato Quindi il valore p è la probabilità che la statistica D assuma, nel caso in cui l’ipotesi H0 sia vera, un valore elevato almeno quanto quello osservato d; in altri termini è la probabilità che D sia distante dall’ipotesi nulla almeno d. Si capisce come il livello di significatività osservato possa essere interpretato come una misura di evidenza sperimentale a favore di H0. 26 Livello di significatività osservato Infatti se p(d) è molto piccola allora vuol dire che, se H0 fosse vera, sarebbe ben difficile ottenere un valore di DM maggiore o uguale a quello osservato, e quindi una distanza tra l’ipotesi e i dati campionari maggiore o uguale di quella fornita da d; ciò porta ad affermare che H0 è falsa e quindi a rifiutarla. Viceversa un valore p(d) elevato, può essere un’indicazione a favore di H0, anche se non dà luogo a valutazioni di tipo conclusivo, in quanto rivela soltanto una mancanza di evidenza contro H0. 27