Anno Accademico 2009-2010 Università degli Studi di Ferrara Corso di Laurea Triennale in Scienze Biologiche DIAPOSITIVE DI BIOSTATISTICA (6 crediti, nuovo ordinamento) FONDAMENTI DI BIOMETRIA CON LABORATORIO (9 crediti, vecchio ordinamento) Docente: Prof. Giorgio Bertorelle DI COSA MI OCCUPO IO? Studiare la variabilità genetica per ricostruire il passato dell’uomo e di altri animali o In particolare, oltre all’uomo, le specie analizzate recentemente sono il cinghiale, il camoscio, il capriolo, l’uro (l’antenato estinto dei bovini) e la testuggine di Hermann I dati sulla variabilità genetica devono prima essere “prodotti” in laboratorio (attraverso tecniche di biologia molecolare a partire da materiale organico come sangue, muscolo, peli, ossa, ecc. e anche a partire da campioni scheletrici di individui vissuti migliaia di anni fa) e poi essere analizzati statisticamente per poter giungere a conclusioni credibili Questi studi sono rilevanti per capire l’evoluzione delle specie e per prevenire la perdita di biodiversità DI COSA CI OCCUPEREMO IN QUESTO CORSO? Le basi della statistica applicata allo studio dei dati biologici Cos’e la statistica? o Studio scientifico dei dati, raccolti o ottenuti in un esperimento, al fine di descrivere un fenomeno, interpretarlo, scegliere tra ipotesi alternative Di fondamentale importanza in tutte le discipline che studiano gli organismi viventi (biologia, medicina, agraria, etc). Per ogni anno, è riportata in questo grafico la percentuale di studi in biologia nei quali: - non sono riportati risultati numerici (No numerical results); - sono riportati solo risultati numerici (Numerical results only); - sono stati impiegati semplici metodi statistici (Simple statistics employed); matematica e statistica hanno avuto una fondamentale importanza (Major emphasis on mathematics and statistics). Dopo il 1990, le prime due categorie sono completamente scomparse. STRUTTURA DEL CORSO TABELLA ORARI o [Consultare il sito docente a http://docente.unife.it/giorgio.bertorelle] Lezioni teoriche in aula con molti esempi di applicazioni in ambito biologico Esercizi in aula Esercizi e applicazioni al calcolatore in aula multimediale o Solo per il corso di Fondamenti di biometria con laboratorio (9 crediti) o Per questo corso, il laboratorio è parte integrante del programma e prova d’esame TIPOLOGIA DELL’INSEGNAMENTO E QUALCHE CONSIGLIO E’ necessario capire e non imparare a memoria La teoria serve per capire come analizzare i dati e per svolgere correttamente gli esercizi. Gli esercizi sono applicazioni a dati biologici delle tecniche statistiche. Sono una verifica fondamentale della comprensione della parte teorica. Gli esempi permettono di ricordare sia la parte teorica che quella pratica. E’ importante ricordare gli esempi. NON CONVIENE STUDIARE TEORIA ED ESEMPI DI APPLICAZIONI SEPARATAMENTE Ogni argomento è collegato a quelli precedenti, e il laboratorio è collegato alle lezioni svolte in aula: E’ QUASI INUTILE SEGUIRE LE LEZIONI SE NON SI STUDIA CON CONTINUITA’ DOMANDE Se non capite a lezione, fate domande (utile sempre!) Se non capite dopo aver studiato gli appunti, il materiale disponibile, e il libro, consultate un docente (prima per email, poi eventualmente per appuntamento). Ricordate che i vostri docenti svolgono anche attività di ricerca o [email protected] in generale (orario ricevimento: venerdì dalle 13.30 alle 14.30) o [email protected] per domande attinenti agli esercizi svolti in aula e i laboratori Non arrivate a fine corso con domande/problemi riscontrati fin dalle prime lezioni! VALUTAZIONI Dello studente o Esame finale scritto con domande a scelta multipla e esercizi Eventualmente esame intermedio o Gli appelli successivi per chi non supera l’esame negli appelli a fine corso potranno essere scritti o orali Del docente o Scheda di valutazione, attenzione a compilarla sulla base delle domande richieste MATERIALE DIDATTICO Vostri appunti (la frequenza è consigliata) Almeno un libro di statistica di base o MC Whitlock, D Schluter (2010) - ANALISI STATISTICA DEI DATI BIOLOGICI. Edizione italiana a cura di G. Bertorelle - Zanichelli Editore Materiale disponibile sito docente Materiale distribuito in laboratorio Libri di testo online (in inglese) o http://www.statsoft.com/textbook/ o http://davidmlane.com/hyperstat/ SITO WEB CORSO http://docente.unife.it/giorgio.bertorelle/didattica_insegnamenti LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATI Tre punti importanti o Dati e ipotesi In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare le diverse ipotesi: lo studio e l'interpretazione dei fenomeni biologici dipende quindi strettamente dal metodo statistico. o Statistica e computer Il personal computer non ha reso inutile l'insegnamento della statistica. Nelle analisi statistiche il personal computer svolge solo le funzioni più noiose e meno importanti: ricordare le formule e applicarle velocemente ai dati riducendo il rischio di fare errori. Bisogna però capire il principio di un’analisi, decidere se tale analisi è adatta ai dati disponibili, e saperne interpretare il risultato. o Formule, test, concetti, ed esempi Alla fine di un corso universitario di statistica destinato alle lauree nelle scienze della vita, uno studente non dovrebbe ricordarsi solo gli aspetti tecnici o matematici di questa disciplina. Risulterà invece fondamentale aver capito a cosa serve la statistica, quando serve, e perché funziona in quel modo. A tale scopo aiuta molto avere sempre in mente uno o più esempi specifici per ogni tipo di analisi. 2 Cos’è la statistica? Lo studio scientifico dei dati. Quando l’applicazione dei metodi statistici ha lo scopo di descrivere e comprendere i fenomeni di tipo biologico, si preferisce a volte utilizzare il termine “biometria”. La statistica descrittiva viene utilizzata per riassumere e rappresentare i dati o 100 persone scelte a caso: quanti figli hanno? (se avesse intervistato altre 100 persone, sempre scelte a caso, avrebbe ottenuto una media diversa) o dove preferite fare le vacanze? o Percentuale guarigioni in 50 pazienti controllo e 50 pazienti trattati (il risultato implica che il farmaco sia efficace?) o La statistica descrittiva può essere anche molto complessa, ed è sempre molto utile come indagine preliminare dei risultati ottenuti, ma alla fine ci fornisce solo una sintesi dei dati e/o ci facilita la loro lettura attraverso un grafico. 3 La statistica inferenziale (la “vera” statistica) ci permette di generalizzare, con un certo grado di sicurezza, le conclusioni suggerite dall’analisi dei dati raccolti. o Per esempio, se dall’analisi di un campione di 100 individui calcolo il valore medio del numero medio di figli, la statistica inferenziale mi permette di dire qualcosa sulla media del numero di figli nella popolazione dalla quale proviene il campione. o In questo caso, attraverso il calcolo di una statistica (la media nel campione) possiamo dire qualcosa riguardo ad un parametro (la media nella popolazione): Stima di parametri o Test (o verifica) delle ipotesi: una volta definite delle ipotesi e analizzato un campione, di definire oggettivamente, assegnando un livello di probabilità (ossia di certezza), quale ipotesi è maggiormente compatibile con i dati. Nell’esempio precedente del farmaco, definite le due ipotesi “il farmaco funziona” e “il farmaco non funziona”, la statistica inferenziale ci permette di dire qualcosa in generale, nella popolazione cioè, sull’efficacia del farmaco, e non solo sulla differenza osservata in un campione di 100 pazienti. 4 Il processo inferenziale. Tutta la statistica inferenziale, e cioè tutta la statistica “vera”, è basata su questo processo, che permette, con un certo grado di certezza, di estendere alla popolazione (il fenomeno in senso lato) le conclusioni ottenute osservando un campione (una parte del fenomeno). 5 Il campione: è semplicemente l'insieme degli elementi (detti anche unità campionarie o sperimentali) sui quali effettuiamo misure o osservazioni (per esempio, 20 marmotte catturate con trappole). o Costituisce una frazione della popolazione statistica, un gruppo più grande di elementi che potenzialmente potremmo osservare e misurare. La popolazione: può corrispondere ad un insieme finito di individui che hanno alcune caratteristiche in comune (per esempio, tutte le marmotte che vivono nelle Alpi) o In generale, comunque, si preferisce definire la popolazione statistica come un insieme infinito di elementi La statistica: definisce generalmente una disciplina scientifica, le scienze statistiche, ma una statistica è anche una qualsiasi misura ottenuta elaborando i dati raccolti nel campione. o Numero medio di parassiti osservati in 10 trote o Numero di pettirossi catturati con una rete in una giornata è una statistica. Una parte del processo inferenziale consiste nell'utilizzo delle statistiche per stimare alcune caratteristiche della popolazione, dette parametri. Numero medio di parassiti nella popolazione (e non solo nel campione) Numero di pettirossi in una certa area, stimato partire dal numero di individui rimasti imprigionati nella rete in un giorno. I parametri si riferiscono alle popolazioni, sono generalmente ignoti, e si indicano quasi sempre con lettere greche. Le statistiche si riferiscono al campione, sono calcolabili, si indicano con lettere latine, e si utilizzano per stimare i parametri. 6 Popolazioni e campioni √ √ √ √ Tutti i gatti caduti dagli edifici di New York Tutti i geni del genoma umano Tutti gli individui maggiorenni in Australia Tutto i serpenti volanti del paradiso nel Borneo o http://homepage.mac.com/j.socha/video/video.html √ Tutti i bambini asmatici di Milano √ √ √ √ √ I gatti caduti portati in un singolo ambulatorio in un certo intervallo di tempo 20 geni umani Un pub in Australia frequentato da maggiorenni Otto serpenti volanti del Borneo 50 bambini asmatici a Milano 7 Un esempio sull’inferenza statistica I maschi di trota fario sono più grandi delle femmine? o Un biologo evoluzionista e un allevatore sono interessati alla domanda Pesano 40 individui adulti, 20 maschi e 20 femmine o Media dei maschi = 1,05 kg o Media delle femmine = 0,92 o Cosa concludere?? Nulla o la trota nella popolazione non è costituita solamente da 40 individui o la semplice intuizione dei fenomeni biologici e degli organismi viventi suggerisce che un secondo campione di 20 maschi e 20 femmine avrebbe potuto dare un risultato diverso E’ possibile fidarsi di risultati ottenuti in un campione se un ipotetico secondo campione potrebbe fornire risultati opposti? NO! 8 La variabilità sperimentale può portare per puro effetto del caso a risultati diversi in diversi campionamenti: 9 Il peso degli individui è influenzato da un numero elevatissimo di fattori, molti dei quali incontrollabili dallo sperimentatore o sconosciuti, e non solo, eventualmente, dall'appartenenza al sesso maschile o a quello femminile. Questa situazione è molto frequente nell'analisi dei fenomeni biologici perché esiste un'alta variabilità da individuo a individuo, ed è proprio per questo motivo che abbiamo bisogno del metodo statistico. A partire dall'osservazione parziale di un fenomeno (il campione di 40 trote), la statistica ci permette di trarre delle conclusioni valide in generale, quasi come se avessimo osservato interamente il fenomeno stesso (in questo caso la popolazione di tutte le trote). Quindi, prima di applicare il test statistico appropriato ai 40 pesi misurati, potremmo solamente dire: o nel nostro campione, i maschi do trota sono mediamente più grandi delle femmine. Dopo aver applicato il test statistico, invece, potremmo, per esempio, giungere ad una conclusione di questo genere: o l'analisi statistica indica che in generale i maschi di trota pesano di più delle femmine, e tale affermazione ha una probabilità di essere errata inferiore al 5%. 10 Quando si può fare a meno del metodo statistico? Assenza di variabilità: se tutti i 20 maschi avessero esattamente lo stesso peso, per esempio 1,10 chilogrammi, e tutte le 20 femmine pesassero invece per esempio 0.97 chilogrammi se il biologo evoluzionista e l'allevatore avessero pesato un numero enorme di trote Riuscite a immaginare molte variabili biologiche che si comportino come al punto 1 qui sopra? Oppure,ad un esperimento in campo biomedico nel quale tutti gli individui ai quali è stato somministrato un farmaco reagiscono nello stesso modo? E riuscite altresì a pensare ad una raccolta di dati estesa come quella al punto 2? 11 Un esperimento: i rospi sono destrimani? Un altro esempio sull’importanza della statistica inferenziale 12 La raccolta dei dati: campioni buoni e campioni meno buoni Le osservazioni che vogliamo analizzare possono provenire da un campionamento (per esempio, i pesi delle trote, ma anche le concentrazioni di un certo composto chimico in diversi terreni) oppure da un esperimento (per esempio, lo stato di salute dei pazienti trattati o meno con un farmaco). In entrambi i casi, il campione dei dati, deve essere rappresentativo della popolazione. Campioni casuali e campioni distorti Stime corrette e stime distorte Stime precise e stime imprecise 13 Un campione distorto: perché? 14 Un campione non è casuale, ma distorto, quando, 1) gli individui non hanno tutti la stessa probabilità di essere campionati, e/o 2) la probabilità di un individuo di essere campionato dipende dal fatto che sia stato campionato un altro individuo Esempi: - un botanico raccoglie solo piante più alte, o più vicine alla strada - si fanno sondaggi telefonici - si usano trappole o reti che selezionano gli animali - campiono più individui in una stessa famiglia 15 16 Il campione di convenienza e il campione di volontari sono spesso distorti (non rappresentativi) Esempi di campioni di convenienza - Lesioni dei gatti che cadono dai cornicioni stimati sulla base dei gatti “ospedalizzati” - Merluzzi stimati sulla base della pesca - Inchieste telefoniche Esempi di campione di volontari (uomo) - Campioni provenienti da individui pagati - Campioni di individui che si offrono di rispondere a domande “imbarazzanti” Come si ottiene un campione casuale? E’ sempre possibile ottenerlo? Vediamo un esempio con i 5699 alberi nella foresta di Harvard 17 18 Studi sperimentali e studi osservazionali Nei primi, lo sperimentatore assegna casualmente diversi trattamenti agli individui Per esempio, topi scelti a caso riceveranno un trattamento oppure no. Nei secondi, è la natura che assegna i trattamenti Per esempio, analizzo la relazione tra colorazione e predazione: non scelgo io il colore da assegnare a ciascun individuo. Oppure, studio la relazione tra fumo e tumore: non scelgo io i soggetti a cui somministrare il “trattamento fumo” Negli studi osservazionali, una relazione può essere dovuta ad una causa comune, non ad una relazione di causa ed effetto tra le due variabili analizzate. Per esempio, i pesci rossi sono meno predati di quelli rosa, ma in realtà potrebbe esserci una terza variabile (salute media) che determina colore e livello di predazione. Oppure, potrebbero essere gli individui più depressi che fumano, e il rischio di tumore potrebbe dipendere dalla depressione e non dal fumo. Se da uno studio osservazionale passo ad uno studio sperimentale (per esempio, in un campione pesci, metà scelti a caso li coloro di rosso e metà di rosa; oppure, scelgo a caso un certo numero di topi e li metto in gabbie con fumo, un altro numero in gabbie senza fumo), posso capire molto di più riguardo le relazioni di causa ed effetto. STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti in un esperimento o raccolti sul campo, con lo scopo di acquisire una certa familiarità con i dati prima di passare alle analisi statistiche inferenziali evidenziare nei dati tendenze inattese a priori che possono suggerire analisi non previste inizialmente o anche nuovi esperimenti o campionamenti identificare rapidamente eventuali errori nella trascrizione dei valori o nel loro inserimento al calcolatore identificare preliminarmente alcune caratteristiche dei dati che potrebbero precludere il successivo utilizzo di alcune tecniche statistiche comunicare ad altre persone brevemente, con logica ed ordine, le principali caratteristiche dei dati raccolti Attenzione: riassumere vuol quasi sempre dire perdere parte dell’informazione Cos’è una variabile? o una qualsiasi caratteristica misurata o registrata in un’unità campionaria. Generalmente le variabili sono indicate con lettere maiuscole e i valori che possono assumere con lettere minuscole, spesso indicizzati per indicare il valore assunto dalla variabile in una specifica osservazioni I valori che assume possono essere numerici oppure di semplice appartenenza ad una certa categoria o Variabili quantitative continue Peso, altezza, concentrazione, … o Variabili quantitative discrete Numero uova, numero parassiti, numero piastre batteriche,… o Variabili qualitative con valori ordinabili (scala ordinale) “Abbondanza”, stato di salute, aggressività, … o Variabili qualitative con valori non ordinabili (scala nominale) = variabili categoriche Gruppo sanguigno, tipo di malattia, tipo mutazione, specie… Variabili risposta e variabili esplicative (dipendenti e indipendenti) Ipertensione arteriosa e rischio di ictus Piani edificio e lesione gatti Intensità di caccia e livelli di variabilità genetica 2 Nucleotide diversity (%) 1.5 1 0.5 0 12 14 16 18 20 Level of hunting 22 24 Dati, frequenze e distribuzioni 22 nidi di merlo al momento dell’involo e di avere contato in ciascuno di essi il numero di piccoli sopravvissuti o unità campionaria = nido o la femmina o variabile è quantitativa discreta. x1 = 0; x2 = 2; x3 = 2; x4 = 0; x5 = 1; x6 = 3; x7 = 3; x8 = 2; x9 = 2; x10 = 4; x11 = 1; x12 = 4; x13 = 2; x14 = 1; x15 = 2; x16 = 3; x17 = 3; x18 = 6; x19 = 4; x20 = 2; x21 = 3; x22 = 3, dove xi, indica il valore assunto dalla variabile X nella i-esima osservazione, con l'indice i che varia da 1 a n (n = 22 = dimensione del campione). classe di frequenza e tabella di frequenza: xi 0 1 2 3 4 6 ni 2 3 7 6 3 1 In questo caso xi indica il valore assunto dalla variabile X nella i-esima classe, con l'indice i che varia da 1 a c, ni è il numero di volte che nel campione ricorre l'osservazione xi e c è il numero di classi (5 nel nostro caso) Chiaramente la somma di tutti gli ni deve dare n, ovvero i=c c ∑ n = ∑n = ∑n = ∑n i i =1 i i=1 i i =n i distribuzione di frequenza: ossia alla distribuzione dei dati nelle diverse classi o distribuzione di probabilità o distribuzione di probabilità teorica diagramma a segmenti (o a barre) o o o o capisco quali sono i valori che ricorrono più frequentemente distribuzione unimodale, bimodale, multimodale? Simmetrica o asimmetrica? Asimmetrica a destra o a sinistra? capisco e l'intervallo di variazione della variabile analizzata Si noti come nella tabella di frequenza è stata inserita anche una categoria, la 5, in cui non si rilevano osservazioni. Questo permette di costruire un diagramma a segmenti che rappresenti correttamente la distribuzione di frequenza dei dati. Esempio di una distribuzione bimodale. Distribuzioni contagiose o numero di animali che hanno contratto una certa parassitosi in 100 nidi di vespa o numero di piante in 100 quadrati di 1 metro x 1 metro frequenze assolute (ni, dette anche numerosità) frequenze relative (fi, o, a volte, pi,), ovviamente varia tra 0 e 1 frequenza percentuale ni n fi (%) = fi × 100 fi = pi = Il termine generico frequenza è spesso utilizzato per indicare cose diverse Istogramma: quando la variabile analizzata assume molti valori diversi nel campione è una migliore rappresentazione della distribuzione di frequenza. Nell’istogramma i dati vengono raggruppati in classi che includono tutti i valori in certo intervallo. Definizione classi o Regolette: radice di n; (1 + ln(n)/ln(2)) o Evitare la presenza di molte classi circa vuote o Limiti di classe (>= e <) o Buon senso Distribuzioni di frequenza per le variabili di tipo qualitativo? Diagramma a segmenti (o a barre) Diagramma a torta Rappresentazione grafica della relazione tra due variabili numeriche Due variabili di tipo quantitativo misurate in ciascuna unità campionaria, o comunque di tipo ordinabile, la rappresentazione grafica delle singole osservazioni in un sistema di assi cartesiani diventa molto importante per evidenziare eventuali tendenze o associazioni. Scatterplot, o nube di punti (due esempi) E’ facile intuire che esiste una associazione tra le due variabili: le femmine di dimensioni maggiori depongono generalmente uova più grandi (a destra), e i maschi più brillanti generano figli più attraenti per le femmine. Associazione positiva, negativa e nulla Inserisco una terza variabile In 30 località europee viene rilevato il livello di precipitazioni annue (mm di pioggia) e il ph medio delle piogge. Con il semplice utilizzo di simboli diversi (quadratini per le le località del Sud-Europa, asterischi per quelle del Nord-Europa), è possibile visualizzare in una nube di punti tre variabili (precipitazioni, ph e posizione geografica). Diagramma a linee . Tre esempi sulla differenza tra associazione e causazione Le variabili di confondimento creano problemi Gli studi sperimentali possono risolvere il problema Rappresentazione tridimensionale di temperatura, umidità, e numero di specie misurate in 13 stazioni di campionamento. Analisi di due (o più) variabili categoriche Tabella di contingenza (in questo caso, per 2 variabili categoriche) Diagramma a barre raggruppate Considerazioni generali sulla visualizzazione grafica - Chiarezza - Completezza - Onestà Indici sintetici di una distribuzione Sintesi attraverso le distribuzioni di frequenza Ulteriori sintesi attraverso le o misure di tendenza centrale (o di posizione) cercano di identificare il valore "tipico" di una distribuzione, ovvero la posizione, nella scala della variabile analizzata, intorno alla quale si concentrano le osservazioni o misure di dispersione sintetizzano il grado di variabilità dei dati Le misure di tendenza centrale e di dispersione dovrebbero quindi rispettivamente, la posizione e l’ampiezza di una distribuzione di frequenza. rispecchiare, Conoscere la dispersione dei dati equivale a conoscere qualcosa sul valore di ogni singolo valore per la comprensione di un fenomeno. Se la dispersione è molto elevata, le singole osservazioni possono essere anche molto diverse, e quindi singolarmente di scarso valore. Si può dire quindi che all’aumentare della dispersione il numero di osservazioni necessarie per trarre delle conclusioni generali a partire da un campione deve aumentare. Quando la variabilità è molto bassa può anche non essere necessario effettuare molte osservazioni, e forse nemmeno ricorrere alla statistica inferenziale. Misure di tendenza centrale La media Media aritmetica. In genere quando si parla di media si intende la media aritmetica Media campionaria, della variabile X, la media campionaria viene indicata con x . n ∑x i 1 x= n Media della popolazione µ= ∑x i N La somma delle differenze dei singolo valori dalla media (detti scarti dalla media) è uguale a 0 e quindi la media si può considerare il baricentro del campione dove si bilanciano gli scarti. ∑ (x i − x ) = ∑ xi − ∑ x = nx − nx = 0 Media a partire da una tabella di frequenza : c ∑xn i i x= oppure 1 n c x = ∑ xi fi 1 Esempio Aplotipo xi ni A B C D E F 51 54 55 57 62 63 5 11 15 29 22 4 c ∑xn i i x= 1 n = 51 × 5 + 54 × 11 + 55 × 15 + 57 × 29 + 62 × 22 + 63 × 4 5738 = = 57,44 86 86 E se la variabile continua? Proprietà della media • la media implica la somma di valori numerici e quindi ⇒ ha un significato solo per le variabili quantitative; ⇒ risente molto dei valori estremi; se un singolo valore nel campione è per esempio molto più grande di tutti gli altri, la media non identifica un valore tipico del campione ⇒ non è calcolabile se alcune osservazioni sono “fuori scala” • nel caso di distribuzioni multimodali, la media raramente identifica un valore tipico Esempio: Supponiamo di sacrificare 12 trote campionate in natura per contare in ciascuna di esse il numero di parassiti intestinali di una certa specie. Dati: 3, 2, 3, 4, 6, 2, 44, 8, 5, 3, 4, 2. La media di questi valori risulta essere 7,16, ma come è facile rendersi conto, questo valore non identifica certamente un valore tipico del campione. Questio a causa di un valore estremo, detto outlier. Esempio: Nove cavie sono sottoposte ad un test cognitivo all’interno di un labirinto, e per ogni animale si misura il tempo impiegato a percorrere un certo tracciato. I risultati ottenuti, in minuti, sono i seguenti: Dati: 23 ,25, 29, 22, 15, >120, 32, 20,>120 In questo caso due valori sono “fuori scala”, e la media calcolata escludendo questi valori mancanti non rappresenterebbe correttamente l’esperimento. La mediana La mediana è il valore centrale in una serie di dati ordinati. Per esempio Dati: 30, 49, 74, 40, 63, 295, 60 Dati ordinati: 30, 40, 49, 60, 63, 74, 295 La mediana è quindi il valore che divide un campione di dati ordinati in due parti ugualmente numerose. In altre parole, metà dei valori nel campione sono più piccoli della mediana, e metà sono più grandi. E’ evidente quindi che la mediana è una misura della tendenza centrale. Se il numero di osservazioni n è dispari, la mediana è il valore che occupa la posizione (n+1)/2 nella serie ordinata dei dati (il quarto valore nell’esempio appena visto). Se n è pari, la mediana è la media tra i 2 valori centrali, ossia la media dei valori nelle posizioni n/2 e n/2 +1. Nel caso di dati raccolti in una tabella di frequenza, è in genere sufficiente identificare la classe che contiene la mediana (la classe mediana). Proprietà della mediana Il calcolo della mediana non implica l’elaborazione dei dati numerici osservati o L’informazione sul peso relativo dei singoli valori viene perduta. E’ spesso un buon indicatore della tendenza centrale di un set di dati è calcolabile anche se la variabile è qualitativa (ma deve essere ordinabile!) non risente dei valori estremi è calcolabile anche se alcune osservazioni sono “fuori scala” Esempi precedenti - la mediana del numero di parassiti nelle 12 trote è pari a 3,5 parassiti - la mediana del tempo impiegato dalla cavie nel labirinto è 25 minuti In entrambi i casi la mediana e facilmente calcolabile e indica bene (meglio della media) dove si concentrano le osservazioni. La mediana, però, soffre dello stesso inconveniente della media, ovvero può portare ad un valore assolutamente non rappresentativo quando la distribuzione non è unimodale. La moda La moda è semplicemente il valore osservato più spesso nel campione. Dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1,2 vengono riassunti nella tabella di frequenza xi ni 0 1 2 3 4 5 1 2 5 3 2 1 La moda è quindi pari a 2. Classe modale è quella che contiene il maggior numero di osservazioni. La stretta interpretazione della moda dovrebbe anche avere come conseguenza il fatto che praticamente tutte le distribuzioni osservate sono unimodali Proprietà della moda La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di frequenza attraverso il suo “picco” più elevato. Anche se, come la mediana, non considera il peso delle singole osservazioni, ha alcune proprietà importanti: • è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative non ordinabili • indica sempre un valore realmente osservato nel campione • non è influenzata dai valori estremi • nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per descrivere la tendenza centrale di un campione • è collegata direttamente al concetto di probabilità (che vedremo meglio nei prossimi capitoli): la moda di una popolazione è il valore della variabile con la la maggior probabilità di essere osservata Questa distribuzione presenta una forte asimmetria a destra. La mediana ha valore 3 e la media 5.24, mentre la moda è uguale a 2. Misure di dispersione Basate sulle differenze tra le singole osservazioni e la media (scarti dalla media) o Varianza o Deviazione standard o Coefficiente di variazione o Tutti i valori concorrono al calcolo di queste tre misure di dispersione (inclusi gli outliers) o L’utilizzo di questi indici non è adatto allo studio della dispersione di variabili qualitative, Non basate sull’elaborazione numerica dei dati o Range o Distanza interquartile. La varianza La somma degli scarti della media è uguale a 0 o media degli scarti = 0 Se però ogni singolo scarto dalla media viene elevato al quadrato… o La media degli scarti al quadrato, chiamata anche scarto quadratico medio, è la varianza. Varianza campionaria: s 2 (x ∑ = 2 − x) n −1 i , La somma degli scarti quadratici al numeratore, chiamata devianza, può essere calcolata anche con le formule semplificate: x) ( ∑ − 2 Dev(X ) = ∑ x 2 i i n Infatti: 2 ( x − x ) = ∑ (xi2 + x 2 − 2xx i ) = ∑ x i2 + n ∑ i ( ∑ xi n2 2 ) −2 ∑x Così il calcolo (manuale) è più preciso. Perché? Attenzione però che concettualmente… i n ∑ x i = ∑ xi2 − ( ∑ xi n 2 ) Cosa c’è di strano nel calcolo di s2 ? o Dal punto di vista della statistica descrittiva potrei usare n al denominatore o Anche se fossero disponibili i dati riferiti a tutte le N unità campionarie della popolazione, allora σ2 = ∑ (x 2 − µ) N i Ma: o La varianza campionaria s2, calcolata utilizzando n al denominatore è una stima distorta (una sottostima in questo caso) della varianza della popolazione σ2 La media di un campione è imprecisa (non è uguale a µ) I valori tendono ad essere più vicini alla media campionaria di quanto non siano a µ Più il campione è piccolo, meno riesce a cogliere tutta la variabilità dei dati nella popolazione Tale distorsione (bias) si può correggere utilizzando il fattore n-1 a denominatore. Nel caso di dati raggruppati in c classi di frequenza c s2 = 2 ∑ ni (xi − x ) 1 n −1 , Se poi i dati sono raccolti in classi corrispondenti ad un intervallo tra due valori, una stima di s2 si può ottenere utilizzando la stessa espressione sostituendo xi con i valori centrali degli intervalli. La deviazione standard L'unita di misura della varianza e l'unita di misura della deviazione standard La deviazione standard, s, indicata anche con l’abbreviativo D.S. o DS, è data da: s = DS = s 2 Coefficiente di variazione E’ una sorta di deviazione standard rielaborata per evitare i cosiddetti “effetti di scala”. Esempio: Deviazione standard nella lunghezza del corpo dei maschi di Gambusia holbrooki (un piccolo pesce d’acqua dolce) é uguale a 3.2 mm Deviazione standard nella lunghezza dei maschi territoriali di Zosterisessor ophiocephalus (il gò, un ghiozzo di laguna) sia pari 10.6 mm. I maschi di Gambusia sono meno variabili dei maschi di gò, ossia i maschi di Gambusia si assomigliano tra loro (per la lunghezza) più di quanto facciano quelli di gò? Forse la maggiore dispersione indicata dalla deviazione standard è solo un effetto della diversa dimensione media di queste due specie o Per esempio, la differenza nella lunghezza del femore tra due persone è senza dubbio di molte volte maggiore della differenza nella lunghezza della zampa di due maggiolini. Quando cioè si vuole confrontare la dispersione tra variabili con medie molto diverse, si ricorre al CV s CV = × 100 x Il coefficiente di variazione è dimensionale o Esempio: Siamo interessati a sapere se nel ghiro è più variabile la lunghezza della coda oppure la durata del letargo (variabili con unità di misura diverse) Nell’esempio dei pesci, assumendo una lunghezza media di 29 mm per i maschi di gambusia e di 181 mm per i maschi di gò: CV(Gambusia) = 11% CV(gò) = 6 %, Un risultato di questo tipo suggerisce una conclusione molto diversa da quella basata sulla deviazione standard: la variabilità nelle dimensioni corporee è quasi doppia nei maschi di Gambusia rispetto a quelli di gò. Il range Range = valore massimo – valore minimo Descrizione molto rozza della dispersione dei dati o si basa solamente sui due valori estremi (ed è quindi altamente influenzata da questi) e non considera assolutamente la quale sia le distribuzione di frequenza dei dati tra essi. La distanza interquartile Cosa sono i quartili? o Imparentati con la mediana, solo che invece di separare l’insieme dei dati ordinati in due gruppi lo separano il quattro o Ogni gruppo contiene il 25% delle osservazioni: il primo quartile, Q1, è il valore che separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana, e il terzo quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal restante 25%. La distanza interquartile è data dalla differenza Q3-Q1, e identifica quindi l’intervallo centrale della distribuzione di frequenza all’interno del quale cade il 50% delle osservazioni. E’ una misura della dispersione dei dati che non risente di eventuali valori estremi molto diversi dalla gran parte degli altri, e può essere calcolata anche quando i valori estremi sono “fuori scala”. L’identificazione dei quartili non è banale quando il numero di osservazioni non è elevato o Cerco la mediana delle due metà dei dati Risultati per dati prima autoamputazione: Mediana: 2.90; primo quartile: 2.34; terzo quartile: 3.045; distanza interquartile: 0.705 Diagramma Box-and-Whiskers (scatola e baffi) o Mediana, primo e terzo quartile, range (+ a volte valori estremi, cioè valori a una distanza dalla scatola superiore a 1.5 volte la distanza interquartile) ESEMPI Fare la tabella di frequenza, l’istogramma, e discutere la forma dell’istogramma Classi con ampiezze diverse. E’ corretto? Distribuzione di frequenza e distribuzione di densità o Classi di ampiezza diversa La corretta e fedele rappresentazione della distribuzione dei dati è ottenuta quando l’altezza di ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all’interno della classe corrispondente. E’ invece l’area dei rettangoli a contenere l’informazione relativa alla frequenza. Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di vista pratico. Qual’è la tabella più appropriata per rappresentare i dati? Che varaibile è rappresentata nei due istogrammi? Che variabile distingue i due istogrammi? Che grafico è rappresentato? Cosa suggeriscono i grafici? Che tipo di grafico? Che tipo di associazione? Numero di ondulazioni per secondo in serpenti che planano Calcolare media, varianza, deviazione standard, CV, mediana, distanza interquartile Relazione con distribuzione di frequenza se la distribuzione è normale Che tipo di diagrammi? Che tipo di variabile nei due istogrammi? C’e’ una variabile esplicativa e una risposta? Quali sono? In cosa differeriscono i due diagrammi? Conclusioni Calcolare il numero medio di ore dopo la morte fino al rigor mortis. Calcolare la deviazione standard. Calcolare la mediana. Perché minore della media? La variabile standardizzata Utilizzando la terminologia generica di prima, la variabile standardizzata X’ si calcola quindi X − Media(X ) X' = DS(X ) Visto l’ampio uso in statistica di questa procedura, la variabile standardizzata si è meritata un nome nuovo, Z. X − Media(X ) Z= DS(X ) Questa standardizzazione riduce ogni variabile ad una nuova variabile Z che ha l’importante proprietà di avere sempre media uguale a 0 e varianza uguale a 1 X c=14200 X’ = X - c c=10000 X’ = X/c Z = (XMedia)/DS 15250 15900 14330 14250 15750 14770 14200 15050 14700 15100 15120 15700 14800 1050 1700 130 50 1550 570 0 850 500 900 920 1500 600 1,525 1,590 1,433 1,425 1,575 1,477 1,420 1,505 1,470 1,510 1,512 1,570 1,480 0,456 1,613 -1,182 -1,324 1,346 -0,399 -1,413 0,100 -0,523 0,189 0,225 1,257 -0,345 Media 14993,846 793,846 1,49938462 Varianza 315475,641 315475,641 0,00315476 Dev. St. 561.672 561.672 0.056 0 1 1 BASI DI PROBABILITÀ La teoria della probabilità è molto complessa, ma il concetto di probabilità è molto intuitivo Abbiamo una scatola (urna) con 3 palline rosse e 7 palline nere. Qual è la probabilità P di estrarre una pallina rossa? P = 0.3 (30%) Ma cosa significa esattamente che la probabilità è uguale a 0.3? Se ripetessi questa estrazione un numero elevatissimo di volte…. La probabilità, quindi, è la rappresentazione teorica della frequenza, o il valore a cui tende la frequenza quando il numero di ripetizioni dell'evento è molto grande Questa definizione implica anche che una tabella di frequenza tende ad una tabella di probabilità se il campione è molto grande (le due cose coincidono se ho campionato tutta la popolazione). Se per esempio analizzo un campione molto grande di donne e trovo che il 41.3 % di loro ha avuto un solo figlio, posso dire che se chiedo ad una donna scelta a caso quanti figli ha, la probabilità di avere come risposta 1 è pari a 0.413. Come le frequenze relative, la probabilità non può mai essere inferiore a 0 o superiore a 1, e la somma delle probabilità associate a tutti i risultati (eventi) diversi possibili disgiunti (ovvero che non si possono verificare insieme) è per forza di cose pari a 1. DISTRIBUZIONI DI FREQUENZA E DISTRIBUZIONI DI PROBABILITA’ Distribuzione di frequenza: ricostruita a partire dai dati campionati Distribuzione di probabilità: ricostruita a partire dai dati di tutta la popolazione Distribuzione teorica di probabilità: è definita da una funzione matematica di cui conosco le caratteristiche e che mi permette di calcolare una probabilità associata a ciascun valore o intervallo di valori DISTRIBUZIONI TEORICHE DISCRETE DI PROBABILITA’ Per variabili di tipo discreto La funzione specifica la probabilità che il valore assume uno specifico valore 1. f (x ) = P ( X = x ) 2. f (x ) ≥ 0 3. ∑ f (x ) = 1 x per tutti i valori che può assumere x Per esempio: distribuzione uniforme discreta 1 f (x ) = n Lancio di una moneta equilibrata Lancio di un dado equilibrato Frequenza attesa di cattura in 4 tipi trappole ugualmente efficienti 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 Distribuzione teorica di probabilità dei valori possibili che si possono ottenere nel lancio di un dado equilibrato: è discreta e uniforme 0.25 0.2 0.15 0.1 0.05 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 Distribuzione teorica di probabilità discreta ma non uniforme DISTRIBUZIONI TEORICHE CONTINUE DI PROBABILITA’ Per variabili di tipo continuo Sono distribuzioni di densità, perché l'altezza della curva non è una probabilità, ma una densità di probabilità (una probabilità divisa per un intervallo) Non conta l’altezza della curva, ma l’integrale tra due valori 1. P ( x1 ≤ X ≤ x 2 ) = 2. f (x ) ≥ 0 x2 ∫ f (x )dx x1 per tutti i valori che può assumere x +∞ 3. ∫ f (x )dx = 1 −∞ Vediamo una delle distribuzioni continue più utilizzate: la distribuzione normale LA DISTRIBUZIONE NORMALE O GAUSSIANA Molto importante nella teoria degli errori Molto importante in biologia: approssima distribuzione di frequenza di molte variabili Molto importante in statistica: teorema del limite centrale 1 f ( x; µ , σ ) = e σ 2π − ( x − µ )2 2σ 2 − ∞ < x < +∞ Caratteristiche della distribuzione normale Definita interamente da due parametri, media (µ) e varianza (σ2) La media ne definisce la posizione, la varianza la forma (a) Changing (b) Increasing shifts the curve along the axis increases the spread and flattens the curve 1 1 = 2= =6 6 2= 140 160 1 = 160 180 2 =174 200 140 160 180 1 = 2 =170 12 200 Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono) Figure 6.2.2 50% 50% M ean L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità) Esiste tra –infinito e + infinito (c) Probabilities and numbers of standard deviations Shaded area = 0.683 − + 68% chance of falling between − and + Shaded area = 0.954 −2 +2 95% chance of falling between − 2 and +2 Media +- 1 deviazione standard = 68.3 % Media +- 2 deviazioni standard = 95.4 % Media +- 3 deviazioni standard = 99.7 % Media +- 1.96 deviazioni standard = 95 % Shaded area = 0.997 −3 +3 99.7% chance of falling between − 3 and +3 VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE Molte variabili biologiche si distribuiscono in modo normale (come gli errori in fisica, per esempio) Sono dovute alla combinazione di un numero molto alto di fattori Cosa dice il teorema del limite centrale (TLC)? Lancio 1000 volte un dado. La distribuzione della variabile punteggio nel lancio di un singolo dado, che varia tra 1 e 6, è uniforme. Il dado è il singolo fattore, ed esiste una singola variabile. Ora lancio 1000 volte due dadi insieme, e ogni lancio della coppia di dadi faccio la somma dei punteggi. Ora la nuova variabile è il punteggio totale nel lancio di due dadi, che varia tra 2 e 12, e può essere vista come costituita dalla combinazione (somma) di due fattori (i due dadi) ciascuno dei quali ha una distribuzione uniforme. Ma la nuova variabile non ha una distribuzione uniforme! Perché? Ora lancio 1000 volte 5 dadi, e ogni volta faccio la somma dei 5 punteggi. Ora la nuova variabile è il punteggio totale nel lancio di cinque dadi, e varia tra 5 e 30. Cosa ricorda? E se la distribuzione di partenza non è uniforme? 450 400 350 300 250 200 150 100 50 0 0 1 2 3 4 5 Distribuzione di probabilità di una variabile 350 300 250 200 150 100 50 0 0 1 2 3 4 5 6 7 8 9 10 Distribuzione di probabilità della variabile ottenuta sommando due valori (ciascuno con distribuzione come sopra) 180 160 140 120 100 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Distribuzione di probabilità della variabile ottenuta sommando sei valori (ciascuno con distribuzione come sopra) Pensiamo alla statura, o agli errori…sono combinazioni di tanti fattori LA DISTRIBUZIONE GAUSSIANA PER CALCOLARE LE PROBABILITA’ A PARTIRE DA UNA MEDIA E UNA VARIANZA IN UN CAMPIONE 30 persone obese affette da una malattia cardiovascolare vengono sottoposte a cura dimagrante. La variazione di peso in chilogrammi ha una media pari a –0,59 con varianza pari a 0.11 Vogliamo stimare, per esempio, la P (x > 0) ovvero, la frazione di persone (obese affette da una malattia cardiovascolare ) che seguendo questa dieta ingrassano. Assumiamo che il campione sia rappresentativo della popolazione e che la distribuzione della variabile sia gaussiana con media e varianza uguali a quelle stimate attraverso il campione Ricorro alla distribuzione normale standardizzata e alla tabella relativa -4 -3 -2 -1 0 1 2 3 4 Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono) L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità) Esiste tra –infinito e + infinito 0 +- 1 = 68.3 % 0 +- 2 = 95.4 % 0 +- 3 = 99.7 % 0 +- 1.96 = 95 % Distribuzione normale standardizzata (µ= 0 e σ = 1) -6 -4 -2 0 2 4 Zx=120 = (0+0.59)/0.33 = 1.79 P(X>0) = P(Z>1.79) -2.5 -2 -1.5 -1 -0.5 0 0.5 1 Distribuzione normale con µ= -0.59 e σ = 0.33 TABELLA (SOLO PER ALCUNI VALORI DI Z) DELLA DISTRIBUZIONE NORMALE STANDARDIZZATA P(Z>1.96) = 2.5% P(Z>1.79) = 3.7% ESEMPIO La NASA esclude dai corsi per diventare astronauti chiunque sia più alto di 193.0 cm o più basso di 148.6 cm. Negli uomini (popolazione USA), l’altezza media è 175.6 cm, con s = 7.1 cm. Nelle donne (popolazione USA), l’altezza media è 162.6 cm, con s = 6.4. Calcolare le frazioni di popolazione, separatamente per maschi e femmine, esclusi dai programmi NASA. Discutere i risultati. La statistica inferenziale Il processo inferenziale consente di generalizzare, con un certo grado di sicurezza, i risultati ottenuti osservando uno o più campioni E’ necessario però anche aggiungere con quale grado di sicurezza, o di probabilità, riteniamo che la nostra stima o generalizzazione sia corretta Stima dei parametri √ Si cerca di stimare un parametro di una popolazione (ogni caratteristica misurata in una colazione) attraverso una statistica √ Il parametro può corrispondere alla dimensione di un effetto (per esempio, allungamento durata della vita in individui trattati) √ Bisogna però definire l’incertezza della stima. Per questo si usa l’ intervallo di confidenza, o intervallo sfiduciale. Test delle ipotesi √ Definite diverse ipotesi si cerca di identificare qual è l’ipotesi più adatta a spiegare i dati osservati √ In generale, si definisce un’ipotesi nulla e un’ipotesi alternativa. √ I dati sono sempre confrontati con quelli previsti dall’ipotesi nulla. √ Se sono troppo diversi da quelli previsti dall’ipotesi nulla, si favorisce l’ipotesi alternativa. Altrimenti, si conclude che i dati sono compatibili con l’ipotesi nulla. La teoria del campionamento è necessaria per capire la statistica inferenziale Vediamola in forma semplificata con un esempio Popolazione dei lupi scandinavi: 10.512 animali Il peso medio di questa popolazione, µ, è ignoto, ma supponiamo abbia una distribuzione normale Un ricercatore vuole comunque giungere ad una stima di questo parametro avendo anche un’idea anche di quanto buona sia questa stima, e decide quindi di catturare e pesare 6 lupi. La media del peso nel campione risulta pari a x = 20.32 kg. 1 campione di 6 individui 14 16 18 20 22 24 26 Chiaramente la media del campione non sarà pari alla media della popolazione E’ possibile dare qualche indicazione sulla distanza tra la media del campione (che possiamo calcolare) e quella della popolazione (alla quale siamo maggiormente interessati ma che non possiamo calcolare)? Facciamo finta per un momento che sia possibile ripetere il campionamento più volte, per esempio 12 volte 12 campioni di 6 individui ciascuno Sample number 1 2 3 4 5 6 7 8 9 10 11 12 14 16 18 20 22 24 26 A questo punto avrei quindi a disposizione 12 medie, che contengono le informazioni sulla distribuzione di frequenza della media campionaria in campioni di 6 individui Abbiamo cioè una nuova variabile, la media campionaria appunto, in campioni di 6 lupi Se invece di 12 campioni ne avessi un numero molto alto, potrei pensare di costruire la distribuzione di frequenza di questa nuova variabile. Frequenza 14 16 18 20 22 24 26 Media del campione [Al sito http://www.ruf.rice.edu/~lane/stat_sim/sampling_dist/index.html è possibile effettuare esperimenti simulati di campionamento a partire da variabili con distribuzioni diverse] Questa distribuzione è fondamentale in statistica inferenziale Mi permette di capire molte cose che riguardano sia i problemi di stima che di verifica delle ipotesi Nel nostro caso dei lupi, ragionare su questa distribuzione mi permette di dire qualcosa di più sulla correttezza e la precisione della stima del peso medio dei lupi in una popolazione a partire da un campione di 6 animali. Frequenza 14 16 18 20 22 24 26 Media del campione La distribuzione delle medie campionarie è normale se la variabile ha una distribuzione normale Per il TLC, la distribuzione delle medie campionarie è normale anche se la variabile non è normale, a patto che n sia abbastanza grande o (la media è una combinazione di fattori…) La distribuzione delle medie campionarie è centrata sulla media nella popolazione o La media campionaria è quindi una stima corretta (non vuol dire necessariamente precisa!) L’ampiezza della distribuzione delle medie campionarie ci dice qualcosa sulla precisione della stima in un singolo campione o Se la distribuzione fosse molto stretta, potrei dire per esempio che la media osservata in un singolo campione sarebbe probabilmente abbastanza vicina alla media della popolazione o Se la distribuzione delle medie fosse larga, un singolo campione potrebbe anche essere molto impreciso Vediamo come questa varianza della media campionaria (non della variabile!) varia al variare della dimensione degli ipotetici campioni. 12 campioni di 24 individui ciascuno Sample number 1 2 3 4 5 6 7 8 9 10 11 12 14 16 18 20 22 24 26 12 campioni di 24 individui ciascuno Sample number 12 campioni di 6 individui ciascuno Sample number 1 1 2 3 4 2 3 4 5 6 7 5 6 7 8 9 8 9 10 11 10 11 12 12 14 16 18 20 22 24 26 14 16 18 20 22 24 26 Frequenza Frequenza (a) n = 6 (b) n = 24 Frequenza (c) n = 100 16 18 20 22 24 26 Media del campione Posso verificare direttamente per simulazione al sito citato in precedenza che la distribuzione della media campionaria 1) ha minore ampiezza al crescere di n, 2) è centrata sulla media della variabile nella popolazione, 3) è normale anche se la variabile non è normale ma n è grande Al crescere di n, la distribuzione della media campionaria tende ad una normale (come la somma del punteggio di più dadi) (b) Quadratic U n=1 n=2 3 2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 3 3 2 2 1 1 0 0.0 0.2 0.4 0.6 0.8 1.0 0 0.0 0.2 3 3 2 2 1 1 0.2 0.4 0.6 0.8 1.0 n = 10 n=4 0 0.0 0.4 0.6 From Chance Encounters by C.J. Wild and G.A.F. Seber, © John Wiley & Sons, 2000. 0.8 1.0 0 0.0 0.2 0.4 0.6 0.8 1.0 Cosa ci insegna la teoria statistica sulla distribuzione della media campionaria? σX = σ n La deviazione standard della media campionaria è pari alla deviazione standard della variabile divisa per la radice della dimensione campionaria. Misura la precisione della stima. La formula è logica: se la variabile nella popolazione è molto “dispersa” (alta σ) o il campione è piccolo (basso n), la precisione della stima della media è bassa. Al contrario, se la variabile nella popolazione ha sempre valori molto vicini alla media, o il campione è molto grande, la media sarà stimata bene. La deviazione standard della media campionaria prende il nome di Errore Standard (ES) Se quindi la distribuzione della media campionaria è normale, centrata su µ e con deviazione standard paria a σ x = σ n , allora La variabile standardizzata z z= x−µ σx segue la distribuzione normale standardizzata Quindi, per esempio, nel 95% dei campioni con una certa dimensione n, la distanza standardizzata tra media campionaria e media della popolazione sarà compresa tra -1.96 e +1.96 x −µ P−1.96 ≤ ≤ 1.96 = 0.95 (in linguaggio matematico) σx che generalizzando diventa x −µ P−zα / 2 ≤ ≤ zα / 2 = 1− α σx Riarrangiando (per α = 0.05) otteniamo qualcosa di molto più utile per il singolo campione: σ σ P x − 1.96 ≤ µ ≤ x + 1.96 = 0.95 = 95% n n Questo significa che nel 95% dei campioni con una certa dimensione n, l’intervallo che calcolo 1.96 aggiungendo e togliendo a ogni media popolazione, µ. σ n conterrà il valore vero della media nella Questo è l’intervallo di confidenza al 95% nel caso la deviazione standard σ sia nota: IC95% = x ± 1.96σ x = x ± 1.96 σ n Generalizzando σ σ P x − zα / 2 ≤ µ ≤ x + z = 1 − α α /2 n n IC1−α = x ± z α / 2 σ x = x ± zα / 2 σ n dove: 1. (1-α) prende il nome di grado di confidenza 2. α è chiamato livello di significatività (in altre parole, la probabilità che l’intervallo di confidenza calcolato non contenga il valore vero della media nella popolazione) 3. zα/2 è il valore di z nella distribuzione normale standardizzata che determina, alla sua destra, un'area corrispondente ad α/2. Attenzione che l’intervallo di confidenza non è l’intervallo in cui cadono i valori della variabile, o la media del campione, ma gli intervalli che con una certa probabilità conterranno la media della popolazione! (Informalmente, anche se non correttamente, si dice anche che la media della popolazione cadrà con una probabilità 1 - α all’interno dell’intervallo di confidenza calcolato. Ma definito un intervallo, la media della popolazione o è interna o è esterna a questo intervallo, non ha senso parlare di probabilità della media vera di cadere o no nell’intervallo calcolato) ESERCIZIO Abbiamo calcolato la media delle altezze in un campione di 10 individui, e la media è risultata pari a 168,2 centimetri. Assumendo che la varianza σ2 dell’altezza nella popolazione sia nota, e sia pari a 110 cm2, determinare gli intervalli di confidenza al 90, al 95 e al 99%. Soluzione 1. Determino i valori di zα/2 per α= 0.1, 0.05, e 0.01 - Per α= 0.1, α/2= 0.05, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari circa a 1.645 - Per α= 0.05, α/2= 0.025, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari a circa a 1.96 - Per α= 0.01, α/2= 0.005, e il valore di z (da tabella) che separa il 5% a destra dell’area è pari circa a 2.575 2. Calcolo l’errore standard (cioè la deviazione standard della media campionaria) σ 110 σx = = = 11 = 3.32 n 10 3. Determino gli intervalli di confidenza - Per α= 0.1, IC = 168.2±5.46 - Per α= 0.05, IC = 168.2±6.51 - Per α= 0.01, IC = 168.2±8.55 COME CALCOLARE L’INTERVALLO DI CONFIDENZA QUANDO E’ NECESSARIO STIMARE LA DEVIAZIONE STANDARD? (è quasi sempre così!) Per fortuna le cose non cambiano poi di molto visto che la nuova variabile x −µ sx con sx = s NON segue una distribuzione normale standardizzata MA, se la variabile n analizzata ha una distribuzione normale, segue una nuova distribuzione teorica di probabilità chiamata distribuzione t di Student con n-1 gradi di libertà Quindi ( ) P x − tα / 2 ,n −1 ⋅ s / n ≤ µ ≤ x + tα / 2,n −1 ⋅ s / n = 1 − α e l’intervallo di confidenza della media diventa semplicemente da IC(1-α) => x ± tα / 2 ,n −1 ⋅ s / n tα/2, n-1 è quindi il valore critico della distribuzioni di t con n-1 gradi di libertà, che identifica, alla sua destra, un’ area pari a α/2. E se la variabile non ha una distribuzione gaussiana? La distribuzione t Caratteristiche principali Varia tra – infinito e +infinito Ha un parametro, i gradi di libertà (la normale standardizzata non ha parametri) o Per campioni di dimensioni diverse esistono quindi distribuzioni t diverse Media, moda, e mediana sono uguali Ha media pari a 0 e varianza maggiore di 1. o Se k è grande, la varianza tende a 1 Rispetto alla normale standardizzata, ha code più pesanti o Maggiore concentrazioni di valori agli estremi, a causa della maggiore varianza rispetto alla normale standardizzata, dovuta all’errore nella stima di σ Diventa una distribuzione normale standardizzata quando i gradi di libertà (e quindi la numerosità del campione) tendono a infinito. Distribuzione t ad una coda. df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005 1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192 2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991 3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240 4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103 5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370 12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178 13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208 inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 Distribuzione t a due code. Degrees of Freedom- 2 tails 0.01 0.02 0.05 0.10 0.20 1 63.66 31.82 12.71 6.314 3.078 2 9.925 6.965 4.303 2.920 1.886 3 5.841 4.541 3.182 2.353 1.638 10 3.169 2.764 2.228 1.812 1.372 15 2.947 2.602 2.132 1.753 1.341 25 2.787 2.485 2.060 1.708 1.316 ∞ 2.575 2.326 1.960 1.645 1.282 I gradi di libertà (GDL o gdl o df) Hanno chiaramente a che fare con la numerosità dell’informazione che a partire dai dati viene utilizzata in una analisi statistica. o Maggiore è il numero delle osservazioni, maggiori saranno i gradi di libertà. Corrispondono al numero pezzettini di informazione indipendenti che vengono utilizzati per una stima o un test. I gdl sono anche pari al numero totale di osservazioni (o punteggi) utilizzati in un test o in una stima meno il numero di parametri che sono stati stimati Nel calcolo dell’intervallo di confidenza, se è necessario stimare la deviazione standard si usa una distribuzione t con n-1 gradi di libertà Due conclusioni importanti La statistica inferenziale implica la conoscenza della distribuzione di probabilità della statistica utilizzata (la media campionaria standardizzata, nel nostro caso). Tale conoscenza non ci può ovviamente venire dai dati ma deve essere derivata, teoricamente o in altri modi, utilizzando spesso alcune assunzioni. I ragionamenti generali visti per l’intervallo di confidenza di una media sono applicabili anche agli intervalli di confidenza per altri parametri. E’ però importante conoscere la distribuzione di frequenza della statistica che stiamo utilizzando per stimare il parametro. ESEMPIO APPLICATIVO ESERCIZIO La tabella riporta media e deviazione standard di 4 distribuzioni normali (prime 2 colonne). Calcolare la probabilità che campioni di 10 o 30 individui estratti da popolazioni con queste 4 distribuzioni abbiano una media campionaria maggiore del valore indicato nella terza colonna (X*). Media 14 15 -23 72 Deviazione st. 5 3 4 50 X* 15 15.5 -22 45 P ( x > X *) P ( x > X *) (n=10) (n=30) 0.2643 0.1379 Intervalli di confidenza di una proporzione Variabile di tipo qualitativo (fumatori/non fumatori; giovani/adulti; maschi/femmine; mutazioneA/mutazioneB/mutazioneC/assenza di mutazione) o Calcoliamo la frequenza di individui che possiedono una certa caratteristica Per esempio, su un campione di 45 individui affetti da una certa patologia, 10 sono fumatori. La proporzione dei fumatori in questo campione, p, è quindi 10/45 = 0.22. Come si calcola l’intervallo di confidenza di questa proporzione? o Intervallo che con una certa probabilità contiene il valore di questa proporzione, π, nella popolazione La distribuzione teorica di probabilità della statistica p, è la distribuzione binomiale o La vedremo presto Se però nπ e n(1-π) sono entrambi maggiori o uguali a 5, una buona approssimazione della distribuzione binomiale è la ben nota distribuzione normale. In questo caso, la gaussiana che approssima la funzione di probabilità di p che ci interessa avrà la media paria a π e la varianza pari a π(1-π)/n. L’errore standard di p, sarà quindi σp = π (1 − π ) n Quindi posso utilizzare lo stesso tipo di ragionamenti visti per l’intervallo di confidenza di una media quando la varianza era nota e arrivare a π (1 − π ) π (1 − π ) =1−α P p − zα / 2 ⋅ ≤ π ≤ p + zα / 2 ⋅ n n Da cui IC(1-α) => p ± zα / 2 ⋅ π (1 − π ) n Anche in questo caso, però, abbiamo un termine, che qui è π, che non è noto Una buona approssimazione si ottiene semplicemente rimpiazzando π con p IC(1-α) => p ± zα / 2 ⋅ p (1 − p ) n A parole: esiste una probabilità pari a 1-α che l’intervallo di confidenza così calcolato contenga la proporzione vera (cioè, la proporzione nella popolazione) Questo metodo è valido solo se n è grande e se π non è troppo vicino a 0 o a 1 Esercizio La frequenza dell’intolleranza al lattosio, in campione di 80 soggetti, è risultata pari al 35%. Calcolare l’intervallo di confidenza al 99% di questa proporzione. n = 80 p = 0.35 α = 0.01 α/2 = 0.005 zα/2 = 2.576 (da tabella) IC(1-α) => p ± zα / 2 ⋅ IC(99%) => 0.35 ± 2.576 ⋅ IC(99%) => 0.21 – 0.49 p (1 − p ) n 0.35(1 − 0.35) = 0.35 ± 0.14 80 Pianificare la precisione: qualche esempio semplice di disegno sperimentale L’intervallo di confidenza si riduce all’aumentare della dimensione del campione Per esempio, se posso applicare z IC(1-α) => x ± zα / 2 ⋅ σ / n Definiamo adesso con il termine generico di Errore: E = Errore = | x –µ | Linf x Lsup µ Se per esempio Linf e Lsup definiscono l’intervallo di confidenza al 95% o L’errore, con una confidenza del 95%, sarà sempre inferiore a 1.96 ⋅ σ / n La stessa cosa vale ovviamente con diversi valori di α e corrispondenti valori di z Quindi o Emax,(1-α) = zα / 2 ⋅ σ / n Che mi permette di calcolare zα / 2 ⋅ σ n= E max, (1−α ) 2 Questa è ovviamente una dimensione minima o Con valori di n maggiori saremo ancora più certi di non commettere un errore superiore al valore di Emax,(1-α) che ci è prefissati. E se invece siamo in un caso in cui è necessario utilizzare la distribuzione t? IC(1-α)=> x ± tα / 2,n −1 ⋅ s / n E quindi tα / 2 ,n −1 ⋅ s n= E max,(1−α ) 2 Qui però non conosciamo né la deviazione standard, e nemmeno il valore critico di t, prima di fare l’esperimento E’ necessaria una stima preventiva di s e trovare n per prova ed errore. Esempio s stimato in precedenti studi o analisi = 4. Quale sarà la dimensione del campione che garantisce un errore non superiore a 1 con una confidenza del 95%, Scegliamo un n iniziale pari a 10: Con n= 10 t0.025,9 = 2.262 e n ricalcolato = (2.262*4/1)2 = 82 (approssimato per eccesso) A questo punto utilizzo il valore di n ricalcolato per ripetere l’operazione t0.025,81 = 1.990 e n ricalcolato = (1.990*4/1)2 = 64 (approssimato per eccesso) t0.025,63 =1.998 e n ricalcolato = (1.998*4/1)2 = 64 (approssimato per eccesso) E nel caso di un IC di una proporzione? IC95% => p ± zα / 2 ⋅ π (1 − π ) n E quindi π (1 − π E max,(1−α ) = zα / 2 n ) ossia 2 z n = α / 2 π (1 − π ) E max,(1−α ) Ma π non è noto, e nemmeno una sua stima, prima di fare l’esperimento! Conviene impostare π = 0.5, ossia la valore di π che rende n massimo. La logica statistica della verifica (test) delle ipotesi Come posso confrontare diverse ipotesi? Nella statistica inferenziale classica vengono sempre confrontate due ipotesi: l’ipotesi nulla e l’ipotesi alternativa In realtà, questo confronto non è diretto. Quello che si confronta realmente sono i dati con l’ipotesi nulla In altre parole: 1. Si cerca di prevedere come potrebbero essere i dati se fosse vera l’ipotesi nulla 2. Se i dati osservati sono molto distanti da quelli si potrebbero ottenere se fosse vera l’ipotesi nulla, allora l’ipotesi nulla VIENE RIFIUTATA (e di conseguenza, si accetta l’ipotesi alternativa) 3. Se invece i dati osservati non sono troppo distanti da quelli si potrebbero ottenere se fosse vera l’ipotesi nulla, allora l’ipotesi nulla NON VIENE RIFIUTATA (ovvero, si dice che i dati osservati sono compatibili con l’ipotesi nulla) L’ipotesi nulla non viene mai accettata! Ipotesi nulla e ipotesi alternativa Ipotesi nulla, o H0 o E’ un enunciato specifico che riguarda un parametro nella popolazione (o nelle popolazioni) o E’ l'ipotesi che tutto sommato, se verificata, farebbe concludere allo sperimentatore di aver perso tempo o comunque renderebbe tutta la faccenda meno interessante o E’ l’ipotesi sulla base della quale si elabora la distribuzione nulla della statistica utilizzata per il test Ipotesi alternativa, o Ha o H1 o Rappresenta tutte le altre ipotesi riguardo al parametro non specificate dall’ipotesi nulla o E’ l’ipotesi che generalmente viene formulata prima di fare un test, l'idea cioè che ha avuto il ricercatore e che lo ha indotto a fare un esperimento o a raccogliere dei dati sul campo (e che quindi sarebbe interessante in genere poter verificare) Esempi di H0 La densità di delfini è la stessa nelle zone aree in cui la pesca viene effettuata con le e senza pesca con reti a deriva è uguale alla densità di delfini nelle aree in cui la pesca viene effettuata senza queste reti Gli effetti antidepressivi della sertralina non differiscono da quelli dell'amitriptilina Genitori con occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno figli con occhi marroni e figli con occhi azzurri in un rapporto 3:1 La temperatura corporea media degli esseri umani sani è 37 °C Esempi di H1 La densità di delfini differisce tra zone con e senza pesca con reti a deriva Gli effetti andidepressivi della sertralina differiscono da quelli dell'amitriptilina I genitori con gli occhi marroni, ciascuno dei quali ha avuto un genitore con occhi azzurri, hanno figli con occhi marroni e figli con occhi azzurri in un rapporto diverso da 3:1 La temperatura corporea media degli esseri umani sani non è 37 °C. Formalizzazione del test di ipotesi con un esempio molto semplice Vediamo con un esempio semplice: test sulla media per un campione con varianza nota o Supponiamo che la crescita media tra il terzo mese e il quarto mese di un bambino allattato con latte materno, in Italia, sia di 0.54 kg (µ = µ0= 0.54) o Supponiamo anche di sapere che la deviazione standard in questa variabile sia nota e pari a 0.12 kg (σ = 0.12) o Un campione di 35 bambini alimentati solo con latte artificiale viene analizzato per questa variabile, e si ottiene una media campionaria x = 0.47 o Si vuole determinare se l’accrescimento medio dei bambini allattati con latte artificiale è diverso da quello dei bambini allattati con latte materno. Si vuole verificare se la media µ nella popolazione dei bambini allattati con latte artificiale (della quale abbiamo un campione) è diversa dalla media µ0 della popolazione dei bambini allattati con latte materno (della quale conosciamo la media). La varianza si suppone nota. Formalmente, possiamo indicare le due ipotesi come Ipotesi nulla H0 : µ = µ0 (l’ipotesi nulla è molto specifica) Ipotesi alternativa H1 : µ ≠ µ0 (l’ipotesi alternativa è “tutto quello che non è l’ipotesi nulla”) Assumiamo inizialmente che sia vera l’ipotesi nulla per prevedere i risultati che dovremmo attenderci in un campione con n = 35 o il campione di 35 bambini proviene da una popolazione con media µ = µ0= 0.54, con una deviazione standard σ = 0.12, e quindi il fatto che x = 0.47 è un semplice effetto del campionamento casuale Come sarebbe distribuita la media campionaria standardizzata in tanti campioni con n = 35 se fosse vera l’ipotesi nulla? o (la media campionaria standardizzata, quando ho a disposizione σ, è lo scarto dalla media della popolazione diviso per σ x ) x − µ0 Ovvero, quale sarebbe la distribuzione di σx se fosse vera H0? Come una variabile z! α/2 of total area α/2 of total area -z α/2 0 Questa è la distribuzione nulla in questo test di ipotesi z α/2 α/2 of total area α/2 of total area -z α/2 0 z α/2 Scelto un certo valore di α (livello di significatività), nella distribuzione nulla si possono identificare due tipologie di valori di z: o valori di z compatibili con l’ipotesi nulla, perché sufficientemente vicini a quello che ci aspetta generalmente se fosse vera l’ipotesi nulla o valori di z così distanti da quello che ci aspetta se fosse vera l’ipotesi nulla da rendere tale ipotesi molto improbabile Per esempio: o α= 0.05 (in un certo senso, questo valore specifica cosa intendo per “compatibilità con l’ipotesi nulla”) o zα/2 =1.96 o valori di z compatibili con l’ipotesi nulla: valori compresi tra -1.96 e +1.96 o valori di z incompatibili con l’ipotesi nulla: valori maggiori di +1.96 o minori di -1.96 Ragionando sull’esempio della crescita di neonati: o Il 95% dei campioni con n=35 estratti da una popolazione con media pari a 0.54 kg e σ = x − 0.54 0.12 kg avranno una 0.12 / 35 non superiore a 1.96 e non inferiore a -1.96 o Se nel mio singolo campione questo valore è inferiore a -1.96 o superiore a 1.96, lo considero così improbabile se fosse vera l’ipotesi nulla, da portarmi al rifiuto di questa ipotesi o Se nel mio singolo campione questo valore è compreso tra -1.96 e 1.96, lo considero un valore non così improbabile se fosse vera l’ipotesi nulla, ovvero compatibile con l’ipotesi nulla. Quest’ultima non viene rifiutata. Questa è la logica inferenziale classica, basata sul rifiuto o il non-rifiuto dell’ipotesi nulla, dell’ipotesi cioè dalla quale partiamo e della quale siamo in grado di definire le caratteristiche in termini di probabilità. Quindi, in questo caso, il test dell’ipotesi si realizza calcolando la statistica test z zcalc = x − µ0 σx e confrontando il valore ottenuto con due regioni della distribuzione z o regione di accettazione: - zα/2 ÷ zα/2 o regione di rifiuto: per valori di z minori di - zα/2 e maggiori di zα/2 Il valore di α (livello di significatività) viene di solito fissato a 0.05, ma può anche essere pari a 0.01 o 0.001 se vogliamo essere più sicuri che il rischio di commettere un errore rifiutando un’ipotesi nulla vera (errore di primo tipo) sia inferiore QUINDI Se zcalc cade nella regione di rifiuto, ci sono evidenze forti che sia vera l’ipotesi alternativa, con una probabilità α di sbagliarsi (ovvero di compiere un errore di primo tipo) Se zcalc cade nella regione di accettazione, non possiamo respingere l’ipotesi nulla (che non viene accettata: i dati disponibili sono compatibili con l’ipotesi nulla, ma altri dati, per esempio più numerosi, potrebbero portare al rifiuto) Nel caso numerico dell’esempio, per α = 0.05 2.5% of total area 2.5% of total area -1.96 z calc = 0 1.96 0.47 − 0.54 = −3.5 0.02 Questo valore cade nella regione di rifiuto e quindi giungiamo alla conclusione che l’ipotesi alternativa è corretta, sapendo però che esiste un rischio pari al 5% che questa conclusione sia errata. ESEMPIO DEL CONSUMO DI HAMBURGER L’approccio del P-value (o p-value) nella verifica dell’ipotesi E’ un approccio alternativo a quello delle regioni di accettazione e rifiuto appena visto Importante perché fornisce un’informazione più precisa e anche perché è l’approccio utilizzato nelle analisi statistiche al calcolatore. Torniamo al nostro esempio di test sui bambini allattati con latte artificiale e materno x−µ z = calc σx E’ possibile determinare (da tabella o mediante computer) la probabilità di osservare valori uguali o più estremi di quello osservato (più estremi significa meno probabili). Questa probabilità prende il nome di P-value (o valore p) Ovviamente, minore è il P-value o maggiore è l’evidenza che il campione provenga da una popolazione con media diversa da quella ipotizzata dall’ipotesi nulla o maggiore è quindi l’evidenza in favore dell’ipotesi alternativa Con l’approccio del P-value, la logica procede come segue Se il P-value è minore di α, ho forti motivi per ritenere che la popolazione da cui proviene il campione di bambini allattati con latte in polvere abbia una crescita media diversa da µ0 (quella ipotizzata dall’ipotesi nulla) o Si conclude che è vera l’ipotesi alternativa H1 (ossia, il tipo di latte ha un effetto), perché la probabilità di avere una media così deviante o anche più deviante risulta molto bassa se fosse vera l’ipotesi nulla o Il P-value è anche pari alla probabilità di sbagliare giungendo a questa conclusione, ossia la probabilità di commettere un errore di primo tipo Se invece il P-value è maggiore di α, non ci sono forti evidenze che la popolazione da cui il campione proviene abbia una media diversa da µ0. o Si conclude che i dati sono compatibili con l’ipotesi nulla, sono cioè spiegabili con il solo effetto del campionamento. L’ipotesi che la crescita non è influenzata dal tipo di latte non può essere scartata, visto che una certa probabilità non troppo piccola, data dal Pvalue, risultati simili o più estremi di quelli osservati si possono ottenere per caso se è vera l’ipotesi nulla. L'approccio basato sui P-value non è altro che l'altra faccia dell'approccio basato sulle regioni di accettazione e rifiuto o fissato α, se un valore della statistica test cade nella regione di rifiuto, il suo P-value è sempre minore di α Utilizzando i dati nel nostro esempio, otteniamo come prima che z calc = 0.47 − 0.54 = −3.5 0.02 Cercando in tabella, o usando per esempio un applet in Internet, possiamo calcolare il P-value, P − value = P(− 3.5 ≤ z ≤ 3.5) = 0.0005 Alcuni punti molto importanti 1. Inferenza statistica e cautela verso le “novità” La verifica di ipotesi è forse lo strumento statistico più importante per il processo conoscitivo scientifico Considerando che H0 tendenzialmente definisce la situazione sperimentale "conservatrice" e H1 quella che porta ad una scoperta nella ricerca, si capisce come la logica dell’inferenza statistica abbia un carattere di cautela verso l'innovazione: consente di rifiutare l’ipotesi nulla solo se i dati sono veramente incompatibili con essa (α è in genere fissato al 5%) Possiamo pensare alla verifica di ipotesi come ad un processo o L'imputato è il parametro sotto test o L'assoluzione corrisponde a non rifiutare H0 o La sentenza di colpevolezza è in analogia all'ipotesi alternativa Il sistema legislativo consente di condannare solo nel caso di forti evidenze di colpevolezza, nel caso cioè in cui la probabilità che l'imputato (il parametro) sia innocente (assumo H0), sia molto bassa (minore di α). In questo caso ci garantiamo di non condannare quasi mai un innocente (che come abbiamo visto in statistica di chiama errore di primo tipo), errore ben più grave di assolvere un colpevole (che come vedremo si chiama errore di secondo tipo). 2. L’ipotesi nulla non viene mai accettata Un risultato non significativo indica solo che non si è in grado di rifiutare l’ipotesi nulla Potrei per esempio avere una media della popolazione campionata (quella dei bambini allattati con latte in polvere nell’esempio presentato) leggermente diversa dalla media di riferimento (quella dei bambini allattati con latte materno), ma i dati risultano ancora compatibili con l’ipotesi nulla. L’evidenza in favore dell’ipotesi alternativa non è sufficientemente forte per escludere l’ipotesi nulla. Niente esclude che in un successivo esperimento questa differenza diventi evidente. Volendo continuare con l'analogia del processo, questo corrisponde al fatto che l'imputato non viene mai assolto in modo definitivo, ma all'eventuale presenza di nuove prove di colpevolezza, il processo verrebbe riaperto (si eseguirebbe di nuovo il test con i nuovi dati raccolti). 3. Il livello di significatività non corrisponde alla dimensione dell’effetto Lo stesso effetto diventa più o meno significativo semplicemente in funzione del numero di dati disponibili: avere più dati, significa avere maggiori informazioni, per cui anche l'effetto più piccolo diventa significativo con un adeguato numero di osservazioni. Un risultato significativo non significa un risultato importante ci indica solo quanto poco probabile è che un certo effetto sia dovuto al caso Interpretare la "dimensione", e quindi l'importanza del risultato, è compito dello studioso. Per esempio, potrebbe risultare, sulla base di un campione di 10000 persone che fanno jogging regolarmente, che il loro rischio di infarto è statisticamente maggiore rispetto a chi non lo pratica (favorendo cioè l’ipotesi alternativa). Se però questo rischio aumenta, pur se in maniera statisticamente significativa, solo dello 0.01% , questo risultato potrebbe non avere una grande importanza sociale o comunque biologica. Test sulla media di un campione quando la varianza è ignota Le ipotesi nulla e alternativa sono ancora: H0 : µ = µ0 La media µ della popolazione dalla quale ho estratto il campione è uguale ad un certo valore prefissato, µ0. In altre parole, il campione proviene da una popolazione con media µ0. H1: µ ≠ µ0 La media µ è diversa dal valore prefissato µ0. La statistica test è il t di Student, calcolato come segue t calc = x − µ0 x − µ0 = sx s/ n Se la variabile in esame ha una distribuzione gaussiana, questa statistica test si distribuisce secondo la distribuzione t di Student con (n-1) gradi di libertà se è vera l’ipotesi nulla Posso seguire lo stesso approccio (regioni di accettazione/rifiuto o P-value) per testare l’ipotesi nulla, ovviamente usando la distribuzione t come distribuzione nulla: è un test t di Student Il test t è relativamente robusto a piccole deviazioni dall’assunzione di normalità o Ovvero, anche se la variabile ha una distribuzione che si discosta dalla gaussiana, il test t funziona ugualmente se tale scostamento è piccolo e/o il campione è molto numeroso Esempio Test sulla proporzione in un campione (utilizzando il test z) Un certo numero di individui n, viene assegnato a diverse categorie di una variabile qualitativa Si calcola la proporzione p di individui che possiedono una specifica caratteristica Si vuole determinare il valore π nella popolazione da cui il campione è stato prelevato differisce da un certo valore prefissato π0. Se nπ e n(1-π) sono maggiori o uguali a 5 o la variabile p ha una distribuzione binomiale Approssimabile con una distribuzione normale • La variabile p standardizzata ha una distribuzione approssimativamente normale standardizzata. Applico il test z H0 : π= π0 H1 : π ≠ π0 z calc = Verifico le ipotesi come di norma p − π0 σp = p −π0 π 0 (1 − π 0 ) n Esempio Un campione di 100 cardiopatici viene suddiviso in fumatori e non fumatori I fumatori risultano essere 21 (p = 0.21) La proporzione di fumatori nella popolazione generale è pari a 0.15 (π0) Confrontare l’ipotesi “tra i cardiopatici, i fumatori sono tanto numerosi quanto nella popolazione generale” (ipotesi nulla) con l’ipotesi “la numerosità di fumatori non differisce nella popolazione di cardiopatici rispetto alla popolazione generale” (ipotesi alternativa) z calc = p − π0 0.21 − 0.15 = = 1.68 π 0 (1 − π 0 ) 0.15(0.85) 100 n Il valore calcolato cade nella regione di accettazione o non esistono evidenze statisticamente significative, utilizzando un valore di α = 0.05, che la frazione di fumatori nei cardiopatici sia diversa dal valore riscontrato nella popolazione generale Il p-value è pari a 0.09. Il confronto tra DUE campioni indipendenti Il confronto tra DUE campioni indipendenti Confronto tra due medie In questi casi siamo interessati a confrontare il valore medio di due campioni in cui i le osservazioni in un campione sono indipendenti dalle osservazioni in un secondo campione (il caso di campioni non indipendenti, o appaiati, verrà discusso in seguito). Si suppone quindi di avere n1 e n2 osservazioni rilevate su due popolazioni con medie µ1 e µ2 ignote e varianze σ12 e σ22. H0 : µ1 = µ2 H1 : µ1 ≠ µ2 Le medie µ1 e µ2 sono uguali Le medie µ1 e µ2 sono diverse In questo caso dobbiamo introdurre una nuova variabile, la variabile “differenza tra due medie campionarie” ovvero x1 − x2 . Se è vera l’ipotesi nulla, la teoria statistica (ma anche la semplice intuizione) ci dice che la nuova variabile x1 − x2 , differenza di due variabili di cui conosciamo le proprietà, tende ad essere gaussiana con media pari a 0 e varianza pari a (σ12/n1 + σ22/n2 ), ovvero alla somma delle varianze delle singole variabili x1 e x2 . [Intuitivamente, se per esempio una variabile è uniforme tra 5 e 10, e un’altra è uniforme tra 1 e 4, la loro differenza oscillerà tra 1 (5-4) e 9 (10-1), e quindi la dispersione della variabile “differenza” sarà sicuramente maggiore rispetto alle singole variabili] La nuova variabile x1 − x2 , quindi, se è vera l’ipotesi nulla e dopo opportuna (e usuale) standardizzazione, ha media pari a zero, e segue una distribuzione normale standardizzata z o una distribuzione t a seconda che le varianze σ12 e σ22 siano note o siano stimate sulla base dei valori campionari (esattamente come accade per i test per un campione). Confronto tra 2 medie. Caso 1. Varianze σ12 e σ22 note: si applica il test z [NON è la situazione dell’esempio iniziale con i frinosomi!] La statistica test z calc = x1 − x 2 σ 21 n1 + σ 22 n2 ha distribuzione normale standardizzata. Seguendo la logica esposta nel paragrafo precedente, possiamo condurre la verifica di ipotesi seguendo l’approccio delle regioni di accettazione/rifiuto a partire dal valore critico zα/2.oppure calcolando il p-value di zcalc Esempio La carica batterica presente in tamponi boccali viene analizzata in due gruppi di pazienti (nessun paziente appartiene a entrambi i gruppi) Il primo gruppo è costituito da individui che stanno per entrare in ospedale per un ricovero, il secondo da individui che escono dall’ospedale dopo un ricovero di una settimana Si vuole determinare se il periodo trascorso in ospedale influenza la carica batterica Le varianze si suppongono uguali tra loro nelle due popolazioni e note da esperimenti precedenti. DATI: x1 = 5627.3; x2 = 6937.9; σ1= σ2 = 2500, n1 = 10; n2 = 12 z calc = 5627.3 − 6937.9 2 2500 2500 + 10 12 2 = 5627.3 − 6937.9 2500 1 1 + 10 12 = −1.224 Il valore critico (α=0.05) è pari a zα/2 = z0.025 = +1.96 e la regione di accettazione va da -1.96 a +1.96. Non ci sono quindi evidenze forti (ad α=0.05) per concludere che un periodo trascorso in ospedale influenzi la carica batterica boccale. Il p-value di zcalc è 0.221, e ovviamente la conclusione è la stessa anche seguendo l' approccio del p-value Confronto tra due medie. Caso 2. Varianze σ12 e σ22 ignote ma uguali: si applica il test t di Student [E’ la situazione dell’esempio iniziale con i frinosomi!] In questo caso si pone il problema della stima della varianza nei due campioni Si noti innanzitutto che questo test si può applicare solo se σ21 = σ22 =σ2 (le due varianze nelle popolazioni devono essere uguali) e se la variabile ha distribuzione normale in entrambe le popolazioni Queste due condizioni devono essere verificate e vedremo come farlo. Il test t è però relativamente robusto a deviazioni da queste assunzioni. Per il momento assumiamo che siano vere Le varianze campionarie calcolate nei due campioni saranno certamente diverse, anche assumendo le varianze delle popolazioni siano uguali A questo punto, avendo a disposizione due stime di un singolo parametro, conviene prima di tutto ottenere una stima unica A questo scopo viene calcolata una varianza comune, s2com, che corrisponde ad una media pesata per i diversi gradi di libertà delle due varianze campionarie s2com è anche definito come s2p, dove la p indica “pooled” Si preferisce una media pesata perché, giustamente, una varianza calcolata in campione di dimensioni maggiore è probabilmente più precisa, e quindi deve pesare di più nella media tra le due. Maggiore il numero di osservazioni, maggiore è l'informazione apportata da quel campione per la stima della varianza. s 2 com ( n1 − 1) s 21 + ( n2 − 1) s 2 2 = n1 + n2 − 2 Il valore tcalc a questo punto può essere calcolato secondo la formula t calc = x1 − x 2 2 2 s com s com + n1 n2 = x1 − x2 s com 1 1 . + n1 n2 Se quindi o 1) è vera l’ipotesi nulla o 2) le due variabili X1 e X2 hanno una distribuzione normale o 3) le due varianze σ21 e σ22 sono uguali tcalc segue una distribuzione t con (n1 + n2 –2) gradi di libertà, sulla quale posso facilmente calcolare il p-value o definire le regioni di accettazione e di rifiuto seguendo i metodi ormai ampiamente discussi Esempio In due siti archeologici che si riferiscono a due diverse tribù di Indiani d’America vengono rinvenute delle punte di freccia, 8 nel primo sito e 7 nel secondo. Si vuole determinare se le due tribù utilizzassero frecce di dimensioni diverse. Assumiamo che le condizioni per poter applicare questo test (varianze uguali nelle due popolazioni, distribuzioni gaussiane della variabile nelle due popolazioni) DATI (lunghezze frecce in cm) Tribù 1 : 4.5; 5.2; 4.3; 4.7; 4.0; 3.9; 5.8; 2.8 Tribù 2: 5.2; 5.7; 6.0; 6.7; 5.5; 5.4; 6.8 H0 : µ1 = µ2 H1 : µ1 ≠ µ2 A partire dai dati calcolo: 2 2 x1 = 4.4; x2 = 5.9; s 1 = 0.81 s 2 = 0.40. La varianza comune è stimata con 2 s com = (8 − 1) * 0.81 − (7 − 1) * 0.40 = 0.62 8+7−2 2 s com = scom = 0.79 . Quindi t calc = 4.4 − 5.9 = −3.66 1 1 0.79 + 8 7 Con (n1 + n2 –2) = 13 gradi di libertà, e α = 0.05, la regione di accettazione della distribuzione t inizia a –2.160 e termina a +2.160 Posso quindi concludere che la differenza delle frecce nei due siti è significativa al 5% Si noti che sarebbe stata significativa anche se avessi scelto un valore di α = 0.01 (tcrit = 2.560), indicando cioè che la conclusione che traggo è errata con una probabilità non solo inferiore al 5% ma anche inferiore all’ 1% Il p-value di tcalc è pari a 0.003. Svolgere il test per lo studio sui frinosomi Confronti tra due proporzioni In due campioni di dimensioni n1 e n2 viene contato il numero di osservazioni che sono attribuite ad una certa categoria, x1 e x2 La proporzione di osservazioni in ciascun campione che cade all’interno di questa categoria è dato da o p1=x1/n1 o p2=x2/n2 Si vogliono analizzare le ipotesi che i valori delle proporzioni nelle popolazioni dalle quali i due campioni sono estratti, π1 e π2, siano uguali o diversi. H0 : π1= π2 ( = π) H1 : π1 ≠ π2 Se è vera l’ipotesi nulla, e se è possibile utilizzare la distribuzione normale come approssimazione della binomiale per le due distribuzioni di p1 e p2 o allora la variabile “differenza tra le proporzioni”, standardizzata come al solito per la deviazione standard della variabile “differenza tra le proporzioni” (pari alla somma delle varianze delle due variabili che vengono considerate) segue una distribuzione normale standardizzata z. z calc = p1 − p2 π (1 − π ) π (1 − π ) n1 + p1 − p2 = n2 1 1 + n1 n2 π (1 − π ) π però non è noto, e viene stimato come frazione totale degli individui attribuiti alla categoria che sto analizzando p= z calc = x1 + x 2 n1 + n2 p1 − p2 1 1 p (1 − p ) + n1 n2 E’ quindi il solito test z per la verifica dell’ipotesi Esempio Si vuole determinare l’efficacia di un vaccino confrontando la frazione di individui che si ammalano in un gruppo di individui vaccinati con la frazione di individui che si ammalano in un gruppo di individui che non sono stati vaccinati Di 6815 individui vaccinati, 56 sono colpiti dalla malattia contro la quale si è sviluppato il vaccino. In un gruppo di 11668 individui non vaccinati, sono invece 272 quelli che si ammalano. p1=56/6815 = 0.0082; p2 = 272/11668 = 0.0233 Si applica l’approssimazione normale p= 56 + 272 = 0.0177 6815 + 11668 z calc = COSA CONCLUDO? 0.0082 − 0.0233 1 1 0.0177(1 − 0.0177) + 6815 11688 = −7.51 Dal disegno a due campioni indipendenti al confronto per dati appaiati Dal disegno a due campioni indipendenti al confronto per dati appaiati Finora abbiamo assunto che tutte le osservazioni siano indipendenti o Questa assunzione è indispensabile per poter applicare i test descritti. Vediamo un esempio di una situazione diversa Il ricercatore si chiede se il livello medio dell’ ematocrito cambia negli atleti dopo che hanno svolto una attività fisica intensa, per esempio dopo una competizione Test t per campioni indipendenti (come per i frinosomi)? o Confronto due campioni di n atleti ciascuno: un campione viene misurato solo prima della gara (quadratini gialli nella figura a sinistra), e una campione di altri atleti solo dopo la gara (quadratini rossi nella figura a sinistra) o Le osservazioni sarebbero in questo caso 2n, tutte indipendenti perché osservate in 2n atleti diversi Questo potrebbe non essere possibile, o potrebbe essere svantaggioso, perché: o Il numero di atleti disponibili all’esperimento è molto basso o La variabilità tra atleti è molto alta, e questa variabilità “oscurerebbe” la differenza (primadopo la gara) alla quale sono interessato Ricorriamo al confronto per dati appaiati Ogni individuo (unità campionaria) fornisce due osservazioni Ogni coppia di osservazioni (prima e dopo la gara, per ciascun individuo) ha un fattore in comune: l’individuo sulla quale è stata rilevata Se quindi ci sono 2n osservazioni, ma solo n atleti, non possiamo assumere che ci siano 2n osservazioni indipendenti come se fossero stati 2n atleti. Le due osservazioni sullo stesso soggetto non sono indipendenti, perché influenzate da fattori individuali comuni Per esempio, se un atleta ha normalmente un basso livello di ematocrito, lo avrà anche basso rispetto agli altri dopo la gara: conoscendo il primo valore posso prevedere in parte il secondo Non si può parlare di dati indipendenti e non si può applicare il test t di Student come visto nel precedente capitolo Altri esempi di dati non indipendenti Ci si chiede se la concentrazione di ozono media nel mondo varia tra un anno e quello successivo. Questa variabile viene misurata in n località in 2 anni diversi. Chiaramente non ci sono 2n dati indipendenti, visto che in ogni coppia di osservazioni (stessa località in due anni diversi) le caratteristiche della località agiscono probabilmente nella medesima direzione. Ci si chiede se l’età media dell’uomo e della donna sono diverse in coppie sposate. Anche se non si tratta degli stessi individui, è ovvio che ci sia una certa dipendenza all’interno di ciascuna coppia: tendenzialmente infatti sappiamo che in una coppia l’età dell’uomo e della donna tendono ad essere simili. La coppia è l’unità campionaria Ci si chiede se il taglio di una foresta influenza il numero di salamandre: definisco un certo numero di superfici di uguali dimensioni, e le suddivido in due parti. A una parte applico il trattamento (taglio della foresta) e all’altra no (il disegno all’inizio assume anche una analogia spaziale…) Come si svolge il test per dati appaiati? o Si calcola per ognuna delle coppie di osservazioni appaiate la differenza, e ci si concentra su questa nuova variabile Località Milano Tokio Berlino Roma Parigi Ferrara Bologna Londra Stoccolma Mosca Palermo New York Concentrazione. Concentrazione 1. Anno 2. Anno 400 345 20 8 24 29 95 81 228 204 116 140 65 36 112 75 35 47 45 5 81 65 197 187 Calcoliamo per ogni località la differenza tra primo e secondo anno Località Milano Tokio Berlino Roma Parigi Ferrara Bologna Londra Stoccolma Mosca Palermo New York Concentrazione Concentrazione Differenza tra i 2 anni 1. Anno 2. Anno 400 345 55 20 8 12 24 29 -5 95 81 14 228 204 24 116 140 -24 65 36 29 112 75 37 35 47 -12 45 5 40 81 65 16 197 187 10 A questo punto, da 2n osservazioni non indipendenti si è passati a n osservazioni indipendenti, ciascuna delle quali influenzata solo dalla variabile, l’anno, alla quale sono interessato Chiamando d la variabile “differenza tra coppie di osservazioni”, d la media nel campione, e δ il corrispondente parametro, le ipotesi che si volevano testare H0 : µ1 = µ2 H1 : µ1 ≠ µ2 diventano H0 : δ = δ0 =0 H1 : δ ≠ δ0 [Infatti se µ1 = µ2 allora µ1 - µ2 = δ= 0] Per testare queste ipotesi, adesso, sono disponibili gli strumenti usuali o le n differenze sono appunto indipendenti o si tratta di testare se la media della popolazione da cui è stato estratto un campione è uguale o diverso da una media data o E quindi applichiamo il test t di Student per un campione, che in questo caso chiamiamo Test t per dati appaiati. t calc d −δ0 d = = sd sd / n sd : deviazione standard delle differenze n il numero di differenze (ossia il numero di coppie di osservazioni) Nell’esempio numerico appena visto o la media delle differenze = 16.33 o la varianza delle differenze = 513.7 t calc == 16.33 = 2.5 22.66 / 12 Quindi, visto che il t critico con α = 0.05 e 11 gdl è 2.20, ed è uguale a 3,11 con α = 0.01, posso escludere l'ipotesi nulla con una probabilità di sbagliare tra l'1% e il 5% (p-value = 0.029) . Molto probabilmente la concentrazione media è cambiata da un anno all'altro. Un test t per campioni indipendenti, a parità di numero di misurazioni, ha un numero maggiore (doppio) di gradi di libertà Ma un test t per campioni indipendenti è altamente influenzato dalla variabilità tra osservazioni: se è molto alta, può mascherare la variabilità alla quale sono interessato Quindi, se se l’eterogeneità tra le osservazioni è molto grande può convenire accoppiare le osservazioni. In questo modo o si considerano solo le differenze tra le coppie di osservazioni (che ci interessano, visto che quantificano l’effetto che stiamo analizzando) o si cerca di ridurre il peso delle differenze tra diverse osservazioni all’interno dei due campioni (che introducono una variabilità dovuta a tanti fattori ai quali non siamo interessati). Esempio: scelgo di appaiare prima i dati, e poi svolgo il test per dati appaiati Si vuole verificare l’efficacia di un fertilizzante sulla quantità di raccolto di mais Si potrebbero identificare 20 terreni di uguali dimensioni, 10 dei quali da trattare con il fertilizzante e 10 invece da lasciare non trattati (di controllo) o Si potrebbe quindi applicare un test t per campioni indipendenti, con 18 gradi di libertà Ma la differenza tra i raccolti nei diversi terreni, indipendentemente dal trattamento, potrebbe essere molto ampia o i suoli sono diversi o l’esposizione è diversa o l’impianto di irrigazione non è uguale in tutti i terreni Potremmo non essere in grado di far emergere la differenza tra terreni trattati e non trattati perché tale differenza viene mascherata dall’enorme variabilità dovuta a molti altri fattori Scelgo quindi di appaiare i dati Si scelgono 10 terreni di eguali dimensioni e si dividono in un due parti uguali Una metà di ciascun terreno viene trattata con il fertilizzante o Il fattore comune che non ci interessa (tipo di terreno, esposizione, etc) influisce nello stesso modo su ciascuna coppia di mezzi terreni o la differenza osservata in ciascun terreno tra le due metà (trattato e non trattato) è dovuta, se presente, solo al fattore che ci interessa (che sarebbe così più facilmente identificabile) Attenzione: coppie di osservazioni devono essere identificate in modo che siano dipendenti (cioè che abbiano veramente il fattore o i fattori che non ci interessano in comune, altrimenti il risultato di applicare il test per dati appaiati sarebbe solo quelli di ridurre i gradi di libertà (e quindi il potere del test). Test a due code e a una coda Cosa prevedeva l’ipotesi alternativa nei test visti finora? H1 : µ ≠ µ 0 OPPURE H1 : π ≠ π0 OPPURE H1 : µ1 ≠ µ 2 L’ipotesi alternativa includeva sia la possibilità che π>π0, sia quella che π<π0 (oppure µ > µ 0 e µ < µ 0, oppure µ1 > µ 2 e µ1 < µ 2) I test di questo tipo si chiamano a due code (o bilaterali, o non direzionali) √ La regione di rifiuto è distribuita ugualmente ai due estremi della distribuzione nulla √ I valori critici delle distribuzioni z o t vengono identificati con la dicitura zα/2 o tα/2 √ Per distribuzioni simmetriche, è sufficiente conoscere un solo valore critico [Infatti, P(Z> zα/2) = P (Z<- zα/2) e P(T> tα/2) = P (T<- tα/2)] √ Se si usa il p-value, bisogna determinare la probabilità di osservare una statistica test estrema come quella calcolata, o più estrema, in entrambe le direzioni In alcuni casi siamo però in grado di fare delle previsioni più specifiche su quale potrebbe essere la deviazione eventuale dall’ipotesi nulla Esempio. o Test sulla somiglianza padri-figlie. A 18 individui vengono presentati 18 set diversi di tre fotografie. Ogni set è costituito dalla foto di una ragazza, di suo padre, e di un altro uomo. Ad ogni individuo viene richiesto di identificare il padre. 13 individuano correttamente il padre, 5 indicano l’altro uomo. L’ipotesi nulla è π = π0 = 0.5, ovvero non esiste somiglianza e l’indicazione di un uomo rispetto ad un altro è casuale. L’ipotesi alternativa è che ci sia somiglianza, e quindi è che π > π0 (ovvero che l’identificazione sia corretta in più del 50% dei casi). L’ipotesi alternativa π < π0 non ha senso. L’ipotesi nulla (π = π0) resta invariata. Cosa cambia da un punto di vista pratico? o Cambiano le aree di accettazione e rifiuto o Ci si concentra solo sul lato della distribuzione nulla nel quale una deviazione viene ritenuta possibile o Un valore deviante nella direzione opposta viene automaticamente (e sempre) considerata come una deviazione casuale o Il valore critico della distribuzione di riferimento va ricercato solo dal lato in cui riteniamo possibile che si possa osservare una deviazione dall’ipotesi nulla. Quindi, nel caso del test sulla somiglianza padri-figlie, π è la proporzione di riconoscimenti corretti, e π0 = 0.5. La proporzione di riconoscimenti corretti nel campione, p, è pari a 13/18 = 0.72 H0 : π = π0 H1 : π > π0 zcalc = p −π0 0.72 − 0.5 = = 1.87 0.5(0.5) π 0 (1 − π 0 ) n 18 5 % of total area 0 1.64 In questo caso, quindi, il valore calcolato di z risulta significativo, favorendo così l’ipotesi alternativa. Il p-value corrispondente è pari a 0.031 (valore non precisissimo visto che il numero di osservazioni è basso; problemi di “continuità”) Applicare un test t o z ad una coda significa di fatto ridurre il valore assoluto dei valori critici. Gradi di libertà t critico per test a due code t critico per test a una coda 5 10 Infiniti 2.571 2.228 1.960 2.015 1.812 1.645 (Ovviamente, il valore critico per un test a una coda con α =0.05 è uguale al t critico per un test a due code con α =0.10) In un test ad una coda è quindi più facile respingere l’ipotesi nulla, l’ipotesi che prudentemente si assume in partenza e che può essere respinta solo se ci sono forti evidenze in suo sfavore. Il fatto che sia aumentata la possibilità di favorire l’ipotesi alternativa (l’unica conclusione forte di un test, quella che generalmente ci interessa di più) ci deriva intuitivamente dal fatto che all’analisi abbiamo aggiunto a priori (cioè prima di osservare i dati) delle conoscenze sulla deviazione prevista. I I test a una coda sono teoricamente più potenti dei test a due code L’utilizzo di un test con approccio unilaterale deve essere limitato solo a casi in cui sussistono motivazioni ragionevoli per prevedere una deviazione unidirezionale dall’ipotesi nulla. Nel dubbio, conviene sempre utilizzare l’approccio bidirezionale Non è mai possibile decidere se fare un test a una o due code dopo aver calcolato il valore della statistica (z o t). Questo equivarrebbe ad un imbroglio statistico. Il test (o i test) del Chi-quadrato (2) I dati: numerosità di osservazioni che cadono all’interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta eterozigote autofecondata DATI: 59 semi lisci e 14 semi rugosi o p = 59/73 = 0.808 Ci si chiede di verificare l’ipotesi nulla che la proporzione di semi lisci, 0, sia 0.75 Ci ricorda qualcosa? Sappiamo già affrontare questo problema con un semplice test z ! H0 : = 0 H1 : 0 z calc p 0 0.808 0.750 1.1488 0 1 0 0.750.25 73 n Però questa analisi si può affrontare anche con il test del chi-quadrato, calcolando sulle numerosità (non sulle proporzioni) la statistica 2 calc (Osservati Attesi ) 2 (O A) 2 Attesi A Osservati sono le numerosità osservate Attesi sono le numerosità attese se fosse vera l’ipotesi nulla La sommatoria è per tutte le categorie (2 in questo caso, semi lisci e semi rugosi) Come per il test z, questo test è valido se le numerosità attese nelle 2 categorie sono maggiori o uguali a 5 Nell’esempio o Valori attesi di semi lisci, su un totale di 73 semi, è pari a 0.75*73 = 54.75 o Valori attesi di semi rugosi, su un totale di 73 semi, è pari a 0.25*73 = 18.25 o I valori attesi possono avere numeri decimali: sono medie di tante repliche ipotetiche di un esperimento sotto H0 o Il totale dei valori attesi deve essere pari al numero totale di osservazioni! Per le verifica della significatività, ci servono i valori critici di una distribuzione teorica nuova, quella del 2 . Infatti si può dimostrare che se è vera l’ipotesi nulla (= 0), allora la distribuzione della statistica (2calc) segue una distribuzione teorica nota, quella del 2 appunto, con un numero di gradi di libertà pari al numero di categorie indipendenti gdl: numero di pezzettini di informazione indipendente oppure numero di pezzettini di informazione meno il numero di parametri stimati dai dati per calcolare gli attesi In questo caso, c'è soltanto 1 gdl, e lo posso dimostrare in due modi: o esiste solo una classe indipendente (la numerosità nell'altra la posso calcolare per differenza dal totale) o se alle due classi di partenza tolgo una singola quantità che proviene dai dati e che mi serve per calcolare i valori attesi (il totale di osservazioni) ottengo 1. La distribuzione del 2 Tante curve a seconda dei gradi di libertà Il valore medio è uguale a il numero di gradi di libertà Il 2 è sempre positivo (si calcola con un quadrato al numeratore) Varia tra 0 e +infinito Estratto da tabella del Chi-quadrato I valori interni alla tabella corrispondono ai valori critici riferiti alla coda di destra, ovvero ai valori alla cui destra cade la frazione della curva riportata nella prima riga. Per esempio, con 2 gradi di libertà, il 5% della distribuzione ha valori superiori a 5.991. Si tratta quindi di una tabella delle aree a una coda. df 1 2 3 4 5 10 20 21 22 23 24 25 30 40 50 0.995 0.000 0.010 0.072 0.207 0.412 2.156 7.434 8.034 8.643 9.260 9.886 10.520 13.787 20.707 27.991 0.99 0.000 0.020 0.115 0.297 0.554 2.558 8.260 8.897 9.542 10.196 10.856 11.524 14.953 22.164 29.707 0.975 0.001 0.051 0.216 0.484 0.831 3.247 9.591 10.283 10.982 11.689 12.401 13.120 16.791 24.433 32.357 0.95 0.004 0.103 0.352 0.711 1.145 3.940 10.851 11.591 12.338 13.091 13.848 14.611 18.493 26.509 34.764 0.90 0.016 0.211 0.584 1.064 1.610 4.865 12.443 13.240 14.041 14.848 15.659 16.473 20.599 29.051 37.689 0.10 2.706 4.605 6.251 7.779 9.236 15.987 28.412 29.615 30.813 32.007 33.196 34.382 40.256 51.805 63.167 0.05 3.841 5.991 7.815 9.488 11.070 18.307 31.410 32.671 33.924 35.172 36.415 37.652 43.773 55.758 67.505 0.025 5.024 7.378 9.348 11.143 12.833 20.483 34.170 35.479 36.781 38.076 39.364 40.646 46.979 59.342 71.420 0.01 6.635 9.210 11.345 13.277 15.086 23.209 37.566 38.932 40.289 41.638 42.980 44.314 50.892 63.691 76.154 0.005 7.879 10.597 12.838 14.860 16.750 25.188 39.997 41.401 42.796 44.181 45.559 46.928 53.672 66.766 79.490 Riprendiamo l’esempio dei semi lisci e rugosi 2 calc 2 2 59 54.75 14 18.25 A parità di gdl, valori grandi del entrambe le direzioni 54.75 18.25 1.3196 2 calc sono indice di allontanamento dall’ipotesi nulla, in Tutte e due le deviazioni dall’ipotesi nulla ( > 0 e < 0) determineranno una deviazione verso valori grandi 2 ,ossia verso la coda destra della distribuzione attesa quando è vera l'ipotesi nulla. Le ipotesi sono definite in maniera bidirezionale, ma se utilizziamo la statistica del 2 dobbiamo usarla ad una coda! Quindi il valore di Chi quadrato calcolato 2 calc 1.3196 non è significativo per α = 0.05, visto che è inferiore al valore critico di 3.841 La conclusione è ovviamente identica a quella ottenuta con il test z Ma quindi a cosa serve questo test se avevamo già z? La generalizzazione del test del Chi-quadrato come test “goodness of fit” Il test che abbiamo visto per i piselli di Mendel si può considerare il caso più semplice di una categoria di test definiti “test di bontà dell’adattamento di una distribuzione empirica ad una distribuzione teorica”, o più semplicemente “goodness of fit tests” Le proporzioni osservate si confrontano con quelle previste da un modello teorico Il modello teorico è da considerarsi l’ipotesi nulla Nel caso dei piselli lisci e rugosi, esistevano solo due categorie e solo una proporzione prevista (l’altra era determinata automaticamente). Questa situazione si può però estendere ad un numero maggiore di categorie. Per esempio, nella verifica della trasmissione di due geni indipendenti durante la trasmissione mendeliana in un incrocio di un doppio eterozigote Assunzione del test (generalizzazione quando ci sono più di 2 categorie) Non più del 20% delle classi deve avere una numerosità attesa <5 (e nessuna classe deve avere numerosità attesa <1) Se cio’ non si verifica, una soluzione è quella di raggruppare alcune classi Esempio La proporzione di semi che possiedono le caratteristiche CS, Cs, cS e cs dopo l'autofecondazione di piante eterozigoti a due geni è prevista, nel caso di geni indipendenti, nel rapporto 9:3:3:1. Verificare questa distribuzione teorica attesa su un campione di 1000 semi che hanno dato la seguente distribuzione osservata CS 720 Cs 23 cS 20 cs 237 Calcolo le numerosità ( = frequenze assolute) attese CS Cs cS cs 562,5 187,5 187,5 62,5 Calcolo il valore dei 4 elementi che devono essere sommati per ottenere il 44,1 144,3 La somma porta a 2 calc 825.3 149,6 487,2 2 calc Il calore critico della distribuzione teorica del chi-quadrato con 3 gradi di libertà è 7.81 (con = 0.05) Quindi, la deviazione è altamente significativa ed è possibile respingere l'ipotesi nulla di adeguamento alla distribuzione teorica prevista (le proporzioni osservate si discostano significativamente da quelle attese Probabilmente i due geni sono localizzati in posizioni vicine sullo stesso cromosoma Un esempio Verificare con il test appropriato se la distribuzione osservata si adatta a quella attesa. Altri esempi Dispersione di semi con legge quadratica inversa Efficacia trappole per la cattura di uccelli Verifica se i dati osservati in un campione seguono una distribuzione teorica normale Vediamo quest’ultimo esempio La distribuzione di frequenza del peso in chilogrammi di frutta prodotta da 81 piante è riportato nella seguente tabella: Intervalli ni 48.5-49.5 49.5-50.5 50.5-51.5 51.5-52.5 52.5-53.5 53.5-54.5 54.5-55.5 55.5-56.5 56.5-57.5 57.5-58.5 4 7 9 10 15 11 10 8 5 2 Vogliamo testare l'ipotesi nulla che questi dati siano estratti da una popolazione in cui la variabile "peso di frutta prodotta da un albero" ha una distribuzione gaussiana. Si deve cioè verificare se i dati osservati sono compatibili con un modello distributivo normale. L'ipotesi nulla è che lo siano, l'ipotesi alternativa è che non lo siano. Come sempre, se l'ipotesi nulla non verrà rifiutata, non potremmo dire con certezza che i dati provengono da una popolazione con distribuzione gaussiana della variabile, ma solo sono compatibili con questa ipotesi. Per testare questa ipotesi, dobbiamo utilizzare (dopo aver calcolato media e varianza dei dati osservati) la distribuzione normale per calcolare le numerosità attese in ciascuna classe. Poi il test del chi-quadrato verrà utilizzato per confrontare le numerosità osservate con quelle attese Le numerosità attese vengono calcolate sulla base della distribuzione teorica gaussiana che ha la stessa media e la stessa deviazione standard calcolati a partire dai dati osservati Per il calcolo delle numerosità attese, avrò ovviamente bisogno della normale standardizzata, e quindi dovrò standardizzare i limiti delle classi Attenzione alle classi estreme e alla determinazione dei gradi di libertà da utilizzare per definire la distribuzione nulla appropriata Nel caso riportato, possiamo calcolare che media = 52.25 varianza = 5.26 dev. St. = 2.29 A questo punto procedo con la standardizzazione dei limiti superori, il calcolo delle aree a sinistra di questi limiti, il calcolo delle aree relative a ciascun intervallo, e quindi al calcolo delle numerosità attese Limite superiore Limite superiore stadardizz. Area a sinistra del limite sup. Area corrispondente all'intervallo Numerosità attese 49.50 50.50 51.50 52.50 53.50 54.50 55.50 56.50 57.50 58.50 -1.63 -1.20 -0.76 -0.33 0.11 0.55 0.98 1.42 1.85 2.29 0.0516 0.1151 0.2236 0.3707 0.5438 0.7088 0.8365 0.9222 0.9678 1.0000 0.0516 0.0635 0.1086 0.1471 0.1731 0.1650 0.1276 0.0857 0.0456 0.0322 4.18 5.15 8.79 11.91 14.02 13.37 10.34 6.94 3.70 2.60 1.0000 81.00 Totali Ora calcolo la statistica test del chi-quadrato OSSERVATI 4 7 9 10 15 11 10 8 5 2 ATTESI 4.18 5.15 8.79 11.91 14.02 13.37 10.34 6.94 3.7 2.6 (O-A)^2/A 0.01 0.66 0.01 0.31 0.07 0.42 0.01 0.16 0.46 0.14 2 calc 2.24 2 critico , 7 gdl, 0.05 14.07 CONCLUSIONE: Non ci sono forti evidenze per rifiutare il modello teorico gaussiano. La distribuzione di frequenza empirica (dei dati osservati) è compatibile con una distribuzione teorica gaussiana Ulteriori applicazioni del test del Chi-quadrato (χ χ2) Finora abbiamo confrontato con il χ2 le numerosità osservate in diverse categorie in un campione con le numerosità previste da un certo modello (attese mediamente se fosse vero il modello) • Era un confronto tra una distribuzione di frequenza osservata e una attesa • Vedremo nelle prossime lezioni ulteriori esempi di questa applicazione di χ2 Possiamo ora usare lo stesso tipo di test per confrontare le numerosità osservate in due o più campioni diversi • Diventa un confronto tra due o più distribuzioni di frequenza 2 I test sono svolti in modo simile (ci saranno osservati e attesi, e una statistica test χ ), ma si parla in questo caso di “analisi di tabelle di contingenza per svolgere test di indipendenza” • la struttura del test si sviluppa attorno a tabelle in cui le celle contengono numerosità • è possibile vedere questo test anche come un test per analizzare se due variabili categoriche (=qualitative) sono associate o sono indipendenti Vediamo la situazione più semplice: due campioni nei quali misuro per ogni osservazione una variabile categorica che può assumere solo due valori (o stati) possibili. Cosa ci ricorda? Ci ricorda l’esempio dei due campioni (vaccinati/non vaccinati) all’interno dei quali si misurava la sola variabile sano/malato Ma vediamo un altro esempio di questo tipo L’ipotesi nulla è che la proporzione di persone che avevano subito un arresto cardiaco sia la stessa tra i bevitori moderati (dei quali ho un campione di 201 individui) e tra gli astemi (dei quali ho un campione di 209 individui) • Un confronto tra proporzioni di diverse classi (in questo caso due, arresto cardiaco e non arresto cardiaco)) in diverse popolazioni (in questo caso due, astemi e bevitori)) è un test per confrontare distribuzioni di frequenza! Questo test di ipotesi analisi potrebbe essere svolto con un test z per due campioni (provate a farlo!) Vediamo invece come svolgerlo applicando il test del chi-quadrato La prima cosa da fare è impostare la tabella di contingenza, in questo caso una tabella di contingenza 2X2 (ha infatti tutti i dati in 2 righe e 2 colonne, alle quali si aggiungono una riga e una colonna per i totali) Questa (sopra) è la tabella di contingenza con le numerosità osservate. A questo punto devo calcolarmi le numerosità attese se fosse vera l’ipotesi nulla • Ovvero, per ognuna delle 4 caselle di numerosità nella tabella di contingenza, trovare le corrispondenti numerosità attese Utilizzo la frazione totale di individui con arresto cardiaco, 21/410 = 0.0512 (la frazione già vista e utilizzata nel test z per due campioni per stimare la deviazione standard). Questo valore rappresenta la frazione totale di individui con arresto cardiaco, ovvero la frazione stimata assumendo vera l’ipotesi nulla che esclude differenze tra astemi e bevitori) Assumendo vera l’ipotesi nulla, quindi, posso applicare questa stessa proporzione ai due campioni per trovare le numerosità osservate. Per esempio, la numerosità attesa (assumendo vera l’ipotesi nulla) di individui astemi colpiti da arresto cardiaco è pari al 0.0512*209 (dove 209 è il totale di individui astemi campionato ) = 10.7. Nello stesso modo posso calcolare tutte le altre numerosità attese e ottenere la tabella corrispondente Da notare che i totali di riga e di colonna sono (e devono essere) uguali a quelli nella tabella delle numerosità osservate A questo punto posso applicare il test del χ con 4 categorie, per ciascuna delle quali ho le numerosità osservate e quelle attese assumendo vera l’ipotesi nulla Per ogni cella, calcolo il corrispondente elemento nella sommatoria del χ e poi faccio la somma dei quattro elementi Con quale valore critico devo confrontare il valore di χ calcolato? • Ovvero, qual è la distribuzione nulla di riferimento? 2 2 2 Ragioniamo sul numero di categorie indipendenti • Conoscendo i totali di riga e di colonna, quanti valori sono necessari per determinare tutti gli altri? 2 • Uno è sufficiente, quindi questo test ha 4 elementi nella sommatoria del χ ma solo un grado di libertà In conclusione, con α = 0.05, χ critico è pari a 3.84, e l’ipotesi nulla non può essere rifiutata (0.34<3.84). I dati sono compatibili con l’ipotesi nulla che l’arresto cardiaco non abbia una frequenza diversa tra astemi e bevitori moderati • Attenzione sempre al significato di questa conclusione! L’ipotesi nulla non viene mai accettata, e questo è comunque uno studio osservazionale 2 2 Importante: le assunzioni del test del χ sulle tabelle di contingenza ha le stesse assunzioni del 2 test del χ di bontà di adattamento Cosa rappresentano anche i valori attesi in una tabella di contingenza? Due eventi sono indipendenti se il verificarsi di uno dei due non influenza la probabilità che si verifichi l’altro Se due eventi sono indipendenti, la probabilità che si verifichino entrambi è data dal prodotto della probabilità che si verifichi il primo evento per la probabilità che si verifichi il secondo evento o E’ la regola del prodotto o Per esempio, qual è la probabilità di ottenere, lanciando due dadi, il risultato 3,3? I due eventi sono indipendenti, perché ottenere 3 con un dado non modifica la probabilità di ottenere 3 con il secondo dado. La probabilità di ottenere 3 nel primo lancio è pari a 1/6, e la probabilità di ottenere 3 nel secondo lancio è pari a 1/6 La probabilità dell’evento [3 nel primo lancio e 3 nel secondo lancio] nel lancio di due dadi è pari quindi per la regola del prodotto a 1/6 x 1/6 = 1/36 o Altro esempio. Fumo e ipertensione sono indipendenti. Questo significa che se la probabilità di essere un fumatore è pari al 17% (0.17) e quella di soffrire di ipertensione è pari al 22% (0.22), la probabilità che un individuo scelto a caso nella popolazione sia fumatore iperteso è pari a 0.17 x 0.22 = 0,0374. In altre parole, il 3.74 % della popolazione è costituita da fumatori ipertesi In simboli, la regola del prodotto (valida solo per eventi indipendenti!) è Se due eventi non sono indipendenti, non vale più la regola del prodotto, ma la regola del prodotto generalizzato: la probabilità che si verifichino l’evento A e l’evento B è data dalla probabilità che si verifichi l’evento A moltiplicata per la probabilità che si verifichi B condizionata al verificarsi di A In simboli, la regola del prodotto generalizzata (valida per eventi dipendenti o indipendenti) (è valida anche per eventi indipendenti perché in quel caso Pr[B|A] = Pr[B] Per esempio, se la probabilità di vivere in Italia (frazione di italiani sulla popolazione mondiale) è pari a 60 milioni / 6.8 miliardi = 0.009 (0.9%), e la probabilità (senza considerare il luogo di nascita) di avere un reddito mensile superiore a 200 Euro fosse pari a 0.1 (frazione ipotetica di popolazione mondiale con reddito mensile superiore a 200 Euro), la probabilità che un individuo campionato a caso sia italiano e abbia un reddito > 200 Euro non è pari a 0.009 x 0.1 = 0.0009 (0.09%). E questo proprio perché i due eventi non sono indipendenti. Conoscere il risultato del primo evento (pere esempio, vivere in Italia) influenza il risultato del secondo evento (avere un reddito >200 Euro) In questo esempio, la probabilità di verificarsi dei due eventi, sulla base della regola del prodotto generalizzata sarebbe pari a 0.009 (probabilità di vivere in Italia) x la probabilità di avere un reddito >200 Euro vivendo in Italia (probabilità condizionata al fatto di vivere in italia). Quest’ultima assumiamo che sia circa pari a 1, e quindi la probabilità cercata è 0.009 (0.9%). Ma cosa c’entra tutto ciò con le tabelle di contingenza? Lo studio di una tabella di contingenza (2 x 2 o con maggiori numeri di righe o di colonne) è in realtà lo studio per verificare l’indipendenza o l’associazione tra due variabili categoriche o Nell’esempio vaccinati/non vaccinati, l’ipotesi nulla poteva essere anche vista come: la variabile “salute” (con due valori possibili, vaccinato e non vaccinato) è indipendente della variabile “vaccinazione” (con due valori possibili, vaccinato e non vaccinato) o Nell’esempio astemi/bevitori, l’ipotesi nulla poteva essere anche vista come: la variabile “salute” (con due valori possibili, arresto cardiaco e no arresto cardiaco) è indipendente della variabile “alcool” (con due valori possibili, astemio e bevitore) Queste ipotesi nulle formulate in termini di indipendenza sono equivalenti all’ipotesi nulla di uguaglianza tra proporzioni (e quindi tra distribuzioni di frequenza) Formulare l’ipotesi nulla in termini di indipendenza tra variabili categoriche ci permette di trovare i valori attesi nella tabella di contingenza utilizzando la regola del prodotto Nell’esempio astemi/bevitori, qual è la probabilità di essere astemi e di aver subito un arresto cardiaco se le due variabili non sono associate (ovvero, sono indipendenti)? o La probabilità di essere astemi (riferita al campione) è data dal numero totale di astemi (209) diviso numero totale di individui analizzati (410) = 0.5097 o La stima della probabilità di aver subito un arresto cardiaco (riferita al campione) è data dal numero totale di individui con arresto cardiaco (21) diviso numero totale di individui analizzati (Tot = 410) = 0.0512 o Applico la regola del prodotto per trovare la probabilità (riferita al campione) di essere astemio e aver subito un arresto cardiaco se fosse vera l’ipotesi nulla: P[Astemio + Arr. Card.] = 0.5097*0.0512 = 0.026 A questo punto calcolo il numero atteso di astemi nel campione che hanno subito un arresto cardiaco in un campione di 410 individui se fosse vera l’ipotesi nulla di indipendenza: 0.026*410 = 10.7 Ovviamente è lo stesso risultato ottenuto con l’altro metodo, e posso applicare il metodo a tutte le celle della tabella delle numerosità osservate e ottenere nuovamente con cui procedere poi al test del chi-quadrato Ma vediamo come semplificare un po’ i calcoli Semplifichiamo un po’ i calcoli per l’ analisi delle tabelle di contingenza I valori attesi per una tabella di contingenza, ragionando sui calcoli visti applicando la regola del prodotto, si possono ottenere semplicemente con perché I gradi di libertà per una analisi su una tabella di contingenza si possono calcolare direttamente con la formuletta dove r e c sono il numero di righe e colonne della tabella di contingenza. Un altro esempio Tabella dei dati Verificare con il test appropriato se la probabilità di essere predati dipende o no dal livello di infestazione. I risultati del sondaggio intermedio 40 35 Numero studenti 30 25 20 15 10 5 0 Troppo difficile Ok Troppo facile Difficoltà percepita Dati: 30; 37; 2 (Attenzione, la scelta della dimensione dei caratteri nei grafici è importante!) 40 Numero studenti 35 30 25 20 15 10 5 0 Troppo difficile Ok Difficoltà percepita Dati: 30; 37; 2 Troppo facile 50 Numero studenti 45 40 35 30 25 20 15 10 5 0 Poca teoria, troppi esempi Ok Troppa teoria, pochi esempi Rapporto tra teoria ed esempi Dati: 5; 46; 18 Numero studenti 40 35 30 25 20 15 10 5 0 Sempre chiara E' diventata chiara Non lo era e non lo è ora Importanza della statistica in biologia Dati: 23; 38; 8 100% 90% 80% OK Troppo difficile 70% 60% 50% 40% 30% 20% 10% 0% Maschi Femmine Dati. Maschi: 4 Td, 11 OK; Femmine: 26 Td, 26 OK. La categoria “Troppo facile” è stata esclusa. Assumendo che questo sia un campione casuale di maschi e un campione casuale di femmine “estratti” dalla popolazione di studenti che dovranno sostenere l’esame, quale test potremmo fare per verificare se maschi e femmine (in questa popolazione) hanno diversa “attitudine” per la materia? Le variabili categoriche “sesso” e “ “attitudine alla biostatistica” sono associate? Esempi con il test del chi-quadrato: bontà di adattamento Attenzione, questa NON è una tabella di contingenza! Risultato: χ2 calcolato = 75.1. Questo valore è nettamente superiore al valore critico con 1 gdl. L’ipotesi nulla è rifiutata. Nel genoma umano. il numero di geni sul cromosoma X è significativamente minore di quello che ci aspetteremmo sulla base delle sue dimensioni. Se avessi applicato il test z per un campione: z calcolato = -8.66 (ovviamente la conclusione del test è la stessa) Esempi con il test del chi-quadrato: bontà di adattamento Posso applicare un test del χ2 con 90 categorie (da 10 a 99) e valori attesi in ognuna pari a 350/90 = 3.89? Quali sono le assunzioni necessarie per applicare un test del χ2 ? L’alternativa potrebbe essere quella di generare l’ipotesi nulla per simulazione, ovvero costruendo un grande numero di campioni di 350 unità campionarie assumendo risposte casuali, calcolando per ciascun campione simulato la statistica test del χ2, e quindi usare tutte le statistiche test calcolate in questi campioni simulati per ricostruire la distribuzione nulla di χ2 specifica in questa situazione dove la distribuzione teorica (quella usata nella tabella relativa) non è valida. Esempi con il test del chi-quadrato: tabelle di contingenza per studiare l’associazione tra variabili categoriche Cosa concludiamo? E se avessimo fatto un test z? Cosa fare quando le assunzioni richieste dal test del chi quadrato non vengono soddisfatte? Alcune soluzioni o Ricorrere ad un altro test che non necessiti della distribuzione teorica nulla del χ2 Abbiamo visto un esempio di χ2 come “goodness-of –fit test” dove la simulazione al calcolatore ci viene in aiuto o Raggruppare alcune categorie E necessario che le nuove categorie abbiano una logica e un significato o Eliminare alcune categorie (ovviamente, nel caso di tabelle di contingenza, si devono eliminare righe o colonne intere, non singole celle) Attenzione: il data set si riduce. Attenzione anche al fatto che l’interpretazione finale non si applicherà ai dati originali ma a quelli ottenuti dopo l’eliminazione Gli errori nella verifica delle ipotesi Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o le popolazioni, attraverso l’analisi di uno o più campioni E’ chiaro però che esiste comunque la possibilità di giungere a conclusioni errate, appunto perché i miei dati rappresentano solo una parte dell’evento che sto analizzando Formalizziamo brevemente il concetto, in parte già visto, di errore (di errori) nel processo di verifica delle ipotesi Premessa (riassunto di argomenti già trattati) PRIMA di effettuare un test statistico viene scelto un livello di significatività, α Questo livello di significatività determina i valori critici della statistica test (z, t, chi-quadro, ecc). I valori critici definiscono nella distribuzione teorica della statistica, distribuzione attesa nel caso sia vera l’ipotesi nulla (la distribuzione nulla, appunto), le regioni di accettazione e di rifiuto Il livello di significatività prescelto viene anche utilizzato come confronto se si segue l’approccio del p-value: il p-value calcolato viene confrontato con α Supponiamo ora di aver scelto α =0.05 (scelta tipica), e supponiamo di condurre un test bidirezionale (a due code) La regione di rifiuto nella distribuzione nulla include il 5% dei valori più estremi della statistica (2,5% dalla parte dei valori molto grandi, e 2,5% dalla parte dei valori molto piccoli) Questi sono valori estremi che comunque possiamo otterremmo, con una probabilità del 5%, anche se fosse vera l’ipotesi nulla • Se ripetessimo tante volte il test su campioni diversi, e l’ipotesi nulla fosse sempre vera, il 5% dei test porterebbe ad un valore della statistica test all’interno della zona di rifiuto (e ad un p-value inferiore a 0.05) • Quindi, nel 5% di questi test, rifiuteremmo l’ipotesi nulla vera Distribuzione nulla per la statistica test z. Se è vera l’ipotesi nulla, e ripetessi il test molte volte su campioni diversi, α x 100 delle volte quest’ipotesi vera verrebbe erroneamente rifiutata In pratica, se la statistica calcolata in un singolo test cade nella regione di rifiuto, o il p-value <α, la conclusione del test è quella di rifiutare l’ipotesi nulla. • Ma, per quello che abbiamo appena detto, l’ipotesi nulla potrebbe anche essere vera ma per puro effetto del caso (errore di campionamento) i dati portano ad una statistica test significativa (che cade cioè nella regione di rifiuto e che ha un p-value <α) L’errore che si compie rifiutando un’ipotesi nulla vera si chiama Errore di primo tipo o errore di prima specie, o errore do tipo I La probabilità di compiere un errore di primo tipo è data dal livello di significatività α prescelto E’ la frazione di volte che viene rifiutata un ipotesi nulla vera se ripetessi tante volte il test su campioni diversi (presi dalla stessa, o dalle stesse, popolazione/i) Scegliendo in anticipo α, definiamo il rischio che siamo disposti ad accettare di compiere un errore di primo tipo Alla fine del test, se le evidenze saranno a favore dell’ipotesi alternativa, non sapremo ovviamente se avremo commesso un errore di primo tipo oppure no. Potremo solo dire che la probabilità di averlo commesso, se fosse vera l’ipotesi nulla, sarebbe molto bassa (e pari ad α) La probabilità complementare (1- α) viene chiamata livello di protezione di un test, ed è appunto la probabilità di non rifiutare l’ipotesi nulla quando l’ipotesi nulla è vera. Un test con un altro livello di protezione è detto conservativo • Un test molto conservativo può essere visto come un test che vuole rischiare molto poco di fare un errore di primo tipo, che sappiamo essere un errore molto grave perché rifiutare l’ipotesi nulla è una decisione forte (come condannare un imputato) mentre non rifiutarla non significa in realtà accettarla (ma solo dire che i dati sono compatibili con essa) Da notare che nel calcolo degli intervalli di confidenza (utilizzati nella stima di un parametro, non nella verifica di ipotesi), il termine 1- α prende il nome di grado di confidenza Riassumendo, se l’ipotesi nulla è vera, può succedere che: Vediamo ora un altro tipo di errore che si può commettere nella verifica delle ipotesi Se l’ipotesi nulla è falsa, cioè per esempio la media nella popolazione 1 è diversa dalla media nella popolazione 2, giungerò sempre al suo rifiuto analizzando due campioni? • Ovviamente no, e anche intuitivamente è facile capirne un motivo: se le medie nelle due popolazioni sono diverse ma molto vicine, è possibile che i dati non siano sufficienti a escludere l’ipotesi nulla, visto che l’ipotesi nulla viene rifiutata solo in presenza di forti evidenze L’errore che si compie quando un’ipotesi alternativa è vera ma la conclusione del test è quella che non è possibile escludere l’ipotesi nulla, ovvero, l’errore che si compie non rifiutando un’ipotesi nulla falsa, si chiama Errore di secondo tipo o errore di seconda specie, o errore do tipo II La probabilità di commettere un errore di secondo tipo viene generalmente indicato con il simbolo β La probabilità complementare, (1- β), ossia la probabilità di rifiutare correttamente un ipotesi nulla falsa, si chiama potenza del test • Maggiore è la potenza di un test, maggiore sarà la possibilità del test di identificare come corretta l’ipotesi alternativa quando questa è effettivamente vera La probabilità di fare un errore di secondo tipo, ovvero il rischio di non rifiutare un’ipotesi nulla falsa, e di conseguenza la potenza di un test, non si può stabilire a priori • Dipende infatti dalla distanza tra ipotesi nulla e alternativa (per esempio, la differenza tra µ1 e µ2), distanza che è ignota • Dipende dalla varianza delle variabili in gioco, che non può essere modificata La probabilità di fare un errore di secondo tipo, però, dipende anche dal numero di osservazioni e dal livello di significatività α prescelto. Quindi: • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando la dimensione campionaria • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando il livello di significatività α (ma questa scelta ci espone a maggiori rischi di errore di tipo I) E’ possibile studiare la potenza di un test attraverso l’analisi della potenza Completiamo intanto la tabella degli errori Cerchiamo ora di capire graficamente l’errore di secondo tipo • Supponiamo di svolgere un test z a una coda per verificare le seguenti ipotesi H0: µ = µ0 = 1.5 H1 : µ ≠ µ0 • Abbiamo già visto cosa succede quando l’ipotesi nulla è effettivamente vera (si rischia di commettere un errore di primo tipo) • Vediamo ora cosa succede quando l’ipotesi nulla non è vera In questo caso, per capire e calcolare l’errore di secondo tipo è necessario assumere che sia vera una ipotesi alternativa precisa. Assumiamo che sia vera l’ipotesi alternativa µ = 1.45 Concentriamoci per ora sulla parte inferiore della figura, specifica per un campione con n = 36 osservazioni con σ =0.1 e α = 0.01 • Le due distribuzioni a campana rappresentano le distribuzioni delle medie campionarie secondo l’ipotesi nulla (in viola) e secondo l’ipotesi alternativa (in blu) • Le due linee rosse verticali rappresentano i limiti dell’intervallo all’interno del quale una media campionaria verrebbe considerata compatibile con l’ipotesi nulla Quei limiti, standardizzati, porterebbero ai valori critici nella tabella di z di - 2.576 e 2.576 L’area ombreggiata in giallo è la probabilità di commettere un errore di tipo II • Infatti, quando è vera l’ipotesi alternativa, la media campionaria ha una probabilità pari all’area in giallo di cadere nella regione di accettazione (stabilità ovviamente sulla base della distribuzione nulla) L’area ombreggiata in verde è quindi il potere del test, ovvero la probabilità di rifiutare correttamente l’ipotesi nulla quando questa è falsa (come nel caso considerato) E facile capire da questo grafico che • 1. Maggiore è la distanza tra ipotesi alternativa (che stiamo considerando vera) e l’ipotesi nulla (che stiamo considerando falsa), maggiore sarà la potenza del test Logico: se l’ipotesi alternativa è molto diversa da quella nulla ipotizzata, sarà facile scoprirlo • 2. Minore è la dispersione della variabile, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test Logico: se gli individui sono tutti molto simili, anche pochi sono sufficienti per stimare bene la media della popolazione e verificare se è diversa da µ0 • 3. Maggiore è l’α prescelto, maggiore sarà la potenza del test Logico: se per rifiutare l’ipotesi nulla mi accontento di moderate differenze tra i dati e quanto predetto dall’ipotesi nulla, tenderò a rifiutarla maggiormente quando è vera l’ipotesi nulla ma anche quando è vera l’ipotesi alternativa • 4. Maggiore è la dimensione campionaria, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test Logico: con molti dati “scovo” meglio un’ipotesi alternativa vera Attenzione: per ogni dato test statistico, possiamo aumentare la potenza solo agendo su sul punto 3 (ma ciò comporta un aumento del rischio di errore di tipo I) e sul punto 4. I punti 1 e 2 non sono sotto il nostro controllo • In realtà, poiché per ogni tipo di problema statistico esistono generalmente più test diversi a disposizione (con caratteristiche diverse), e i test che fanno più assunzioni (per esempio sulla distribuzione della variabile) sono di solito più potenti, è anche possibile aumentare la potenza di un test scegliendo il test più potente (ovviamente se le condizioni imposte da quel test sono soddisfatte dai dati) Provate voi stessi come varia il potere di semplice un test in funzione di α, n, σ, e la distanza tra la µ vera e la µ0 ipotizzata dall’ipotesi nulla: http://bcs.whfreeman.com/ips4e/cat_010/applets/power_ips.html Cosa si poteva vedere nella parte superiore della figura discussa in precedenza? L’analisi della potenza e la sua importanza Fare un analisi della potenza significa essenzialmente determinare la potenza di un test in diverse condizioni, ovvero in funzione di α, n, σ, e della distanza tra ipotesi alternativa e ipotesi nulla Nel test appena visto, il calcolo della potenza è semplice (si fa con il calcolatore ma si poteva fare anche a mano). In altri casi è molto più complesso E’ molto importante perché ci permette di capire quale probabilità abbiamo di accettare erroneamente l’ipotesi nulla quando invece è vera una specifica ipotesi alternativa Supponiamo per esempio di avere la possibilità di determinare una certa variabile fisiologica in un gruppo di 5 pazienti, per poterne confrontare la media con l’ipotesi nulla che la media nella popolazione sia pari ad un certo valore medio standard, diciamo 12 (sospettando per esempio che la patologia dei pazienti possa aver alterato la variabile fisiologica che vogliamo analizzare). Supponiamo anche di conoscere la deviazione standard della variabile (così che sia possibile applicare un test z) e che questa sia pari a 3 Dopo aver fatto l’analisi in laboratorio e il test statistico, e aver trovato che l’ipotesi nulla non può essere rifiutata, o meglio ancora prima di cominciare le analisi, potremo chiederci: • qual è la probabilità di non accorgerci (con un certo α = 0.05) che la media della popolazione da cui abbiamo estratto il campione non è quella specificata dall’ipotesi nulla (µ0 = 12), ma é invece pari ad valore specifico di interesse, per esempio di interesse perché indice di una grave patologia? Ci interessa cioè capire se, nell’ipotesi che i pazienti abbiano per esempio un media della variabile studiata alta in maniera preoccupante, per esempio µ = 14, tale differenza verrebbe identificata con il campione a disposizione • in generale, la scelta del valore di µ da analizzare nell’analisi della potenza dovrebbe identificare un valore di media particolarmente anomalo, che se fosse veramente la media della popolazione dalla quale abbiamo estratto il campione che stiamo analizzando vorremmo che venisse evidenziata con alta probabilità Utilizzando l’applet al calcolatore con • • • • • α = 0,05 n=5 σ=3 µ0 = 12 (valore standard previsto dall’ipotesi nulla) µ = 14 (valore ipotizzato per l’ipotesi alternativa) La potenza è pari a 0.316 Questo significa che se la media della popolazione fosse 14, avrei circa il 32% di probabilità di identificare con un campione di 5 individui questa deviazione dall’ipotesi nulla. Ma avrei anche una probabilità molto alta (il 68% circa) che pur con una notevole deviazione della popolazione rispetto a quanto previsto dall’ipotesi nulla (14 rispetto a 12), questa deviazione non verrebbe identificata Una situazione pericolosa, quindi, ci potrebbe sfuggire con alta probabilità (il 68%), suggerendoci per esempio di aumentare la dimensione campionaria (e aumentare quindi la potenza del test) Analisi di proporzioni e distribuzioni con la distribuzione binomiale Nell’analisi delle proporzioni avevamo accennato alla distribuzione binomiale o …la distribuzione teorica di probabilità della statistica p (proporzione di una certa caratteristica osservata in un campione estratto da una popolazione in cui la proporzione è pari π) è la distribuzione binomiale… Nei test z e Chi-quadrato che abbiamo visto finora per analizzare proporzioni o numerosità avevamo anche detto però che è possibile, se alcune condizioni sono soddisfatte, utilizzare l’approssimazione normale (gaussiana) della binomiale o Solo se verificate queste condizioni [nπ e n(1-π) maggiori o uguali a 5 per il test z, non meno di 5 osservazioni attese in non più del 20% di categorie e nessuna categoria con meno di una osservazione attesA per test del chi-quadrato] o allora l’approssimazione della binomiale con la gaussiana è valida e i test z e chi quadrato si possono applicare Vediamo ora cosa fare in alcuni casi semplici quando queste assunzioni non sono vere ed è necessario ricorrere alla distribuzione binomiale o Prima di tutto, cos’è la distruzione binomiale? La distribuzione binomiale Supponiamo di compiere un esperimento con due soli risultati possibili o Lancio una moneta: ottengo testa o croce? o Faccio un figlio: sarà maschio o femmina? o Provo un esame: viene superato oppure no? o Misuro la temperatura: e’ < 36.5 oppure ≥36.5 ? o Estraggo a caso un individuo dalla popolazione: è sposato oppure no? o Estraggo a caso un individuo dalla popolazione: fuma oppure no? o Campiono un lupo e analizzo il tratto di DNA che codifica per la catena beta dell’emoglobina: è presente oppure no in almeno uno dei due cromosomi (materno o paterno) la mutazione da adenina a citosina nella base nucleotidica in posizione 56 rispetto ad una sequenza di riferimento? Un esperimento di questo tipo è detto esperimento bernoulliano Chiamiamo uno dei due eventi successo (S) e l’altro (l’evento complementare) insuccesso (I) o Non importa quale dei due viene chiamato successo e quale insucceso, è una scelta arbitraria; per esempio testa = successo; croce = insuccesso fumatore = successo; non fumatore = insuccesso la mutazione AC in posizione 56 nel gene per l’emoglobina è presente = successo; la mutazione AC in posizione 56 nel gene per l’emoglobina è assente = insuccesso Chiamiamo ora o π = probabilità dell’evento S (successo) o (1-π) = probabilità dell’evento I (insuccesso) Se quindi per esempio studio un singolo lupo (analogo ad un esperimento bernoullinano) e so che π = 0.1, posso dire che la probabilità di ottenere una sequenza con la mutazione AC in posizione 56 nel gene per l’emoglobina è pari a 0.1 o Questa probabilità, come al solito, mi dice che se avessi a disposizione un numero elevatissimo di lupi, il 10% di questi sarebbero portatori di questa specifica mutazione Supponiamo ora invece di ripetere l’esperimento bernoulliano 2 volte o Il numero di ripetizioni, e estrazioni, dette anche numero di prove, di indica con n o In questo caso n = 2 Esempi o Lancio due monete (o due volte la stessa moneta) e registro il numero di teste o Estraggo due individui a caso da una popolazione, chiedo se fumano, e registro il numero di fumatori o Campiono e tipizzo geneticamente due lupi e registro quanti di loro hanno la la mutazione AC in posizione 56 nel gene per l’emoglobina Chiara l’analogia con un campione di dimensione n e l’analisi delle proporzioni o numerosità! Vediamo ora nel caso di due prove (n=2) quali sono tutti i risultati possibili e con che probabilità si può verificare ciascuno di essi o Queste probabilità vengono calcolate, e saranno quindi corrette, se (assumendo che) il risultato della prima prova non influenza il risultato della seconda prova, e le probabilità di successo/insuccesso [π e (1-π)] nella singola prova restano costanti Intanto, quali sono i risultati possibili? o SS (prima prova = successo; seconda prova = successo) o SI (prima prova = successo; seconda prova = insuccesso) o IS (prima prova = insuccesso; seconda prova = successo) o II (prima prova = insuccesso; seconda prova = insuccesso) Abbiamo detto che le prove sono indipendenti e le probabilità di successo/insuccesso non cambiano da prova a prova. Quindi possiamo applicare la regola del prodotto per trovare le probabilità di ciascuno dei 4 risultati possibili. Attenzione! o Questi eventi sono tutti diversi se consideriamo l’ordine, ma ci sono solo tre eventi diversi se consideriamo il numero di volte che si ottiene un successo. Infatti ci possono essere 0, 1 o 2 successi in due estrazioni o A noi interessa la probabilità di avere per esempio 1 testa in due lanci, o un lupo con la mutazione in un campione di due lupi, non l’ordine con il quale gli eventi si verificano! o Quindi dobbiamo sommare qualche termine Chiamiamo X la variabile che ci interessa, cioè il numero di successi in n prove E’ facilissimo vedere che nel caso di n= 2, le probabilità di ottenere X successi in n prove si ottengono dalle probabilità precedenti o Per X= 0 e X=2, le probabilità sono quelle di avere II e SS o Per X=1, bisogna sommare i due termini (ovviamente uguali) che corrispondono ad avere prima un successo e poi un insuccesso e prima un insuccesso e poi un successo Se chiamiamo π = p e (1-π) = q o [cosa che si trova su molti libri, ma attenzione a non confondere parametri con statistiche!] allora le probabilità dei tre possibili risultati sono date dai termini che si ottengono dall’espansione del binomio (p+q)2 = p2 +2pq + q2 Attenzione, nella descrizione e nell’uso della binomiale π e p vengono spesso usati in maniera interscambiabile! Anche in questi appunti Due esempi con n=2 e due diversi valori di π E’ la prima distribuzione teorica che siamo in grado di ricostruire con semplici calcoli! Aumentando il numero di prove, e ragionando quindi per dimensioni campionarie maggiori, i calcoli non si complicano molto Vediamo per n = 3 Per n maggiori, si può ricorrere al triangolo di Tartaglia, o meglio, a triangolo di Chu Shin-Chieh, per trovare i coefficienti dei diversi termini, ma per fortuna c’e’ anche la funzione matematica della distribuzione binomiale Due esempi con n=3 e due diversi valori di π Da ricordare (questo termine si chiama coefficiente binomiale) Perché è ragionevole che per x = 0 o x = n il coefficiente binomiale sia pari a 1? Un esempio con n=20 e π = 0.3 - Siete capaci di fare la stessa cosa utilizzando la funzione binomiale per n=23 e π = 0.25? - Inizia a sembrare una gaussiana…(infatti, n cresce, ci sono tanti fattori, e nπ e n(1-π) sono entrambi maggiori di 5 La distribuzione teorica di una proporzione è binomiale perché lo è la distribuzione teorica del numero di successi in n prove Esercizio: i laureandi in medicina fumano come tutti? L’ipotesi nulla e quella alternativa che sto testando sono le seguenti Non posso utilizzare z o chi-quadrato perché nπ0 = 16x0.25 < 5 Testare le ipotesi sulle proporzioni equivale a testare le ipotesi nulle numerosità o Se il numero di fumatori nel campione ha una probabilità di verificarsi molto bassa (<α) assumendo vera l’ipotesi nulla, allora anche la proporzione di fumatori nel campione avrà una probabilità di verificarsi molto bassa (<α) assumendo vera l’ipotesi nulla La distribuzione nulla delle numerosità (la distribuzione che mi interessa per testare l’ipotesi nulla), ovvero la distribuzione del numero di fumatori in campioni con n = 16 se la probabilità di essere un fumatore è pari a 0.25 (valore specificato dall’ipotesi nulla) è interamente specificata dalla distribuzione binomiale o Non ho bisogno di tabelle per fare un test binomiale! Ricostruire interamente la distribuzione nulla significa quindi, in questo caso, calcolare 17 valori di probabilità, ovvero 16 0 16 16 P(x=0) = 0 0.25 0.75 = 0.75 = 0.010023 16 1 15 1 15 P(x=1) = 1 0.25 0.75 = (16)0.25 0.75 = 0.053454 .. .. 16! 16x15x14x13x12 16 5 11 5 11 0.255 0.7511 = 0.180159 0 . 25 0 . 75 0 . 25 0 . 75 P(x=5) = 5 = 5! 11! = 5x4x3x2 .. .. 16 15 1 15 1 P(x=15) = 15 0.25 0.75 = (16)0.25 0.75 = 1.12x10-8 16 16 0 P(x=16) = 16 0.25 0.75 = 0.2516 = 2.33x10-10 Con questa distribuzione nulla posso definire le regioni di accettazione e rifiuto e/o calcolare il P-value, ovvero fare un test di ipotesi come abbiamo visto precedentemente per le statistiche test z, t e χ2 o Attenzione, non è necessario ricostruire tutta la distribuzione nulla per fare un test di ipotesi con la binomiale! Probabilità di avere x fumatori in un campione di 16 individui se π = 0.25 In questa spiegazione consideriamo però la distribuzione nulla completa, riportata qui sotto in tabella e graficamente 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Numero x di fumatori se n = 16 Identificazione delle regioni di accettazione e di rifiuto Scelto un α = 0.05, determino le regioni di accettazione e rifiuto direttamente sommando le probabilità ai due lati della distribuzione fino a raggiungere il valore appena precedente al superamento della probabilità cumulativa pari a 0.025 (se si utilizza un test a due code) x = numero di fumatori in un campione di 16 individui 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 P(x) = Probabilità di osservare x Area cumulativa sinistra fumatori in un campione di 16 (Somma progressiva delle P(x) individui se p = 0.25 a partire dai valori piccoli di x) 0,010023 0,053454 0,133635 0,207876 0,225199 0,180159 0,110097 0,052427 0,01966 0,005825 0,001359 0,000247 3,43E-05 3,52E-06 2,51E-07 1,12E-08 2,33E-10 Area cumulativa destra (Somma progressiva delle P(x) a partire dai valori grandi di x) 0,010023 0,063476 0,197111 0,404987 0,630186 0,810345 0,920443 0,97287 0,99253 0,998356 0,999715 0,999962 0,999996 1 1 1 1 In arancione, le regioni di rifiuto per un test bilaterale con α = 0.05. 1 0,989977 0,936524 0,802889 0,595013 0,369814 0,189655 0,079557 0,02713 0,00747 0,001644 0,000285 3,81E-05 3,78E-06 2,63E-07 1,14E-08 2,33E-10 La regione di accettazione va quindi da x = 1 (compreso) a x = 8 (compreso) Il valore osservato (x = 2) cade quindi nella regione di accettazione, e l’ipotesi nulla non può essere rifiutata I dati sono compatibili con l’ipotesi nulla. Non ci sono forti evidenze che i laureandi in medicina fumino di più, o di meno, rispetto alla popolazione generale o Cosa avremmo concluso de avessi fatto un test a una coda, ipotizzando per l’ipotesi alternativa che gli studenti di medicina fumano meno rispetto alla popolazione generale? Calcolo del P-value Il P-value, come sempre, è dato dalla probabilità di osservare, se fosse vera l’ipotesi nulla, un campione ugualmente estremo, o più estremo (ossia ugualmente probabile, o meno probabile) di quello osservato realmente o Se questa probabilità risulta inferiore al livello di a prescelto, rifiutiamo l’ipotesi nulla perché riteniamo i risultati osservati “troppo” improbabili (ovviamente non dimenticando che esiste, se rifiutiamo l’ipotesi nulla, l’errore di primo tipo!) Il P-value nel test binomiale appena visto è quindi la probabilità complessiva di osservare un campione con un valore x uguale al valore osservato nei dati (2 nell’esempio) o con valori di x più estremi (cioè meno probabili di quello osservato) o Queste probabilità sono ovviamente (riguardate se necessario cos’è il P-value in un test) calcolate assumendo vera l’ipotesi nulla, in questo caso che π= π0 = 0.25 In tabella, dobbiamo sommare tutti i valori di P≤0.133635, ossia della probabilità di osservare il campione realmente osservato (x =2) (da entrambe i lati della distribuzione, visto che stiamo facendo un test a due code). x = numero di fumatori P(x) = Probabilità di osservare x fumatori in un campione di 16 in un campione di 16 individui se p = 0.25 individui 0 0,010023 1 0,053454 2 0,133635 3 0,207876 4 0,225199 5 0,180159 0,110097 6 7 0,052427 8 0,01966 9 0,005825 10 0,001359 0,000247 11 12 3,43E-05 13 3,52E-06 2,51E-07 14 15 1,12E-08 16 2,33E-10 Il verde sono indicati tutti i valori di probabilità da sommare per ottenere il P-value. In rosso il valore di x osservato nei dati. Il P-value risulta quindi pari a 0.387. Essendo minore di α = 0.05, rifiutiamo l’ipotesi nulla o Ovviamente le conclusioni ottenute calcando il P-value sono le stesse di quelle viste con l’approccio delle regioni di accettazione rifiuto Un modo più semplice anche se le meno preciso per calcolare il P-value consiste nel calcolare la probabilità che il valore di x sia più estremo del valore osservato nella coda della distribuzione, e moltiplicare questo valore per 2 o Nel nostro caso, questo significa sommare le prime tre probabilità nella tabella precedente e moltiplicare per 2: P-value = 2x(0.010023+0.053454+0.133635) = 0.394 Questo valore è leggermente superiore al valore calcolato nella forma più precisa. L’approssimazione è quindi conservativa Esercizio: i geni per la spermatogenesi si trovano soprattutto sul cromosoma X? Esercizio: la scelta dei maschi nel topo dipende dalla posizione fetale delle femmine? Test di adattamento di una distribuzione di frequenza osservata alla distribuzione binomiale (è un test di goodness-of-fit) Ulteriori esempi sulla bontà di adattamento di una distribuzione osservata alla binomiale Esempio 1 La mortalità in pesci in acquario dipende soprattutto dal caso (la scelta casuale di che pesce finisce in quale acquario, e altri eventi che agiscono con uguale probabilità su ciascun pesce) o forse dalla diffusione di malattie contagiose? In 60 acquari vengono inseriti 6 pesci di una certa specie, scelti a caso da una vasca grande. Da quel momento in poi, non si interviene più sugli acquari e dopo un mese si contano i pesci sopravvissuti per ogni vasca. I risultati, come numero di vasche con 0,1,2,3,4,5,6 pesci sopravvissuti, è il seguente: 6,6,12,15,8,7,6. Esempio 2 Il rapporto tra i due sessi nelle famiglie è casuale? La casualità nello spazio o nel tempo: la distribuzione di Poisson Cosa potrebbero rappresentare questi punti? o Organismi o eventi presenti in una certa area Per esempio, ci interessa capire come avviene un processo di colonizzazione Per esempio, ci interessa capire se gli avvistamenti di una specie sono distribuiti casualmente nello spazio geografico Potrebbero essere anche osservazioni lungo una linea, un volume, o nel tempo Per esempio, ci interessa studiare il posizionamento di uccelli lungo il filo della luce Per esempio, ci interessa capire se esistono disomogeneità non casuali in volumi Per esempio, ci interessa capire come sono distribuiti nel tempo eventi di estinzione, mutazioni, incidenti, avvistamenti, ecc. Ma possiamo anche pensare all’esempio visto con i nidi e gli uccellini sopravvissuti se i singoli nidi non avessero lo stesso n, ovvero lo stesso valore massimo per la variabile o Lo spazio qui è rappresentato dall’insieme di tutti i nidi In pratica, consideriamo per esempio una situazione nella quale l’interesse è rivolto verso la posizione di un certo numero di organismi in una certa area, e suddividiamo l’area in sotto-aree uguali ORA: se la probabilità di presenza di un individuo è la stessa in ogni infinitesimo punto dello spazio, e se il fatto che ci sia un individuo in un infinitesimo punto dello spazio non modifica la probabilità che ce ne sia un altro nello stesso punto o nelle vicinanze allora la distribuzione di frequenza del numero di individui osservati in un campione di sottoaree uguali definite nell’area studiata tenderà alla distribuzione di Poisson La distribuzione di Poisson ha la seguente funzione dove X è la variabile numero di osservazioni per sotto-area, λ è il numero medio di individui per sotto-area, ed e è la base dei logaritmi naturali. E’ una distribuzione discreta E’ il limite della distribuzione binomiale quando n tende ad infinito e π tende a 0 o Immaginiamo che ogni sotto-area sia composta da infinite posizioni dove si può trovare un individuo, e che in ciascuna di queste infinite posizioni ipotetiche si possa al massimo osservare un solo individuo e con probabilità bassissima. Varia tra 0 e infinito E’ definita da un solo parametro, la media λ Si può approssimare con la distribuzione gaussiana per valori di λ non troppo piccoli (>10), sempre facendo attenzione che la gaussiana è continua e Poisson è discreta E’ fondamentale capire l’analogia delle sotto-aree con frazioni di una curva o di una retta, con porzioni di volume o con intervalli di tempo Più in generale, possiamo dire che la distribuzione di Poisson descrive il numero di successi in intervalli spaziali o temporali quando i successi si verificano indipendentemente l'uno dall'altro e con uguale probabilità in ogni punto dello spazio o del tempo il successo nell’esempio visto è la presenza di ciascun individuo per sotto-area gli intervalli nell’esempio di prima sono le sotto-aree cosa sono successi e intervalli in atre situazioni? Esempi di 3 diverse distribuzioni di Poisson La differenza tra la distribuzione di Poisson e la gaussiana con stessa media e varianza Altre variabili che dovrebbero seguire la distribuzione di Poisson se intervenisse solo il caso nel definire il valore che assume la variabile in diverse osservazioni o numero di semi di una pianta infestante per unità di volume di terriccio in vendita o numero di mutazioni per intervallo di tempo o numero di casi di influenza in un paese per settimana o numero di incidenti stradali mortali al mese in una città o numero di figli per individuo o numero di pezzi difettosi al giorno, o all'ora, prodotti da una fabbrica Quali sarebbero in questi casi le diverse osservazioni? o o o o un certo numero di unità di volume di terriccio un certo numero di intervalli di tempo un certo numero di settimane nelle quali sono stati registrati i casi di influenza Ecc. Esempio numerico di goodness-of-fit dove applicare la poissoniana I dati osservati sono i seguenti: La variabile potrebbe essere o pulcini sopravvissuti per nido, osservata in 20 nidi (il nido è l'unità campionaria) oppure o numero di piante per metro quadro, osservata in 20 sotto-aree di 1 m2 (la sotto-area è l'unità campionaria) Tabella di frequenza: Attenzione alle numerosità attese troppo piccole! Altro esempio di goodness-of-fit test con la poissoniana Attenzione anche qui alle numerosità attese troppo basse quando si applica il test di χ quadrato IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI Perchè confrontare le varianze stimate in due campioni? Torniamo all'esempio dei frinosomi Per poter applicare il test t avevamo detto che le varianze, e quindi le deviazioni standard, nelle due popolazioni (frinosomi vivi e frinosomi uccisi) devono essere uguali. Adesso vediamo come testare questa ipotesi Le ipotesi nulla e alternativa possono essere formalizzate come segue Come abbiamo sempre fatto in tutti i test statistici, dobbiamo trovare una statistica test la cui distribuzione teorica è nota quando è vera l'ipotesi nulla o Per esempio, per testare l'ipotesi nulla di uguaglianza tra due medie usavamo le statistiche test z o t, le cui distribuzioni nulle sono note in certe condizioni o Oppure, per testare se una proporzione si discosta da un valore previsto, e non si poteva usare il chi-quadrato o z, avevamo usato come statistica test il numero di individui con la caratteristica di interesse, la cui distribuzione nulla è la distribuzione binomiale Nel caso di due varianze, la statistica test è il rapporto tra le varianze nel campione Fcalc s12 2 s2 Se è vera l'ipotesi nulla che le due varianze nelle popolazioni sono uguali, e se la variabile segue una distribuzione normale in entrambe le popolazioni, il rapporto tra due varianze campionarie segue la distribuzione nulla di Fisher, detta anche distribuzione F (o F di Fisher) La distribuzione teorica F: o E' continua o Varia tra zero e infinito o Dipende dai gradi di libertà del numeratore (gdl1 = n1-1) e quelli del denominatore (gdl2 = n2-1) o E' circa centrata sul valore 1 o Ci permette di definire le regioni di accettazione/rifiuto o il P-value per il nostro test sulle varianze Tabella della distribuzione F a una coda con α = 0.01 Le colonne identificano i gdl al numeratore. Le righe i gdl al denominatore. I numeri interni alla tabella identificano i valori della statistica F che separano, alla loro destra, l’1% dell’area distributiva. Attenzione! La struttura di questa tabella è diversa da tutte quelle viste finora (ci sono due gradi di libertà da conoscere in ogni analisi, e c'e' una tabella per ogni valore di P) Praticamente, visto che la distribuzione F è asimmetrica, e le tabelle dei valori critici riportati in tabella si riferiscono al lato destro della distribuzione, conviene sempre mettere a numeratore nel calcolo di F dai dati (Fcalc) la varianza maggiore Il valore F critico con 9 e 8 gradi di libertà (9 al numeratore e 8 al denominatore), con = 0.05 e quindi /2 = 0.025, è pari a 4.36 o Non ci sono evidenze per rifiutare l'ipotesi nulla o Le varianze calcolate dai campioni sono compatibili con l'ipotesi nulla che i campioni provengano da popolazioni con varianze uguali o Se dovessi confrontare le medie dei due campioni, il test t sarebbe appropriato Il calcolo del P-value richiede un computer o Oppure, almeno per approssimarlo e definire un intervallo in cui cade, tante tabelle ognuna per diversi valori di probabilità Esempio con i frinosomi: le varianze erano significativamente diverse? L'ANALISI DELLA VARIANZA (ANOVA) L'ANOVA è un metodo molto potente e flessibile per valutare le medie di più di due popolazioni con una singola analisi E' quindi un metodo per studiare variabili quantitative Attenzione! L'ipotesi nulla riguarda medie, ma viene testata confrontando varianze Un esempio con dati sperimentali: la variabile altezza viene misurata in individui suddivisi in 4 gruppi; i gruppi sono sottoposti a diversi trattamenti per il fattore ph Un esempio con dati osservazionali: la variabile peso viene misurata in individui che provengono da 4 gruppi; i 4 gruppi differiscono per il fattore origine geografica Ipotesi nulla e alternativa nell'ANOVA Ovviamente l'ANOVA si applica nello stesso modo a 2,3,4,5,...k gruppi o Per k = 2, equivale a svolgere un test t Un esempio di dati nel caso di H0 vera Un esempio di dati nel caso di H1 vera Attenzione! Sull'asse delle X ci sono 4 "posizioni" che indicano i 4 gruppi; sull'asse delle Y c'e' la variabile studiata Prima di vedere come si procede nell'ANOVA, vediamo perchè svolgere un'ANOVA Per esempio, con 3 popolazioni da confrontare (per esempio, tre livelli di pH) non potrei semplicemente fare 3 test t? O con 4 popolazioni 6 test t? o Come si calcola il numero di test a coppie? No, perchè 1. Sembra logico prima di tutto testare l'ipotesi nulla che prevede che tutti i gruppi siano uguali 2. Non posso semplicemente fare tanti test t perchè aumenterebbe molto l'errore complessivo di primo tipo Il problema dei test multipli e l'errore complessivo di primo tipo Se scegliamo in un singolo test un livello di significatività , sappiamo che esiste una probabilità di rifiutare un'ipotesi nulla vera (errore di primo tipo) Questo significa anche che se facciamo 100 test nei quali l'ipotesi nulla è sempre vera, 5 volte (mediamente) la rifiutiamo erroneamente Qual'è la probabilità che facendo c test di ipotesi nulle vere almeno uno risulti significativo per puro effetto del caso? o Se l'ipotesi nulla è vera, la probabilità che un test singolo non porti al suo rifiuto è pari a (1è il livello di protezione in un singolo test o Se l'ipotesi nulla è vera, la probabilità che non venga mai rifiutata in c test è pari a (1-)c Sono eventi indipendenti e vale la regola del prodotto delle probabilità o Quindi, 1-(1-)c è la probabilità che cerchiamo: la probabilità che uno o più dei c test (cioè, almeno uno) sia significativo anche se l'ipotesi nulla è sempre vera Gli esempi citati sono casi ANOVA unifattoriale e univariata o C'era un fattore (per esempio, pH) e una variabile (per esempio, altezza) L'ANOVA può anche essere multifattoriale (più fattori) e/o multivariata (più variabili) o Vedremo alcuni cenni di analisi bifattoriale univariata alla fine del corso COME FUNZIONA L'ANOVA A UN FATTORE: SI CONFRONTANO TANTE MEDIE SCOMPONENDO LA VARIABILITA' TOTALE Per testare l'ipotesi nulla che la media di una variabile in k popolazioni sia la stessa, si suddivide la variabilità totale della variabile (ecco perchè si chiama ANOVA...) La variabilità totale viene suddivisa in due componenti: 1. La variabilità all'interno dei gruppi 2. La variabilità tra i gruppi Per vedere questa scomposizione, definiamo prima le medie dei k gruppi con i simboli y1 , y2 ,..... yk . Sono semplicemente le medie calcolate in ogni gruppo. Definiamo anche la media generale con insieme tutti i dati di tutti i gruppi o Attenzione! y . E' semplicemente la media calcolata mettendo y non è la media delle k medie calcolate nei singoli gruppi. Utilizzando il tipo di grafico già visto, dove sull'asse delle X ci sono i diversi gruppi (4 in figura), sull'asse delle Y c'e' la variabile quantitativa (logico quindi chiamarla Y nell'ANOVA e non X come abbiamo fatto finora per indicare una generica variabile), possiamo facilmente vedere che la variabilità complessiva può essere divisa in due componenti 1. La variabilità entro gruppi, cioè quanto mediamente i singoli valori sono distanti dalla media del loro gruppo di appartenenza. 2. La variabilità tra gruppi, cioè quanto mediamente sono distanti le medie dei diversi gruppi dalla media generale E' piuttosto intuitivo capire che più ci allontana dall'ipotesi nulla (H0: tutte le medie sono uguali) e più la componente tra gruppi della variabilità totale diventerà grande, e rappresenterà una importante frazione della variabilità totale E' anche logico capire che la componente entro gruppi della variabilità totale non dipende dalla differenza tra i gruppi. E' una componente che considera semplicemente il fatto che non tutte le osservazioni, anche se appartenenti allo stesso gruppo o sottoposte allo stesso trattamento, sono uguali. E' anche definita come variabilità dell'errore (ha a che fare l'errore insito nel campionamento) Provate a disegnare dove cadrebbero approssimativamente le medie dei gruppi e la media generale nel caso qui sotto (l'ipotesi nulla è vera). La variabilità tra gruppi è bassa! La componente della variabilità entro gruppi viene definita nell'ANOVA come media dei quadrati degli errori (MSE: Mean Square Error). E' semplicemente la media pesata delle varianze calcolate all'interno dei gruppi, ovvero un'estensione a k gruppi della varianza comune già vista nel test (dove k=2). E' quindi una varianza, chiamata anche varianza dell'errore. Noi la chiameremo con l'acronimo inglese MSE. k k 2 2 n − s n − s ( 1 ) ( 1 ) ∑ i i ∑ i i MSE = i =1 k ∑ (ni − 1) = i =1 nT − k i =1 ni è la numerosità dell'i-esimo gruppo, nT è la numerosità totale (somma di tutti gli ni) Il numeratore di MSE viene chiamato SSE, o somma dei quadrati dell'errore, o anche devianza dell'errore Il denominatore di MSE rappresenta i gradi di libertà di questa componente della variabilità totale La componente della variabilità tra gruppi viene definita nell'ANOVA come media dei quadrati tra gruppi (MSB: Mean Square Between groups). Dipende da quanto sono distanti le medie dei gruppi dalla media generale, ma considera anche le numerosità dei singoli gruppi. E' anche questa una varianza, chiamata anche varianza tra gruppi. La chiameremo con l'acronimo inglese MSB 2 ∑ n (y − y ) k i MSB = i i =1 k −1 Il numeratore di MSB viene chiamato SSB, o somma dei quadrati tra gruppi, o anche devianza tra gruppi Il denominatore di MSB rappresenta i gradi di libertà di questa componente della variabilità totale (ci sono k gruppi, e quindi k-1 gradi di libertà) Come già detto, più ci si allontana dall'ipotesi nulla e più tende a crescere la componente della variabilità tra gruppi. Quindi, più ci si allontana dall'ipotesi nulla e più MSB tende a crescere. E' possibile dimostrare che quando è vera l'ipotesti nulla MSB tende ad essere uguale MSE (si veda approfondimento alla fine di questo file pdf) Ovviamente, se è vera l'ipotesi alternativa (almeno una media è diversa dalla altre), MSB sarà maggior di MSE (mai minore) Poichè sia MSB che MSE sono due varianze, e il valore di MSB/MSE atteso quando è vera l'ipotesi nulla è 1, è chiaro che l'F di Fisher è la statistica test adatta all'ANOVA In altre parole, dopo aver calcolato MSB e MSE, posso calcolare Fcalc MSB = MSE e utilizzare la distribuzione di Fisher per verificare l'ipotesi nulla µ1 = µ2 = µ3 = µ4 = ....µk Attenzione! Come abbiamo detto più volte, l'ipotesi alternativa (almeno una media è diversa) prevede la deviazione di F solo verso valori >1 (cioè MSB>MSE). Quindi, anche se l'ipotesi alternativa nell' l'ANOVA non è unidirezionale, prevede deviazioni solo in una direzione della distribuzione nulla di Fisher. La tabella dell'ANOVA Una tabella utile per riassumere i risultati dell'ANOVA è la seguente Origine della variazione Gradi di libertà SS MS F P-value Tra gruppi k-1 SSB MSB = SSB/(k-1) Fcalc = MSB/MSE P(F>Fcalc) Entro gruppi nT-k SSE MSE = SSE/ (nT-k) Totale nT-1 SSTO I gradi di libertà e la somma dei quadrati (SS) godono della proprietà additiva, ma non le medie dei quadrati (MS) o Questa proprietà può essere utile Nell’ultima colonna, se non dispongo di un calcolatore che mi permette di determinare il Pvalue, posso riportare il valore critico di F per l'α scelto e quindi se il valore calcolato supera quello critico, indicare P< α, altrimenti P> α. ESEMPIO DI ANOVA CON k = 3 APPROFONDIMENTO: PERCHE' MSE E MSB DOVREBBERO ESSERE UGUALI QUANDO E' VERA L'IPOTESI NULLA NELL'ANOVA? Quando è vera l'ipotesi nulla nell'ANOVA, ovvero quando le medie in tutte le popolazioni da cui ho estratto campioni, o le medie in tutti i trattamenti analizzati con un certo numero di campioni, sono uguali, allora MSE e MSB stimano la stessa cosa, e F tende quindi a 1. Ma cosa stimano MSE e MSB? k ∑ (n − 1)s i MSE == i =1 nT − k 2 i LE ASSUNZIONI DELL'ANOVA Sono le assunzioni del test t, ma estese a tutti i gruppi: o La variabile deve avere una distribuzione normale in tutte le popolazioni corrispondenti ai gruppi campionati o Le varianze in tutte le popolazioni corrispondenti ai gruppi campionati deve essere uguale Ovviamente, come sempre, per ciascun gruppo il campione deve rappresentare un insieme di misure estratte a caso dalla corrispondente popolazione E' necessario verificare che queste assunzioni vengano soddisfatte Fortunatamente però, l'ANOVA è un'analisi piuttosto robusta a violazioni di queste assunzioni, soprattutto se i campioni hanno circa le stesse numerosità COSA FARE QUANDO F E' SIGNIFICATIVO (P<α α) IN UNA ANOVA? E' necessario verificare quali gruppi siano diversi da quali altri Confronti a coppie ma con specifiche accortezze per fare in modo che l'errore complessivo di primo tipo non superi il livello α prestabilito (in genere 0.05) I confronti a coppie possono essere pianificati o non pianificati Confronti pianificati: bisogna decidere prima dell'esperimento un numero limitato di confronti a coppie a cui si è particolarmente interessati o Per esempio, nel caso dello studio sul jet lag, prima dell'esperimento si era soprattutto interessati al confronto tra controlli e il gruppo sottoposto a luce al ginocchio o In questi casi, i pochi confronti a coppie da svolgere sono praticamente dei test t (la differenza sta nel fatto che si usa MSE al posto della varianza comune e i gradi di libertà di MSE) Confronti non pianificati: l'interesse non ricade su specifici confronti, ma si è interessati a svolgerli tutti [il numero totale di confronti a coppie è pari a k(k-1)/2] o Qui il problema dell'errore complessivo di primo tipo è più serio o Ci sono metodi, come quello di Tukey-Kramer, per calcolare se ogni confronto è significativo (senza incrementare l'errore complessivo di primo tipo) e per visualizzare i risultati Esempio di visualizzazione dei risultati nel caso di confronti non pianificati Ci sono 5 gruppi (per esempio, 5 località diverse), e in ogni località viene misurato un indicatore di biodiversità (la variabile alla quale si è interessati) in 20 campioni casuali (per esempio, 20 aree di 1 metro quadro, 20 prelievi d’acqua, oppure 20 volumi uguali di sedimento) o In totale, sono disponibili quindi 20 misurazioni della variabile La tabella riporta le medie dei gruppi (in ordine crescente) e una lettera che permette di capire quale gruppo è diverso da quale altro. Lo stesso si può rappresentate con linee al di sotto un istogramma I gruppi con la almeno un lettera in comune non hanno una biodiversità media significativamente diversa ACCENNI DI ANOVA MULTIFATTORIALE La tecnica dell’ANOVA può essere estesa all’analisi di un numero maggiore di fattori La variabile analizzata è sempre una sola (si tratta comunque di una ANOVA univariata), ma il numero di fattori che distinguono i diversi campioni è maggiore di 1 Si parla in questi casi di ANOVA univariata multifattoriale Esempio Partiamo da un esempio di ANOVA univariata unifattoriale o Si vuole studiare se diversi terreni di coltura determinano una diversa produzione di una proteina da parte di colture cellulari La tipologia del terreno è quindi il primo fattore, che chiamiamo fattore A, che può assumere per esempio quattro livelli (1, 2, 3 e 4), corrispondenti a quattro diversi terreni Per ogni terreno vengono analizzate per esempio 12 colture cellulari, e per ognuna di queste viene misurata la quantità di proteina prodotta (la variabile analizzata) alla fine dell’esperimento o Fino a qui, questo è un classico esempio di ANOVA con 1 fattore (ANOVA unifattoriale), 4 gruppi, e 48 osservazioni in tutto della variabile Supponiamo ora di voler considerare anche un secondo fattore che riteniamo abbia una certa influenza sulla produzione della proteina analizzata, per esempio il fattore temperatura o A questo punto, ciascuno dei gruppi costituito da 12 colture viene suddiviso in tre gruppi di 4 colture, ognuno dei quali verrà lasciato crescere a una temperatura diversa Per esempio, supponiamo che i tre raggruppamenti del secondo fattore siano temperatura bassa, temperatura media, e temperatura alta Questo è un esempio di ANOVA con due fattori, e possiamo pensare ai dati di questa analisi come ad un tabella dove o le righe identificano il primo fattore (Fattore A, per esempio il terreno di coltura) il fattore A ha 4 livelli o le colonne identificano il secondo fattore (Fattore B, per esempio la temperatura) il fattore B ha 3 livelli In questa tabella 4x3, ogni casella rappresenta un singolo gruppo di 4 osservazioni. Ognuno dei 12 gruppi ha subito un trattamento diverso (casella in alto a sinistra: terreno 1 + temperatura bassa; casella in alto in centro: terreno 1 + temperatura media; casella in alto a destra: terreno 1 + temperatura alta; casella nella seconda linea a sinistra: terreno 2 + temperatura bassa; ................; casella in basso a destra: terreno 4 + temperatura alta) Fattore B (temperatura) 1 2 Fattore A (terreno di cultura) 3 4 1 2 3 y111 y112 y113 y114 y211 y212 y213 y214 y311 y312 y313 y314 y411 y412 y413 y414 y121 y122 y123 y124 y221 y222 y223 y224 y321 y322 y323 y324 y421 y422 y423 y424 y131 y132 y133 y134 y231 y232 y233 y234 y331 y332 y333 y334 y431 y432 y433 y434 [ogni valore deve necessariamente avere tre indici: il primo indica la riga, il secondo la colonna, il terzo la singola osservazione] Le osservazioni totali sono 4x3x4= 48. Per ciascuno dei 12 gruppi posso calcolare una media Posso sintetizzare le 12 medie nella tabella Fattore B (temperatura) 1 2 3 1 Fattore A (terreno di coltura) 2 3 4 y 11 y 21 y 31 y 41 y 12 y 22 y 32 y 42 y 13 y 23 y 33 y 43 [ogni media deve necessariamente avere due indici: il primo indica la riga e il secondo la colonna] L'ANOVA a due fattori ci permette di capire: o se esiste un effetto principale del tipo di terreno di coltura sulla produzione proteica o se esiste un effetto principale della temperatura sulla produzione proteica o se esiste un’interazione tra i due fattori, ovvero se gli effetti dei due fattori non sono indipendenti (c’e’ interazione) oppure sono indipendenti (non c’e’ interazione) L'ANOVA a due fattori porterà quindi al calcolo di tre statistiche F, ognuna delle quali utile a testare un'ipotesi nulla diversa: sul fattore A, sul fattore B, e sull'interazione Le tre ipotesi nulle che vengono testate nell’ANOVA a due fattori Le prime due ipotesi nulle sono: o Prima ipotesi nulla: le 4 medie della variabile in 4 popolazioni con 4 terreni diversi (senza considerare la temperatura, e quindi mettendo assieme, per ogni riga, le tre colonne) sono uguali o Seconda ipotesi nulla: le 3 medie della variabile in 3 popolazioni caratterizzate da 3 temperature diverse (senza considerare il tipo di terreno, e quindi mettendo assieme, per ogni colonna, le quattro righe) sono uguali Ma l'ANOVA multifattoriale permette di capire e testare statisticamente una cosa molto importante: l'interazione tra fattori o La terza ipotesi nulla che viene testata nell’ANOVA a due fattori è quella di assenza di interazione o Si ha interazione tra i fattori quando l’effetto di un fattore sulla variabile dipende dagli altri fattori; molto spesso in biologia i fattori interagiscono nel determinare una risposta o Se per esempio la temperatura alta favorisce la crescita delle colture nel terreno A, ma la sfavorisce (o non la favorisce) nelle colture con terreno B, significa che c'e' interazione tra i fattori: l'effetto di un fattore non è indipendente da quale gruppo viene considerato per l'altro fattore Esempio numerico di ANOVA a due fattori senza interazione Supponiamo che la tabelle delle medie per ciascuno dei 12 gruppi sia la seguente: Fattore A (terreno di coltura) 1 2 3 4 Fattore B (temperatura) 1 2 3 5.2 6.5 8.3 5.8 6.8 8.6 7 8.5 10.2 11.5 14.1 16.8 Visualizziamo graficamente queste medie in un sistema di assi cartesiani dove i valori che assumono le medie sono riportati, logicamente, sull’asse delle Y Attenzione! Le considerazioni che seguono sono puramente basate sull’osservazione e la descrizione delle medie. Solo dopo il calcolo dei valori di F, dell’identificazione di valori critici in tabella, e della definizione delle regioni di accettazione/rifiuto o del P-value, queste considerazioni assumerebbero un valore statistico inferenziale Nel grafico che segue, l’asse delle X identifica un fattore, il fattore A Riportiamo inizialmente le medie per il livello 1 del fattore B, ossia le diverse medie osservate al livello 1 del fattore temperatura (bassa temperatura) per i 4 tipi di terreno di coltura 14 12 10 8 6 4 2 0 1 2 3 4 Fattore A Questo grafico indica che a basse temperature la produzione proteica tende ad aumentare passando dal terreno 1 al terreno 4 Cosa succede a temperature medie? E a temperature alte? E come possiamo rappresentare graficamente anche le medie a queste temperature? o Utilizziamo un simbolo diverso per ogni livello del fattore B Valori medi di prod. proteica 18 16 14 12 10 8 6 4 2 0 Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta) 1 2 3 4 Fattore A Cosa indica questo grafico delle medie? 1. la produzione proteica media aumenta passando dal terreno 1 al terreno 4 in maniera molto simile a tutte e tre le temperature analizzate (le tre spezzate hanno andamenti simili) 2. la produzione proteica aumenta passando dalla temperatura bassa a quella alta in maniera molto simile con tutti e 4 i terreni di coltura considerati (i tre simboli sono a distanze simili e nello stesso ordine in tutti e 4 i terreni) Il grafico quindi suggerisce anche un’altra cosa molto importante: o la produzione proteica varia tra terreni diversi e a temperature diverse ma il modo in cui varia la produzione proteica tra terreni non dipende dalla temperatura; questo equivale anche a dire che il modo in cui varia la produzione proteica con la temperatura non dipende dal terreno Questo è un esempio tipico di ANOVA a due fattori in cui i fattori hanno un effetto principale ma non interagiscono tra loro: non esiste interazione tre i due fattori Nella rappresentazione grafica delle medie, l’assenza di interazione si traduce con una serie di spezzate parallele o quasi parallele L’assenza di interazione porta anche a poter esprimere i risultati ottenuti in maniera semplice o Nel nostro caso, la conclusione potrebbe essere espressa (per ora, ripetiamo, solo in forma descrittiva visto che non abbiamo fatto nessuna analisi statistica inferenziale) come: La produzione proteica aumenta passando dal terreno 1 al terreno 4, e anche all’aumentare della temperatura Se molte delle medie calcolate nei 12 gruppi avessero errori standard molto alti, è evidente che dovrei essere molto prudente nelle conclusioni basate solo sull’analisi del grafico delle medie. Valori medi di prod. proteica Altro esempio di ANOVA a due fattori senza interazione 10 9 8 7 6 5 4 3 2 1 0 Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta) 1 2 3 4 Fattore A Le spezzate sono circa parallele (quindi, assenza di interazione), ma in questo caso solo il fattore B sembra avere un effetto principale I risultati potrebbero essere espressi semplicemente come o la produzione proteica è costante con i diversi terreni, ma aumenta all’aumentare della temperatura Esempio di ANOVA a due fattori con interazione forte Valori medi di prod. proteica Nella rappresentazione grafica delle medie, la presenza di interazione porta ad avere spezzate che non sono parallele, o addirittura si intersecano 18 16 14 12 10 Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta) 8 6 4 2 0 1 2 3 4 Fattore A E’ evidente cosa si intenda per interazione in questo caso o L’effetto sulla produzione proteica dei diversi terreni é diverso a temperature diverse Ad alte temperature i diversi terreni non sembrano avere un grosso effetto A basse temperature sembra invece che i terreni 3 e 4 siano più produttivi A temperature intermedie sembra che ci sia un decremento nella produzione proteica passando dal terreno 1 al terreno 4 Nell’esempio precedente, i fattori hanno una forte interazione: l’effetto di un fattore sulla variabile analizzata sembra dipendere dall’altro fattore Il fatto che ci sia interazione può rendere meno chiaro un risultato nel quale viene trovata l’assenza di effetti principali (quelli dovuti ad ogni fattore senza considerare l’altro); si vedano le figure alla fine di questo file Anche le conclusioni che possiamo trarre richiedono maggiore attenzione in presenza di interazione: non é infatti possibile dire come nei casi precedenti in maniera semplice qual’é l’effetto di un fattore, visto che tale effetto può non essere vero per tutti i livelli dell’altro fattore Nel grafico alla pagina precedente, se le impressioni fossero confermate dall’analisi statistica, potremmo dire qualcosa del genere: i terreni 3 e 4 sono più produttivi, e quindi da preferire, solamente alle basse temperature, mentre gli stessi terreni sono i meno produttivi a temperature intermedie; inoltre, avendo a disposizione solo il terreno 1 o il terreno 2, le alte temperature sembrano le piú efficaci In altre parole, i risultati sono molto più complessi da capire e anche da descrivere in presenza di interazione Esempio di ANOVA a due fattori con interazione debole Valori medi di prod. proteica Attenzione, l'interazione può esistere anche in forma più sottile e meno evidente 35 Temperatura 1 (bassa) 30 Temperatura 2 (media) Temperatura 3(alta) 25 20 15 10 5 0 1 2 3 4 Fattore A In questo caso, i due effetti principali (dei due fattori) sono evidenti (produzione proteica aumenta passando dal terreno 1 al 4, e con la temperatura), ma c'é comunque un certo grado di interazione ANOVA a due fattori porta al calcolo di tre statistiche F Fino ad ora abbiamo visto come le medie per ciascuna combinazione possono essere utilizzate graficamente per capire qualcosa sull’effetto dei fattori e sulla loro interazione o Questa era però solo statistica descrittiva! Come già accennato, L'ANOVA a due vie viene svolta attraverso il calcolo di tre statistiche F: o FA-calc : serve per testare l'ipotesi nulla che il fattore A (per esempio, terreno di coltura) non abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica) o FB-calc : serve per testare l'ipotesi nulla che il fattore B (per esempio, la temperatura) non abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica) o FAB-calc : serve per testare l'ipotesi nulla che i fattori A e B non interagiscano (ovvero, l'ipotesi nulla di assenza di interazione, o, nella rappresentazione grafica, l’ipotesi nulla che le spezzate siano parallele). Ognuna delle tre statistiche andrà confrontata con il suo corrispondente valore critico (che dipenderà dai gradi libertà di ciascuna statistica) ATTENZIONE! Se c'e' interazione, FA-calc e/o FB-calc possono risultare non significativi (P<α) anche se i fattori determinano un effetto (non omogeneo) sulla variabile analizzata Vediamo alcuni risultati ipotetici che si potrebbero ottenere studiando come varia la velocità ad imparare un certo tipo di esercizio (variabile) in un gruppo di scoiattoli classificati per l'ambiente da cui provengono (fattore A, foresta o parco pubblico) e per la specie a cui appartengono (fattore B, Sciurus carolinensis o Sciurus vulgaris). Assumiamo che ci siano solo due ambienti e due specie (4 gruppi) Nelle figure che seguono, quindi, il fattore A è Environment, il fattore B è Species (colore rosso e rombo per Sciurus carolinensis e colore blu e pallino per Sciurus vulgaris), e la variabile “velocità ad imparare un certo esercizio” è indicata come Trait Measure Dai grafici possiamo ipotizzare che, se il numero di individui in ciascun gruppo non è troppo basso, i valori di F significativi risulterebbero: A) Nessuno B) FB C) FA D) FA-B (nessun effetto principale) E) FB e FA-B F) FA e FA-B G) FA, FB e FA-B ESEMPIO: l’impatto degli organismi erbivori e dell’altezza nell’area intertidale sulla copertura algale Per ogni gruppo, sono stati analizzati 16 plot [64 osservazioni in tutto, 63 gdl totali, 15x4=60 gdl dell’MSE, qui indicato come Residuo]