LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATI Tre punti importanti o Dati e ipotesi In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di giungere ad una conclusione con una certezza del 100%. La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare le diverse ipotesi: lo studio e l'interpretazione dei fenomeni biologici dipende quindi strettamente dal metodo statistico. o Statistica e computer Il personal computer non ha reso inutile l'insegnamento della statistica. Nelle analisi statistiche il personal computer svolge solo le funzioni più noiose e meno importanti: ricordare le formule e applicarle velocemente ai dati riducendo il rischio di fare errori. Bisogna però capire il principio di un’analisi, decidere se tale analisi è adatta ai dati disponibili, e saperne interpretare il risultato. o Formule, test, concetti, ed esempi Alla fine di un corso universitario di statistica destinato alle lauree nelle scienze della vita, uno studente non dovrebbe ricordarsi solo gli aspetti tecnici o matematici di questa disciplina. Risulterà invece fondamentale aver capito a cosa serve la statistica, quando serve, e perché funziona in quel modo. A tale scopo aiuta molto avere sempre in mente uno o più esempi specifici per ogni tipo di analisi. 2 Cos’è la statistica? Lo studio scientifico dei dati. Quando l’applicazione dei metodi statistici ha lo scopo di descrivere e comprendere i fenomeni di tipo biologico, si preferisce a volte utilizzare il termine “biometria”. La statistica descrittiva viene utilizzata per riassumere e rappresentare i dati o 100 persone scelte a caso: quanti figli hanno? (se avesse intervistato altre 100 persone, sempre scelte a caso, avrebbe ottenuto una media diversa) o dove preferite fare le vacanze? o Percentuale guarigioni in 50 pazienti controllo e 50 pazienti trattati (il risultato implica che il farmaco sia efficace?) o La statistica descrittiva può essere anche molto complessa, ed è sempre molto utile come indagine preliminare dei risultati ottenuti, ma alla fine ci fornisce solo una sintesi dei dati e/o ci facilita la loro lettura attraverso un grafico. 3 La statistica inferenziale (la “vera” statistica) ci permette di generalizzare, con un certo grado di sicurezza, le conclusioni suggerite dall’analisi dei dati raccolti. o Per esempio, se dall’analisi di un campione di 100 individui calcolo il valore medio del numero medio di figli, la statistica inferenziale mi permette di dire qualcosa sulla media del numero di figli nella popolazione dalla quale proviene il campione. o In questo caso, attraverso il calcolo di una statistica (la media nel campione) possiamo dire qualcosa riguardo ad un parametro (la media nella popolazione): Stima di parametri o Test (o verifica) delle ipotesi: una volta definite delle ipotesi e analizzato un campione, di definire oggettivamente, assegnando un livello di probabilità (ossia di certezza), quale ipotesi è maggiormente compatibile con i dati. Nell’esempio precedente del farmaco, definite le due ipotesi “il farmaco funziona” e “il farmaco non funziona”, la statistica inferenziale ci permette di dire qualcosa in generale, nella popolazione cioè, sull’efficacia del farmaco, e non solo sulla differenza osservata in un campione di 100 pazienti. 4 Il processo inferenziale. Tutta la statistica inferenziale, e cioè tutta la statistica “vera”, è basata su questo processo, che permette, con un certo grado di certezza, di estendere alla popolazione (il fenomeno in senso lato) le conclusioni ottenute osservando un campione (una parte del fenomeno). 5 Il campione: è semplicemente l'insieme degli elementi (detti anche unità campionarie o sperimentali) sui quali effettuiamo misure o osservazioni (per esempio, 20 marmotte catturate con trappole). o Costituisce una frazione della popolazione statistica, un gruppo più grande di elementi che potenzialmente potremmo osservare e misurare. La popolazione: può corrispondere ad un insieme finito di individui che hanno alcune caratteristiche in comune (per esempio, tutte le marmotte che vivono nelle Alpi) o In generale, comunque, si preferisce definire la popolazione statistica come un insieme infinito di elementi La statistica: definisce generalmente una disciplina scientifica, le scienze statistiche, ma una statistica è anche una qualsiasi misura ottenuta elaborando i dati raccolti nel campione. o Numero medio di parassiti osservati in 10 trote o Numero di pettirossi catturati con una rete in una giornata è una statistica. Una parte del processo inferenziale consiste nell'utilizzo delle statistiche per stimare alcune caratteristiche della popolazione, dette parametri. Numero medio di parassiti nella popolazione (e non solo nel campione) Numero di pettirossi in una certa area, stimato partire dal numero di individui rimasti imprigionati nella rete in un giorno. I parametri si riferiscono alle popolazioni, sono generalmente ignoti, e si indicano quasi sempre con lettere greche. Le statistiche si riferiscono al campione, sono calcolabili, si indicano con lettere latine, e si utilizzano per stimare i parametri. 6 Popolazioni e campioni √ √ √ √ Tutti i gatti caduti dagli edifici di New York Tutti i geni del genoma umano Tutti gli individui maggiorenni in Australia Tutto i serpenti volanti del paradiso nel Borneo o http://homepage.mac.com/j.socha/video/video.html √ Tutti i bambini asmatici di Milano √ √ √ √ √ I gatti caduti portati in un singolo ambulatorio in un certo intervallo di tempo 20 geni umani Un pub in Australia frequentato da maggiorenni Otto serpenti volanti del Borneo 50 bambini asmatici a Milano 7 Un esempio sull’inferenza statistica I maschi di trota fario sono più grandi delle femmine? o Un biologo evoluzionista e un allevatore sono interessati alla domanda Pesano 40 individui adulti, 20 maschi e 20 femmine o Media dei maschi = 1,05 kg o Media delle femmine = 0,92 o Cosa concludere?? Nulla o la trota nella popolazione non è costituita solamente da 40 individui o la semplice intuizione dei fenomeni biologici e degli organismi viventi suggerisce che un secondo campione di 20 maschi e 20 femmine avrebbe potuto dare un risultato diverso E’ possibile fidarsi di risultati ottenuti in un campione se un ipotetico secondo campione potrebbe fornire risultati opposti? NO! 8 La variabilità sperimentale può portare per puro effetto del caso a risultati diversi in diversi campionamenti: 9 Il peso degli individui è influenzato da un numero elevatissimo di fattori, molti dei quali incontrollabili dallo sperimentatore o sconosciuti, e non solo, eventualmente, dall'appartenenza al sesso maschile o a quello femminile. Questa situazione è molto frequente nell'analisi dei fenomeni biologici perché esiste un'alta variabilità da individuo a individuo, ed è proprio per questo motivo che abbiamo bisogno del metodo statistico. A partire dall'osservazione parziale di un fenomeno (il campione di 40 trote), la statistica ci permette di trarre delle conclusioni valide in generale, quasi come se avessimo osservato interamente il fenomeno stesso (in questo caso la popolazione di tutte le trote). Quindi, prima di applicare il test statistico appropriato ai 40 pesi misurati, potremmo solamente dire: o nel nostro campione, i maschi do trota sono mediamente più grandi delle femmine. Dopo aver applicato il test statistico, invece, potremmo, per esempio, giungere ad una conclusione di questo genere: o l'analisi statistica indica che in generale i maschi di trota pesano di più delle femmine, e tale affermazione ha una probabilità di essere errata inferiore al 5%. 10 Quando si può fare a meno del metodo statistico? Assenza di variabilità: se tutti i 20 maschi avessero esattamente lo stesso peso, per esempio 1,10 chilogrammi, e tutte le 20 femmine pesassero invece per esempio 0.97 chilogrammi se il biologo evoluzionista e l'allevatore avessero pesato un numero enorme di trote Riuscite a immaginare molte variabili biologiche che si comportino come al punto 1 qui sopra? Oppure,ad un esperimento in campo biomedico nel quale tutti gli individui ai quali è stato somministrato un farmaco reagiscono nello stesso modo? E riuscite altresì a pensare ad una raccolta di dati estesa come quella al punto 2? 11 Un esperimento: i rospi sono destrimani? Un altro esempio sull’importanza della statistica inferenziale 12 La raccolta dei dati: campioni buoni e campioni meno buoni Le osservazioni che vogliamo analizzare possono provenire da un campionamento (per esempio, i pesi delle trote, ma anche le concentrazioni di un certo composto chimico in diversi terreni) oppure da un esperimento (per esempio, lo stato di salute dei pazienti trattati o meno con un farmaco). In entrambi i casi, il campione dei dati, deve essere rappresentativo della popolazione. Campioni casuali e campioni distorti Stime corrette e stime distorte Stime precise e stime imprecise 13 Un campione distorto: perché? 14 Un campione non è casuale, ma distorto, quando, 1) gli individui non hanno tutti la stessa probabilità di essere campionati, e/o 2) la probabilità di un individuo di essere campionato dipende dal fatto che sia stato campionato un altro individuo Esempi: - un botanico raccoglie solo piante più alte, o più vicine alla strada - si fanno sondaggi telefonici - si usano trappole o reti che selezionano gli animali - campiono più individui in una stessa famiglia 15 16 Il campione di convenienza e il campione di volontari sono spesso distorti (non rappresentativi) Esempi di campioni di convenienza - Lesioni dei gatti che cadono dai cornicioni stimati sulla base dei gatti “ospedalizzati” - Merluzzi stimati sulla base della pesca - Inchieste telefoniche Esempi di campione di volontari (uomo) - Campioni provenienti da individui pagati - Campioni di individui che si offrono di rispondere a domande “imbarazzanti” Come si ottiene un campione casuale? E’ sempre possibile ottenerlo? Vediamo un esempio con i 5699 alberi nella foresta di Harvard 17 18 Studi sperimentali e studi osservazionali Nei primi, lo sperimentatore assegna casualmente diversi trattamenti agli individui Per esempio, topi scelti a caso riceveranno un trattamento oppure no. Nei secondi, è la natura che assegna i trattamenti Per esempio, analizzo la relazione tra colorazione e predazione: non scelgo io il colore da assegnare a ciascun individuo. Oppure, studio la relazione tra fumo e tumore: non scelgo io i soggetti a cui somministrare il “trattamento fumo” Negli studi osservazionali, una relazione può essere dovuta ad una causa comune, non ad una relazione di causa ed effetto tra le due variabili analizzate. Per esempio, i pesci rossi sono meno predati di quelli rosa, ma in realtà potrebbe esserci una terza variabile (salute media) che determina colore e livello di predazione. Oppure, potrebbero essere gli individui più depressi che fumano, e il rischio di tumore potrebbe dipendere dalla depressione e non dal fumo. Se da uno studio osservazionale passo ad uno studio sperimentale (per esempio, in un campione pesci, metà scelti a caso li coloro di rosso e metà di rosa; oppure, scelgo a caso un certo numero di topi e li metto in gabbie con fumo, un altro numero in gabbie senza fumo), posso capire molto di più riguardo le relazioni di causa ed effetto.