LE BASI DELLA STATISTICA E LA RACCOLTA DEI DATI
Tre punti importanti
o Dati e ipotesi
In tutte le discipline scientifiche che studiano gli organismi viventi, molto raramente i
dati ottenuti attraverso un esperimento oppure raccolti in natura ci permettono di
giungere ad una conclusione con una certezza del 100%.
La statistica ci aiuta in maniera oggettiva, numericamente, ad analizzare le diverse
ipotesi: lo studio e l'interpretazione dei fenomeni biologici dipende quindi
strettamente dal metodo statistico.
o Statistica e computer
Il personal computer non ha reso inutile l'insegnamento della statistica.
Nelle analisi statistiche il personal computer svolge solo le funzioni più noiose e
meno importanti: ricordare le formule e applicarle velocemente ai dati riducendo il
rischio di fare errori. Bisogna però capire il principio di un’analisi, decidere se tale
analisi è adatta ai dati disponibili, e saperne interpretare il risultato.
o Formule, test, concetti, ed esempi
Alla fine di un corso universitario di statistica destinato alle lauree nelle scienze della
vita, uno studente non dovrebbe ricordarsi solo gli aspetti tecnici o matematici di
questa disciplina. Risulterà invece fondamentale aver capito a cosa serve la
statistica, quando serve, e perché funziona in quel modo. A tale scopo aiuta molto
avere sempre in mente uno o più esempi specifici per ogni tipo di analisi.
2
Cos’è la statistica?
Lo studio scientifico dei dati. Quando l’applicazione dei metodi statistici ha lo scopo di
descrivere e comprendere i fenomeni di tipo biologico, si preferisce a volte utilizzare il termine
“biometria”.
La statistica descrittiva viene utilizzata per riassumere e rappresentare i dati
o 100 persone scelte a caso: quanti figli hanno? (se avesse intervistato altre 100 persone,
sempre scelte a caso, avrebbe ottenuto una media diversa)
o dove preferite fare le vacanze?
o Percentuale guarigioni in 50 pazienti controllo e 50 pazienti trattati (il risultato implica che il
farmaco sia efficace?)
o La statistica descrittiva può essere anche molto complessa, ed è sempre molto utile come
indagine preliminare dei risultati ottenuti, ma alla fine ci fornisce solo una sintesi dei dati
e/o ci facilita la loro lettura attraverso un grafico.
3
La statistica inferenziale (la “vera” statistica) ci permette di generalizzare, con un certo grado
di sicurezza, le conclusioni suggerite dall’analisi dei dati raccolti.
o Per esempio, se dall’analisi di un campione di 100 individui calcolo il valore medio del
numero medio di figli, la statistica inferenziale mi permette di dire qualcosa sulla media
del numero di figli nella popolazione dalla quale proviene il campione.
o In questo caso, attraverso il calcolo di una statistica (la media nel campione) possiamo
dire qualcosa riguardo ad un parametro (la media nella popolazione): Stima di
parametri
o Test (o verifica) delle ipotesi: una volta definite delle ipotesi e analizzato un campione, di
definire oggettivamente, assegnando un livello di probabilità (ossia di certezza), quale
ipotesi è maggiormente compatibile con i dati.
Nell’esempio precedente del farmaco, definite le due ipotesi “il farmaco funziona” e “il
farmaco non funziona”, la statistica inferenziale ci permette di dire qualcosa in
generale, nella popolazione cioè, sull’efficacia del farmaco, e non solo sulla
differenza osservata in un campione di 100 pazienti.
4
Il processo inferenziale. Tutta la statistica inferenziale, e cioè tutta la statistica “vera”, è basata su
questo processo, che permette, con un certo grado di certezza, di estendere alla popolazione (il
fenomeno in senso lato) le conclusioni ottenute osservando un campione (una parte del fenomeno).
5
Il campione: è semplicemente l'insieme degli elementi (detti anche unità campionarie o
sperimentali) sui quali effettuiamo misure o osservazioni (per esempio, 20 marmotte catturate
con trappole).
o Costituisce una frazione della popolazione statistica, un gruppo più grande di elementi che
potenzialmente potremmo osservare e misurare.
La popolazione: può corrispondere ad un insieme finito di individui che hanno alcune
caratteristiche in comune (per esempio, tutte le marmotte che vivono nelle Alpi)
o In generale, comunque, si preferisce definire la popolazione statistica come un insieme
infinito di elementi
La statistica: definisce generalmente una disciplina scientifica, le scienze statistiche, ma una
statistica è anche una qualsiasi misura ottenuta elaborando i dati raccolti nel campione.
o Numero medio di parassiti osservati in 10 trote
o Numero di pettirossi catturati con una rete in una giornata è una statistica.
Una parte del processo inferenziale consiste nell'utilizzo delle statistiche per stimare alcune
caratteristiche della popolazione, dette parametri.
Numero medio di parassiti nella popolazione (e non solo nel campione)
Numero di pettirossi in una certa area, stimato partire dal numero di individui rimasti
imprigionati nella rete in un giorno.
I parametri si riferiscono alle popolazioni, sono generalmente ignoti, e si indicano quasi sempre
con lettere greche. Le statistiche si riferiscono al campione, sono calcolabili, si indicano con
lettere latine, e si utilizzano per stimare i parametri.
6
Popolazioni e campioni
√
√
√
√
Tutti i gatti caduti dagli edifici di New York
Tutti i geni del genoma umano
Tutti gli individui maggiorenni in Australia
Tutto i serpenti volanti del paradiso nel Borneo
o http://homepage.mac.com/j.socha/video/video.html
√ Tutti i bambini asmatici di Milano
√
√
√
√
√
I gatti caduti portati in un singolo ambulatorio in un certo intervallo di tempo
20 geni umani
Un pub in Australia frequentato da maggiorenni
Otto serpenti volanti del Borneo
50 bambini asmatici a Milano
7
Un esempio sull’inferenza statistica
I maschi di trota fario sono più grandi delle femmine?
o Un biologo evoluzionista e un allevatore sono interessati
alla domanda
Pesano 40 individui adulti, 20 maschi e 20 femmine
o Media dei maschi = 1,05 kg
o Media delle femmine = 0,92
o Cosa concludere??
Nulla
o la trota nella popolazione non è costituita solamente da 40
individui
o la semplice intuizione dei fenomeni biologici e degli organismi viventi suggerisce che un
secondo campione di 20 maschi e 20 femmine avrebbe potuto dare un risultato diverso
E’ possibile fidarsi di risultati ottenuti in un campione se un ipotetico secondo campione
potrebbe fornire risultati opposti? NO!
8
La variabilità sperimentale può portare per puro effetto del caso a risultati diversi in diversi
campionamenti:
9
Il peso degli individui è influenzato da un numero elevatissimo di fattori, molti dei quali
incontrollabili dallo sperimentatore o sconosciuti, e non solo, eventualmente, dall'appartenenza
al sesso maschile o a quello femminile.
Questa situazione è molto frequente nell'analisi dei fenomeni biologici perché esiste un'alta
variabilità da individuo a individuo, ed è proprio per questo motivo che abbiamo bisogno del
metodo statistico.
A partire dall'osservazione parziale di un fenomeno (il campione di 40 trote), la statistica ci
permette di trarre delle conclusioni valide in generale, quasi come se avessimo osservato
interamente il fenomeno stesso (in questo caso la popolazione di tutte le trote).
Quindi, prima di applicare il test statistico appropriato ai 40 pesi misurati, potremmo solamente
dire:
o nel nostro campione, i maschi do trota sono mediamente più grandi delle femmine.
Dopo aver applicato il test statistico, invece, potremmo, per esempio, giungere ad una
conclusione di questo genere:
o l'analisi statistica indica che in generale i maschi di trota pesano di più delle femmine, e
tale affermazione ha una probabilità di essere errata inferiore al 5%.
10
Quando si può fare a meno del metodo statistico?
Assenza di variabilità: se tutti i 20 maschi avessero esattamente lo stesso peso, per esempio
1,10 chilogrammi, e tutte le 20 femmine pesassero invece per esempio 0.97 chilogrammi
se il biologo evoluzionista e l'allevatore avessero pesato un numero enorme di trote
Riuscite a immaginare molte variabili biologiche che si comportino come al punto 1 qui sopra?
Oppure,ad un esperimento in campo biomedico nel quale tutti gli individui ai quali è stato
somministrato un farmaco reagiscono nello stesso modo?
E riuscite altresì a pensare ad una raccolta di dati estesa come quella al punto 2?
11
Un esperimento: i rospi sono destrimani?
Un altro esempio sull’importanza della statistica inferenziale
12
La raccolta dei dati: campioni buoni e campioni meno buoni
Le osservazioni che vogliamo analizzare possono provenire da un campionamento (per
esempio, i pesi delle trote, ma anche le concentrazioni di un certo composto chimico in diversi
terreni) oppure da un esperimento (per esempio, lo stato di salute dei pazienti trattati o meno
con un farmaco). In entrambi i casi, il campione dei dati, deve essere rappresentativo della
popolazione.
Campioni casuali e campioni distorti
Stime corrette e stime distorte
Stime precise e stime imprecise
13
Un campione distorto: perché?
14
Un campione non è casuale, ma distorto, quando,
1) gli individui non hanno tutti la stessa probabilità di essere campionati, e/o
2) la probabilità di un individuo di essere campionato dipende dal fatto che sia stato campionato un
altro individuo
Esempi:
- un botanico raccoglie solo piante più alte, o più vicine alla strada
- si fanno sondaggi telefonici
- si usano trappole o reti che selezionano gli animali
- campiono più individui in una stessa famiglia
15
16
Il campione di convenienza e il campione di volontari sono spesso distorti (non rappresentativi)
Esempi di campioni di convenienza
- Lesioni dei gatti che cadono dai cornicioni stimati sulla base dei gatti “ospedalizzati”
- Merluzzi stimati sulla base della pesca
- Inchieste telefoniche
Esempi di campione di volontari (uomo)
- Campioni provenienti da individui pagati
- Campioni di individui che si offrono di rispondere a domande “imbarazzanti”
Come si ottiene un campione casuale?
E’ sempre possibile ottenerlo?
Vediamo un esempio con i 5699 alberi nella foresta di Harvard
17
18
Studi sperimentali e studi osservazionali
Nei primi, lo sperimentatore assegna casualmente diversi trattamenti agli individui
Per esempio, topi scelti a caso riceveranno un trattamento oppure no.
Nei secondi, è la natura che assegna i trattamenti
Per esempio, analizzo la relazione tra colorazione e predazione: non scelgo io il colore da
assegnare a ciascun individuo.
Oppure, studio la relazione tra fumo e tumore: non scelgo io i soggetti a cui somministrare il
“trattamento fumo”
Negli studi osservazionali, una relazione può essere dovuta ad una causa comune, non ad una
relazione di causa ed effetto tra le due variabili analizzate.
Per esempio, i pesci rossi sono meno predati di quelli rosa, ma in realtà potrebbe esserci una
terza variabile (salute media) che determina colore e livello di predazione.
Oppure, potrebbero essere gli individui più depressi che fumano, e il rischio di tumore potrebbe
dipendere dalla depressione e non dal fumo.
Se da uno studio osservazionale passo ad uno studio sperimentale (per esempio, in un campione
pesci, metà scelti a caso li coloro di rosso e metà di rosa; oppure, scelgo a caso un certo numero di
topi e li metto in gabbie con fumo, un altro numero in gabbie senza fumo), posso capire molto di più
riguardo le relazioni di causa ed effetto.