Epidemiologia statistica Silvia Pilloni Professore: Contu Lezione 3

Epidemiologia statistica
Silvia Pilloni
Professore: Contu
Lezione 3 (parte seconda)
09 Aprile 2013
Stabilito quali dati ci serve misurare, dobbiamo decidere come misurarli, se usare moda, mediana
o media.
Prendiamo come esempio un grafico in cui siano presento due popolazioni: i blu e i verdi. La
facilità di distinguere chi è blu o verde dipende dal punto di vista: c’è un punto in cui tutti possono
essere blu e verdi, c’è una parte in cui è più alta la probabilità che siano verdi e una in cui siano
blu. Inoltre questi blu e verdi fanno davvero parte di popolazioni diverse o ci sono capitati per
caso? Dipende dai soggetti, infatti nella parte del grafico in cui sono localizzati verdi e blu insieme
è più probabile che questi siano localizzati nell’una o nell’altra popolazione per caso. Inoltre se noi
poniamo che i blu siano maschi e i verdi femmine, per alcuni parametri i blu e i verdi avranno
valori differenti, mentre per altri le variazioni potrebbero essere non significative.
Devianza, varianza e deviazione standard.
Le dimensioni assolute della DISPERSIONE DEI DATI sono espresse dalla
DEVIANZA S (x-media)2
Le dimensioni relative alle dimensioni della popolazione sono espresse dalla
VARIANZA = DEVIANZA / (N-1)
che è espressa in un’unità di misura elevata al quadrato (altezza media in cm, varianza in cm2).
La DISPERSIONE DEI DATI è pertanto misurata con la
DEVIAZIONE STANDARD (DS) = radice quadrata della 𝑽𝑨𝑹𝑰𝑨n𝒁𝑨
Evidentemente tutte le misure di DISPERSIONE sono calcolate intorno alla MEDIA e pertanto
sono valide solo se la MEDIA è un PARAMETRO DELLA TENDENZA CENTRALE e quindi solo
se la DISTRIBUZIONE è NORMALE –GAUSSIANA, cioè UNIMODALE e SIMMETRICA.
La varianza è la devianza fratto il numero degli individui meno 1 e la deviazione standard è la
radice quadrata della varianza. La formula della devianza è la sommatoria, la differenza tra il
singolo individuo e il valore medio della popolazione, elevato al quadrato.
Prendiamo in considerazione una popolazione composta da tutti cani neri: tutti i cani vengono
pesati e si stabilisce che tra questi il cane rosso è quello che ha il peso medio. Come faccio a
misurare la dispersione? La dispersione è la distanza che hanno tutti gli altri cani dalla media.
Quindi io misuro la differenza di peso per tutti ottenendo una serie di valori. Se io li sommassi
tutti, dato che in certi casi la misura è negativa e in altri è positiva (cioè in alcuni casi il risultato
ottenuto può essere -20 in altri +20...), otterrei come risultato zero. Questa è una caratteristica
della media, essendo la somma della qualità di tutti gli individui fratto il numero degli individui.
Quindi non posso sommarle tutte. Del resto a me non interessa sapere se uno pesa venti in più o
meno, ma solo che pesa venti chili di differenza. Perciò posso rendere tutti i valori positivi o
mettendo il risultato come valore assoluto o elevandolo al quadrato. Infatti la devianza è la
sommatoria del valore del singolo individuo meno la media, il tutto elevato al quadrato.
La sua scomodità è dovuta al fatto che varia secondo la quantità dei valori che sommiamo : perciò
ci interessa non la somma dei quadrati degli scarti ma la media dei quadrati degli scarti, quindi si
farà la somma dei quadrati degli scarti diviso n (il numero dei valori che stiamo sommando, questo
appunto per ottenere la media) meno uno. Il meno uno si fa sempre nel campione, il risultato
viene leggermente più grande perché si considera che si sta prendendo un campione di un’intera
popolazione, si può perdere un po’ della variabilità presente. Questo è importante però quando il
campione è piccolo, perché più è piccolo il campione più questo (la variabilità che noi perdiamo
non considerando singolarmente tutti gli individui appartenenti alla popolazione) influirà sul
risultato finale.
Facciamo un esempio: abbiamo dieci persone e sappiamo che il loro peso totale è di 700 kg.
Quante ne devo pesare singolarmente per sapere quante pesano tutte e dieci? Bastano nove,
perché conosco il totale. Lo stesso vale per la media, se io voglio misurare una variazione attorno
alla media mi basta farla per n-1. È come dire che se in una classe ci sono sessanta sedie e gli
alunni sono in totale sessanta, l’ultimo che arriva non deve decidere dove sedersi, non c’è più il
grado di libertà.
La varianza quindi ci da un risultato che come significato è uguale se la si misura su cento o su
venti individui, ma passando alla derivazione standard riesco a misurare la dispersione, ovvero la
misura in cui gli altri soggetti si allontanano dalla media. Ci dà un’interpretazione più precisa, ci
dice qual è la distanza da cui un soggetto si discosta dalla media.
Prendiamo popolazioni diverse: cani e gatti. Li peso tutti, che differenza trovo? Tra i cani c’è una
differenza di peso interpopolazione molto elevata (ci saranno alani e chihuaua) ma tra i gatti la
differenza di peso è molto limitata. Perciò facendo un grafico delle derivazioni standard avremo
grafici diversi. Questo è importante a livello pratico ad esempio per sapere come dosare un
farmaco. Avendo una distribuzione più piccola, nei gatti il dosaggio del farmaco sarà uguale per
tutti mentre nei cani il dosaggio dipenderà dalla taglia dell’animale. Questo vale anche in
medicina: nell’adulto avremo un certo tipo di distribuzione, e il dosaggio potrà essere uguale per
tutti, ma per i bambini (data la grande variabilità) si fa un dosaggio per chilo.
Analizziamo la dinamica di un fenomeno casuale: questo, come tale, ovviamente farà in modo che
una variabile abbia diversi valori, che dipendono da diversi fattori, ma ad un certo punto la curva
che otterremo assomiglierà ad una gaussiana. All’inizio, quando si hanno a disposizione pochi
individui non si può prevedere l’andamento generale della curva, ma avendo più individui
possiamo dire che tutte le situazioni naturali che misuriamo in medicina finiscono per avere una
distribuzione gaussiana. Questo perché dipenderanno da una serie di variabili, per lo più
dicotomiche, che faranno i modo che alla fine si ottenga una distribuzione che viene detta
normale, appunto perché si verifica frequentemente, o gaussiana, perché Gauss fu il primo a
descriverla.
La probabilità si calcola con una formula in cui P(x) sta per la probabilità che una variabile abbia un
certo valore.
(il professore specifica che non dobbiamo saperla, ammettendo che anche lui stenta a ricordarla
spesso e volentieri, la trovate nelle slide).
Come possiamo vedere se io conosco la media e la deviazione standard, ho già il risultato. Ciò
significa che dopo aver costruito questi due valori io sono in grado di tracciare la gaussiana, cioè
tutti i dati che vengono raccolti con l’indagine alla fine si riducono alla gaussiana. La curva
ovviamente può essere diversa, può essere più o meno alta secondo i valori presi in esame.
Questo metodo ha avuto successo perché nello spazio della gaussiana che sta tra il punto
corrispondente alla media meno la deviazione standard e la media più la deviazione standard sta il
68,3 % della popolazione che corrisponde a più di due terzi (il 66%). Perciò posso dire che la
maggior parte della popolazione sta all’interno di questi valori; prendendo due variazioni standard
lascerò fuori solo un 5% , l’eccezione, distribuito agli estremi della curva (un 2,5% avrà valori molto
più bassi, l’altro 2,5% molto più alti della media). Questo è un dato importante per esempio nei
test di laboratorio: quando io ottengo un valore che va oltre le due deviazioni standard dalla
media lo considero come dato anomalo.
Posso esprimere questi dati anche in maniera diversa, spesso usata in pediatria: la funzione di
ripartizione mi dice come si distribuisce quel dato, la funzione cumulativa indica la quantità di
individui che hanno almeno quel valore, andando dallo 0 fino al100% .
Ad esempio avendo un neonato che pesa 2,8 kg ne ho un 40% che pesa meno di lui e un 60% che
pesa di più, all’interno della curva lo troverò al 0,40. Questa misura è detta percentile, e questo
neonato sarà al quarantesimo percentile, cioè il 40% dei neonati pesano meno di lui e il 60% più di
lui. Il cinquantesimo percentile è la mediana, perché avrà lo stesso numero di neonati che pesano
di più e di meno di lui.
Si usa in pediatria per valutare il peso dei neonati e la crescita del bambino nei primi anni di vita.
Ovviamente queste misure devono essere adattate alla popolazione a cui si rivolge: sono state via
via adattate alle variazioni tra le varie popolazioni (sono state fatte prima nazionali,poi regionali). Il
venticinquesimo e il settantacinquesimo percentile sono i quartili e ci interessano per vedere la
distribuzione generale. Il vantaggio dei percentili è che possono essere usati senza fare la
gaussiana.
Posso fare una serie di calcoli per valutare la gaussiana con un programma con Excel: ad esempio
ci consente di individuare il minimo e il massimo, la media, la mediana e la moda (questi ultimi tre
valori nella gaussiana sono grosso modo coincidenti), la deviazione standard, la varianza. Altri
vantaggi sono che i dati che abbiamo raccolto possono essere valutati da programmi di statistica a
pagamento e non.