Epidemiologia statistica Silvia Pilloni Professore: Contu Lezione 3 (parte seconda) 09 Aprile 2013 Stabilito quali dati ci serve misurare, dobbiamo decidere come misurarli, se usare moda, mediana o media. Prendiamo come esempio un grafico in cui siano presento due popolazioni: i blu e i verdi. La facilità di distinguere chi è blu o verde dipende dal punto di vista: c’è un punto in cui tutti possono essere blu e verdi, c’è una parte in cui è più alta la probabilità che siano verdi e una in cui siano blu. Inoltre questi blu e verdi fanno davvero parte di popolazioni diverse o ci sono capitati per caso? Dipende dai soggetti, infatti nella parte del grafico in cui sono localizzati verdi e blu insieme è più probabile che questi siano localizzati nell’una o nell’altra popolazione per caso. Inoltre se noi poniamo che i blu siano maschi e i verdi femmine, per alcuni parametri i blu e i verdi avranno valori differenti, mentre per altri le variazioni potrebbero essere non significative. Devianza, varianza e deviazione standard. Le dimensioni assolute della DISPERSIONE DEI DATI sono espresse dalla DEVIANZA S (x-media)2 Le dimensioni relative alle dimensioni della popolazione sono espresse dalla VARIANZA = DEVIANZA / (N-1) che è espressa in un’unità di misura elevata al quadrato (altezza media in cm, varianza in cm2). La DISPERSIONE DEI DATI è pertanto misurata con la DEVIAZIONE STANDARD (DS) = radice quadrata della 𝑽𝑨𝑹𝑰𝑨n𝒁𝑨 Evidentemente tutte le misure di DISPERSIONE sono calcolate intorno alla MEDIA e pertanto sono valide solo se la MEDIA è un PARAMETRO DELLA TENDENZA CENTRALE e quindi solo se la DISTRIBUZIONE è NORMALE –GAUSSIANA, cioè UNIMODALE e SIMMETRICA. La varianza è la devianza fratto il numero degli individui meno 1 e la deviazione standard è la radice quadrata della varianza. La formula della devianza è la sommatoria, la differenza tra il singolo individuo e il valore medio della popolazione, elevato al quadrato. Prendiamo in considerazione una popolazione composta da tutti cani neri: tutti i cani vengono pesati e si stabilisce che tra questi il cane rosso è quello che ha il peso medio. Come faccio a misurare la dispersione? La dispersione è la distanza che hanno tutti gli altri cani dalla media. Quindi io misuro la differenza di peso per tutti ottenendo una serie di valori. Se io li sommassi tutti, dato che in certi casi la misura è negativa e in altri è positiva (cioè in alcuni casi il risultato ottenuto può essere -20 in altri +20...), otterrei come risultato zero. Questa è una caratteristica della media, essendo la somma della qualità di tutti gli individui fratto il numero degli individui. Quindi non posso sommarle tutte. Del resto a me non interessa sapere se uno pesa venti in più o meno, ma solo che pesa venti chili di differenza. Perciò posso rendere tutti i valori positivi o mettendo il risultato come valore assoluto o elevandolo al quadrato. Infatti la devianza è la sommatoria del valore del singolo individuo meno la media, il tutto elevato al quadrato. La sua scomodità è dovuta al fatto che varia secondo la quantità dei valori che sommiamo : perciò ci interessa non la somma dei quadrati degli scarti ma la media dei quadrati degli scarti, quindi si farà la somma dei quadrati degli scarti diviso n (il numero dei valori che stiamo sommando, questo appunto per ottenere la media) meno uno. Il meno uno si fa sempre nel campione, il risultato viene leggermente più grande perché si considera che si sta prendendo un campione di un’intera popolazione, si può perdere un po’ della variabilità presente. Questo è importante però quando il campione è piccolo, perché più è piccolo il campione più questo (la variabilità che noi perdiamo non considerando singolarmente tutti gli individui appartenenti alla popolazione) influirà sul risultato finale. Facciamo un esempio: abbiamo dieci persone e sappiamo che il loro peso totale è di 700 kg. Quante ne devo pesare singolarmente per sapere quante pesano tutte e dieci? Bastano nove, perché conosco il totale. Lo stesso vale per la media, se io voglio misurare una variazione attorno alla media mi basta farla per n-1. È come dire che se in una classe ci sono sessanta sedie e gli alunni sono in totale sessanta, l’ultimo che arriva non deve decidere dove sedersi, non c’è più il grado di libertà. La varianza quindi ci da un risultato che come significato è uguale se la si misura su cento o su venti individui, ma passando alla derivazione standard riesco a misurare la dispersione, ovvero la misura in cui gli altri soggetti si allontanano dalla media. Ci dà un’interpretazione più precisa, ci dice qual è la distanza da cui un soggetto si discosta dalla media. Prendiamo popolazioni diverse: cani e gatti. Li peso tutti, che differenza trovo? Tra i cani c’è una differenza di peso interpopolazione molto elevata (ci saranno alani e chihuaua) ma tra i gatti la differenza di peso è molto limitata. Perciò facendo un grafico delle derivazioni standard avremo grafici diversi. Questo è importante a livello pratico ad esempio per sapere come dosare un farmaco. Avendo una distribuzione più piccola, nei gatti il dosaggio del farmaco sarà uguale per tutti mentre nei cani il dosaggio dipenderà dalla taglia dell’animale. Questo vale anche in medicina: nell’adulto avremo un certo tipo di distribuzione, e il dosaggio potrà essere uguale per tutti, ma per i bambini (data la grande variabilità) si fa un dosaggio per chilo. Analizziamo la dinamica di un fenomeno casuale: questo, come tale, ovviamente farà in modo che una variabile abbia diversi valori, che dipendono da diversi fattori, ma ad un certo punto la curva che otterremo assomiglierà ad una gaussiana. All’inizio, quando si hanno a disposizione pochi individui non si può prevedere l’andamento generale della curva, ma avendo più individui possiamo dire che tutte le situazioni naturali che misuriamo in medicina finiscono per avere una distribuzione gaussiana. Questo perché dipenderanno da una serie di variabili, per lo più dicotomiche, che faranno i modo che alla fine si ottenga una distribuzione che viene detta normale, appunto perché si verifica frequentemente, o gaussiana, perché Gauss fu il primo a descriverla. La probabilità si calcola con una formula in cui P(x) sta per la probabilità che una variabile abbia un certo valore. (il professore specifica che non dobbiamo saperla, ammettendo che anche lui stenta a ricordarla spesso e volentieri, la trovate nelle slide). Come possiamo vedere se io conosco la media e la deviazione standard, ho già il risultato. Ciò significa che dopo aver costruito questi due valori io sono in grado di tracciare la gaussiana, cioè tutti i dati che vengono raccolti con l’indagine alla fine si riducono alla gaussiana. La curva ovviamente può essere diversa, può essere più o meno alta secondo i valori presi in esame. Questo metodo ha avuto successo perché nello spazio della gaussiana che sta tra il punto corrispondente alla media meno la deviazione standard e la media più la deviazione standard sta il 68,3 % della popolazione che corrisponde a più di due terzi (il 66%). Perciò posso dire che la maggior parte della popolazione sta all’interno di questi valori; prendendo due variazioni standard lascerò fuori solo un 5% , l’eccezione, distribuito agli estremi della curva (un 2,5% avrà valori molto più bassi, l’altro 2,5% molto più alti della media). Questo è un dato importante per esempio nei test di laboratorio: quando io ottengo un valore che va oltre le due deviazioni standard dalla media lo considero come dato anomalo. Posso esprimere questi dati anche in maniera diversa, spesso usata in pediatria: la funzione di ripartizione mi dice come si distribuisce quel dato, la funzione cumulativa indica la quantità di individui che hanno almeno quel valore, andando dallo 0 fino al100% . Ad esempio avendo un neonato che pesa 2,8 kg ne ho un 40% che pesa meno di lui e un 60% che pesa di più, all’interno della curva lo troverò al 0,40. Questa misura è detta percentile, e questo neonato sarà al quarantesimo percentile, cioè il 40% dei neonati pesano meno di lui e il 60% più di lui. Il cinquantesimo percentile è la mediana, perché avrà lo stesso numero di neonati che pesano di più e di meno di lui. Si usa in pediatria per valutare il peso dei neonati e la crescita del bambino nei primi anni di vita. Ovviamente queste misure devono essere adattate alla popolazione a cui si rivolge: sono state via via adattate alle variazioni tra le varie popolazioni (sono state fatte prima nazionali,poi regionali). Il venticinquesimo e il settantacinquesimo percentile sono i quartili e ci interessano per vedere la distribuzione generale. Il vantaggio dei percentili è che possono essere usati senza fare la gaussiana. Posso fare una serie di calcoli per valutare la gaussiana con un programma con Excel: ad esempio ci consente di individuare il minimo e il massimo, la media, la mediana e la moda (questi ultimi tre valori nella gaussiana sono grosso modo coincidenti), la deviazione standard, la varianza. Altri vantaggi sono che i dati che abbiamo raccolto possono essere valutati da programmi di statistica a pagamento e non.