Università del Piemonte Orientale Corso di Laurea in Biotecnologie Corso di Statistica Medica Statistica Descrittiva: Variabili numeriche Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 1 In questa lezione parleremo di: Misure di tendenza centrale e di variabilità Media Deviazione Standard Coefficiente di Variazione Mediana Percentili Diagrammi a scatola e baffi (Box Plot) Diagrammi a punti Media geometrica Trasformazione logaritmica Media calcolata su dati raggruppati Moda Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 2 Misure di tendenza centrale Misure di variabilità Media (aritmetica) • Deviazione Standard • Coefficiente di variazione Mediana • Range • Percentili • Range interquartile Media geometrica Moda Queste statistiche possono essere calcolate solo per variabili numeriche! Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 3 Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. • Media aritmetica: Il valore medio di una variabile in un gruppo di osservazioni si calcola sommando il valore della variabile per ciascuna osservazione e dividendo il risultato per il numero di osservazioni. n Media = X = = (x1 + x2+ x3+ x4+ x5+ Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici ∑x i =1 i n + xn-1 + xn) / n 4 Simboli: Σ = sommatoria = (x1 + x2+ x3+ x4+ x5+ + xn-1 + xn) xi = i-esima osservazione n = numero totale di osservazioni n ∑ i =1 Indica la sommatoria di tutte le osservazioni, dalla prima (i=1) all’ultima (i=n) Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 5 Esempio = Calcolo di media Variabile = altezza; variabile numerica; Campione = 20 soggetti x 1,64 1,74 1,65 1,80 1,58 1,76 1,55 1,72 1,60 1,69 1,75 1,81 1,58 1,76 1,57 1,72 1,70 1,77 1,71 1,87 Totale = 33,97 Media= 33,97 / 20 = 1,699 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 6 Quanti decimali? Quando presentate il risultato di una media usate un decimale in più di quanti ne sono stati usati per i dati. Nei calcoli e nei risultati intermedi mantenete una precisione maggiore ( almeno 2 o 3 decimali in più di quanti ne sono stati usati per i dati). Se utilizzate un calcolatore arrotondate solo il risultato finale. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 7 2 1,8 1,6 Altezza 1,4 1,2 1 0,8 0,6 0,4 0,2 0 0 5 10 15 20 25 Case Number Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 8 0,2 0,15 Residual 0,1 0,05 0 -0,05 0 5 10 15 20 25 -0,1 -0,15 -0,2 Case Number Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 9 Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media. Per spiegare la deviazione standard è utile esaminare prima le statistiche Devianza e Varianza. La Devianza è la somma dei quadrati delle differenze (scarti) tra il valore della variabile e la media. n dev = ∑ i =1 (x − X ) 2 i La Varianza è la devianza divisa per (numero di osservazioni – 1) (si può definire anche come la media degli scarti quadratici). Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 10 n var = dev /(n − 1) = ( ∑ xi − X i =1 ) 2 (n − 1) La Deviazione Standard è la radice quadrata della varianza. ∑ (xi − X ) n DS = 2 i =1 (n − 1) Deviazione standard calcolata su un campione -> il denominatore è (n-1). Deviazione standard calcolata sulla popolazione -> il denominatore è (n). Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 11 Esempio di due distribuzioni di frequenza calcolate su un numero infinito di osservazioni e caratterizzate dalla stessa media ma da due diverse deviazioni standard. y 0 .4 0 0 .3 8 0 .3 6 0 .3 4 0 .3 2 DS=1 0 .3 0 0 .2 8 0 .2 6 0 .2 4 0 .2 2 0 .2 0 0 .1 8 0 .1 6 0 .1 4 DS=2 0 .1 2 0 .1 0 0 .0 8 0 .0 6 0 .0 4 0 .0 2 0 .0 0 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 x Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 12 Coefficiente di Variazione E’ il rapporto tra deviazione standard e media. Viene espresso in percentuale. DS CV % = ∗ 100 x Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 13 Esempio = Calcolo di media e deviazione standard Variabile = altezza - Campione = 20 soggetti (x ) xi xi − x 1,64 -0,05850 0,00342 1,74 0,04150 0,00172 1,65 -0,04850 0,00235 1,8 0,10150 0,01030 1,58 -0,11850 0,01404 1,76 0,06150 0,00378 1,55 -0,14850 0,02205 1,72 0,02150 0,00046 1,6 -0,09850 0,00970 1,69 -0,00850 0,00007 1,75 0,05150 0,00265 1,81 0,11150 0,01243 1,58 -0,11850 0,01404 1,76 0,06150 0,00378 1,57 -0,12850 0,01651 1,72 0,02150 0,00046 1,7 0,00150 0,00000 1,77 0,07150 0,00511 1,71 0,01150 0,00013 1,87 0,17150 0,02941 i −x 2 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 15 Media= 1,699 Varianza= 0,008 DS= 0,090 CV% 5,2% Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 16 Mediana Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la mediana corrisponde al valore dell’osservazione che occupa la posizione centrale della distribuzione. Se il numero di osservazioni è pari abbiamo due osservazioni centrali: la mediana sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali. N/2; N/2 +1 La media e la mediana coincidono nel caso di distribuzioni simmetriche. Se la distribuzione è asimmetrica la media è maggiormente influenzata dall’asimmetria e dai valori estremi. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 17 Esempio = Calcolo di mediana Variabile = altezza - Campione = 20 soggetti 1 1,55 2 1,57 3 1,58 4 1,58 5 1,60 6 1,64 7 1,65 8 1,69 9 1,70 10 1,71 11 1,72 12 1,72 13 1,74 14 1,75 15 1,76 16 1,76 17 1,77 18 1,80 19 1,81 20 1,87 Mediana= (1,71 + 1,72) /2 = 1,715 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 18 Percentili: valori della variabile che delimitano specificate frazioni della distribuzione cumulativa dei dati ordinati in senso crescente. Alcuni sinonimi 1° quartile = 25° percentile mediana = 50° percentile 3° quartile = 75° percentile Range interquartili = 75° percentile - 25° percentile La procedura più semplice per il calcolo dei percentili si basa sull’uso della distribuzione cumulativa. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 19 ETA Frequency 32 2 41 2 42 6 44 6 45 4 46 8 47 4 49 8 50 4 51 6 52 4 54 12 55 6 56 8 57 8 58 8 59 14 60 12 61 20 62 20 63 22 64 38 65 20 66 32 67 18 68 8 69 22 70 22 71 8 72 18 73 24 74 14 75 4 76 6 77 4 79 4 83 2 92 2 totale 430 Percent 0.5 0.5 1.4 1.4 0.9 1.9 0.9 1.9 0.9 1.4 0.9 2.8 1.4 1.9 1.9 1.9 3.3 2.8 4.7 4.7 5.1 8.8 4.7 7.4 4.2 1.9 5.1 5.1 1.9 4.2 5.6 3.3 0.9 1.4 0.9 0.9 0.5 0.5 100.0 .Cumulative Frequency 2 4 10 16 20 28 32 40 44 50 54 66 72 80 88 96 110 122 142 162 184 222 242 274 292 300 322 344 352 370 394 408 412 418 422 426 428 430 430 Cumulative Percent 0.5 0.9 2.3 3.7 4.7 6.5 7.4 9.3 10.2 11.6 12.6 15.3 16.7 18.6 20.5 22.3 25.6 28.4 33.0 37.7 42.8 51.6 56.3 63.7 67.9 69.8 74.9 80.0 81.9 86.0 91.6 94.9 95.8 97.2 98.1 99.1 99.5 100.0 100.0 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 10° percentile=50 25° percentile=59 Mediana= 64 75° percentile=70 20 35 75° percentile 25° percentile Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 21 Formule per il calcolo di percentili, data una sequenza ordinata n: numero di osservazioni k: percentile di interesse se n*k /100 è un intero il percentile cercato sarà la media del valore della variabile delle due osservazioni che occupano le seguenti posizioni nella sequenza ordinata: - n k 100 e k + 1 n 100 es. calcolate il 30° percentile in una serie di 250 osservazioni. 250 * 30 /100 = 75 30esimo percentile = media _ delle _ osservazioni _ in _ posizione : 250 30 30 e 250 + 1 = media tra il valore della osservazione che 100 100 occupa la 75 posizione ed il valore della osservazione che occupa la 76 posizione. se n*k /100 non è intero k k - esimo percentile = int ero n + 1 100 es. calcolate il 25° percentile in una serie di 130 osservazioni. 130 * 25 /100 = 32,5 25° percentile = valore della osservazione che occupa la 33 posizione (32+1=33). Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 22 Un esempio di output di un programma di calcolo Numero osservazioni 430 Mean 63.4325581 Std Deviation 8.79997142 Variance 77.4394969 Coeff Variation 13.8729568 Median 64.00000 Quantile (percentile) 99% 79 95% 75 90% 73 75% 70 50% Mediana 64 25% 59 10% 50 5% 46 1% 42 Interquartile Range 11.00000 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 23 La rappresentazione grafica di dati/variabili numeriche Box plot (diagramma a scatola e baffi) Fornisce una rappresentazione grafica che presenta i valori di mediana e quartili (25% e 75% percentile), sotto forma di una scatola ed altri valori di dispersione, indicati come ‘baffi’. La definizione della ‘scatola’ (mediana e range interquartile) è universale. Non esiste invece una definizione universale per quanto riguarda i ‘baffi’. L’esempio seguente costruito usando il package statistico SPSS si usa il range (valore minimo e valore massimo). Il testo di Pagano e Gauvreau (p.19) usa invece i ‘valori adiacenti’, definiti come - Valore minimo osservato > (1° quartile – 1,5 * range interquartile) - Valore massimo osservato < (3° quartile + 1,5 * range interquartile) Altri autori hanno proposto definizioni ancora diverse (es. 5° e 95° percentile). Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 24 Dati originali (sono riportate anche altre variabili) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Hb 111 107 124 140 131 105 96 125 135 139 151 139 162 163 168 171 166 169 157 165 PCV% 35 45 47 50 31 30 25 33 35 40 45 47 49 42 40 50 46 55 42 46 Età_anni 20 22 25 28 28 31 32 35 38 40 45 49 54 55 57 60 62 63 65 67 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici menopausa 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 1 25 Esempio: livello di emoglobina in un campione di 20 donne. Dati elaborati con SPSS Hb Min: 96.00000 1st Qu.: 124.75000 Median: 139.50000 3rd Qu.: 163.50000 Max: 171.00000 Total N: 20.00000 NA's : 0.00000 numero di val mancanti Mean: 141.20000 Std Dev.: 24.01885 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 26 Box plot del livello di emoglobina in un campione di 20 donne. Dati elaborati con SPSS 160 Quartili 140 Mediana Media H b 120 Range 100 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 27 Rappresentazione grafica di dati definiti da 2 variabili, di cui: Una variabile quantitativa/numerica e l’altra nominale / ordinale Attenzione, alle variabili numeriche possono essere applicati i metodi descrittivi visti durante la lezione precedente (frequenze, frequenze cumulative, istogrammi) Questi metodi possono essere usati anche per confrontare diversi gruppi di soggetti, ad esempio disegnando diversi istogrammi. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 28 Diagramma a punti. Distribuzione di frequenza di una variabile continua (Concentrazione di Emoglobina), separatamente per i due sottogruppi definiti dalla variabile Menopausa (0= no, 1= si). 160 140 Singola osservazione Hb 120 100 0 1 menopausaaa Diagramma a punti: è adatto quando il numero di osservazioni in ciascuna categoria non è troppo grande. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 29 Rappresentazione grafica di dati definiti da 2 variabili quantitative SOMMINISTRAZIONE GENERAL HEALTH QUESTIONNAIRE (GHQ) 25 20 2° TEST 15 10 5 0 0 5 10 15 20 25 1° TEST r = 0.90 (Coefficiente di regressione, sarà spiegato successivamente) Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 30 Media geometrica e trasformazione logaritmica Talora la distribuzione dei dati originali è fortemente asimmetrica. Può essere utile (i motivi saranno approfonditi in seguito) calcolare una funzione dei dati originali tale che la sua distribuzione sia simmetrica. La funzione usata più comunemente è quella logaritmica. Il logaritmo della media geometrica corrisponde alla media aritmetica dei logaritmi dei dati, quindi la media geometrica coincide con l’antilogaritmo della media aritmetica dei logaritmi dei dati. MG = (Πxi )1/n Log(MG)= Σ(logxi)/ n Attenzione: il logaritmo di 0 e dei numeri negativi è indefinito. Occorre definire il valore da assegnare alle osservazioni con valore 0 (se ne esistono). Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 31 Media geometrica Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica. Q U E N C Y 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 2 5 5 0 0 0 7 1 5 0 0 0 0 1 2 5 0 1 5 0 0 1 7 5 0 2 0 0 0 2 2 5 0 2 5 0 0 2 7 5 0 3 0 0 0 3 2 5 0 3 5 0 0 3 7 5 0 4 0 0 0 4 2 5 0 4 5 0 0 4 7 5 0 5 0 0 0 5 2 5 0 5 5 0 0 5 7 5 0 6 0 0 0 6 2 5 0 6 5 0 0 6 7 5 0 7 0 0 0 7 2 5 0 7 5 0 0 7 7 5 0 8 0 0 0 8 2 5 0 8 5 0 0 8 7 5 0 9 0 0 0 9 2 5 0 9 5 0 0 9 7 5 0 1 0 0 0 0 C O R P U S C OM ID P O IN T Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 32 Distribuzione di frequenza del logaritmo della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per tale indicatore. La distribuzione è simmetrica. R E Q U E N C Y 50 40 30 20 10 0 0 . 0 0 00 . . 25 50 01 . . 70 50 11 . . 25 50 12 . . 70 50 22 . . 25 50 23 . . 70 50 33 . . 25 50 34 . . 70 50 44 . . 25 50 45 . . 70 50 55 . . 25 50 56 . . 70 50 66 . . 25 50 67 . . 70 50 77 . . 25 50 78 . . 70 50 88 . . 25 50 89 . . 70 50 99 . . 25 50 91 . 0 7. 50 0 11 00 . . 25 50 11 01 . . 70 50 11 11 . . 25 50 11 12 . . 70 50 11 22 . . 25 50 11 23 . . 70 50 11 33 . . 25 50 11 34 . . 70 50 L_c M I D P O I N T Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 33 Possiamo calcolare una media partendo da una distribuzione di frequenza? Colesterolo (mg/ 100 ml) n 80-119 13 120-159 150 160-199 442 200-239 299 240-279 115 280-319 34 320-359 9 360-399 5 Possiamo calcolare un valore medio se possiamo stimare la distribuzione dei soggetti compresi in ciascuna classe di valori. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 34 Se le classi non sono troppo ampie, è ragionevole pensare che il valor medio in ciascuna classe si collocato al centro dell’intervallo che la costituisce. Colesterolo (mg/ Valore centrale n 100 ml) della classe 80-119 100 13 120-159 140 150 160-199 180 442 200-239 220 299 240-279 260 115 280-319 300 34 320-359 340 9 360-399 380 5 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 35 Data questa assunzione, si possono considerare gli f soggetti in una data classe come soggetti con lo stesso valore x della variabile e quindi applicare una semplice estensione della formula della media. n Media = X = ∑fx i =1 n i i ∑f i =1 i Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 36 Colesterolo Valore x centrale della classe f x*f 80-119 100 13 1300 120-159 140 150 21000 160-199 180 442 79560 200-239 220 299 65780 240-279 260 115 29900 280-319 300 34 10200 320-359 340 9 3060 360-399 380 5 1900 1067 212700 Totale Media= 212700 / 1067 = 199,3 Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 37 Moda Valore o classe di valori (in questo secondo caso si parla più correttamente di Classe Modale) che ricorrono con maggior frequenza in una distribuzione. Possono essere presenti più mode, come nell’esempio seguente. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 38 Riepilogo Metodi statistici descrittivi Tipo di variabile Categoriche Numeriche Nominale Ordinale Distribuzione di Frequenza SI SI SI Distrib. di Freq. cumulativa NO SI SI Diagramma a barre / SI SI SI Media NO NO SI Deviazione standard NO NO SI Mediana NO NO SI Percentili NO NO SI Istogramma Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 39 Esercizi consigliati, tratti da: M.Pagano & K.Gauvreau. Biostatistica (II edizione italiana). ed. Idelson Gnocchi, Napoli 2003. 1. Svolgere i seguenti esercizi tratti dalle pag.48-51: 1, 2, 3, 4, 6, 7 2. Svolgere l’esercizio 8. Oltre alle domande presenti sul testo disegnate anche: a. i due box plot (uno per le adolescenti bulimiche l’altro per le adolescenti sane) b. i due istogrammi (id), da disegnarsi con classi di 5 Kcal/kg, partendo dalla prima classe da15 Kcal/kg. 3. Calcolate la media geometrica e la media dopo trasformazione logaritmica partendo dai dati forniti per l’esercizio 8, limitatamente alle adolescenti bulimiche. 4. Svolgere l’esercizio 14, limitatamente alla media. Oltre alle domande presenti sul testo disegnate anche l’istogramma che descrive la distribuzione di frequenza. Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici 40