Università del Piemonte Orientale Corsi di Laurea Triennale di Area Tecnica Corso di Statistica e Biometria Statistica descrittiva: Dati numerici: statistiche di tendenza centrale e di variabilità Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 1 In questa lezione parleremo di: Misure di tendenza centrale e di variabilità Media Deviazione Standard Coefficiente di Variazione Media geometrica Trasformazione logaritmica Media calcolata su dati raggruppati Mediana Percentili Diagrammi a scatola e baffi (Box Plot) Diagrammi a punti Moda Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 2 Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Il valore medio di una variabile in un gruppo di osservazioni si calcola sommando il valore della variabile per ciascuna osservazione e dividendo il risultato per il numero di osservazioni. n Media = X = ∑x i =1 i n Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 3 sommatoria n Media = X = ∑x i =1 n i numero di osservazioni La sommatoria è un operatore matematico che abbrevia in una notazione sintetica, la somma di un certo numero (n) di addendi. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 4 n Media = X = ∑x i =1 n i Limite superiore della sommatoria Limite inferiore della sommatoria Indice della sommatoria Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 5 n Media = X = ∑x i =1 i i-esima osservazione n n Il simbolo ∑ i =1 indica quindi la sommatoria di tutte le osservazioni, dalla prima (i=1) all’ultima (i=n) n ∑ = x1 + x2+ x3+ x4+ x5+…+ xn-1 + xn i =1 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 6 Quanti decimali? Quando presentate il risultato di una media usate un decimale in più della precisione dei dati. Nei calcoli e nei risultati intermedi mantenete una precisione maggiore (almeno 2 o 3 decimali in più rispetto ai dati). Se utilizzate un calcolatore usate la massima precisione nei calcoli e arrotondate solo il risultato finale. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 7 Misure di dispersione e variabilità La Devianza (dev) è la somma dei quadrati delle differenze tra il valore della variabile e la media (scarti). n dev = ∑ i =1 (x − X ) 2 i Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 8 La Varianza (var) è la devianza divisa per il numero di osservazioni – 1 n var = dev /(n − 1) = ( ∑ xi − X i =1 ) 2 (n − 1) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 9 Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media. La Deviazione Standard (DS) è la radice quadrata della varianza. n DS = ( ∑ xi − X i =1 ) 2 (n − 1) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 10 Coefficiente di Variazione (CV) E’ il rapporto tra deviazione standard e media. Viene espresso in percentuale. DS CV % = ∗ 100 x Si usa per confrontare la variabilità in campioni di popolazioni con medie differenti Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 11 Con XLSTATS possiamo calcolare la Media (Mean), la Deviazione Standard (St Dev), il coefficiente di variazione (Coeff of Var) per una variabile che si manifesta su un certo numero (Number) di osservazioni. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 12 Media e deviazione standard Variabile = altezza - Campione = 20 soggett xi xi − x 1,64 1,74 1,65 1,8 1,58 1,76 1,55 1,72 1,6 1,69 1,75 1,81 1,58 1,76 1,57 1,72 1,7 1,77 1,71 1,87 -0,05850 0,04150 -0,04850 0,10150 -0,11850 0,06150 -0,14850 0,02150 -0,09850 -0,00850 0,05150 0,11150 -0,11850 0,06150 -0,12850 0,02150 0,00150 0,07150 0,01150 0,17150 33,98 (x −x i ) 2 0,00342 0,00172 0,00235 0,01030 0,01404 0,00378 0,02205 0,00046 0,00970 0,00007 0,00265 0,01243 0,01404 0,00378 0,01651 0,00046 0,00000 0,00511 0,00013 0,02941 Media= 33,98 / 20 = 1,699 Varianza= 0,152 / 19 = 0,008 DS= CV% 0,008 = 0,008 *100= 0,090 5,2% 1,699 Σ (x − x) = 0,152 2 i Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 13 Media geometrica e trasformazione logaritmica Talora la distribuzione dei dati originali è fortemente asimmetrica. Può essere utile (i motivi saranno approfonditi in seguito) calcolare una funzione dei dati originali tale che la sua distribuzione sia simmetrica. La funzione usata più comunemente è il logaritmo. Il logaritmo della media geometrica corrisponde alla media aritmetica dei logaritmi dei dati, quindi la media geometrica coincide con l’antilogaritmo della media aritmetica dei logaritmi dei dati. Πxi MG = X1*X2*…*Xn = (Πxi )1/n Ln(MG)= Σ(lnxi)/ n Attenzione: il logaritmo di 0 e dei numeri negativi è indefinito. Occorre definire il valore da assegnare alle osservazioni con valore 0 (se ne esistono). Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 14 Esempio Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica. FREQUENCY 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 2 5 0 5 0 0 7 5 0 Corsi di 1 1 1 1 2 2 0 2 5 7 0 2 0 5 0 5 0 5 0 0 0triennale 0 0 0 laurea 2 2 3 3 3 5 7 0 2 5 0 5 0 5 0 0 0tecnica 0 0 di0 area 3 7 5 0- 4 4 4 0 2 5 0 5 0 0 0 0di Corso 4 5 5 5 5 6 6 7 0 2 5 7 0 2 5 0 5 0 5 0 5 0 0 0 0 Medica 0 0 0 Statistica CORPUSCOLI MIDPOINT 6 6 7 7 5 7 0 2 0 5 0 5 0 0 0 -0Statistica 7 7 8 8 5 7 0 2 0 5 0 5 0 0 0 0 descrittiva 8 5 0 0 8 7 5 0 9 0 0 0 9 2 5 0 9 5 0 0 9 7 5 0 15 1 0 0 0 0 Anche se in linea di principio i logaritmi possono essere calcolati in qualunque base (diversa da 1), quelle più utilizzate sono due: • Base 10 (logaritmi decimali o volgari); li si indica con log10 oppure più genericamente con log • Base e (logaritmi naturali o neperiani); li si indica con ln, più raramente con log (quando, dal contesto, la base a cui ci si riferisce è chiara) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 16 Esempio: calcolo dei logaritmi delle misure del dolore valutate utilizzando una scala visiva analogica Punteggio dolore Frequenza 6 12 8 22 10 31 14 52 16 68 18 78 20 80 25 70 30 56 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 17 Punteggio dolore ln(punteggio dolore) Log(punteggio dolore) f 6 1,79 1,26 12 8 2,08 0,90 22 10 2,30 1,00 31 14 2,64 1,15 52 16 2,77 1,20 68 18 2,89 1,26 78 20 3,00 1,30 80 25 3,22 1,40 70 30 3,40 1,48 56 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 18 Esempio Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica. FREQUENCY 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 2 5 0 5 0 0 7 5 0 Corsi di 1 1 1 1 2 2 0 2 5 7 0 2 0 5 0 5 0 5 0 0 0triennale 0 0 0 laurea 2 2 3 3 3 5 7 0 2 5 0 5 0 5 0 0 0tecnica 0 0 di0 area 3 7 5 0- 4 4 4 0 2 5 0 5 0 0 0 0di Corso 4 5 5 5 5 6 6 7 0 2 5 7 0 2 5 0 5 0 5 0 5 0 0 0 0 Medica 0 0 0 Statistica CORPUSCOLI MIDPOINT 6 6 7 7 5 7 0 2 0 5 0 5 0 0 0 -0Statistica 7 7 8 8 5 7 0 2 0 5 0 5 0 0 0 0 descrittiva 8 5 0 0 8 7 5 0 9 0 0 0 9 2 5 0 9 5 0 0 9 7 5 0 19 1 0 0 0 0 Distribuzione di frequenza del logaritmo della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per tale indicatore. La distribuzione è simmetrica. FR EQ U EN C Y 50 40 30 20 10 0 0 . 0 0 00 . . 25 50 01 . . 70 50 11 . . 25 50 12 . . 70 50 22 . . 25 50 23 . . 70 50 33 . . 25 50 34 . . 70 50 44 . . 25 50 45 . . 70 50 55 . . 25 50 56 . . 70 50 66 . . 25 50 67 . . 70 50 77 . . 25 50 78 . . 70 50 88 . . 25 50 89 . . 70 50 99 . . 25 50 91 . 0 7. 50 0 11 00 . . 25 50 11 01 . . 70 50 11 11 . . 25 50 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva L_c M ID PO IN T 11 12 . . 70 50 11 22 . . 25 50 11 23 . . 70 50 11 33 . . 25 50 20 11 34 . . 70 50 Media per dati raggruppati Possiamo calcolare una media partendo da una distribuzione di frequenza? Colesterolo (mg/100ml) f 80<=x<120 13 120<=x<160 150 160<=x<200 442 200<=x<240 299 240<=x<280 115 280<=x<320 34 320<=x<360 9 360<=x<400 5 frequenza assoluta della classe, cioè numero di osservazioni che ricadono all’interno dell’intervallo considerato Possiamo calcolare un valore medio se possiamo stimare la distribuzione dei soggetti compresi in ciascuna classe di valori. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 21 Se le classi non sono troppo ampie, è ragionevole pensare che il valor medio in ciascuna classe sia collocato al centro dell’intervallo che la costituisce Colesterolo (mg/100ml) Valore centrale della classe f 80<=x<120 100 13 120<=x<160 140 150 160<=x<200 180 442 200<=x<240 220 299 240<=x<280 260 115 280<=x<320 300 34 320<=x<360 340 9 360<=x<400 380 5 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 22 Con questa assunzione, si possono considerare gli f soggetti in una data classe come soggetti con lo stesso valore x della variabile e quindi applicare una semplice estensione della formula della media. n Media = X = ∑fx i =1 n i i ∑f i =1 i valore centrale della classe i-esima Frequenza assoluta della classe i-esima Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 23 Colesterolo (mg/100ml) Valore x (centrale della classe) f x*f 80<=x<120 100 13 1300 120<=x<160 140 150 21000 160<=x<200 180 442 79560 200<=x<240 220 299 65780 240<=x<280 260 115 29900 280<=x<320 300 34 10200 320<=x<360 340 9 3060 360<=x<400 380 5 1900 Totale 1067 212700 Media = 212700 / 1067 = 199,3 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 24 Mediana Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la mediana corrisponde al valore dell’osservazione che occupa la posizione centrale della distribuzione. Se il numero delle osservazioni è dispari la mediana corrisponderà al valore che occupa la posizione centrale della distribuzione. Se il numero di osservazioni è pari abbiamo due osservazioni centrali: la mediana sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali. Media dei valori corrispondenti alle POSIZIONI: N/2; N/2 +1 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 25 La media e la mediana coincidono nel caso di distribuzioni simmetriche. Se la distribuzione è asimmetrica la media è maggiormente influenzata dall’asimmetria e dai valori estremi. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 26 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 27 Esempio di calcolo della mediana Variabile = altezza 1 1,55 2 1,57 3 1,58 4 1,58 5 1,60 6 1,64 7 1,65 8 1,69 9 1,70 10 1,71 11 1,72 12 1,72 13 1,74 14 1,75 15 1,76 16 1,76 17 1,77 18 1,80 19 1,81 20 1,87 Campione = 20 soggetti Mediana= (1,71 + 1,72) /2 = 1,715 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 28 Percentili: valori della variabile che delimitano specificate frazioni della distribuzione cumulativa dei dati ordinati in senso crescente. Alcuni sinonimi 1° quartile = 25° percentile 2° quartile = 50° percentile = mediana 3° quartile = 75° percentile Range interquartile = 75° percentile - 25° percentile La procedura più semplice per il calcolo dei percentili si basa sull’uso della distribuzione cumulativa percentuale. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 29 .Cumulative Cumulative ETA Frequency Percent Frequency Percent 32 2 0.5 2 0.5 41 2 0.5 4 0.9 42 6 1.4 10 2.3 44 6 1.4 16 3.7 45 4 0.9 20 4.7 46 8 1.9 28 6.5 47 4 0.9 32 7.4 49 8 1.9 40 9.3 50 4 0.9 44 10.2 10° percentile=50 51 6 1.4 50 11.6 52 4 0.9 54 12.6 54 12 2.8 66 15.3 55 6 1.4 72 16.7 56 8 1.9 80 18.6 57 8 1.9 88 20.5 58 8 1.9 96 22.3 59 14 3.3 110 25.6 25° percentile=59 60 12 2.8 122 28.4 61 20 4.7 142 33.0 62 20 4.7 162 37.7 63 22 5.1 184 42.8 64 38 8.8 222 51.6 Mediana= 64 65 20 4.7 242 56.3 66 32 7.4 274 63.7 67 18 4.2 292 67.9 68 8 1.9 300 69.8 69 22 5.1 322 74.9 70 22 5.1 344 80.0 75° percentile=70 71 8 1.9 352 81.9 72 18 4.2 370 86.0 73 24 5.6 394 91.6 74 14 3.3 408 94.9 75 4 0.9 412 95.8 76 6 1.4 418 97.2 77 4 0.9 422 98.1 79 4 0.9 426 99.1 83 2 0.5 428 99.5 92 Corsi di laurea 2 triennale 0.5di area tecnica 430 - Corso100.0 di Statistica Medica - Statistica descrittiva totale 430 100.0 430 100.0 30 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 31 Formule per il calcolo dei percentili n = numero di osservazioni k = percentile di interesse • Se (n*k)/100 è un numero intero allora: Il percentile corrisponde alla media dei valori associati alle seguenti posizioni: (n*k)/100 e (n*k/100)+1 • Se (n*k)/100 non è un numero intero allora: Il percentile corrisponde al valore associato alla seguente posizione: int((n*k)/100)+1 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 32 Esempio Calcolare il 30° percentile di una serie di 80 osservazioni: xi Frequenza assoluta Frequenza assoluta cumulata 26 20 20 33 12 32 37 15 47 43 22 69 58 11 80 (n*k)/100 = (80*30)/100 = 24 è intero quindi: Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 33 Le due posizioni da considerare sono: (n*k)/100 = 24 e (n*k/100)+1 = 25 Il 30° percentile è uguale a 33 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 34 Calcolare il 20° percentile di una serie di 79 osservazioni: xi Frequenza assoluta Frequenza assoluta cumulata 26 20 20 33 12 32 37 15 47 43 22 69 58 10 79 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 35 (n*k)/100 = (79*20)/100 = 15,8 non è intero quindi: la posizione da considerare è: int(n*k/100)+1 = 16 20°percentile = 26 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 36 Esempio: livello di emoglobina in un campione di 20 donne. Calcolare : • valore minimo • valore massimo • media • mediana • primo quartile • terzo quartile Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 37 Dati originali (sono riportate anche altre variabili) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Hb 111 107 124 140 131 105 96 125 135 139 151 139 162 163 168 171 166 169 157 165 PCV% 35 45 47 50 31 30 25 33 35 40 45 47 49 42 40 50 46 55 42 46 Età_anni 20 22 25 28 28 31 32 35 38 40 45 49 54 55 57 60 62 63 65 67 menopausa 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 1 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 38 Ordiniamo le osservazioni secondo i valori crescenti della variabile Hb n Hb PCV% Età_anni menopausa 7 6 2 1 3 8 5 9 10 12 4 11 19 13 14 20 17 15 18 16 96 105 107 111 124 125 131 135 139 139 140 151 157 162 163 165 166 168 169 171 25 30 45 35 47 33 31 35 40 47 50 45 42 49 42 46 46 40 55 50 32 31 22 20 25 35 28 38 40 49 28 45 65 54 55 67 62 57 63 60 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 39 Valore minimo: 96 Valore massimo: 171 Media: X =(96 + 105 +…. +169 + 171)/20=141,2 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 40 Mediana = secondo quartile: (20 * 50)/100=10 intero quindi la mediana è determinata dalla media tra i valori che occupano le posizioni 10 e 11. (139+140)/2=139,5 Primo quartile: (20 * 25)/100=5 intero quindi il primo quartile è determinato dalla media tra i valori che occupano le posizioni 5 e 6. (124+125)/2=124,5 Terzo quartile: (20 * 75)/100=15 intero quindi il terzo quartile è determinato dalla media tra i valori che occupano le posizioni 15 e 16. (163+165)/2=164 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 41 La rappresentazione grafica di dati/variabili numeriche Box plot (diagramma a scatola e baffi) Fornisce una rappresentazione grafica che presenta i valori di mediana e quartili (25% e 75% percentile), sotto forma di una scatola I ‘baffi’ indicano il minimo e massimo dei 'valori tipici' oppure il range (valore minimo e valore massimo). Altri autori, ad es. Pagano e Gauvreau (p.19) usano invece i ‘valori tipici’, definiti come - Max [Val. minimo osservato e (1°quartile – 1,5 * range interquartile)] - Min [Val. massimo osservato < (3°quartile + 1,5 * range interquartile)] Altri testi propongono il 5° e 95° percentile. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 42 Per costruire un box plot è necessario: 1. 2. 3. 4. 5. Rappresentare la variabile di interesse sull’asse verticale Disegnare una scatola sull’asse verticale in modo che l’estremità inferiore della scatola sia allineata con il 1° quartile e l’estremità superiore con il 3°quartile Dividere la scatola in due parti con una linea orizzontale che sia allineata con la mediana Disegnare una linea verticale chiamata “baffo” dall’estremità inferiore della scatola fino al punto che risulta allineato con il valore minimo nell’insieme dei dati Disegnare un altro “baffo” dall’estremità superiore della scatola fino al punto che risulta allineato con il valore massimo nell’insieme dei dati Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 43 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 44 Esempio di box plot in XLSTATS: Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 45 Rappresentazione grafica di dati definiti da 2 variabili quantitative SOMMINISTRAZIONE GENERAL HEALTH QUESTIONNAIRE (GHQ) 25 20 2° TEST 15 10 5 0 0 5 10 15 20 25 1° TEST diagramma a punti: è adatto quando il numero di osservazioni in ciascuna categoria non è troppo grande. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 46 Moda Valore che ricorre con maggior frequenza in una distribuzione. Quando i valori sono raggruppati in classi, la classe modale è quella che contiene il maggior numero di osservazioni rispetto alle altre Un insieme di valori può avere più di una moda (2 mode= bimodale) come nell’esempio che segue Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 47 Se tutti i valori sono diversi tra loro, l’insieme delle osservazioni non ha moda. Esempio Consideriamo le età di 10 impiegati di un laboratorio: 20, 21, 20, 20, 34, 22, 24, 27, 27, 27 La variabile è bimodale: 20 e 27 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 48 Esercizi consigliati da: Fowler et al, ed Edises. • • • • • • Cap 7 (p 220) es 1 Cap 7 (p 220) es 2 Cap 7 (p 221) es 7 Cap 7 (p 222) es 9 Cap 8 (p 222) es 4 Cap 9 (p 226) es 14 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva 49