Università del Piemonte Orientale Corso di Laurea Triennale di Infermieristica Pediatrica ed Ostetricia Corso di Statistica e Biometria Statistica descrittiva: Dati numerici: statistiche di tendenza centrale e di variabilità CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 1 In questa lezione parleremo di: Misure di tendenza centrale e di variabilità Media Deviazione Standard Coefficiente di Variazione Media geometrica Trasformazione logaritmica Media calcolata su dati raggruppati Mediana Percentili Diagrammi a scatola e baffi (Box Plot) Diagrammi a punti Moda CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 2 1 Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. Il valore medio di una variabile in un gruppo di osservazioni si calcola sommando il valore della variabile per ciascuna osservazione e dividendo il risultato per il numero di osservazioni. n Media = X = ∑x i i =1 n CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 3 sommatoria n Media = X = ∑x i =1 n i numero di osservazioni La sommatoria è un operatore matematico che abbrevia in una notazione sintetica, la somma di un certo numero (n) di addendi. CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 4 2 Limite superiore della sommatoria n Media = X = ∑x i =1 i n Limite inferiore della sommatoria Indice della sommatoria CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva n Media = X = ∑x i =1 i 5 i-esima osservazione n n Il simbolo ∑ indica quindi la sommatoria di tutte le i =1 osservazioni, dalla prima (i=1) all’ultima (i=n) n ∑ = x1 + x2+ x3+ x4+ x5+…+ xn-1 + xn i =1 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 6 3 Quanti decimali? Quando presentate il risultato di una media usate un decimale in più della precisione dei dati. Nei calcoli e nei risultati intermedi mantenete una precisione maggiore (almeno 2 o 3 decimali in più rispetto ai dati). Se utilizzate un calcolatore usate la massima precisione nei calcoli e arrotondate solo il risultato finale. CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 7 Misure di dispersione e variabilità La Devianza (dev) è la somma dei quadrati delle differenze tra il valore della variabile e la media (scarti). n dev = ∑ i =1 (x − X ) 2 i CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 8 4 La Varianza (var) è la devianza divisa per il numero di osservazioni – 1 n var = dev /(n − 1) = ( ∑ xi − X i =1 ) 2 (n − 1) CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 9 Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media. La Deviazione Standard (DS) è la radice quadrata della varianza. n DS = ( ∑ xi − X i =1 ) 2 (n − 1) CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 10 5 Coefficiente di Variazione (CV) E’ il rapporto tra deviazione standard e media. Viene espresso in percentuale. CV % = DS ∗ 100 x Si usa per confrontare la variabilità in campioni di popolazioni con medie differenti CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 11 Con XLSTATS possiamo calcolare la Media (Mean), la Deviazione Standard (St Dev), il coefficiente di variazione (Coeff of Var) per una variabile che si manifesta su un certo numero (Number) di osservazioni. CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 12 6 Media e deviazione standard Variabile = altezza - Campione = 20 soggett xi xi − x 1,64 1,74 1,65 1,8 1,58 1,76 1,55 1,72 1,6 1,69 1,75 1,81 1,58 1,76 1,57 1,72 1,7 1,77 1,71 1,87 -0,05850 0,04150 -0,04850 0,10150 -0,11850 0,06150 -0,14850 0,02150 -0,09850 -0,00850 0,05150 0,11150 -0,11850 0,06150 -0,12850 0,02150 0,00150 0,07150 0,01150 0,17150 33,98 (x −x i ) 2 0,00342 0,00172 0,00235 0,01030 0,01404 0,00378 0,02205 0,00046 0,00970 0,00007 0,00265 0,01243 0,01404 0,00378 0,01651 0,00046 0,00000 0,00511 0,00013 0,02941 Media= 33,98 / 20 = 1,699 Varianza= 0,152 / 19 = 0,008 DS= CV% 0,008 = 0,008 *100= 0,090 5,2% 1,699 Σ (x − x) = 0,152 2 i CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 13 Media geometrica e trasformazione logaritmica Talora la distribuzione dei dati originali è fortemente asimmetrica. Può essere utile (i motivi saranno approfonditi in seguito) calcolare una funzione dei dati originali tale che la sua distribuzione sia simmetrica. La funzione usata più comunemente è il logaritmo. Il logaritmo della media geometrica corrisponde alla media aritmetica dei logaritmi dei dati, quindi la media geometrica coincide con l’antilogaritmo della media aritmetica dei logaritmi dei dati. Πxi MG = X1*X2*…*Xn = (Πxi )1/n Ln(MG)= Σ(lnxi)/ n Attenzione: il logaritmo di 0 e dei numeri negativi è indefinito. Occorre definire il valore da assegnare alle osservazioni con valore 0 (se ne esistono). CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 14 7 Esempio Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica. FREQUENCY 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 2 5 0 5 0 0 7 5 0 CdL 1 1 1 1 2 0 2 5 7 0 0 5 0 5 0 0 0 0 0 0 Infermieristica 2 2 2 3 2 5 7 0 5 0 5 0 0 0 0 0 Pediatrica 3 2 5 0 ed 3 3 4 4 5 7 0 2 0 5 0 5 0 0 0 0 Ostetricia 4 4 5 5 5 7 0 2 0 5 0 5 0 0 0 - 0Statistica CORPUSCOLI 5 5 6 5 7 0 0 5 0 0 0 0Medica 6 6 6 7 7 7 7 8 2 5 7 0 2 5 7 0 5 0 5 0 5 0 5 0 0 0 0 0 descrittiva 0 0 0 0 Statistica 8 2 5 0 8 5 0 0 8 7 5 0 9 0 0 0 9 2 5 0 9 5 0 0 9 7 5 0 15 1 0 0 0 0 MIDPOINT Anche se in linea di principio i logaritmi possono essere calcolati in qualunque base (diversa da 1), quelle più utilizzate sono due: • Base 10 (logaritmi decimali o volgari); li si indica con log10 oppure più genericamente con log • Base e (logaritmi naturali o neperiani); li si indica con ln, più raramente con log (quando, dal contesto, la base a cui ci si riferisce è chiara) CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 16 8 Esempio: calcolo dei logaritmi delle misure del dolore valutate utilizzando una scala visiva analogica Punteggio dolore Frequenza 6 12 8 22 10 31 14 52 16 68 18 78 20 80 25 70 30 56 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 17 Punteggio dolore ln(punteggio dolore) Log(punteggio dolore) f 6 1,79 1,26 12 8 2,08 0,90 22 10 2,30 1,00 31 14 2,64 1,15 52 16 2,77 1,20 68 18 2,89 1,26 78 20 3,00 1,30 80 25 3,22 1,40 70 30 3,40 1,48 56 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 18 9 Esempio Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica. FREQUENCY 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 0 2 5 0 5 0 0 7 5 0 CdL 1 1 1 1 2 0 2 5 7 0 0 5 0 5 0 0 0 0 0 0 Infermieristica 2 2 2 3 2 5 7 0 5 0 5 0 0 0 0 0 Pediatrica 3 2 5 0 ed 3 3 4 4 5 7 0 2 0 5 0 5 0 0 0 0 Ostetricia 4 4 5 5 5 7 0 2 0 5 0 5 0 0 0 - 0Statistica CORPUSCOLI 5 5 6 5 7 0 0 5 0 0 0 0Medica 6 6 6 7 7 7 7 8 2 5 7 0 2 5 7 0 5 0 5 0 5 0 5 0 0 0 0 0 descrittiva 0 0 0 0 Statistica 8 2 5 0 8 5 0 0 8 7 5 0 9 0 0 0 9 2 5 0 9 5 0 0 9 7 5 0 19 1 0 0 0 0 MIDPOINT Distribuzione di frequenza del logaritmo della concentrazione di corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per tale indicatore. La distribuzione è simmetrica. FR EQ U EN C Y 50 40 30 20 10 0 0 . 0 0 00 . . 25 50 01 . . 70 50 11 . . 25 50 12 . . 70 50 22 . . 25 50 23 . . 70 50 33 . . 25 50 34 . . 70 50 44 . . 25 50 45 . . 70 50 55 . . 25 50 56 . . 70 50 66 . . 25 50 67 . . 70 50 77 . . 25 50 78 . . 70 50 88 . . 25 50 89 . . 70 50 99 . . 25 50 91 . 0 7. 50 0 11 00 . . 25 50 11 01 . . 70 50 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva L_c M ID PO IN T 11 11 . . 25 50 11 12 . . 70 50 11 22 . . 25 50 11 23 . . 70 50 11 33 . . 25 50 20 11 34 . . 70 50 10 Media per dati raggruppati Possiamo calcolare una media partendo da una distribuzione di frequenza? Colesterolo (mg/100ml) f 80<=x<120 13 120<=x<160 150 160<=x<200 442 200<=x<240 299 240<=x<280 115 280<=x<320 34 320<=x<360 9 360<=x<400 5 frequenza assoluta della classe, cioè numero di osservazioni che ricadono all’interno dell’intervallo considerato Possiamo calcolare un valore medio se possiamo stimare la distribuzione dei soggetti compresi in ciascuna classe di valori. CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 21 Se le classi non sono troppo ampie, è ragionevole pensare che il valor medio in ciascuna classe sia collocato al centro dell’intervallo che la costituisce Colesterolo (mg/100ml) Valore centrale della classe f 80<=x<120 100 13 120<=x<160 140 150 160<=x<200 180 442 200<=x<240 220 299 240<=x<280 260 115 280<=x<320 300 34 320<=x<360 340 9 360<=x<400 380 5 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 22 11 Con questa assunzione, si possono considerare gli f soggetti in una data classe come soggetti con lo stesso valore x della variabile e quindi applicare una semplice estensione della formula della media. valore centrale della classe i-esima n Media = X = ∑fx i =1 n i i ∑f i =1 Frequenza assoluta della classe i-esima i CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva Colesterolo (mg/100ml) 23 Valore x (centrale della classe) f x*f 80<=x<120 100 13 1300 120<=x<160 140 150 21000 160<=x<200 180 442 79560 200<=x<240 220 299 65780 240<=x<280 260 115 29900 280<=x<320 300 34 10200 320<=x<360 340 9 3060 360<=x<400 380 5 1900 Totale 1067 212700 Media = 212700 / 1067 = 199,3 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 24 12 Mediana Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la mediana corrisponde al valore dell’osservazione che occupa la posizione centrale della distribuzione. Se il numero delle osservazioni è dispari la mediana corrisponderà al valore che occupa la posizione centrale della distribuzione. Se il numero di osservazioni è pari abbiamo due osservazioni centrali: la mediana sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali. Media dei valori corrispondenti alle POSIZIONI: N/2; N/2 +1 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 25 La media e la mediana coincidono nel caso di distribuzioni simmetriche. Se la distribuzione è asimmetrica la media è maggiormente influenzata dall’asimmetria e dai valori estremi. CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 26 13 Esempio di distribuzione simmetrica: Voto all'esame di statistica 14 frequenza assoluta 12 10 8 6 4 2 0 18 19 20 21 22 23 24 25 26 27 28 29 30 voto CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 27 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 28 14 Esempio di calcolo della mediana Variabile = altezza 1 1,55 2 1,57 3 1,58 4 1,58 5 1,60 6 1,64 7 1,65 8 1,69 9 1,70 10 1,71 11 1,72 12 1,72 13 1,74 14 1,75 15 1,76 16 1,76 17 1,77 18 1,80 19 1,81 20 1,87 Campione = 20 soggetti Mediana= (1,71 + 1,72) /2 = 1,715 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 29 Percentili: valori della variabile che delimitano specificate frazioni della distribuzione cumulativa dei dati ordinati in senso crescente. Alcuni sinonimi 1° quartile = 25° percentile 2° quartile = 50° percentile = mediana 3° quartile = 75° percentile Range interquartile = 75° percentile - 25° percentile La procedura più semplice per il calcolo dei percentili si basa sull’uso della distribuzione cumulativa percentuale. CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 30 15 ETA 32 41 42 44 45 46 47 49 50 51 52 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 79 83 92 .Cumulative Cumulative Frequency Percent Frequency Percent 2 0.5 2 0.5 2 0.5 4 0.9 6 1.4 10 2.3 6 1.4 16 3.7 4 0.9 20 4.7 8 1.9 28 6.5 4 0.9 32 7.4 8 1.9 40 9.3 4 0.9 44 10.2 10° percentile=50 6 1.4 50 11.6 4 0.9 54 12.6 12 2.8 66 15.3 6 1.4 72 16.7 8 1.9 80 18.6 8 1.9 88 20.5 8 1.9 96 22.3 14 3.3 110 25.6 25° percentile=59 12 2.8 122 28.4 20 4.7 142 33.0 20 4.7 162 37.7 22 5.1 184 42.8 38 8.8 222 51.6 Mediana= 64 20 4.7 242 56.3 32 7.4 274 63.7 18 4.2 292 67.9 8 1.9 300 69.8 22 5.1 322 74.9 22 5.1 344 80.0 75° percentile=70 8 1.9 352 81.9 18 4.2 370 86.0 24 5.6 394 91.6 14 3.3 408 94.9 4 0.9 412 95.8 6 1.4 418 97.2 4 0.9 422 98.1 4 0.9 426 99.1 2 0.5 428 99.5 2 0.5 430 100.0 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva totale 430 100.0 430 31 100.0 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 32 16 Formule per il calcolo dei percentili n = numero di osservazioni k = percentile di interesse • Se (n*k)/100 è un numero intero allora: Il percentile corrisponde alla media dei valori associati alle seguenti posizioni: (n*k)/100 e (n*k/100)+1 • Se (n*k)/100 non è un numero intero allora: Il percentile corrisponde al valore associato alla seguente posizione: int((n*k)/100)+1 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 33 Esempio Calcolare il 30° percentile di una serie di 80 osservazioni: xi Frequenza assoluta Frequenza assoluta cumulata 26 20 20 33 12 32 37 15 47 43 22 69 58 11 80 (n*k)/100 = (80*30)/100 = 24 è intero quindi: CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 34 17 Le due posizioni da considerare sono: (n*k)/100 = 24 e (n*k/100)+1 = 25 Il 30° percentile è uguale a 33 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 35 Calcolare il 20° percentile di una serie di 79 osservazioni: xi Frequenza assoluta Frequenza assoluta cumulata 26 20 20 33 12 32 37 15 47 43 22 69 58 10 79 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 36 18 (n*k)/100 = (79*20)/100 = 15,8 non è intero quindi: la posizione da considerare è: int(n*k/100)+1 = 16 20°percentile = 26 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 37 Esempio: livello di emoglobina in un campione di 20 donne. Calcolare : • valore minimo • valore massimo • media • mediana • primo quartile • terzo quartile CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 38 19 Dati originali (sono riportate anche altre variabili) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Hb 111 107 124 140 131 105 96 125 135 139 151 139 162 163 168 171 166 169 157 165 PCV% 35 45 47 50 31 30 25 33 35 40 45 47 49 42 40 50 46 55 42 46 Età_anni 20 22 25 28 28 31 32 35 38 40 45 49 54 55 57 60 62 63 65 67 menopausa 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 1 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 39 Ordiniamo le osservazioni secondo i valori crescenti della variabile Hb n Hb PCV% Età_anni menopausa 7 6 2 1 3 8 5 9 10 12 4 11 19 13 14 20 17 15 18 16 96 105 107 111 124 125 131 135 139 139 140 151 157 162 163 165 166 168 169 171 25 30 45 35 47 33 31 35 40 47 50 45 42 49 42 46 46 40 55 50 32 31 22 20 25 35 28 38 40 49 28 45 65 54 55 67 62 57 63 60 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 40 20 Valore minimo: 96 Valore massimo: 171 Media: X =(96 + 105 +…. +169 + 171)/20=141,2 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 41 Mediana = secondo quartile: (20 * 50)/100=10 intero quindi la mediana è determinata dalla media tra i valori che occupano le posizioni 10 e 11. (139+140)/2=139,5 Primo quartile: (20 * 25)/100=5 intero quindi il primo quartile è determinato dalla media tra i valori che occupano le posizioni 5 e 6. (124+125)/2=124,5 Terzo quartile: (20 * 75)/100=15 intero quindi il terzo quartile è determinato dalla media tra i valori che occupano le posizioni 15 e 16. (163+165)/2=164 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 42 21 La rappresentazione grafica di dati/variabili numeriche Box plot (diagramma a scatola e baffi) Fornisce una rappresentazione grafica che presenta i valori di mediana e quartili (25% e 75% percentile), sotto forma di una scatola I ‘baffi’ indicano il minimo e massimo dei 'valori tipici' oppure il range (valore minimo e valore massimo). Altri autori, ad es. Pagano e Gauvreau (p.19) usano invece i ‘valori tipici’, definiti come - Max [Val. minimo osservato e (1°quartile – 1,5 * range interquartile)] - Min [Val. massimo osservato < (3°quartile + 1,5 * range interquartile)] Altri testi propongono il 5° e 95° percentile. CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 43 Per costruire un box plot è necessario: 1. 2. 3. 4. 5. Rappresentare la variabile di interesse sull’asse verticale Disegnare una scatola sull’asse verticale in modo che l’estremità inferiore della scatola sia allineata con il 1° quartile e l’estremità superiore con il 3°quartile Dividere la scatola in due parti con una linea orizzontale che sia allineata con la mediana Disegnare una linea verticale chiamata “baffo” dall’estremità inferiore della scatola fino al punto che risulta allineato con il valore minimo nell’insieme dei dati Disegnare un altro “baffo” dall’estremità superiore della scatola fino al punto che risulta allineato con il valore massimo nell’insieme dei dati CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 44 22 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 45 Esempio di box plot in XLSTATS: CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 46 23 Moda Valore che ricorre con maggior frequenza in una distribuzione. Quando i valori sono raggruppati in classi, la classe modale è quella che contiene il maggior numero di osservazioni rispetto alle altre Un insieme di valori può avere più di una moda (2 mode= bimodale) come nell’esempio che segue CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 47 Se tutti i valori sono diversi tra loro, l’insieme delle osservazioni non ha moda. Esempio Consideriamo le età di 10 impiegati di un laboratorio: 20, 21, 20, 20, 34, 22, 24, 27, 27, 27 La variabile è bimodale: 20 e 27 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 48 24 Esercizi consigliati da: Fowler et al, ed Edises. • • • • • • Cap 7 (p 220) es 1 Cap 7 (p 220) es 2 Cap 7 (p 221) es 7 Cap 7 (p 222) es 9 Cap 8 (p 222) es 4 Cap 9 (p 226) es 14 CdL Infermieristica Pediatrica ed Ostetricia - Statistica Medica - Statistica descrittiva 49 25