Statistica Medica Sez. 1 - Analisi esplorativa dei dati Statistica Medica – p.1/39 La sommatoria Il simbolo P è noto come sommatoria. n X xi = x1 + x2 + . . . + xn−1 + xn i=1 Proprietà fondamentali sono n X i=1 b X i=a cxi = c à n X xi i=1 xi = xa se a = b e ! n X c = nc i=1 Statistica Medica – p.2/39 Unità e variabili statistiche Il soggetto su cui vengono misurate le variabili di interesse è l’unità statistica dello studio Le variabili possono essere • • Continue Discrete • Binarie • Categoriche • Conteggio Statistica Medica – p.3/39 Descrizione di una variabile • • Misure di centralità Misure di dispersione (variabilità) Statistica Medica – p.4/39 Centralità: media aritmetica Data una variabile x, misurata su n soggetti, la media aritmetica campionaria è pari a n X 1 x̄ = xi n i=1 È molto sensibile ai valori estremi, e in tal caso non è una buona misura di centralità. È un operatore lineare, valendo se yi = c1 xi + c2 ∀i allora ȳ = c1 x̄ + c2 Statistica Medica – p.5/39 DataSet 1 - Peso alla nascita Si è osservato il peso alla nascita dei bambini (20) nati vivi in una data settimana in un ospedale privato di San Diego (California) VAR/CASE BW CASE:1 3265.00 CASE:2 3260.00 CASE:3 3245.00 CASE:4 3484.00 CASE:5 4146.00 CASE:6 3323.00 CASE:7 3649.00 CASE:8 3200.00 CASE:9 3031.00 CASE:10 2069.00 CASE:11 CASE:12 CASE:13 CASE:14 CASE:15 CASE:16 CASE:17 CASE:18 CASE:19 CASE:20 2581.00 2841.00 3609.00 2838.00 3541.00 2759.00 3248.00 3314.00 3101.00 2834.00 Statistica Medica – p.6/39 DataSet 1 - Media artimetica • x̄ = 3265 • sostituendo il peso #1 con 500g si ottiene x̄ = 3028.7 Statistica Medica – p.7/39 Misure di centralità: mediana Si supponga che le n osservazioni siano ordinate. La mediana campionaria è • la ( n+1 2 )-ma osservazione se n è dispari • la media aritmetica della ( n2 )-ma e la ( n2 + 1)-ma osservazione se n è pari Statistica Medica – p.8/39 DataSet 1 - Mediana Siccome n è pari, la mediana è la media della 10-ma e 11-ma osservazione ordinata 3245 + 3248 = 3246.5 Mediana = 2 Statistica Medica – p.9/39 DataSet 2 - Globuli bianchi Conteggio dei globuli (x1000) bianchi all’ammissione di 9 pazienti in Allentown (Pennsylvania) VAR/CASE CASE:1 CASE:2 CASE:3 CASE:4 CASE:5 CASE:6 CASE:7 CASE:8 CASE:9 WB 7.00 35.00 5.00 9.00 8.00 3.00 10.00 12.00 8.00 La mediana è pari a 8. Statistica Medica – p.10/39 Confronto media-mediana Statistica Medica – p.11/39 Confronto media-mediana (cont.) Si ha quindi l’indice di skewness Skewness = M edia − M ediana e la distribuzione sarà • • • simmetrica se Skewness ' 0 asimmetrica a sinistra se Skewness > 0 asimmetrica a destra se Skewness < 0 Statistica Medica – p.12/39 La moda La moda è il valore di una variabile che si osserva con maggiore frequenza in un determinato campione Una distribuzione può essere unimodale, bimodale, trimodale, ... Giorni tra due periodi mestruali consecutivi in un campione di donne giovani (18-25 anni) GG n GG n GG n 24 5 29 96 34 7 25 10 30 63 35 3 26 28 31 24 36 2 27 64 32 9 37 1 28 185 33 2 38 1 Statistica Medica – p.13/39 La media geometrica La media geometrica è pari a x̄g = e 1 n Pn i=1 log xi utile nel caso di distribuzioni molto asimmetriche, con regolarità del tipo log(2k+1 c) − log(2k c) = log(2) Statistica Medica – p.14/39 La media geometrica (cont.) Distribuzione della minima concentrazione inibitoria (MIC) di penicillina G per N. gonorrhoeae (JAMA, 220, 205-208, 1972) Conc. n Conc. n 0.03125=20 c 21 0.250=23 c 19 0.0625=21 c 6 0.50=24 c 17 0.125=22 c 8 1.0=25 c 3 dove c = 0.03125 e x̄g = e 21 log(0.03125)+...+3 log(1.0) 74 = e−0.846 = 0.143 Statistica Medica – p.15/39 Misure di variabilità Si considerino due campioni di misurazioni del colesterolo eseguite con due tecniche, una autoanalitica e l’altra microenzimatica Autoanalitica 177, 193, 195, 209, 226 mg/ml Microenzimatica 192, 197, 200, 202, 209 mg/ml x̄ = 200 Statistica Medica – p.16/39 Il range Il range è la differenza tra l’osservazione con il valore più grande e quella con il valore più piccolo. In simboli è pari a range = max(xi ) − min(xi ) Per la tecnica autoanalitica è pari a 49 mg/ml, per la tecnica microenzimatica a 17 mg/ml È molto semplice da calcolare ma molto sensibile ai valori estremi e dipende dall’ampiezza campionaria n. Statistica Medica – p.17/39 Percentili Il percentile p-esimo è un lavore Vp tale che il p% del campione assume valori inferiori ad esso. Il percentile p-esimo è deFInito come • la (k + 1)-ma osservazione (ordinata) se np/100 non è un intero. k è l’intero più grande inferiore a np/100 • la media delle osservazioni np/100-ma e np/100 + 1-ma osservazione (ordinata) se np/100 è un intero Statistica Medica – p.18/39 Percentili - Dataset 1 Si calcoli il 10-mo e 90-mo percentile del campione di pesi neonatali CASE:10 CASE:11 CASE:16 CASE:20 CASE:14 CASE:12 • • • 2069.00 2581.00 2759.00 2834.00 2838.00 2841.00 CASE:9 CASE:19 CASE:8 CASE:3 CASE:17 CASE:2 3031.00 3101.00 3200.00 3245.00 3248.00 3260.00 CASE:1 CASE:18 CASE:6 CASE:4 CASE:15 CASE:13 3265.00 3314.00 3323.00 3484.00 3541.00 3609.00 CASE:7 3649.00 CASE:5 4146.00 Si calcola np/100, pari a 20 × 0.1 = 2 e 20 × 0.9 = 18 Si calcola la media tra l’osservazione ordinata n. 2 e 3 (2759 + 2581)/2 = 2670 Si calcola la media tra l’osservazione ordinata n. 18 e 19 (3609 + 3649)/2 = 3629 Statistica Medica – p.19/39 Percentili - Dataset 2 Si calcoli il 20-mo percentile del campione di globuli bianchi CASE:6 CASE:3 CASE:1 • • • 3.00 5.00 7.00 CASE:5 CASE:9 CASE:4 8.00 8.00 9.00 CASE:7 CASE:8 CASE:2 10.00 12.00 35.00 Si calcola np/100, pari a 9 × 0.2 = 1.8 Si trova il k -mo intero inferiore a 1.8 (ovvero 1) Il percentile è il k + 1 = 1 + 1-mo valore ordinato, ovvero 5 Statistica Medica – p.20/39 La varianza campionaria La varianza campionaria è deFInita come s2 = Pn 2 (x − x̄) i i=1 n−1 La deviazione standard campionaria è deFInita come s= Si noti che Pn i=1 (xi −x̄) n sP n i=1 (xi − x̄)2 n−1 =0 Statistica Medica – p.21/39 Misurazioni di colesterolo • Tecnica autoanalitica s2 = [(177 − 200)2 + . . . + (226 − 200)2 ]/4 = 1360/4 = 340 s= • √ 340 = 18.4 Tecnica microenzimatica s2 = [(192 − 200)2 + . . . + (209 − 200)2 ]/4 = 158/4 = 39.5 s= √ 39.5 = 6.3 Statistica Medica – p.22/39 Varianza - formula alternativa Se la media è già calcolata, allora può essere utile usare P s2 = n 2 x i=1 i − nx̄2 n−1 Per la tecnica microanalitica si ha 5 X x2i = 1772 + . . . + 2262 = 201360 i=1 2 201360 − 5 × 200 s2 = = 1360/4 = 340 4 Statistica Medica – p.23/39 Varianza - proprietà I Si supponga di avere due campioni y1 , . . . , yn e x1 , . . . , xn , dove yi = xi + c ∀i = 1, . . . , n Se le due varianze campionarie sono indicate come s2x e s2y , si ha che s2x = s2y Statistica Medica – p.24/39 Varianza - proprietà II Si supponga di avere due campioni y1 , . . . , yn e x1 , . . . , xn , dove yi = cxi ∀i = 1, . . . , n c > 0 Se le due varianze campionarie sono indicate come s2x e s2y , si ha che s2y = c2 s2x Statistica Medica – p.25/39 Il coefFIciente di variazione Il coefFIciente di variazione CV è deFInito come s CV = × 100 x̄ che è insensibile alla scala (ovvero a trasformazioni del tipo cx) Per i pesi neonatali espressi in grammi si ha CV = 445.3/3166.9 × 100 = 14.1% e per gli stessi pesi espressi in once (∼ 28.3) CV = 15.7/111.71 × 100 = 14.1% Statistica Medica – p.26/39 Caso di studio - BHS 78-79 Dati provenienti dal Bougalusa Heart Study (J Chron Dis, 1987), sulla riproducibilità dei fattori di rischio cardiovascolari nei bambini Misurazioni prese per lo stesso bambino in due momenti successivi, ogni 3 anni Fattore n Media sd CV(%) Altezza (cm) 364 142.6 0.31 0.2 Peso (cm) 365 39.5 0.77 1.9 Pliche (mm) 362 15.2 0.51 3.4 PAS (mm Hg) 337 104.0 4.97 4.8 PAD (mm Hg) 337 64.0 4.57 7.1 Col. totale 395 160.4 3.44 2.1 Col. HDL 349 56.9 5.89 10.4 Statistica Medica – p.27/39 Dati raggruppati La struttura generale dei dati raggruppati è simile a Gruppi ≥ y1 , < y 2 .. . ≥ yk , < yk+1 Val. Centrali Frequenza y1 +y2 2 f1 yk +yk+1 2 fk m1 = .. . mk = .. . Statistica Medica – p.28/39 Dataset 4 - Pesi alla nascita Pesi alla nascita (once) di n = 100 bambini consecutivi in un ospedale di Boston 58 120 123 104 121 111 91 104 128 133 118 86 134 132 68 121 122 115 106 115 92 115 94 98 107 124 138 138 125 127 108 118 67 146 122 104 99 105 108 135 132 95 124 132 126 125 115 144 98 89 32 83 155 93 88 102 104 87 133 121 140 112 105 85 89 122 98 88 104 112 138 128 100 94 108 137 89 103 122 135 96 127 112 116 115 110 119 108 124 115 161 124 141 113 85 101 109 109 110 64 Statistica Medica – p.29/39 Dataset 4 - Pesi alla nascita Pesi alla G nascita m f [29.5, 69.5) 49.5 5 [69.5, 89.5) 79.5 10 [89.5, 99.5) 94.5 11 [99.5, 109.5) 104.5 19 [109.5, 119.5) 114.5 17 [119.5, 129.5) 124.5 20 [129.5, 139.5) 134.5 12 [139.5, 169.5) 154.5 6 (once) di 100 bambini Statistica Medica – p.30/39 Media artimetica ponderata La media aritmetica campionaria ponderata è pari a x̄g = Per il dataset 4 è pari a Pk i=1 fi mi Pk i=1 fi 5(49.5) + . . . + 6(154.5) x̄g = = 11045/100 = 110.45 5 + ... + 6 Statistica Medica – p.31/39 Varianza ponderata La varianza campionaria ponderata è pari a s2g = Pk s2g = Pk 2 f (m − x̄ ) g i i i=1 Pk ( i=1 fi ) − 1 ovvero Per il dataset 4 è pari a s̄2g 2 − nx̄2 f m i g i=1 i n−1 [5(49.5)2 + . . . + 6(154.5)2 ] − 100(110.452 ) = = 5443475/99 = 549.85 100 − 1 Statistica Medica – p.32/39 Istogramma Per il calcolo dell’istogramma, la tabella deve essere estesa Gruppi ≥ y1 , < y2 .. . ≥ yk , < yk+1 Val. Centrali m1 = y1 +y2 2 .. . mk = yk +yk+1 2 Frequenza Ampiezza f1 .. . a1 = y 2 − y 1 .. . fk ak = yk+1 − yk Densità h1 = .. . hk = f1 a1 fk+1 ak L’istogramma è uno stimatore della distribuzione Statistica Medica – p.33/39 Dataset 4 - Istogramma Calcolo G dell’ampiezza m f a h [29.5, 69.5) 49.5 5 40 0.125 [69.5, 89.5) 79.5 10 20 0.5 [89.5, 99.5) 94.5 11 10 1.1 [99.5, 109.5) 104.5 19 10 1.9 [109.5, 119.5) 114.5 17 10 1.7 [119.5, 129.5) 124.5 20 10 2 [129.5, 139.5) 134.5 12 10 1.2 [139.5, 169.5) 154.5 6 30 0.2 e della densità Statistica Medica – p.34/39 0.0 0.005 0.010 0.015 0.020 Dataset 4 - Istogramma (Cont.) 40 60 80 100 120 140 160 BW Statistica Medica – p.35/39 Box Plot Il BoxPlot è un modo per rappresentare graFIcamente una distribuzione rispetto a centralità e variabilità Per un campione di ampiezza n • • • la profondità della mediana (m) è pari a n/2 se n è pari, a (n + 1)/2 se n è dispari il baffo superiore (H) è pari a l’osservazione (m + 1)/2-ma se m è dispari, alla media tra l’osservazione m/2-ma e quella m/2 + 1 se m è pari un valore estremo è un valore tale per cui x > H + 1.5 × (H − h) o x < h − 1.5 × (H − h) • un outlier è un valore tale per cui x > H + 3 × (H − h) o x < h − 3 × (H − h) Statistica Medica – p.36/39 Dataset 4 - Ordinato I simboli * indicano i BAFFI, mentre # i valori estremi e ## gli outliers ## 32 58 # 64 67 68 83 85 85 86 87 88 88 89 89 89 91 92 93 94 94 95 96 98 98 *98 99* 100 101 102 103 104 104 104 104 104 105 105 106 107 108 108 108 108 109 109 110 110 111 112 112 112 113 115 115 115 115 115 115 116 118 118 119 120 121 121 121 122 122 122 122 123 124 124 124 *124 125* 125 126 127 127 128 128 132 132 132 133 133 134 135 135 137 138 138 138 140 141 144 146 155 161 # ## Statistica Medica – p.37/39 Dataset 4 - Boxplot Siccome n = 100, si ha che m = 50 è la media dell’osservazione più grande 50/2 e 50/2 + 1, ovvero (125+124)/2=124.5 • H è la media dell’osservazione più piccola 50/2 e 50/2 + 1, ovvero (98+99)/2=98.5 • h • i limiti per i valori estremi sono quindi x > 124.5 + 1.5(124.5 − 98.5) = 163.5 x < 59.5 e per gli outliers x > 124.5 + 3(124.5 − 98.5) = 202.5 x < 20.5 Statistica Medica – p.38/39 40 60 80 100 120 140 160 Dataset 4 - Boxplot (Cont.) Statistica Medica – p.39/39