STATISTICA DESCRITTIVA La Sintesi Statistica Una serie di dati numerici è compiutamente descritta da tre proprietà principali: La tendenza centrale o posizione La dispersione o variabilità La forma Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate: statistiche, quando sono calcolate su un campione di dati (si esprimono con lettere dell’alfabeto latino) parametri, quando descrivono la popolazione od universo dei dati (si esprimono con lettere dell’alfabeto greco STATISTICA DESCRITTIVA indici di Posizione(measures of central tendency) MEDIA MODA MEDIANA Indici di Dispersione(measures of dispersion) CAMPO di VARIAZIONE (Range) DISTANZA INTERQUARTILE (Interquartile range) DEVIANZA VARIANZA DEVIAZIONE STANDARD COEFFICIENTE di VARIAZIONE STATISTICA DESCRITTIVA Quali sono le principali MISURE di POSIZIONE nella seguente serie numerica? Serie ordinata (x(i) ) 3 4 4 4 5 6 8 11 15 MODA, valore più frequente MEDIANA,valore centrale in una serie ordinata MEDIA =(xi/n)= 60/9 = 6,67 STATISTICA DESCRITTIVA La maggior parte delle variabili biologiche (peso, statura, glicemia) hanno una distribuzione normale, in cui media, mediana e moda coincidono. Alcune variabili (tempo di reazione, tempo di sopravvivenza, numero di linfonodi metastatici, concentrazione serica di IgE) hanno una distribuzione asimmetrica, in cui media e mediana non coincidono. Il “dilemma” di Trilussa “Me spiego: da li conti che se fanno seconno le statistiche d'adesso risurta che te tocca un pollo all'anno: e, se nun entra ne le spese tue, t'entra ne la statistica lo stesso perché c'è un antro che ne magna due” 0 /2 (?) la variabile d’interesse è l’ALTEZZA UNA POPOLAZIONE CON MOLTA VARIABILITÀ UNA POPOLAZIONE CON POCA VARIABILITÀ STATISTICA DESCRITTIVA dispersione di una distribuzione Ore di sonno Maschi Femmine 1 1 3 2 3 6 3 3 7 4 7 8 5 11 5 6 8 3 7 4 1 8 2 1 9 1 1 10 - - 11 - 1 12 - 1 13 - 1 14 - 1 15 - 1 Usando SOLO le medie possiamo ingannarci nel confrontare i caratteri di due gruppi di individui. Diamo un'occhiata alla distribuzione di frequenza della durata di sonno indotto da un anestetico in un campione di 40+40 pazienti. Ad esempio , sappiamo che le donne sono notoriamente diverse dagli uomini sotto molti aspetti STATISTICA DESCRITTIVA dispersione di una distribuzione Il periodo medio di sonno per le donne risulta di 5 ore così come per gli uomini Se ci soffermiamo solo sulle medie potremmo concludere che le donne hanno una durata di sonno uguale a quello dei maschi. 15 14 13 Maschi frequenza assoluta 12 11 Femmine 10 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 DURATA DEL SONNO INDOTTO 12 13 14 15 STATISTICA DESCRITTIVA Misure di Variabilità Nome italiano Nome inglese Campo di variazione Range Distanza interquartile Interquartile range Devianza (somma di Sum of squares (SSq) scarti quadratici) Varianza Mean Square (MSq) Deviazione standard Standard deviation Coefficiente di variazione Variation coefficient STATISTICA DESCRITTIVA Misure di Variabilità Range (campo di variazione) = Xmax - Xmin (differenza tra il valore massimo e il valore minimo) Svantaggi Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi Tende ad aumentare al crescere del numero delle osservazioni E' molto influenzato da osservazioni anomale (outliers) esempio: num. linfonodi metastatici 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 2 Range = xmax - xmin = 10 - 0 = 10 num. linfonodi metastatici 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 10 Range = xmax - xmin = 10 - 0 = 10 num. linfonodi metastatici 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 11 Range = xmax - xmin = 18 - 0 = 18 L'intervallo di variazione I dati possono … essere uniformemente distribuiti, concentrarsi ai due estremi della scala concentrarsi a un capo della scala o disporsi in altro modo IV = 15-1 = 14 IV = 15-1 = 14 IV = 15-1 = 14 IV = 15-1 = 14 L'intervallo di variazione Esempio: Gli insiemi di valori di VES {A}:{8,5,7,6,35,5,4} {B}:{11,8,10,9,17,8,7} hanno la stessa media (=10) in {A} i valori sono inclusi tra 4 e 35 in {B} i valori sono inclusi tra 7 e 17 La differenza tra il massimo e il minimo valore di un insieme di dati è detto intervallo di variazione (o range). il range di {A} è RA = 35 - 4 = 31 il range di {B} è RB = 17 - 7 = 10 Il range è il più intuitivo fra gli indici di dispersione, ha però il difetto di basarsi solo sui due valori estremi, nei quali si manifesta maggiormente la variabilità di campionamento e l'errore di misura STATISTICA DESCRITTIVA Misure di Variabilità Range o distanza interquartile IQR = Q3 - Q1 differenza tra il terzo quartile (75° percentile)e il 1° quartile (25° percentile) Osservazioni In questo intervallo ricade la metà dei valori, posta esattamente al centro della distribuzione Non è molto influenzata da osservazioni anomale o estreme (statistica robusta) E' adatta a esprimere la variabilità di distribuzioni asimmetriche esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96) Range = xmax - xmin = 193 - 162 = 31 cm MASCHI Statura Freq. Cumul. 162 168 169 170 172 174 175 176 177 178 179 181 182 183 184 188 192 193 1 1 1 3 2 2 5 3 3 3 1 1 2 2 1 1 1 1 Totale 34 1 2 3 6 8 10 15 18 21 24 25 26 28 30 31 32 33 34 Calcolo del I° quartile: Calcolo del III° quartile: (rango percentilico = 25) (rango percentilico = 75) 1. rango = (34+1) * 25 / 100 1. rango = (34+1) * 75 / 100 = 35 / 4 9 2. I° quartile = 174 cm IQR = Q3 - Q1 = 35 * 3 / 4 26 2. III° quartile = 181 cm = 181 - 174 = 7 cm generalmente si riporta: 174,181 l STATISTICA DESCRITTIVA Misure di Variabilità l'intervallo interquartile 100 3° quartile F(x) 75 mediana 50 intervallo interquartile 1° quartile 25 0 47.25 48.75 50.25 51.75 53.25 54.75 56.25 57.75 59.25 cm 60.75 STATISTICA DESCRITTIVA Misure di Variabilità DESCRIPTION OF A SERIES OF GASTRIC CANCER PATIENTS In the series of 921 patients, the total number of dissected lymph nodes was 23,288, with an average of 25.3 ± 16.3 (mean±SD) dissected nodes per case (median 21, range 1-108). The mean number of metastatic nodes was 4.3 ± 7.5 (median 1, range 0-74) in the overall series and 8.3 ± 8.7 (median 5, range 174) in pN+ patients. Bibliografia De Manzoni G, Verlato G, Roviello F, Morgagni P, Di Leo A,Saragoni L, Marrelli D, Kurihara H, Pasini F, for the ItalianResearch Group for Gastric Cancer (2002) The new TNMclassification of lymph node metastasis minimizes stage migration problems in gastric cancer patients. Brit J Cancer , 87: 171-174 STATISTICA DESCRITTIVA Misure di Variabilità Table 3. Allergy parameters in subjects without self-reported allergic rhinitis and in subjects with perennial, seasonal and perennial+seasonal rhinitis. Absolute frequencies with percentage in brackets are reported for all variables but total IgE, which is expressed as median (interquartile range). No rhinitis (n=745) Parental allergy 120/736 (16) Pos. specific IgE D.pteronyssinus 56/623 (9) Subjects with self-reported allergic rhinitis Perennial Seasonal (n=19) P value (n=50) Perennial + seasonal (n=87) 5/19 (26) 21/48 (44) 30/87 (34) <0.001 6/15 (40) 7/43 (16) 19/70 (27) <0.001 Cat 17/623 (3) 2/15 (13) 4/43 (9) 12/70 (17) --- Timothygrass 57/623 (9) 3/15 (20) 26/43 (60.5) 39/70 (56) <0.001 Cl.herbarum 3/623 (0.5) 1/15 (7) 1/43 (2) 3/70 (4) --- Pariet. judaica Total IgE 29/623 (5) 1/15 (7) 16/43 (37) 32/70 (46) <0.001 36.1 (13.2-101) 110.5 (11.6-217.5) 87 (38-214.5) 106 (50.5-240) <0.001 Significance of differences was evaluated by chi-squared test for categorical variables and by one-way ANOVA for total IgE after logarithmic transformation. Significance was notevaluated by chi-squared test (---) when cells with expected value<5 exceeded 25%. NS =not significant Olivieri M, Verlato G, Corsico A, Lo Cascio V, Bugiani M, Marinoni A, de Marco R, for the ItalianECRHS group (2002) Prevalence and features of allergic rhinitis in Italy. Allergy, 57:600-606 STATISTICA DESCRITTIVA Misure di Variabilità Nel primo esempio viene utilizzata come misura di dispersione il range per descrivere una casistica nella sua globalità. Nel secondo esempio viene utilizzata come misura di dispersione la distanza interquartile. In questo modo è possibile confrontare i livelli di IgE totali fra 4 gruppi di numerosità molto diversa: n varia da 19 nel gruppo con rinite allergica perenne a 745 nel gruppo senza rinite. STATISTICA DESCRITTIVA Misure di Variabilità Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media Devianza = (x -M)2 = (x) ² = x²- ----N (o somma di scarti quadratici) La devianza raddoppia anche se la variabilità rimane costante DEVIANZA Nella popolazione dimensione della popolazione N ( x i - ) 2 i 1 media nella popolazione (parametro) Nel campione dimensione del campione n (x i - x)2 i 1 media nel campione (statistica) E’ un indice di dispersione definito sulla base del concetto di scarto rispetto ad un punto centrale della distribuzione. E’ la base delle misure di dispersione per variabili quantitative (da essa discendono la Varianza e la Deviazione Standard). STATISTICA DESCRITTIVA Misure di Variabilità media 5 6 6 7 scarto scarto² -1 1 0 0 1 1 Dev=2 5 -1 1 6 0 0 1 1 5 -1 1 6 0 0 7 1 1 7 6 Dev=4 STATISTICA DESCRITTIVA Misure di Variabilità La devianza è maggiore perché i dati sono più dispersi o perché il numero delle osservazioni è più elevato? Bisogna tener conto della numerosità! Inventiamo la Varianza = devianza / n (x -M)2/n = ² STATISTICA DESCRITTIVA Misure di Variabilità Es polli elevati al quadrato è una misura un po' difficile! Inventiamo la deviazione standard! deviazione standard = varianza 2 Parigi: 6 1 polli/mese (media DS) New York: 6 5 polli/mese (media DS) STATISTICA DESCRITTIVA Misure di Variabilità Devianza o Somma dei Quadrati (SQ) (Sum of Squares - SSq) • Si tratta di un indice di dispersione con riferimento a un centro • E’ la base delle misure di dispersione dei dati, utilizzate in tutta la statistica parametrica. • Da essa discendono la Varianza e la Deviazione Standard o scarto quadratico medio (sqm) STATISTICA DESCRITTIVA Misure di Variabilità Varianza o Quadrato Medio (QM) (Mean Square - MSq) • E’ una devianza media ossia la devianza rapportata al numero di osservazioni campionarie (n) o di popolazione (N) • Media aritmetica dei quadrati degli scarti delle singole osservazioni dalla loro media aritmetica (media di X) STATISTICA DESCRITTIVA Misure di Variabilità Varianza Osservazioni • E’ adatta per distribuzioni simmetriche • Tiene conto di tutte le osservazioni ed è dunque influenzata da eventuali osservazioni anomale (outliers) • Non è direttamente confrontabile con la media o altri indici di posizione in quanto le unità di misura sono elevate al quadrato (valore teorico) STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard Osservazioni • E’ una misura di distanza dalla media e quindi ha sempre un valore positivo. E' una misura della dispersione della variabile intorno alla media • E’ direttamente confrontabile con le misure di posizione, essendo calcolata con la stessa unità di misura • E’ di gran lunga più utilizzata della varianza (che ha un forte valore teorico) nelle pubblicazioni scientifiche per la sua “praticità d’uso” e immediata confrontabilità con la media STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard Questo numero rappresenta una misura della deviazione dei valori dalla media. Esso ci dice come i valori tendano a disperdersi intorno alla loro media: se la deviazione standard è piccola, indica un fitto addensamento dei valori intorno alla loro media; se è grande indica la presenza di valori molto lontani dalla media. STATISTICA DESCRITTIVA Misure di Variabilità Deviazione Standard ds=5.5 media IV = 15-1 = 14 IV = 15-1 = 14 d.s = 3.6 media IV = 15-1 = 14 d.s = 4.4 d.s = 2.7 IV = 15-1 = 14 STATISTICA DESCRITTIVA Misure di Variabilità Xi x²i _________ 3 9 5 25 6 36 7 49 9 81 __________ 30 200 dev=20 M=6 var=4 (xi-M) (xi-M)² ____________ -3 9 -1 1 0 0 1 1 3 9 _____________ 0 20 ds=2 calcolo della varianza xi f(xi) 1 4 1 4 4 -4 64 2 9 4 18 36 -3 81 3 10 9 30 90 -2 40 4 15 16 60 240 -1 15 5 16 25 80 400 0 0 6 11 36 66 396 1 11 7 5 49 35 245 2 20 8 3 64 24 192 3 27 9 2 81 18 162 4 32 10 0 100 0 0 5 0 11 1 121 11 121 6 36 12 1 144 12 144 7 49 13 1 169 13 169 8 64 14 1 196 14 196 9 81 15 1 225 15 225 10 100 Σ 80 400 2620 xi 2 xi f ( xi ) xi 2 f ( xi ) ( xi - x ) ( xi - x )2 f ( xi ) 620 Media=400/80=5 Dev= 620 Varianza=Dev/(N) = 620/80 = 7.75 Ds= 2.78 esempio: distribuzione di frequenza della statura delle matricole di Medicina dell’Università di Verona nell’A.A. 95/96 ----------------------------------------------------------------------------CLASSE PUNTO FREQUENZA ni*xi ni*xi2 CENTRALE ASSOLUTA (xi) ----------------------------------------------------------------------------[150-155) 152.5 1 152.5* 1 = 152.5 (152.5)2* 1 = 23256.25 [155-160) 157.5 8 157.5* 8 = 1260.0 (157.5)2* 8 = 198450.00 [160-165) 162.5 24 162.5*24 = 3900.0 (162.5)2*24 = 633750.00 [165-170) 167.5 34 5695.0 953912.50 [170-175) 172.5 27 4657.5 803418.75 [175-180) 177.5 19 3372.5 598618.75 [180-185) 182.5 9 1642.5 299756.25 [185-190) 187.5 1 187.5 35156.25 [190-195] 192.5 2 385.0 74112.50 -----------------------TOTALE 125 21252.5 3620431.25 n s n x i 1 i i 2 n - ( ni xi ) 2 / n i 1 n -1 3620431.25 - (21252.5) 2 / 125 57.1 7.6cm 124 ESEMPIO I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne: Raggruppate i dati in intervalli di ampiezza 1 g/100 ml. Determinate la varianza e la deviazione standard della distribuzione (dati raggruppati in intervalli di classe). 9 9,3 9,4 9,7 10,2 10,2 10,3 10,4 10,4 10,5 10,6 10,6 10,7 10,8 10,8 10,9 10,9 10,9 11 11 11,1 11,1 11,2 11,2 11,3 11,4 11,4 11,4 11,5 11,6 11,6 11,7 11,7 11,8 11,8 11,9 11,9 12 12 12,1 12,1 12,1 12,2 12,3 12,5 12,5 12,7 12,9 12,9 12,9 12,9 13 13,1 13,1 13,2 13,3 13,3 13,4 13,4 13,5 13,5 13,6 13,7 13,7 14,1 14,6 14,6 14,7 14,9 15 SOLUZIONE ----------------------------------------------------------CLASSE PUNTO FREQUENZA calcoliamo il CENTRALE ASSOLUTA xi*ni xi2*ni calcoliamo il prodotto tra (xi) (ni) prodotto tra il ----------------------------------------------------------[9-10) 9.5 4 38.0 361.00 il punto QUADRATO [10-11) 10.5 14 147.0 1543.50 centrale del valore [11-12) 11.5 19 218.5 2512.75 della175.0 classe e centrale [12-13) 12.5 14 2187.50 [13-14) 13.5 13 175.5 la frequenza della2369.25 classe e [14-15] 14.5 6 87.0 1261.50 la frequenza ------------------TOTALE 70 841.0 10235.50 n VARIANZA s 2 n 2 x n ( x n ) i i i i /n i 1 2 i 1 n -1 10235.50 - (841.0) 2 / 70 1.91( g / 100mL) 2 69 n DEVIAZIONE STANDARD s x i 1 i 2 n ni - ( xi ni ) 2 / n i 1 n -1 1.91 1.38 g / 100mL STATISTICA DESCRITTIVA Misure di Variabilità Coefficiente di variazione (CV) Due gruppi con valori medi molto distanti Tre neonati pesano rispettivamente 3, 4 e 5 Kg (media DS: 4 1 Kg). Tre bambini di 1 anno pesano 10, 11 e 12 Kg (media DS: 11 1 Kg). La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisce che la variabilità del peso sia maggiore nei neonati. STATISTICA DESCRITTIVA Misure di Variabilità Due variabili diverse In 91 ragazze matricole di Medicina a Roma nell’a.a. 2002/2003, il peso era pari a 55,1 5,7 Kg (media DS) con un range di 45-70 Kg, la statura era 166,1 6,1 cm (media±DS) con un range di 150-182 cm. E’ maggiore la variabilità del peso o la variabilità della statura? STATISTICA DESCRITTIVA Misure di Variabilità Coefficiente di variazione (CV) Per rispondere a queste domande è necessario calcolare il coefficiente di variazione: CV = (deviazione standard / media) * 100. La deviazione standard viene espressa in percentuale della media. Media Dev. standard CV Neonati 4 Kg 1 Kg 25 % Bambini 1 anno 11 Kg 1 Kg 9,1 % La variabilità del peso è maggiore nei neonati. STATISTICA DESCRITTIVA Misure di Variabilità Media Dev. standard CV Peso 55,1 Kg 5,7 Kg 10,3 % Statura 166,1 cm 6,1 cm 3,7 % La variabilità del peso è maggiore della variabilità della statura. Esempio di calcolo degli indici di dispersione Nell'esempio dei due insiemi di valori di VES si ha: {A}: { 8, 5, 7, 6, 35, 5, 4} Dev=82+52+... 42-(8+5+... 4)2/7 =1440-700=740 s2 = 740/6 = 123.33 s =√ 123.3. = 11.1 = (-1.1,21.1) CV%= 100(11.1/10) = 111% {B}: { 11, 8, 10, 9, 17, 8, 7} Dev=112+82+...72-(11+8+. 7)2/7 = 768-700=68 s2 = 68 / 6 = 11.33 s = √11.33 = 3.4 = (6.6, 13.4) CV% = 100 (3.4/10) = 34% In {A} l'intervallo ± s include anche valori negativi di VES, che ovviamente non sono possibili. L'uso di s per esprimere la dispersione dovrebbe essere quindi limitato alle distribuzioni simmetriche (o quasi)