STATISTICA DESCRITTIVA: come sintetizzare i dati Marcella Montico Servizio di epidemiologia e biostatistica TIPO DI VARIABILE ¾ QUALITATIVA (O NOMINALE) ¾ ORDINALE (O CATEGORICA) ¾ QUANTITATIVA 1 Variabili qualitative e ordinali ¾ Frequenza z Assoluta: numero di volte in cui si presenta una modalità SESSO n F F F F M F 4 M 3 M M Variabili qualitative e ordinali ¾ Frequenza z z Relativa: freq assoluta / totale unità osservate Relativa percentuale: frequenza relativa x 100 n relativa % F 4 4/7= 0.57 57% M 3 3/7= 0.43 43% Totale 7 2 Variabili qualitative e ordinali ¾ MODA: modalità che si presenta con maggior frequenza n moda relativa % F 4 4/7= 0.57 57% M 3 3/7= 0.43 43% Totale 7 Variabili ordinali z Frequenza cumulata: somma delle frequenze relative fino alla modalità considerata 3 Esempio: titolo di studio conseguito da 200 donne MODA Frequenze n Relativa Relativa % 2 0.01 1 Dipl. media infer. infer. 50 0.25 25 (25+1)= 26 Dipl. media sup. 104 0.52 52 (26+52)= 78 44 0.22 22 (78+22)= 100 200 1 100% Lic. Lic. elementare Laurea TOTALE Cumulata % 1 VARIABILI QUANTITATIVE 4 MEDIANA ¾ valore centrale di una distribuzione ordinata (in ordine crescente) di dati ¾ è quella modalità che lascia alla sua sinistra e alla sua destra una quantità minore o uguale al 50% delle osservazioni. ¾ Vantaggi: poco sensibile agli estremi Esempio 1 Altezza (cm) 175 176 177 180 181 183 185 186 187 Freq assoluta 2 1 1 1 2 2 1 2 1 1 1 Freq relativa % 13.3 6.7 6.7 6.7 6.7 13.3 6.7 6.7 6.7 Freq % cumulata 13.3 20.0 26.7 33.4 46.7 60.0 66.7 80.0 86.7 93.4 100 13.3 13.3 188 189 TOT 15 Valore mediano: 183 cm 5 Esempio 2 Età di un gruppo di 344 donne che hanno partorito al Burlo ¾Modalità e frequenze frequenza relativa % 10 8,4 8 6,1 6 4,1 4,1 4 2 0 0,6 0,6 0,3 0,3 0,6 5,2 9,3 9 8,4 7,8 7,3 7,3 5,5 5,2 4,1 1,5 1,7 1,2 0,9 0,3 0,3 18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44 0.6+0.6+0.3+0.3+0.6+1.5-1.7+4.1+4.1+6.1+5.2+8.4+9.3=51.7% frequenza % cumulata 100 75 50 25 0 18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44 6 Ricordare che si può dividere la distribuzione ordinata in n quantili di uguale frequenza: 4 parti: quartili, la mediana è il 2° quartile ¾ 10 parti: i decili (la mediana è il 5° decile) ¾ 100 parti: i centili (la mediana è il 50° centile) ¾ z Es: centili di peso (basso peso sotto il 3°), centili, body mass index ( >95°,> 99°) 75° centile, (III quartile) 25° centile (I quartile) 100 frequenza % cumulata 75 50 25 0 18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44 mediana (50° centile, II quartile) 7 20 25 età al parto 30 35 40 45 Box plot: come rappresentare i quartili excludes outside values Media aritmetica: ¾ somma dei valori dei dati / numero delle osservazioni Altezza 175 176 177 180 181 183 185 186 187 188 (cm) Freq 2 1 1 1 2 2 1 2 1 189 TOT 1 15 1 (175x2)+176+177+180+(181x2)+(183x2)+185+(186x2)+187+188+189 15 ¾ =182.1 =182.1 svantaggi: sensibile agli estremi 8 Riepilogo MISURE DI TENDENZA CENTRALE: valore attorno a cui sono raggruppati i dati z Moda z Media z Mediana Misure di variabilità ¾ Misure di dispersione dei dati 9 Il range Min 0 Max 1 2 3 4 5 6 7 8 9 ¾ Range: valori minimo e massimo della variabile ¾ Risente degli estremi (outliers) Differenza interquartile 0 1 2 3 4 5 6 7 8 9 ¾ Differenza tra il terzo e il primo quartile (75°-25° centile) ¾ E’ una misura di distanza dalla mediana 10 Esempio Età al parto di 344 donne: z z z mediana = 32 anni I quartile =29 anni III quartile =35 anni Differenza interquartile =6 anni Varianza ¾ La varianza è la somma del quadrato degli scarti dalla media diviso per il totale delle osservazioni σ2= ∑ (xi – x)2 n 11 Si calcola per ogni punto la sua distanza dalla media e si eleva al quadrato 2. Si sommano i quadrati delle distanze e si divide per il numero di osservazioni 1. 0 1 2 3 4 5 6 7 8 9 ¾ Si ottiene così un indicatore di distanza dalla media Deviazione standard (DS) ¾ È la radice quadrata della varianza ¾ È espressa nella stessa unità di misura della media 12 cm n x-x (x-x)2 n*( n*( x - x ) 2 175 2 -7 49 98 176 1 -6 36 36 177 1 -5 25 25 180 1 -2 4 4 181 2 -1 1 2 183 2 +1 1 2 185 1 +3 9 9 186 2 +4 16 32 187 1 +5 25 25 188 1 +6 36 36 189 1 +7 49 49 ∑ 15 0 318 Esempio: statura dei maschi Media=182 Devianza ¾ VARIANZA ⇒ 318/15=21.2 ¾ DEVIAZIONE STANDARD ⇒ √21.2=4.6 13 Importanza delle misure di variabilità: età al parto di 344 donne Media = 32.2 DS = 4.4 Range = 18 – 44 10 8 6 4 2 0 18 21 23 25 27 29 31 33 35 37 39 41 44 Media = 32.2 DS = 3.0 Range = 26 - 40 15 10 5 0 26 28 30 32 34 36 38 40 RIASSUNTO FREQUENZE: z Assoluta z Relativa o relativa percentuale z Cumulata MISURE DI TENDENZA CENTRALE: valore attorno a cui sono raggruppati i dati z Moda z Media z Mediana QUANTILI: quartili, quartili, centili ecc.. MISURE DI VARIABILITA’ VARIABILITA’: Range z Varianza e deviazione standard z Distanza interquartile z 14 Riassunto – operazioni con le variabili TABELLA RIASSUNTIVA VARIABILI QUALITATIVE VARIABILI ORDINALI VARIABILI QUANTITATIVE FREQUENZA X X X MODA X X X X X MIN e MAX MEDIANA e QUANTILI X MEDIA X INDICI DI VARIABILITA' X 15