STATISTICA DESCRITTIVA: come sintetizzare i dati

STATISTICA
DESCRITTIVA:
come sintetizzare i dati
Marcella Montico
Servizio di epidemiologia e biostatistica
TIPO DI VARIABILE
¾ QUALITATIVA (O NOMINALE)
¾ ORDINALE (O CATEGORICA)
¾ QUANTITATIVA
1
Variabili qualitative e ordinali
¾ Frequenza
z
Assoluta: numero di volte in cui si presenta
una modalità
SESSO
n
F
F
F
F
M
F
4
M
3
M
M
Variabili qualitative e ordinali
¾ Frequenza
z
z
Relativa: freq assoluta / totale unità osservate
Relativa percentuale: frequenza relativa x 100
n
relativa
%
F
4
4/7=
0.57
57%
M
3
3/7=
0.43
43%
Totale
7
2
Variabili qualitative e ordinali
¾ MODA: modalità che si presenta con
maggior frequenza
n
moda
relativa
%
F
4
4/7=
0.57
57%
M
3
3/7=
0.43
43%
Totale
7
Variabili ordinali
z
Frequenza cumulata: somma delle
frequenze relative fino alla modalità
considerata
3
Esempio:
titolo di studio conseguito da 200 donne
MODA
Frequenze
n
Relativa
Relativa %
2
0.01
1
Dipl. media infer.
infer.
50
0.25
25
(25+1)=
26
Dipl. media sup.
104
0.52
52
(26+52)=
78
44
0.22
22
(78+22)= 100
200
1
100%
Lic.
Lic. elementare
Laurea
TOTALE
Cumulata %
1
VARIABILI
QUANTITATIVE
4
MEDIANA
¾ valore centrale di una distribuzione
ordinata (in ordine crescente) di dati
¾ è quella modalità che lascia alla sua sinistra
e alla sua destra una quantità minore o
uguale al 50% delle osservazioni.
¾ Vantaggi: poco sensibile agli estremi
Esempio 1
Altezza
(cm)
175
176
177
180
181
183
185
186
187
Freq
assoluta
2
1
1
1
2
2
1
2
1
1
1
Freq
relativa %
13.3
6.7
6.7
6.7
6.7
13.3
6.7
6.7
6.7
Freq %
cumulata
13.3 20.0 26.7 33.4 46.7 60.0 66.7 80.0 86.7 93.4 100
13.3 13.3
188 189 TOT
15
Valore mediano: 183 cm
5
Esempio 2
Età di un gruppo di 344 donne che hanno
partorito al Burlo
¾Modalità e frequenze
frequenza relativa %
10
8,4
8
6,1
6
4,1 4,1
4
2
0
0,6 0,6 0,3 0,3 0,6
5,2
9,3 9
8,4
7,8
7,3 7,3
5,5 5,2
4,1
1,5 1,7
1,2 0,9
0,3 0,3
18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44
0.6+0.6+0.3+0.3+0.6+1.5-1.7+4.1+4.1+6.1+5.2+8.4+9.3=51.7%
frequenza % cumulata
100
75
50
25
0
18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44
6
Ricordare che si può dividere la
distribuzione ordinata in n quantili di
uguale frequenza:
4 parti: quartili, la mediana è il 2° quartile
¾ 10 parti: i decili (la mediana è il 5° decile)
¾ 100 parti: i centili (la mediana è il 50°
centile)
¾
z
Es: centili di peso (basso peso sotto il 3°),
centili, body mass index ( >95°,> 99°)
75° centile, (III quartile)
25° centile (I quartile)
100
frequenza % cumulata
75
50
25
0
18 19 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44
mediana (50° centile, II quartile)
7
20
25
età al parto
30
35
40
45
Box plot:
come rappresentare i quartili
excludes outside values
Media aritmetica:
¾
somma dei valori dei dati / numero delle
osservazioni
Altezza
175 176 177 180 181 183 185 186 187 188
(cm)
Freq
2
1
1
1
2
2
1
2
1
189
TOT
1
15
1
(175x2)+176+177+180+(181x2)+(183x2)+185+(186x2)+187+188+189
15
¾
=182.1
=182.1
svantaggi: sensibile agli estremi
8
Riepilogo
MISURE DI TENDENZA CENTRALE:
valore attorno a cui sono raggruppati i dati
z Moda
z Media
z Mediana
Misure di variabilità
¾ Misure di dispersione dei dati
9
Il range
Min
0
Max
1
2
3
4
5
6
7
8
9
¾ Range: valori minimo e massimo della
variabile
¾ Risente degli estremi (outliers)
Differenza interquartile
0
1
2
3
4
5
6
7
8
9
¾ Differenza tra il terzo e il primo quartile
(75°-25° centile)
¾ E’ una misura di distanza dalla mediana
10
Esempio
Età al parto di 344 donne:
z
z
z
mediana = 32 anni
I quartile =29 anni
III quartile =35 anni
Differenza interquartile =6 anni
Varianza
¾ La varianza è la somma del quadrato degli
scarti dalla media diviso per il totale delle
osservazioni
σ2=
∑ (xi – x)2
n
11
Si calcola per ogni punto la sua distanza
dalla media e si eleva al quadrato
2. Si sommano i quadrati delle distanze e si
divide per il numero di osservazioni
1.
0
1
2
3
4
5
6
7
8
9
¾ Si ottiene così un indicatore di distanza
dalla media
Deviazione standard (DS)
¾ È la radice quadrata della varianza
¾ È espressa nella stessa unità di misura
della media
12
cm
n
x-x
(x-x)2
n*(
n*( x - x ) 2
175
2
-7
49
98
176
1
-6
36
36
177
1
-5
25
25
180
1
-2
4
4
181
2
-1
1
2
183
2
+1
1
2
185
1
+3
9
9
186
2
+4
16
32
187
1
+5
25
25
188
1
+6
36
36
189
1
+7
49
49
∑
15
0
318
Esempio:
statura dei
maschi
Media=182
Devianza
¾ VARIANZA
⇒
318/15=21.2
¾ DEVIAZIONE STANDARD
⇒
√21.2=4.6
13
Importanza delle misure di variabilità:
età al parto di 344 donne
Media = 32.2
DS = 4.4
Range = 18 – 44
10
8
6
4
2
0
18 21 23 25 27 29 31 33 35 37 39 41 44
Media = 32.2
DS = 3.0
Range = 26 - 40
15
10
5
0
26
28
30
32
34
36
38
40
RIASSUNTO
FREQUENZE:
z
Assoluta
z
Relativa o relativa percentuale
z
Cumulata
MISURE DI TENDENZA CENTRALE: valore attorno a cui sono
raggruppati i dati
z
Moda
z
Media
z
Mediana
QUANTILI: quartili,
quartili, centili ecc..
MISURE DI VARIABILITA’
VARIABILITA’:
Range
z
Varianza e deviazione standard
z
Distanza interquartile
z
14
Riassunto – operazioni con le variabili
TABELLA RIASSUNTIVA
VARIABILI
QUALITATIVE
VARIABILI
ORDINALI
VARIABILI
QUANTITATIVE
FREQUENZA
X
X
X
MODA
X
X
X
X
X
MIN e MAX
MEDIANA e QUANTILI
X
MEDIA
X
INDICI DI VARIABILITA'
X
15