Lezione 3 - statistica descrittiva - seconda parte

Statistica Descrittiva
descrivere e riassumere un insieme di dati in
maniera ordinata
Tipo di variabile
Distribuzioni di frequenza
La scelta delle tecniche di elaborazione statistica
è fortemente influenzata dal tipo e dalla forma
della distribuzione di frequenza della/e variabile/i
in studio
Tipi di variabili
•
nominali
qualitative
(modalità)
ordinali
discrete
•
quantitative
(valori)
continue
Quali dati inserire nella tabella?
Se la variabile è qualitativa nominale
•
frequenze
•
relative (percentuali)
Se la variabile è qualitativa ordinale o quantitativa
•
frequenze
•
relative (percentuali)
•
frequenze
•
relative (percentuali)
Esercizio di raccolta dei dati
Sesso
Età
Altezza
N°di scarpe
Colore degli occhi
Lunghezza del braccio
N°di componenti della famiglia
Titolo di studio della madre/padre
Corso di Laurea
Esercizio di raccolta dei dati
Esercizio di raccolta dei dati
Sesso
Femmina
Freq
32
Percent
45.07
Maschio
39
54.93
Esercizio di raccolta dei dati
Corso
Fisioterapia
Podologia
Freq
Percent
61
10
85.92
14.08
Esercizio di raccolta dei dati
Colore occhi
Blu/Azzurri
Marroni
Nocciola/Ambra
Verdi/Grigi
Freq
9
37
10
15
Percent
12.68
52.11
14.08
21.13
Esercizio di raccolta dei dati
Età
18
19
20
21
22
23
24
25
26
27
28
29
30
31
34
40
42
45
Freq
Percent
Cum Freq
Cum Perc
4
19
24
2
4
2
1
2
2
3
1
1
1
1
1
1
1
1
5.63
26.76
33.80
2.82
5.63
2.82
1.41
2.82
2.82
4.23
1.41
1.41
1.41
1.41
1.41
1.41
1.41
1.41
4
23
47
49
53
55
56
58
60
63
64
65
66
67
68
69
70
71
5.63
32.39
66.20
69.01
74.65
77.46
78.87
81.69
84.51
88.73
90.14
91.55
92.96
94.37
95.77
97.18
98.59
100.00
Esercizio di raccolta dei dati
Altezza
Freq
Percent
Cum Freq
Cum Perc
150
153
155
156
157
160
161
…
1
1
1
1
2
3
1
1.41
1.41
1.41
1.41
2.82
4.23
1.41
1
2
3
4
6
9
10
1.41
2.82
4.23
5.63
8.45
12.68
14.08
185
186
187
188
190
194
1
2
1
2
1
1
1.41
2.82
1.41
2.82
1.41
1.41
64
66
67
69
70
71
90.14
92.96
94.37
97.18
98.59
100.00
Esercizio di raccolta dei dati
Numero scarpa
35
36
37
38
39
40
41
42
42.5
43
43.5
44
45
46
47
Freq
Percent
Cum Freq
Cum Perc
1
3
7
6
12
3
3
10
3
3
1
11
4
3
1
1.41
4.23
9.86
8.45
16.90
4.23
4.23
14.08
4.23
4.23
1.41
15.49
5.63
4.23
1.41
1
4
11
17
29
32
35
45
48
51
52
63
67
70
71
1.41
5.63
15.49
23.94
40.85
45.07
49.30
63.38
67.61
71.83
73.24
88.73
94.37
98.59
100.00
Esercizio di raccolta dei dati
Componenti famiglia
1
2
3
4
5
6
≥7
Freq
Percent
Cum Freq
Cum Perc
1
3
11
37
14
3
2
1.41
4.23
15.49
52.11
19.72
4.23
2.82
1
4
15
52
66
69
71
1.41
5.63
21.13
73.24
92.96
97.18
100.00
Esercizio di raccolta dei dati
Titolo
Licenza elementare
Licenza media
Diploma
Laurea
Dottorato
Freq
Percent
Cum Freq
Cum Perc
3
12
31
22
3
4.23
16.90
43.66
30.99
4.23
3
15
46
68
71
4.23
21.13
64.79
95.77
100.00
Esercizio di raccolta dei dati
Lunghezza
avambraccio
.
20
21
22
23
24
25
26
27
27.5
28
29
30
31
35
44
Freq
Percent
Cum Freq
Cum Perc
9
1
2
2
4
3
14
7
11
1
6
3
5
1
1
1
12.68
1.41
2.82
2.82
5.63
4.23
19.72
9.86
15.49
1.41
8.45
4.23
7.04
1.41
1.41
1.41
9
10
12
14
18
21
35
42
53
54
60
63
68
69
70
71
12.68
14.08
16.90
19.72
25.35
29.58
49.30
59.15
74.65
76.06
84.51
88.73
95.77
97.18
98.59
100.00
Statistica Descrittiva
descrivere e riassumere un insieme di dati in
maniera ordinata
•
•
•
tabelle
grafici
misure di
posizione
dispersione
associazione
Tipi di grafico
1.
Diagramma circolare (o “torta”)
2. Diagramma a barre orizzontali
3. Diagramma a barre verticali
4. Istogramma a “canne d’organo”
5. Ogiva di Galton
6. Poligono di frequenza
7. Diagramma a punti (o “scatter plot”)
Diagramma circolare o a “torta”
… per le variabili qualitative
Sesso
Colore occhi
Verdi/
Grigi
21%
Maschio
55%
Femmina
45%
Blu/
Azzurri
13%
Marroni
52%
Nocciola
/Ambra
14%
Diagramma circolare o a “torta”
… per le variabili quantitative con poche modalità o
classi di valori
Età
18
5%
≥22
31%
19
27%
21
3%
20
34%
Diagramma a barre orizzontali
… per le variabili qualitative nominali
Colore occhi
Blu/Azzurri
9
Nocciola/Ambra
10
Verdi/Grigi
15
Marroni
37
0
5
10
15
20
25
30
35
40
n
Diagramma a barre orizzontali
… per le variabili qualitative ordinali
Titolo di studio
Dottorato
3
Laurea
22
Diploma
31
Licenza media
12
Licenza elementare
3
0
5
10
15
20
25
30
35
n
Diagramma a barre verticali
… per le variabili quantitative discrete
n
N componenti della famiglia
40
35
37
30
25
20
15
10
5
0
14
11
1
3
1
2
3
4
5
3
2
6
7
Istogramma a canne d’organo
… per le variabili quantitative continue
Altezza
(cm)
Valore
centrale
Freq
Freq Freq relative
Freq
relative
cum
specifiche
150-154
152
2
0.028
0.028
0.006
155-159
157
4
0.056
0.085
0.011
160-164
162
8
0.113
0.197
0.023
165-169
167
12
0.169
0.366
0.034
170-174
172
13
0.183
0.549
0.037
175-179
177
13
0.183
0.732
0.037
180-184
182
11
0.155
0.887
0.031
185-189
187
6
0.085
0.972
0.017
190-194
192
2
0.028
1.000
0.006
71
1
Altezza
0.200
0.150
0.100
0.050
0.000
centro della classe
Ogiva di Galton
… per le variabili quantitative continue
Altezza
(cm)
Valore
centrale
Freq
Freq Freq relative
Freq
relative
cum
specifiche
150-154
152
2
0.028
0.028
0.006
155-159
157
4
0.056
0.085
0.011
0.8
160-164
162
8
0.113
0.197
0.023
0.7
165-169
167
12
0.169
0.366
0.034
0.6
170-174
172
13
0.183
0.549
0.037
0.5
175-179
177
13
0.183
0.732
0.037
180-184
182
11
0.155
0.887
0.031
185-189
187
6
0.085
0.972
0.017
0.1
190-194
192
2
0.028
1.000
0.006
0
71
1
Altezza
1
0.9
0.4
centro della classe
0.3
0.2
145
155
165
175
185
195
Istogramma con classi della stessa
ampiezza
Altezza
Altezza
0.04
0.200
0.03
0.150
0.02
0.100
0.01
0.050
0
0.000
152
157
162
167
172
177
182
187
192
Se le classi sono tutte della
stessa ampiezza, gli istogrammi
che riportano sull’asse delle
ordinate la freq specifica, la
freq relativa o la frequenza
assoluta sono uguali a parte una
riscalatura dell’asse…
152
157
162
167
172
177
182
187
192
177
182
187
192
Altezza
14
12
10
8
6
4
2
0
152
157
162
167
172
Istogramma con le frequenze specifiche
… e classi di
diversa ampiezza
0.25
Età (anni)
freq.
freq. Rel.
freq. Spec.
20-29
30-34
35-39
40-44
24
32
45
28
0,107
0,142
0,200
0,124
0,011
0,028
0,040
0,025
45-59
27
0,120
0,008
… frequenze relative
0.045
0.04
0.2
… frequenze specifiche
0.035
0.03
0.15
0.025
0.02
0.1
0.015
0.01
0.05
0.005
0
0
0
10
20
30
40
50
60
70 0
10
20
30
40
50
60
70
Diagramma a punti
48
46
N scarpa
44
42
40
L’area di questa barra è
BASE X38
ALTEZZA =
5 X 0.029 = 0.145
36essere 0.147
(dovrebbe
ma 0.29 è
34
l’approssimazione
di
23/156 = 0.02948718)
145
155
165
175
Altezza
185
195
Statistica Descrittiva
descrivere e riassumere un insieme di dati in
maniera ordinata
•
•
•
tabelle
grafici
misure di
posizione
dispersione
associazione
Statistiche descrittive
Indici di posizione
Numeri che sono
rappresentativi dei dati e
forniscono indicazioni
sull’ordine di grandezza del
fenomeno in studio
Indici di posizione: media
Media aritmetica
dato un insieme di n unità su cui è stata rilevata la
variabile X:
{x
x1, x2, x3,......, xn}
la media aritmetica
X
è definita come:
n
x1 + x 2 + ...+ x n
X=
=
n
∑x
i=1
n
i
Es 1: Peso perso (Kg) da 7 soggetti
dopo una dieta ipocalorica
dieta ?
{3.8, 3.4, 2.9, 4.3, 10.3, 5.4, 4.9}
Qual è stato l’effetto medio della
dieta
Es 1:
Perdita media di peso (Kg) dopo la dieta
dieta ?
{3.8, 3.4, 2.9, 4.3, 10.3, 5.4, 4.9}
3.8 + 3.4 + 2.9 + 4.3 +10.3 + 5.4 + 4.9 35
X=
=
= 5 kg
7
7
Es 2: n°componenti
della famiglia
x
freq
1
1
2
3
3
11
4
37
5
14
6
3
7
2
tot
71
Es 2: n°componenti
della famiglia
3
11
6
47
4
8 647
48
1 + 2 + 2 + 2 + 3 + 3 + ... + 3 + ...
X=
=
71
1×1 + 2 × 3 + 3 ×11 + ...
=
= 4.08
71
x
freq
1
1
2
3
3
11
4
37
5
14
6
3
7
2
tot
71
Se la variabile continua è raggruppata in
classi, x è il valore centrale di classe
n
I
∑x
X=
i=1
n
∑x
i
X =
i
× f (x i )
i=1
I
∑ f (x )
i
i=1
Es 2: altezza
Altezza
(cm)
Valore
centrale
Freq
Valore
centrale*Freq
150-154
152
2
304
155-159
157
4
628
160-164
162
8
1296
165-169
167
12
2004
170-174
172
13
2236
175-179
177
13
2301
180-184
182
11
2002
185-189
187
6
1122
190-194
192
2
384
71
12277
152 × 2 + 157 × 4 + ... + 192 × 2 12277
X=
=
=
2 + 4 + ... + 2
71
172.9
Il valore 172.9 indica che se tutti gli studenti
fossero alti uguali, sarebbero tutti alti 172.9 cm
Rappresentazione grafica di alcune
proprietà della media aritmetica
La media aritmetica è sempre compresa tra il
più piccolo ed il più grande dei valori osservati
Peso perso (Kg) dopo la dieta
5
min=2.9
max=10.3
Rappresentazione grafica di alcune
proprietà della media aritmetica
Peso perso (Kg) dopo la dieta
5
n
∑x
i
5
5
5
5
5
5
=n X
i=1
3.8
0
3.4
5
2.9
10
4.3
10.3
15
20
5.4
25
4.9
30
35
Rappresentazione grafica di alcune
proprietà della media aritmetica
Peso perso (Kg) dopo la dieta
media=5
3.8
2.9 3.4
n
∑ (x
10.3
4.3 4.9 5.4
)
i − X =0
-0.1
i=1
-0.7
+0.4
+5.3
-1.2
-1.6
-2.1
-5.7
+5.7
ATTENZIONE La media aritmetica può non risultare
un valore osservato nell’insieme di dati in studio.
{3.8, 3.4, 2.9, 4.3, 10.3, 5.4, 4.9}
5 Kg non è un valore presente nell’insieme delle
osservazioni:
5
Indici di posizione
La media aritmetica è la misura
di posizione di gran lunga più usata
ma, a volte, altre misure
- la moda e la mediana si dimostrano utili.
Indici di posizione: moda
La moda di una distribuzione di frequenza è,
in statistica,
la modalità, il valore o la classe di modalità o di valori,
caratterizzata dalla massima frequenza.
In altre parole, è il valore che compare più
frequentemente o, in altre parole,
“quello che va più di moda”.
Per come è definita si capisce che
la moda può non essere unica.
Si parla di
distribuzione unimodale
se vi è un solo valore modale.
Colore occhi
40
35
30
25
20
15
10
5
0
Marroni
Verdi/Grigi
Nocciola/Ambra
Blu/Azzurri
Si parla di
distribuzione bimodale
se vi sono 2 valori modali.
60
50
40
30
20
10
0
10
20
30
40
50
60
70
80
90
Si parla di
distribuzione trimodale
se vi sono 3 valori modali.
60
50
40
30
20
10
0
10
20
30
40
50
60
70
80
90
Si parla di
distribuzione multimodale
se vi sono più di 3 valori modali.
60
50
40
30
20
10
0
10
20
30
40
50
60
70
80
90
La moda è l’unico degli indici di posizione
a poter descrivere variabili qualitative
80
70
60
50
40
30
20
10
0
A
B
C
D
E
F
G
H
I
Indici di posizione: mediana
La mediana è quel valore della variabile (modalità,
intensità) tale per cui l’insieme delle osservazioni
risulta essere per metà inferiore e per metà superiore
ad essa.
Peso perso (kg) dopo la dieta
{3.8, 3.4, 2.9, 10.3, 4.3, 5.4, 4.9}
Calcolo della mediana
si ordinano le osservazioni:
{2.9, 3.4, 3.8, 4.3, 4.9, 5.4, 10.3}
si individua quella modalità che è più grande
del 50% delle osservazioni e più piccola e del
restante 50%:
{2.9, 3.4, 3.8, 4.3, 4.9, 5.4, 10.3}
3 osservazioni
3 osservazioni
Mediana
Per n dispari, la mediana è quel valore che occupa
la posizione n + 1
nell’insieme ordinato:
2
(7+1)/2=4° posizione
Resto = 0
{2.9, 3.4, 3.8, 4.3, 4.9, 5.4, 10.3}
Mediana
Per n pari, la mediana è il valore centrale tra
quello che occupa la posizione n/2 e [(n/2)+1]
nell’insieme ordinato:
{23, 24, 25, 27, 27, 30}
n/2 0 6/2=3°
[(n/2) + 1] = (6/2)+1=4°
Mediana = (25 + 27)/2 = 26
Oppure .. (n+1)/2 = 7/2 = 3.5
Posizione 3 con resto 0.5
Mediana = 25 + 0.5 * (27-25) = 26
Mediana
Lunghezza
Valore
avambraccio centrale
20-24
25-29
30-34
35-39
40-44
22
27
32
37
42
Freq
12
42
6
1
1
62
Freq
Freq relative
relative
cum
0,194
0,677
0,097
0,016
0,016
1
0,194
0,871
0,968
0,984
1,000
ci si può limitare alla classe mediana: 25-29
Oppure …..
Mediana
Lunghezza avambraccio
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
19
21
23
2526 27
29
31
33
35
37
39
41
43
Distribuzione simmetrica
Concentrazione di cloro nel sudore
900
media
800
= 98.8 mEq/l
mediana = 100.0 mEq/l
700
moda
600
= 100.0 mEq/l
500
400
300
200
100
0
< 30
60
100
150
mE/l
Distribuzione asimmetrica
Età alla diagnosi
Distribuzione simmetrica
Moda = Mediana = Media
Distribuzione con asimmetria positiva
Moda < Mediana < Media
Distribuzione con asimmetria negativa
Moda > Mediana > Media
I quartili
… sono valori che ripartiscono una popolazione in 4 parti
ugualmente “popolate”.
In altri termini, la frequenza cumulata fino ai tre quartili
è circa 25%, 50% e 75% rispettivamente.
I quartili
I quartili
Lunghezza avambraccio
1.0
0.9
III quartile
0.8
0.7
0.6
mediana
0.5
0.4
I quartile
0.3
0.2
0.1
0.0
19
21
23
24
27.5
25 26 27
29
31
33
35
37
39
41
43
Box plot
massimo
III quartile
mediana
I quartile
minimo
… piccola digressione: centili
CENTILI
Il centile x° della distribuzione di una variabile
è quel valore che divide la distribuzione in due parti,
una contenente l’x% dei valori, l’altra il restante 100-x%.
Ovviamente:
l’x%
dei valori è ≤ x° centile
il 100-x%
dei valori è > x° centile
x%
x° centile
100-x%
e
Concentrazione di cloro nel
sudore
900
800
700
80° centile:
600
114 mEq/l
500
400
300
200
100
0
<30
60
100
150
mEq/l
L’80° centile della
distribuzione dei
valori di cloro nel
sudore dei pazienti
affetti da FC è
114 mEq/l.
Questo significa che l’80% dei pazienti diagnosticati aveva
un valore di cloro ≤114 mEq/l,
ed il restante 100-80% = 20% un valore superiore
Età alla diagnosi
40
30
20
90° centile = 15 anni
10
0
0
5
10
Il 90° centile della
distribuzione dell’età
alla diagnosi è 15 anni.
40
Questo significa che il 90% dei pazienti è stato diagnosticato
prima del compimento del 16° anno di età,
il restante 100-90% = 10% dopo il 15° compleanno.
Standard di crescita ….
Le curve di crescita sono grafici di riferimento
che si basano sui centili ottenuti misurando tantissimi
soggetti in varie età del loro sviluppo.
Si ottiene una curva che ne rappresenta la %
rispetto a tutti i soggetti misurati.
Se abbiamo trovato che il 10% della popolazione maschile
misurata a 6 anni è inferiore a 107 cm,
questa altezza rappresenta
il 10° centile e così via.
Se la vostra statura è al 50° centile per l'età,
significa che il 50% dei vostri coetanei
è più basso di voi ma il restante 50% è più alto.
Curve
di
crescita
I centili si usano così:
Misurare l'altezza del soggetto;
tracciare una retta verticale
partendo dall'età del soggetto e
una retta orizzontale
partendo dalla misura trovata.
Vedere il punto d'incrocio delle due rette
e leggere il centile di appartenenza.
Determinazione del sovra/sottopeso
Vedere a quanti kg corrisponde quel centile
sui grafici del peso e
confrontarlo con il peso effettivo misurato.
La differenza tra peso effettivo e
peso del centile di appartenenza
sarà il sovrappeso o il sottopeso.
Esempio
Ragazza di 8 anni
alta 123 cm e pesante 28 kg
come altezza si trova
al 25° centile
Si va a vedere sul grafico
del peso quanti chili
corrispondono al 25°
centile
e si trova 24.5 chili
Pesandone 28,
ha un sovrappeso di 3.5 chili
Statistiche descrittive
Indici di dispersione
Numeri che forniscono informazioni
sulla variabilità (eterogeneità) del
fenomeno in studio.
Le misure di posizione sono insufficienti per
descrivere un fenomeno; per completare il quadro
occorrono alcune misure di variabilità.
La variabilità
Si considerino i seguenti valori di VES
(velocità di eritrosedimentazione, mm/ora)
misurati in due gruppi di 7 pazienti ciascuno
{A}:
{4, 5, 5, 6, 7, 8, 35} {B}: {7, 8, 8, 9, 10, 11, 17}
media=10
media=10
Si può ritenere che i due gruppi di pazienti
abbiano valori simili di VES?
Esempio
I due insiemi forniscono
risultati sovrapponibili in
termini di media (anche se
non di mediana)
L’insieme A risulta molto più
disperso dell’insieme B
A
B
Media
10
10
Mediana
6
9
A
B
Min
4
7
Max
35
17
Intervallo di variazione
Svantaggi
inganna quando nella distribuzione si trovano pochi
valori molto devianti
non dà nessuna indicazione di come i diversi valori
si raggruppano attorno alla media
dipende dalle due osservazioni più estreme e per
questo è influenzato da eventuali valori anomali
Intervallo di variazione
Lunghezza
avambraccio
.
20
21
22
23
24
25
26
27
27.5
28
29
30
31
35
44
Freq
Percent
Cum
Freq
Cum
Perc
9
1
2
2
4
3
14
7
11
1
6
3
5
1
1
1
12.68
1.41
2.82
2.82
5.63
4.23
19.72
9.86
15.49
1.41
8.45
4.23
7.04
1.41
1.41
1.41
9
10
12
14
18
21
35
42
53
54
60
63
68
69
70
71
12.68
14.08
16.90
19.72
25.35
29.58
49.30
59.15
74.65
76.06
84.51
88.73
95.77
97.18
98.59
100.00
Min
20
Max
44
Intervallo interquartile
Lunghezza
avambraccio
.
20
21
22
23
24
25
26
27
27.5
28
29
30
31
35
44
Freq
Percent
Cum
Freq
Cum
Perc
9
1
2
2
4
3
14
7
11
1
6
3
5
1
1
1
12.68
1.41
2.82
2.82
5.63
4.23
19.72
9.86
15.49
1.41
8.45
4.23
7.04
1.41
1.41
1.41
9
10
12
14
18
21
35
42
53
54
60
63
68
69
70
71
12.68
14.08
16.90
19.72
25.35
29.58
49.30
59.15
74.65
76.06
84.51
88.73
95.77
97.18
98.59
100.00
E’ la differenza
esistente tra il III e
il I quartile,
cioè tra 75°e
25°percentile
IIQ= 27.5-23=4.5
Intervallo interquartile
Tale intervallo contiene la metà dei valori considerati,
indipendentemente dalla forma della distribuzione della
variabile.
Lunghezza avambraccio
1.0
0.9
III quartile
0.8
0.7
0.6
mediana
0.5
0.4
I quartile
0.3
0.2
0.1
0.0
19
21
23
24
26
25
27.5
27
29
intervallo interquartile
31
33
35
37
39
41
43
Intervallo interquartile
90
75
3° quartile
Distribuzione poco dispersa
50
25
1° quartile
intervallo
10
42.7
interquartile
44.2
45.7
47.2
48.7
piccolo
50.2
51.7
53.2
54.7
56.2
57.7
59.2
Intervallo interquartile
90
3° quartile
75
Distribuzione molto dispersa
50
1° quartile
25
intervallo
10
42.7
interquartile
44.2
45.7
47.2
48.7
50.2
51.7
53.2
54.7
grande
56.2
57.7
59.2
Supponiamo di avere
N misure di una certa grandezza x.
x1, x2, x3, …, xi, …, xn
Con queste si calcola la media (m).
La media indica qual è “l’ordine di grandezza”
dei valori x
ATTENZIONE:
i valori xi possono essere molto lontani dalla media.
Per avere una valutazione della variabilità dei dati
iniziamo col considerare una prima quantità
chiamata scarto o deviazione.
Tale grandezza è così definita:
d = x – m.
Questa differenza fornisce una indicazione di quanto
una qualsiasi misura (x) differisce dalla media (m).
In generale, se tutti gli scarti sono molto piccoli,
le misure saranno tutte vicine.
Oltre al valore numerico degli scarti
è interessante notarne il segno:
le deviazioni possono essere infatti
sia positive sia negative
a seconda che una qualsiasi delle N misure cada
a destra o a sinistra della media.
Questo fatto complica un po’ la situazione.
Infatti, se volessimo provare a valutare
la variabilità attraverso una media
dei singoli scarti,
ci accorgeremmo subito che la media degli scarti
è uguale a zero.
Non dovremmo però rimanere sorpresi per questo risultato
valido in generale: la media, per definizione, è tale per cui i
dati si distribuiscono sia alla sua sinistra che alla sua
destra, facendo sì che la somma tra gli scarti negativi e
quelli positivi sia appunto nulla.
Peso perso (Kg) dopo la dieta
media=5
3.8
2.9 3.4
10.3
4.3 4.9 5.4
-0.1
-0.7
+0.4
+5.3
-1.2
-1.6
-2.1
-5.7
+5.7
Poiché gli scarti costituiscano un buon punto
di partenza per lo studio della variabilità dei dati,
per ovviare all'inconveniente legato alla loro somma,
eleviamo al quadrato le singole deviazioni ottenendo
tutte quantità positive e quindi in grado di essere
sommate tra loro senza produrre in un risultato nullo.
Dopodiché si può passare a calcolare la media degli
scarti estraendone la radice quadrata, in modo da
ottenere una grandezza compatibile, a livello di
unità di misura, con quella di partenza.
La grandezza così ottenuta è detta
deviazione standard.
Indici di dispersione
Devianza:
D = ∑ (x i − µ )2
n
i =1
Varianza Campionaria:
D
s =
n −1
2
Deviazione standard
s=
campionaria:
Coeff. di variazione:
s2
CV =
s
× 100
X
Calcolo degli indici di dispersione
N componenti
della famiglia
(x)
freq
1
1
2
freq
rel
cum
X*freq
(x-media)
(x-media)
*freq
(x-media)^2
*freq
0,014 0,014
1
-3,085
-3,085
9,517
3
0,042 0,056
6
-2,085
-6,255
13,042
3
11
0,155
0,211
33
-1,085
-11,935
12,949
4
37
0,521 0,732
148
-0,085
-3,145
0,267
5
14
0,197 0,930
70
0,915
12,81
11,721
6
3
0,042 0,972
18
1,915
5,745
11,002
7
2
0,028 1,000
14
2,915
5,83
16,994
tot
71
290
-0.595
-0,035
75,493
freq
rel
Mediana = 4
s = 1.078 = 1.038
X = 290 / 71 = 4.085
Moda = 4
Q1 = 4
D = 75 . 493
1.038
Q3 = 5
CV =
× 100 = 25%
2
Range interquartile = 5-4 = 1 s = 75.493 / 70 = 1.078
4.085
Indici e tipo di distribuzione
dati con distribuzione simmetrica .....
usare media e deviazione standard
dati con distribuzione non simmetrica .....
usare mediana e percentili
Prossima lezione
giov 12 novembre
8:30-10:30