STATISTICA DESCRITTIVA
La Sintesi Statistica
Una serie di dati numerici è compiutamente
descritta da tre proprietà principali:
La tendenza centrale o posizione
La dispersione o variabilità
La forma
Queste misure descrittive sintetiche, riassuntive dei
dati tabellari, sono chiamate:
statistiche, quando sono calcolate su un
campione di dati (si esprimono con lettere
dell’alfabeto latino)
parametri, quando descrivono la popolazione od
universo dei dati (si esprimono con lettere
dell’alfabeto greco
STATISTICA DESCRITTIVA
indici di Posizione(measures of central tendency)
MEDIA
MODA
MEDIANA
Indici di Dispersione(measures of dispersion)
CAMPO di VARIAZIONE (Range)
DISTANZA INTERQUARTILE (Interquartile
range)
DEVIANZA
VARIANZA
DEVIAZIONE STANDARD
COEFFICIENTE di VARIAZIONE
STATISTICA DESCRITTIVA
Quali sono le principali MISURE di
POSIZIONE nella seguente serie numerica?
Serie ordinata (x(i) ) 3 4 4 4 5 6 8 11 15
MODA, valore più frequente
MEDIANA,valore centrale in una serie ordinata
MEDIA =(xi/n)= 60/9 = 6,67
STATISTICA DESCRITTIVA
La maggior parte delle variabili biologiche (peso,
statura, glicemia) hanno una distribuzione
normale, in cui media, mediana e moda
coincidono.
Alcune variabili (tempo di reazione, tempo di
sopravvivenza, numero di linfonodi metastatici,
concentrazione serica di IgE) hanno una
distribuzione asimmetrica, in cui media e
mediana non coincidono.
Il “dilemma” di Trilussa
“Me spiego: da li conti che se fanno
seconno le statistiche d'adesso
risurta che te tocca un pollo all'anno:
e, se nun entra ne le spese tue,
t'entra ne la statistica lo stesso
perché c'è un antro che ne magna due”
 0 /2  (?)
la variabile d’interesse è l’ALTEZZA
UNA POPOLAZIONE
CON MOLTA
VARIABILITÀ
UNA
POPOLAZIONE
CON POCA
VARIABILITÀ
STATISTICA DESCRITTIVA dispersione di una distribuzione
Ore di
sonno
Maschi
Femmine
1
1
3
2
3
6
3
3
7
4
7
8
5
11
5
6
8
3
7
4
1
8
2
1
9
1
1
10
-
-
11
-
1
12
-
1
13
-
1
14
-
1
15
-
1
Usando SOLO le medie possiamo
ingannarci nel confrontare i caratteri di
due gruppi di individui.
Diamo un'occhiata alla distribuzione di
frequenza della durata di sonno indotto
da un anestetico in un campione di 40+40
pazienti.
Ad esempio , sappiamo che le donne
sono notoriamente diverse dagli
uomini sotto molti aspetti
STATISTICA DESCRITTIVA dispersione di una distribuzione
Il periodo medio di sonno per le donne risulta
di 5 ore così come per gli uomini
Se ci soffermiamo solo sulle medie potremmo concludere che
le donne hanno una durata di sonno uguale a quello dei maschi.
15
14
13
Maschi
frequenza assoluta
12
11
Femmine
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
11
DURATA DEL SONNO INDOTTO
12
13
14
15
STATISTICA DESCRITTIVA
Misure di Variabilità
Nome italiano
Nome inglese
Campo di variazione
Range
Distanza interquartile
Interquartile range
Devianza (somma di
Sum of squares (SSq)
scarti quadratici)
Varianza
Mean Square (MSq)
Deviazione standard
Standard
deviation
Coefficiente di variazione Variation coefficient
STATISTICA DESCRITTIVA Misure di Variabilità
Range (campo di variazione) = Xmax - Xmin
(differenza tra il valore massimo e il valore minimo)
Svantaggi
Si basa soltanto sui valori estremi della
distribuzione e non tiene conto dei valori
intermedi
Tende ad aumentare al crescere del numero
delle osservazioni
E' molto influenzato da osservazioni anomale
(outliers)
esempio:
num. linfonodi metastatici
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
n = 2  Range = xmax - xmin = 10 - 0 = 10
num. linfonodi metastatici
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
n = 10  Range = xmax - xmin = 10 - 0 = 10
num. linfonodi metastatici
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
n = 11  Range = xmax - xmin = 18 - 0 = 18
L'intervallo di variazione
I dati possono …
essere uniformemente distribuiti,
concentrarsi ai due estremi della scala
concentrarsi a un capo della scala
o disporsi in altro modo
IV = 15-1 = 14
IV = 15-1 = 14
IV = 15-1 = 14
IV = 15-1 = 14
L'intervallo di variazione
Esempio:
Gli insiemi di valori di VES
{A}:{8,5,7,6,35,5,4}
{B}:{11,8,10,9,17,8,7}
hanno la stessa
media (=10)
in {A} i valori sono inclusi tra 4 e 35
in {B} i valori sono inclusi tra 7 e 17
La differenza tra il massimo e il minimo valore di
un insieme di dati è detto intervallo di
variazione (o range).
il range di {A} è RA = 35 - 4 = 31
il range di {B} è RB = 17 - 7 = 10
Il range è il più intuitivo fra gli indici di dispersione, ha però il difetto di
basarsi solo sui due valori estremi, nei quali si manifesta maggiormente
la variabilità di campionamento e l'errore di misura
STATISTICA DESCRITTIVA Misure di Variabilità
Range o distanza interquartile
IQR = Q3 - Q1
differenza tra il terzo quartile (75° percentile)e il
1° quartile (25° percentile)
Osservazioni
In questo intervallo ricade la metà dei valori,
posta
esattamente al centro della distribuzione
Non è molto influenzata da osservazioni anomale
o estreme (statistica robusta)
E' adatta a esprimere la variabilità di distribuzioni
asimmetriche
esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96)
Range = xmax - xmin
= 193 - 162
= 31 cm
MASCHI
Statura
Freq. Cumul.
162
168
169
170
172
174
175
176
177
178
179
181
182
183
184
188
192
193
1
1
1
3
2
2
5
3
3
3
1
1
2
2
1
1
1
1
Totale
34
1
2
3
6
8
10
15
18
21
24
25
26
28
30
31
32
33
34
Calcolo del I° quartile:
Calcolo del III° quartile:
(rango percentilico = 25)
(rango percentilico = 75)
1. rango = (34+1) * 25 / 100
1. rango = (34+1) * 75 / 100
= 35 / 4  9
2. I° quartile = 174 cm
IQR
= Q3 - Q1
= 35 * 3 / 4  26
2. III° quartile = 181 cm
= 181 - 174
= 7 cm
generalmente si riporta: 174,181
l
STATISTICA DESCRITTIVA Misure di Variabilità
l'intervallo interquartile
100
3° quartile
F(x)
75
mediana
50
intervallo
interquartile
1° quartile
25
0
47.25
48.75
50.25
51.75
53.25
54.75
56.25
57.75
59.25
cm
60.75
STATISTICA DESCRITTIVA Misure di Variabilità
DESCRIPTION OF A SERIES OF GASTRIC
CANCER PATIENTS
In the series of 921 patients, the total number of
dissected lymph nodes was 23,288, with an average of
25.3 ± 16.3 (mean±SD) dissected nodes per case
(median 21, range 1-108). The mean number of
metastatic nodes was 4.3 ± 7.5 (median 1, range 0-74)
in the overall series and 8.3 ± 8.7 (median 5, range 174) in pN+ patients.
Bibliografia
De Manzoni G, Verlato G, Roviello F, Morgagni P, Di Leo A,Saragoni L, Marrelli D, Kurihara H,
Pasini F, for the ItalianResearch Group for Gastric Cancer (2002) The new TNMclassification of
lymph node metastasis minimizes stage migration problems in gastric cancer patients. Brit J
Cancer , 87: 171-174
STATISTICA DESCRITTIVA Misure di Variabilità
Table 3. Allergy parameters in subjects without self-reported allergic rhinitis and in
subjects with perennial, seasonal and perennial+seasonal rhinitis. Absolute
frequencies with percentage in brackets are reported for all variables but total IgE,
which is expressed as median (interquartile range).
No rhinitis
(n=745)
Parental allergy 120/736 (16)
Pos. specific IgE
D.pteronyssinus 56/623 (9)
Subjects with self-reported allergic rhinitis
Perennial
Seasonal
(n=19)
P
value
(n=50)
Perennial +
seasonal
(n=87)
5/19 (26)
21/48 (44)
30/87 (34)
<0.001
6/15 (40)
7/43 (16)
19/70 (27)
<0.001
Cat
17/623 (3)
2/15 (13)
4/43 (9)
12/70 (17)
---
Timothygrass
57/623 (9)
3/15 (20)
26/43 (60.5)
39/70 (56)
<0.001
Cl.herbarum
3/623 (0.5)
1/15 (7)
1/43 (2)
3/70 (4)
---
Pariet.
judaica
Total IgE
29/623 (5)
1/15 (7)
16/43 (37)
32/70 (46)
<0.001
36.1 (13.2-101)
110.5 (11.6-217.5)
87 (38-214.5)
106 (50.5-240) <0.001
Significance of differences was evaluated by chi-squared test for categorical variables and by one-way ANOVA for total IgE after
logarithmic transformation. Significance was notevaluated by chi-squared test (---) when cells with expected value<5 exceeded 25%. NS
=not significant
Olivieri M, Verlato G, Corsico A, Lo Cascio V, Bugiani M, Marinoni A, de Marco R, for the ItalianECRHS group (2002) Prevalence and
features of allergic rhinitis in Italy. Allergy, 57:600-606
STATISTICA DESCRITTIVA Misure di Variabilità
Nel primo esempio viene utilizzata come misura di
dispersione il range per descrivere una casistica
nella sua globalità.
Nel secondo esempio viene utilizzata come misura
di dispersione la distanza interquartile. In
questo modo è possibile confrontare i livelli di
IgE totali fra 4 gruppi di numerosità molto
diversa: n varia da 19 nel gruppo con rinite
allergica perenne a 745 nel gruppo senza rinite.
STATISTICA DESCRITTIVA Misure di Variabilità
Gli indici di dispersione di più largo uso sono basati sugli scarti
dalla media
Devianza =  (x -M)2 =
(x) ²
= x²- ----N
(o somma di scarti quadratici)
La devianza raddoppia
anche se la variabilità
rimane costante
DEVIANZA
Nella popolazione
dimensione
della
popolazione
N

( x i - ) 2
i 1
media nella popolazione
(parametro)
Nel campione
dimensione
del
campione
n

(x i - x)2
i 1
media nel campione
(statistica)
 E’ un indice di dispersione definito sulla base del concetto di scarto
rispetto ad un punto centrale della distribuzione.
 E’ la base delle misure di dispersione per variabili quantitative (da essa
discendono la Varianza e la Deviazione Standard).
STATISTICA DESCRITTIVA Misure di Variabilità
media
5
6
6
7
scarto
scarto²
-1
1
0
0
1
1
Dev=2
5
-1
1
6
0
0
1
1
5
-1
1
6
0
0
7
1
1
7
6
Dev=4
STATISTICA DESCRITTIVA Misure di Variabilità
La devianza è maggiore perché i dati sono
più dispersi o perché il numero delle
osservazioni è più elevato?
Bisogna tener conto della numerosità!
Inventiamo la
Varianza = devianza / n
  (x -M)2/n = ²
STATISTICA DESCRITTIVA Misure di Variabilità
Es polli elevati al quadrato è una misura
un po' difficile!
Inventiamo la deviazione standard!
deviazione standard =  varianza
 
2
Parigi: 6  1 polli/mese (media  DS)
New York: 6  5 polli/mese (media  DS)
STATISTICA DESCRITTIVA Misure di Variabilità
Devianza o Somma dei Quadrati (SQ)
(Sum of Squares - SSq)
• Si tratta di un indice di dispersione con
riferimento a un centro
• E’ la base delle misure di dispersione dei dati,
utilizzate in tutta la statistica parametrica.
• Da essa discendono la Varianza e la Deviazione
Standard o scarto quadratico medio (sqm)
STATISTICA DESCRITTIVA Misure di Variabilità
Varianza o Quadrato Medio (QM)
(Mean Square - MSq)
• E’ una devianza media ossia la devianza
rapportata al numero di osservazioni
campionarie (n) o di popolazione (N)
• Media aritmetica dei quadrati degli scarti
delle singole osservazioni dalla loro media
aritmetica (media di X)
STATISTICA DESCRITTIVA Misure di Variabilità
Varianza
Osservazioni
• E’ adatta per distribuzioni simmetriche
• Tiene conto di tutte le osservazioni ed è dunque
influenzata da eventuali osservazioni anomale
(outliers)
• Non è direttamente confrontabile con la media o
altri indici di posizione in quanto le unità di
misura sono elevate al quadrato (valore
teorico)
STATISTICA DESCRITTIVA Misure di Variabilità
Deviazione Standard
Osservazioni
• E’ una misura di distanza dalla media e quindi ha
sempre un valore positivo. E' una misura della
dispersione della variabile intorno alla media
• E’ direttamente confrontabile con le misure di
posizione, essendo calcolata con la stessa unità
di misura
• E’ di gran lunga più utilizzata della varianza (che
ha un forte valore teorico) nelle pubblicazioni
scientifiche per la sua “praticità d’uso” e
immediata confrontabilità con la media
STATISTICA DESCRITTIVA Misure di Variabilità
Deviazione Standard
Questo numero rappresenta una misura della
deviazione dei valori dalla media. Esso ci dice
come i valori tendano a disperdersi intorno alla
loro media:
se la deviazione standard è piccola, indica un
fitto addensamento dei valori intorno alla loro
media;
se è grande indica la presenza di valori molto
lontani dalla media.
STATISTICA DESCRITTIVA Misure di Variabilità
Deviazione Standard
ds=5.5
media
IV = 15-1 = 14
IV = 15-1 = 14
d.s = 3.6
media
IV = 15-1 = 14
d.s = 4.4
d.s = 2.7
IV = 15-1 = 14
STATISTICA DESCRITTIVA Misure di Variabilità
Xi x²i
_________
3
9
5
25
6
36
7
49
9
81
__________
30
200
dev=20
M=6
var=4
(xi-M) (xi-M)²
____________
-3
9
-1
1
0
0
1
1
3
9
_____________
0
20
ds=2
calcolo della varianza
xi
f(xi)
1
4
1
4
4
-4
64
2
9
4
18
36
-3
81
3
10
9
30
90
-2
40
4
15
16
60
240
-1
15
5
16
25
80
400
0
0
6
11
36
66
396
1
11
7
5
49
35
245
2
20
8
3
64
24
192
3
27
9
2
81
18
162
4
32
10
0
100
0
0
5
0
11
1
121
11
121
6
36
12
1
144
12
144
7
49
13
1
169
13
169
8
64
14
1
196
14
196
9
81
15
1
225
15
225
10
100
Σ
80
400
2620
xi 2 xi  f ( xi )
xi 2  f ( xi )
( xi - x ) ( xi - x )2  f ( xi )
620
Media=400/80=5
Dev= 620
Varianza=Dev/(N)
= 620/80 = 7.75
Ds= 2.78
esempio: distribuzione di frequenza della statura delle
matricole di Medicina dell’Università di Verona
nell’A.A. 95/96
----------------------------------------------------------------------------CLASSE
PUNTO
FREQUENZA
ni*xi
ni*xi2
CENTRALE
ASSOLUTA
(xi)
----------------------------------------------------------------------------[150-155)
152.5
1
152.5* 1 = 152.5
(152.5)2* 1 = 23256.25
[155-160)
157.5
8
157.5* 8 = 1260.0
(157.5)2* 8 = 198450.00
[160-165)
162.5
24
162.5*24 = 3900.0
(162.5)2*24 = 633750.00
[165-170)
167.5
34
5695.0
953912.50
[170-175)
172.5
27
4657.5
803418.75
[175-180)
177.5
19
3372.5
598618.75
[180-185)
182.5
9
1642.5
299756.25
[185-190)
187.5
1
187.5
35156.25
[190-195]
192.5
2
385.0
74112.50
-----------------------TOTALE
125
21252.5
3620431.25
n
s
n x
i 1
i i
2
n
- ( ni xi ) 2 / n
i 1
n -1
3620431.25 - (21252.5) 2 / 125

 57.1  7.6cm
124
ESEMPIO
I dati seguenti si riferiscono al livello di
emoglobina (X) in g/100 ml misurato in
un campione di 70 donne:
Raggruppate i dati in intervalli di
ampiezza 1 g/100 ml.
Determinate
la
varianza
e
la
deviazione standard della distribuzione
(dati raggruppati in intervalli di classe).
9
9,3
9,4
9,7
10,2
10,2
10,3
10,4
10,4
10,5
10,6
10,6
10,7
10,8
10,8
10,9
10,9
10,9
11
11
11,1
11,1
11,2
11,2
11,3
11,4
11,4
11,4
11,5
11,6
11,6
11,7
11,7
11,8
11,8
11,9
11,9
12
12
12,1
12,1
12,1
12,2
12,3
12,5
12,5
12,7
12,9
12,9
12,9
12,9
13
13,1
13,1
13,2
13,3
13,3
13,4
13,4
13,5
13,5
13,6
13,7
13,7
14,1
14,6
14,6
14,7
14,9
15
SOLUZIONE
----------------------------------------------------------CLASSE
PUNTO
FREQUENZA
calcoliamo
il
CENTRALE
ASSOLUTA
xi*ni
xi2*ni
calcoliamo il
prodotto tra
(xi)
(ni)
prodotto tra
il
----------------------------------------------------------[9-10)
9.5
4
38.0
361.00
il punto
QUADRATO
[10-11)
10.5
14
147.0
1543.50
centrale
del
valore
[11-12)
11.5
19
218.5
2512.75
della175.0
classe e
centrale
[12-13)
12.5
14
2187.50
[13-14)
13.5
13
175.5
la frequenza
della2369.25
classe e
[14-15]
14.5
6
87.0
1261.50
la frequenza
------------------TOTALE
70
841.0
10235.50
n
VARIANZA
s 
2
n
2
x
n
(
x
n
)
 i i  i i /n
i 1
2
i 1
n -1
10235.50 - (841.0) 2 / 70

 1.91( g / 100mL) 2
69
n
DEVIAZIONE STANDARD
s
x
i 1
i
2
n
ni - ( xi ni ) 2 / n
i 1
n -1
 1.91  1.38 g / 100mL
STATISTICA DESCRITTIVA Misure di Variabilità
Coefficiente di variazione (CV)
Due gruppi con valori medi molto distanti
Tre neonati pesano rispettivamente 3, 4 e 5 Kg
(media  DS: 4  1 Kg).
Tre bambini di 1 anno pesano 10, 11 e 12 Kg
(media  DS: 11  1 Kg).
La deviazione standard è uguale nei due gruppi, ma il buon
senso suggerisce che la variabilità del peso sia maggiore
nei neonati.
STATISTICA DESCRITTIVA Misure di Variabilità
Due variabili diverse
In 91 ragazze matricole di Medicina a Roma
nell’a.a. 2002/2003,
il peso era pari a 55,1  5,7 Kg (media 
DS) con un range di 45-70 Kg,
la statura era 166,1  6,1 cm (media±DS)
con un range di 150-182 cm.
E’ maggiore la variabilità del peso o la
variabilità della statura?
STATISTICA DESCRITTIVA Misure di Variabilità
Coefficiente di variazione (CV)
Per rispondere a queste domande è necessario
calcolare il coefficiente di variazione: CV =
(deviazione standard / media) * 100.
La deviazione standard viene espressa in
percentuale della media.
Media Dev. standard CV
Neonati 4 Kg 1 Kg 25 %
Bambini 1 anno 11 Kg 1 Kg 9,1 %
La variabilità del peso è maggiore nei neonati.
STATISTICA DESCRITTIVA Misure di Variabilità
Media Dev. standard CV
Peso 55,1 Kg 5,7 Kg 10,3 %
Statura 166,1 cm 6,1 cm 3,7 %
La variabilità del peso è maggiore della
variabilità della statura.
Esempio di calcolo degli indici di dispersione
Nell'esempio dei due insiemi di valori di VES si ha:
{A}:
{ 8, 5, 7, 6, 35, 5, 4}
Dev=82+52+... 42-(8+5+... 4)2/7
=1440-700=740
s2 = 740/6 = 123.33
s =√ 123.3. = 11.1
= (-1.1,21.1)
CV%= 100(11.1/10) = 111%
{B}:
{ 11, 8, 10, 9, 17, 8, 7}
Dev=112+82+...72-(11+8+. 7)2/7
= 768-700=68
s2 = 68 / 6 = 11.33
s = √11.33 = 3.4
= (6.6, 13.4)
CV% = 100  (3.4/10) = 34%
In {A} l'intervallo ± s include anche valori negativi di VES, che ovviamente
non sono possibili. L'uso di s per esprimere la dispersione dovrebbe
essere quindi limitato alle distribuzioni simmetriche (o quasi)