Problemi connessi con l’uso della media
Media di posizione: mediana (1/2)
- la media può subire forte influenza dei valori
modali estremi del carattere (in alcuni casi
molto differenti dagli altri dati osservati)
- la media può non essere un valore osservato
- la media è applicabile solo nel caso di caratteri
quantitativi
La mediana di un insieme di unità ordinate
(secondo un carattere ordinabile) è la modalità
presentata dall’unità centrale, dove per unità
centrale si intende quell’unità che divide la
popolazione in due parti di uguale numerosità:
una parte formata dalle unità che presentano
una modalità precedente o uguale a quella
dell’unità centrale e una parte formata dalle
unità che presentano una modalità successiva o
uguale a quella dell’unità centrale
Per ovviare a tali problemi introduciamo un nuovo
indice: la mediana
1
2
Media di posizione: mediana (2/2)
Esempio di applicazione della mediana
Sia n il numero delle unità statistiche e ui la
i-esima modalità del carattere. Per il computo
della mediana si procede come segue:
1. ordinare le unità in senso crescente rispetto
alle modalità di carattere
2. individuare la posizione dell’unità centrale: se
n è dispari (n+1)/2; se n è pari si hanno due
unità centrali n/2 e n/2+1
3. Attribuire alla mediana il valore u(n+1)/2 se n è
dispari e a scelta un/2 o un/2+1 se n è pari.Nel
caso di carattere quantitativo se ne può fare
la media
Relativamente all’Esempio 1
della prima lezione,
ordinando i 40 valori
osservati in modo crescente:
1 2 2 2 2 2 2 3 3 3
3 3 3 3 3 3 3 4 4 4
20° valore
21° valore
Otteniamo come mediana
(4+4)/2 = 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 6 9
3
4
Esempio di applicazione della mediana
Grado di istruzione
(modalità del
carattere) nel 1983
fa frequenza
assoluta sulla
popolazione dei
Paesi Bassi
fa frequenza
assoluta sulla
popolazione del
Portogallo
primaria
1139955
1203119
secondaria
1466956
489696
384407
101308
universitaria
Proprietà della mediana
La somma degli scarti in valore assoluto (vedi sotto) delle
modalità del carattere da una costante c è minima quando
c è uguale alla mediana
n
∑
ui − c
i=1
La mediana supera ogni problema della media salvo il fatto
che si deve riferire a caratteri ordinabili. Per affrontare
problemi con carattere anche qualitativo sconnesso si
introduce un altro indice: la moda
Nel 1983 la popolazione dei Paesi Bassi è 2991318 e quella del
Portogallo 1794123
Nel primo caso alle due unità 2991318/2=1495659 e
2991318/2+1=1495660 corrisponde la stessa modalità “istruzione
secondaria, nel secondo caso alla posizione dell’unità centrale
(1794123+1)/2 corrisponde la modalità “istruzione primaria”
5
Elementi di statistica descrittiva – Parte III
6
1
Media di posizione: moda
Osservazioni relative alla moda
Si definisce moda la modalità della
distribuzione che si presenta con la massima
frequenza sia essa assoluta, relativa,
percentuale.
carattere
1
2
La moda può non essere unica.
Se è unica, la distribuzione si dice
unimodale.
Se non è unica, la distribuzione si dice bi-,
tri-,…-modale
Relativamente all’Esempio 1 della
prima lezione,
la moda è 4 e la distribuzione è
unimodale
Se la distribuzione del carattere è suddivisa in
classi si definisce la classe modale che è
definita come la classe a cui corrisponde la
frequenza più alta.
Se rappresentiamo la distribuzione di frequenze
in termini grafici, mediante un istogramma di
frequenze, la moda rappresenta il picco più
alto.
Se una distribuzione è bimodale si evidenzia il
fatto che le unità statistiche osservate sono
molto eterogenee.
fa
1
6
3
4
5
10
12
6
6
9
tot
4
1
40
7
8
Quartili e percentili
Se u1,u2,…,un (modalità del carattere) sono ordinati in modo
crescente, si dicono primo, secondo, terzo quartile
(Q1,Q2,Q3) quei tre valori di u che dividono la popolazione in 4
parti ugualmente numerose.
I quartili sono punti di separazione tali che il 25% della popolazione
ha modalità <Q1, il 50% <Q2, il 75% <Q3.
Il secondo quartile coincide con la mediana.
I dati sono divisi dai quartili in 4 gruppi contenenti lo stesso numero
di elementi.
Rappresentazione numerica
Valori di sintesi
Indici di dispersione o variabiltà
Se dividiamo l’insieme ordinato u1,u2,…,un in 100 parti uguali, i
valori di divisione sono detti percentili.
Un centesimo di popolazione ha modalità minore del primo
percentile, due centesimi dei dati minore del secondo
percentile, ecc.
Il 25° percentile coincide col primo quartile, il 50° percentile
coincide col secondo quartile, il 75° percentile coincide col
terzo quartile.
9
Introduzione agli indici di dispersione
Osserviamo che una media,
pur fornendo una sintesi
della distribuzione delle
modalità di un carattere
osservato su una
popolazione, rappresenta
bene la distribuzione quanto
più le unità presentano
modalità prossime a questa.
Analizziamo questo esempio:
Modalità del
carattere
distribuzione
1
distribuzione
2
-4
1.2
1.2
-3
12.2
6.1
-2
24.4
12.2
-1
11.0
18.3
0
2.4
24.4
1
11.0
18.3
2
24.4
12.2
3
12.2
6.1
4
1.2
1.2
10
Indice di dispersione o variabilità
La variabilità di una distribuzione esprime la tendenza delle
unità di una popolazione ad assumere diverse modalità di
carattere
Un indice di dispersione o di variabilità è un
indice che sintetizza la diversità tra ogni
modalità oppure tra due particolari valori
caratteristici della distribuzione.
Un indice di dispersione deve assumere il valore minimo se
e solo se tutte le unità della distribuzione presentano
uguale modalità del carattere.
Si osserva uno stesso carattere su due differenti popolazioni di uguale
numerosità e si riporta una tabella con distribuzioni di frequenza
percentuale. Per entrambe la media è 0
- la prima presenta due massimi in corrispondenza di due valori –2 2 e un
minimo in corrispondenza del valore 0;
- la seconda assume un unico massimo in corrispondenza del valore 0
E’ evidente che la seconda distribuzione ha una media più significativa
come sintesi della distribuzione.
Un indice di dispersione deve aumentare all’aumentare
della diversità tra le modalità assunte dalle varie unità
statistiche.
11
Elementi di statistica descrittiva – Parte III
12
2
Varianza (1/3)
Varianza (2/3)
Limitandoci a caratteri quantitativi:
Si dice devianza:
Si definisce varianza la media dei quadrati
degli scarti dalla media aritmetica.
n
σ2 =
σ2 =
∑ (u
i
− x )2
i=1
( u1 − x ) 2 + ( u2 − x ) 2 + ... + ( u n − x ) 2
n
1 n
2
σ =
∑ ( ui − x ) 2
n i=1
Disponendo di distribuzioni di frequenze con k modalità:
σ2 =
Valori piccoli di varianza indicano che i dati sono
concentrati vicino alla media
1
n
k
∑ (u
j
− x )2 nj
σ2 =
j=1
k
∑ (u
j
− x ) 2 fj
j=1
dove nj e fj sono rispettivamente le frequenze assolute e
relative corrispondenti alla j-esima modalità
13
14
Varianza campionaria
Varianza (3/3)
Se il carattere in esame è ottenuto da un campione della
popolazione che si vuole studiare, l’espressione della
varianza fornisce una valutazione sottostimata della
varianza dell’intera popolazione. La differenza è tanto più
sensibile quanto più piccolo è il campione.
Per eliminare questa distorsione si moltiplica la varianza
ottenuta per il rapporto:
n
Osservazioni sull’espressione della varianza:
Nell’espressione matematica della varianza le differenze
vengono elevate al quadrato per evitare che differenze di
segno opposto tendano ad annullarsi reciprocamente
La varianza, dunque, assume il valore 0 solo quando tutte le
modalità sono uguali al valore medio, ossia quando tutte sono
uguali fra loro
n − 1
Si ottiene così la varianza campionaria:
S2 =
Inoltre, le differenze di maggior valore vengono esaltate,
perché aumentano più che proporzionalmente.
1
n − 1
n
∑ (u
i
− x )2
i=1
La varianza campionaria è sempre maggiore della varianza.
Quanto più numeroso è il campione, tanto più varianza e
varianza campionaria si avvicinano.
Ne segue che valori piccoli di varianza indicano che i dati
sono concentrati vicino alla media
15
16
Varianza approssimata
Esempio di calcolo di varianza
Supponiamo di osservare le modalità di un carattere
assunte da una popolazione di 50 unità statistiche con
media 5.6
Relativamente all’Esempio 2, esprimiamo la media sulle 20
osservazioni, utilizzando i valori centrali delle classi e le
frequenze percentuali: la media è 19.2.
La varianza “approssimata” risulta:
σ2 =
1
n
n
∑
i=1
( x i* − x ) 2 fi =
1
n
n
∑x
i= 1
*2
i
fi − ( x ) 2
1⋅ ( 17.25)2 + 3 ⋅ ( 17.75)2 + 3 ⋅ ( 18.25)2 + 4 ⋅ ( 18.75)2 + 1⋅ ( 19.25)2 + 4 ⋅ ( 20.25)2 + 3 ⋅ ( 20.75)2 + 1⋅ ( 21.25)2
− ( 19.2 )2 =
σ2 =
20
7402.25
=
− ( 19.2 )2 = 1.4725
20
Modalità di
carattere
Frequenza
Differenza
assoluta: nj modalitàmedia: e
e2
e2nj
-10
5
-15.6
243.36
1216.80
-5
10
-10.6
112.36
1123.60
5
12
-0.6
0.36
4.32
10
20
4.4
19.36
387.20
40
3
34.4
1183.36
3550.08
Totale 50
6282
La quarta colonna è formata da tutti valori positivi.
La quinta colonna mostra come valori grandi in valore assolto
si sono esaltati: -15.6 e 34.4.
La varianza è: 6282/50=125.64
17
Elementi di statistica descrittiva – Parte III
18
3
Esempio: deviazione standard
Deviazione standard
I seguenti insiemi: (-100,300) e (50,150) hanno la stessa
media 100.
Gli scarti quadratici medi o deviazioni standard sono diversi:
Osserviamo che la varianza, come indice di variabilità, non
possiede la stessa unità di misura dei valori della
distribuzione
σ1 =
Si definisce deviazione standard o scarto
quadratico medio la radice quadrata della
varianza.
σ =
σ2
=
( 100 + 100 ) 2 + ( 100 − 300 ) 2
= 200
2
2
2
( 100 − 50 ) + ( 100 − 150 )
= 50 2
2
2
Gli scarti quadratici sono: 200 e 50
Ciò significa che i dati del primo insieme sono molto più
dispersi attorno alla media rispetto a quelli del secondo.
σ2
Otteniamo in tal modo il risultato voluto, non perdendo
nessuna caratteristica rappresentata dalla varianza.
-100
0
100
200
300
19
20
Coefficiente di variazione
Esempio di calcolo di CV (1/2)
La deviazione standard è un indice di variabilità assoluto
che, dunque, risente dell’unità di misura e dell’ordine di
grandezza dei dati. Per permettere confronti tra fenomeni
che presentano unità di misura differenti o possiedono valor
medio molto diverso si utilizza un indice di variabilità
percentuale:
Consideriamo il carattere “quantità di pulviscolo inquinante”
che fuoriesce dalla ciminiera di un certo tipo di industria.
In una regione si hanno 9 industrie che hanno installato un
dispositivo di tipo A e altre 9 che ne hanno installato uno di
tipo B.
Il coefficiente di variazione CV della distribuzione
di un carattere, di media diversa da zero è dato
dal rapporto tra la deviazione standard e la media
aritmetica moltiplicato per 100
CV =
tipo
Quantità di pulviscolo emesso (gr/min)
A
69
80
44
52
54
54
86
77
66
B
35
62
43
23
30
28
22
40
25
σ
100
x
21
Esempio di calcolo di CV (2/2)
Scostamenti semplici medi
La quantità media di pulviscolo eliminata è pari a 64.67 per
il dispositivo di tipo A e 34.22 per il dispositivo di tipo B,
mentre le deviazioni standard sono pari 13.65 per A e
12.02 per B.
La conclusione che la distribuzione relativa ad A sia più
variabile di quella relativa a B è erronea: non si tiene conto
delle possibili differenze dimensionali delle due distribuzioni,
evidenziate dal valor medio (64.67>>34.22).
Più semplicemente si può misurare la variabilità di una
distribuzione attraverso scostamenti semplici medi tra i
valori osservati e una media.
Si definisce scostamento semplice dalla
media aritmetica la media aritmetica delle
differenze, in valore assoluto, tra i valori
osservati ui e la loro media aritmetica
Per un corretto confronto calcoliamo i corrispondenti CV
13
64
12
=
34
CV A =
CV B
. 65
100
. 67
. 02
100
. 22
= 21 %
= 35 %
22
σ
CV =
100
x
Sx =
1
n
n
∑
ui − x
i=1
Con le varianti:
E’ la distribuzione relativa a B la più variabile
23
Elementi di statistica descrittiva – Parte III
24
4
Scostamenti semplici medi
Scostamenti semplici medi
Attraverso le frequenze assolute e relative
Sx =
1
n
Si definisce scostamento semplice dalla
mediana la media aritmetica delle
differenze, in valore assoluto, tra i valori
osservati ui e la loro mediana
K
∑
ui − x n i
i=1
K
Sx =
∑
ui − x fi
Sx =
i=1
1
n
n
∑
ui − m
i=1
Con le varianti analoghe al caso della media.
25
26
Intervalli di variabilità
Esempio di applicazione degli scostamenti semplici medi
Gli intervalli di variabilità sono indici che si basano sul
confronto di due valori caratteristici della distribuzione.
In un ospedale si osserva per un determinato anno la distribuzione
di frequenze corrispondente al numero di nati per madri di età
compresa fra i 22 e i 29 anni
Età madre
22
23
24
25
26
27
28
29
totale
nati
5
3
8
12
13
24
35
27
127
Ss media
4.92 3.92
2.92
1.92
0.92
0.08
1.08
2.08
Ss mediana
5
3
2
1
0
1
2
4
Dato un insieme u1, u2,…,un ordinato in
senso crescente di modalità del carattere
osservato, si definisce campo di variazione
la differenza fra il più grande e il più
piccolo di tali valori.
R = un − u1
La media aritmetica è pari a 26.92 e la mediana a 27.
Lo scostamento semplice dalla media 0.14 e lo scostamento
semplice dalla mediana 0.14
Semplice da computarsi, ma molto poco attendibile perché
sensibile ai valori anomali.
27
28
Esempio di applicazione delle differenze interquartili
Intervalli di variabilità
Supponiamo di conoscere la distribuzione di un carattere su due
differenti popolazioni composte da 100 unità statistiche. Segue la
tabella delle distribuzioni con frequenza cumulativa
Se u1,u2,…,un (modalità del carattere) sono ordinati in modo
crescente e si dicono Q1,Q2,Q3 il primo, secondo, terzo
quartile introduciamo un intervallo di variazione come:
differenza interquartile:
interquartile la differenza fra
il terzo e il primo quartile
W = Q 3 − Q1
Tenendo conto della definizione di quartile, possiamo dire che
la differenza interquartile rappresenta il campo di variazione
per il 50% delle unità centrali ovvero più vicine alla
mediana.Vengono così escluse le osservazioni estreme.
Modalità di
carattere
1
2
3
4
5
6
7
totale
1nj
2
5
20
50
15
5
3
100
2nj
10
25
10
10
10
15
20
100
1Nj
2
7
27
77
92
97
100
2Nj
10
35
45
55
65
80
100
Per la prima distribuzione Q1 =3 (si calcola come media fra la 25esima e la 26-esima modalità) Q2 =4 (si calcola come media fra la
75-esima e la 76-esima modalità).
Per la seconda Q1 =2 e Q2 =6. W(1) =1 e W(2) =4.Il campo di
variazione semplice è uguale per entrambe le distribuzioni e vale 6.
29
Elementi di statistica descrittiva – Parte III
30
5
Il grafico a scatola (“box plot”, “box and whiskers”)
whiskers”)
Il grafico a scatola (“box plot”, “box and whiskers”)
whiskers”)
Il grafico a scatola, altrimenti detto box plot,
plot è una
tipologia di rappresentazione grafica proposta dallo
statistico americano J. W. Tukey; essa si ottiene da una
serie di indici di una distribuzione, da cui ricava i dati
significativi trascurando quelli non importanti. Agevola il
confronto visivo fra due o più distribuzioni
Valori
anomali
(“outliers”)
max
oppure:
Esso si avvale dei tre seguenti elementi:
1,5(Q3-Q1)
•Una linea o un punto che indicano la posizione della media
della distribuzione (in generale mediana)
Q3
Mediana
•Un rettangolo la cui altezza indica la variabilità dei valori
prossimi alla media (in generale la distanza interquartile)
Q3-Q1
Q1
•Due segmenti che partono dai lati minori del rettangolo e
i cui estremi sono determinati in base ai valori estremi
della distribuzione (in generale minimo e massimo della
distribuzione).
min
31
Elementi di statistica descrittiva – Parte III
1,5(Q3-Q1)
32
6