Le misure numeriche - Università degli Studi della Basilicata

10/03/2015
Le misure numeriche
La media aritmetica
Indice centrale dei dati: somma dei valori numerici presi in considerazione diviso
la numerosità.
Per variabili quantitative: scala intervallare o rapporto.
Per il suo calcolo vengono usati tutti i valori.
Un insieme di dati ha una sola media.
La media risente di valori anomali.
Se ai dati viene aggiunta una costante, la media risulta traslata di quella
costante.
La somma delle distanze dei dati dalla media è zero.
Esempio: Per i dati (3;4;5) la media è 4; inoltre (3-4)+(4-4)+(5-4)=0
è 0.
Esempio: Per i dati (3;4;5) la media è 4. Per i dati (4;5;6) la media è 5=4+1.
Esempio: il valore della media per i dati relativi al secondo dataset sulle ore
di studio (capitolo precedente) è 21,76.
(25,8 + 23,2 + 10,1 + … + 21,1)/26
= 21,76
1
10/03/2015
Significato della media:
Il sistema nella figura risulta in equilibrio:
Secondo dataset:
media 21,76
Per i dati relativi al primo dataset sulle ore di studio (capitolo precedente),
il valore della media risulta 19,01.
Gli studenti del primo dataset dedicano un minor numero di ore allo studio.
La media è detta statistica. Una statistica è una funzione del campione casuale.
La media è una statistica non robusta
1 2
3
4
5
1 2
3
4
15
1 2
La media è 5
La media è 3
3
4 100
La media è 22
La media per classi di modalità
Supponiamo che i dati relativi al numero di ore, siano stati forniti in tabella, secondo le classi
di modalità (ad esempio quelle usate per l’istogramma).
Come si calcola la media?
Classi
[10;14) [14;18)
[18;22)
[22;26)
[26;30)
[30;34)
Centri
12
16
20
24
28
32
Freq.
Assolute
5
9
9
3
3
1
∑
.
=19,1
Simile a 19!
Anche per il secondo dataset?
Classi [10;14) [14;18) [18;22) [22;26) [26;30)
Freq.
Assolute
1
2
10
11
2
∑
.
=18,8
E’ diverso!
2
10/03/2015
La media pesata
La media pesata (o ponderata) di un insieme di numeri, secondo
degli assegnati coefficienti (=pesi), è data dalla seguente formula:
∑
∑
Se i pesi sono pari a 1…
Esempio: Voto medio di uno studente alla fine del primo anno del corso di Laurea in Economia
Materia
CFU
Voto Materia
CFU Voto
Materia
CFU
Voto
Matematica
generale
6
21
Diritto
privato
10
26
Economia
aziendale
10
27
Economia
politica
10
25
Economia
e gestione
delle
imprese
10
23
Geografia
Economica
6
27
6
21 & 10
Media Pesata =
!"
Media =
+
25 & 10
26 & 10
23 & 10
21 & 25 & 26 & 23 & 27 & 27 = 24,83
27 & 6
27 = 24,96
Rientra nel caso della media pesata, la media di una distribuzione di frequenza di forma:
Media Pesata =
+,!-
# stanze
# appartamenti
1
300
2
500
3
2.000
4
3.000
5
150
6
100
7
300
1
300 & 2
500 & ⋯ & 7
Osservazione: Si noti che indicata con
/ & /" & ⋯ & /
&
300 = 3,58
la media aritmetica, si ha
& ⋯&
volte
3
10/03/2015
La media geometrica
La media geometrica di un insieme di numeri è la radice n-esima
del loro prodotto:
0
/ /" ⋯ /
La media geometrica viene utilizzata quando si vuole analizzare il variare di un
fenomeno nel tempo, per esempio il tasso di variazione dei prezzi o i tassi di
rendimento di capitali.
Esempio: Un impiegato ha ricevuto un 5% di aumento di stipendio nel 2012 e un 15%
di aumento nell’anno successivo. Quanto vale la percentuale di crescita media?
Un 5% di aumento nel salario =
da 100 a 105
Un 15% di aumento nel salario =
da 100 a 115
In percentuale 1,05 e 1,15
2
1,15
1,05=1,09886
L’aumento medio è di 9,89%
L’impiegato che all’inizio del 2012 aveva 1 euro, alla fine del 2012, per effetto dell’aumento,
ha 1,05 euro = 1 × 1,05 euro. All’inizio del 2013 l’impiegato ha un 1,05 euro che, per effetto
dell’aumento, diventa 1,05×1,15 alla fine del 2013.
La media geometrica c è tale che c × c= 1,05×1,15
La media armonica
La media armonica di un insieme di numeri è l’inverso
della media aritmetica degli inversi. Serve a ricavare
un valore centrale sul tempo per dati che si riferiscono a intervalli temporali diversi.
∑ 4 13/
Esempio: Tempo in secondi di 4 impiegati per produrre un singolo pezzo:
32, 28, 35, 31
Gli inversi
,"
0,03,
"5
0,036,
0,029,
,!
,
0,032
rappresentano il no. di pezzi prodotti per unità di tempo (per sec.)
/,"8 /"58 /,!8 /,
=0,032
9
rappresenta il no. medio di pezzi prodotti per unità di tempo (per sec.)
La media:
L’inverso della media
-,-,"
=31,25
rappresenta il tempo medio (in secondi) per produrre un singolo pezzo
La media armonica c è tale che
,"
&
"5
&
,!
&
,
& & &
4
10/03/2015
Mediana
La mediana è il valore centrale dei dati.
Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22.
1. Campione ordinato: 19; 20; 21; 22; 25.
2. La mediana è: 19; 20; 21; 22; 25.
Esempio: L’altezza (in cm) di 4 giocatori di basket è 186; 189; 190; 185
La mediana è…. 185; 186;
? 189; 190
5+8 5;
"
Una possibile scelta: :
Un metodo alternativo
è determinare il rango:
&1
Rango
0,5
La mediana si colloca tra
l’elemento di rango 2 e 3
187,5
Proprietà
Per variabili qualitative ordinali.
2,5
Per variabili quantitative: scala intervallare o rapporto.
Un insieme di dati ha una sola mediana.
M= 186 & 0,5 =189 > 186?
=187,5
La mediana non risente di valori anomali.
La mediana è una statistica robusta.
1 2
3
4
5
1 2
1 2
La mediana è 3
3
4
15
3
4 100
La mediana è 3
La mediana è 3
Procedimento per il calcolo della mediana
a) Se / , /" , … , / rappresenta l’insieme di dati, il campione casuale deve essere ordinato:
L’insieme /= ? , /
"
(NB: la notazione
, … , /=
= ?
?
/=
?
A/
"
A … A /=
?
rappresenta il campione di dati ordinato.
indica il rango del dato nel campione ordinato) .
b) Determinare il rango:
&1
0,5
Primo esempio: 19; 20; 21; 22; 25.
c) Se è dispari, il rango sarà un numero intero e la mediana è l’elemento /=
Se
è pari, il rango è & 0,5 pertanto :
"
/
/"
& B/
8 3
"
Secondo esempio: 185; 186; 187.5 189; 190
>/
"
C
0,5
?.
5
10/03/2015
La mediana per distribuzioni di frequenze
# stanze
# appartamenti
Freq.Cum.
1
300
300
2
500
800
3
2.000
2.800
4
3.000
5.800
5
150
5.950
6
100
6.050
7
300
6.350
1,1,………..,1
2,2,………..,2 3,3,………..,3
300
Il rango è
+.,!
"
= 3.175,5
La mediana è
:=/
,. E!
+ /
,. E+
… /=".5--) = 3 /(".5-
… . /(!.5--) =4 /(!.5-
−/
,. E!
)
= 4…
)
=5…
× 0,5
La mediana è 4
4,4,………..,4
2.000
500
+ 1 × 0,5 =
L’elemento di rango 3.175 è 4
3.000
L’elemento di rango 3.176 è 4
800
2.800
5.800
Moda
E’ l’elemento che appare più spesso nel campione.
Nominali
Colore capelli
(carattere)
Neri
N° persone
(frequenza assoluta)
10
Può essere calcolata per tutti i tipi
di variabili.
Moda
Castani
6
Rossi
1
# stanze
# appartamenti
biondi
5
1
300
22
2
500
3
2.000
4
3.000
5
150
6
100
7
300
totale
Ordinali
Moda
6
10/03/2015
Per dati di tipo intervallare o rapporto, bisogna in genere far riferimento alle
classi di modalità.
Unimodale
Bimodale
Può essere una sola (unimodale),
possono essere due (bimodale),
più di tre (multimodale).
Può non essere significativa.
La moda è il punto medio della
classe con frequenza più elevata.
Moda
Il valore della moda è 3.200
Multimodale
Peso (in grammi)
# neonati
1.800-2.200
10
2.200-2.600
32
2.600-3.000
120
3.000-3.400
254
3.400-3.800
134
3.800-4.200
40
4.200-4.600
10
Asimmetria
Un poligono di frequenza simmetrico ha questa forma:
Media=Moda=Mediana
Indici di posizione
Coda sinistra
Coda destra
Poligoni asimmetrici hanno questa forma:
Asimmetria Positiva
Asimmetria Negativa
Moda
Moda
Coda Sinistra
Coda destra
Media
Mediana
Regola: Coda destra se Media > Mediana.
Media
Mediana
Coda sinistra se Media < Mediana.
7
10/03/2015
Possibile indice: Asimmetria = media - mediana
Modalità
Frequenza
1
1
E’ un metodo robusto?
Coda sinistra
8
7
Media = 5
6
2
2
3
3
4
4
5
5
1
6
6
0
7
7
5
4
3
2
1
2
3
4
5
6
7
Modalità
Frequenza
1
7
2
6
5
3
5
4
4
4
3
5
3
6
2
7
1
Coda destra
8
Media = 3
7
6
2
1
0
1
2
3
4
5
6
7
Per le mediane risulta:
Rango:
Modalità
Frequenza
Freq.
cumulata
1
1
1
2
2
3
3
3
6
4
4
10
5
5
15
6
6
21
7
7
28
:=/
9
9
=/
+ /
!
:=/
−/
9
= 14,5
9
+ /
!
−/
9
× 0,5= 5
Asimmetria = media – mediana = 0
Mediana
= 3 si ha:
!
";
"
La mediana si colloca tra l’elemento di rango
14 e 15. Poiché / 9 = / ! = 5 si ha:
Mediana
Poiché /
+ 1 × 0,5 =
× 0,5= 3
Asimmetria = media – mediana = 0
Modalità
Frequenza
1
7
Freq.cum.
7
2
6
13
3
5
18
4
4
22
5
3
25
6
2
27
7
1
28
8
10/03/2015
Asimmetria=(Max-M)-(M-Min)
dove Max e Min sono i
valori in cui sono collocati i
baffi
Per il box-plot rosso
Asim=(7-5)-(5-1)=-2
(asimmetria negativa)
Per il box-plot blue
Asim=(7-3)-(3-1)=2
(asimmetria positiva)
Da 1 a 7
Da 7 a 1
Quartili
Il primo quartile è quel valore che lascia a sinistra il 25% dei dati.
o Il primo quartile può appartenere al campione casuale oppure no.
Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22.
1. Il campione va ordinato: 19; 20; 21; 22; 25.
2. Il primo quartile è: 19;
→Determinare il rango:
? 20; 21; 22; 25.
+ 1 ×0,25 = 1,5
Il primo quartile si colloca tra l’elemento di rango 1 e 2
F1 = 19 + 0,5 × (20 − 19) =19,5
Esempio: L’altezza di 4 giocatori di basket è 186; 189; 190; 185
Il primo quartile è…. 185; ? 186; 189; 190
→Determinare il rango:
+ 1 ×0,25 = 1,25
Il terzo quartile si colloca tra l’elemento di rango 1 e 2
F1 = 185 + 0,25 × (186 − 185) =185,25
9
10/03/2015
Quartili
Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati.
o Il terzo quartile può appartenere al campione casuale oppure no.
Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22.
1. Il campione va ordinato: 19; 20; 21; 22; 25.
2. Il terzo quartile è: 19; 20; 21; 22; ? 25.
→Determinare il rango:
+ 1 ×0,75 = 4,5
Il terzo quartile si colloca tra l’elemento di rango 4 e 5
F3 = 22 + 0,5 × (25 − 22) = 23,5
Esempio: L’altezza di 4 giocatori di basket è 186; 189; 190; 185
Il terzo quartile è…. 185; 186; 189; ? 190
→Determinare il rango:
+ 1 ×0,75 = 3,75
Il terzo quartile si colloca tra l’elemento di rango 3 e 4
Il secondo quartile vale…?
F3 = 189 + 0,75 × (190 − 189) =189,75
Esempio:
Box-plot
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
Mediana: 30 + 1 ×0, 5 = 15,5
La mediana si colloca tra gli elementi di
rango 15 e 16.
La mediana è il punto medio tra 18,3 e
18,3, ossia 18,3.
Primo Quartile: 30 + 1 ×0, 25 = 7,75
Il primo quartile si trova tra l’elemento di
rango 7 e 8, ossia tra 14,2 e 15,0:
14,2+0,75*(15,0-14,2)=14,8
Terzo Quartile: 30 + 1 ×0, 75 = 23,25
Il terzo quartile si trova tra l’elemento di
rango 23 e 24, ossia tra 21,4 e 23,0:
21,4+0,25*(23,0-21,4)=21,8
10
10/03/2015
Outliers
Sono valori del campione casuale troppo «distanti» dal resto del campione casuale.
Regola del pollice: Si dicono outliers quei valori che distano dal primo e dal terzo quartile più
di 1,5*(Q3-Q1).
Q3-Q1=7 quindi 1,5*7 = 10,5
Sono considerati outliers i valori
inferiori a
Q1- 10,5=14,8-10,5=4,3
Poiché il min=10,3 > 4,3, allora il baffo
inferiore è collocato in corrispondenza
del minimo.
Sono considerati outliers i valori
superiori a
Q3+10,5=21,8+10,5=32,3
Poiché il max=33,8 > 32,3, allora 33,8 è
un outlier e il baffo superiore è collocato
in corrispondenza di 32,3.
I quartili per distribuzioni di frequenze
# stanze
# appartamenti
Freq.Cum.
1
300
300
2
500
800
3
2.000
2800
4
3.000
5800
5
150
5950
6
100
6050
7
300
6350
1,1,………..,1
Per calcolare Q1:
a) rango: (6350+1)*0,25=1587,75
b) pertanto Q1 si colloca tra /( !5E) e /(
c) /( !5E) = /( !55) = 3
!55)
Per calcolare Q3:
a) rango: (6350+1)*0,75=4763,25
b) pertanto Q3 si colloca tra /(9E+,) e /(9E+9)
c) /(9E+,) = /(9E+9) = 4
2,2,………..,2 3,3,………..,3 4,4,………..,4
800
2000
2800
5800
11
10/03/2015
Torniamo all’esempio con distribuzioni speculari e calcoliamo i quartili
Modalità Frequenza
Freq.cum.
1
1
1
2
2
3
3
3
6
4
4
10
5
5
15
6
6
21
7
7
28
Per calcolare Q1:
a) rango: (28+1)*0,25=7,25
b) pertanto Q1 si colloca tra
/(E) = /(5) = 4
+ Mediana = 5
Per calcolare Q3:
a) rango: (28+1)*0,75=21,75
b) pertanto Q3 si colloca tra
/(" ) = 6 e /("") = 7
6+0,75*(2-1)=6,75
Per calcolare Q1:
a) rango: (28+1)*0,25=7,25
b) pertanto Q1 si colloca tra /(E) = 1 /(5) = 2
1+0,25*(2-1)=1,25
Per calcolare Q3:
a) rango: (28+1)*0,75=21,75
b) pertanto Q3 si colloca tra /("
)
= /("") = 4
Modalità
Frequenza
Freq. cum.
1
7
7
2
6
13
3
5
18
4
4
22
5
3
25
6
2
27
7
1
28
+ Mediana = 3
Percentili
Andando da un medico per fare una visita di controllo a vostro cugino, dopo aver misurato
l’altezza, vedrete che farà uso di un grafico tipo quello della figura sottostante:
Poi rivolgendosi alla mamma
sentenzierà con aria preoccupata qualcosa del tipo: “Signora,
suo figlio è al 95-esimo
percentile….”
Cosa significa percentile?
Un percentile x è quel valore (non necessariamente del campione) che lascia a
sinistra x% dei dati.
E allora dire che il proprio figlio ha un peso al 95-esimo percentile, vuole dire che il 95%
della popolazione maschile della stessa età ha un peso inferiore.
12
10/03/2015
Esempio:
Calcolo dei percentili
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
0, 90 27,9
p=0,90: 30 & 1
Il 90-esimo percentile si colloca tra gli
elementi di rango 27 e 28, ossia tra 26,1 e
27,1:
26,1+0,90*(27,1-26,1)=27
0,90
Il 90% degli intervistati dedica allo studio
non più di 27 ore.
Se volessi avere
l’informazione inversa…
Quale percentuale di studenti studia
non più di 27 ore?
H. H A 27
IJ
27
30
27
0,90
Calcolo dei percentili per le classi di modalità
Se non si conoscono i valori del campione, ma un suo riassunto in forma tabellare…
[10;14) [14;18) [18;22) [22;26) [26;30) [30;34)
5
Estremi
classi
10
9
9
3
3
1
Ad esempio per il calcolo della mediana:
a) Si individua la coppia di estremi consecutivi a, b tali
Freq. cum.
che la freq. cumulata in a è inferiore alla taglia/2 e la
freq. cumulata in b è superiore alla taglia/2.
0
14
5
18
14=5+9
22
23=14+9
26
26
30
29
34
30
NB: in 18 la freq. cum.
è 14 <30/2=15,
23
mentre in 22 la
freq.cum. è
23>30/2.
14
?
Pertanto la classe [18,22) contiene la mediana
18
22
13
10/03/2015
b) Si calcolano le frequenze cumulate relative
Estremi
classi
Freq. cum.
relative
10
0
14
0,17
18
0,47
22
0,77
26
0,87
30
0,97
34
1
NB: Tra gli estremi 18 e 22, si passa da un valore inferiore
a 0,50 a un valore superiore a 0,50.
y=0,50
c) Risolvere il sistema:
L > 0,47
/ > 18
K0,77 > 0,47 22 > 18
L 0,50
Mediana
18,4
Mediana
/
18 & M
M
22 > 18
dove
-,!-N-,9E
=0,1
-,EEN-,9E
Esempio: Calcolare i quartili Q1 e Q3. Per semplicità, è possibile considerare la
tabella delle frequenze cumulate relative.
Estremi
classi
Freq. cum.
relative
10
0
14
0,17
18
0,47
…
…
Per Q1: Il valore della frequenza cumulata relativa passa
da un valore inferiore a 0,25 (ossia 0,17 in 14) a un valore
superiore a 0,25 (ossia 0,47 in 18)
a) La classe di riferimento per Q1 è [14,18)
18 > 14 dove
b) F1 14 & M
M
Per Q3: Il valore della frequenza cumulata relativa passa
da un valore inferiore a 0,75 (ossia 0,47 in 18) a un valore
superiore a 0,75 (ossia 0,77 in 22)
a) La classe di riferimento per Q3 è [18,22)
b) F3
M
18 & M
22 > 18 dove
O,RQN-,9E
=0,93
-,EEN-,9E
F3
21,72
F1
O,PQN-, E
=0,27
-,9EN-, E
15,08
Estremi
classi
Freq. cum.
relative
…
...
18
0,47
22
0,77
26
0,87
30
0,97
34
1
Il box plot va costruito con min=10, max = 34
e i valori dei quartili che sono stati calcolati con questa procedura.
14
10/03/2015
Dataset tabella
Dataset esatto
Indici di dispersione
Si dicono indici di dispersione quegli indici che misurano
la variabilità del campione casuale.
Campo di variazione (CV) = max - min
Intervallo interquartile (IQR)= Q3 – Q1
Deviazione standard (campionaria) = S
T =U
H
?
Esempio:
La media campionaria è 19,01
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
La varianza è la media aritmetica dei quadrati delle distanze dei singoli elementi del
campione dalla media:
"
1
/ >
>1
"
& /" >
"
& ⋯& / >
"
1
V / >
>1
4
"
15
10/03/2015
10,3 12,9 12,9 13,5 13,7
"
1
10,3 > 19,01
29
"
19,01
& 2 12,9 > 19,01
"
19,7 20,3 20,7 20,8 21,4
& 13,5 > 19,01
28,7 (è il quadrato di una distanza) →
2
28,7
"
& ⋯ & 33,8 > 19,01
5,36
"
La deviazione standard fornisce una misura della «concentrazione» dei
dati attorno alla media.
Il I dataset ha una variabilità
maggiore del II dataset.
La deviazione standard non è una statistica robusta.
1 2
3
4
5
1 2
1 2
C.V. = 4
IQR = 2
s = 1,58
3
4
3
4 100
15
C.V. = 14
IQR = 2
s = 5,07
C.V. = 99
IQR = 2
s = 43,62
Per variabili quantitative: scala intervallare o rapporto.
Per il suo calcolo vengono usati tutti i dati.
Un insieme di dati ha una sola deviazione standard.
2 3
4
5
101
C.V. = 99
IQR = 2
s = 43,62
Assume valore sempre positivo.
Vale zero quando tutti i dati assumono lo stesso valore (variabile statistica
degenere) (Esempio: (2,2,2), media =2, s=0)
Invariante per traslazione: ossia se ad ogni dato viene aggiunta una quantità
costante, la deviazione standard non cambia.
16
10/03/2015
Regola di Chebyshev
Circa il 68% dei dati appartiene a un intervallo centrato nella media campionaria e
di semiampiezza la deviazione standard
> ; & =[13,65;24,37]
Circa il 95% dei dati appartiene a un intervallo centrato nella media campionaria e
di semiampiezza 2 volte la deviazione standard.
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
>2 ;
& 2 =[8,29;29,72]
Quale percentuale cade al di fuori
23
di questo intervallo? H
30
0,07
Se consideriamo il secondo insieme di dati:
10,1; 15,1; 17,7; 18,2; 19,3; 19,8; 20,9; 20,9; 21,0; 21,1; 21,1; 21,4; 21,5; 22,3;
22,3; 22,4; 23,2; 23,3; 23,9; 24,2; 24,3; 25,1; 25,7; 25,8; 27,0; 28,3
21,77 3,78
La deviazione standard del II dataset è inferiore al I dataset
II dataset
Per misurare il grado di dispersione all’interno di uno stesso campione si può
confrontare la deviazione standard con la metà dell’intervallo centrale che comprende circa il 70% dei dati.
17
10/03/2015
15%
15-esimo percentile
0, 15 4,65
p=0,15: 30 & 1
Il 15-esimo percentile si colloca tra gli
elementi di rango 4 e 5, ossia tra 13,5 e
13,7:
13,5+0,65*(13,7-13,5)=13,63
0, 85 26,35
p=0,85: 30 & 1
Il 85-esimo percentile si colloca tra gli
elementi di rango 26 e 27, ossia tra 23,7 e
26,1:
23,7+0,35*(26,1-23,7)=24,54
15%
85-esimo percentile
70%
24,54 > 13,63
2
5,46 X 5,36
Esempio:
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4;
17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2;
23,7; 26,1; 27,1; 29,8; 33,8
15%
15-esimo percentile
0, 15 4,05
p=0,15: 26 & 1
Il 15-esimo percentile si colloca tra gli
elementi di rango 4 e 5, ossia tra 18,2 e
19,3:
18,2+0,05*(19,3-18,2)=18,26
0, 85 22,95
p=0,85: 26 & 1
L’85-esimo percentile si colloca tra gli
elementi di rango 22 e 23, ossia tra 25,1 e
25,7:
25,1+0,95*(25,7-25,1)=25,67
15%
85-esimo percentile
70%
25,67 > 18,26
2
3,71 Y 3,78
Per il II dataset
10,1; 15,1; 17,7; 18,2; 19,3; 19,8; 20,9; 20,9; 21,0; 21,1; 21,1; 21,4; 21,5; 22,3;
22,3; 22,4; 23,2; 23,3; 23,9; 24,2; 24,3; 25,1; 25,7; 25,8; 27,0; 28,3
18
10/03/2015
La deviazione standard per classi di modalità
Supponiamo che i dati relativi al numero di ore, siano stati forniti in tabella, secondo le classi
di modalità (ad esempio quelle usate per l’istogramma).
Per il calcolo della varianza (e quindi della deviazione standard) si usa lo stesso procedimento
visto per la media, ossia
Classi
s²
[10;14) [14;18) [18;22) [22;26) [26;30)
[30;34)
Centri
12
16
20
24
28
32
Freq.
Assolute
5
9
9
3
3
1
∑=
N[
N
?²
.
= "; 12 > 19,1 ² 5 & ⋯ & 32 > 19,1 ² 1
=28,34 →
5,32
Un caso particolare: stessa media 0,
stessa varianza 1.
Per variabili qualitative, è opportuno usare un indice di dispersione di natura diversa:
Indice di eterogeneità (di Gini)
\
1 > ] " & ⋯ & ]^ "
Minimo: quando vi è una sola
modalità con frequenza relativa 1
\ 0
Massimo: quando tutte le k
modalità sono equifrequenti ⁄^.
\
1>
# stanze
# appartamenti
Freq.rel.
1
300
0,047
2
500
0,079
3
2.000
0,315
4
3.000
0,472
5
150
0,024
6
100
0,016
7
300
0,047
1
1
& ⋯& "
"
`
`
1>
`
`"
Assume sempre valori positivi.
Esempio: \
`>1
`
1 > 0,047² & 0,079² & ⋯ & 0,047² =0,67
Poiché (k-1)/k=6/7=0,86 la tabella è piuttosto etereogenea.
19
10/03/2015
Il coefficiente di variazione
Una proprietà desiderabile per un indice di variabilità è che non dipenda
dalla unità di misura in cui è espresso il carattere. Questa proprietà
consente di effettuare confronti tra grandezze con misure diverse. E non
solo.
Esempio: L’altezza di 5 studenti (in cm) è: 172, 175, 176, 178, 180.
La media risulta essere 176,2 cm e la deviazione standard risulta essere
3,033 cm.
In metri, la media diviene 1,762 m e la deviazione standard è 0,030!!
Non possiamo concludere che nel secondo caso la variabilità è inferiore.
Si definisce coefficiente di variazione il rapporto tra deviazione standard
e media campionaria (presa con il segno positivo).
Nell’esempio è: 0,0172
Esempio: L’ altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53.
La media risulta essere 50,4 cm e la deviazione standard risulta
essere 2,70 cm. Il coefficiente di variazione è 0,053.
Anche quando le unità di misure sono le stesse, l’uso del coefficiente di variazione può
tornare utile.
Esempio:
Regione
DC
PLI
Regione
DC
PLI
Regione
DC
PLI
Piemonte
Lombardia
Veneto
Liguria
Friuli V.G.
Trentino A.A.
Emilia R.
27,6
33,4
42,6
27,3
34,5
27,6
22,8
6,6
3,8
2,8
4,7
2,2
1,6
2,3
Toscana
Umbria
Marche
Lazio
Abruzzo
Molise
Campania
25,3
26,2
33,4
31,1
42,2
55,5
36,2
1,4
1,2
1,6
2,7
1,7
2,2
2,4
Puglia
Basilicata
Calabria
Sardegna
Sicilia
36,3
46,0
36,8
31,7
26,9
2,1
0,8
0,9
1,5
1,7
Distribuzione delle percentuali di voto nel 1983.
La percentuale media è pari al 33,9% per la DC, mentre per il PLI è notevolmente inferiore,
pari al 2,3%.
Le differenze tra una regione e l’altra saranno maggiori, in punti percentuali, nella
DC: infatti tra la Basilicata e l’Emilia vi è una differenza di 23,2 punti. Nel PLI la differenza
massima è pari a solo 5,8 punti.
La deviazione standard della percentuale di voti è 8,23 per la DC mentre è 1,41 nel PLI.
CV-DC=8,23/33,9=0,24
CV-PLI=1,41/2,3=0,61
Se si confrontano i coefficienti di variazione, il risultato si rovescia: la distribuzione del
voto alla DC appare più omogenea rispetto a quella del PLI.
20
10/03/2015
Il coefficiente di variazione consente di valutare anche la «correttezza» della
media campionaria. Infatti la media campionaria si ritiene un indice corretto se
assume valori inferiori a 0,5.
Esempio:
CV-DC=8,23/33,9=0,24
CV-PLI=1,41/2,3=0,61
La media è un indice corretto per la percentuale di voto
relativa alla DC, ma non è così per il PLI. Perché?
Precisione della media campionaria
Si definisce precisione della media campionaria il rapporto tra la deviazione campionaria e la radice quadrata della taglia.
a\:
b
1,5 → de
=c
0,27 → fgh
Al crescere della taglia, SEM diminuisce e quindi la media campionaria è
più precisa.
End
https://www.youtube.com/watch?v=LQ8gtqz1WYg
21