11. Lezione 9 - Servizio di Hosting di Roma Tre

Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
2. Variabilità mediante il confronto di valori caratteristici della
distribuzione
Un approccio alternativo, e spesso utile, alla misura della variabilità è quello basato
sul confronto di valori caratteristici della distribuzione.
La misura più semplice è data dal campo di variazione (o range) che si indica con R.
Esso è dato dalla differenza tra la modalità più grande e la modalità più piccola.
Siano x1,…,xK le diverse modalità osservate, e supponiamo che siano ordinate in
modo crescente; allora
R = x K − x1
Quanto più piccolo è R tanto più simili e “vicine” sono le modalità osservate del
carattere. Al limite se fosse R=0, la più grande e la più piccola modalità sarebbero
uguali il che significa che tutte le unità presenterebbero la stessa modalità. Viceversa
a valori elevati di R corrisponde una elevata dispersione.
Esempio: intensità dei 15 maggiori terremoti (scala Richter) nel periodo 1983-1991:
5,5
7,7
7,1
7,8
8,1
7,3
6,5
7,3
6,8
6,9
6,3
6,5
7,7
7,7
6,8
Il campo di variazione risulta R=8.1-5.5=2.6. Esso ci dice che il 100% delle scosse di
terremoto è stata di un'intensità compresa fra 5,5 e 8,1.
Se avessimo avuto:
5,5
6,3
6,3
6,3
6,3
6,3
6,3
6,3
6,3
6,3
6,3
6,3
6,3
7,1
8,1
il campo di variazione sarebbe stato lo stesso, anche se la prima distribuzione fosse
molto più variabile della seconda.
Infatti mettiamo a confronto i diagrammi ramo-foglia e vediamo che la seconda
distribuzione è estremamente concentrata intono a 6,3 mentre la prima distribuzione è
molto più dispersa.
Distribuzione A
5
6
7
8
5
3 5 5 8 8 9
1 3 3 7 7 7 8
1
Distribuzione B
5
6
7
8
5
3 3 3 3 3 3 3 3 3 3 3 3
1
1
Osservazioni: L’indice R ha il grande pregio di essere facilissimo da calcolare e di
consentire una immediata interpretazione. D’altro lato ha l’enorme
difetto di essere estremamente sensibile ai valori estremi della
distribuzione (proprio perché è calcolato a partire da essi). Inoltre, come
si è visto dall’esempio sopra, possiamo avere due distribuzioni con
uguale campo di variazione ma variabilità effettiva molto diversa.
1
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Un’alternativa al campo di variazione è data dallo scarto interquartile (o differenza
interquartile) che si indica con W. Esso è dato dalla differenza tra il terzo quartile e il
primo quartile. In formule
W = Q3 − Q1
Lo scarto interquartile rappresenta una misura più rappresentativa della variabilità di
un carattere rispetto al campo di variazione. W dà l’intervallo di valori all’interno del
quale cade il 50% delle osservazioni.
W ha il difetto di potere essere nullo anche in presenza di variabilità
Esempio (continuazione dell’es. dei terremoti). Consideriamo la prima distribuzione e
scriviamola in forma di distribuzione di frequenza
xi
5,5
6,3
6,5
6,8
6,9
7,1
7,3
7,7
7,8
8,1
Totale
ni
1
1
2
2
1
1
2
3
1
1
15
fi
0,067
0,067
0,133
0,133
0,067
0,067
0,133
0,199
0,067
0,067
1
Fi
0,067
0,134
0,267
0,400
0,467
0,534
0,667
0,866
0,933
1
Q1 = 6,5
Q3 = 7,7
Allora lo scarto interquartile risulta W=7.7-6.5. Questo vuol dire che il 50% delle
scosse di terremoto hanno avuto un'intensità compresa fra 6,5 e 7,7.
Consideriamo la seconda distribuzione
xi
5,5
6,3
7,1
8,1
Totale
ni
1
12
1
1
15
fi
0,067
0,799
0,067
0,067
1
Fi
0,067
0,866
0,933
1
In questo caso è:
Q1 = 6,3
Q3 = 6,3
Lo scarto interquartile risulta W=6.3-6.3=0. Questo vuol dire che il 50% delle
scosse di terremoto hanno avuto la stessa intensità.
2
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Esempio: contenuto effettivo in cc di 100 bottiglie imbottigliate con un procedimento
automatico.
Contenuto in
cc
730 – 740
740 – 748
748 – 752
752 – 760
760 – 770
Totale
ni
fi
Fi
12
20
39
21
8
100
0,12
0,20
0,39
0,21
0,08
1
0,12
0,32
0,71
0,92
1
748 − 740
(0,25 − 0,12) = 745,2
0,20
760 − 752
Q 3 = 752 +
(0,75 − 0,71) = 753,52
0,21
Q1 = 740 +
Lo scarto interquartile risulta:
W = 753,52 − 745,2 = 8,32
evidenziando che il 50% delle bottiglie hanno un contenuto effettivo compreso fra
745,2 cc e 753,52 cc.
IL BOX-PLOT
Una descrizione sintetica e abbastanza completa di una distribuzione di frequenze
secondo un carattere quantitativo è data dal box-plot; questo è un riassunto a cinque
numeri. I numeri sono i seguenti:
- la mediana (che dà informazioni sulla tendenza centrale)
- il primo e terzo quartile (la cui differenza dà informazioni sulla variabilità)
- i due estremi (la modalità più grande e la modalità più piccola)
Questi numeri forniscono una descrizione sintetica di un insieme di dati anche quando
il numero di unità osservate è elevato.
Consideriamo nuovamente l’esempio dei terremoti e in particolare la distribuzione
xi
5,5
6,3
6,5
6,8
6,9
7,1
7,3
7,7
7,8
8,1
Totale
ni
1
1
2
2
1
1
2
3
1
1
15
fi
0,067
0,067
0,133
0,133
0,067
0,067
0,133
0,199
0,067
0,067
1
Fi
0,067
0,134
0,267
0,400
0,467
0,534
0,667
0,866
0,933
1
3
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Il box-plot è dato da:
25%
5,5
↑
Min
25%
6,5
↑
Q1
25%
25%
7,1
↑
Me
7,7
↑
Q3
8,1
↑
Max
Il box-plot è utile perché riassume mediante pochi numeri molte informazioni su una
distribuzione di frequenze.
La mediana riassume la tendenza centrale della distribuzione.
I quartili danno un’indicazione sulla variabilità, perché con essi si calcola lo scarto
interquantile (misura più robusta del campo di variazione).
La posizione della mediana rispetto ai quartili fornisce altre utili informazioni (in
particolare sulla asimmetria della distribuzione, che si vedrà nelle prossime lezioni).
Gli estremi forniscono indicazioni non solo sul valore massimo e valore minimo ma
soprattutto sull’eventuale presenza di dati con caratteristiche anomale (al limite
impossibili) dovute ad errori di misura, di trascrizione,…
Descriviamo più in dettaglio il disegno del box-plot.
Esso è la rappresentazione grafica che si associa al riassunto a cinque numeri.
Si costruisce nel modo seguente:
- Si traccia un asse orizzontale (scala del carattere) al di sopra del quale viene
disegnato il diagramma
- Si disegna un rettangolo (la scatola) che ha il primo e il terzo quartile come
estremi della base (cioè la base del rettangolo è uguale allo scarto interquartile).
L’altezza del rettangolo è arbitraria.
- Si traccia, all’interno del rettangolo, una linea verticale in corrispondenza della
mediana.
- si tracciano due linee verticali (di altezza uguale o minore all’altezza del
rettangolo) in corrispondenza del valore massimo e del valore minimo. Questi due
segmentini vengono detto “baffi” del box-plot.
- Infine si tracciano due linee orizzontali che collegano i “baffi” al rettangolo.
Il box-plot è un’ottima sintesi ma comunque non ci dice come si distribuiscono
esattamente le osservazioni tra un quartile e un altro. Il box-plot ci dà un'idea generale
della dispersione e della asimmetria della distribuzione.
D'altro lato, il box-plot è una rappresentazione grafica molto utile quando si vogliono
mettere a confronto due o più distribuzioni.
4
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Esempio: riprendiamo l’esempio dei redditi negli USA delle famiglie bianche e delle
famiglie di colore.
Di seguito riportiamo la tabella con i dati
Reddito
(in migliaia di $)
0–5
5 – 10
10 – 15
15 – 25
25 – 35
35 – 50
Totale
Famiglie Bianche
fi
Fi
0.07
0.12
0.13
0.24
0.21
0.23
1
0.07
0.19
0.32
0.56
0.77
1
Famiglie di Colore
fi
Fi
0.16
0.19
0.15
0.23
0.14
0.13
1
0.16
0.35
0.50
0.73
0.87
1
Per effettuare meglio il confronto, si rappresentano i box-plot nello stesso grafico e
generalmente vengono disposti in modo verticale. I cinque numeri sono:
Min
Q1
Me
Q3
Max
Famiglie Bianche
0
12.3
22.5
34.05
50
Famiglie di Colore
0
7.37
15
26.43
50
0
R
E
D
D
I
25
T
O
50
Famiglie
Bianche
Famiglie di
Colore
5
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Come individuare valori anomali nella distribuzione.
I valori anomali di una distribuzione si possono individuare in modo semplice come
segue.
Un dato è anomalo se:
- è più alto del valore Q3 + 1.5 W
- è più basso del valore Q1 − 1.5 W
Un dato è estremo (estremamente anomalo) se
- è più alto del valore Q3 + 3 W
- è più basso del valore Q1 − 3 W
Questi valori una volta individuati possono poi essere indicati sul box-plot.
Sono osservazioni che NON vanno cancellate in quanto “molto lontane” e “molto
differenti” dalle altre. Occorre innanzitutto capirne la ragione e quindi studiarle.
Esse, infatti, potrebbero essere dovute
i)
o ad errori nella fase di raccolta dati (trascrizione o interpretazione errata
della domanda)
ii)
o ad errori in fase di registrazione dei dati su computer
iii)
o a segnali importanti che arrivano in merito al fenomeno oggetto di
interesse. Potrebbe essere un segno di cambiamento o di un qualche
distorsione che inizia d agire sul fenomeno. In questo caso le osservazioni
non vanno cancellate.
6
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Forma della distribuzione
La terza caratteristica dei dati che prendiamo in considerazione è la forma della loro
distribuzione, ovvero il modo in cui si distribuiscono le nostre osservazioni.
In particolare cercheremo di individuare un criterio per definire cosa si intende per
distribuzione simmetrica e in seguito si proporranno degli indici per misurare gli
scostamenti dalla situazione di simmetria.
Innanzitutto per effettuare lo studio della simmetria è necessario che il carattere
rilevato sia almeno qualitativo ordinato.
Un esempio di distribuzione simmetrica è il seguente
X
ni
1
2
3
4
5
6
7
2
5
8
11
8
5
2
Come si vede K=7 e n1 = n7 = 2, n 2 = n 6 = 5, n3 = n5 = 8, n 4 = 11
Vediamo il grafico
Simmetria
12
10
8
6
4
2
0
1
2
3
4
5
6
7
Consideriamo la generica distribuzione di frequenze dove X è almeno qualitativo
ordinato.
X
ni
x1
n1
x2
n2
...
...
xk
nk
TOTALI
n
Diciamo che la distribuzione è simmetrica se la variabile assume valori equidistanti
dal centro di simmetria con uguale frequenza.
Per es. nel caso in cui il carattere X abbia K modalità equidistanti fra loro, la
distribuzione è simmetrica se n1 = nK, n 2 = nK −1, n 3 = nK − 2, K
7
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Si vede che il numero di unità che presentano le unità più basse è lo stesso del numero
di unità che presentano le modalità più alte.
Quando abbiamo una distribuzione in cui: o è maggiore il numero di unità che
presentano le modalità più basse o è maggiore il numero di unità che presentano le
modalità più alte, si parla di distribuzioni asimmetriche.
Vediamo le due seguenti distribuzioni.
Distribuzione 1
Distribuzione 2
X
ni
X
ni
1
2
3
4
5
6
7
7
11
8
5
3
2
0,5
1
2
3
4
5
6
7
0,5
2
3
5
8
11
7
Vediamo che nessuna delle due verifica la definizione di simmetria.
Esse hanno però caratteristiche diverse.
La distribuzione 1 mostra che la maggior parte delle unità presenta valori bassi del
carattere (si parla di asimmetria positiva); la distribuzione 2, invece, mostra che la
maggior parte delle unità presenta valori elevati del carattere (si parla di asimmetria
negativa). Vediamo le rappresentazioni grafiche
Asimmetria positiva
12
10
8
6
4
2
0
1
2
3
4
5
6
7
6
7
Asimmetria Negativa
12
10
8
6
4
2
0
1
8
2
3
4
5
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Dai grafici si vede chiaramente che
Ø nel caso di asimmetria positiva le osservazioni sono più addensate in
corrispondenza dei valori più bassi
Ø nel caso di asimmetria negativa le osservazioni sono più addensate in
corrispondenza dei valori più alti.
La mediana gioca un ruolo estremamente importante nell’analisi della simmetria; essa
infatti è la modalità che divide in due parti uguali la distribuzione lasciando alla sua
sinistra e alla sua destra il 50% delle osservazioni.
Nota: è la definizione stessa di simmetria di una distribuzione a essere imperniata
sulla mediana. Infatti una distribuzione si dice simmetrica se le modalità
equidistanti dalla mediana hanno la stessa frequenza.
Indici di asimmetria
Data una distribuzione, abbiamo bisogno di opportuni indici per misurare se e quanto
essa si discosta dalla situazione di simmetria; in sostanza misuriamo la asimmetria di
una distribuzione come deviazione dalla situazione di simmetria.
Innanzitutto gli indici di asimmetria dovrebbero essere pari a zero se e solo se la
distribuzione è simmetrica. Purtroppo però gli indici di asimmetria che vedremo non
godono di questa proprietà; in particolare se la distribuzione è simmetrica essi sono
nulli ma non è vero il viceversa, cioè se l’indice di asimmetria è pari a zero la
distribuzione potrebbe non essere simmetrica.
Dal momento che la mediana ha un ruolo importante, il primo indice di asimmetria
che vediamo si basa proprio sulla mediana.
Questo indice pone a confronto le seguenti quantità:
Me – Q1
Q3 - Me
Infatti se una distribuzione è simmetrica allora il primo e il terzo quartile sono
equidistanti dalla mediana perché per definizione tra Q1 e Me e tra Me e Q3 sappiamo
esserci lo stesso numero di osservazioni.
Allora consideriamo la differenza: (Q 3 - Me ) − (Me - Q 1 )
Sappiamo che tra il primo quartile e la mediana per definizione cade il secondo 25%
delle osservazioni e tra la mediana e il terzo quartile cade il terzo 25% delle
osservazioni. Abbiamo i seguenti casi:
1. Se (Q3 - Me ) > (Me - Q1 ) vuol dire che le unità sono più addensate (fitte e
concentrate) tra il primo quartile e la mediana perché in un intervallo più piccolo
(quello tra primo quartile e mediana) cade la stessa percentuale di osservazioni. In
altre parole in questa situazione sono maggiori le frequenze che competono alle
modalità più piccole della mediana (e maggiori di Q1 ) e quindi siamo nel caso
della asimmetria positiva (quantomeno con riferimento al 50% centrale della
distribuzione).
2. Se (Q3 - Me ) < (Me - Q1 ) vuol dire che le unità sono più addensate (fitte e
concentrate) tra la mediana e il terzo quartile perché in un intervallo più piccolo
cade la stessa percentuale di osservazioni. In altre parole in questa situazione sono
9
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
maggiori le frequenze che competono alle modalità più grandi della mediana (e
minori di Q3 ) e quindi siamo nel caso della asimmetria negativa (quantomeno con
riferimento al 50% centrale della distribuzione).
3. Se (Q 3 − Me) = (Me - Q1 ) vuol dire che la stessa frazione di unità (il 25%) cade in
due intervalli di uguale ampiezza, cosa che fa pensare ad una situazione di
simmetria (almeno per quanto riguarda le unità comprese tra il primo e il terzo
quartile).
La differenza considerata dipende dall’unità di misura e quindi al suo posto si
preferisce usare l’indice
λ=
(Q3 - Me ) − (Me - Q1 )
Q 3 - Q1
=
Q3 + Q1 − 2Me
Q 3 - Q1
che è un indice relativo cioè non dipende dall’unità di misura e assume valori tra –1 e
+1 (estremi inclusi). In particolare
- valore massimo +1 quando Me = Q1 e quindi Me – Q1 = 0 e Q3 – Me = Q3 – Q1
- valore minimo –1 quando Me = Q3 e quindi Q3 – Me = 0 e Me – Q1 = Q3 – Q1
In sostanza questo indice va a misurare ciò che si osserva mediante il box-plot quando
si pone l’attenzione alla scatola e si vede se la linea che rappresenta la mediana è nel
centro della scatola (e allora si ha simmetria) oppure è più vicina al primo quartile (e
allora si ha asimmetria positiva) oppure è più vicina al terzo quartile (e allora si ha
simmetria negativa).
Esempio: consideriamo di nuovo l’esempio dei redditi delle famiglie statunitensi che
abbiamo visto nella sezione dedicata al box-plot.
Riportiamo di nuovo i quartili relativi ai due gruppi di famiglie
Famiglie Bianche
12.3
22.5
34.05
Q1
Me
Q3
Famiglie di Colore
7.37
15
26.43
Dai due box-plot vediamo che c’è una situazione di asimmetria positiva in entrambe
le distribuzioni visto che la linea che rappresenta la mediana non si trova nel centro
della scatola ma è un po’ spostata verso il primo quartile. Inoltre si osserva,
comparando i due box-plot, che l’asimmetria positiva è più accentuata nella seconda
distribuzione dove nella scatola la linea che rappresenta la mediana è più spostata
verso il primo quartile di quanto non lo sia nella prima distribuzione.
Verifichiamo queste affermazioni con il calcolo degli indici di asimmetria
λ1 =
λ2 =
10
(Q 3 - Me ) − (Me - Q1 )
Q 3 - Q1
(Q3 - Me ) − (Me - Q1 )
Q3 - Q1
=
Q 3 + Q1 − 2Me 34.05 + 12.3 − 2 ⋅ 22.5
=
= 0.062
Q 3 - Q1
34.05 − 12.3
=
Q3 + Q1 − 2Me 26.43 + 7.37 − 2 ⋅ 15
=
= 0.112
Q3 - Q1
26.43 − 7.37
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Anche il calcolo dell’indice di asimmetria mostra che la seconda distribuzione è più
asimmetrica della prima.
Osservazione : λ=0 anche quando la distribuzione è asimmetrica.
Ad esempio si prenda la distribuzione
X
fi
Fi
3
0.1
0.1
5
0.17
0.27
7
0.26
0.53
9
0.33
0.86
10
0.14
1
Si vede che Q1 = 5, Me = 7 e Q3 = 9 quindi
(9 − 7 ) − (7 − 5 ) = 0
λ=
9−5
Osservando le frequenze vediamo che la distribuzione è tutt’altro che simmetrica ma
mostra una maggiore concentrazione delle unità intorno a valori grandi del carattere
X.
Osservazione : un altro problema di questo indice è che è poco sensibile perché è
basato sui tre quartili e non tiene conto di tutti i valori assunti dal carattere nelle unità
del collettivo.
Supponiamo di avere una distribuzione unimodale di un carattere quantitativo.
Abbiamo che se la distribuzione è simmetrica allora la media, la moda e la mediana
coincidono.
C’è da notare che non è detto che sia vero il viceversa cioè si possono avere
distribuzioni per le quali media = moda = mediana ma la distribuzione non è
simmetrica.
Si consideri ad esempio la distribuzione seguente
X
2
8
10
15
Totale
ni
1
1
3
2
7
Fi
0.14
0.29
0.71
1
Essa è palesemente negativamente asimmetrica ma ha
Mo = 10
µ = (2+8+10⋅3+15⋅2)/7 = 10
Me = 10
Cioè i suoi tre valori medi coincidono.
Da questo esempio già si può capire che l’indice che andiamo a proporre, un indice
che mette a confronto la media e la moda, potrà essere nullo anche quando la
distribuzione non è simmetrica. In altre parole anche questo indice avrà lo stesso
difetto dell’indice λ visto sopra.
Pertanto quando abbiamo una distribuzione unimodale si ha che
- se è simmetrica allora µ = Me = Mo
11
Corso di Statistica (canale A – D)
-
-
Dott.ssa P. Vicard
se è positivamente asimmetrica allora µ > Me > Mo. In altre parole l’asimmetria
positiva si presenta quando la media è più elevata della mediana e della moda per
la presenza di valori particolarmente alti
se è negativamente asimmetrica allora µ < Me < Mo. In altre parole l’asimmetria
negativa si presenta invece quando la media è inferiore alla mediana e alla moda
per la presenza di valori particolarmente piccoli.
Possiamo prendere come misura di asimmetria un indice che si basa sulla differenza
tra media aritmetica e moda µ - Mo. Questa differenza dipende dall’unità di misura
con cui è misurato il carattere pertanto, per ottenere un numero “puro”, la si divide per
lo scarto quadratico medio. In questo modo si ottiene l’indice di asimmetria (proposto
da K. Pearson)
µ − Mo
sk =
σ
detto skewness di Pearson.
Se l’asimmetria è spiccatamente positiva allora sk > 0.
Se l’asimmetria è spiccatamente negativa allora sk < 0.
Sia λ che sk possono essere nulli anche quando la distribuzione non è simmetrica.
Inoltre essi generalmente sono in grado di segnalare solamente situazioni di evidente
asimmetria, cioè non sono molto sensibili alle deviazioni della distribuzione dalla
simmetria perché dipendono solo da valori di sintesi della distribuzione.
Pearson ha proposto anche un altro indice per lo studio della asimmetria. Questo si
basa sul fatto che in una distribuzione simmetrica tutti i momenti di ordine dispari
dalla media aritmetica sono nulli.
I momenti dalla media aritmetica sono definiti così:
1n
µ r = ∑ (ai − µ )r quando si ha una distribuzione per unità
n i =1
1K
µ r = ∑ (x i − µ )r ni quando si ha una distribuzione di frequenze
n i =1
Notare che per r = 2, µ 2 = σ2 .
1K
Indichiamo con µ 3 = ∑ (x i − µ )3 ni il momento di ordine 3 dalla media aritmetica.
n i =1
Questo, se la distribuzione è simmetrica, è nullo.
Se l’asimmetria è sensibilmente positiva allora µ 3 > 0 perché prevalgono gli
scostamenti positivi dalla media dovuti anche alla presenza di valori eccezionalmente
alti.
Se l’asimmetria è sensibilmente negativa allora µ 3 < 0 perché prevalgono gli
scostamenti negativi dalla media dovuti anche alla presenza di valori eccezionalmente
bassi.
Per rendere l’indice indipendente dall’unità di misura (il momento terzo dalla media
aritmetica è espresso nell’unità di misura alla terza) basta dividerlo per lo scarto
quadratico medio elevato alla terza. In questo modo si ottiene l’indice seguente:
µ
β = 33
σ
Anche β può essere nullo anche se la distribuzione non è simmetrica.
12
Corso di Statistica (canale A – D)
Dott.ssa P. Vicard
Esempio: Consideriamo dati relativi al rendimento percentuale a un anno di 17 fondi
di investimento. Abbiamo questi dati in forma di distribuzione unitaria;
32.2 29.5 29.9 32.4 30.6 30.1 32.1 35.2 10.0 20.6 28.6 30.5 38.0 33.0
29.4 37.1 28.6
Ordiniamo le osservazioni
10.0 20.6 28.6 28.6 29.4 29.5 29.9 30.1 30.5 30.6 32.1 32.2 32.4 33.0
35.2 37.1 38.0
Abbiamo:
Mo = 28.6
µ = 507.8/17 = 29.87
σ2 = 15826.98/17 – 29.872 = 38.78
σ = 6.23
Quindi sk = (29.87-28.6)/6.23 = 0.204
Per esercizio si calcoli l’indice β.
13