Indici di dispersione
1
Supponiamo di disporre di un insieme di misure e di cercare un
solo valore che, meglio di ciascun altro, sia in grado di “catturare”
le caratteristiche della distribuzione nel suo complesso, ovvero
rappresenti il valore più tipico della distribuzione.
Moda, Mediana, Media aritmetica
2
MODA
La moda di una distribuzione di frequenze è il punto centrale
della classe di misure più frequente.
Distribuzione zeromodale: nessun valore ha una frequenza
più elevata degli altri.
Distribuzione unimodale: c’è un solo valore con una frequenza
più elevata degli altri.
Es. [2, 4, 1, 3, 7, 3, 5, 3]
Distribuzione bimodale: ci sono due valori con una frequenza
più elevata degli altri.
Es. [7, 4, 7, 3, 7, 3, 5, 3]
3
Negli istogrammi, la moda coincide con il punto centrale della
base del rettangolo con altezza maggiore.
Nelle curve di frequenza, la moda coincide con il valore
corrispondente ad un massimo della curva
Affinché una distribuzione sia bimodale è sufficiente che vi siano
due massimi. Non è necessario che entrambi abbiano lo stesso
valore.
Dato che la moda dipende soltanto dalla frequenza delle
osservazioni, è l’unica misura di tendenza centrale per dati
in scala nominale.
4
LIMITI DELLA MODA
Un campione può avere più di una moda.
La moda è molto sensibile alla grandezza e al numero degli
intervalli di classe. La moda può cambiare in maniera
considerevole cambiando gli intervalli delle classi.
La moda di un campione non fornisce una buona stima della
moda della popolazione da cui quel campione è stato tratto.
5
MEDIANA
La mediana è il valore che occupa la posizione centrale
quando le osservazioni di un campione sono ordinate in
base al loro valore.
6
6, 6.7, 3.8, 7, 5.8
I valori ordinati sono
3.8, 5.8, 6, 6.7, 7
7
6, 6.7, 3.8, 7, 5.8, 9.975
I valori ordinati sono:
8
MEDIA ARITMETICA
9
Proprietà 1. Se un insieme di osservazioni è costituito
da due sottoinsiemi disgiunti di grandezza n1 e n2, e medie
allora la media dell’insieme totale sarà uguale a:
e
10
11
DIFFERENZE TRA LA MEDIA E LA MEDIANA
La media risente dei cambiamenti effettuati agli estremi di
una distribuzione, mentre la mediana è insensibile a questi
cambiamenti.
La media è più stabile della mediana, ovvero varia di meno
al passare da un campione ad un altro.
12
Esempio
Nella sono rappresentate le distribuzioni delle età dei morti in Italia nel 1890, nel 1950 e nel
1990. Chiamiamole, in ordine, Età1890, Età1950 ed Età1990.
Le rispettive medie sono 28, 58 e 75: un morto nel 1890 aveva mediamente 28 anni, 58
nel 1950 e 75 nel 1990.
Le età mediane di morte erano invece, in ordine, 8, 66 e 78:
Il fatto che, nel 1890, la media abbia un valore molto maggiore della mediana (mascherando
in parte il fenomeno della mortalità infantile) è dovuto alla lunga coda destra che fa
aumentare il risultato del calcolo della media. Nel 1990, invece, la media è inferiore alla
mediana a causa della cosa sinistra; la differenza in questo caso è lieve in quanto si tratta di
una coda molto "sottile", e quindi non incide molto sul risultato.
13
INDICI DI POSIZIONE
14
Quantili
I quantili si riferiscono ad una suddivisione in parti uguali
dei dati ordinati.
min
max
Il primo quartile è l’unità di osservazione che ha la proprietà
di avere sotto di sé un quarto dei dati della distribuzione.
Il secondo quartile è uguale alla mediana.
15
Il primo decile è l’unità di osservazione che ha la proprietà di
avere sotto di sé un decimo dei dati della distribuzione.
Il primo centile è l’unità di osservazione che ha la proprietà di
avere sotto di sé un centesimo dei dati della distribuzione.
16
Per calcolare i quantili si usa lo stesso procedimento
usato per il calcolo della mediana.
Per calcolare il 24 percentile, per esempio, si ordinano i dati
in senso crescente, e si determina se esiste un valore che abbia
sotto di sé il 24% dei dati della distribuzione.
Se tale valore non esiste, una procedura di interpolazione
lineare viene usata per trovare il valore esatto del percentile
cercato.
17
INDICI DI DISPERSIONE
18
Le misure di dispersione esprimono la tendenza delle singole
osservazioni di una distribuzione di allontanarsi dalla
tendenza centrale, ovvero la “variabilità” dei dati.
La dispersione esprime la “bontà” o la “povertà” della tendenza
centrale quale descrittore di una distribuzione.
[7, 8, 10, 12, 13]
[1, 2, 10, 18, 19]
19
20
Come si può quantificare la variabilità
di una distribuzione?
21
GAMMA (CAMPO DI VARIABILITA’)
Gamma = Xmax - Xmin
[5, 2, 7, 11, 3, 6, 2]
Gamma = 11 - 2 = 9
22
Sono chiamati indici di dispersione degli indicatori numerici che
danno un'idea quantitativa di come i dati sono più o meno
sparpagliati.
Per introdurli facciamo riferimento alle distribuzioni Età1890,
Età1950 ed Età1990
23
Passando dal 1890 al 1950, oltre a uno spostamento verso destra della
zona in cui si concentrano le età di morte (testimoniato dall'aumento
sia della media che della mediana), possiamo osservare un maggiore
addensamento dei dati: l'istogramma assume una forma più tozza.
Questa percezione intuitiva può essere precisata considerando
l'intervallo in cui si colloca il 50% centrale dei dati, ossia i dati che
vanno dal 25° al 75° percentile, che per il 1890 sono circa 3 e 58 (il
25% dei morti aveva età che non superava i 3 anni e il 75% età che
non superava i 58 anni), e per il 1950 sono circa 43 e 81.
24
La ampiezza di questo intervallo, che viene chiamata distanza
interquartile in quanto costituisce la distanza tra il valore che
delimita il primo quarto dei dati da quello che ne delimita l'ultimo
quarto, passa da 55 a 38.
Per il 1990 si ha un'ulteriore riduzione della dispersione: si può
calcolare che questa distanza diventa 32.
La distanza interquartile, indicato in genere con IQR (IntraQuartile
Range), è l'indice di dispersione d'uso più generale.
25
VARIANZA E DEVIAZIONE STANDARD
26
Lo scarto tra ciascuna osservazione di una distribuzione
e la media è dato da:
Problema:
Soluzione: elevare gli scarti al quadrato
27
Varianza: media degli scarti dalla media
elevati al quadrato.
28
Esempio di calcolo della varianza
29
[2, 3, 6, 9, 15]
30
Deviazione standard: radice quadrata
della varianza.
31
32
Formula alternativa per la varianza
33
34
ESERCIZIO
Per i seguenti dati, calcolate la media, la varianza e la
deviazione standard.
Per il calcolo della varianza usate entrambe le
formule presentate in precedenza.
2
5
8
7
3
35
COEFFICIENTE DI VARIAZIONE
Il coefficiente di variazione è definito come il rapporto
tra la deviazione standard e la media:
L’indice di varianza relativa è uguale al quadrato del
coefficiente di variazione:
36