5. Gli Indici di Variabilità_SDS

Appunti di Statistica Sociale
Università Kore di Enna
LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI
La variabilità di un insieme di osservazioni attiene all’attitudine delle variabili studiate ad
assumere modalità quantitative diverse. I termini variabilità, dispersione o variazione sono tra loro
sinonimi.
Come è noto, la media aritmetica è una misura di sintesi, che fornisce informazioni sulla
posizione occupata dalle osservazioni ordinate sul continuum ideale impiegato per rappresentare la
variabile. Questa da sola non è sufficiente a sintetizzare compiutamente il fenomeno osservato. È
quindi necessario associarle una misura, che fornisca informazioni sul grado di diversità delle
osservazioni ordinate sul continuum. In altre parole, mentre la media ci dice dov’è la distribuzione
ordinata sul continuum, una misura di variabilità ci dice quanto è ampia la porzione di continuum
occupata dalla distribuzione ordinata, o quanto sono diverse le osservazioni dalla media.
Disporre di una misura di variabilità consente di conoscere l’ammontare di dispersione presente
in un insieme di dati. Esistono indici di variabilità diversi, per tipi diversi di variabilità: ad esempio,
potremmo essere interessati a conoscere il grado di diversità tra le singole osservazioni (differenze),
o a conoscere il grado di diversità delle singole osservazioni, rispetto ad un valore centrale di
riferimento (scostamenti). O, ancora, potremmo essere interessati a conoscere la variabilità di un
unico insieme di dati (variabilità assoluta), o a confrontare di due o più insiemi di dati, rispetto alla
variabilità in essi osservata (variabilità relativa).
In ogni caso, scelto il tipo di variabilità e l’opportuno indice, questo dovrebbe soddisfare tre
proprietà, ovvero essere:
1. pari a zero, se tutti i valori osservati sono uguali, ovvero quando la variabilità della
distribuzione è nulla;
2. diverso da zero, se i valori osservati sono diversi tra loro, ovvero quando la variabilità
della distribuzione è non nulla;
3. crescente al crescere del grado di diversità tra i valori osservati, ovvero quando la
variabilità della distribuzione crescere.
Ad esempio, se i valori osservati sono tra loro molto simili, sebbene diversi, l’ammontare di
variabilità sarà di modesta entità.
Più in generale, un indice di variabilità deve essere in grado di soddisfare due proprietà:
i. assumere valore zero se e solo se tutti i termini della distribuzione osservata sono uguali
tra loro;
ii. variare al variare della diversità tra i valori osservati.
La prima proprietà garantisce che se un indice di variabilità è uguale a zero, allora tutti i valori
osservati sono uguali tra loro (e uguali alla media della distribuzione, se scegliamo di usare gli
scostamenti). In tal caso la distribuzione è perfettamente individuata e qualunque sia l’indice di
variabilità scelto, questo assumerà necessariamente valore pari a zero.
La seconda proprietà richiede genericamente ad un indice di variabilità di riflettere il diverso
grado di variabilità che i valori possono esibire, crescendo/diminuendo al crescere/diminuire della
diversità tra i valori osservati.
Per le variabili quantitative, ci occuperemo essenzialmente di misure di variabilità basate sugli
scostamenti e di poche ed elementari misure basate su semplici differenze. Studieremo misure di
variabilità assoluta e relativa.
Docente: Fabio Aiello
A.A. 2010/11
1
Appunti di Statistica Sociale
Università Kore di Enna
LA VARIABILITÀ ASSOLUTA
Qui di seguito saranno esposte alcune misure di variabilità assoluta, ovvero della dispersione di
un unico insieme di dati, assumendo che si tratti di N osservazioni ordinate, (x1, x2, …, xN), di una
variabile X. Queste misure, come quelle di tendenza centrale, si calcolano opportunamente in base
al modo in cui sono organizzati i dati.
L’INTERVALLO DI VARIAZIONE (RANGE)
Sia data la distribuzione per unità di N osservazioni, organizzate in graduatoria secondo un
ordine non decrescente:
x1 ≤ x2 ≤ … ≤ xN.
Una misura elementare della dispersione di questa distribuzione è l’intervallo di variazione, o
range (R). Esso è un indice di variabilità assoluta ed è dato dalla differenza fra due particolari valori
osservati nell’insieme di dati: il valore più grande, o massimo, (xmax) ed il valore più piccolo, o
minimo, (xmin). Poiché gli N valori sono ordinati, xmax=xN e xmin=x1 ed il range R è:
R = xN – x 1 .
[1]
L’utilità del range è molto limitata, poiché esso tiene conto soltanto dei due valori estremi della
distribuzione, ignorando qualsiasi informazione sul comportamento dei valori intermedi. A rigore
infatti il range non è un “buon” indice di variabilità, perché disattende la seconda proprietà, dato
che non varia al variare della diversità dei valori compresi tra gli estremi. Infatti, esso varia solo se
varia la diversità tra i valori estremi, gli unici da cui dipende.
Riassumendo, R è una misura grossolana della variabilità e, anche se molto usato perché facile
da calcolare, deve essere usato con attenzione, perché affetto da due limiti:
1. non considera tutti i termini della distribuzione;
2. è sufficiente un solo valore anomalo, o outlier, tra x1 o xN, per modificarne sensibilmente
il valore, qualunque sia la dispersione di tutti gli altri termini compresi tra x2 e xN – 1.
Il vantaggio dell’uso di R è fondamentalmente legato alla sua semplicità di calcolo e
all’immediatezza d’interpretazione che lo contraddistingue.
LA DIFFERENZA INTERQUARTILE
È una misura di variabilità assoluta che consente di superare, almeno parzialmente,
l’inconveniente del range. Anch’essa è calcolata come differenza tra due soli termini della
distribuzione, ma considera, due valori meno estremi della distribuzione, il primo quartile, Q1, ed il
terzo, Q3:
DI = Q3 – Q1.
[2]
Analoghe misure possono essere calcolate impiegando le differenze tra i percentili o i decili. In
ogni caso tutti questi indici a rigore non possono essere considerati dei veri e propri indici di
variabilità, perché sono tutti affetti dal problema al punto 1) del paragrafo precedente.
LA VARIANZA
A differenza delle due precedenti misure di variabilità, basate sulla differenza tra coppie di valori
opportunamente scelti, la varianza è una misura di sintesi della dispersione dei valori osservati
rispetto alla media aritmetica. Essa misura di quanto, in media, i valori osservati differiscono dalla
loro media (aritmetica).
Docente: Fabio Aiello
A.A. 2010/11
2
Appunti di Statistica Sociale
Università Kore di Enna
In generale, quando i valori di un insieme di dati sono:
1. molto concentrati (poco dispersi) intorno alla loro media, la variabilità è bassa e il valore
della varianza piccolo;
2. poco concentrati (molto dispersi) intorno alla loro media, la variabilità è alta e il valore della
varianza grande.
È chiaro che il valore assunto dalla varianza nel caso 1 è certamente minore di quello nel caso 2.
È importante calcolare una misura di variabilità che tenga conto della dispersione dei valori
osservati intorno alla loro media. Tale misura è un calcolata attraverso un rapporto, detto appunto
varianza (σ2). Il numeratore, la devianza, è dato dalla somma dei quadrati delle differenza (scarti)
tra ciascun valore osservato, xi, e la media, μ. Il denominatore è dato, invece, dal numero di termini
(gli scarti) della sommatoria, ovvero dal numero di osservazioni N.
Le quantità vanno individuate opportunamente, in relazione al modo in cui sono ordinate le N
osservazioni. Infatti:
- se si ha una distribuzione di N dati individuali ordinati, allora la formula della varianza è:
N
σ2 =
∑( x − μ )
2
i
i =1
.
[3]
N
- se si ha una distribuzione di frequenza in k modalità, allora la formula della varianza è:
K
σ2 =
∑(x
− μ ) nk
2
k
k =1
.
K
∑n
k =1
[4]
k
Se, invece, i valori osservati sono distribuiti in k classi, analogamente a quanto visto per il calcolo
della media aritmetica, nella formula [4], si sostituisce alla k-esima modalità, xk, il valore centrale
della classe k-esima, cxk:
K
σ2 =
∑(
k =1
c
xk − μ ) nk
2
.
K
∑n
k =1
[5]
k
Se la varianza è riferita a dati campionari, al denominatore va posta la quantità (n – 1) e non N.
La “formula ridotta” per il calcolo della varianza
Quando il numero delle osservazioni è elevato, l’uso delle formule precedenti può essere troppo
dispendioso. È utile allora ricorrere alle formule ridotte della varianza, che sono rispettivamente:
- per N osservazioni:
⎛ N
x
∑
⎜ ∑ xi
2
i =1
σ =
− ⎜ i =1
N
⎜ N
⎜
⎝
N
2
i
-
⎞
⎟
⎟
⎟
⎟
⎠
2
per k modalità (o classi):
⎛ K
(
x
)
n
∑
k
⎜ ∑ xk nk
2
k =1
σ =
− ⎜ k =1K
K
⎜
nk
∑
⎜ ∑ nk
k =1
⎝ k =1
K
2
k
2
⎞
⎟
⎟ ,
⎟
⎟
⎠
che fornisce la varianza come differenza tra la media quadratica e la media aritmetica al quadrato.
Docente: Fabio Aiello
A.A. 2010/11
3
Appunti di Statistica Sociale
Università Kore di Enna
È utile fare una riflessione circa il fatto che la varianza è espressa come risultato di differenze al
quadrato tra valori espressi con identica unità di misura e ordine di grandezza. Pertanto, il valore
finale di σ2 sarà espresso in unità di misura al quadrato!
LA SCARTO QUADRATICO MEDIO
Come abbiamo detto nel paragrafo precedente la varianza, σ2, è ottenuta come media degli scarti al
quadrato dei valori osservati dalla media; pertanto, non è espressa nella stessa unità di misura dei
valori osservati xi. Per pervenire a un indice di variabilità più sfruttabile, perché espresso nell’unità
di misura originaria dei dati, è necessario estrarre la radice quadrata della varianza. Tale operazione
conduce allo scarto quadratico medio, σ (se riferito agli N valori di una Popolazione), oppure, alla
deviazione standard, s (se riferito agli n valori di un Campione).
In generale, lo scarto quadratico medio di N valori distribuiti in k modalità è:
K
σ=
∑ (x
k =1
k
− μ ) 2 nk
K
∑n
k =1
.
k
Come nel caso della varianza, se la misura è riferita a dati campionari a denominatore deve essere
posta la quantità (n – 1). Anche questo indice esprime di quanto in media ciascuna osservazione si
scosti dalla propria media.
LA VARIABILITÀ RELATIVA
IL COEFFICIENTE DI VARIAZIONE
Lo scarto quadratico medio (σ) è un’importante misura di variabilità di uno specifico insieme di
dati. Ma, quando l’obiettivo è valutare e confrontare la variabilità di due o più insiemi di dati, non è
sufficiente, né tanto meno corretto ricorrere ai singoli scarti quadratici.
I casi in cui sia utile confrontare la variabilità di più insiemi di dati sono molteplici. Può verificarsi
che i dati in studio siano relativi a osservazioni della stessa variabile in tempi e/o in luoghi diversi,
espressi quindi con unità di misura e ordine di grandezza diversi: ad esempio, se si misura il
reddito procapite in: Paesi diversi, con valute diverse, allora le osservazioni sono espresse in unità
di misura diverse (ad esempio, dollaro in USA, euro in Italia, sterlina in GB, ecc.); oppure, in
epoche diverse, allora le osservazioni possono essere espresse in unità di misura e ordini di
grandezza diversi (in Italia negli anni 1930 il reddito medio annuale procapite era di circa £. 2.200,
negli anni ’70 era di circa £ 17.500.000, negli anni ’90 di circa € 22.508,77). Altrimenti, si può
essere interessati a confrontare la variabilità di due fenomeni diversi con unità di misura diverse,
osservati sempre su un’unica popolazione di soggetti: ad esempio, i livelli di colesterolo (espressi in
mg/100 ml) e la massa corporea (espressa in kg) di un gruppo di pazienti di un ospedale. Infine,
anche se l’unità di misura è identica, si può essere interessati a confrontare gruppi di dati le cui
medie sono molto diverse fra loro rispetto all’ordine di grandezza; come quando si confrontano due
gruppi diversi di soggetti, rispetto alla massa corporea, dove il primo è composto da scolari di una
classe elementare e il secondo da matricole universitarie. Se si ricorre alla deviazione standard dei
pesi (espressi per entrambi i gruppi in kg) è certo che la deviazione standard del secondo gruppo
assume un valore numerico decisamente maggiore della deviazione standard del primo gruppo (σ2 >
σ1). Ciò avviene perché i pesi degli studenti universitari assumono valori decisamente maggiori di
quelli degli scolari. In tal caso, l’unità di misura è comune ai due gruppi (i kg), ma la differenza
osservata tra i due gruppi in termini di variabilità è spiegabile sia attraverso la differente dispersione
delle masse corporee misurate, sia attraverso i differenti ordini di grandezza delle misure rilevate,
che sono specifici per ciascuno dei due gruppi di soggetti. Quindi, possiamo dire che lo scarto
Docente: Fabio Aiello
A.A. 2010/11
4
Appunti di Statistica Sociale
Università Kore di Enna
quadratico medio produce una misura della variabilità che è “affetta” dall’unità di misura e
dall’ordine di grandezza dei dati sui quali è calcolato.
In casi come quelli esemplificati, quando l’obiettivo è confrontare gruppi di dati in base alla loro
variabilità, l’uso di una misura di variabilità assoluta non è corretto; in tali casi è meglio ricorrere
ad una misura di variabilità relativa. La misura più diffusa è il coefficiente di variazione (CV), dato
dal rapporto tra lo scarto quadratico medio e la media aritmetica, ovvero:
CV =
σ
×100
μ
moltiplicato per 100, per amplificare il risultato. Il rapporto tra due quantità espresse nella stessa
unità di misura e ordine di grandezza, produce una misura scevra da queste. Ciò significa che il
coefficiente di variazione è indipendente sia dall’unità di misura, che dall’ordine di grandezza. Per
questo motivo esso è un numero puro.
Riprendiamo l’esempio e supponiamo di avere misurato la massa corporea dei soggetti descritti
nella tabella qui di seguito:
Esempio: Risultati per due gruppi di maschi.
Variabili
Gruppo1
Età
matricole
Peso medio
μ1 = 70 kg
Deviazione standard (σ)
σ1 = 4,5 kg
Gruppo2
scolari
μ2 = 36 kg
σ2 = 4,5kg
Vogliamo sapere se è più variabile il peso delle matricole o degli scolari.
Se basassimo il confronto sulle due deviazioni standard potremmo concludere erroneamente che i
due gruppi hanno uguale variabilità.
Se invece ci affidiamo ai due coefficienti di variazione, avremo:
1. gruppo matricole:
CV1 = (4,5/70) 100 = 6,4;
2. gruppo scolari:
CV2 = (4,5/36) 100 = 12,5.
Emerge chiaramente la diversa variabilità osservata nei due gruppi e si può concludere che la massa
corporea osservata nei più giovani è molto più variabile di quella osservata nei più anziani.
Docente: Fabio Aiello
A.A. 2010/11
5
Appunti di Statistica Sociale
Università Kore di Enna
LE MISURE DI VARIABILITÀ DI CARATTERI QUALITATIVI
Quando l’oggetto del proprio studio è un carattere qualitativo, il concetto di variabilità è inteso in
termini di mutabilità, ovvero l’attitudine di un carattere ad assumere diverse modalità qualitative.
Anche in questo contesto si costruiscono indici di mutabilità. Per fare ciò è necessario introdurre il
concetto di omogeneità di un collettivo rispetto ad un carattere e, per converso, quello di
eterogeneità. Un collettivo si dice omogeneo rispetto ad un carattere qualitativo se tutte le sue unità
hanno la stessa modalità del carattere. Per converso, un collettivo è tanto più eterogeneo rispetto al
carattere, quanto più le frequenze si ripartiscono uniformemente tra le varie modalità che esso può
assumere.
Come per gli indici di variabilità, un indice di mutabilità deve:
1. assumere valore zero se e solo se il collettivo è omogeneo;
2. variare al variare dell’eterogeneità tra i termini.
INDICI DI ETEROGENEITÀ
INDICE DI GINI
L’indice di Gini gode di tutte le proprietà degli indici di eterogeneità. Si pensi a un carattere
qualitativo con k modalità. L’indice di Gini (S) assume la forma:
k
S = 1 − ∑ f i2 .
i =1
Esso vale zero se e solo se il collettivo è omogeneo: infatti, in questo caso si osserverà solo una
delle k modalità del carattere, che avrà frequenza assoluta pari a N. Quindi, le frequenze relative
delle k–1 restanti modalità saranno nulle, tranne quella della modalità osservata, che varrà uno. In
tal caso l’indice assume il suo valore minimo:
2
⎛N⎞
min(S) = 1 − ⎜ ⎟ = 0
⎝N⎠
L’indice S assume, invece, il suo valore massimo quando le frequenze sono uniformemente
distribuite tra tutte le k modalità, ovvero in caso di massima eterogeneità:
Modalità
a1
a2
…
ai
…
ak
Frequenze ass.
N/k
N/k
…
N/k
…
N/k
N
fi
1/k
1/k
…
1/k
…
1/k
1
fi2
1/k2
1/k2
…
1/k2
…
1/k2
1
k⋅
k2
ed è:
1 k −1
=
.
k
k
Il max(S) serve per calcolare l’indice di eterogeneità relativo, S*, rapportando l’indice assoluto S,
calcolato sulla distribuzione osservata del carattere, al massimo calcolato sulla distribuzione teorica.
Tale indice normalizzato serve per confrontare l’eterogeneità misurata su più collettivi, in
particolare quando è diverso il numero di modalità delle distribuzioni da porre a confronto.
max(S) = 1 −
S* =
Docente: Fabio Aiello
S
max( S )
A.A. 2010/11
6
Appunti di Statistica Sociale
Università Kore di Enna
INDICE DI ENTROPIA
È un altro indice di eterogeneità molto in uso. Si assuma ancora un carattere con k modalità:
K
H = − ∑ f k log( f k )
k =1
dove log(fk) è il logaritmo in base qualsiasi di fk.
Anche il massimo di H si ottiene da una distribuzione teorica massimizzante dell’eterogeneità ed è
uguale a:
k 1
1
max(H) = − ∑ log = log k k
k
i =1 k
dove logk(k) indica il logaritmo in base k di fk.
N.B. È da notare che gli indici di eterogeneità applicati alla distribuzione di frequenza di un
carattere impiegano solo ed esclusivamente l’informazione relativa alle frequenze
(indifferentemente nk o fk); mentre la varianza impiega sia l’informazione relativa alle frequenze
(indifferentemente nk o fk), sia quella relativa alla determinazione quantitativa osservata del carattere
(la modalità xk).
Docente: Fabio Aiello
A.A. 2010/11
7