1 L`osservazione di uno o più fenomeni su delle unità statistiche

Appunti di Statistica Sociale
Università “Kore” di Enna
LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI
L’osservazione di uno o più fenomeni su delle unità statistiche conduce quasi sempre
all’osservazioni di determinazioni diverse tra le diverse unità statistiche. Quando le variabili sono
quantitative, le determinazioni assumono la tradizionale forma numerica. La variabilità di un
insieme di osservazioni attiene all’attitudine delle variabili studiate ad assumere modalità
numeriche diverse. I termini variabilità, dispersione o variazione sono tra loro sinonimi.
Come è noto, la media aritmetica è una misura di sintesi, che fornisce informazioni sulla
posizione occupata dalle osservazioni ordinate su un continuum ideale impiegato per rappresentare
la variabile. Da sola la media non è sufficiente a sintetizzare compiutamente il fenomeno osservato.
È infatti necessario associarle una misura che fornisca informazioni sul grado di diversità delle
osservazioni ordinate sul continuum. In altre parole, mentre la media ci dice dov’è la distribuzione
ordinata sul continuum, una misura di variabilità ci può dire quanto è ampia la porzione di
continuum occupata dalla distribuzione ordinata, o anche quanto diverse sono le osservazioni poste
sul continuum. Disporre di una misura di variabilità consente di conoscere l’ammontare di
dispersione presente in un insieme di dati.
Esistono indici di variabilità diversi, per tipi diversi di variabilità: ad esempio, potremmo essere
interessati a conoscere il grado di diversità tra tutte le coppie formate con le singole osservazioni
(differenze semplici), o a conoscere il grado di diversità di ciascuna osservazione rispetto ad un
valore centrale di riferimento (scostamenti). O, ancora, potremmo essere interessati a conoscere la
variabilità di un unico insieme di dati (variabilità assoluta), o a confrontare di due o più insiemi di
dati, rispetto alla variabilità in essi osservata (variabilità relativa).
In ogni caso, scelto il tipo di variabilità e l’opportuno indice, questo dovrebbe sempre soddisfare
tre proprietà, ovvero, essere:
1.
pari a zero, quando tutti i valori osservati sono uguali tra loro, ovvero quando la
variabilità della distribuzione è nulla;
2. diverso da zero, quando i valori osservati sono diversi tra loro, ovvero quando la
variabilità della distribuzione è non nulla;
3. crescente (decrescente) al crescere (decrescere) del grado di diversità tra i valori
osservati, ovvero quando la variabilità della distribuzione cresce (decresce).
Ad esempio, se i valori osservati sono tra loro molto simili, sebbene diversi, l’ammontare di
variabilità sarà di modesta entità.
Più in generale, un indice di variabilità deve essere in grado di soddisfare due proprietà:
i. assumere valore zero se e solo se tutti i termini della distribuzione osservata sono uguali
tra loro;
ii. variare al variare della diversità tra i valori osservati.
La prima proprietà garantisce che, se un indice di variabilità è uguale a zero, allora tutti i valori
osservati sono uguali tra loro (e uguali alla media della distribuzione, se scegliamo di usare gli
scostamenti). In tal caso la distribuzione è perfettamente individuata e qualunque sia l’indice di
variabilità scelto, questo assumerà necessariamente valore pari a zero.
La seconda proprietà richiede genericamente ad un indice di variabilità di riflettere il diverso
grado di variabilità che i valori possono esibire, crescendo, o diminuendo, al crescere, o al descrere
della diversità tra i valori osservati.
Fabio Aiello
1
Appunti di Statistica Sociale
Università “Kore” di Enna
Per le variabili quantitative, ci occuperemo essenzialmente di misure di variabilità basate sugli
scostamenti e di poche ed elementari misure basate su semplici differenze. Studieremo misure di
variabilità assoluta e relativa.
LA VARIABILITÀ ASSOLUTA
Qui di seguito saranno esposte alcune misure di variabilità assoluta, ovvero della dispersione
osservata su un unico insieme di dati, assumendo che si tratti di N osservazioni ordinate, (x1, x2, …,
xN), di una variabile quantitativa X. Queste misure, come quelle di tendenza centrale, si calcolano
opportunamente in base al modo in cui sono organizzati i dati.
L’INTERVALLO DI VARIAZIONE (RANGE)
Sia data la distribuzione per unità di N osservazioni, organizzate in una graduatoria, secondo un
ordine non decrescente, tale che:
x1 ≤ x2 ≤ … ≤ xN.
Una misura della dispersione presente in questa distribuzione è l’intervallo di variazione, o
range (R). Esso è un indice di variabilità assoluta elementare, dato dalla differenza fra due
particolari valori osservati nell’insieme di dati ordinati: il valore osservato più grande, o massimo,
(xmax) ed il valore osservato più piccolo, o minimo, (xmin). Poiché gli N valori sono ordinati, si ha che
xmax = xN e xmin = x1, così il range (R) è:
R = xN – x1 = xmax – xmin
[1]
L’utilità del range è molto limitata, poiché esso tiene conto soltanto dei due valori estremi della
distribuzione, ignorando qualsiasi informazione sul comportamento dei valori intermedi. A rigore
infatti il range non è un “buon” indice di variabilità, poiché disattende la seconda proprietà, dato
che non varia al variare della diversità dei valori compresi tra gli estremi. Infatti, esso varia solo se
varia la diversità tra i valori estremi, gli unici da cui dipende.
Riassumendo, R è una misura grossolana della variabilità e, anche se molto usato perché facile
da calcolare, deve essere usato con cautela, perché affetto da due limiti:
1. non considera tutti i termini della distribuzione;
2. è sufficiente un solo valore anomalo, o outlier, tra x1 o xN, per modificarne sensibilmente il
valore, qualunque sia la dispersione di tutti gli altri termini compresi tra x2 e xN – 1.
Il vantaggio dell’uso del range è fondamentalmente legato alla sua semplicità di calcolo e
all’immediatezza d’interpretazione che lo contraddistinguono.
LA DIFFERENZA INTERQUARTILE
È anch’essa una misura di variabilità assoluta che consente di superare, almeno parzialmente,
l’inconveniente del range. Infatti, anch’essa è calcolata come differenza tra due soli termini della
Fabio Aiello
2
Appunti di Statistica Sociale
Università “Kore” di Enna
distribuzione, ma ne considera due meno estremi: il primo quartile, Q1, ed il terzo, Q3. La differenza
interquartile (DI) è quindi così definita:
DI = Q3 – Q1
[2]
Analoghe misure possono essere calcolate impiegando le differenze tra i percentili o i decili. In
ogni caso tutti questi indici a rigore non possono essere considerati dei veri e propri indici di
variabilità, perché sono tutti affetti dal problema al punto 1) del paragrafo precedente.
LA VARIANZA
A differenza delle due precedenti misure di variabilità, basate sulla differenza tra coppie di valori
opportunamente scelti, la varianza è una misura di sintesi della dispersione dei valori osservati
intorno ad un valore di riferimento, o baricentro, qual è la media aritmetica. La varianza, σ2, misura
di quanto, in media, i valori osservati differiscono dalla loro media aritmetica, µ.
In generale, quando i valori osservati sono:
1. molto concentrati intorno alla loro media (poco dispersi), la variabilità è bassa e il valore
della varianza piccolo;
2. poco concentrati intorno alla loro media (molto dispersi), la variabilità è alta e il valore della
varianza grande.
È chiaro che il valore assunto dalla varianza nel caso 1 è certamente minore di quello assunto nel
caso 2.
È importante calcolare una misura di variabilità che tenga conto della dispersione dei valori
osservati intorno alla loro media. Tale misura è calcolata attraverso un rapporto, detto appunto
varianza, σ2, il cui numeratore, noto come devianza, è la somma delle differenza (scarti) al
quadrato tra ogni valore osservato, xi, e la media, µ; il denominatore, invece, è dato dal numero di
termini della sommatoria, ovvero dal numero di osservazioni, N.
Le quantità poste a rapporto vanno individuate correttamente, a seconda del modo in cui sono
organizzate le N osservazioni. Infatti:
-
se si ha una distribuzione di N dati individuali ordinati, allora la formula della varianza è:
N
σ2 =
-
∑( x − µ )
2
i
i =1
[3]
N
se si ha una distribuzione di frequenza in k modalità, allora la formula della varianza è:
K
σ2 =
∑( x
2
k
− µ ) nk
k =1
K
∑n
[4]
k
k =1
-
se, infine, i valori osservati sono distribuiti in k classi, si sostituisce alla k-esima modalità, xk,
nella formula [4], il valore centrale della classe k-esima, cxk:
Fabio Aiello
3
Appunti di Statistica Sociale
Università “Kore” di Enna
K
σ2 =
∑(
k =1
c
2
xk − µ ) nk
K
∑n
.
[5]
k
k =1
si ricorda che
K
∑n
k
=N
k =1
Se la varianza è riferita a dati campionari, al denominatore va posta la quantità (n – 1) e non N.
La “formula ridotta” per il calcolo della varianza
Quando il numero delle osservazioni è elevato, l’uso delle formule precedenti può essere troppo
dispendioso. È utile allora ricorrere alle formule ridotte della varianza, che sono rispettivamente:
- per N osservazioni:
 N
x
∑
 ∑ xi
2
i =1
σ =
−  i =1
N
 N


N
-
2
i






2
per k modalità (o classi):
 K
(
x
)
n
∑
k
 ∑ xk nk
2
k =1
σ =
−  k =1K
K

nk
∑
 ∑ nk
k =1
 k =1
K
2
k
2


 ,



che fornisce la varianza come differenza tra la media quadratica e la media aritmetica al quadrato.
È utile fare una riflessione circa il fatto che la varianza è espressa come risultato di differenze al
quadrato tra valori espressi con identica unità di misura e ordine di grandezza. Pertanto, il valore
finale di σ2 sarà espresso in unità di misura della variabile X osservata, ma al quadrato!
LA SCARTO QUADRATICO MEDIO
Come sopra detto la varianza, σ2, non è espressa nella stessa unità di misura dei valori osservati, xi,
bensì in unità di misura al quadrato. Ad esempio, se stiamo studiando la variabilità osservata nella
lunghezza, espressa in mm, della produzione giornaliera di chiodi, la misura di σ2 sarà espressa in
mm2.
Per pervenire a un indice di variabilità espresso nella stessa unità di misura originaria dei dati, e per
questo più sfruttabile, è sufficiente estrarre semplicemente la radice quadrata della varianza. Tale
operazione conduce allo scarto quadratico medio, σ, se riferito agli N valori di una popolazione, o
alla deviazione standard, s, se riferito agli n valori di un Campione.
In generale, lo scarto quadratico medio di N valori distribuiti in k modalità è:
Fabio Aiello
4
Appunti di Statistica Sociale
Università “Kore” di Enna
K
∑ (x
k
σ=
− µ ) 2 nk
k =1
K
∑n
.
k
k =1
Ovviamente, come nel caso della varianza, se la misura è riferita a dati campionari a denominatore
vi sarà la quantità (n – 1). Anche questo indice esprime di quanto in media ciascuna osservazione si
scosti dalla propria media.
LA VARIABILITÀ RELATIVA
IL COEFFICIENTE DI VARIAZIONE
Lo scarto quadratico medio (σ) è un’importante misura di variabilità di uno specifico insieme di
dati. Ma, quando l’obiettivo è valutare e confrontare la variabilità di due o più insiemi di dati, non è
sufficiente, né tanto meno corretto ricorrere ai singoli scarti quadratici.
I casi in cui sia utile confrontare la variabilità di più insiemi di dati sono molteplici. Può verificarsi
che i dati in studio siano relativi a osservazioni della stessa variabile in tempi e/o in luoghi diversi,
espressi quindi con unità di misura e ordine di grandezza diversi: ad esempio, se si misura il
reddito procapite in: Paesi diversi, con valute diverse, allora le osservazioni sono espresse in unità
di misura diverse (ad esempio, dollaro in USA, euro in Italia, sterlina in GB, ecc.); oppure, in
epoche diverse, allora le osservazioni possono essere espresse in unità di misura e ordini di
grandezza diversi (in Italia negli anni 1930 il reddito medio annuale procapite era di circa £. 2.200,
negli anni ’70 era di circa £ 17.500.000, negli anni ’90 di circa € 22.508,77). Altrimenti, si può
essere interessati a confrontare la variabilità di due fenomeni diversi con unità di misura diverse,
osservati sempre su un’unica popolazione di soggetti: ad esempio, i livelli di colesterolo (espressi in
mg/100 ml) e la massa corporea (espressa in kg) di un gruppo di pazienti di un ospedale. Infine,
anche se l’unità di misura è identica, si può essere interessati a confrontare gruppi di dati le cui
medie sono molto diverse fra loro rispetto all’ordine di grandezza; come quando si confrontano due
gruppi diversi di soggetti, rispetto alla massa corporea, dove il primo è composto da scolari di una
classe elementare e il secondo da matricole universitarie. Se si ricorre alla deviazione standard dei
pesi (espressi per entrambi i gruppi in kg) è certo che la deviazione standard del secondo gruppo
assume un valore numerico decisamente maggiore della deviazione standard del primo gruppo (σ2 >
σ1). Ciò avviene perché i pesi degli studenti universitari assumono valori decisamente maggiori di
quelli degli scolari. In tal caso, l’unità di misura è comune ai due gruppi (i kg), ma la differenza
osservata tra i due gruppi in termini di variabilità è spiegabile sia attraverso la differente dispersione
delle masse corporee misurate, sia attraverso i differenti ordini di grandezza delle misure rilevate,
che sono specifici per ciascuno dei due gruppi di soggetti. Quindi, possiamo dire che lo scarto
quadratico medio produce una misura della variabilità che è “affetta” dall’unità di misura e
dall’ordine di grandezza dei dati sui quali è calcolato.
In casi come quelli esemplificati, quando l’obiettivo è confrontare gruppi di dati in base alla loro
variabilità, l’uso di una misura di variabilità assoluta non è corretto; in tali casi è meglio ricorrere
Fabio Aiello
5
Appunti di Statistica Sociale
Università “Kore” di Enna
ad una misura di variabilità relativa. La misura più diffusa è il coefficiente di variazione (cv), dato
dal rapporto tra lo scarto quadratico medio e la media aritmetica, ovvero:
cv =
σ
×100
µ
moltiplicato per 100, per amplificare il risultato. Il rapporto tra due quantità espresse nella stessa
unità di misura e ordine di grandezza, produce una misura scevra da queste. Ciò significa che il
coefficiente di variazione è indipendente sia dall’unità di misura, che dall’ordine di grandezza. Per
questo motivo esso è un numero puro.
Riprendiamo l’esempio e supponiamo di avere misurato la massa corporea dei soggetti descritti
nella tabella qui di seguito:
Esempio: Risultati per due gruppi di maschi.
Variabili
Gruppo1
Età
matricole
Peso medio
µ1 = 70 kg
Deviazione standard (σ)
σ1 = 4,5 kg
Gruppo2
scolari
µ2 = 36 kg
σ2 = 4,5kg
Vogliamo sapere se è più variabile il peso delle matricole o degli scolari.
Se basassimo il confronto sulle due deviazioni standard potremmo concludere erroneamente che i
due gruppi hanno uguale variabilità.
Se invece ci affidiamo ai due coefficienti di variazione, avremo:
i. gruppo matricole:
cv1 = (4,5/70) 100 = 6,4;
ii. gruppo scolari:
cv2 = (4,5/36) 100 = 12,5.
Emerge chiaramente la diversa variabilità osservata nei due gruppi e si può concludere che la massa
corporea osservata nei più giovani è molto più variabile di quella osservata nei più anziani.
Fabio Aiello
6
Appunti di Statistica Sociale
Università “Kore” di Enna
LE MISURE DI VARIABILITÀ DI CARATTERI QUALITATIVI
Quando l’oggetto del proprio studio è un carattere qualitativo, il concetto di variabilità è inteso in
termini di mutabilità, ovvero l’attitudine di un carattere ad assumere diverse modalità qualitative.
Analogamente a quanto visto per il caso di una variabile quantitative, anche in questo caso vi è
l’esigenza di misurare la mutabilità, costruendo e applicando opportuni indici di mutabilità.
Innanzitutto, introduciamo il concetto di omogeneità di un collettivo rispetto ad un carattere e, per
converso, quello di eterogeneità. Un collettivo si dice omogeneo rispetto ad un carattere qualitativo
quando tutte le unità statistiche che lo compongono presentano la stessa modalità del carattere. Per
converso, un collettivo è tanto più eterogeneo, rispetto al carattere, quanto più le unità statistiche si
distribuiscono uniformemente tra le tutte le modalità con cui esso di manifesta. Pertanto, i due casi
estremi di variabilità per un carattere qualitativo osservato su un dato collettivo sono il caso di
omogeneità, che corrisponde al caso di variabilità nulla, e il caso di massima eterogeneità, che si
raggiunge quando le unità statistiche sono uniformemente distribuite tra tutte le modalità del
carattere, e che corrisponde alla massima variabilità osservabile.
Le misure di eterogeneità, appartenendo alla famiglia degli indici di variabilità, devono soddisfare
le due seguenti proprietà:
1. assumere valore zero quando il collettivo è omogeneo;
2. variare al variare dell’eterogeneità tra i termini.
Come già detto, gli indici di eterogeneità si calcolano per variabili poste su scala nominale o, al più,
ordinale, per le quali le uniche informazioni in formato numerico sono solo ed esclusivamente
quelle relative alle frequenze assolute, nk, o relative fk. mentre la varianza impiega sia
l’informazione relativa alle frequenze (indifferentemente nk o fk), sia quella relativa alla
determinazione quantitativa osservata del carattere (la modalità xk).
Qui di seguito illustriamo due tra gli indici di eterogeneità più utilizzati.
INDICI DI ETEROGENEITÀ DI GINI
Il primo indice di eterogeneità che consideriamo è l’indice di Gini.
Assumiamo che il carattere qualitativo in oggetto si manifesti con K modalità. L’indice di Gini, che
indichiamo con S, assume la forma:
S = 1−
K
∑
k =1
f k2
per k = 1, 2, …, K.
L’indice S assume valore zero se e solo se il collettivo è omogeneo. Infatti, in questo caso tutte le
unità statistiche sono concentrate su un’unica modalità, diciamo k, del carattere, la cui frequenza
assoluta sarà nk = N, mentre tutte le restanti (K – 1) modalità hanno frequenza zero. Da ciò discende
che le frequenze relative delle (K – 1) restanti modalità saranno tutte nulle e invece quella della
N
modalità k sarà fk =
= 1:
N
2
N
min(S) = 1 −   = 0
N
Fabio Aiello
7
Appunti di Statistica Sociale
Università “Kore” di Enna
L’indice S assume, invece, il suo valore massimo nel caso di massima eterogeneità, ovvero quando
N
le frequenze sono uniformemente distribuite tra le K modalità, ovvero nk =
∀ k.
K
In caso di massima eterogeneità, la distribuzione di frequenza avrà la seguente forma:
Modalità
x1
x2
…
xk
…
xK
nk
N /K
N /K
…
N /K
…
N /K
N
fk
1/K
1/K
…
1/K
…
1/K
1
fk2
1/K2
1/K2
…
1/K2
…
1/K2
1
K⋅ 2
K
ed è:
1
max(S) = 1 − ( K ×
K
2
) = 1−
1 K −1
=
.
K
K
L’indice di eterogeneità relativo, S*, si ottiene rapportando l’indice assoluto, S, calcolato sulla
distribuzione osservata del carattere, al max(S):
S* =
S
max( S )
Tale indice normalizzato è necessario per esprimere l’eterogeneità osservata in termini relativi alla
massima eterogeneità teorica e/o per confrontare l’eterogeneità misurata su più collettivi, soprattutto
quando il carattere qualitativo si manifesta con diverso numero di modalità nelle diverse
distribuzioni da porre a confronto.
L’INDICE DI ENTROPIA
È un altro indice di eterogeneità molto in uso. Manteniamo l’assunzione che il carattere quantitativo
si manifesti con K modalità:
K
H = − ∑ f k log( f k )
k =1
dove log(fk) è il logaritmo in base qualsiasi di fk. Anche il massimo di H si ottiene da una
distribuzione teorica massimizzante dell’eterogeneità ed è uguale a:
k 1
1
max(H) = − ∑ ⋅ log   = log k .
k
i =1 k
Fabio Aiello
8