La variabilità
Dott. Cazzaniga Paolo
Dip. di Scienze Umane e Sociali
[email protected]
Dott. Cazzaniga Paolo
La variabilità
Introduzione [1/2]
Gli indici di variabilità consentono di riassumere le principali
caratteristiche di una distribuzione (assieme alle medie)
Le medie sono rappresentative solo nel caso in cui le unità statistiche
presentano modalità “vicine” a questi indici di posizione
Distribuzioni con medie di uguale valore presentano caratteristiche
diverse:
X = {160, 161, 164, 190, 195}
Y = {167, 166, 174, 178, 185}
Z = {174, 174, 174, 174, 174}
Media aritmetica = 174
Un singolo valore di sintesi non consente di descrivere appieno la
distribuzione di un carattere
Dott. Cazzaniga Paolo
La variabilità
Introduzione [1/2]
Distribuzioni caratterizzate dalla stessa media aritmetica possono
avere una diversa variabilità:
Dott. Cazzaniga Paolo
La variabilità
Variabilità [1/2]
Variabilità V (x): misura che esprime la tendenza delle unità di un
collettivo ad assumere diverse modalità del carattere x
V (x) = 0 se tutte le unità presentano la stessa modalità del
carattere (distribuzione degenere)
V (x) > 0 la variabilità aumenta all’aumentare della diversità tra
le modalità assunte dalle unità
V (x + c) = V (x) + c: aggiungendo una costante c ai valori di X
la variabilità non cambia
Se V (x) > V (y ) allora il carattere X è più variabile di Y
Dott. Cazzaniga Paolo
La variabilità
Variabilità [2/2]
Esistono diverse categorie di indici di variabilità:
indici di dispersione rispetto a una media
indici di disuguaglianza a coppie (mutua variabilità o variabilità
reciproca)
indici di mutabilità che misurano l’omogeneità/eterogeneità tra le
modalità di una distribuzione di frequenza
Che possono essere ulteriormente classificati in:
assoluti
usano la stessa unità di misura della modalità della distribuzione
non permettono confronti tra distribuzioni statistiche con unità di
misura diverse
relativi
si ottengono rapportando un indice assoluto al suo massimo o ad
una media
non hanno unità di misura
permettono confronti tra distribuzioni
Dott. Cazzaniga Paolo
La variabilità
Variabilità rispetto alla media
Servono a misurare se esiste una “certa stabilità” dei valori assunti
dalle unità rispetto alla misura di tendenza centrale
Si basano sul concetto di scarto o scostamento rispetto alla media
varianza
devianza
scarto quadratico medio o deviazione standard
scostamento semplice dalla media
Dott. Cazzaniga Paolo
La variabilità
Varianza
Variabilità rispetto alla media
Rappresenta il valore medio degli scarti al quadrato dalla media
Viene calcolata come:
n
σ2 =
1X
2
(xi − x̄)
n
i=1
Nel caso di distribuzioni di frequenza:
σ2 =
k
k
j=1
j=1
X
1X
2
2
(xj − x̄) nj =
(xj − x̄) fj
n
dove nj e fj sono rispettivamente le frequenze assolute e relative della
j-esima modalità
Dott. Cazzaniga Paolo
La variabilità
Varianza e Devianza
La varianza può essere calcolata anche come:
n
σ2 =
1X 2
xi − x̄ 2
n
i=1
La devianza è la somma degli scarti al quadrato dalla media
Viene calcolata come:
Dev (x) =
n
X
(xi − x̄)
i=1
E’ il numeratore della varianza σ 2
Dott. Cazzaniga Paolo
La variabilità
2
Scarto quadratico medio o deviazione standard [1/2]
Per avere una misura con la stessa unità di misura dei dati, viene
spesso usata la deviazione standard
La deviazione standard è la radice quadrata della media degli scarti
delle unità dalla loro media, per questo viene anche chiamata scarto
quadratico medio
Corrisponde alla radice quadrata della varianza e viene calcolato
come:
v
u
n
u1 X
2
(xi − x̄)
σ=t
n
i=1
Nel caso di distribuzioni di frequenza viene calcolato come:
v
v
u k
u k
uX
u1 X
2
2
t
(xj − x̄) nj = t
(xj − x̄) fj
σ=
n
j=1
Dott. Cazzaniga Paolo
j=1
La variabilità
Scostamento semplice dalla media
Scostamento semplice medio dalla media:
n
SM =
1X
|xi − x̄|
n
i=1
ovvero la media degli scarti (in valore assoluto) dalla media x̄
Scostamento semplice dalla mediana:
n
SMe =
1X
|xi − Me|
n
i=1
ovvero la media degli scarti (in valore assoluto) dalla mediana Me
Per le proprietà della media aritmetica, vale la relazione SM ≥ SMe
Dott. Cazzaniga Paolo
La variabilità
Coefficiente di variazione
σ 2 , Dev , σ, SM e SMe sono indici di variabilità assoluta
Assumono valori in una scala dipendente dall’unità di misura e
dall’intervallo di valori della variabile a cui sono associati
Per questo è difficile confrontare distribuzioni diverse
E’ quindi possibile costruire indici di variabilità relativa
coefficiente di variazione CV
ottenuto rapportando la deviazione standard alla media:
σ
CV =
|x̄|
CV è un numero puro che viene spesso espresso in forma
percentuale
CV è una misura proporzionale della variabilità rispetto alla
media
Dott. Cazzaniga Paolo
La variabilità
Altri indici di variabilità
Dato un insieme di n valori ordinati x1 , x2 , . . . , xn
Range:
Calcolato come R = xn − x1
Indice molto semplice da calcolare
Non fornisce indicazioni precise, soprattutto nel caso di valori
anomali nella distribuzione
Differenza interquartile:
Calcolata come distanza tra terzo e primo quartile DI = Q3 − Q1
Indice semplice da calcolare, esclude eventuali valori anomali
Se DI è piccola, allora la metà dei valori si trova concentrata
intorno alla mediana
All’aumentare di DI aumenta quindi la dispersione del 50% dei
valori intorno alla mediana
Dott. Cazzaniga Paolo
La variabilità
Rappresentazione grafica [1/3]
La descrizione di un carattere tramite indice di posizione (ad es.
media) dovrebbe essere sempre accompagnato da un indice di
variabilità
Box-plot:
realizzabile per caratteri quantitativi o qualitativi ordinabili
è composto da:
una scatola con un segmento orizzontale che identifica la mediana
o la media
un box che rappresenta la variabilità della distribuzione (50%
centrale della distribuzione)
due segmenti che identificano gli intervalli in cui sono presenti i
valori < Q1 e > Q3
eventuali valori anomali esterni individuati come Q1 − (α × DI) e
Q3 + (α × DI), con α = 1, 5
Dott. Cazzaniga Paolo
La variabilità
Rappresentazione grafica [2/3]
Informazioni date dal box-plot:
distanze tra la mediana e i quartili descrivono la forma della
distribuzione (simmetria/asimmetria)
valori adiacenti inferiori e superiori forniscono informazioni sulla
dispersione e sulle code della distribuzione
Per disegnare un box-plot:
1
ordinare i dati
2
calcolare la mediana, il primo e il terzo quartile
3
identificare i valori massimo e minimo
Dott. Cazzaniga Paolo
La variabilità
Rappresentazione grafica [3/3]
Dott. Cazzaniga Paolo
La variabilità
Indici di mutua variabilità [1/4]
Permettono di effettuare confronti a coppie tra le diverse modalità
assunte dalle unità del collettivo
Differenza semplice media senza ripetizione:
n
n
XX
1
|xi − xj |
∆=
n(n − 1)
i=1 j=1
dove i, j = 1, . . . , n e i 6= j. Ovvero la media aritmetica delle differenze
(in valore assoluto) di tutte le coppie di termini distinti
Differenza semplice media con ripetizione:
∆R =
n
n
1 XX
|xi − xj |
n2
i=1 j=1
vengono considerate tutte le coppie, anche quelle formate da una
modalità con sé stessa
Dott. Cazzaniga Paolo
La variabilità
Indici di mutua variabilità [2/4]
Nel caso di distribuzioni di frequenza, sapendo che il numero di
coppie è pari a ni nj :
n
∆=
n
XX
1
|xi − xj | ni nj
n(n − 1)
i=1 j=1
∆R =
n
n
1 XX
|xi − xj | ni nj
n2
i=1 j=1
La relazione tra i due indici è la seguente:
∆ = ∆R
Dott. Cazzaniga Paolo
n
n−1
La variabilità
Indici di mutua variabilità [3/4]
∆ e ∆R assumono valore 0 quando tutti i dati sono uguali
∆ e ∆R assumono valore massimo quando (n − 1) valori sono
pari a 0 tranne l’n-esimo
Un indice normalizzato (tra 0 e 1, ovvero una percentuale) può
essere ottenuto come segue:
dividendo ∆ per il suo massimo teorico 2x̄
R = ∆/2x̄ viene chiamato rapporto di concentrazione
Dott. Cazzaniga Paolo
La variabilità
Indici di mutua variabilità [4/4]
Differenza quadratica media senza e con ripetizione:
v
v
u
u X
n X
n
n
X
u
u1 n X
1
∆2 = t
|xi − xj |, ∆2R = t 2
|xi − xj |
n(n − 1)
n
i=1 j=1
i=1 j=1
Si può inoltre dimostrare che:
∆2 = σ
2n ∼ √
=σ 2
n−1
Dott. Cazzaniga Paolo
La variabilità
r
La concentrazione [1/3]
Misura specifica dei caratteri quantitativi e trasferibili
Dato un insieme di n valori 0 ≤ x1 ≤ x2 ≤ · · · ≤ xn
La ricchezza complessiva del carattere è An = x1 + x2 + · · · + xn
Se tutte le unità hanno lo stesso ammontare di ricchezza An /n,
allora c’è assenza di concentrazione
Se (n − 1) unità hanno 0 e l’n-esima possiede tutta la ricchezza,
allora concentrazione è massima
Per le situazioni intermedie si considerano:
la frequenza cumulata Fi delle prime i unità
i
la quota del carattere Qi = x1 +x2A+···+x
= AAni posseduta dalle prime
n
i unità
in generale Fi ≥ Qi
Dott. Cazzaniga Paolo
La variabilità
La concentrazione [2/3]
Curva di Lorenz
Asse delle ascisse (asse x): frequenze cumulate relative Fi
Asse delle ordinate (asse y ): quantità cumulate relative Qi
Dott. Cazzaniga Paolo
La variabilità
La concentrazione [3/3]
Curva di Lorenz: equidistribuzione e massima concentrazione
Dott. Cazzaniga Paolo
La variabilità
Indici di mutabilità
Attitudine dei caratteri qualitativi ad assumere differenti modalità
Esempio: colore degli occhi
Dott. Cazzaniga Paolo
La variabilità
Indici di omogeneità [1/2]
L’indice di omogeneità viene definito a partire dalle frequenze relative
fj di una distribuzione come:
O1 = f12 + f22 + · · · + fk2 =
k
X
fj2
j=1
aumenta se le frequenze sono concentrate su poche modalità
aumenta al diminuire del numero di modalità
il valore è massimo quando una sola modalità ha frequenza
relativa fj = 1
il valore minimo è O1 = 1/k , quando tutte le frequenze sono
uguali tra loro
Il risultato dipende dal numero di modalità del carattere
Dott. Cazzaniga Paolo
La variabilità
Indici di omogeneità [2/2]
Indice di omogeneità relativo:
O1_rel =
k
(O1 )
k −1
assume valore 1 quando tutti i casi si trovano nella stessa
categoria
assume valore 0 quando tutte le modalità hanno uguale
frequenza
Entropia:
O2 = −
k
X
fj log(fj )
j=1
assume valore 0 nel caso di massima omogeneità
assume valore −log(k ) nel caso di minima omogeneità
Dott. Cazzaniga Paolo
La variabilità
Indici di eterogeneità
Calcolati come complemento a uno degli indici di omogeneità:
Indice di eterogeneità:
E1 = 1 −
k
X
fj2
j=1
Indice relativo di eterogeneità:
k
E1
k −1
E1_rel =
Indice di eterogeneità (rispetto all’entropia):
E2 = 1 −
k
X
fj log(fj )
j=1
Indice relativo di eterogeneità:
E2_rel =
Dott. Cazzaniga Paolo
E2
log(k )
La variabilità
La forma di una distribuzione [1/3]
Caratteristiche di una distribuzione:
asimmetria
curtosi
Una distribuzione è simmetrica quando il ramo destro della
distribuzione può essere ribaltato e perfettamente sovrapposto a
quello sinistro
La differenza tra media, mediana e moda:
fornisce una misura assoluta riguardo alla simmetria di una
distribuzione
non permette di fare confronti tra fenomeni diversi
Dott. Cazzaniga Paolo
La variabilità
La forma di una distribuzione [2/3]
Indice di asimmetria di Pearson (skewness):
misura relativa e quantitativa del grado di asimmetria di una
distribuzione
viene calcolato come:
Sk =
x̄ − Mo ∼ 3(x̄ − Me)
=
σ
σ
Indice di Fisher:
assume valori positivi (negativi) nel caso di asimmetria positiva
(negativa)
assume valori nulli in caso di simmetria
l’indice nullo è una condizione necessaria ma non sufficiente per
avere simmetria
viene calcolato come:
n
γ1 =
1X
n
i=1
Dott. Cazzaniga Paolo
xi − x̄
σ
3
La variabilità
La forma di una distribuzione [3/3]
Curtosi o disnormalità:
rileva quanto una distribuzione è piatta o appuntita rispetto alla
distribuzione normale
distribuzioni piatte con code ampie sono dette platicurtiche
distribuzioni appuntite con code piccole sono dette leptocurtiche
la distribuzione normale è mesocurtica o normocurtica
Dott. Cazzaniga Paolo
La variabilità
Ricapitolando
Popolazione
Moda
Campione rappresentativo
della popolazione
Indagine
Medie di posizione
Mediana
Quartili
Dati primari (ottenuti tramite
indagini)
Collezionare dati
Media aritmetica
Dati secondari (ottenuti
tramite altre fonti)
Misure di sintesi
Medie analitiche
Media geometrica
Dati
Media armonica
Dati qualitativi
Discreti
Range
Dati quantitativi
Statistica
Continui
Boxplot
Varianza
Devianza
Variabilità
Deviazione standard
Rappresentazione grafica
Scostamento semplice dalla
media
Diagramma a barre
Istogramma
Dott. Cazzaniga Paolo
La variabilità
Dove studio questi argomenti?
Capitolo 9 del libro!
Dott. Cazzaniga Paolo
La variabilità