Forma della distribuzione
Un’importante caratteristica di un insieme di dati è quella che viene indicata come forma della
distribuzione. In particolare una distribuzione si dice simmetrica se è possibile individuare un asse
verticale che tagli la distribuzione in due parti specularmente uguali, in caso contrario la
distribuzione è detta asimmetrica (o obliqua).
Per ottenere una prima indicazione sulla asimmetria di una distribuzione è sufficiente confrontare
media e mediana. Salvo casi particolari, se queste misure sono pressoché uguali i dati tendono a
distribuirsi in modo simmetrico. Se la distribuzione è simmetrica media e mediana coincidono, non
vale però in generale l’implicazione inversa. Se la media supera la mediana (ad esempio per la
presenza di valori estremamente elevati) si parla di asimmetria positiva (obliqua a destra), mentre
se la mediana supera la media (ad esempio per la presenza valori estremamente bassi) si parla di
asimmetria negativa (obliqua a sinistra).
La rappresentazione grafica dei dati considerati risulta utile per indagare la forma della
distribuzione considerata. Nella figura sottostante rappresentiamo rispettivamente il caso di
variabile con asimmetria positiva (A), simmetrica (B) e con asimmetria negativa (C).
Figura 7
A) Media>Mediana
B) Media = Mediana
C) Media<Mediana
In presenza di dati simmetrici la distanza tra Q1 (primo quartile) e mediana è pari alla distanza tra
mediana e Q3 (terzo quartile). Bisogna notare, tuttavia, che pur valendo tale condizione non è detto
che la distribuzione delle frequenze sia simmetrica. Si tratta dunque di una condizione necessaria
ma non sufficiente.
Si supponga di avere a disposizione le seguenti osservazioni
x*
Frequenze assolute
1
2
2
4
3
6
4
8
5
10
Totale 30
Rappresentando graficamente i dati si osserva che la distribuzione è asimmetrica, nonostante questo
considerando i quartili si ottiene Q1=3, Me=4 e Q3=5 e quindi Me-Q1=Q3-Me=1.
In presenza di dati asimmetrici si ha che:
1) nelle distribuzioni con asimmetria positiva la mediana è più piccola della media.
2) nelle distribuzioni con asimmetria negativa la mediana è più grande della media.
Un ulteriore grafico che permette di indagare la forma è il box plot o grafico a scatola.
Questo grafico è costruito nel seguente modo:
•
si devono calcolare i tre quartili della distribuzione: Q1 (primo quartile), Q2 = Me (secondo
quartile che coincide con la mediana), Q3 (terzo quartile).
•
su un asse orientato, si individua un rettangolo (scatola/box) i cui estremi sono costituiti,
rispettivamente, dal primo e dal terzo quartile, e la cui lunghezza è rappresentata,
evidentemente, dalla differenza interquartile DI=Q3-Q1;
•
il rettangolo (scatola) viene suddiviso in due parti da un segmento che delimita la posizione
della mediana;
•
si individuano i due valori T1 = max(valore minimo, q1-1.5DI) e T2 = min(valore massimo,
q3+1.5DI).
•
si tracciano due linee esterne alla scatola, dette baffi (whiskers), per questo motivo il
diagramma è detto anche box and whiskers plot. I baffi sono delimitati, rispettivamente, dai T1 e T2
calcolati in precedenza.
Le osservazioni il cui valore è più piccolo di T1 o più grande di T2 vengono considerate come dati
anomali (outlier).
Un Box-plot può essere costruito sia orientando la scatola in senso orizzontale (come in Figura 1)
che in senso verticale
Figura 1
q1
Me
q3
outlier
* *
T1
T2
L'esame del box plot permette di identificare l’eventuale asimmetria della distribuzione considerata
(si veda Figura 2).
Figura 2
A) Asimmetria positiva
B) Simmetrica
C) Asimmetria negativa