Forma della distribuzione Un’importante caratteristica di un insieme di dati è quella che viene indicata come forma della distribuzione. In particolare una distribuzione si dice simmetrica se è possibile individuare un asse verticale che tagli la distribuzione in due parti specularmente uguali, in caso contrario la distribuzione è detta asimmetrica (o obliqua). Per ottenere una prima indicazione sulla asimmetria di una distribuzione è sufficiente confrontare media e mediana. Salvo casi particolari, se queste misure sono pressoché uguali i dati tendono a distribuirsi in modo simmetrico. Se la distribuzione è simmetrica media e mediana coincidono, non vale però in generale l’implicazione inversa. Se la media supera la mediana (ad esempio per la presenza di valori estremamente elevati) si parla di asimmetria positiva (obliqua a destra), mentre se la mediana supera la media (ad esempio per la presenza valori estremamente bassi) si parla di asimmetria negativa (obliqua a sinistra). La rappresentazione grafica dei dati considerati risulta utile per indagare la forma della distribuzione considerata. Nella figura sottostante rappresentiamo rispettivamente il caso di variabile con asimmetria positiva (A), simmetrica (B) e con asimmetria negativa (C). Figura 7 A) Media>Mediana B) Media = Mediana C) Media<Mediana In presenza di dati simmetrici la distanza tra Q1 (primo quartile) e mediana è pari alla distanza tra mediana e Q3 (terzo quartile). Bisogna notare, tuttavia, che pur valendo tale condizione non è detto che la distribuzione delle frequenze sia simmetrica. Si tratta dunque di una condizione necessaria ma non sufficiente. Si supponga di avere a disposizione le seguenti osservazioni x* Frequenze assolute 1 2 2 4 3 6 4 8 5 10 Totale 30 Rappresentando graficamente i dati si osserva che la distribuzione è asimmetrica, nonostante questo considerando i quartili si ottiene Q1=3, Me=4 e Q3=5 e quindi Me-Q1=Q3-Me=1. In presenza di dati asimmetrici si ha che: 1) nelle distribuzioni con asimmetria positiva la mediana è più piccola della media. 2) nelle distribuzioni con asimmetria negativa la mediana è più grande della media. Un ulteriore grafico che permette di indagare la forma è il box plot o grafico a scatola. Questo grafico è costruito nel seguente modo: • si devono calcolare i tre quartili della distribuzione: Q1 (primo quartile), Q2 = Me (secondo quartile che coincide con la mediana), Q3 (terzo quartile). • su un asse orientato, si individua un rettangolo (scatola/box) i cui estremi sono costituiti, rispettivamente, dal primo e dal terzo quartile, e la cui lunghezza è rappresentata, evidentemente, dalla differenza interquartile DI=Q3-Q1; • il rettangolo (scatola) viene suddiviso in due parti da un segmento che delimita la posizione della mediana; • si individuano i due valori T1 = max(valore minimo, q1-1.5DI) e T2 = min(valore massimo, q3+1.5DI). • si tracciano due linee esterne alla scatola, dette baffi (whiskers), per questo motivo il diagramma è detto anche box and whiskers plot. I baffi sono delimitati, rispettivamente, dai T1 e T2 calcolati in precedenza. Le osservazioni il cui valore è più piccolo di T1 o più grande di T2 vengono considerate come dati anomali (outlier). Un Box-plot può essere costruito sia orientando la scatola in senso orizzontale (come in Figura 1) che in senso verticale Figura 1 q1 Me q3 outlier * * T1 T2 L'esame del box plot permette di identificare l’eventuale asimmetria della distribuzione considerata (si veda Figura 2). Figura 2 A) Asimmetria positiva B) Simmetrica C) Asimmetria negativa