Esercitazione 6 A. Iodice La forma di una distribuzione Esercitazione 6 Statistica Indici di asimmetria Il box-plot box-plot e valori anomali Alfonso Iodice D’Enza [email protected] Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate Università degli studi di Cassino A. Iodice () Esercitazione 6 Statistica 1 / 19 Outline Esercitazione 6 A. Iodice La forma di una distribuzione 1 La forma di una distribuzione 2 Indici di asimmetria 3 Il box-plot 4 box-plot e valori anomali 5 Confronto grafico istogramma/ box-plot 6 Indice di asimmetria per variabili qualitative ordinate Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 2 / 19 La forma di una distribuzione Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot Due distribuzioni aventi stessa posizione e variabilità possono differire per forma. In altre parole, la forma dipende dal valore delle modalità più piccole (o più grandi) del valore centrale della distribuzione. box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 3 / 19 La forma di una distribuzione Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Due distribuzioni aventi stessa posizione e variabilità possono differire per forma. In altre parole, la forma dipende dal valore delle modalità più piccole (o più grandi) del valore centrale della distribuzione. Aspetti che caratterizzano la forma di una distribuzione sono asimmetria Confronto grafico istogramma/ box-plot curtosi Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 3 / 19 La forma di una distribuzione Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Due distribuzioni aventi stessa posizione e variabilità possono differire per forma. In altre parole, la forma dipende dal valore delle modalità più piccole (o più grandi) del valore centrale della distribuzione. Aspetti che caratterizzano la forma di una distribuzione sono asimmetria Confronto grafico istogramma/ box-plot curtosi Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 3 / 19 Asimmetria Esercitazione 6 distribuzione simmetrica rettangolare A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 4 / 19 Asimmetria Esercitazione 6 distribuzione simmetrica campanulare A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 4 / 19 Asimmetria Esercitazione 6 distribuzione asimmetrica positiva A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 4 / 19 Asimmetria Esercitazione 6 distribuzione asimmetrica negativa A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 4 / 19 Esercizio: confronto tra distribuzioni Esercitazione 6 A. Iodice Si considerino tre studenti, X, Y e Z che nei primi 9 esami hanno riportato i seguenti voti: X 18 20 21 23 25 26 27 27 30 La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate Y 22 23 24 24 25 27 29 29 30 Z 21 22 23 24 25 26 27 28 29 misurare la tendenza centrale, la variabilità e la forma della distribuzione dei voti di ciascun studente; utilizzare un opportuno strumento grafico per confrontare le tre distribuzioni. A. Iodice () Esercitazione 6 Statistica 5 / 19 Indici di asimmetria Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria indice normalizzato di asimmetria A Tale indice la versione normalizzata della differenza tra media e mediana, dal momento che σ risulta essere in qualunque caso tale che σ ≥ µ − M e Il box-plot A= box-plot e valori anomali Confronto grafico istogramma/ box-plot µ − Me σ Tale indice varia nell’intervallo [−1, 1]. Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 6 / 19 Indici di asimmetria Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria indice normalizzato di asimmetria A Tale indice la versione normalizzata della differenza tra media e mediana, dal momento che σ risulta essere in qualunque caso tale che σ ≥ µ − M e Il box-plot A= box-plot e valori anomali Confronto grafico istogramma/ box-plot µ − Me σ Tale indice varia nell’intervallo [−1, 1]. se A > 0 allora la distribuzione asimmetrica positiva Indice di asimmetria per variabili qualitative ordinate se A < 0 allora la distribuzione asimmetrica negativa se A = 0 allora la distribuzione simmetrica A. Iodice () Esercitazione 6 Statistica 6 / 19 Indici di asimmetria Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Standardizzazione di una variabile L’operazione di standardizzazione consiste nel sottrarre a ciascuna modalita xi la media µ, dividendo poi per lo scarto quadratico medio σ. Tale operazione consente il confronto tra distribuzioni con medie e varianze diverse. Confronto grafico istogramma/ box-plot zi = xi − µ σ Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 7 / 19 Indici di asimmetria Esercitazione 6 A. Iodice La forma di una distribuzione indice di asimmetria di Fisher γ n n i=1 i=1 1X 1X γ= (zi )3 = n n Indici di asimmetria Il box-plot xi − µ σ 3 box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 8 / 19 Indici di asimmetria Esercitazione 6 A. Iodice La forma di una distribuzione indice di asimmetria di Fisher γ n n i=1 i=1 1X 1X γ= (zi )3 = n n Indici di asimmetria Il box-plot xi − µ σ 3 box-plot e valori anomali se γ > 0 allora la distribuzione asimmetrica positiva Confronto grafico istogramma/ box-plot se γ < 0 allora la distribuzione asimmetrica negativa se γ = 0 allora la distribuzione simmetrica Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 8 / 19 Esercizio: confronto tra distribuzioni Esercitazione 6 Si considerino tre studenti, X, Y e Z che nei primi 9 esami hanno riportato i seguenti voti: misurare la tendenza centrale, la variabilità e la forma della distribuzione dei voti di ciascun studente; A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali xi 18 20 21 23 25 26 27 27 30 217 Confronto grafico istogramma/ box-plot yi 22 23 24 24 25 27 29 29 30 233 P µx = Indice di asimmetria per variabili qualitative ordinate zi 21 22 23 24 25 26 27 28 29 225 (xi ) n rP σx = rP σy = rP σz = A. Iodice () scxi = (xi − µx )2 37.346 16.901 9.679 1.235 0.790 3.568 8.346 8.346 34.679 120.89 = 217 = 24.11, µy = 9 (xi −µx )2 n (yi −µy )2 n (zi −µz )2 n = = = q 120.89 9 q 68.89 9 q 60 9 = = = √ scyi = (yi − µy )2 15.123 8.346 3.568 3.568 0.790 1.235 9.679 9.679 16.901 68.89 P (yi ) n √ √ sczi = (zi − µz )2 16 9 4 1 0 1 4 9 16 60 = 233 = 25.89, µz = 9 P (zi ) n = 225 = 25 9 13.43 = 3.66, 7.65 = 2.76, 6.67 = 2.58 Esercitazione 6 Statistica 9 / 19 Indici di asimmetria Esercitazione 6 A. Iodice La forma di una distribuzione calcolo dell’indice normalizzato di asimmetria A A= Indici di asimmetria µ − Me σ Il box-plot box-plot e valori anomali Ax = Confronto grafico istogramma/ box-plot Ay = Az = Indice di asimmetria per variabili qualitative ordinate A. Iodice () µx −M ex σx µy −M ey σy µz −M ez σz = 24.11−25 3.66 25.89−25 2.76 = 25−25 2.58 = = −0.242 = 0.321 =0 Esercitazione 6 Statistica 10 / 19 Indice di asimmetria di Fisher γ Esercitazione 6 calcolo indice γ A. Iodice γ = La forma di una distribuzione Sx -1.67 -1.12 -0.85 -0.30 0.24 0.52 0.79 0.79 1.61 Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate P γz = A. Iodice () Sz -1.55 -1.16 -0.77 -0.39 0.00 0.39 0.77 1.16 1.55 = −1.41 = −0.156 9 (yi −µy ) n = 1.604 = 0.178 9 (zi −µz ) n = 0 =0 9 P P Sy -1.41 -1.04 -0.68 -0.68 -0.32 0.40 1.12 1.12 1.49 (xi −µx ) n γx = γy = n n 1 X xi − µ 3 1 X 3 (zi ) = n i=1 n i=1 σ Esercitazione 6 3 Sx -4.64 -1.41 -0.61 -0.03 0.01 0.14 0.49 0.49 4.15 -1.41 3 Sy -2.78 -1.14 -0.32 -0.32 -0.03 0.06 1.42 1.42 3.28 1.6 3 Sz -3.72 -1.57 -0.46 -0.06 0.00 0.06 0.46 1.57 3.72 0 Statistica 11 / 19 Il box-plot Esercitazione 6 A. Iodice La forma di una distribuzione Il grafico a scatola (box-plot) è una particolare rappresentazione di una distribuzione: gli elementi utilizzati per costruire la scatola sono i quantili e gli estremi della distribuzione. Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 12 / 19 Confronto grafico tra distribuzioni: box-plot Esercitazione 6 confrontare graficamente le tre distribuzioni A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate minx = 18, maxx = 30, Q1 = 21, Q2 = 25, Q3 = 27 miny = 22, maxy = 30, Q1 = 24, Q2 = 25, Q3 = 27 minz = 21, maxz = 29, Q1 = 23, Q2 = 25, Q3 = 29 A. Iodice () Esercitazione 6 Statistica 13 / 19 Costruzione di un box plot Esercitazione 6 A. Iodice Si consideri la seguente distribuzione di frequenze La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 14 / 19 Costruzione di un box plot Esercitazione 6 La rappresentazione evidenzia la presenza di un valore anomalo A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 14 / 19 Costruzione di un box plot Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 14 / 19 Costruzione di un box plot Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 14 / 19 Costruzione di un box plot Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria I valori anomali, che quindi non parteciano alla costruzione della scatola, vengono determinati dal confronto con il campo di variazione interquartile. In particolare vengono considerate due soglie: Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 15 / 19 Costruzione di un box plot Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria I valori anomali, che quindi non parteciano alla costruzione della scatola, vengono determinati dal confronto con il campo di variazione interquartile. In particolare vengono considerate due soglie: Q1 − 1, 5 × (Q3 − Q1 ) Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot rappresenta il valore al di sotto del quale una modalità considerata outlier Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 15 / 19 Costruzione di un box plot Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria I valori anomali, che quindi non parteciano alla costruzione della scatola, vengono determinati dal confronto con il campo di variazione interquartile. In particolare vengono considerate due soglie: Q1 − 1, 5 × (Q3 − Q1 ) Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate rappresenta il valore al di sotto del quale una modalità considerata outlier Q3 + 1, 5 × (Q3 − Q1 ) rappresenta il valore al di sopra del quale una modalità considerata outlier A. Iodice () Esercitazione 6 Statistica 15 / 19 Box plot e istogramma Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 16 / 19 Box plot e istogramma Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 16 / 19 Box plot e istogramma Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 16 / 19 Box plot e istogramma Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 16 / 19 Box plot e istogramma Esercitazione 6 A. Iodice La forma di una distribuzione Indici di asimmetria Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Indice di asimmetria per variabili qualitative ordinate A. Iodice () Esercitazione 6 Statistica 16 / 19 Indice di asimmetria per variabili qualitative ordinate Esercitazione 6 A. Iodice La forma di una distribuzione Nel caso di variabili qualitative ordinali, è possibile misurare l’asimmetria attraverso un indice costruito sulla base della dispersione D. L’indice D L’indice D per il calcolo della dispersione in variabili qualitative ordinali si basa sulle frequenze cumulate Fj e retrocumulate RFj , con j = 1, . . . , k, dove k è il numero di modalità della variabile. Ricordando che la frequenza relativa cumulata Fj e quella retrocumulata RFj della j-esima modalità sono date rispettivamente da: Indici di asimmetria Il box-plot Fj = f1 + f2 + . . . + fj e RFj = fj + fj+1 + . . . + fK ; L’indice D è il seguente: box-plot e valori anomali D= k X Fj (1 − Fj ) + RFj (1 − RFj ) j=1 Confronto grafico istogramma/ box-plot indice di asimmetria A Indice di asimmetria per variabili qualitative ordinate Tale indice si basa sul confronto tra la dispersione che caratterizza la distribuzione delle modalità che si trovano alla sinistra di quella centrale e quella delle variabili alla destra di quelle centrali. A= Dd − Ds Dd + Ds dove Dd è la dispersione a dx e Ds quella a sx A. Iodice () Esercitazione 6 Statistica 17 / 19 Indice di asimmetria per variabili qualitative ordinate Esercitazione 6 t.studio analf abeta lic.elementare lic.media diploma laurea tot A. Iodice La forma di una distribuzione absF reqs 5 5 3 3 4 20 relF reqs 0.25 0.25 0.15 0.15 0.2 1.00 Fj 0.25 0.50 0.65 0.80 1.00 RFj 1.00 0.75 0.50 0.35 0.20 Indici di asimmetria Il box-plot Esempio di calcolo dell’indice A box-plot e valori anomali Per effettuare il calcolo dell’indice bisogna individuare le modalità della parte destra della distribuzione e quelle della parte sinistra. Poichè N è pari, N = 10. Dunque le modalità della parte sinistra sono {1, 2}, 2 quelle della parte destra sono {3, 4, 5}. 2 X Ds = Fj (1 − Fj ) + RFj (1 − RFj ) = Confronto grafico istogramma/ box-plot j=1 = [0.25(1 − 0.25) + 1(1 − 1)] + [0.5(1 − 0.5) + 0.75(1 − 0.75)] = 0.625 Indice di asimmetria per variabili qualitative ordinate Dd = 5 X Fj (1 − Fj ) + RFj (1 − RFj ) = j=3 = [0.65(1 − 0.65) + 0.5(1 − 0.5)] + [0.8(1 − 0.8) + 0.35(1 − 0.35)] + + [1(1 − 1) + 0.2(1 − 0.2)] = 1.025 A. Iodice () Esercitazione 6 Statistica 18 / 19 Indice di dispersione per variabili qualitative ordinate Esercitazione 6 A. Iodice t.studio analf abeta lic.elementare lic.media diploma laurea tot La forma di una distribuzione Indici di asimmetria absF reqs 5 5 3 3 4 20 relF reqs 0.25 0.25 0.15 0.15 0.2 1.00 Fj 0.25 0.50 0.65 0.80 1.00 RFj 1.00 0.75 0.50 0.35 0.20 Il box-plot box-plot e valori anomali Confronto grafico istogramma/ box-plot Esempio di calcolo dell’indice A Per effettuare il calcolo dell’indice bisogna individuare le modalità della parte destra della distribuzione e = 10. Dunque le modalità della parte sinistra sono {1, 2}, quelle della parte sinistra. Poichè N è pari, N 2 quelle della parte destra sono {3, 4, 5}. Indice di asimmetria per variabili qualitative ordinate A= A. Iodice () Dd − Ds Dd + Ds = 1.025 − 0.625 1.025 + 0.625 Esercitazione 6 = 0.4 1.65 = 0.24 Statistica 19 / 19