Indici di variabilità Gli indici di variabilità misurano 1) la dispersione (rispetto alla posizione) 2) la variabilità x 10 x 10 Gli indici di posizione sono tanto più rappresentativi quanto minore è la dispersione dei dati intorno ad essi. La variabilità è l’attitudine delle osservazioni ad esse diverse l’una dall’altra Voti Master Studente Matematica A 25 B 23 C 25 B 25 E 28 F 28 G 26 H 25 I 26 L 22 M 26 N 22 O 20 P 27 Algebra 24 24 24 24 27 24 24 24 27 21 27 21 24 24 Probabilità Inferenza 28 24 24 25 30 27 27 23 26 28 26 24 26 28 25 26 27 25 25 21 23 26 20 20 25 24 30 25 La varianza Dati n valori x1 , x2, , xn con media x , la la varianza è definita come segue n 1 2 2 s xi x n i1 Essa indica qual è la concentrazione delle osservazioni intorno alla media, fornendo indicazioni sull’ordine di grandezza degli scarti. s2 x(2) x 2 dove x(2) 1 n 2 xi n i1 Scarto quadratico medio s 2 Esempio 4.1 - Varianza Dati: (1, 2, 5, 6, 7, 9) x 5 1. Media dei quadrati degli scarti 1 s (1 5)2 (2 5)2 (5 5)2 6 (6 5)2 (7 5)2 (9 5)2 7.67 2 2. Differenza fra la media dei quadrati e il quadrato della media 1 x2 12 22 52 62 7 2 92 32.67 6 s2 32.67 52 7.67 Scarto quadratico medio 7.67 2.77 Varianza da distribuzione di frequenza X assume k valori x1, x2, …, xk con frequenze n1, n2, …, nk 1. 2. k 1 2 2 s xi x ni n i1 s2 x(2) x 2 1 k 2 dove x(2) xi ni n i1 Esempio 4.2 – Varianza Voti in algebra Tabella 4.2 – Calcolo della varianza dei voti in Algebra. 2 2 xi xi x ni xi x xi x ni 21 24 27 Totale 2 9 3 14 -3.21 -0.21 2.79 10.3041 0.0441 7.7841 k 20.6082 0.3969 23.3523 44.3574 x x i1 2 i ni 1 k 1 2 s xi x ni 44.3574 n i1 14 3.17 2 Scarto quadratico medio 3.17 1.78 Esempio 4.2 – Varianza dei voti in Probabilità Tabella 4.3 quadrati dei voti yi ni 20 1 23 1 24 1 25 3 26 3 27 2 28 1 30 2 Totale 14 y(2) – Media dei in Probabilità. yi2 yi2ni 400 400 529 529 576 576 625 1875 676 2028 729 1458 784 784 900 1800 9450 1 k 2 9450 yi ni 675 n i1 14 s2 y(2) y 2 675 25.862 6.26 Scarto quadratico 6.26 2.50 medio k 2 y i ni i1 Varianza da dati raggruppati in classi k classi (x0 – x1), (x1 – x2), , (xk-1 – xk) con frequenze n1, n2, , nk e valori centrali x1 , x2 , … , xk 1. s2 1 k 2 xi x ni n i1 s x(2) x 1 k 2 dove x(2) xi ni n i1 2. 2 2 Esempio 4.3 – varianza rendimenti Tabella 4.4 – Calcolo della varianza per i rendimenti . Classi xi ni xi x - 1.0 |– 1.0 1.0 |– 2.0 2.0 |– 3.0 3.0 |– 4.0 4.0 |– 6.0 6.0 |– 8.0 8.0 |– 10.0 10.0 |– 12.0 Totale 0.0 1.5 2.5 3.5 5.0 7.0 9.0 11.0 9 23 24 8 9 3 3 1 80 -2.83 -1.33 -0.33 0.67 2.17 4.17 6.17 8.17 x 2.83 x i x 2 x i 8.01 1.77 0.11 0.45 4.71 17.39 38.07 67.75 k x ni 72.09 40.71 2.64 3.60 42.39 52.17 114.21 67.75 395.56 x x n i1 2 i i k 1 1 2 2 s xi x ni 395.56 4.94 n i1 80 4.94 2.22 2 Esempio 4.3 – varianza rendimenti Tabella 4.5 – Calcolo della media dei quadrati Classi -1.0 |– 1.0 1.0 |– 2.0 2.0 |– 3.0 3.0 |– 4.0 4.0 |– 6.0 6.0 |– 8.0 8.0 |– 10.0 10.0 |– 12.0 Totale 2 xi ni xi 0.0 1.5 2.5 3.5 5.0 7.0 9.0 11.0 9 23 24 8 9 3 3 1 80 0.00 2.25 6.25 12.25 25.00 49.00 81.00 121.00 2 xi ni 0.00 51.75 150.00 98.00 225.00 147.00 243.00 121.00 1035.75 k x 2.83 x(2) s2 2 x i ni i1 1 k 2 1035.75 xi ni 12.95 n i1 80 x(2) x 2 12.95 2.832 4.94 Coefficiente di variazione Sia X una variabile statistica che assume valori positivi, X>0, con media x scarto quadratico medio , il coefficiente di variazione è dato da CV x Il coefficiente di variazione non dipende dall’unità di misura Esempio – coefficiente di variazione Tabella 4.6 – Tempo impiegato dagli operatori di un call center. 1.32 2.64 3.32 3.77 4.56 1.65 2.74 3.34 3.90 4.56 1.67 2.82 3.36 3.96 4.61 1.73 2.95 3.39 4.06 4.63 1.78 2.97 3.42 4.11 4.70 2.08 2.98 3.42 4.19 4.74 2.16 3.06 3.45 4.20 4.77 2.19 3.09 3.47 4.21 4.77 2.21 3.11 3.49 4.28 4.92 x 3.5 s2 1.02 1.02 CV 0.29 3.5 2.34 3.16 3.62 4.32 5.12 2.42 3.25 3.63 4.46 5.24 2.63 3.28 3.76 4.54 5.51 MAD Median Absolute Deviation o X: x1, x2, … , xn o med = median(X) MAD 1.483 mediana xi med o Se la distribuzione è “normale” il MAD approssima lo scarto quadratico medio o Non risente dei valori anomali Esempio - MAD Consumi pro-capite annui di cereali med=72 xi xi med xi med 58 64 68 70 71 71 72 74 76 78 87 103 121 14 8 4 2 2 1 0 2 4 6 15 31 49 0 1 1 2 2 4 4 6 Scarti ordinati mediana prof med 7 med xi med 4 MAD 1.483 4 5.932 16.335 Differenza interquartile x(1), x(2), … , x(n) Quartili Q1 e Q3 DQ Q3 Q1 Misura la variabilità della metà centrale dei dati Campo di variazione xn x1 Esempio – Differenza interquartile e campo di variazione Carne ( 55, 61, 62, 66, 68, 75, 85, 86, 88, 91, 97, 107, 152, 231, 299, 329 ) Sintesi M Q E 87 67 55 129.5 329 QD Q3 Q1 129.5 67 62.5 xn x1 329 55 274 83.91 Box-plot Il box plot è un grafico utile per rappresentare la distribuzione dei dati Esso è costituito da 1. Una linea in corrispondenza della mediana 2. Un rettangolo da Q1 a Q3 che indica la variabilità della metà centrale dei dati 3. Due segmenti (baffi) che si estendono dai quartili ai valori estremi Esempio – Box-plot Voti in matematica ( 20, 22, 22, 23, 25, 25, 25, 25, 26, 26, 26, 27, 28, 28 ) M Q E 25 23 20 26 28 Box-plot – Voti in matematica 28 26 24 22 20 Confronto fra Box-plot Diversa posizione Diversa variabilità Diversa asimmetria Consumi di energia 5500 5000 4500 4000 Lunedi Martedi Mercoledi Giovedi Venerdi Sabato Domenica Box-plot dei consumi di energia nel Queensland (Australia) nei diversi giorni della settimana, anno 2000. Classificazione delle osservazioni Obiettivo: identificare i dati anomali Si definisce un intervallo di valori ritenuti nella norma: Recinto interno = (r1, r2) r1 Q1 1.5 DQ, r2 Q3 1.5 DQ I valori al di fuori del recinto interno sono definiti “osservazioni distanti” Recinto esterno = (R1, R2) R1 Q1 3 DQ, R2 Q3 3 DQ I valori al di fuori del recinto esterno sono chiamati “osservazioni molto distanti” R1 Molto distanti distanti r1 r2 R2 nella norma distanti Molto distanti Esempio – Classificazione delle osservazioni (-3, 10, 11, 13, 15, 17, 18, 19, 25, 48) M Q E n=10 DQ=8 r1 11 1.5 8 1, 16 11 -3 19 48 r2 19 1.5 8 31 r,r 1 2 1,31 (10, 25) valori adiacenti: Massimo e minimo all’interno del recinto interno R1 11 3 8 13, R2 19 3 8 43 R1,R2 13, 43 -3 osservazione distante 48 osservazione molto distante Esempio – Classificazione delle osservazioni (-3, 10, 11, 13, 15, 17, 18, 19, 25, 48) n=10 DQ=8 r,r 1 2 1,31 R1,R2 13, 43 f out F far -1 1 -13 - M5.5 Q3 E 31 43 1 16 11 -3 Ad.: 10, 25 Out: -3 Far: 48 19 48 Box-plot con osservazioni anomale o I baffi si estendono fino alle osservazioni adiacenti o Le osservazioni anomale sono rappresentate all’esterno del boxplot con simboli diversi 50 Recinto esterno osservazione molto distante 40 Recinto interno 30 20 10 0 -10 osservazione distante Esempio – Box-plot consumi di carne ( 55, 61, 62, 66, 68, 75, 85, 86, 88, 91, 97, 107, 152, 231, 299, 329 ) M8.5 87 Q4.5 67 129.5 E 55 329 QD 62.5 r1 67 1.5 62.5 26.75, r2 129.5 1.5 62.5 223.25 R1 67 3 62.5 120.5, R2 129.5 3 62.5 317.00 f -26.75 out - F far -120.5 - 223.25 2 317.0 1 Ad.: 55, 152 Out: 231(Paesi Bassi), 299(Irlanda) Far: 329(Danimarca) Box-Plot – Consumi di carne f -26.75 out - F far 300 -120.5 - 223.25 2 317.0 1 Ad.: 55, 152 Out: 231(Paesi Bassi), 299(Irlanda) Far: 329(Danimarca) Danimarca Irlanda 250 Paesi Bassi 200 150 100 50 Box-plot - Voti 30 28 E, I, M 26 24 22 N, L N 20 Matematica Algebra Probabilità N Inferenza