Indici di dispersione 1 Supponiamo di disporre di un insieme di misure e di cercare un solo valore che, meglio di ciascun altro, sia in grado di “catturare” le caratteristiche della distribuzione nel suo complesso, ovvero rappresenti il valore più tipico della distribuzione. Moda, Mediana, Media aritmetica 2 MODA La moda di una distribuzione di frequenze è il punto centrale della classe di misure più frequente. Distribuzione zeromodale: nessun valore ha una frequenza più elevata degli altri. Distribuzione unimodale: c’è un solo valore con una frequenza più elevata degli altri. Es. [2, 4, 1, 3, 7, 3, 5, 3] Distribuzione bimodale: ci sono due valori con una frequenza più elevata degli altri. Es. [7, 4, 7, 3, 7, 3, 5, 3] 3 Negli istogrammi, la moda coincide con il punto centrale della base del rettangolo con altezza maggiore. Nelle curve di frequenza, la moda coincide con il valore corrispondente ad un massimo della curva Affinché una distribuzione sia bimodale è sufficiente che vi siano due massimi. Non è necessario che entrambi abbiano lo stesso valore. Dato che la moda dipende soltanto dalla frequenza delle osservazioni, è l’unica misura di tendenza centrale per dati in scala nominale. 4 LIMITI DELLA MODA Un campione può avere più di una moda. La moda è molto sensibile alla grandezza e al numero degli intervalli di classe. La moda può cambiare in maniera considerevole cambiando gli intervalli delle classi. La moda di un campione non fornisce una buona stima della moda della popolazione da cui quel campione è stato tratto. 5 MEDIANA La mediana è il valore che occupa la posizione centrale quando le osservazioni di un campione sono ordinate in base al loro valore. 6 6, 6.7, 3.8, 7, 5.8 I valori ordinati sono 3.8, 5.8, 6, 6.7, 7 7 6, 6.7, 3.8, 7, 5.8, 9.975 I valori ordinati sono: 8 MEDIA ARITMETICA 9 Proprietà 1. Se un insieme di osservazioni è costituito da due sottoinsiemi disgiunti di grandezza n1 e n2, e medie allora la media dell’insieme totale sarà uguale a: e 10 11 DIFFERENZE TRA LA MEDIA E LA MEDIANA La media risente dei cambiamenti effettuati agli estremi di una distribuzione, mentre la mediana è insensibile a questi cambiamenti. La media è più stabile della mediana, ovvero varia di meno al passare da un campione ad un altro. 12 Esempio Nella sono rappresentate le distribuzioni delle età dei morti in Italia nel 1890, nel 1950 e nel 1990. Chiamiamole, in ordine, Età1890, Età1950 ed Età1990. Le rispettive medie sono 28, 58 e 75: un morto nel 1890 aveva mediamente 28 anni, 58 nel 1950 e 75 nel 1990. Le età mediane di morte erano invece, in ordine, 8, 66 e 78: Il fatto che, nel 1890, la media abbia un valore molto maggiore della mediana (mascherando in parte il fenomeno della mortalità infantile) è dovuto alla lunga coda destra che fa aumentare il risultato del calcolo della media. Nel 1990, invece, la media è inferiore alla mediana a causa della cosa sinistra; la differenza in questo caso è lieve in quanto si tratta di una coda molto "sottile", e quindi non incide molto sul risultato. 13 INDICI DI POSIZIONE 14 Quantili I quantili si riferiscono ad una suddivisione in parti uguali dei dati ordinati. min max Il primo quartile è l’unità di osservazione che ha la proprietà di avere sotto di sé un quarto dei dati della distribuzione. Il secondo quartile è uguale alla mediana. 15 Il primo decile è l’unità di osservazione che ha la proprietà di avere sotto di sé un decimo dei dati della distribuzione. Il primo centile è l’unità di osservazione che ha la proprietà di avere sotto di sé un centesimo dei dati della distribuzione. 16 Per calcolare i quantili si usa lo stesso procedimento usato per il calcolo della mediana. Per calcolare il 24 percentile, per esempio, si ordinano i dati in senso crescente, e si determina se esiste un valore che abbia sotto di sé il 24% dei dati della distribuzione. Se tale valore non esiste, una procedura di interpolazione lineare viene usata per trovare il valore esatto del percentile cercato. 17 INDICI DI DISPERSIONE 18 Le misure di dispersione esprimono la tendenza delle singole osservazioni di una distribuzione di allontanarsi dalla tendenza centrale, ovvero la “variabilità” dei dati. La dispersione esprime la “bontà” o la “povertà” della tendenza centrale quale descrittore di una distribuzione. [7, 8, 10, 12, 13] [1, 2, 10, 18, 19] 19 20 Come si può quantificare la variabilità di una distribuzione? 21 GAMMA (CAMPO DI VARIABILITA’) Gamma = Xmax - Xmin [5, 2, 7, 11, 3, 6, 2] Gamma = 11 - 2 = 9 22 Sono chiamati indici di dispersione degli indicatori numerici che danno un'idea quantitativa di come i dati sono più o meno sparpagliati. Per introdurli facciamo riferimento alle distribuzioni Età1890, Età1950 ed Età1990 23 Passando dal 1890 al 1950, oltre a uno spostamento verso destra della zona in cui si concentrano le età di morte (testimoniato dall'aumento sia della media che della mediana), possiamo osservare un maggiore addensamento dei dati: l'istogramma assume una forma più tozza. Questa percezione intuitiva può essere precisata considerando l'intervallo in cui si colloca il 50% centrale dei dati, ossia i dati che vanno dal 25° al 75° percentile, che per il 1890 sono circa 3 e 58 (il 25% dei morti aveva età che non superava i 3 anni e il 75% età che non superava i 58 anni), e per il 1950 sono circa 43 e 81. 24 La ampiezza di questo intervallo, che viene chiamata distanza interquartile in quanto costituisce la distanza tra il valore che delimita il primo quarto dei dati da quello che ne delimita l'ultimo quarto, passa da 55 a 38. Per il 1990 si ha un'ulteriore riduzione della dispersione: si può calcolare che questa distanza diventa 32. La distanza interquartile, indicato in genere con IQR (IntraQuartile Range), è l'indice di dispersione d'uso più generale. 25 VARIANZA E DEVIAZIONE STANDARD 26 Lo scarto tra ciascuna osservazione di una distribuzione e la media è dato da: Problema: Soluzione: elevare gli scarti al quadrato 27 Varianza: media degli scarti dalla media elevati al quadrato. 28 Esempio di calcolo della varianza 29 [2, 3, 6, 9, 15] 30 Deviazione standard: radice quadrata della varianza. 31 32 Formula alternativa per la varianza 33 34 ESERCIZIO Per i seguenti dati, calcolate la media, la varianza e la deviazione standard. Per il calcolo della varianza usate entrambe le formule presentate in precedenza. 2 5 8 7 3 35 COEFFICIENTE DI VARIAZIONE Il coefficiente di variazione è definito come il rapporto tra la deviazione standard e la media: L’indice di varianza relativa è uguale al quadrato del coefficiente di variazione: 36