MISURE DI SINTESI 54 MISURE DESCRITTIVE DI SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ 30 0 µ Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità. 30 0 Le due distribuzioni hanno diversa tendenza centrale, ma uguale variabilità. 55 MISURE DI TENDENZA CENTRALE 56 MISURE DI TENDENZA CENTRALE Un insieme di dati numerici può essere sintetizzato da alcuni valori tipici, che indicano la posizione sull’asse orizzontale di punti importanti della distribuzione studiata “Punti centrali” MISURE di TENDENZA CENTRALE MEDIA (coordinata orizzontale del baricentro) MODA (coordinata orizzontale del punto più alto) MEDIANA 57 MEDIA CAMPIONARIA n x= ∑x i =1 i n SOMMA delle osservazioni di una variabile divisa per il numero totale di osservazioni. NB: x indica la media campionaria; µ indica la media della popolazione. Esempio Date le età, in anni, di 5 soggetti si calcoli l’età media. 19 21 18 22 28 19 + 21 + 18 + 22 + 28 108 x= = = 21 .6 anni 5 5 58 MEDIA PESATA Età (anni) = xi 18 19 20 21 22 23 24 25 fi xifi 18 · 2 = 36 19 · 25 = 475 20 · 30 = 600 21 · 22 = 462 22 · 20 = 440 23 · 12 = 276 24 · 10 = 240 25 · 8 = 200 2729 2 25 30 22 20 12 10 8 129 n x= ∑x i =1 i fi n n x= ∑x i =1 n i fi 2729 = = 21 . 155 anni 129 59 MEDIA PER DATI RAGGRUPPATI IN CLASSI Età (anni) [15-20) [20-25) [25-30) [30-35) [35-40) xk 17.5 22.5 27.5 32.5 37.5 fk 10 15 30 12 11 78 xkfk 17.5 · 10 = 175 22.5 · 15 = 337.5 27.5 · 30 = 825 32.5 · 12 = 390 37.5 · 11 = 412.5 2140 K x= ∑x f k =1 k k n xk = valore centrale della classe = = media degli estremi di classe Si assume che i soggetti appartenenti alla stessa classe abbiano tutti uguale altezza, calcolata come media degli estremi di classe. fk = frequenza di classe K x = ∑ x f k k =1 n k 2140 = 78 = 27 . 44 anni 60 PROPRIETÀ DELLA MEDIA • Non corrisponde necessariamente ad un valore che la variabile studiata può assumere; • è unica: per un dato insieme di dati vi è una sola media; • è facile da calcolare; • usa tutta l’informazione contenuta nei dati (tutti i dati concorrono al calcolo della media); • è molto sensibile agli OUTLIERS*; • è impiegata in molti test statistici inferenziali. *Outlier = valore estremo, che giace molto perifericamente rispetto alla restante distribuzione dei dati. 61 MEDIANA È l’osservazione che divide a metà la serie ordinata delle osservazioni. Per individuare la mediana occorre: • ordinare (in senso crescente o decrescente) le osservazioni; • determinare la posizione della mediana con la seguente formula: posizione della mediana = (n+1)/2 n = no di osservazioni • individuare la mediana come l’osservazione che occupa la posizione precedentemente calcolata. 62 Distinguiamo 2 casi: 1. Le osservazioni sono in numero dispari Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 Posizione della mediana (n+1)/2=10/2=5 Ordino le osservazioni 23 28 28 31 32 34 42 50 61 La mediana è 32 anni perché occupa la 5a posizione. 2. Le osservazioni sono in numero pari Età (in anni) di 10 soggetti: 42 28 28 61 31 23 50 34 32 37 Posizione della mediana (n+1)/2=11/2=5.5 Ordino le osservazioni 23 28 28 31 32 34 37 42 50 61 La mediana è 33 anni (media aritmetica dei valori che occupano la 5a e la 6a posizione). 63 Esempio Calcolare la mediana dei dati in tabella: Età (anni) = xi 18 19 20 21 22 23 24 25 fi Frequenza cumulata 2 25 30 22 20 12 10 8 2 27 57 79 99 111 121 129 129 Posizione della mediana (129+1)/2=65 La mediana occupa la 65a posizione. Dalla colonna delle frequenze cumulate risulta che: 18 anni → 1a-2a osservazione 19 anni → 3a-27a osservazione 20 anni →28a-57a osservazione 21 anni→58a-79a osservazione La mediana è 21 anni, perché quando tutti i 129 dati vengono ordinati, 21 anni occupa la posizione centrale. 64 DATI RAGGRUPPATI IN CLASSI: LA CLASSE MEDIANA Età (anni) [15-20) [20-25) [25-30) [30-35) [35-40) fk Frequenza cumulata 10 10 15 25 30 55 12 67 11 78 78 Posizione della mediana (n+1)/2=(78+1)/2 = 39,5 consideriamo la 39a e la 40a posizione La classe che contiene la 39a e la 40a osservazione è la classe mediana. Dalla colonna delle frequenze cumulate risulta che: 1a classe: [15-20)→ 1a-10a osservazione 2a classe: [20-25)→11a-25a osservazione 3a classe: [25-30)→26a-55a osservazione La classe [25-30) anni contiene la 39a e la 40a osservazione e quindi è la classe mediana. 65 PROPRIETÀ DELLA MEDIANA • È unica: per un dato insieme di dati vi è una sola mediana; • è facile da calcolare; • non è influenzata dai valori estremi (stima “robusta” di localizzazione). 66 MODA È l’osservazione che si presenta con la massima frequenza. Esempio Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 La moda è 28, perché è l’osservazione che si presenta più frequentemente. DATI RAGGRUPPATI IN CLASSI: LA CLASSE MODALE Età (anni) [15-20) [20-25) [25-30) [30-35) [35-40) fk 10 15 30 12 11 78 La classe modale è [25-30) anni, perché con essa si registra la massima frequenza. 67 PROPRIETÀ DELLA MODA • Semplicità concettuale; 30 0 10 20 30 40 50 60 70 Può essere letta direttamente dal grafico: la moda è il valore che ha massima frequenza, cioè il valore corrispondente alla colonna più alta. In questo caso la moda è 40. • a differenza di media e mediana è determinabile anche per variabili qualitative; • può non esistere; • ne può esistere più di una: 1 valore modale → distribuzione unimodale; 2 valori modali → distribuzione bimodale. 68 Distribuzione unimodale moda = 40 30 0 10 20 30 40 50 Distribuzione bimodale 60 70 moda1 = 60 moda2 = 100 60 30 0 10 40 50 60 70 80 90 100 110 120 130 140 Esempio Distribuzione del peso in un campione casuale di 100 studenti di cui 50 femmine e 50 maschi. La distribuzione può essere bimodale: 2 picchi peso più frequente nelle ♀ peso più frequente nei ♂ 69 FORMA DI UNA DISTRIBUZIONE Come la forma di una distribuzione influenza le misure di tendenza centrale DISTRIBUZIONE UNIMODALE SIMMETRICA µ= moda=mediana Distribuzione SIMMETRICA: le “code” hanno uguale lunghezza. MEDIA, MODA E MEDIANA COINCIDONO La curva è definita “a campana”. 70 DISTRIBUZIONI ASIMMETRICHE Nelle distribuzioni ASIMMETRICHE, le cui “code” hanno diversa lunghezza MEDIA, MODA E MEDIANA NON COINCIDONO: in particolare, la media tende ad essere spinta verso la coda. La misura di tendenza centrale più appropriata per distribuzioni molto asimmetriche è la mediana (non influenzata dai valori estremi). Asimmetria positiva Asimmetria negativa • La distribuzione è “tirata” verso destra, verso i valori positivi. • La media (M) è maggiore della mediana (Me). • Esempio: distribuzione dei punteggi di un test difficile. • La distribuzione è “tirata” verso sinistra, verso i valori negativi. • La media (M) è minore della mediana (Me) • Esempio: distribuzione dei punteggi di un test facile. 71 MEDIA, MEDIANA E MODA sono definite sia misure di tendenza centrale sia MISURE DI POSIZIONE individuano la posizione della distribuzione sull’asse orizzontale quando questa viene rappresentata graficamente. Altre misure di posizione sono i QUANTILI. 72 QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2 parti, ciascuna contenente il 50% delle osservazioni). QUARTILI sono 3 (Q1, Q2, Q3). Dividono la serie ordinata di dati in 4 parti, ciascuna contenente il 25% delle osservazioni. 25% Q1 25% Q2 25% Q3 25% MEDIANA DECILI sono 9 (D1, D2, D3, …, D9). Dividono la serie ordinata di dati in 10 parti, ciascuna contenente il 10% delle osservazioni. PERCENTILI sono 99 (P1, P2, P3,…, P99). Dividono la serie ordinata di dati in 100 parti, ciascuna contenente l’1% delle osservazioni. Il calcolo dei percentili risente della limitatezza del campione: vengono normalmente calcolati per grandi insiemi di dati. 73 QUARTILI 25% Q1 25% Q2 25% Q3 25% Q1 → Primo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 25% delle osservazioni e dopo di sé il 75%. Q2 → Secondo quartile Valore che, nella serie ordinata dei dati, lascia sia prima che dopo di sé il 50% delle osservazioni (vedi mediana). Q3 → Terzo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 75% delle osservazioni e dopo di sé il 25%. 74 POSIZIONE DEI QUARTILI Q1 = (n+1)/4 Q2 = 2(n+1)/4 =(n+1)/2 n = no di osservazioni Q3 = 3(n+1)/4 COME INDIVIDUARE I QUARTILI Esempio Daniel pag.45 es. 2.6.2 I dati seguenti riportano i diametri (in cm) di neoplasie mammarie di 20 soggetti con sarcoma: 0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0 Individuare il primo, il secondo (mediana) e il terzo quartile. Q1 Posizione di Q1 = (20+1)/4 = 5.25 Q1 = osservazione situata in 5a posizione + 0,25 della differenza tra le osservazioni situate in 6a e 5a posizione 0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0 Q1 = 2,5 + (3-2,5)·0,25 = 2,5 + 0,5·0,25 = 2,625 75 Q2 (Mediana) Posizione di Q2 = (20+1)/2 = 10,5 Q2 = osservazione situata in 10a posizione + 0,5 della differenza tra le osservazioni situate in 10a e 11a posizione 0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0 Q2 = 4,5 + (5-4,5)·0,5 = 4,5 + 0,5·0,5 = 4,75 Q3 Posizione di Q3=3·(20+1)/4=15.75 Q3 = osservazione situata in 15a posizione + 0,75 della differenza tra le osservazioni situate in 15a e 16a posizione 0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0 Q3= 6 + (6,5-6)·0,75 =6 + 0,5·0,75 = 6,375 76 PERCENTILI 77