La mediana (distribuzione disaggregata) La mediana: esempio La mediana Me di n numeri ordinati in senso non decrescente {y1 , … ,yN} è: • per N dispari Me = y(N+1)/2 • per N pari Me in [yN/2 ; y(N/2)+1] Modalità di mezzo: 50% delle osservazioni stanno sotto e 50% sopra Errore: scrivere che la mediana è 3 Se X è quantitativa, si calcola la semisomma Me= [yN/2+y(N/2)+1] /2 Numero di telefoni posseduti : 2 4 1 5 1 3 • successione ordinata: 1 1 2 3 4 5 • N=6 pari posizione unità mediane = 3° e 4° • Mediana = (2+3)/2 = 2.5 17 L. Grilli - Statistica 2013/2014 La mediana: esempio Internalità xmin M e xmax Distribuzione per titolo di studio N 20 15 M e : xi M e min Centro di ordine 1 Applicabile anche a variabili ordinali (esercizio: calcolare la mediana della successione ALTO, BASSO, MEDIO, BASSO, BASSO) Me resta invariata se si sostituiscono i termini x< Me oppure x> Me (cioè non risente di valori anomali) i 1 10 5 0 frequenza Analfab Element Alfabeti eti ari 1 9 Media Diploma Laurea 12 6 1 20 Mediana = ‘Elementari’ 19 L. Grilli - Statistica 2013/2014 Calcolo della mediana: tramite la funzione di ripartizione X: numero atti aggressivi in un’ora di gioco 138 bambini di 2/3 anni 1 2 3 4 5 6 7 8 9 10 tot nj 3 8 30 45 22 12 10 5 2 1 138 Nj 3 11 41 86 108 120 130 135 0.02 0.08 0.3 Passo 1: trovare la classe mediana (xm-1, xm) Passo 2: per determinare il valore di Me si sfrutta la seguente relazione … Estremo inferiore della classe mediana F ( M e ) F ( xm 1 ) M e xm 1 hm 0.5 137 138 0.62 0.78 0.87 0.94 0.98 0.99 1.0 Densità della classe mediana Mediana: primo valore di xj per cui vale F(xj) > 0.5 in questo caso Me=4 … da cui si ricava la seguente espressione: M e xm 1 Attenzione: se esiste xj per cui vale F(xj) = 0.5, allora la mediana è tra xj e xj+1 L. Grilli - Statistica 2013/2014 20 L. Grilli - Statistica 2013/2014 Calcolo della mediana: dati raggruppati (ipotesi dell’istogramma) xj F(xj) 18 L. Grilli - Statistica 2013/2014 Proprietà della mediana N=49 Posizione mediana = 25° 25 Numero di telefoni posseduti: 2 4 1 5 1 • successione ordinata: 1 1 2 4 5 • N=5 dispari posizione unità mediana = 3° • Mediana = 2 21 0.5 F ( xm 1 ) hm L. Grilli - Statistica 2013/2014 22 Media vs mediana Media vs mediana Media e mediana sono entrambi indici di posizione indicano il centro della distribuzione La mediana divide la distribuzione in due parti uguali La media è il punto di equilibrio dell’istogramma, come una bilancia, si ottiene sommando i valori e dividendo per il numero di valori Per trovare la media osservando un istogramma possiamo sfruttare la proprietà di baricentro dobbiamo trovare il punto in cui mettere un dito sotto l’asse orizzontale per tenere in equilibrio la distribuzione (immaginando che i rettangoli abbiano un peso proporzionale alla loro area) La mediana divide l’area dell’istogramma in due parti uguali 23 L. Grilli - Statistica 2013/2014 24 L. Grilli - Statistica 2013/2014 Media vs mediana Media e mediana: speranza di vita dei mammiferi Simmetria Il valore in cui l’istogramma sta in equilibrio (media) è più grande del valore che divide l’area in due parti uguali (la mediana) perché la distribuzione non è simmetrica 18 Me =M 16 14 12 10 8 6 4 Se la distribuzione fosse simmetrica media e mediana sarebbero uguali 2 0 -4 Asimmetria positiva I valori anomali a destra tendono a far crescere il valore medio ma non hanno effetto sulla mediana Per esempio, se i valori della classe [35, 40) fossero spostati nella classe [45, 50) la mediana resterebbe uguale mentre la media sarebbe più grande! 20 18 16 14 12 10 8 6 4 2 0 25 -2 -1 0 1 2 3 4 Asimmetria negativa 25 Me <M 20 Me > M 15 10 5 -4 L. Grilli - Statistica 2013/2014 -3 -3 -2 -1 0 1 2 3 4 0 -4 -3 -2 -1 0 1 2 3 4 26 L. Grilli - Statistica 2013/2014 Pro e contro della mediana Usa solo in parte l’informazione contenuta nei dati (l’ordine ma non i valori) From the Cartoon Guide to Statistics dati diversi possono avere la stessa mediana è un indice robusto, cioè non è influenzato dai valori estremi (outliers) 29 31 35 39 39 40 43 44 44 52 Me = 39.5 M= 39.6 29 31 35 39 39 40 43 44 44 92 Me = 39.5 M= 43.6 L. Grilli - Statistica 2013/2014 27 28 Quando non usare la mediana Esempio La mediana è poco informativa se il carattere è discreto con pochi valori distinti: in tal caso la mediana può assumere valori identici per distribuzioni piuttosto diverse Carbon Internet dioxide GDP per users emissions capita (per100 per capita people) (tonnes) Country Australia Brazil China France Germany India Japan Mexico Russian Federation Sweden United Kingdom United States median mean Esempio: numero di gol segnati in 7 partite dai calciatori A, B e C Unità Mediana Media A 0 0 0 1 1 1 1 1 0.57 B 1 1 1 1 1 1 1 1 1.00 C 1 1 1 1 3 3 4 1 2.00 37863 9468 4898 32661 33981 2616 33553 14155 13894 36648 34642 46114 33107 25041 18.1 1.9 4.6 6.2 9.7 1.3 10.1 4.1 10.9 5.6 9.4 19.0 7.8 8.4 29 L. Grilli - Statistica 2013/2014 64.9 28.2 10.6 46.9 69.3 2.9 68.5 19.7 18.0 86.6 65.5 70.6 55.9 46.0 30 L. Grilli - Statistica 2013/2014 Quantili La mediana lascia alla sua sinistra una proporzione di osservazioni pari a p=0.5 (salvo arrotondamenti). Ma p può essere un qualunque numero tra 0 e 1 … p =0.5 p =0.25, 0.50, 0.75 p =0.1, 0.2, …,0.8, 0.9 p =0.01, 0.02,…,0.98, 0.99 0.2 Funzione di densità Pr(X<=xp) 0.18 0.16 0.14 Si fa riferimento alla favola “Jack ed il fagiolo magico“ di Richard Walker 0.12 1 0,9 0,8 F(x) 0,6 0,5 p 0.06 0,4 0,3 0 31 Calcolo dei quantili: tramite la funzione di ripartizione 1 nj Nj 5 6 2 3 4 3 8 30 45 22 12 10 5 3 11 41 86 108 120 130 135 0.02 0.08 0.3 7 8 9 10 tot 2 4 xp 6 0,1 0 8 10 12 14 16 18 0 2 4 L. Grilli - Statistica 2013/2014 xp 6 8 10 12 14 16 32 18 2 1 138 p (0,1) x[ p ] : pr X x[ p ] F ( x[ p ] ) p 137 138 0.62 0.78 0.87 0.94 0.98 0.99 1.0 1) Trovare la classe (xj-1, xj) in cui F supera p Esempio, calcoliamo i quartili: dobbiamo trovare il primo valore di xj per cui vale F(xj) > p, per p=0.25, 0.5, 0.75 In questo caso Q1=0.3, Q2=0.62 e Q3=0.78 Attenzione: se esiste xj per cui vale F(xj) = p, allora il corrispondente quartile è tra xj e xj+1 L. Grilli - Statistica 2013/2014 0 0,2 1-p Calcolo dei quantili: dati raggruppati (ipotesi dell’istogramma) X: numero atti aggressivi in un’ora di gioco 138 bambini di 2/3 anni xj F(xj) Funzione di ripartizione 0.1 0.08 0.02 p Esempi di quantili 0,7 0.04 Mediana Quartili Decili Percentili 2) Calcolare 33 x[ p ] x j 1 p F ( x j 1 ) L. Grilli - Statistica 2013/2014 hj 34 Esempio: decili di reddito in Scozia Esempio: trend del reddito USA Evolution of US household income at the 20th 50th 80th and 95th percentile from 1976 to 2011 in 2011 constant (CPI-U-RS adjusted) dollars. http://en.wikipedia.org/wiki/Household_income_in_the_United_States#Distribution Annual income thresholds for different family types (income after tax and BHC) Scotland 2010/11 - http://www.scotland.gov.uk/Publications/2012/06/7976/4 Single person with no children Couple with no children 14600 21800 Single person with children aged 5 and 14 26200 8800 13100 15700 20000 7800 9700 11300 12900 14500 16600 19000 22100 27500 11600 14400 16900 19300 21700 24800 28300 33000 41100 13900 17300 20200 23100 26000 29800 34000 39700 49300 17800 22100 25800 29500 33200 38000 43400 50600 62800 UK median income (before housing costs) 60% of UK median income (before housing costs) - relative poverty threshold Scottish 1st income decile Scottish 2nd income decile Scottish 3rd income decile Scottish 4th income decile Scottish 5th income decile Scottish 6th income decile Scottish 7th income decile Scottish 8th income decile Scottish 9th income decile Percentile Couple with children aged 5 and 14 s= 1 s= 2 s = 1 s0 M1 =M M2 =Mq M-1=Ma M0 =Mg 49737 54841 50054 9.8% 80th 79322 92427 106790 101582 28.1% 125794 156454 189665 186000 47.9% 120000 95th 100000 80th 80000 50th 20000 0 1970 1/ s 1975 1985 N M2 Ms(X) M(Y) f 1 1980 1990 1995 2000 2005 2010 2015 36 f(x)=x2 media aritmetica media quadratica media armonica media geometrica xi2 i 1 N 1/2 N 2 xi i 1 N M2: valore che sostituito agli N termini della successione ne lascia invariata la somma dei quadrati 37 Media geometrica 38 L. Grilli - Statistica 2013/2014 Media geometrica: esempio f(x)= log x (logaritmo naturale) N 20th 40000 s i Y 4.3% Media quadratica L. Grilli - Statistica 2013/2014 N 1 N i log x exp log x i i 1 1 N N M g xi i 1 45595 60000 Media aritmetica 50th 140000 f i 1 20262 160000 35 X 1 M g exp N 2011 23404 180000 x i 1 N 2000 20794 200000 Medie di potenze (momenti) 1 M s N 1988 19426 95th 33400 L. Grilli - Statistica 2013/2014 1976 20th exp(log x ) i 1 1 N i N La media geometrica consente di calcolare il tasso medio di crescita Esempio: un capitale investito per tre anni ha fatto registrare i seguenti rendimenti: 2%, 18%, 10%. Qual è il tasso di rendimento medio? C finale Ciniziale 1.02 1.18 1.10 Nota: si dimostra che M g lim M s Ciniziale 1 r Obiettivo: trovare r tale che 3 s 0 Media geometrica dei fattori di capitalizzazione Mg valore che sostituito agli N termini della successione ne lascia invariato il prodotto 1 r Mg applicata ad una progressione geometrica (con N dispari) fornisce il termine centrale della progressione 1 r 1.02 1.18 1.10 3 1.098057 L. Grilli - Statistica 2013/2014 3 1.02 1.18 1.10 1 r 0.098057 (ovvero 9.8%) 39 L. Grilli - Statistica 2013/2014 40 Problema Media armonica Un’automobile da corsa fa due giri di pista, il primo ad una velocità di 100 km/h e il secondo ad una velocità di 300 km/h f(x)=1/x Ma N N i 1 Qual è la velocità media? 1 x i Si usa quando il reciproco di x ha un significato e l’obiettivo è lasciare invariata la somma dei reciproci 41 L. Grilli - Statistica 2013/2014 Media armonica: esempio Relazione tra le medie di potenze Tempo impiegato da tre falegnami per realizzare una sedia: 1h 2h 2h x (ore per una sedia) 1/x (sedie in un’ora) 1 1 2 1/2 2 1/2 N N 1 x i 1 i 3 3 1.5 1 1 1 2 1 2 2 L. Grilli - Statistica 2013/2014 Per una successione di valori strettamente positivi si possono calcolare tutte le medie di potenze Si dimostra che tra le medie di potenze esiste un ordinamento: con uguaglianza se e Se s t allora M s M t In un’ora i 3 falegnami realizzano 2 sedie mediamente ognuno realizza 2/3 di sedia in un’ora, ovvero per una sedia impiega 3/2 di ora (cioè un’ora e mezzo) Ma 42 L. Grilli - Statistica 2013/2014 solo se la distribuzione è degenere (cioè i valori sono identici) Per quanto riguarda le medie più comuni, questo risultato implica che media quadratica (s=2) media aritmetica (s=1) media geometrica (s0) media armonica (s=1) 43 L. Grilli - Statistica 2013/2014 44 45 L. Grilli - Statistica 2013/2014 46 Quale media? Le medie calcolabili dipendono dal tipo di variabile: se nominale si può calcolare solo la moda, se quantitativa si possono calcolare moda, mediana e medie analitiche La scelta mediana vs medie analitiche dipende dalla asimmetria della distribuzione e dalla presenza di outliers La media analitica più comune è la media aritmetica Tuttavia in alcuni casi il principio di invarianza suggerisce l’uso di una media diversa da quella aritmetica: es. la media armonica dei tempi lascia invariata la produttività totale, oppure la media geometrica lascia invariato il montante finale di un investimento a interesse composto L. Grilli - Statistica 2013/2014 Media aritmetica: proprietà associativa Esempio della proprietà associativa Se un collettivo statistico di N unità viene suddiviso in L sottoinsiemi disgiunti aventi numerosità N(1), N(2),…,N(L) e medie m(1), m(2),…, m(L), allora la media del collettivo può essere così calcolata 1 In una classe l’altezza media delle femmine è 170 cm, mentre l’altezza media dei maschi è 176 cm: qual è l’altezza media degli studenti della classe? ⋯ ⋯ ⋯ Forse 173 cm? Sì, ma solo se maschi e femmine sono in egual numero! Supponiamo vi siano 5 femmine e 15 maschi: in tal caso l’altezza media è 170*5/20+176*15/20 = 174.5 Altro esempio: calcolare il reddito medio nazionale a partire dai redditi medi regionali Dunque la proprietà associativa afferma che la media generale si ottiene come media ponderata delle medie dei sottoinsiemi, dove i pesi di ponderazione sono le proporzioni dei sottoinsiemi L. Grilli - Statistica 2013/2014 47 48 L. Grilli - Statistica 2013/2014 Trasformazioni di media e mediana Abbiamo visto che la media aritmetica di una trasformazione lineare dei dati è uguale alla trasformazione lineare della media aritmetica originale; questa proprietà vale solo per trasformazioni lineari: Y=f(X) MY =f(MX)sef èlineare Y=g(X) MY g(MX) seg nonèlineare somma media mediana Ad esempio, la media aritmetica del logaritmo naturale dei dati è diversa dal logaritmo naturale della media originale. Per la mediana, invece, vale la seguente proprietà: 100+0.5*(media) 100+0.5*(mediana) log(media) log(mediana) (media-17)^2 (mediana-17)^2 Y=h(X) MedY =h(MedX)seh èmonotona Nota: una funzione lineare è un caso speciale di funzione monotona (una funz. monotona crescente preserva l’ordinamento, mentre una funz. monotona decrescente inverte l’ordinamento, in entrambi i casi l’unità mediana è invariata) L. Grilli - Statistica 2013/2014 49 originale 10 12 15 18 20 30 35 lineare 105.000 106.000 107.500 109.000 110.000 115.000 117.500 monotona 2.303 2.485 2.708 2.890 2.996 3.401 3.555 non monotona 49.000 25.000 4.000 1.000 9.000 169.000 324.000 140 20 18 770.000 110.000 109.000 20.338 2.905 2.890 581.000 83.000 25.000 110.000 109.000 2.996 2.890 9.000 1.000 L. Grilli - Statistica 2013/2014 50