La mediana: esempio La mediana: esempio Proprietà della

annuncio pubblicitario
La mediana (distribuzione disaggregata)
La mediana: esempio
La mediana Me di n numeri ordinati in senso non decrescente {y1 , … ,yN} è:
• per N dispari
Me = y(N+1)/2
• per N pari
Me in [yN/2 ; y(N/2)+1]

Modalità di mezzo: 50% delle osservazioni stanno sotto e 50% sopra
Errore: scrivere che la mediana è 3

Se X è quantitativa, si calcola la semisomma
Me= [yN/2+y(N/2)+1] /2
Numero di telefoni posseduti : 2 4 1 5 1 3
• successione ordinata: 1 1 2 3 4 5
• N=6 pari  posizione unità mediane = 3° e 4°
• Mediana = (2+3)/2 = 2.5
17
L. Grilli - Statistica 2013/2014
La mediana: esempio

Internalità
xmin  M e  xmax
Distribuzione per titolo di studio
N
20
15
M e :  xi  M e  min

Centro di ordine 1

Applicabile anche a variabili ordinali (esercizio: calcolare la mediana della successione ALTO, BASSO, MEDIO, BASSO, BASSO)

Me resta invariata se si sostituiscono i termini x< Me
oppure x> Me (cioè non risente di valori anomali)
i 1
10
5
0
frequenza
Analfab
Element
Alfabeti
eti
ari
1
9
Media
Diploma
Laurea
12
6
1
20
Mediana = ‘Elementari’
19
L. Grilli - Statistica 2013/2014
Calcolo della mediana:
tramite la funzione di ripartizione


X: numero atti aggressivi in un’ora di gioco
138 bambini di 2/3 anni
1
2
3
4
5
6
7
8
9
10
tot
nj
3
8
30
45
22
12
10
5
2
1
138
Nj
3
11
41
86
108
120
130
135
0.02 0.08
0.3
Passo 1: trovare la classe mediana (xm-1, xm)
Passo 2: per determinare il valore di Me si sfrutta la
seguente relazione …
Estremo inferiore della classe mediana
F ( M e )  F ( xm 1 )   M e  xm 1  hm  0.5
137 138
0.62 0.78 0.87 0.94 0.98 0.99
1.0
Densità della classe mediana
Mediana: primo valore di xj per cui vale F(xj) > 0.5  in
questo caso Me=4
… da cui si ricava la seguente espressione:
M e  xm 1 
Attenzione: se esiste xj per cui vale F(xj) = 0.5, allora la
mediana è tra xj e xj+1
L. Grilli - Statistica 2013/2014
20
L. Grilli - Statistica 2013/2014
Calcolo della mediana:
dati raggruppati (ipotesi dell’istogramma)
xj
F(xj)
18
L. Grilli - Statistica 2013/2014
Proprietà della mediana
N=49  Posizione mediana = 25°
25
Numero di telefoni posseduti: 2 4 1 5 1
• successione ordinata: 1 1 2 4 5
• N=5 dispari  posizione unità mediana = 3°
• Mediana = 2
21
0.5  F ( xm 1 )
hm
L. Grilli - Statistica 2013/2014
22
Media vs mediana
Media vs mediana

Media e mediana sono entrambi indici di posizione  indicano il centro della distribuzione

La mediana divide la distribuzione in due parti uguali
La media è il punto di equilibrio dell’istogramma, come una bilancia, si ottiene sommando i valori e dividendo per il numero di valori

Per trovare la media
osservando un istogramma possiamo sfruttare la proprietà di baricentro 
dobbiamo trovare il punto in cui mettere un dito sotto l’asse orizzontale per tenere in equilibrio la distribuzione (immaginando che i rettangoli abbiano un peso proporzionale alla loro area)
La mediana divide l’area dell’istogramma in due parti uguali
23
L. Grilli - Statistica 2013/2014
24
L. Grilli - Statistica 2013/2014
Media vs mediana
Media e mediana: speranza di vita dei mammiferi

Simmetria
Il valore in cui l’istogramma sta in equilibrio (media) è più grande del valore che divide l’area in due parti uguali (la mediana) perché la distribuzione non è simmetrica
18
Me =M
16
14
12
10
8
6
4


Se la distribuzione fosse simmetrica media e mediana sarebbero uguali
2
0
-4
Asimmetria positiva
I valori anomali a destra tendono a far crescere il valore medio ma non hanno effetto sulla mediana
Per esempio, se i valori della classe [35, 40) fossero spostati nella classe [45, 50) la mediana resterebbe uguale mentre la media sarebbe più grande!
20
18
16
14
12
10
8
6
4
2
0
25
-2
-1
0
1
2
3
4
Asimmetria negativa
25
Me <M
20
Me > M
15
10
5
-4
L. Grilli - Statistica 2013/2014
-3
-3
-2
-1
0
1
2
3
4
0
-4
-3
-2
-1
0
1
2
3
4
26
L. Grilli - Statistica 2013/2014
Pro e contro della mediana

Usa solo in parte l’informazione contenuta nei dati (l’ordine ma non i valori)
From the Cartoon Guide to Statistics

  dati diversi possono avere la stessa mediana
  è un indice robusto, cioè non è influenzato dai valori estremi (outliers)
29 31 35 39 39 40 43 44 44 52
Me = 39.5 M= 39.6
29 31 35 39 39 40 43 44 44 92
Me = 39.5 M= 43.6
L. Grilli - Statistica 2013/2014
27
28
Quando non usare la mediana


Esempio
La mediana è poco informativa se il carattere è discreto con pochi valori distinti: in tal caso la mediana può assumere valori identici per distribuzioni piuttosto diverse Carbon
Internet
dioxide
GDP per
users
emissions
capita
(per100
per capita
people)
(tonnes)
Country
Australia
Brazil
China
France
Germany
India
Japan
Mexico
Russian Federation
Sweden
United Kingdom
United States
median
mean
Esempio: numero di gol segnati in 7 partite dai calciatori A, B e C
Unità
Mediana Media
A 0 0 0 1 1 1 1
1
0.57
B 1 1 1 1 1 1 1
1
1.00
C 1 1 1 1 3 3 4
1
2.00
37863
9468
4898
32661
33981
2616
33553
14155
13894
36648
34642
46114
33107
25041
18.1
1.9
4.6
6.2
9.7
1.3
10.1
4.1
10.9
5.6
9.4
19.0
7.8
8.4
29
L. Grilli - Statistica 2013/2014
64.9
28.2
10.6
46.9
69.3
2.9
68.5
19.7
18.0
86.6
65.5
70.6
55.9
46.0
30
L. Grilli - Statistica 2013/2014
Quantili
La mediana lascia alla sua sinistra una proporzione di osservazioni pari
a p=0.5 (salvo arrotondamenti). Ma p può essere un qualunque numero
tra 0 e 1 …
p =0.5
p =0.25, 0.50, 0.75
p =0.1, 0.2, …,0.8, 0.9
p =0.01, 0.02,…,0.98, 0.99




0.2
Funzione di densità
Pr(X<=xp)
0.18
0.16
0.14
Si fa riferimento
alla favola “Jack
ed il fagiolo
magico“ di
Richard Walker
0.12
1
0,9
0,8
F(x)
0,6
0,5
p
0.06
0,4
0,3
0
31
Calcolo dei quantili:
tramite la funzione di ripartizione
1
nj
Nj
5
6
2
3
4
3
8
30
45
22
12
10
5
3
11
41
86
108
120
130
135
0.02 0.08
0.3
7
8
9
10
tot
2
4
xp
6
0,1
0
8
10
12
14
16
18
0
2
4
L. Grilli - Statistica 2013/2014
xp
6
8
10
12
14
16
32
18
2
1
138
p  (0,1)
x[ p ] : pr  X  x[ p ]   F ( x[ p ] )  p
137 138
0.62 0.78 0.87 0.94 0.98 0.99
1.0
1) Trovare la classe (xj-1, xj) in cui F supera p
Esempio, calcoliamo i quartili: dobbiamo trovare il
primo valore di xj per cui vale F(xj) > p, per p=0.25, 0.5, 0.75
 In questo caso Q1=0.3, Q2=0.62 e Q3=0.78
Attenzione: se esiste xj per cui vale F(xj) = p, allora il
corrispondente quartile è tra xj e xj+1
L. Grilli - Statistica 2013/2014
0
0,2
1-p
Calcolo dei quantili:
dati raggruppati (ipotesi dell’istogramma)
X: numero atti aggressivi in un’ora di gioco
138 bambini di 2/3 anni
xj
F(xj)
Funzione di ripartizione
0.1
0.08
0.02

p
Esempi di
quantili
0,7
0.04

Mediana
Quartili
Decili
Percentili
2) Calcolare
33
x[ p ]  x j 1 
p  F ( x j 1 )
L. Grilli - Statistica 2013/2014
hj
34
Esempio: decili di reddito in Scozia
Esempio: trend del reddito USA
Evolution of US household income at the 20th 50th 80th and 95th percentile from
1976 to 2011 in 2011 constant (CPI-U-RS adjusted) dollars.
http://en.wikipedia.org/wiki/Household_income_in_the_United_States#Distribution
Annual income thresholds for different family types (income after tax and BHC)
Scotland 2010/11 - http://www.scotland.gov.uk/Publications/2012/06/7976/4
Single
person
with no
children
Couple
with no
children
14600
21800
Single
person
with
children
aged 5
and 14
26200
8800
13100
15700
20000
7800
9700
11300
12900
14500
16600
19000
22100
27500
11600
14400
16900
19300
21700
24800
28300
33000
41100
13900
17300
20200
23100
26000
29800
34000
39700
49300
17800
22100
25800
29500
33200
38000
43400
50600
62800
UK median income (before housing costs)
60% of UK median income (before housing
costs) - relative poverty threshold
Scottish 1st income decile
Scottish 2nd income decile
Scottish 3rd income decile
Scottish 4th income decile
Scottish 5th income decile
Scottish 6th income decile
Scottish 7th income decile
Scottish 8th income decile
Scottish 9th income decile
Percentile
Couple
with
children
aged 5
and 14




s= 1
s= 2
s = 1
s0
M1 =M
M2 =Mq
M-1=Ma
M0 =Mg
49737
54841
50054
9.8%
80th
79322
92427 106790 101582
28.1%
125794 156454 189665 186000
47.9%
120000
95th
100000
80th
80000
50th
20000
0
1970

1/ s
1975
1985
N
M2 
Ms(X)
M(Y)
f 1
1980
1990
1995
2000
2005
2010
2015
36
f(x)=x2
media aritmetica
media quadratica
media armonica
media geometrica
 xi2
i 1
N
1/2
 N 2
  xi 
  i 1 
 N 




M2: valore che sostituito agli N termini della
successione ne lascia invariata la somma dei
quadrati
37
Media geometrica
38
L. Grilli - Statistica 2013/2014
Media geometrica: esempio
f(x)= log x (logaritmo naturale)


N
20th
40000
s
i
Y
4.3%
Media quadratica
L. Grilli - Statistica 2013/2014
N

1
N
i
 log x   exp   log x
i
 i 1
1
 N
N
M g    xi 
 i 1 

45595
60000
Media aritmetica

50th
140000
f
i 1
20262
160000
35
X
1
M g  exp 
N
2011
23404
180000

x 

i 1

N
2000
20794
200000
Medie di potenze (momenti)
1
M s  
N
1988
19426
95th
33400
L. Grilli - Statistica 2013/2014
1976
20th

   exp(log x )
 i 1
1
N
i
N

La media geometrica consente di calcolare il tasso medio di crescita
Esempio: un capitale investito per tre anni ha fatto registrare i seguenti rendimenti: 2%, 18%, 10%. Qual è il tasso di rendimento medio?
C finale  Ciniziale 1.02 1.18 1.10 
Nota: si dimostra che
M g  lim M s
 Ciniziale 1  r 
Obiettivo: trovare r tale che
3
s 0
Media geometrica
dei fattori
di capitalizzazione
Mg valore che sostituito agli N termini della successione ne
lascia invariato il prodotto
1  r 
Mg applicata ad una progressione geometrica (con N
dispari) fornisce il termine centrale della progressione
 1  r  1.02 1.18 1.10   3  1.098057
L. Grilli - Statistica 2013/2014
3
 1.02 1.18 1.10 
1
 r  0.098057 (ovvero 9.8%)
39
L. Grilli - Statistica 2013/2014
40
Problema
Media armonica



Un’automobile da corsa fa due giri di pista, il primo ad una velocità di 100 km/h e il secondo ad una velocità di 300 km/h
f(x)=1/x
Ma 
N
N
i 1
Qual è la velocità media?
1
x
i
Si usa quando il reciproco di x ha un significato e
l’obiettivo è lasciare invariata la somma dei
reciproci
41
L. Grilli - Statistica 2013/2014
Media armonica: esempio


Relazione tra le medie di potenze
Tempo impiegato da tre falegnami per realizzare una sedia: 1h 2h 2h
x (ore per una sedia)


1/x (sedie in un’ora)
1
1
2
1/2
2
1/2
N
N
1
x
i 1
i


3
3
  1.5
1 1 1 2
 
1 2 2
L. Grilli - Statistica 2013/2014
Per una successione di valori strettamente positivi si possono calcolare tutte le medie di potenze
Si dimostra che tra le medie di potenze esiste un ordinamento:
con uguaglianza se e
Se s  t allora M s  M t
In un’ora i 3 falegnami realizzano 2 sedie  mediamente ognuno realizza 2/3 di sedia in un’ora, ovvero per una sedia impiega 3/2 di ora (cioè un’ora e mezzo)
Ma 
42
L. Grilli - Statistica 2013/2014
solo se la
distribuzione è
degenere (cioè i
valori sono identici)
Per quanto riguarda le medie più comuni, questo risultato implica che
media quadratica (s=2)  media aritmetica (s=1)  media geometrica (s0)
 media armonica (s=1)
43
L. Grilli - Statistica 2013/2014
44
45
L. Grilli - Statistica 2013/2014
46
Quale media?



Le medie calcolabili dipendono dal tipo di variabile: se nominale si può calcolare solo la moda, se quantitativa si possono calcolare moda, mediana e medie analitiche
La scelta mediana vs medie analitiche dipende dalla asimmetria della distribuzione e dalla presenza di outliers
La media analitica più comune è la media aritmetica
 Tuttavia in alcuni casi il principio di invarianza suggerisce l’uso di una media diversa da quella aritmetica: es. la media armonica dei tempi lascia invariata la produttività totale, oppure la media geometrica lascia invariato il montante finale di un investimento a interesse composto
L. Grilli - Statistica 2013/2014
Media aritmetica: proprietà associativa
Esempio della proprietà associativa
Se un collettivo statistico di N unità viene suddiviso in L sottoinsiemi disgiunti aventi numerosità N(1), N(2),…,N(L) e medie m(1), m(2),…, m(L), allora la media del collettivo può essere così calcolata
1
In una classe l’altezza media delle femmine è 170 cm, mentre l’altezza media dei maschi è 176 cm: qual è l’altezza media degli studenti della classe?
⋯
⋯
⋯
Forse 173 cm? Sì, ma solo se maschi e femmine sono in egual numero!
Supponiamo vi siano 5 femmine e 15 maschi: in tal caso l’altezza media è 170*5/20+176*15/20 = 174.5
Altro esempio: calcolare il reddito medio nazionale a partire dai redditi medi regionali
Dunque la proprietà associativa afferma che la media generale si ottiene come media ponderata delle medie dei sottoinsiemi, dove i pesi di ponderazione sono le proporzioni dei sottoinsiemi
L. Grilli - Statistica 2013/2014
47
48
L. Grilli - Statistica 2013/2014
Trasformazioni di media e mediana
Abbiamo visto che la media aritmetica di una trasformazione lineare dei dati è uguale alla trasformazione lineare della media aritmetica originale; questa proprietà vale solo per trasformazioni lineari:
Y=f(X) MY =f(MX)sef èlineare
Y=g(X) MY g(MX) seg nonèlineare
somma
media
mediana
Ad esempio, la media aritmetica del logaritmo naturale dei dati è diversa dal logaritmo naturale della media originale.
Per la mediana, invece, vale la seguente proprietà:
100+0.5*(media)
100+0.5*(mediana)
log(media)
log(mediana)
(media-17)^2
(mediana-17)^2
Y=h(X) MedY =h(MedX)seh èmonotona
Nota: una funzione lineare è un caso speciale di funzione monotona
(una funz. monotona crescente preserva l’ordinamento, mentre una funz. monotona decrescente inverte l’ordinamento, in entrambi i casi l’unità mediana è invariata)
L. Grilli - Statistica 2013/2014
49
originale
10
12
15
18
20
30
35
lineare
105.000
106.000
107.500
109.000
110.000
115.000
117.500
monotona
2.303
2.485
2.708
2.890
2.996
3.401
3.555
non monotona
49.000
25.000
4.000
1.000
9.000
169.000
324.000
140
20
18
770.000
110.000
109.000
20.338
2.905
2.890
581.000
83.000
25.000
110.000
109.000
2.996
2.890
9.000
1.000
L. Grilli - Statistica 2013/2014
50
Scarica