Sintesi numerica di distribuzioni statistiche

annuncio pubblicitario
Sintesi numerica di distribuzioni statistiche
La sintesi numerica di una distribuzione statistica è basata sulla
costruzione di particolari indici numerici che delineano alcuni
aspetti essenziali della distribuzione in esame che consentono
anche un confronto fra le caratteristiche di distribuzioni diverse.
Tre famiglie principali: indici di tendenza centrale, indici di
variabilità o dispersione; indici di forma;
A tale sintesi si chiede di evidenziare gli aspetti principali di una
distribuzione, tenendo conto che tutte le volte che si
sintetizzano più dati con un solo valore, si perdono delle
informazioni. Il metodo statistico rende più obiettiva questa
sintesi.
– p. 2/32
Indici di tendenza centrale
Gli indici di tendenza centrale forniscono dei valori intorno ai quali
si può ritenere concentrata la variabile statistica in esame, dando
così un’idea sintetica del fenomeno cui si sta indagando.
Si può operare in due modi:
scegliendo come base alcune quantità assunte come
invarianti: =⇒ valori medi,
scegliendo alcuni valori caratteristici della distribuzione: =⇒
indici di posizione o medie lasche.
Una condizione richiesta che deve essere soddisfatta da un valor
medio è la cosidetta condizione di internalità di Cauchy:
a(1) ≤ M ≤ a(N )
dove a(1) e a(N ) sono rispettivamente il minimo ed il massimo di X.
– p. 3/32
Valori medi (medie secondo Chisini)
Sia X una v.s. su Ω avente distribuzione unitaria a1 , . . . , aN .
Si vuole studiare la ripartizione in parti uguali, fra le unità che
costituiscono in collettivo, dell’ammontare complessivo del
carattere(ciò ha significato solo se il carattere X è trasferibile).
Considerata una funzione f : RN → R, secondo la definizione di
Chisini, si chiama valore medio di X quel valore M tale che,
sostituito alle a1 , . . . , aN , soddisfi l’eguaglianza:
N
z }| {
f (a1 , . . . , aN ) = f (M, . . . , M ) .
In altre parole la quantità M lascia immutata una determinata
grandezza assunta come invariante ed espressa dal valore
f (a1 , . . . , an ).
– p. 4/32
Media aritmetica
Sia X una v.s. su una popolazione Ω. La media aritmetica si indica
con µ, x̄, M (X)
distribuzione unitaria a1 , . . . , aN di X:
a1 + a2 + · · · + aN
µ :=
N
distribuzione di frequenze assolute (x1 , n1 ), . . . , (xk , nk ) di X:
µ :=
x1 n1 + x2 n2 + · · · + xk nk
N
distribuzione di frequenze relative (x1 , f1 ), . . . , (xk , fk ) di X:
µ := x1 f1 + x2 f2 + · · · + xk fk
– p. 5/32
Media aritmetica - Esempio 1
xi
1
2
3
4
5
6
7
Totale
fi
0,206
0,247
0,222
0,212
0,790
0,024
0,010
1,000
xi f i
0,206
0,494
0,666
0,848
0,395
0,144
0,070
2,823
Quindi la media è x̄ = 2, 823.
– p. 6/32
Media aritmetica - Esempio 2
Classi di età
fino a 5 anni
5 - 14
15 -19
20 - 39
40 - 59
60 - 74
75 e oltre
Totale
xi
2,5
10,0
17,5
30,0
50,0
67,5
80,0
fi
0,049
0,110
0,760
0,301
0,253
0,144
0,067
1,000
xi f i
0,122
1,10
1,33
9,03
12,65
9,72
5,36
39,313
– p. 7/32
Proprietà Media aritmetica 1/2
1. la somma degli scarti dalla media è sempre nulla:
N
X
i=1
(ai − µ) = 0 ;
2. la somma dei quadrati degli scarti da un’origine arbitraria c
assume il valore minimo in corrispondenza della media
aritmetica:
N
X
x̄ = argc∈ min
(ai − c)2 .
i=1
3. (Linearità) La media aritmetica della variabile statistica aX + b,
dove a, b sono due costanti reali qualsiasi, è data da:
M (aX + b) = aM (X) + b .
– p. 8/32
Proprietà Media aritmetica 2/2
4. (Associativa) Supponiamo che la popolazione Ω di N u.s. sia
suddivisa in s sottopopolazioni contenenti rispettivamente
N1 , . . . , Ns u.s. Considerato il carattere quantitativo X si ha:
a11 , . . . , a1N1
a21 , . . . , a2N2
as1 , . . . , asNs
Allora segue:
N1
1 X
con media µ1 =
a1i
N1
1
con media µ2 =
N2
1
con media µs =
Ns
i=1
N2
X
i=1
Ns
X
a2i
···
asi
i=1
µ1 N1 + · · · + µs Ns
µ=
.
N1 + · · · + Ns
– p. 9/32
Media geometrica
Sia X una v.s. su una popolazione Ω, con X > 0.
distribuzione unitaria a1 , . . . , aN di X:
√
Mg (X) := a1 × · · · × aN =
N
N
Y
i=1
ai
!1/N
distribuzione di frequenze assolute (x1 , n1 ), . . . , (xk , nk ) di X:

Mg (X) := 
k
Y
j=1
n
1/N
xj j 
distribuzione di frequenze relative (x1 , f1 ), . . . , (xk , fk ) di X:
Mg (X) :=
k
Y
fj
xj
j=1
– p. 10/32
Proprietà della Media geometrica
Sia X una v.s. su una popolazione Ω, con X > 0.
1. Il logaritmo della media geometrica è uguale alla media
aritmetica dei logaritmi dei termini, cioè:
N
1 X
log Mg (X) =
log ai ;
N
i=1
Questa proprietà può essere applicata nel calcolo pratico della
media geometrica.
2. proprietà di omogeneità. La media geometrica è invariante per
cambiamenti dell’unità di misura, cioè per α > 0 si ha:
Mg (αX) = αMg (X) .
– p. 11/32
Media geometrica - Esercizio
Supponiamo di impiegare un capitale pari a S0 euro per cinque anni
ad un interesse composto i1 = 5% nel primo anno, i2 = 7% nel
secondo anno, i3 = 4% nel terzo anno, i4 = 6% nel quarto anno e
i5 = 5% nel quinto anno.
Ci si chiede:
restando costante l’ammontare finale, quale dovrebbe essere il
tasso medio iM a cui capitalizzare il nostro S0 in maniera tale che
alla fine dei cinque anni si ottiene la stessa somma?
– p. 12/32
Media armonica
Sia X una v.s. su una popolazione Ω, con X > 0.
distribuzione unitaria a1 , . . . , aN di X:
Ma (X) :=
1
a1
N
+ ··· +
1
aN
=
1
N
N
X
i=1
1
ai
!−1
distribuzione di frequenze assolute (x1 , n1 ), . . . , (xk , nk ) di X:
N
Ma (X) := Pk
nj
j=1 xj

−1
k
X
nj 
1

=
N
xj
j=1
distribuzione di frequenze relative (x1 , f1 ), . . . , (xk , fk ) di X:
Ma (X) := Pk
1
fj
j=1 xj

−1
k
X
fj 

=
xj
j=1
– p. 13/32
Proprietà della Media armonica
Sia X una v.s. su una popolazione Ω, con X > 0.
La media armonica è invariante per cambiamenti di unità di
misura:
Ma (αX) = αMa (X)
α>0;
si noti che la media armonica non è invariante per traslazione.
Si dimostra infine che le tre medie introdotte
soddisfano la relazione:
Ma (X) ≤ Mg (X) ≤ M (X) .
– p. 14/32
Media armonica - Esercizio
Un investitore acquista, con cadenza mensile, quote del fondo
Ferdinando Magellano per un valore complessivo di euro 100 (ogni
mese) secondo i periodi indicati:
Data
Valore quota
31/03/05
5,197
28/04/05
5,082
21/05/05
5,163
28/06/05
5,457
26/07/05
5,449
26/08/05
5,786
Calcolare il numero medio di quote acquistato mensilmente ed il
costo medio a cui viene pagata una quota nel periodo in esame.
– p. 15/32
Indici di posizione o medie lasche
Si chiamano medie lasche quei valori che si basano solo su
alcuni valori dell’intera distribuzione e prevalentemente
sull’ordine che gli elementi rilevati presentano rispetto alla
caratteristica osservata
Considereremo i seguenti indici di posizione:
1. il valore centrale,
2. la mediana,
3. i quartili (ed in generale i percentili),
4. la moda.
– p. 16/32
Valore Centrale
Il valore centrale è dato dalla semisomma dei valori estremi
della distribuzione:
a(1) + a(N )
C=
2
in cui a(1) e a(N ) sono rispettivamente il più piccolo ed il più
grande dei valori osservati.
Si noti che il valore centrale dipende unicamente dai due
valori estremi.
– p. 17/32
Mediana - Definizione
Sia X una variabile statistica quantitativa su Ω avente
distribuzione f (x). Si definisce mediana Me di X il valore
cui corrisponde una frequenza cumulata di 0, 5, cioè che
soddisfa l’equazione:
F (Me) = 0.5
In altre parole la mediana è quel valore tale che il 50% delle
osservazioni sono inferiori a tale valore ed il 50% delle
osservazioni sono superiori a tale valore.
Risulta quindi evidente che la mediana è invariante se si
diminuisce il valore di una (o più) delle osservazioni inferiori
alla mediana o se si aumenta il valore una (o più) delle
osservazioni maggiori della mediana.
– p. 18/32
Mediana - Calcolo pratico per v.s. discrete
Nel caso di v.s. discrete, la funzione di distribuzione cumulata è
costante a tratti e l’equazione F (x) = 0.5, salvo casi particolari, o
non ha soluzione oppure ne ammette infinite. In questo caso, si
considera cerca il valore ai tale che:
F (ai−1 ) ≤ 1/2 ≤ F (ai ) .
N dispari. L’equazione F (x) = 0.5 non ha soluzioni; si pone
come mediana il valore ai tale che:
F (ai−1 ) < 1/2 < F (ai )
⇒
Me
:= a( N +1 )
2
N pari. L’equazione F (x) = 0.5 ha infinite soluzioni; si
considera l’intervallo mediano [a(N/2) , a(N/2+1) ] e si pone come
mediana:
a(N/2) + a(N/2+1)
Me :=
2
– p. 19/32
Funz. dist. cumulata, caso N dispari
6
F (x)
rp
pp
0,5 p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p pppppt
pp
rp
pp
pp
pp
pp
pp
pp
pp
pp
pp
rp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
p
p
0
a1
a2
a3
rp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
p
rp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
p
a4
a5
– p. 20/32
Funz. dist. cumulata, caso N pari
6
F (x)
rpp
pp
pp
pp
p
rpp
pp
pp
pp
pp
pp
pp
pp
p
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
rpp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
rpp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
rp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
pp
p
a1
a2
a3
a4
a5
a6
0,5 p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p p rppp
0
– p. 21/32
Mediana - Calcolo pratico per v.s. continue
Nel caso di distribuzioni per classi di valori (v.s. continue), la
funzione di distribuzione cumulata è continua e monotona
crescente, pertanto l’equazione F (Me) = 0.5 ha un’unica soluzione.
6
q
Fi
B
Dq
0,5
Fi−1
Aq
qE
ei−1 Me
qC
ei
-
0, 5 − Fi−1
DE
(ei − ei−1 )
Me = ei−1 +
· AC = ei−1 +
fi
BC
(N + 1)/2 − Ni−1
= ei−1 +
(ei − ei−1 )
ni
– p. 22/32
Mediana - Esempio di calcolo 1
Consideriamo la seguente distribuzione:
xi
fi
Fi
1
0,206
0,206
2
0,247
0,453
3
0,222
0,675
4
0,212
0,887
5
0,079
0,966
6
0,024
0,990
7 e più
0,010
1,000
La mediana coincide con il valore cui corrisponde la frequenza
cumulata 0,5. Tale osservazione presenta modalità x = 3 e
pertanto Me=3.
– p. 23/32
Mediana - Esempio di calcolo 2
Consideriamo la distribuzione della popolazione italiana per età:
Classi di età
fi
Fi
fino a 5 anni
0,049
0,049
5 - 14
0,110
0,159
15 -19
0,076
0,235
20 - 39
0,301
0,536
40 - 59
0,253
0,789
60 - 74
0,144
0,933
75 e oltre
0,067
1,000
La classe mediana è la quarta classe [20, 40) e quindi
0, 5 − Fi−1
0, 5 − 0, 235
Me(X) = xi +
(xi+1 −xi ) = 20+
(40−20) = 37, 61.
fi
0, 301
– p. 24/32
Una proprietà della mediana
Sia X una v.s. avente distribuzione {(x1 , f1 ), . . . , (xk , fk )} ed
assumiamo che le modalità x1 , . . . , xk siano misurabili su scala
ordinale. Allora la mediana Me di X soddisfa la relazione:
Me
= argc∈R min
N
X
i=1
|ai − c| = argc∈R min
k
X
i=1
|xi − c|fi .
Lungo una strada statale vi sono distributori di
benzina al Km. 8 (2 distributori), al Km. 40 (tre distributori), al
Km. 61 (un distributore), al Km. 93 (due distributori) ed al Km.
106 (un distributore) che richiedono rifornimenti con uguale
frequenza. Dove si dovrà costruire un deposito di carburante
da cui partono le autobotti per rifornirli, in modo da minimizzare
i costi di trasporto, supposti proporzionali alle distanze?
Esercizio.
– p. 25/32
Soluzione esercizio
Essendo il costo di trasporto proporzionale alle distanze, il
problema è quello di individuare il punto di ascissa c che rende
minima la somma delle distanze da percorrere per rifornire ogni
distributore con uguale periodicità, uno per volta.
L’indice che soddisfa tale condizione è la mediana.
Avendo n = 9 distributori, la mediana coincide con il distributore di
posto (9 + 1)/2 = 5
i
xi
ni
Ni
1
8
2
2
32
2
40
3
5
3
61
1
4
95
5
106
Σ
xi ni
|xi − m|
64
16
46,78
93,56
0
0
120
14,78
44,33
6
21
21
61
6,22
6,22
2
8
55
110
190
40,22
80,44
1
9
66
66
106
51,22
51,22
261
493
9
|xi − M e| |xi − M e|ni
|xi − m|ni
275,78
– p. 26/32
Quartili, quantili, percentili
I quantili possono essere considerati come generalizzazioni
della mediana. I quantili sono quei valori che ripartiscono i
dati, disposti in ordine crescente, in parti uguali. In
particolare si considerano:
i quartili che suddividono i dati in 4 parti uguali aventi
ognuna il 25% della quantità totale (in particolare il
secondo quartile coincide con la mediana);
i decili che suddividono i dati in 10 parti uguali (in
particolare, il quinto decile coincide con la mediana);
i centili che suddividono i dati in 100 parti uguali (in
particolare, il cinquantesimo centile coincide con la
mediana).
– p. 27/32
Calcolo di quartili, quantili, percentili
Il calcolo dei quartiti,e più in generale quello dei quantili, si
effettua come quello della mediana.
Nell’ipotesi di uniforme distribuzione all’interno della classe,
il q -esimo quantile di X , denotato con xq , è dato da:
q − Fi−1
xq = xi +
(xi+1 − xi )
fi
dove i è l’indice della classe che contiene il q -esimo
quantile, xi e xi+1 sono rispettivamente l’estremo inferiore e
quello superiore di tale classe, fi è la frequenza relativa di
tale classe e Fi−1 è la frequenza cumulata della classe
precedente la classe che contiene il q -esimo quantile.
– p. 28/32
Calcolo di quantili, esempio
Calcoliamo il terzo quartile della distribuzione:
Classi di età
fi
Fi
fino a 5 anni
0,049
0,049
5 - 14
0,110
0,159
15 -19
0,076
0,235
20 - 39
0,301
0,536
40 - 59
0,253
0,789
60 - 74
0,144
0,933
75 e oltre
0,067
1,000
Il terzo quartile è contenuto nella quinta classe [40, 60) e quindi
0, 75 − Fi−1
0, 75 − 0, 536
Q3 (X) = xi +
(xi+1 −xi ) = 40+
(60−40) = 56, 92.
fi
0, 253
– p. 29/32
Moda o Modalità Prevalente
La moda o modalità prevalente Mo di un collettivo,
distribuito secondo un carattere X è la modalità cui è
associata la massima frequenza.
Se vi è una sola moda, si dice che la distribuzione è
unimodale; se vi sono due mode, si dice che la
distribuzione è usi dice che la distribuzione è bimodale;
etc.
Se la distribuzione è unitaria o di frequenze, allora la moda
è in generale ben definita;
se la v.s. è assegnata mediante una distribuzione per classi
di valori si può definire la classe modale, cioè la classe che
presenta la massima densità di frequenza.
– p. 30/32
Centri di ordine r
Assegnata una v.s. X quantitativa, si definisce centro di
ordine r, se esiste, il valore γ che rende minima la seguente
funzione:
k
X
|xi − c|r fi
ψ(c) :=
i=1
cioè:
γ = argc∈R min
k
X
i=1
|xi − c|r fi .
In particolare, si dimostra segue che la moda è il centro di
ordine 0; la mediana è il centro di ordine 1 e che la media
aritmetica è il centro di ordine 2.
– p. 31/32
La scelta della media
Quali criteri per scegliere l’indice più idoneo a sintetizzre la
distribuzione statistica in esame?
La moda è un indice che può essere calcolato su
distribuzioni secondo un carattere qualunque ed è
quello con la minor capacità informativa;
la mediana fornisce un livello di informazione superiore
e può essere calcolata su distribuzioni secondo variabili
o mutabili ordinabili;
infine le medie possono essere calcolate solo su
distribuzioni secondo caratteri quantitativi.
In presenza di valori anomali nella distribuzione così
e/o di condizioni di asimmetria, la mediana risulterà più
rappresentativa della media aritmetica poichè non
risente dei valori estremi della distribuzione.
– p. 32/32
Scarica