4. Gli Indici di Tendenza Centrale_SDS

Appunti di Statistica Sociale
Università Kore di Enna
INDICI DI POSIZIONE O DI TENDENZA CENTRALE
Gli indici di posizione, o di tendenza centrale, sono numeri che esprimono la sintesi numerica di
una distribuzione (∼) statistica semplice di una variabile X.
I valori osservati possono essere distribuiti per:
i. unità;
ii. modalità;
iii. classi.
Gli indici di posizione più noti sono:
1. la moda;
2. la mediana;
3. la media aritmetica.
Data una distribuzione di valori osservati non sempre è ammissibile calcolare tutti e tre gli indici di
posizione. Infatti, la scelta dell’indice di tendenza centrale idoneo a descrivere una distribuzione di
valori dipende dalla natura (qualitativa o quantitativa) dei dati e dalla scala di misura adottata nel
processo di misurazione. Solo quando i dati sono di natura quantitativa e quindi misurati almeno su
una scala di intervalli, si possono calcolare tutti e tre gli indici di tendenza centrale.
La differenza principale tra gli indici risiede nel loro diverso contenuto informativo.
Gli indici sono qui di seguito elencati in ordine crescente di capacità informativa:
− la moda è l’unico indice di tendenza centrale che si può sempre calcolare, ovvero a
partire da dati misurati su scala nominale;
− la mediana si può calcolare per dati misurati almeno su scala ordinale;
− la media si può calcolare solo per dati quantitativi, misurati su scala almeno a
intervalli.
LA MODA:
∼ Unità: è il valore della variabile X osservato il maggior numero di volte;
∼ Modalità: è la modalità, xk, di X con la massima frequenza, nk.
∼ Classi: è la classe, detta modale, a cui corrisponde la frequenza massima.
Quando le classi hanno ampiezza diversa, la classe modale è quella a cui corrisponde la
massima densità, dk. È necessario calcolare la quantità dk per tutte le k classi:
dk =
fk
n
o dk = k
ak
ak
e quindi individuare la classe modale cui corrisponde max(dk).
La moda di una distribuzione non è necessariamente unica. Se la distribuzione statistica è
caratterizzata da:
1. un’unica moda, la distribuzione si dice unimodale;
2. due o più valori modali, la distribuzione si dice plurimodale.
Docente: Fabio Aiello
A.A. 2010/11
1
Appunti di Statistica Sociale
Università Kore di Enna
MEDIE LASCHE:
Sono quelle medie la cui individuazione si basa sulla posizione occupata da uno o più degli N
termini della distribuzione ordinata di X. La più nota tra queste è la mediana.
Condizione preliminare è che la serie di valori osservati sia ordinata in una graduatoria, in senso
almeno non decrescente, tale che:
x1 ≤ x2 ≤ … ≤ xN
[1]
La posizione occupata da un’osservazione in seno alla graduatoria si chiama rango ed è un numero
ordinale.
LA MEDIANA (Me):
La mediana, di una distribuzione di valori di X, è il valore che bipartisce la graduatoria [1], in
modo da lasciare alla propria sinistra e alla propria destra lo stesso numero di termini (xi, i = 1, …,
N). Questo significa che Me è un baricentro, con il 50% di valori alla sua a sinistra e il restante 50%
alla sua destra.
La procedura per determinare la mediana varia in relazione alla tipologia della distribuzione
statistica considerata e alla numerosità delle osservazioni. A tal proposito, è importante ricordare
che:
- prima, si determina la “posizione” occupata dalla mediana, in seno alla graduatoria, e poi si
individua la mediana;
- la posizione occupata dalla mediana si determina in modo diverso, a seconda che N sia
dispari o pari.
Vediamo come si determina la Me, a partire da una distribuzione per unità.
Caso 1: ~ unità:
i.
N dispari
la mediana Me è quel valore osservato di X tale che:
⎛ N +1 ⎞
a. ha posizione mediana nella graduatoria pari a ⎜
⎟ , da cui
⎝ 2 ⎠
b. M e = x⎛ N +1 ⎞
⎜
⎟
⎝ 2 ⎠
ii.
N pari
la mediana convenzionale Me appartiene ad un intervallo definito da:
⎡N N ⎤
a. due posizioni mediane ⎢ , + 1⎥ , da cui
⎣2 2 ⎦
x⎛ N ⎞ + x⎛ N ⎞
⎡
⎤
⎜ ⎟
⎜ +1⎟
⎝2⎠
⎝2 ⎠
⎢
b. M e =
e x⎛ N ⎞ , x⎛ N ⎞ ⎥ è l’intervallo mediano.
⎢ ⎜ ⎟ ⎜ +1⎟ ⎥
2
⎣⎢ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎦⎥
Esempio1:
X = numero di mesi trascorsi dal momento della laurea a quello del primo impiego;
unità statistiche (u.s.) = laureati della Kore in sezioni successive;
N = 18, numero di unità statistiche;
xi = osservazioni, per i = 1, …, 18:
xi = {4, 15, 10, 1, 14, 2, 16, 7, 7, 10, 10, 10, 13, 10, 14, 15, 16, 7}.
per calcolare la mediana della distribuzione per unità è necessario innanzitutto ordinare in senso
almeno non decrescente le osservazioni xi, assegnando a ciascuna di esse il proprio rango, ri:
Docente: Fabio Aiello
A.A. 2010/11
2
Appunti di Statistica Sociale
Università Kore di Enna
x i:
1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16
rango:
1°, 2°, 3°, 4°, 5°, 6°, 7°, 8°, 9°, 10°, 11°, 12°, 13°, 14°, 15°, 16°, 17°, 18°
x⎛ N ⎞ ≤ M e ≤ x⎛ N
N è pari, quindi:
⎞
⎜ +1⎟
2
⎝
⎠
⎜ ⎟
⎝2⎠
per cui:
x⎛ N ⎞ = x( 9) = 10 ;
⎜ ⎟
⎝2⎠
x⎛ N
⎞
⎜ +1⎟
⎝2 ⎠
= x(10) = 10 ;
e Me =
10 + 10
= 10 .
2
Caso 2: ~ modalità:
Ci si comporta ancora in modo diverso a seconda di N pari o dispari. Si individua la posizione
occupata dalla modalità mediana di X, facendo riferimento alla colonna delle frequenze cumulate
assolute, Nk, o relative, Fk.
La mediana è, per:
N +1
e
Me = xk
- N dispari, la più piccola modalità xk, la cui frequenza cumulata è: N k ≥
2
- N pari, la più piccola modalità xk la cui frequenza cumulata soddisfa una sola delle seguenti
condizioni:
N
N
e anche N k ≥ + 1 e
M e = xk
1. N k >
2
2
x
+x
N
N
2. oppure N k −1 =
e N k ≥ + 1 e allora: IM = [xk-1, xk] e
M e = k −1 k .
2
2
2
Esempio 2: usiamo la seguente distribuzione di frequenza per modalità:
xk
1
2
4
7
10
13
14
15
16
23
24
27
31
32
Totale
nk
1
1
1
3
5
1
2
2
2
1
1
2
1
1
24
fk
0,042
0,042
0,042
0,124
0,208
0,042
0,083
0,083
0,083
0,042
0,042
0,083
0,042
0,042
1
Nk
1
2
3
6
11
12
14
16
18
19
20
22
23
24
Fk
0,042
0,084
0,126
0,250
0,458
0,500
0,583
0,666
0,749
0,791
0,833
0,916
0,958
1
Caso 3: ~ classi:
La classe mediana (cme) può essere individuata in due modi equivalenti, o graficamente, o
analiticamente.
Graficamente è sufficiente costruire l’istogramma, ponendo sulle ordinate le frequenze relative
cumulate, Fk; successivamente si traccia la parallela all’asse delle ascisse, passante per il punto di
Docente: Fabio Aiello
A.A. 2010/11
3
Appunti di Statistica Sociale
Università Kore di Enna
ordinata Fk = 0.5. La cme è quella a cui corrisponde la prima barra dell’istogramma intersecata dalla
retta.
Analiticamente si devono seguire i seguenti passi:
1. si calcola
N
, sia per N dispari che per N pari;
2
N
;
2
3. si determina la Me secondo l’ipotesi dell’istogramma, a partire dalla cme = [xk-1, xk].
L’ipotesi dell’istogramma assume l’uniforme distribuzione delle frequenze in ogni classe, per cui la
frequenza è proporzionale all’intervallo considerato:
2. si individua la cme come quella associata alla più piccola N k ≥
Area(cme) : a(cme) = Area[xk-1, Me] : a[xk-1, Me]
L’area (la frequenza) della cme sta alla base (l’ampiezza) della cme come l’area compresa tra
estremo inferiore della cme e mediana sta alla sua base (il segmento di ampiezza Me – xk-1),
dove:
1. Area(cme) = frequenza di cme = nk;
2. a(cme) = ampiezza di cme = xk –xk-1;
N
3. Area[xk-1, Me] =
− N k −1 ;
2
4. a[xk-1, Me] = M e − xk −1 .
Sostituendo:
⎞
⎛N
nk : ( xk − xk −1 ) = ⎜ − N k −1 ⎟ : (M e − xk −1 )
⎠
⎝2
ed esplicitando rispetto a Me:
(xk − xk −1 )⎛⎜ N − N k −1 ⎞⎟
⎝2
⎠.
M e = xk −1 +
nk
Esempio 3:
X = reddito da lavoro delle famiglie della provincia di Enna
unità statistiche (u.s.) = famiglie residenti in provincia di Enna;
xk: reddito della k-esima famiglia.
Distribuzione di frequenza per classi:
Fi
fi
xk-1 ← xk (euro)
0,01 0,01
0 ← 1.000
0,02
0,03
1.000 ← 2.000
0,03 0,06
2.000 ← 3.000
0,04 0,10
3.000 ← 4.000
0,05 0,15
4.000 ← 5.000
0,05 0,20
5.000 ← 6.000
0,05 0,25
6.000 ← 7.000
0,15 0,40
7.000 ← 8.000
0,26 0,66
8.000 ← 9.000
0,25 0,91
9.000 ← 10.000
0,08 0,99
10.000 ← 11.000
0,01
1
11.000 ← 12.000
1
Docente: Fabio Aiello
A.A. 2010/11
4
Appunti di Statistica Sociale
Università Kore di Enna
ALTRI INDICI DI POSIZIONE
QUANTILE: è un valore che bipartisce la graduatoria (1), in modo da lasciare una “certa porzione”
di termini alla sua sinistra e la restante parte alla sua destra.
Si possono calcolare un numero indeterminato di quantili. Sono indici di posizione analoghi alla
mediana. I più comuni sono:
→ i quartili (Qi);
→ i decili (di);
→ i percentili (pi).
QUARTILI: I quartili sono 3:
1. Q1: ¼ dei termini a sinistra e ¾ a destra;
2. Q2: ½ a sinistra e ½ a destra;
3. Q3: ¾ a sinistra e ¼ a destra.
Caso 1: ~ unità o modalità:
in luogo della distribuzione osservata di N u.s. se ne determina una nuova, N*, simile a essa, in
modo che N* sia contemporaneamente multiplo di N e di 4.
Si confrontano i valori delle frequenze cumulate per la nuova distribuzione N* con:
1 *
1.
N per Q1;
4
N*
per Q2;
2
3 *
3.
N per Q3.
4
2.
Caso 2: ~ classi:
si procede in modo analogo a quello visto per la determinazione della Me. Prima s’individua la
classe in cui cade ciascun quartile e poi il valore in base all’ipotesi dell’istogramma e alla nota
proporzione:
Area(Qi) : a(Qi) = Area[xk-1, Qi] : a[xk-1, Qi].
DECILI: sono 9. Il primo (d1) bipartisce la distribuzione in modo da lasciare 1/10 dei termini alla
sua sinistra e i restanti 9/10 alla sua destra. Si procede in modo analogo al calcolo dei
quartili, si considera quindi una nuova distribuzione, tale che N* sia multiplo di N e di 10.
Inoltre:
d5 = Me
PERCENTILI: sono 99. Il primo (p1) bipartisce la distribuzione in modo da lasciare 1/100 dei termini
alla sua sinistra e i restanti 99/100 alla sua destra.
PROPRIETÀ DELLA MEDIANA
i. La somma dei valori assoluti degli scarti dei valori osservati xi dalla mediana è un minimo,
rispetto alla somma dei valori assoluti degli scarti dei valori osservati xi da un qualsiasi altro
valore:
n
∑ x −M
i =1
i
e
= min
ii. La mediana non è affetta dalla presenza di valori anomali (o outlier).
Docente: Fabio Aiello
A.A. 2010/11
5
Appunti di Statistica Sociale
Università Kore di Enna
LA MEDIA ARITMETICA
Una media è un indice che esprime una sintesi di una distribuzione statistica semplice.
Definizione di Chisini:
Data una distribuzione semplice di valori x1, x2, …, xi, …, xN, una media è la quantità μx (o x , in
caso di campione) che, se sostituita a ciascun termine della distribuzione, lascia inalterato il risultato
dell’applicazione della funzione f(⋅) ai termini della distribuzione stessa:
f(x1, x2, …, xi, …, xN) = f(μ, μ, …, μ).
Il tipo di media cambia al variare della funzione applicata ai dati. Così, se:
1. f(⋅) = Σ(⋅) è la somma, allora:
N
f (x1, x2, …, xi, …, xN) = x1+x2+…+xi+…+xN =
∑x
i =1
e
i
f(μ, μ, …, μ, …, μ) = μ+μ+…+μ+…+μ = Nμ
le due quantità sono uguali per definizione, quindi:
N
N
∑ xi = Nμ
∑x
⇒
i =1
i
=μ.
N
i =1
Esempio 4:
1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16, 23, 24, 27, 27, 31, 32
N
N = 24,
∑ x = 345 e μ =
i =1
i
345
= 14,375 .
24
Quando si ha una distribuzione di valori per unità, come nel caso sopra riportato, e il numeratore è
la somma di tutte le N osservazioni xi, la media μ è la media aritmetica semplice.
Quando, invece, si ha una distribuzione di frequenza per (k) modalità e il numeratore è la somma
dei prodotti delle modalità xk per le rispettive frequenze nk, la media μ è la media aritmetica
ponderata:
K
μ=
∑x n
k =1
K
k k
∑n
k =1
k
2. f(⋅) = Π(⋅) è il prodotto, allora:
x1⋅x2⋅…⋅xk⋅…⋅xN = μ⋅μ⋅…⋅μ⋅…⋅μ = μN
da cui si ottiene la media geometrica per unità:
μ g = N x1 ⋅ x2 ⋅… ⋅ xN
e la media geometrica per (k) modalità:
μ g = N x1n ⋅ x2n ⋅… ⋅ xkn
1
Docente: Fabio Aiello
2
k
A.A. 2010/11
6
Appunti di Statistica Sociale
e dato che:
Università Kore di Enna
fk =
nk
N
⇒
μ g = x1f ⋅ x2f ⋅… xkf .
1
2
k
3. f(⋅) = è la somma dei quadrati, allora:
(x1)2+(x2)2+…+(xi)2+…+(xN)2 = μ2+ μ2+…+ μ2+…+ μ2 = Nμ2
da cui si ottiene la media quadratica per unità:
N
∑x
Mq =
2
i
i =1
N
e la media quadratica per (k) modalità:
K
Mq =
∑x
k =1
2
k
N
=
K
∑f
k =1
k
xk2
PROPRIETÀ DELLA MEDIA ARITMETICA
i.
ii.
Unicità e semplicità: per un dato insieme di osservazioni esiste una ed una sola media
aritmetica.
La somma algebrica degli scarti delle osservazioni xi dallo loro media μ è uguale a zero:
N
N
N
N
∑x
i =1
i =1
i =1
N
∑ ( xi − μ ) = ∑ xi − N μ = ∑ xi − ( N ⋅
i =1
i
N
N
i =1
i =1
) = ∑ xi − ∑ xi = 0
iii. La somma dei quadrati degli scarti delle osservazioni xi dalla loro media è un minimo
rispetto alla somma dei quadrati degli scarti delle xi da una qualsiasi altro valore:
N
∑ (x − μ)
i =1
i
2
= min
L’ultima è una delle proprietà più importanti della media, perché garantisce la qualità dell’indice di
variabilità associato alla media aritmetica. Questa quantità è nota come devianza.
Un limite della media aritmetica risiede nel fatto che è affetta dai valori anomali o outliers.
Docente: Fabio Aiello
A.A. 2010/11
7