6. Indici di posizione L18_2

annuncio pubblicitario
Appunti di Statistica Sociale
Università “Kore” di Enna
INDICI DI POSIZIONE O DI TENDENZA CENTRALE
Gli indici di posizione, o di tendenza centrale, sono numeri che esprimono la sintesi numerica di
una distribuzione statistica (d’ora in avanti indicata dal simbolo ∼) di una variabile X.
I valori osservati possono essere distribuiti per:
i. unità;
ii. modalità;
iii. classi.
Gli indici di posizione più noti sono:
1. la moda;
2. la mediana;
3. la media aritmetica;
4. la media geometrica.
Data una distribuzione di valori osservati non sempre è ammissibile calcolare tutti e tre gli indici di
posizione. Infatti, la scelta dell’indice di tendenza centrale idoneo a descrivere una distribuzione di
valori dipende dalla natura (qualitativa o quantitativa) dei dati e dalla scala di misura adottata nel
processo di misurazione. Solo quando i dati sono di natura quantitativa, e quindi misurati almeno su
una scala di intervalli, si possono calcolare tutti e tre gli indici di tendenza centrale. La differenza
principale tra i tre indici sopra indicati risiede nel diverso contenuto informativo.
Gli indici sono qui di seguito elencati in ordine crescente di capacità informativa:
− la moda è l’unico indice di posizione che si può sempre calcolare, a partire da dati
misurati su scala nominale;
− la mediana si può calcolare per dati misurati almeno su scala ordinale;
− la media si può calcolare solo per dati quantitativi, misurati almeno su scala a
intervalli.
LA MODA
La moda di un insieme di dati può essere individuato in maniera diversa, in relazione alla forma
di organizzazione dei dati. Vediamo le diverse occasioni:
∼ per
unità: data una serie di osservazioni della variabile X, la moda è il valore osservato il
maggior numero di volte;
∼ per modalità: è la modalità, xk, di X a cui corrisponde la massima frequenza, nk.
∼ in classi: in questo caso più che di moda (intesa come valore puntale) si parla
di classe
modale. In generale, essa è la classe a cui corrisponde la massima densità, dk. Nel caso
in cui le classi siano equispaziate (uguale ampiezza), la classe modale è quella a cui
corrisponde la massima frequenza assoluta (o relativa).
È necessario calcolare dk per ogni classe:
1
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
dk =
nk
f
o dk = k
ak
ak
e individuare la classe cui corrisponde max(dk).
La moda di una distribuzione non è necessariamente unica. Se la distribuzione statistica ha
un’unica moda, la distribuzione si dirà unimodale, se ha due o più valori modali, la distribuzione
si dirà bimodale o, più in generale, plurimodale.
LE MEDIE LASCHE
Anche note sotto il nome di statistiche di posizione, sono quelle medie la cui individuazione si basa
sulla posizione (o rango) occupata da uno o più degli N termini della distribuzione ordinata di X. La
famiglia delle statistiche d’ordine è quella dei quantili, tra i quali i più utilizzati sono i quartili e
soprattutto la mediana.
Condizione necessaria per l’individuazione di un quantile è che la serie dei valori osservati sia
ordinata in una graduatoria, in senso almeno non decrescente:
x1 ≤ x2 ≤ … ≤ xi ≤ … ≤ xN
per i = 1, …, N
[1]
in modo da assegnare il rango, ri, a ciascuna osservazione.
LA MEDIANA
In una distribuzione di valori di X, la mediana, Me, è il valore che bipartisce la graduatoria [1],
ovvero la divide in due parti uguali, in modo da lasciare lo stesso numero di termini alla propria
sinistra e alla propria destra. Questo significa che Me è un baricentro, con il 50% di valori alla sua a
sinistra e il restante 50% alla sua destra.
La procedura per determinare la mediana varia al variare della forma di organizzazione dei dati
osservati e alla numerosità (se dispari o pari) delle osservazioni. La mediana di individua per passi:
-
innanzitutto, si determina la posizione (o rango) occupata dalla mediana in seno alla
graduatoria;
successivamente, si indica come mediana il valore osservato della variabile, corrispondente
a quella posizione.
Come detto precedentemente, il rango della mediana si determina in modo diverso, a seconda che N
sia dispari, o sia pari. In realtà ciò non vale quando i dati sono organizzati in una distribuzione di
frequenza in classi, come vedremo più avanti.
Vediamo ora come si determina la Me, quando si dispone di una distribuzione per unità.
~ per unità:
- se N è dispari, la mediana, Me, è quel valore osservato di X, la cui posizione mediana (pm) in
seno alla graduatoria è pari a:
2
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
 N +1 
pm = 
 , da cui discende che M e = x N +1 


 2 
 2 
- se N è pari, si avranno necessariamente due posizioni mediane, in corrispondenza delle quali vi
saranno due distinte unità statistiche con osservazioni di X, che potranno presentare uguale o
diversa modalità. In questo caso si parlerà di mediana convenzionale, dato che Me sarà calcolata
convenzionalmente come valore centrale dell’intervallo mediano (im), determinato dai valori
osservati, che occupano le posizioni mediane:
N
;
2
,
N
pm2 = + 1;
2
pm1 =


im =  x N  , x N  
  2   2 +1 
⇒
x N  + x N
e infine, M e =

 +1
2 
 
2
2
Esempio1
variabile (X) = numero di mesi trascorsi tra il momento della laurea e quello del primo impiego;
unità statistiche (us) = laureati della Università Kore in sessioni successive;
N = 18, numero di us;
xi = osservazione generica, per i = 1, …, 18:
xi = {4, 15, 10, 1, 14, 2, 16, 7, 7, 10, 10, 10, 13, 10, 14, 15, 16, 7}.
Innanzitutto è necessario ordinare in senso almeno non decrescente le osservazioni, xi, assegnando
a ciascuna di esse il proprio rango, ri:
xi:
ri :
1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16
1°, 2°, 3°, 4°, 5°, 6°, 7°, 8°, 9°, 10°, 11°, 12°, 13°, 14°, 15°, 16°, 17°, 18°
Innanzitutto, si individuano le due posizioni mediane, dato che N è pari:
N
N
pm1 =
= 9° e pm2 = + 1 = 9 + 1 = 10° ,
2
2
quindi, si individuano i due valori osservati di X che occupano le due posizioni mediane:
x N  = x 9° = 10 e x N  = x 10° = 10 ; poiché è x N  ≤ M e ≤ x N  , allora:
( )
( )
 
 +1
 
 +1
2
2

2
Me =
2

10 + 10
= 10 .
2
N.B: in questo esempio le due posizioni mediane sono occupate entrambe da due distinte
osservazioni di X, entrambe pari a 10. In generale non è detto ovviamente che ciò si verifichi.
3
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
~ per modalità:
Sostanzialmente il procedimento è identico al caso mostrato in precedenza. Infatti, ci si comporta
ancora in modo diverso a seconda che N sia dispari o pari. L’unica differenza dal punto di vista
procedurale consiste nel fatto che la, o le posizioni mediane si individuano ora facendo riferimento
alla colonna delle frequenze cumulate assolute, Nk (o relative, Fk).
- se N è dispari, la mediana è la più piccola modalità xk, la cui frequenza cumulata è:
N +1
⇒
Me = xk
Nk ≥
2
- se N è pari, come sappiamo esistono due posizioni mediane, che possono essere occupate o
entrambe dalla stessa modalità (vedi caso 1, sotto), o da due modalità diverse (vedi caso 2, sotto):
1. esiste un’unica frequenza assoluta cumulata, Nk, che soddisfa contemporaneamente le due
condizioni:
Nk >
N
N
= pm1 e N k ≥ + 1 = pm2
2
2
⇒
Me = xk
2. esistono due distinte frequenze assolute cumulate, tali che:
N k −1 =
N
N
= pm1 e N k ≥ + 1 = pm2
2
2
⇒ IM = [xk-1, xk] e M e =
xk −1 + xk
.
2
Esempio 2
data la seguente distribuzione di frequenza per modalità:
xk
10
12
14
17
18
20
22
24
26
27
28
29
33
31
Totale
nk
1
1
1
3
5
1
2
2
2
1
1
2
1
1
24
fk
0,042
0,042
0,042
0,124
0,208
0,042
0,083
0,083
0,083
0,042
0,042
0,083
0,042
0,042
1
Nk
1
2
3
6
11
12
14
16
18
19
20
22
23
24
Fk
0,042
0,084
0,126
0,250
0,458
0,500
0,583
0,666
0,749
0,791
0,833
0,916
0,958
1
Ci troviamo nel caso 2 sopra illustrato, ovvero, esistono due distinte frequenze assolute cumulate
che soddisfano la seconda condizione. Infatti:
4
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
pm1 =
N 24
N
24
=
= 12 = N 6 e pm2 = + 1 =
+ 1 = 12 + 1 = 13 < N 7 = 14 ,
2
2
2
2
⇒ IM = [xk-1, xk] = [20, 22] e M e =
xk −1 + xk 20 + 22
=
= 21 .
2
2
~ classi:
Quando i dati sono organizzati in una distribuzione di frequenza in classi, si procede diversamente
da quanto visto in precedenza, poiché non si distingue più il caso in cui N sia pari o dispari. Inoltre,
prima di determinare il valore puntuale della mediana sarà necessario individuare la classe mediana
(cme) all’interno della quale si trova la mediana. Analiticamente si devono seguire i seguenti passi:
N
1. si calcola
(sia per N dispari che per N pari);
2
N
2. si individua la cme come quella associata alla più piccola N k ≥ ;
2
3. si determina la Me secondo l’ipotesi dell’istogramma, a partire dalla cme = [xk-1, xk].
L’ipotesi dell’istogramma assume che entro ogni classe le frequenze siano equidistribuite, per cui la
frequenza è proporzionale all’intervallo considerato (secondo il concetto di densità, dk):
Area(cme) : a(cme) = Area[xk-1, Me] : a[xk-1, Me]
[2]
L’area (rappresentata dalla frequenza) della cme sta alla base (rappresentata dall’ampiezza) della
cme come l’area compresa tra l’estremo inferiore della cme e la mediana sta alla sua base (il
segmento di ampiezza Me – xk-1). Nell’espressione [2] si ha che:
1. Area(cme) = frequenza di cme = Nk – Nk-1 = nk;
2. a(cme) = ampiezza di cme = xk – xk-1;
N
3. Area[xk-1, Me] =
− N k −1 ;
2
4. a[xk-1, Me] = M e − xk −1 .
Sostituendo:
N

nk : ( xk − xk −1 ) =  − N k −1  : (M e − xk −1 )
2

ed esplicitando rispetto a Me:
(xk − xk −1 ) N − N k −1 
M e = xk −1 +
2
nk
.
Esempio 3:
• X = età delle vittime di incidenti stradali nell’anno 2010;
• unità statistiche = famiglie residenti in provincia di Enna;
• xk: reddito della k-esima famiglia.
5
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
Distribuzione di frequenza in classi:
Classi
0 |--- 10
10 |--- 15
15 |--- 20
20 |--- 25
25 |--- 30
30 |--- 35
35 |--- 45
nk
8
15
28
38
28
15
8
140
Nk
8
23
51
89
117
132
140
N 140
(5) × (70 − 51)
=
= 70 < 89 = N 4 ⇒ cm = (20, 25) ⇒ Me = 20 +
= 22.5 .
2
2
38
La classe mediana può anche essere individuata graficamente, dopo avere costruito un istogramma,
avendo cura di porre le frequenze relative cumulate, Fk, sull’asse delle ordinate; successivamente si
traccia la parallela all’asse delle ascisse, passante per il punto di ordinata Fk = 0.5. La cme è quella a
cui corrisponde la prima barra dell’istogramma intersecata dalla retta.
PROPRIETÀ DELLA MEDIANA
i. La somma dei valori assoluti degli scarti dei valori osservati xi dalla mediana è un minimo,
rispetto alla somma dei valori assoluti degli scarti dei valori osservati xi da un qualsiasi altro
valore:
n
∑ x −M
i
e
= min
i =1
ii. La mediana non è affetta dalla presenza di valori anomali (o outlier).
6
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
ALTRI INDICI DI POSIZIONE
I QUANTILI: Sono valori della distribuzione ordinata (1), che ripartiscono la graduatoria, in modo
da lasciare una “certa porzione” di termini alla propria sinistra e la restante parte alla
propria destra. Sono indici di posizione del tutto analoghi alla mediana. Si può
calcolare un numero indeterminato di quantili. I più comuni sono:
→ i quartili (Qi);
→ i decili (di);
→ i percentili (pi).
I QUARTILI: I quartili sono 3:
1.
2.
3.
Q1: ¼ dei termini a sinistra e ¾ a destra;
Q2: ½ a sinistra e ½ a destra;
Q3: ¾ a sinistra e ¼ a destra.
Caso 1: ~ unità o modalità: in luogo della distribuzione osservata di N us se ne determina una
nuova, N*, simile a essa, in modo che N* sia contemporaneamente multiplo di N e di 4.
Si confrontano i valori delle frequenze cumulate per la nuova distribuzione N* con:
1
1. N * per Q1;
4
2.
N*
per Q2;
2
3.
3 *
N per Q3.
4
Caso 2: ~ classi: si procede in modo analogo a quello visto per la determinazione della Me. Prima
s’individua la classe in cui cade ciascun quartile e poi il valore in base all’ipotesi dell’istogramma e
alla nota proporzione:
Area(Qi) : a(Qi) = Area[xk-1, Qi] : a[xk-1, Qi].
I DECILI: Sono 9. Il primo (d1) bipartisce la distribuzione in modo da lasciare 1/10 dei termini alla
sua sinistra e i restanti 9/10 alla sua destra. Si procede in modo analogo al calcolo dei
quartili, si considera quindi una nuova distribuzione, tale che N* sia multiplo di N e di 10.
Inoltre: d5 = Me
I PERCENTILI: Sono 99. Il primo (p1) bipartisce la distribuzione in modo da lasciare 1/100 dei
termini alla sua sinistra e i restanti 99/100 alla sua destra.
7
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
LE MEDIE ANALITICHE
Una media è un numero che esprime la sintesi dell’intensità con la quale un fenomeno studiato si è
manifestato in una distribuzione statistica semplice.
Definizione di Chisini:
Data una distribuzione semplice di valori, xi, per i = 1, 2, …, N, osservati su una popolazione, una
media è la quantità µx (o x , se i valori sono osservati su un campione) che, se sostituita a ciascun
termine della distribuzione, lascia inalterato il risultato dell’applicazione di una data funzione f(⋅) ai
termini della distribuzione stessa:
f(x1, x2, …, xN) = f(µ, µ, …, µ).
Il tipo di media cambia al variare della funzione applicata alla serie di dati.
LA MEDIA ARITMETICA
Se la applicata è, f(⋅) = Σ(⋅), la somma della serie (x1, x2, …, xN), la media sarà definita media
aritmetica, e avrà la seguente forma:
N
f(x1, x2, …, xN) = x1 + x2 + …+ xN =
∑x
i
i =1
e
f(µ, µ, …, µ) = µ + µ + … + µ = N⋅µ
le due quantità sono uguali per definizione e pertanto:
N
∑x
i
N
∑ x = N⋅ µ
⇒
i
i =1
N
i =1
=µ.
Esempio 4
1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16, 23, 24, 27, 27, 31, 32
N
N = 24,
∑ x = 345 e µ =
i
i =1
345
= 14,375 .
24
Quando si ha una distribuzione di valori per unità, come nel caso sopra esemplificato, e il
numeratore è la somma di tutte le N osservazioni xi, la cui frequenza è sempre uguale a uno, la
media, µ, si chiama media aritmetica semplice.
Quando, invece, i dati sono organizzati in una distribuzione di frequenza per modalità, xk, e il
numeratore è la somma dei prodotti delle modalità xk per le rispettive frequenze nk, allora la media,
µ, i chiama media aritmetica ponderata, la cui formalizzazione è:
8
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
K
∑x n
k k
µ=
k =1
K
∑n
k
k =1
Alcune proprietà della media aritmetica
i.
ii.
L’unicità e la semplicità: ovvero, per un dato insieme di osservazioni esiste una ed una
sola media aritmetica.
La somma algebrica degli scarti delle osservazioni xi dallo loro media aritmetica, µ, è
uguale a zero:
N
N
N
∑x
i
N
∑ (x − µ) = ∑ x − Nµ = ∑ x − (N ⋅
i
i =1
i
i =1
i
i =1
N
i =1
N
N
i =1
i =1
) = ∑ xi − ∑ xi = 0
iii. La somma dei quadrati degli scarti delle osservazioni xi dalla loro media aritmetica, µ, è
un minimo rispetto alla somma dei quadrati degli scarti delle stesse osservazioni xi da un
qualsiasi altro valore medio:
N
∑ (x − µ)
i
2
= min
i =1
Questa quantità è nota come devianza ed inoltre, quest’ultima proprietà è una delle più importanti,
perché garantisce la qualità dell’indice di variabilità associato alla media aritmetica.
Un limite della media aritmetica risiede nel fatto che è affetta dai valori anomali o outliers.
LA MEDIA GEOMETRICA
Se la funzione applicata è f(⋅) = Π(⋅), il prodotto della serie (x1, x2, …, xN), allora:
N
f ( x1 , x2 ,K, xN ) = x1 ⋅ x2 ⋅ K ⋅ xN = ∏ xi
i =1
Sostituendo ai termini una quantità costante, µg:
µ g ⋅ µ g ⋅ ... ⋅ µ g = µ gN
N
da cui si ottiene la media geometrica per unità:
⇒
µ gN = ∏ xi
i =1
N
µ g = N ∏ xi
i =1
K
e la media geometrica per (k) modalità:
µ g = N ∏ xkn
k
k =1
9
Fabio Aiello
Appunti di Statistica Sociale
Università “Kore” di Enna
LA MEDIA QUADRATICA
N
Se la funzione applicata è f(⋅) =
∑x
2
i
, la somma dei quadrati della serie (x1, x2, …, xi, …, xN),
i =1
allora:
f ( x1, x2 ,..., xN ) =
x12
+
x22
+ ... +
xN2
N
=
∑x
2
i
i =1
Sostituendo ai termini una costante, si ha:
µq + µq + ... + µq = N µq
N
∑x
da cui si ottiene la media quadratica per unità: µq =
K
2
i
i =1
N
∑x n
e la media quadratica per (k) modalità: µq =
2
k k
k =1
N
LA MEDIA ARMONICA
Se la funzione applicata è la somma degli inversi della serie (x1, x2, …, xi, …, xN), ovvero:
1 1
1
f ( x1, x2 ,..., xN ) = + + ... +
=
x1 x2
xN
N
1
i =1
i
∑x
Sostituendo una costante, µa, ai termini xi si ha:
f ( µa , µa ,..., µa ) =
Ponendo l’uguaglianza si ha:
N
µa
N
=
1
∑x
i =1
1
µa
⇒
i
+
1
µa
1
+ ... +
µa =
µa
=N⋅
1
µa
N
N
1
∑x
i =1
i
la media armonica per unità.
E la media armonica ponderata è: µa =
N
nk
x
k =1 k
K
∑
10
Fabio Aiello
Scarica