Appunti di Statistica Sociale Università “Kore” di Enna INDICI DI POSIZIONE O DI TENDENZA CENTRALE Gli indici di posizione, o di tendenza centrale, sono numeri che esprimono la sintesi numerica di una distribuzione statistica (d’ora in avanti indicata dal simbolo ∼) di una variabile X. I valori osservati possono essere distribuiti per: i. unità; ii. modalità; iii. classi. Gli indici di posizione più noti sono: 1. la moda; 2. la mediana; 3. la media aritmetica; 4. la media geometrica. Data una distribuzione di valori osservati non sempre è ammissibile calcolare tutti e tre gli indici di posizione. Infatti, la scelta dell’indice di tendenza centrale idoneo a descrivere una distribuzione di valori dipende dalla natura (qualitativa o quantitativa) dei dati e dalla scala di misura adottata nel processo di misurazione. Solo quando i dati sono di natura quantitativa, e quindi misurati almeno su una scala di intervalli, si possono calcolare tutti e tre gli indici di tendenza centrale. La differenza principale tra i tre indici sopra indicati risiede nel diverso contenuto informativo. Gli indici sono qui di seguito elencati in ordine crescente di capacità informativa: − la moda è l’unico indice di posizione che si può sempre calcolare, a partire da dati misurati su scala nominale; − la mediana si può calcolare per dati misurati almeno su scala ordinale; − la media si può calcolare solo per dati quantitativi, misurati almeno su scala a intervalli. LA MODA La moda di un insieme di dati può essere individuato in maniera diversa, in relazione alla forma di organizzazione dei dati. Vediamo le diverse occasioni: ∼ per unità: data una serie di osservazioni della variabile X, la moda è il valore osservato il maggior numero di volte; ∼ per modalità: è la modalità, xk, di X a cui corrisponde la massima frequenza, nk. ∼ in classi: in questo caso più che di moda (intesa come valore puntale) si parla di classe modale. In generale, essa è la classe a cui corrisponde la massima densità, dk. Nel caso in cui le classi siano equispaziate (uguale ampiezza), la classe modale è quella a cui corrisponde la massima frequenza assoluta (o relativa). È necessario calcolare dk per ogni classe: 1 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna dk = nk f o dk = k ak ak e individuare la classe cui corrisponde max(dk). La moda di una distribuzione non è necessariamente unica. Se la distribuzione statistica ha un’unica moda, la distribuzione si dirà unimodale, se ha due o più valori modali, la distribuzione si dirà bimodale o, più in generale, plurimodale. LE MEDIE LASCHE Anche note sotto il nome di statistiche di posizione, sono quelle medie la cui individuazione si basa sulla posizione (o rango) occupata da uno o più degli N termini della distribuzione ordinata di X. La famiglia delle statistiche d’ordine è quella dei quantili, tra i quali i più utilizzati sono i quartili e soprattutto la mediana. Condizione necessaria per l’individuazione di un quantile è che la serie dei valori osservati sia ordinata in una graduatoria, in senso almeno non decrescente: x1 ≤ x2 ≤ … ≤ xi ≤ … ≤ xN per i = 1, …, N [1] in modo da assegnare il rango, ri, a ciascuna osservazione. LA MEDIANA In una distribuzione di valori di X, la mediana, Me, è il valore che bipartisce la graduatoria [1], ovvero la divide in due parti uguali, in modo da lasciare lo stesso numero di termini alla propria sinistra e alla propria destra. Questo significa che Me è un baricentro, con il 50% di valori alla sua a sinistra e il restante 50% alla sua destra. La procedura per determinare la mediana varia al variare della forma di organizzazione dei dati osservati e alla numerosità (se dispari o pari) delle osservazioni. La mediana di individua per passi: - innanzitutto, si determina la posizione (o rango) occupata dalla mediana in seno alla graduatoria; successivamente, si indica come mediana il valore osservato della variabile, corrispondente a quella posizione. Come detto precedentemente, il rango della mediana si determina in modo diverso, a seconda che N sia dispari, o sia pari. In realtà ciò non vale quando i dati sono organizzati in una distribuzione di frequenza in classi, come vedremo più avanti. Vediamo ora come si determina la Me, quando si dispone di una distribuzione per unità. ~ per unità: - se N è dispari, la mediana, Me, è quel valore osservato di X, la cui posizione mediana (pm) in seno alla graduatoria è pari a: 2 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna N +1 pm = , da cui discende che M e = x N +1 2 2 - se N è pari, si avranno necessariamente due posizioni mediane, in corrispondenza delle quali vi saranno due distinte unità statistiche con osservazioni di X, che potranno presentare uguale o diversa modalità. In questo caso si parlerà di mediana convenzionale, dato che Me sarà calcolata convenzionalmente come valore centrale dell’intervallo mediano (im), determinato dai valori osservati, che occupano le posizioni mediane: N ; 2 , N pm2 = + 1; 2 pm1 = im = x N , x N 2 2 +1 ⇒ x N + x N e infine, M e = +1 2 2 2 Esempio1 variabile (X) = numero di mesi trascorsi tra il momento della laurea e quello del primo impiego; unità statistiche (us) = laureati della Università Kore in sessioni successive; N = 18, numero di us; xi = osservazione generica, per i = 1, …, 18: xi = {4, 15, 10, 1, 14, 2, 16, 7, 7, 10, 10, 10, 13, 10, 14, 15, 16, 7}. Innanzitutto è necessario ordinare in senso almeno non decrescente le osservazioni, xi, assegnando a ciascuna di esse il proprio rango, ri: xi: ri : 1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16 1°, 2°, 3°, 4°, 5°, 6°, 7°, 8°, 9°, 10°, 11°, 12°, 13°, 14°, 15°, 16°, 17°, 18° Innanzitutto, si individuano le due posizioni mediane, dato che N è pari: N N pm1 = = 9° e pm2 = + 1 = 9 + 1 = 10° , 2 2 quindi, si individuano i due valori osservati di X che occupano le due posizioni mediane: x N = x 9° = 10 e x N = x 10° = 10 ; poiché è x N ≤ M e ≤ x N , allora: ( ) ( ) +1 +1 2 2 2 Me = 2 10 + 10 = 10 . 2 N.B: in questo esempio le due posizioni mediane sono occupate entrambe da due distinte osservazioni di X, entrambe pari a 10. In generale non è detto ovviamente che ciò si verifichi. 3 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna ~ per modalità: Sostanzialmente il procedimento è identico al caso mostrato in precedenza. Infatti, ci si comporta ancora in modo diverso a seconda che N sia dispari o pari. L’unica differenza dal punto di vista procedurale consiste nel fatto che la, o le posizioni mediane si individuano ora facendo riferimento alla colonna delle frequenze cumulate assolute, Nk (o relative, Fk). - se N è dispari, la mediana è la più piccola modalità xk, la cui frequenza cumulata è: N +1 ⇒ Me = xk Nk ≥ 2 - se N è pari, come sappiamo esistono due posizioni mediane, che possono essere occupate o entrambe dalla stessa modalità (vedi caso 1, sotto), o da due modalità diverse (vedi caso 2, sotto): 1. esiste un’unica frequenza assoluta cumulata, Nk, che soddisfa contemporaneamente le due condizioni: Nk > N N = pm1 e N k ≥ + 1 = pm2 2 2 ⇒ Me = xk 2. esistono due distinte frequenze assolute cumulate, tali che: N k −1 = N N = pm1 e N k ≥ + 1 = pm2 2 2 ⇒ IM = [xk-1, xk] e M e = xk −1 + xk . 2 Esempio 2 data la seguente distribuzione di frequenza per modalità: xk 10 12 14 17 18 20 22 24 26 27 28 29 33 31 Totale nk 1 1 1 3 5 1 2 2 2 1 1 2 1 1 24 fk 0,042 0,042 0,042 0,124 0,208 0,042 0,083 0,083 0,083 0,042 0,042 0,083 0,042 0,042 1 Nk 1 2 3 6 11 12 14 16 18 19 20 22 23 24 Fk 0,042 0,084 0,126 0,250 0,458 0,500 0,583 0,666 0,749 0,791 0,833 0,916 0,958 1 Ci troviamo nel caso 2 sopra illustrato, ovvero, esistono due distinte frequenze assolute cumulate che soddisfano la seconda condizione. Infatti: 4 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna pm1 = N 24 N 24 = = 12 = N 6 e pm2 = + 1 = + 1 = 12 + 1 = 13 < N 7 = 14 , 2 2 2 2 ⇒ IM = [xk-1, xk] = [20, 22] e M e = xk −1 + xk 20 + 22 = = 21 . 2 2 ~ classi: Quando i dati sono organizzati in una distribuzione di frequenza in classi, si procede diversamente da quanto visto in precedenza, poiché non si distingue più il caso in cui N sia pari o dispari. Inoltre, prima di determinare il valore puntuale della mediana sarà necessario individuare la classe mediana (cme) all’interno della quale si trova la mediana. Analiticamente si devono seguire i seguenti passi: N 1. si calcola (sia per N dispari che per N pari); 2 N 2. si individua la cme come quella associata alla più piccola N k ≥ ; 2 3. si determina la Me secondo l’ipotesi dell’istogramma, a partire dalla cme = [xk-1, xk]. L’ipotesi dell’istogramma assume che entro ogni classe le frequenze siano equidistribuite, per cui la frequenza è proporzionale all’intervallo considerato (secondo il concetto di densità, dk): Area(cme) : a(cme) = Area[xk-1, Me] : a[xk-1, Me] [2] L’area (rappresentata dalla frequenza) della cme sta alla base (rappresentata dall’ampiezza) della cme come l’area compresa tra l’estremo inferiore della cme e la mediana sta alla sua base (il segmento di ampiezza Me – xk-1). Nell’espressione [2] si ha che: 1. Area(cme) = frequenza di cme = Nk – Nk-1 = nk; 2. a(cme) = ampiezza di cme = xk – xk-1; N 3. Area[xk-1, Me] = − N k −1 ; 2 4. a[xk-1, Me] = M e − xk −1 . Sostituendo: N nk : ( xk − xk −1 ) = − N k −1 : (M e − xk −1 ) 2 ed esplicitando rispetto a Me: (xk − xk −1 ) N − N k −1 M e = xk −1 + 2 nk . Esempio 3: • X = età delle vittime di incidenti stradali nell’anno 2010; • unità statistiche = famiglie residenti in provincia di Enna; • xk: reddito della k-esima famiglia. 5 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna Distribuzione di frequenza in classi: Classi 0 |--- 10 10 |--- 15 15 |--- 20 20 |--- 25 25 |--- 30 30 |--- 35 35 |--- 45 nk 8 15 28 38 28 15 8 140 Nk 8 23 51 89 117 132 140 N 140 (5) × (70 − 51) = = 70 < 89 = N 4 ⇒ cm = (20, 25) ⇒ Me = 20 + = 22.5 . 2 2 38 La classe mediana può anche essere individuata graficamente, dopo avere costruito un istogramma, avendo cura di porre le frequenze relative cumulate, Fk, sull’asse delle ordinate; successivamente si traccia la parallela all’asse delle ascisse, passante per il punto di ordinata Fk = 0.5. La cme è quella a cui corrisponde la prima barra dell’istogramma intersecata dalla retta. PROPRIETÀ DELLA MEDIANA i. La somma dei valori assoluti degli scarti dei valori osservati xi dalla mediana è un minimo, rispetto alla somma dei valori assoluti degli scarti dei valori osservati xi da un qualsiasi altro valore: n ∑ x −M i e = min i =1 ii. La mediana non è affetta dalla presenza di valori anomali (o outlier). 6 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna ALTRI INDICI DI POSIZIONE I QUANTILI: Sono valori della distribuzione ordinata (1), che ripartiscono la graduatoria, in modo da lasciare una “certa porzione” di termini alla propria sinistra e la restante parte alla propria destra. Sono indici di posizione del tutto analoghi alla mediana. Si può calcolare un numero indeterminato di quantili. I più comuni sono: → i quartili (Qi); → i decili (di); → i percentili (pi). I QUARTILI: I quartili sono 3: 1. 2. 3. Q1: ¼ dei termini a sinistra e ¾ a destra; Q2: ½ a sinistra e ½ a destra; Q3: ¾ a sinistra e ¼ a destra. Caso 1: ~ unità o modalità: in luogo della distribuzione osservata di N us se ne determina una nuova, N*, simile a essa, in modo che N* sia contemporaneamente multiplo di N e di 4. Si confrontano i valori delle frequenze cumulate per la nuova distribuzione N* con: 1 1. N * per Q1; 4 2. N* per Q2; 2 3. 3 * N per Q3. 4 Caso 2: ~ classi: si procede in modo analogo a quello visto per la determinazione della Me. Prima s’individua la classe in cui cade ciascun quartile e poi il valore in base all’ipotesi dell’istogramma e alla nota proporzione: Area(Qi) : a(Qi) = Area[xk-1, Qi] : a[xk-1, Qi]. I DECILI: Sono 9. Il primo (d1) bipartisce la distribuzione in modo da lasciare 1/10 dei termini alla sua sinistra e i restanti 9/10 alla sua destra. Si procede in modo analogo al calcolo dei quartili, si considera quindi una nuova distribuzione, tale che N* sia multiplo di N e di 10. Inoltre: d5 = Me I PERCENTILI: Sono 99. Il primo (p1) bipartisce la distribuzione in modo da lasciare 1/100 dei termini alla sua sinistra e i restanti 99/100 alla sua destra. 7 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna LE MEDIE ANALITICHE Una media è un numero che esprime la sintesi dell’intensità con la quale un fenomeno studiato si è manifestato in una distribuzione statistica semplice. Definizione di Chisini: Data una distribuzione semplice di valori, xi, per i = 1, 2, …, N, osservati su una popolazione, una media è la quantità µx (o x , se i valori sono osservati su un campione) che, se sostituita a ciascun termine della distribuzione, lascia inalterato il risultato dell’applicazione di una data funzione f(⋅) ai termini della distribuzione stessa: f(x1, x2, …, xN) = f(µ, µ, …, µ). Il tipo di media cambia al variare della funzione applicata alla serie di dati. LA MEDIA ARITMETICA Se la applicata è, f(⋅) = Σ(⋅), la somma della serie (x1, x2, …, xN), la media sarà definita media aritmetica, e avrà la seguente forma: N f(x1, x2, …, xN) = x1 + x2 + …+ xN = ∑x i i =1 e f(µ, µ, …, µ) = µ + µ + … + µ = N⋅µ le due quantità sono uguali per definizione e pertanto: N ∑x i N ∑ x = N⋅ µ ⇒ i i =1 N i =1 =µ. Esempio 4 1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16, 23, 24, 27, 27, 31, 32 N N = 24, ∑ x = 345 e µ = i i =1 345 = 14,375 . 24 Quando si ha una distribuzione di valori per unità, come nel caso sopra esemplificato, e il numeratore è la somma di tutte le N osservazioni xi, la cui frequenza è sempre uguale a uno, la media, µ, si chiama media aritmetica semplice. Quando, invece, i dati sono organizzati in una distribuzione di frequenza per modalità, xk, e il numeratore è la somma dei prodotti delle modalità xk per le rispettive frequenze nk, allora la media, µ, i chiama media aritmetica ponderata, la cui formalizzazione è: 8 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna K ∑x n k k µ= k =1 K ∑n k k =1 Alcune proprietà della media aritmetica i. ii. L’unicità e la semplicità: ovvero, per un dato insieme di osservazioni esiste una ed una sola media aritmetica. La somma algebrica degli scarti delle osservazioni xi dallo loro media aritmetica, µ, è uguale a zero: N N N ∑x i N ∑ (x − µ) = ∑ x − Nµ = ∑ x − (N ⋅ i i =1 i i =1 i i =1 N i =1 N N i =1 i =1 ) = ∑ xi − ∑ xi = 0 iii. La somma dei quadrati degli scarti delle osservazioni xi dalla loro media aritmetica, µ, è un minimo rispetto alla somma dei quadrati degli scarti delle stesse osservazioni xi da un qualsiasi altro valore medio: N ∑ (x − µ) i 2 = min i =1 Questa quantità è nota come devianza ed inoltre, quest’ultima proprietà è una delle più importanti, perché garantisce la qualità dell’indice di variabilità associato alla media aritmetica. Un limite della media aritmetica risiede nel fatto che è affetta dai valori anomali o outliers. LA MEDIA GEOMETRICA Se la funzione applicata è f(⋅) = Π(⋅), il prodotto della serie (x1, x2, …, xN), allora: N f ( x1 , x2 ,K, xN ) = x1 ⋅ x2 ⋅ K ⋅ xN = ∏ xi i =1 Sostituendo ai termini una quantità costante, µg: µ g ⋅ µ g ⋅ ... ⋅ µ g = µ gN N da cui si ottiene la media geometrica per unità: ⇒ µ gN = ∏ xi i =1 N µ g = N ∏ xi i =1 K e la media geometrica per (k) modalità: µ g = N ∏ xkn k k =1 9 Fabio Aiello Appunti di Statistica Sociale Università “Kore” di Enna LA MEDIA QUADRATICA N Se la funzione applicata è f(⋅) = ∑x 2 i , la somma dei quadrati della serie (x1, x2, …, xi, …, xN), i =1 allora: f ( x1, x2 ,..., xN ) = x12 + x22 + ... + xN2 N = ∑x 2 i i =1 Sostituendo ai termini una costante, si ha: µq + µq + ... + µq = N µq N ∑x da cui si ottiene la media quadratica per unità: µq = K 2 i i =1 N ∑x n e la media quadratica per (k) modalità: µq = 2 k k k =1 N LA MEDIA ARMONICA Se la funzione applicata è la somma degli inversi della serie (x1, x2, …, xi, …, xN), ovvero: 1 1 1 f ( x1, x2 ,..., xN ) = + + ... + = x1 x2 xN N 1 i =1 i ∑x Sostituendo una costante, µa, ai termini xi si ha: f ( µa , µa ,..., µa ) = Ponendo l’uguaglianza si ha: N µa N = 1 ∑x i =1 1 µa ⇒ i + 1 µa 1 + ... + µa = µa =N⋅ 1 µa N N 1 ∑x i =1 i la media armonica per unità. E la media armonica ponderata è: µa = N nk x k =1 k K ∑ 10 Fabio Aiello