Appunti di Statistica Sociale Università Kore di Enna INDICI DI POSIZIONE O DI TENDENZA CENTRALE Gli indici di posizione, o di tendenza centrale, sono numeri che esprimono la sintesi numerica di una distribuzione (∼) statistica semplice di una variabile X. I valori osservati possono essere distribuiti per: i. unità; ii. modalità; iii. classi. Gli indici di posizione più noti sono: 1. la moda; 2. la mediana; 3. la media aritmetica. Data una distribuzione di valori osservati non sempre è ammissibile calcolare tutti e tre gli indici di posizione. Infatti, la scelta dell’indice di tendenza centrale idoneo a descrivere una distribuzione di valori dipende dalla natura (qualitativa o quantitativa) dei dati e dalla scala di misura adottata nel processo di misurazione. Solo quando i dati sono di natura quantitativa e quindi misurati almeno su una scala di intervalli, si possono calcolare tutti e tre gli indici di tendenza centrale. La differenza principale tra gli indici risiede nel loro diverso contenuto informativo. Gli indici sono qui di seguito elencati in ordine crescente di capacità informativa: − la moda è l’unico indice di tendenza centrale che si può sempre calcolare, ovvero a partire da dati misurati su scala nominale; − la mediana si può calcolare per dati misurati almeno su scala ordinale; − la media si può calcolare solo per dati quantitativi, misurati su scala almeno a intervalli. LA MODA: ∼ Unità: è il valore della variabile X osservato il maggior numero di volte; ∼ Modalità: è la modalità, xk, di X con la massima frequenza, nk. ∼ Classi: è la classe, detta modale, a cui corrisponde la frequenza massima. Quando le classi hanno ampiezza diversa, la classe modale è quella a cui corrisponde la massima densità, dk. È necessario calcolare la quantità dk per tutte le k classi: dk = fk n o dk = k ak ak e quindi individuare la classe modale cui corrisponde max(dk). La moda di una distribuzione non è necessariamente unica. Se la distribuzione statistica è caratterizzata da: 1. un’unica moda, la distribuzione si dice unimodale; 2. due o più valori modali, la distribuzione si dice plurimodale. Docente: Fabio Aiello A.A. 2010/11 1 Appunti di Statistica Sociale Università Kore di Enna MEDIE LASCHE: Sono quelle medie la cui individuazione si basa sulla posizione occupata da uno o più degli N termini della distribuzione ordinata di X. La più nota tra queste è la mediana. Condizione preliminare è che la serie di valori osservati sia ordinata in una graduatoria, in senso almeno non decrescente, tale che: x1 ≤ x2 ≤ … ≤ xN [1] La posizione occupata da un’osservazione in seno alla graduatoria si chiama rango ed è un numero ordinale. LA MEDIANA (Me): La mediana, di una distribuzione di valori di X, è il valore che bipartisce la graduatoria [1], in modo da lasciare alla propria sinistra e alla propria destra lo stesso numero di termini (xi, i = 1, …, N). Questo significa che Me è un baricentro, con il 50% di valori alla sua a sinistra e il restante 50% alla sua destra. La procedura per determinare la mediana varia in relazione alla tipologia della distribuzione statistica considerata e alla numerosità delle osservazioni. A tal proposito, è importante ricordare che: - prima, si determina la “posizione” occupata dalla mediana, in seno alla graduatoria, e poi si individua la mediana; - la posizione occupata dalla mediana si determina in modo diverso, a seconda che N sia dispari o pari. Vediamo come si determina la Me, a partire da una distribuzione per unità. Caso 1: ~ unità: i. N dispari la mediana Me è quel valore osservato di X tale che: ⎛ N +1 ⎞ a. ha posizione mediana nella graduatoria pari a ⎜ ⎟ , da cui ⎝ 2 ⎠ b. M e = x⎛ N +1 ⎞ ⎜ ⎟ ⎝ 2 ⎠ ii. N pari la mediana convenzionale Me appartiene ad un intervallo definito da: ⎡N N ⎤ a. due posizioni mediane ⎢ , + 1⎥ , da cui ⎣2 2 ⎦ x⎛ N ⎞ + x⎛ N ⎞ ⎡ ⎤ ⎜ ⎟ ⎜ +1⎟ ⎝2⎠ ⎝2 ⎠ ⎢ b. M e = e x⎛ N ⎞ , x⎛ N ⎞ ⎥ è l’intervallo mediano. ⎢ ⎜ ⎟ ⎜ +1⎟ ⎥ 2 ⎣⎢ ⎝ 2 ⎠ ⎝ 2 ⎠ ⎦⎥ Esempio1: X = numero di mesi trascorsi dal momento della laurea a quello del primo impiego; unità statistiche (u.s.) = laureati della Kore in sezioni successive; N = 18, numero di unità statistiche; xi = osservazioni, per i = 1, …, 18: xi = {4, 15, 10, 1, 14, 2, 16, 7, 7, 10, 10, 10, 13, 10, 14, 15, 16, 7}. per calcolare la mediana della distribuzione per unità è necessario innanzitutto ordinare in senso almeno non decrescente le osservazioni xi, assegnando a ciascuna di esse il proprio rango, ri: Docente: Fabio Aiello A.A. 2010/11 2 Appunti di Statistica Sociale Università Kore di Enna x i: 1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16 rango: 1°, 2°, 3°, 4°, 5°, 6°, 7°, 8°, 9°, 10°, 11°, 12°, 13°, 14°, 15°, 16°, 17°, 18° x⎛ N ⎞ ≤ M e ≤ x⎛ N N è pari, quindi: ⎞ ⎜ +1⎟ 2 ⎝ ⎠ ⎜ ⎟ ⎝2⎠ per cui: x⎛ N ⎞ = x( 9) = 10 ; ⎜ ⎟ ⎝2⎠ x⎛ N ⎞ ⎜ +1⎟ ⎝2 ⎠ = x(10) = 10 ; e Me = 10 + 10 = 10 . 2 Caso 2: ~ modalità: Ci si comporta ancora in modo diverso a seconda di N pari o dispari. Si individua la posizione occupata dalla modalità mediana di X, facendo riferimento alla colonna delle frequenze cumulate assolute, Nk, o relative, Fk. La mediana è, per: N +1 e Me = xk - N dispari, la più piccola modalità xk, la cui frequenza cumulata è: N k ≥ 2 - N pari, la più piccola modalità xk la cui frequenza cumulata soddisfa una sola delle seguenti condizioni: N N e anche N k ≥ + 1 e M e = xk 1. N k > 2 2 x +x N N 2. oppure N k −1 = e N k ≥ + 1 e allora: IM = [xk-1, xk] e M e = k −1 k . 2 2 2 Esempio 2: usiamo la seguente distribuzione di frequenza per modalità: xk 1 2 4 7 10 13 14 15 16 23 24 27 31 32 Totale nk 1 1 1 3 5 1 2 2 2 1 1 2 1 1 24 fk 0,042 0,042 0,042 0,124 0,208 0,042 0,083 0,083 0,083 0,042 0,042 0,083 0,042 0,042 1 Nk 1 2 3 6 11 12 14 16 18 19 20 22 23 24 Fk 0,042 0,084 0,126 0,250 0,458 0,500 0,583 0,666 0,749 0,791 0,833 0,916 0,958 1 Caso 3: ~ classi: La classe mediana (cme) può essere individuata in due modi equivalenti, o graficamente, o analiticamente. Graficamente è sufficiente costruire l’istogramma, ponendo sulle ordinate le frequenze relative cumulate, Fk; successivamente si traccia la parallela all’asse delle ascisse, passante per il punto di Docente: Fabio Aiello A.A. 2010/11 3 Appunti di Statistica Sociale Università Kore di Enna ordinata Fk = 0.5. La cme è quella a cui corrisponde la prima barra dell’istogramma intersecata dalla retta. Analiticamente si devono seguire i seguenti passi: 1. si calcola N , sia per N dispari che per N pari; 2 N ; 2 3. si determina la Me secondo l’ipotesi dell’istogramma, a partire dalla cme = [xk-1, xk]. L’ipotesi dell’istogramma assume l’uniforme distribuzione delle frequenze in ogni classe, per cui la frequenza è proporzionale all’intervallo considerato: 2. si individua la cme come quella associata alla più piccola N k ≥ Area(cme) : a(cme) = Area[xk-1, Me] : a[xk-1, Me] L’area (la frequenza) della cme sta alla base (l’ampiezza) della cme come l’area compresa tra estremo inferiore della cme e mediana sta alla sua base (il segmento di ampiezza Me – xk-1), dove: 1. Area(cme) = frequenza di cme = nk; 2. a(cme) = ampiezza di cme = xk –xk-1; N 3. Area[xk-1, Me] = − N k −1 ; 2 4. a[xk-1, Me] = M e − xk −1 . Sostituendo: ⎞ ⎛N nk : ( xk − xk −1 ) = ⎜ − N k −1 ⎟ : (M e − xk −1 ) ⎠ ⎝2 ed esplicitando rispetto a Me: (xk − xk −1 )⎛⎜ N − N k −1 ⎞⎟ ⎝2 ⎠. M e = xk −1 + nk Esempio 3: X = reddito da lavoro delle famiglie della provincia di Enna unità statistiche (u.s.) = famiglie residenti in provincia di Enna; xk: reddito della k-esima famiglia. Distribuzione di frequenza per classi: Fi fi xk-1 ← xk (euro) 0,01 0,01 0 ← 1.000 0,02 0,03 1.000 ← 2.000 0,03 0,06 2.000 ← 3.000 0,04 0,10 3.000 ← 4.000 0,05 0,15 4.000 ← 5.000 0,05 0,20 5.000 ← 6.000 0,05 0,25 6.000 ← 7.000 0,15 0,40 7.000 ← 8.000 0,26 0,66 8.000 ← 9.000 0,25 0,91 9.000 ← 10.000 0,08 0,99 10.000 ← 11.000 0,01 1 11.000 ← 12.000 1 Docente: Fabio Aiello A.A. 2010/11 4 Appunti di Statistica Sociale Università Kore di Enna ALTRI INDICI DI POSIZIONE QUANTILE: è un valore che bipartisce la graduatoria (1), in modo da lasciare una “certa porzione” di termini alla sua sinistra e la restante parte alla sua destra. Si possono calcolare un numero indeterminato di quantili. Sono indici di posizione analoghi alla mediana. I più comuni sono: → i quartili (Qi); → i decili (di); → i percentili (pi). QUARTILI: I quartili sono 3: 1. Q1: ¼ dei termini a sinistra e ¾ a destra; 2. Q2: ½ a sinistra e ½ a destra; 3. Q3: ¾ a sinistra e ¼ a destra. Caso 1: ~ unità o modalità: in luogo della distribuzione osservata di N u.s. se ne determina una nuova, N*, simile a essa, in modo che N* sia contemporaneamente multiplo di N e di 4. Si confrontano i valori delle frequenze cumulate per la nuova distribuzione N* con: 1 * 1. N per Q1; 4 N* per Q2; 2 3 * 3. N per Q3. 4 2. Caso 2: ~ classi: si procede in modo analogo a quello visto per la determinazione della Me. Prima s’individua la classe in cui cade ciascun quartile e poi il valore in base all’ipotesi dell’istogramma e alla nota proporzione: Area(Qi) : a(Qi) = Area[xk-1, Qi] : a[xk-1, Qi]. DECILI: sono 9. Il primo (d1) bipartisce la distribuzione in modo da lasciare 1/10 dei termini alla sua sinistra e i restanti 9/10 alla sua destra. Si procede in modo analogo al calcolo dei quartili, si considera quindi una nuova distribuzione, tale che N* sia multiplo di N e di 10. Inoltre: d5 = Me PERCENTILI: sono 99. Il primo (p1) bipartisce la distribuzione in modo da lasciare 1/100 dei termini alla sua sinistra e i restanti 99/100 alla sua destra. PROPRIETÀ DELLA MEDIANA i. La somma dei valori assoluti degli scarti dei valori osservati xi dalla mediana è un minimo, rispetto alla somma dei valori assoluti degli scarti dei valori osservati xi da un qualsiasi altro valore: n ∑ x −M i =1 i e = min ii. La mediana non è affetta dalla presenza di valori anomali (o outlier). Docente: Fabio Aiello A.A. 2010/11 5 Appunti di Statistica Sociale Università Kore di Enna LA MEDIA ARITMETICA Una media è un indice che esprime una sintesi di una distribuzione statistica semplice. Definizione di Chisini: Data una distribuzione semplice di valori x1, x2, …, xi, …, xN, una media è la quantità μx (o x , in caso di campione) che, se sostituita a ciascun termine della distribuzione, lascia inalterato il risultato dell’applicazione della funzione f(⋅) ai termini della distribuzione stessa: f(x1, x2, …, xi, …, xN) = f(μ, μ, …, μ). Il tipo di media cambia al variare della funzione applicata ai dati. Così, se: 1. f(⋅) = Σ(⋅) è la somma, allora: N f (x1, x2, …, xi, …, xN) = x1+x2+…+xi+…+xN = ∑x i =1 e i f(μ, μ, …, μ, …, μ) = μ+μ+…+μ+…+μ = Nμ le due quantità sono uguali per definizione, quindi: N N ∑ xi = Nμ ∑x ⇒ i =1 i =μ. N i =1 Esempio 4: 1, 2, 4, 7, 7, 7, 10, 10, 10, 10, 10, 13, 14, 14, 15, 15, 16, 16, 23, 24, 27, 27, 31, 32 N N = 24, ∑ x = 345 e μ = i =1 i 345 = 14,375 . 24 Quando si ha una distribuzione di valori per unità, come nel caso sopra riportato, e il numeratore è la somma di tutte le N osservazioni xi, la media μ è la media aritmetica semplice. Quando, invece, si ha una distribuzione di frequenza per (k) modalità e il numeratore è la somma dei prodotti delle modalità xk per le rispettive frequenze nk, la media μ è la media aritmetica ponderata: K μ= ∑x n k =1 K k k ∑n k =1 k 2. f(⋅) = Π(⋅) è il prodotto, allora: x1⋅x2⋅…⋅xk⋅…⋅xN = μ⋅μ⋅…⋅μ⋅…⋅μ = μN da cui si ottiene la media geometrica per unità: μ g = N x1 ⋅ x2 ⋅… ⋅ xN e la media geometrica per (k) modalità: μ g = N x1n ⋅ x2n ⋅… ⋅ xkn 1 Docente: Fabio Aiello 2 k A.A. 2010/11 6 Appunti di Statistica Sociale e dato che: Università Kore di Enna fk = nk N ⇒ μ g = x1f ⋅ x2f ⋅… xkf . 1 2 k 3. f(⋅) = è la somma dei quadrati, allora: (x1)2+(x2)2+…+(xi)2+…+(xN)2 = μ2+ μ2+…+ μ2+…+ μ2 = Nμ2 da cui si ottiene la media quadratica per unità: N ∑x Mq = 2 i i =1 N e la media quadratica per (k) modalità: K Mq = ∑x k =1 2 k N = K ∑f k =1 k xk2 PROPRIETÀ DELLA MEDIA ARITMETICA i. ii. Unicità e semplicità: per un dato insieme di osservazioni esiste una ed una sola media aritmetica. La somma algebrica degli scarti delle osservazioni xi dallo loro media μ è uguale a zero: N N N N ∑x i =1 i =1 i =1 N ∑ ( xi − μ ) = ∑ xi − N μ = ∑ xi − ( N ⋅ i =1 i N N i =1 i =1 ) = ∑ xi − ∑ xi = 0 iii. La somma dei quadrati degli scarti delle osservazioni xi dalla loro media è un minimo rispetto alla somma dei quadrati degli scarti delle xi da una qualsiasi altro valore: N ∑ (x − μ) i =1 i 2 = min L’ultima è una delle proprietà più importanti della media, perché garantisce la qualità dell’indice di variabilità associato alla media aritmetica. Questa quantità è nota come devianza. Un limite della media aritmetica risiede nel fatto che è affetta dai valori anomali o outliers. Docente: Fabio Aiello A.A. 2010/11 7