Indici di variabilità ed eterogeneità Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Prof. Roberta Siciliano Statistica 1 Obiettivi dell’unità didattica • Definire i concetti di base sulla variabilità ed eterogeneità • Richiamare l’attenzione su alcune proprietà della varianza Contenuti • • Indici di variabilità – Campo di variazione – Varianza, Scarto quadratico medio, Devianza – Coefficiente di variazione – Differenza interquartile Indici di eterogeneità – Indice del Gini – Indice di entropia Prof. Roberta Siciliano Statistica 2 1 Generalità sulla variabilità • La variabilità è espressione dell’attitudine di un carattere quantitativo ad assumere diverse modalità • L’uso congiunto di indici di posizione ed indici di variabilità permette di comprendere la dispersione dei dati rispetto alla centralità della distribuzione • Variabilità assoluta e relativa Prof. Roberta Siciliano Statistica 3 Variabilità e Dispersione Consideriamo il seguente esempio di tre studenti che hanno superato ciascuno tre esami: È facile vedere che se calcoliamo il voto medio e quello mediano per ciascun studente esso è pari a 24 Prof. Roberta Siciliano Statistica 4 2 Variabilità e Dispersione (cont.) Possiamo dire che i tre studenti hanno uno stesso comportamento agli esami? Dall’esempio risulta evidente che da soli gli indici di posizione non riescono a svelare esaustivamente il “segreto” delle distribuzioni!! Prof. Roberta Siciliano Statistica 5 Caratteristiche di un indice di variabilità • Assume valori maggiori o uguali a zero • E’ pari a zero quando il carattere si presenta con una sola modalità distinta (assenza di variabilità) • E’ invariante (ossia non modifica il suo valore) quando si aggiunge una costante a ciascun valore della distribuzione • Assume valori crescenti all’aumentare della variabilità Prof. Roberta Siciliano Statistica 6 3 Campo di variazione V = max(X) − min(X) = x( N ) − x(1) E’ un indice di variabilità assoluta € Prof. Roberta Siciliano Statistica 7 Varianza N 2 1 2 σ = ∑ ( x l − µ) N l =1 K 2 1 2 σ = ∑ ( x i − µ) n i N i=1 E’ un indice di variabilità assoluta Prof. Roberta Siciliano € Statistica 8 4 Caratteristiche principali • È una media • Vale sempre che: 2 0 ≤σ ≤ ∞ Prof. Roberta Siciliano Statistica 9 € Consideriamo la distribuzione massimizzante la variabilità Ipotizziamo (come caso limite) che nella nostra distribuzione abbiamo N-1 unità distinte con modalità pari a 0 ed una sola unità con modalità pari all’intero ammontare del carattere, ossia Nµ perché 1 N µ = ∑ xl N l =1 Tale assunzione presuppone che il carattere quantitativo sia additivo e trasferibile, ossia è ipotizzabile distribuire in maniera diversa l’ammontare complessivo del carattere (i.e., il reddito, il numero di addetti, etc.) € Prof. Roberta Siciliano € Statistica 10 5 Determiniamo il massimo della varianza Allora abbiamo: σ 2 = 1 (0 − µ) 2 (N −1) + (Nµ − µ) 2 ] = [ N 1 2 µ (N −1) + µ 2 (N −1) 2 ] = [ N 1 = [ µ 2 (N −1)(1+ N −1)] = N 1 = Nµ 2 (N −1) = µ 2 (N −1) N = Prof. Roberta Siciliano MAX Statistica 11 € La varianza può essere anche scritta come …. σ € σ 2 2 N N 2 1 1 = ∑ ( x l − µ) = ∑ x l2 − µ 2 N l =1 N l =1 2 1 N 1 N 2 = ∑ ( x l − µ) = ∑ ( x l − 2x l µ + µ 2 ) = N l =1 N l =1 1 N 2 1 N 1 = ∑ x l − 2 µ ∑ x l + Nµ 2 = N l =1 N l =1 N 1 N 2 1 N 2 2 2 = ∑ x l − 2µ + µ = ∑ x l − µ 2 N l =1 N l =1 Prof. Roberta Siciliano Statistica 12 € 6 Scarto Quadratico Medio σ= 2 1 N ∑ ( x − µ) N l =1 l σ= 2 1 K x − µ ni ( ) ∑ i N i=1 E’ un indice di variabilità assoluta € Prof. Roberta Siciliano Statistica 13 Perché è utile lo s.q.m. Il problema principale della varianza è che è espressa nell’unità di misura del fenomeno al quadrato!!!! Lo scarto quadratico medio risolve questo problema!!!! Prof. Roberta Siciliano Statistica 14 7 Coefficiente di Variazione σ CV = µ E’ un indice di variabilità relativa € Prof. Roberta Siciliano Statistica 15 Determiniamo il massimo del coefficiente di variazione nell’ipotesi di distribuzione massimizzante la variabilità Sappiamo che: 0 ≤ σ 2 ≤ µ 2 (N −1) ⇒ 0 ≤ σ ≤ µ N −1 0≤ € σ ≤ N −1 µ € € Prof. Roberta Siciliano Statistica 16 8 Coefficiente di Variazione normalizzato CVnorm CV = N −1 con 0 ≤ CVN ≤ 1 E’ un indice normalizzato € € Prof. Roberta Siciliano Statistica 17 Proprietà della varianza Consideriamo una variabile X e consideriamo la seguente trasformazione lineare: abbiamo che: σY2 = β 2σX2 Prof. Roberta Siciliano Statistica 18 € 9 Proprietà della varianza Consideriamo una variabile X e consideriamo la seguente trasformazione lineare: Y = βX + α abbiamo che: σY2 = β 2σX2 € ossia, aggiungendo o sottraendo una costante fissa a ciascun termine della distribuzione non modifica la variabilità della distribuzione stessa Prof. Roberta Siciliano Statistica 19 € Altri indici di variabilità Median Absolute Deviation (MAD) [ ( MAD = 1.8426 median x l − Me l = 1,...,N )] Differenza Interquartile D = Q3 − Q1 € Prof. Roberta Siciliano Statistica 20 € 10 Eterogeneità e omogeneità • Indici di eterogeneità o di omogeneità possono essere calcolati per dati qualitativi e quantitativi quantitativi operando unicamente sulle frequenze. • Eterogeneità per dati qualitativi: mutabilità • Omogeneità per dati quantitativi: concentrazione Prof. Roberta Siciliano Statistica 21 Omogeneità vs. eterogeneità • Massima omogeneità: tutte le unità presentano la stessa modalità di X f i* = 1 fi = 0 i ≠ i * fi = 1 K i = 1,…,K • Massima eterogeneità: le unità si distribuiscono uniformemente tra € le K modalità distinte di X Prof. Roberta Siciliano €Statistica 22 11 L’indice di eterogeneità di Gini K H = 1 − ∑ f i2 i=1 • In presenza di massima omogeneità • In presenza di massima eterogeneità € H max ⎛ 1 ⎞ 2 ⎛ 1 ⎞ K −1 = 1 − ∑ f i = 1 − ∑⎜ ⎟ = 1 − K ⎜ 2 ⎟ = ⎝ K ⎠ ⎝ K ⎠ K 2 Prof. Roberta Siciliano Statistica 23 € L’indice “normalizzato” di Gini 1 − ∑ fi H H norm = = K −1 H max K con 0 ≤ H norm ≤ 1 € Prof. Roberta Siciliano Statistica 2 24 12 Indice di Entropia di Shannon H S = −∑ f i log( f i ) Indice normalizzato di Entropia di Shannon H S norm = € Prof. Roberta Siciliano −∑ f i log( f i ) log(K ) Statistica 25 € 13