Appunti di Statistica Sociale Università Kore di Enna LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI La variabilità di un insieme di osservazioni attiene all’attitudine delle variabili studiate ad assumere modalità quantitative diverse. I termini variabilità, dispersione o variazione sono tra loro sinonimi. Come è noto, la media aritmetica è una misura di sintesi, che fornisce informazioni sulla posizione occupata dalle osservazioni ordinate sul continuum ideale impiegato per rappresentare la variabile. Questa da sola non è sufficiente a sintetizzare compiutamente il fenomeno osservato. È quindi necessario associarle una misura, che fornisca informazioni sul grado di diversità delle osservazioni ordinate sul continuum. In altre parole, mentre la media ci dice dov’è la distribuzione ordinata sul continuum, una misura di variabilità ci dice quanto è ampia la porzione di continuum occupata dalla distribuzione ordinata, o quanto sono diverse le osservazioni dalla media. Disporre di una misura di variabilità consente di conoscere l’ammontare di dispersione presente in un insieme di dati. Esistono indici di variabilità diversi, per tipi diversi di variabilità: ad esempio, potremmo essere interessati a conoscere il grado di diversità tra le singole osservazioni (differenze), o a conoscere il grado di diversità delle singole osservazioni, rispetto ad un valore centrale di riferimento (scostamenti). O, ancora, potremmo essere interessati a conoscere la variabilità di un unico insieme di dati (variabilità assoluta), o a confrontare di due o più insiemi di dati, rispetto alla variabilità in essi osservata (variabilità relativa). In ogni caso, scelto il tipo di variabilità e l’opportuno indice, questo dovrebbe soddisfare tre proprietà, ovvero essere: 1. pari a zero, se tutti i valori osservati sono uguali, ovvero quando la variabilità della distribuzione è nulla; 2. diverso da zero, se i valori osservati sono diversi tra loro, ovvero quando la variabilità della distribuzione è non nulla; 3. crescente al crescere del grado di diversità tra i valori osservati, ovvero quando la variabilità della distribuzione crescere. Ad esempio, se i valori osservati sono tra loro molto simili, sebbene diversi, l’ammontare di variabilità sarà di modesta entità. Più in generale, un indice di variabilità deve essere in grado di soddisfare due proprietà: i. assumere valore zero se e solo se tutti i termini della distribuzione osservata sono uguali tra loro; ii. variare al variare della diversità tra i valori osservati. La prima proprietà garantisce che se un indice di variabilità è uguale a zero, allora tutti i valori osservati sono uguali tra loro (e uguali alla media della distribuzione, se scegliamo di usare gli scostamenti). In tal caso la distribuzione è perfettamente individuata e qualunque sia l’indice di variabilità scelto, questo assumerà necessariamente valore pari a zero. La seconda proprietà richiede genericamente ad un indice di variabilità di riflettere il diverso grado di variabilità che i valori possono esibire, crescendo/diminuendo al crescere/diminuire della diversità tra i valori osservati. Per le variabili quantitative, ci occuperemo essenzialmente di misure di variabilità basate sugli scostamenti e di poche ed elementari misure basate su semplici differenze. Studieremo misure di variabilità assoluta e relativa. Docente: Fabio Aiello A.A. 2010/11 1 Appunti di Statistica Sociale Università Kore di Enna LA VARIABILITÀ ASSOLUTA Qui di seguito saranno esposte alcune misure di variabilità assoluta, ovvero della dispersione di un unico insieme di dati, assumendo che si tratti di N osservazioni ordinate, (x1, x2, …, xN), di una variabile X. Queste misure, come quelle di tendenza centrale, si calcolano opportunamente in base al modo in cui sono organizzati i dati. L’INTERVALLO DI VARIAZIONE (RANGE) Sia data la distribuzione per unità di N osservazioni, organizzate in graduatoria secondo un ordine non decrescente: x1 ≤ x2 ≤ … ≤ xN. Una misura elementare della dispersione di questa distribuzione è l’intervallo di variazione, o range (R). Esso è un indice di variabilità assoluta ed è dato dalla differenza fra due particolari valori osservati nell’insieme di dati: il valore più grande, o massimo, (xmax) ed il valore più piccolo, o minimo, (xmin). Poiché gli N valori sono ordinati, xmax=xN e xmin=x1 ed il range R è: R = xN – x 1 . [1] L’utilità del range è molto limitata, poiché esso tiene conto soltanto dei due valori estremi della distribuzione, ignorando qualsiasi informazione sul comportamento dei valori intermedi. A rigore infatti il range non è un “buon” indice di variabilità, perché disattende la seconda proprietà, dato che non varia al variare della diversità dei valori compresi tra gli estremi. Infatti, esso varia solo se varia la diversità tra i valori estremi, gli unici da cui dipende. Riassumendo, R è una misura grossolana della variabilità e, anche se molto usato perché facile da calcolare, deve essere usato con attenzione, perché affetto da due limiti: 1. non considera tutti i termini della distribuzione; 2. è sufficiente un solo valore anomalo, o outlier, tra x1 o xN, per modificarne sensibilmente il valore, qualunque sia la dispersione di tutti gli altri termini compresi tra x2 e xN – 1. Il vantaggio dell’uso di R è fondamentalmente legato alla sua semplicità di calcolo e all’immediatezza d’interpretazione che lo contraddistingue. LA DIFFERENZA INTERQUARTILE È una misura di variabilità assoluta che consente di superare, almeno parzialmente, l’inconveniente del range. Anch’essa è calcolata come differenza tra due soli termini della distribuzione, ma considera, due valori meno estremi della distribuzione, il primo quartile, Q1, ed il terzo, Q3: DI = Q3 – Q1. [2] Analoghe misure possono essere calcolate impiegando le differenze tra i percentili o i decili. In ogni caso tutti questi indici a rigore non possono essere considerati dei veri e propri indici di variabilità, perché sono tutti affetti dal problema al punto 1) del paragrafo precedente. LA VARIANZA A differenza delle due precedenti misure di variabilità, basate sulla differenza tra coppie di valori opportunamente scelti, la varianza è una misura di sintesi della dispersione dei valori osservati rispetto alla media aritmetica. Essa misura di quanto, in media, i valori osservati differiscono dalla loro media (aritmetica). Docente: Fabio Aiello A.A. 2010/11 2 Appunti di Statistica Sociale Università Kore di Enna In generale, quando i valori di un insieme di dati sono: 1. molto concentrati (poco dispersi) intorno alla loro media, la variabilità è bassa e il valore della varianza piccolo; 2. poco concentrati (molto dispersi) intorno alla loro media, la variabilità è alta e il valore della varianza grande. È chiaro che il valore assunto dalla varianza nel caso 1 è certamente minore di quello nel caso 2. È importante calcolare una misura di variabilità che tenga conto della dispersione dei valori osservati intorno alla loro media. Tale misura è un calcolata attraverso un rapporto, detto appunto varianza (σ2). Il numeratore, la devianza, è dato dalla somma dei quadrati delle differenza (scarti) tra ciascun valore osservato, xi, e la media, μ. Il denominatore è dato, invece, dal numero di termini (gli scarti) della sommatoria, ovvero dal numero di osservazioni N. Le quantità vanno individuate opportunamente, in relazione al modo in cui sono ordinate le N osservazioni. Infatti: - se si ha una distribuzione di N dati individuali ordinati, allora la formula della varianza è: N σ2 = ∑( x − μ ) 2 i i =1 . [3] N - se si ha una distribuzione di frequenza in k modalità, allora la formula della varianza è: K σ2 = ∑(x − μ ) nk 2 k k =1 . K ∑n k =1 [4] k Se, invece, i valori osservati sono distribuiti in k classi, analogamente a quanto visto per il calcolo della media aritmetica, nella formula [4], si sostituisce alla k-esima modalità, xk, il valore centrale della classe k-esima, cxk: K σ2 = ∑( k =1 c xk − μ ) nk 2 . K ∑n k =1 [5] k Se la varianza è riferita a dati campionari, al denominatore va posta la quantità (n – 1) e non N. La “formula ridotta” per il calcolo della varianza Quando il numero delle osservazioni è elevato, l’uso delle formule precedenti può essere troppo dispendioso. È utile allora ricorrere alle formule ridotte della varianza, che sono rispettivamente: - per N osservazioni: ⎛ N x ∑ ⎜ ∑ xi 2 i =1 σ = − ⎜ i =1 N ⎜ N ⎜ ⎝ N 2 i - ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ 2 per k modalità (o classi): ⎛ K ( x ) n ∑ k ⎜ ∑ xk nk 2 k =1 σ = − ⎜ k =1K K ⎜ nk ∑ ⎜ ∑ nk k =1 ⎝ k =1 K 2 k 2 ⎞ ⎟ ⎟ , ⎟ ⎟ ⎠ che fornisce la varianza come differenza tra la media quadratica e la media aritmetica al quadrato. Docente: Fabio Aiello A.A. 2010/11 3 Appunti di Statistica Sociale Università Kore di Enna È utile fare una riflessione circa il fatto che la varianza è espressa come risultato di differenze al quadrato tra valori espressi con identica unità di misura e ordine di grandezza. Pertanto, il valore finale di σ2 sarà espresso in unità di misura al quadrato! LA SCARTO QUADRATICO MEDIO Come abbiamo detto nel paragrafo precedente la varianza, σ2, è ottenuta come media degli scarti al quadrato dei valori osservati dalla media; pertanto, non è espressa nella stessa unità di misura dei valori osservati xi. Per pervenire a un indice di variabilità più sfruttabile, perché espresso nell’unità di misura originaria dei dati, è necessario estrarre la radice quadrata della varianza. Tale operazione conduce allo scarto quadratico medio, σ (se riferito agli N valori di una Popolazione), oppure, alla deviazione standard, s (se riferito agli n valori di un Campione). In generale, lo scarto quadratico medio di N valori distribuiti in k modalità è: K σ= ∑ (x k =1 k − μ ) 2 nk K ∑n k =1 . k Come nel caso della varianza, se la misura è riferita a dati campionari a denominatore deve essere posta la quantità (n – 1). Anche questo indice esprime di quanto in media ciascuna osservazione si scosti dalla propria media. LA VARIABILITÀ RELATIVA IL COEFFICIENTE DI VARIAZIONE Lo scarto quadratico medio (σ) è un’importante misura di variabilità di uno specifico insieme di dati. Ma, quando l’obiettivo è valutare e confrontare la variabilità di due o più insiemi di dati, non è sufficiente, né tanto meno corretto ricorrere ai singoli scarti quadratici. I casi in cui sia utile confrontare la variabilità di più insiemi di dati sono molteplici. Può verificarsi che i dati in studio siano relativi a osservazioni della stessa variabile in tempi e/o in luoghi diversi, espressi quindi con unità di misura e ordine di grandezza diversi: ad esempio, se si misura il reddito procapite in: Paesi diversi, con valute diverse, allora le osservazioni sono espresse in unità di misura diverse (ad esempio, dollaro in USA, euro in Italia, sterlina in GB, ecc.); oppure, in epoche diverse, allora le osservazioni possono essere espresse in unità di misura e ordini di grandezza diversi (in Italia negli anni 1930 il reddito medio annuale procapite era di circa £. 2.200, negli anni ’70 era di circa £ 17.500.000, negli anni ’90 di circa € 22.508,77). Altrimenti, si può essere interessati a confrontare la variabilità di due fenomeni diversi con unità di misura diverse, osservati sempre su un’unica popolazione di soggetti: ad esempio, i livelli di colesterolo (espressi in mg/100 ml) e la massa corporea (espressa in kg) di un gruppo di pazienti di un ospedale. Infine, anche se l’unità di misura è identica, si può essere interessati a confrontare gruppi di dati le cui medie sono molto diverse fra loro rispetto all’ordine di grandezza; come quando si confrontano due gruppi diversi di soggetti, rispetto alla massa corporea, dove il primo è composto da scolari di una classe elementare e il secondo da matricole universitarie. Se si ricorre alla deviazione standard dei pesi (espressi per entrambi i gruppi in kg) è certo che la deviazione standard del secondo gruppo assume un valore numerico decisamente maggiore della deviazione standard del primo gruppo (σ2 > σ1). Ciò avviene perché i pesi degli studenti universitari assumono valori decisamente maggiori di quelli degli scolari. In tal caso, l’unità di misura è comune ai due gruppi (i kg), ma la differenza osservata tra i due gruppi in termini di variabilità è spiegabile sia attraverso la differente dispersione delle masse corporee misurate, sia attraverso i differenti ordini di grandezza delle misure rilevate, che sono specifici per ciascuno dei due gruppi di soggetti. Quindi, possiamo dire che lo scarto Docente: Fabio Aiello A.A. 2010/11 4 Appunti di Statistica Sociale Università Kore di Enna quadratico medio produce una misura della variabilità che è “affetta” dall’unità di misura e dall’ordine di grandezza dei dati sui quali è calcolato. In casi come quelli esemplificati, quando l’obiettivo è confrontare gruppi di dati in base alla loro variabilità, l’uso di una misura di variabilità assoluta non è corretto; in tali casi è meglio ricorrere ad una misura di variabilità relativa. La misura più diffusa è il coefficiente di variazione (CV), dato dal rapporto tra lo scarto quadratico medio e la media aritmetica, ovvero: CV = σ ×100 μ moltiplicato per 100, per amplificare il risultato. Il rapporto tra due quantità espresse nella stessa unità di misura e ordine di grandezza, produce una misura scevra da queste. Ciò significa che il coefficiente di variazione è indipendente sia dall’unità di misura, che dall’ordine di grandezza. Per questo motivo esso è un numero puro. Riprendiamo l’esempio e supponiamo di avere misurato la massa corporea dei soggetti descritti nella tabella qui di seguito: Esempio: Risultati per due gruppi di maschi. Variabili Gruppo1 Età matricole Peso medio μ1 = 70 kg Deviazione standard (σ) σ1 = 4,5 kg Gruppo2 scolari μ2 = 36 kg σ2 = 4,5kg Vogliamo sapere se è più variabile il peso delle matricole o degli scolari. Se basassimo il confronto sulle due deviazioni standard potremmo concludere erroneamente che i due gruppi hanno uguale variabilità. Se invece ci affidiamo ai due coefficienti di variazione, avremo: 1. gruppo matricole: CV1 = (4,5/70) 100 = 6,4; 2. gruppo scolari: CV2 = (4,5/36) 100 = 12,5. Emerge chiaramente la diversa variabilità osservata nei due gruppi e si può concludere che la massa corporea osservata nei più giovani è molto più variabile di quella osservata nei più anziani. Docente: Fabio Aiello A.A. 2010/11 5 Appunti di Statistica Sociale Università Kore di Enna LE MISURE DI VARIABILITÀ DI CARATTERI QUALITATIVI Quando l’oggetto del proprio studio è un carattere qualitativo, il concetto di variabilità è inteso in termini di mutabilità, ovvero l’attitudine di un carattere ad assumere diverse modalità qualitative. Anche in questo contesto si costruiscono indici di mutabilità. Per fare ciò è necessario introdurre il concetto di omogeneità di un collettivo rispetto ad un carattere e, per converso, quello di eterogeneità. Un collettivo si dice omogeneo rispetto ad un carattere qualitativo se tutte le sue unità hanno la stessa modalità del carattere. Per converso, un collettivo è tanto più eterogeneo rispetto al carattere, quanto più le frequenze si ripartiscono uniformemente tra le varie modalità che esso può assumere. Come per gli indici di variabilità, un indice di mutabilità deve: 1. assumere valore zero se e solo se il collettivo è omogeneo; 2. variare al variare dell’eterogeneità tra i termini. INDICI DI ETEROGENEITÀ INDICE DI GINI L’indice di Gini gode di tutte le proprietà degli indici di eterogeneità. Si pensi a un carattere qualitativo con k modalità. L’indice di Gini (S) assume la forma: k S = 1 − ∑ f i2 . i =1 Esso vale zero se e solo se il collettivo è omogeneo: infatti, in questo caso si osserverà solo una delle k modalità del carattere, che avrà frequenza assoluta pari a N. Quindi, le frequenze relative delle k–1 restanti modalità saranno nulle, tranne quella della modalità osservata, che varrà uno. In tal caso l’indice assume il suo valore minimo: 2 ⎛N⎞ min(S) = 1 − ⎜ ⎟ = 0 ⎝N⎠ L’indice S assume, invece, il suo valore massimo quando le frequenze sono uniformemente distribuite tra tutte le k modalità, ovvero in caso di massima eterogeneità: Modalità a1 a2 … ai … ak Frequenze ass. N/k N/k … N/k … N/k N fi 1/k 1/k … 1/k … 1/k 1 fi2 1/k2 1/k2 … 1/k2 … 1/k2 1 k⋅ k2 ed è: 1 k −1 = . k k Il max(S) serve per calcolare l’indice di eterogeneità relativo, S*, rapportando l’indice assoluto S, calcolato sulla distribuzione osservata del carattere, al massimo calcolato sulla distribuzione teorica. Tale indice normalizzato serve per confrontare l’eterogeneità misurata su più collettivi, in particolare quando è diverso il numero di modalità delle distribuzioni da porre a confronto. max(S) = 1 − S* = Docente: Fabio Aiello S max( S ) A.A. 2010/11 6 Appunti di Statistica Sociale Università Kore di Enna INDICE DI ENTROPIA È un altro indice di eterogeneità molto in uso. Si assuma ancora un carattere con k modalità: K H = − ∑ f k log( f k ) k =1 dove log(fk) è il logaritmo in base qualsiasi di fk. Anche il massimo di H si ottiene da una distribuzione teorica massimizzante dell’eterogeneità ed è uguale a: k 1 1 max(H) = − ∑ log = log k k k i =1 k dove logk(k) indica il logaritmo in base k di fk. N.B. È da notare che gli indici di eterogeneità applicati alla distribuzione di frequenza di un carattere impiegano solo ed esclusivamente l’informazione relativa alle frequenze (indifferentemente nk o fk); mentre la varianza impiega sia l’informazione relativa alle frequenze (indifferentemente nk o fk), sia quella relativa alla determinazione quantitativa osservata del carattere (la modalità xk). Docente: Fabio Aiello A.A. 2010/11 7