Appunti di Statistica Sociale Università “Kore” di Enna LE MISURE DI VARIABILITÀ DI CARATTERI QUANTITATIVI L’osservazione di uno o più fenomeni su delle unità statistiche conduce quasi sempre all’osservazioni di determinazioni diverse tra le diverse unità statistiche. Quando le variabili sono quantitative, le determinazioni assumono la tradizionale forma numerica. La variabilità di un insieme di osservazioni attiene all’attitudine delle variabili studiate ad assumere modalità numeriche diverse. I termini variabilità, dispersione o variazione sono tra loro sinonimi. Come è noto, la media aritmetica è una misura di sintesi, che fornisce informazioni sulla posizione occupata dalle osservazioni ordinate su un continuum ideale impiegato per rappresentare la variabile. Da sola la media non è sufficiente a sintetizzare compiutamente il fenomeno osservato. È infatti necessario associarle una misura che fornisca informazioni sul grado di diversità delle osservazioni ordinate sul continuum. In altre parole, mentre la media ci dice dov’è la distribuzione ordinata sul continuum, una misura di variabilità ci può dire quanto è ampia la porzione di continuum occupata dalla distribuzione ordinata, o anche quanto diverse sono le osservazioni poste sul continuum. Disporre di una misura di variabilità consente di conoscere l’ammontare di dispersione presente in un insieme di dati. Esistono indici di variabilità diversi, per tipi diversi di variabilità: ad esempio, potremmo essere interessati a conoscere il grado di diversità tra tutte le coppie formate con le singole osservazioni (differenze semplici), o a conoscere il grado di diversità di ciascuna osservazione rispetto ad un valore centrale di riferimento (scostamenti). O, ancora, potremmo essere interessati a conoscere la variabilità di un unico insieme di dati (variabilità assoluta), o a confrontare di due o più insiemi di dati, rispetto alla variabilità in essi osservata (variabilità relativa). In ogni caso, scelto il tipo di variabilità e l’opportuno indice, questo dovrebbe sempre soddisfare tre proprietà, ovvero, essere: 1. pari a zero, quando tutti i valori osservati sono uguali tra loro, ovvero quando la variabilità della distribuzione è nulla; 2. diverso da zero, quando i valori osservati sono diversi tra loro, ovvero quando la variabilità della distribuzione è non nulla; 3. crescente (decrescente) al crescere (decrescere) del grado di diversità tra i valori osservati, ovvero quando la variabilità della distribuzione cresce (decresce). Ad esempio, se i valori osservati sono tra loro molto simili, sebbene diversi, l’ammontare di variabilità sarà di modesta entità. Più in generale, un indice di variabilità deve essere in grado di soddisfare due proprietà: i. assumere valore zero se e solo se tutti i termini della distribuzione osservata sono uguali tra loro; ii. variare al variare della diversità tra i valori osservati. La prima proprietà garantisce che, se un indice di variabilità è uguale a zero, allora tutti i valori osservati sono uguali tra loro (e uguali alla media della distribuzione, se scegliamo di usare gli scostamenti). In tal caso la distribuzione è perfettamente individuata e qualunque sia l’indice di variabilità scelto, questo assumerà necessariamente valore pari a zero. La seconda proprietà richiede genericamente ad un indice di variabilità di riflettere il diverso grado di variabilità che i valori possono esibire, crescendo, o diminuendo, al crescere, o al descrere della diversità tra i valori osservati. Fabio Aiello 1 Appunti di Statistica Sociale Università “Kore” di Enna Per le variabili quantitative, ci occuperemo essenzialmente di misure di variabilità basate sugli scostamenti e di poche ed elementari misure basate su semplici differenze. Studieremo misure di variabilità assoluta e relativa. LA VARIABILITÀ ASSOLUTA Qui di seguito saranno esposte alcune misure di variabilità assoluta, ovvero della dispersione osservata su un unico insieme di dati, assumendo che si tratti di N osservazioni ordinate, (x1, x2, …, xN), di una variabile quantitativa X. Queste misure, come quelle di tendenza centrale, si calcolano opportunamente in base al modo in cui sono organizzati i dati. L’INTERVALLO DI VARIAZIONE (RANGE) Sia data la distribuzione per unità di N osservazioni, organizzate in una graduatoria, secondo un ordine non decrescente, tale che: x1 ≤ x2 ≤ … ≤ xN. Una misura della dispersione presente in questa distribuzione è l’intervallo di variazione, o range (R). Esso è un indice di variabilità assoluta elementare, dato dalla differenza fra due particolari valori osservati nell’insieme di dati ordinati: il valore osservato più grande, o massimo, (xmax) ed il valore osservato più piccolo, o minimo, (xmin). Poiché gli N valori sono ordinati, si ha che xmax = xN e xmin = x1, così il range (R) è: R = xN – x1 = xmax – xmin [1] L’utilità del range è molto limitata, poiché esso tiene conto soltanto dei due valori estremi della distribuzione, ignorando qualsiasi informazione sul comportamento dei valori intermedi. A rigore infatti il range non è un “buon” indice di variabilità, poiché disattende la seconda proprietà, dato che non varia al variare della diversità dei valori compresi tra gli estremi. Infatti, esso varia solo se varia la diversità tra i valori estremi, gli unici da cui dipende. Riassumendo, R è una misura grossolana della variabilità e, anche se molto usato perché facile da calcolare, deve essere usato con cautela, perché affetto da due limiti: 1. non considera tutti i termini della distribuzione; 2. è sufficiente un solo valore anomalo, o outlier, tra x1 o xN, per modificarne sensibilmente il valore, qualunque sia la dispersione di tutti gli altri termini compresi tra x2 e xN – 1. Il vantaggio dell’uso del range è fondamentalmente legato alla sua semplicità di calcolo e all’immediatezza d’interpretazione che lo contraddistinguono. LA DIFFERENZA INTERQUARTILE È anch’essa una misura di variabilità assoluta che consente di superare, almeno parzialmente, l’inconveniente del range. Infatti, anch’essa è calcolata come differenza tra due soli termini della Fabio Aiello 2 Appunti di Statistica Sociale Università “Kore” di Enna distribuzione, ma ne considera due meno estremi: il primo quartile, Q1, ed il terzo, Q3. La differenza interquartile (DI) è quindi così definita: DI = Q3 – Q1 [2] Analoghe misure possono essere calcolate impiegando le differenze tra i percentili o i decili. In ogni caso tutti questi indici a rigore non possono essere considerati dei veri e propri indici di variabilità, perché sono tutti affetti dal problema al punto 1) del paragrafo precedente. LA VARIANZA A differenza delle due precedenti misure di variabilità, basate sulla differenza tra coppie di valori opportunamente scelti, la varianza è una misura di sintesi della dispersione dei valori osservati intorno ad un valore di riferimento, o baricentro, qual è la media aritmetica. La varianza, σ2, misura di quanto, in media, i valori osservati differiscono dalla loro media aritmetica, µ. In generale, quando i valori osservati sono: 1. molto concentrati intorno alla loro media (poco dispersi), la variabilità è bassa e il valore della varianza piccolo; 2. poco concentrati intorno alla loro media (molto dispersi), la variabilità è alta e il valore della varianza grande. È chiaro che il valore assunto dalla varianza nel caso 1 è certamente minore di quello assunto nel caso 2. È importante calcolare una misura di variabilità che tenga conto della dispersione dei valori osservati intorno alla loro media. Tale misura è calcolata attraverso un rapporto, detto appunto varianza, σ2, il cui numeratore, noto come devianza, è la somma delle differenza (scarti) al quadrato tra ogni valore osservato, xi, e la media, µ; il denominatore, invece, è dato dal numero di termini della sommatoria, ovvero dal numero di osservazioni, N. Le quantità poste a rapporto vanno individuate correttamente, a seconda del modo in cui sono organizzate le N osservazioni. Infatti: - se si ha una distribuzione di N dati individuali ordinati, allora la formula della varianza è: N σ2 = - ∑( x − µ ) 2 i i =1 [3] N se si ha una distribuzione di frequenza in k modalità, allora la formula della varianza è: K σ2 = ∑( x 2 k − µ ) nk k =1 K ∑n [4] k k =1 - se, infine, i valori osservati sono distribuiti in k classi, si sostituisce alla k-esima modalità, xk, nella formula [4], il valore centrale della classe k-esima, cxk: Fabio Aiello 3 Appunti di Statistica Sociale Università “Kore” di Enna K σ2 = ∑( k =1 c 2 xk − µ ) nk K ∑n . [5] k k =1 si ricorda che K ∑n k =N k =1 Se la varianza è riferita a dati campionari, al denominatore va posta la quantità (n – 1) e non N. La “formula ridotta” per il calcolo della varianza Quando il numero delle osservazioni è elevato, l’uso delle formule precedenti può essere troppo dispendioso. È utile allora ricorrere alle formule ridotte della varianza, che sono rispettivamente: - per N osservazioni: N x ∑ ∑ xi 2 i =1 σ = − i =1 N N N - 2 i 2 per k modalità (o classi): K ( x ) n ∑ k ∑ xk nk 2 k =1 σ = − k =1K K nk ∑ ∑ nk k =1 k =1 K 2 k 2 , che fornisce la varianza come differenza tra la media quadratica e la media aritmetica al quadrato. È utile fare una riflessione circa il fatto che la varianza è espressa come risultato di differenze al quadrato tra valori espressi con identica unità di misura e ordine di grandezza. Pertanto, il valore finale di σ2 sarà espresso in unità di misura della variabile X osservata, ma al quadrato! LA SCARTO QUADRATICO MEDIO Come sopra detto la varianza, σ2, non è espressa nella stessa unità di misura dei valori osservati, xi, bensì in unità di misura al quadrato. Ad esempio, se stiamo studiando la variabilità osservata nella lunghezza, espressa in mm, della produzione giornaliera di chiodi, la misura di σ2 sarà espressa in mm2. Per pervenire a un indice di variabilità espresso nella stessa unità di misura originaria dei dati, e per questo più sfruttabile, è sufficiente estrarre semplicemente la radice quadrata della varianza. Tale operazione conduce allo scarto quadratico medio, σ, se riferito agli N valori di una popolazione, o alla deviazione standard, s, se riferito agli n valori di un Campione. In generale, lo scarto quadratico medio di N valori distribuiti in k modalità è: Fabio Aiello 4 Appunti di Statistica Sociale Università “Kore” di Enna K ∑ (x k σ= − µ ) 2 nk k =1 K ∑n . k k =1 Ovviamente, come nel caso della varianza, se la misura è riferita a dati campionari a denominatore vi sarà la quantità (n – 1). Anche questo indice esprime di quanto in media ciascuna osservazione si scosti dalla propria media. LA VARIABILITÀ RELATIVA IL COEFFICIENTE DI VARIAZIONE Lo scarto quadratico medio (σ) è un’importante misura di variabilità di uno specifico insieme di dati. Ma, quando l’obiettivo è valutare e confrontare la variabilità di due o più insiemi di dati, non è sufficiente, né tanto meno corretto ricorrere ai singoli scarti quadratici. I casi in cui sia utile confrontare la variabilità di più insiemi di dati sono molteplici. Può verificarsi che i dati in studio siano relativi a osservazioni della stessa variabile in tempi e/o in luoghi diversi, espressi quindi con unità di misura e ordine di grandezza diversi: ad esempio, se si misura il reddito procapite in: Paesi diversi, con valute diverse, allora le osservazioni sono espresse in unità di misura diverse (ad esempio, dollaro in USA, euro in Italia, sterlina in GB, ecc.); oppure, in epoche diverse, allora le osservazioni possono essere espresse in unità di misura e ordini di grandezza diversi (in Italia negli anni 1930 il reddito medio annuale procapite era di circa £. 2.200, negli anni ’70 era di circa £ 17.500.000, negli anni ’90 di circa € 22.508,77). Altrimenti, si può essere interessati a confrontare la variabilità di due fenomeni diversi con unità di misura diverse, osservati sempre su un’unica popolazione di soggetti: ad esempio, i livelli di colesterolo (espressi in mg/100 ml) e la massa corporea (espressa in kg) di un gruppo di pazienti di un ospedale. Infine, anche se l’unità di misura è identica, si può essere interessati a confrontare gruppi di dati le cui medie sono molto diverse fra loro rispetto all’ordine di grandezza; come quando si confrontano due gruppi diversi di soggetti, rispetto alla massa corporea, dove il primo è composto da scolari di una classe elementare e il secondo da matricole universitarie. Se si ricorre alla deviazione standard dei pesi (espressi per entrambi i gruppi in kg) è certo che la deviazione standard del secondo gruppo assume un valore numerico decisamente maggiore della deviazione standard del primo gruppo (σ2 > σ1). Ciò avviene perché i pesi degli studenti universitari assumono valori decisamente maggiori di quelli degli scolari. In tal caso, l’unità di misura è comune ai due gruppi (i kg), ma la differenza osservata tra i due gruppi in termini di variabilità è spiegabile sia attraverso la differente dispersione delle masse corporee misurate, sia attraverso i differenti ordini di grandezza delle misure rilevate, che sono specifici per ciascuno dei due gruppi di soggetti. Quindi, possiamo dire che lo scarto quadratico medio produce una misura della variabilità che è “affetta” dall’unità di misura e dall’ordine di grandezza dei dati sui quali è calcolato. In casi come quelli esemplificati, quando l’obiettivo è confrontare gruppi di dati in base alla loro variabilità, l’uso di una misura di variabilità assoluta non è corretto; in tali casi è meglio ricorrere Fabio Aiello 5 Appunti di Statistica Sociale Università “Kore” di Enna ad una misura di variabilità relativa. La misura più diffusa è il coefficiente di variazione (cv), dato dal rapporto tra lo scarto quadratico medio e la media aritmetica, ovvero: cv = σ ×100 µ moltiplicato per 100, per amplificare il risultato. Il rapporto tra due quantità espresse nella stessa unità di misura e ordine di grandezza, produce una misura scevra da queste. Ciò significa che il coefficiente di variazione è indipendente sia dall’unità di misura, che dall’ordine di grandezza. Per questo motivo esso è un numero puro. Riprendiamo l’esempio e supponiamo di avere misurato la massa corporea dei soggetti descritti nella tabella qui di seguito: Esempio: Risultati per due gruppi di maschi. Variabili Gruppo1 Età matricole Peso medio µ1 = 70 kg Deviazione standard (σ) σ1 = 4,5 kg Gruppo2 scolari µ2 = 36 kg σ2 = 4,5kg Vogliamo sapere se è più variabile il peso delle matricole o degli scolari. Se basassimo il confronto sulle due deviazioni standard potremmo concludere erroneamente che i due gruppi hanno uguale variabilità. Se invece ci affidiamo ai due coefficienti di variazione, avremo: i. gruppo matricole: cv1 = (4,5/70) 100 = 6,4; ii. gruppo scolari: cv2 = (4,5/36) 100 = 12,5. Emerge chiaramente la diversa variabilità osservata nei due gruppi e si può concludere che la massa corporea osservata nei più giovani è molto più variabile di quella osservata nei più anziani. Fabio Aiello 6 Appunti di Statistica Sociale Università “Kore” di Enna LE MISURE DI VARIABILITÀ DI CARATTERI QUALITATIVI Quando l’oggetto del proprio studio è un carattere qualitativo, il concetto di variabilità è inteso in termini di mutabilità, ovvero l’attitudine di un carattere ad assumere diverse modalità qualitative. Analogamente a quanto visto per il caso di una variabile quantitative, anche in questo caso vi è l’esigenza di misurare la mutabilità, costruendo e applicando opportuni indici di mutabilità. Innanzitutto, introduciamo il concetto di omogeneità di un collettivo rispetto ad un carattere e, per converso, quello di eterogeneità. Un collettivo si dice omogeneo rispetto ad un carattere qualitativo quando tutte le unità statistiche che lo compongono presentano la stessa modalità del carattere. Per converso, un collettivo è tanto più eterogeneo, rispetto al carattere, quanto più le unità statistiche si distribuiscono uniformemente tra le tutte le modalità con cui esso di manifesta. Pertanto, i due casi estremi di variabilità per un carattere qualitativo osservato su un dato collettivo sono il caso di omogeneità, che corrisponde al caso di variabilità nulla, e il caso di massima eterogeneità, che si raggiunge quando le unità statistiche sono uniformemente distribuite tra tutte le modalità del carattere, e che corrisponde alla massima variabilità osservabile. Le misure di eterogeneità, appartenendo alla famiglia degli indici di variabilità, devono soddisfare le due seguenti proprietà: 1. assumere valore zero quando il collettivo è omogeneo; 2. variare al variare dell’eterogeneità tra i termini. Come già detto, gli indici di eterogeneità si calcolano per variabili poste su scala nominale o, al più, ordinale, per le quali le uniche informazioni in formato numerico sono solo ed esclusivamente quelle relative alle frequenze assolute, nk, o relative fk. mentre la varianza impiega sia l’informazione relativa alle frequenze (indifferentemente nk o fk), sia quella relativa alla determinazione quantitativa osservata del carattere (la modalità xk). Qui di seguito illustriamo due tra gli indici di eterogeneità più utilizzati. INDICI DI ETEROGENEITÀ DI GINI Il primo indice di eterogeneità che consideriamo è l’indice di Gini. Assumiamo che il carattere qualitativo in oggetto si manifesti con K modalità. L’indice di Gini, che indichiamo con S, assume la forma: S = 1− K ∑ k =1 f k2 per k = 1, 2, …, K. L’indice S assume valore zero se e solo se il collettivo è omogeneo. Infatti, in questo caso tutte le unità statistiche sono concentrate su un’unica modalità, diciamo k, del carattere, la cui frequenza assoluta sarà nk = N, mentre tutte le restanti (K – 1) modalità hanno frequenza zero. Da ciò discende che le frequenze relative delle (K – 1) restanti modalità saranno tutte nulle e invece quella della N modalità k sarà fk = = 1: N 2 N min(S) = 1 − = 0 N Fabio Aiello 7 Appunti di Statistica Sociale Università “Kore” di Enna L’indice S assume, invece, il suo valore massimo nel caso di massima eterogeneità, ovvero quando N le frequenze sono uniformemente distribuite tra le K modalità, ovvero nk = ∀ k. K In caso di massima eterogeneità, la distribuzione di frequenza avrà la seguente forma: Modalità x1 x2 … xk … xK nk N /K N /K … N /K … N /K N fk 1/K 1/K … 1/K … 1/K 1 fk2 1/K2 1/K2 … 1/K2 … 1/K2 1 K⋅ 2 K ed è: 1 max(S) = 1 − ( K × K 2 ) = 1− 1 K −1 = . K K L’indice di eterogeneità relativo, S*, si ottiene rapportando l’indice assoluto, S, calcolato sulla distribuzione osservata del carattere, al max(S): S* = S max( S ) Tale indice normalizzato è necessario per esprimere l’eterogeneità osservata in termini relativi alla massima eterogeneità teorica e/o per confrontare l’eterogeneità misurata su più collettivi, soprattutto quando il carattere qualitativo si manifesta con diverso numero di modalità nelle diverse distribuzioni da porre a confronto. L’INDICE DI ENTROPIA È un altro indice di eterogeneità molto in uso. Manteniamo l’assunzione che il carattere quantitativo si manifesti con K modalità: K H = − ∑ f k log( f k ) k =1 dove log(fk) è il logaritmo in base qualsiasi di fk. Anche il massimo di H si ottiene da una distribuzione teorica massimizzante dell’eterogeneità ed è uguale a: k 1 1 max(H) = − ∑ ⋅ log = log k . k i =1 k Fabio Aiello 8