La variabilità Dott. Cazzaniga Paolo Dip. di Scienze Umane e Sociali [email protected] Dott. Cazzaniga Paolo La variabilità Introduzione [1/2] Gli indici di variabilità consentono di riassumere le principali caratteristiche di una distribuzione (assieme alle medie) Le medie sono rappresentative solo nel caso in cui le unità statistiche presentano modalità “vicine” a questi indici di posizione Distribuzioni con medie di uguale valore presentano caratteristiche diverse: X = {160, 161, 164, 190, 195} Y = {167, 166, 174, 178, 185} Z = {174, 174, 174, 174, 174} Media aritmetica = 174 Un singolo valore di sintesi non consente di descrivere appieno la distribuzione di un carattere Dott. Cazzaniga Paolo La variabilità Introduzione [1/2] Distribuzioni caratterizzate dalla stessa media aritmetica possono avere una diversa variabilità: Dott. Cazzaniga Paolo La variabilità Variabilità [1/2] Variabilità V (x): misura che esprime la tendenza delle unità di un collettivo ad assumere diverse modalità del carattere x V (x) = 0 se tutte le unità presentano la stessa modalità del carattere (distribuzione degenere) V (x) > 0 la variabilità aumenta all’aumentare della diversità tra le modalità assunte dalle unità V (x + c) = V (x) + c: aggiungendo una costante c ai valori di X la variabilità non cambia Se V (x) > V (y ) allora il carattere X è più variabile di Y Dott. Cazzaniga Paolo La variabilità Variabilità [2/2] Esistono diverse categorie di indici di variabilità: indici di dispersione rispetto a una media indici di disuguaglianza a coppie (mutua variabilità o variabilità reciproca) indici di mutabilità che misurano l’omogeneità/eterogeneità tra le modalità di una distribuzione di frequenza Che possono essere ulteriormente classificati in: assoluti usano la stessa unità di misura della modalità della distribuzione non permettono confronti tra distribuzioni statistiche con unità di misura diverse relativi si ottengono rapportando un indice assoluto al suo massimo o ad una media non hanno unità di misura permettono confronti tra distribuzioni Dott. Cazzaniga Paolo La variabilità Variabilità rispetto alla media Servono a misurare se esiste una “certa stabilità” dei valori assunti dalle unità rispetto alla misura di tendenza centrale Si basano sul concetto di scarto o scostamento rispetto alla media varianza devianza scarto quadratico medio o deviazione standard scostamento semplice dalla media Dott. Cazzaniga Paolo La variabilità Varianza Variabilità rispetto alla media Rappresenta il valore medio degli scarti al quadrato dalla media Viene calcolata come: n σ2 = 1X 2 (xi − x̄) n i=1 Nel caso di distribuzioni di frequenza: σ2 = k k j=1 j=1 X 1X 2 2 (xj − x̄) nj = (xj − x̄) fj n dove nj e fj sono rispettivamente le frequenze assolute e relative della j-esima modalità Dott. Cazzaniga Paolo La variabilità Varianza e Devianza La varianza può essere calcolata anche come: n σ2 = 1X 2 xi − x̄ 2 n i=1 La devianza è la somma degli scarti al quadrato dalla media Viene calcolata come: Dev (x) = n X (xi − x̄) i=1 E’ il numeratore della varianza σ 2 Dott. Cazzaniga Paolo La variabilità 2 Scarto quadratico medio o deviazione standard [1/2] Per avere una misura con la stessa unità di misura dei dati, viene spesso usata la deviazione standard La deviazione standard è la radice quadrata della media degli scarti delle unità dalla loro media, per questo viene anche chiamata scarto quadratico medio Corrisponde alla radice quadrata della varianza e viene calcolato come: v u n u1 X 2 (xi − x̄) σ=t n i=1 Nel caso di distribuzioni di frequenza viene calcolato come: v v u k u k uX u1 X 2 2 t (xj − x̄) nj = t (xj − x̄) fj σ= n j=1 Dott. Cazzaniga Paolo j=1 La variabilità Scostamento semplice dalla media Scostamento semplice medio dalla media: n SM = 1X |xi − x̄| n i=1 ovvero la media degli scarti (in valore assoluto) dalla media x̄ Scostamento semplice dalla mediana: n SMe = 1X |xi − Me| n i=1 ovvero la media degli scarti (in valore assoluto) dalla mediana Me Per le proprietà della media aritmetica, vale la relazione SM ≥ SMe Dott. Cazzaniga Paolo La variabilità Coefficiente di variazione σ 2 , Dev , σ, SM e SMe sono indici di variabilità assoluta Assumono valori in una scala dipendente dall’unità di misura e dall’intervallo di valori della variabile a cui sono associati Per questo è difficile confrontare distribuzioni diverse E’ quindi possibile costruire indici di variabilità relativa coefficiente di variazione CV ottenuto rapportando la deviazione standard alla media: σ CV = |x̄| CV è un numero puro che viene spesso espresso in forma percentuale CV è una misura proporzionale della variabilità rispetto alla media Dott. Cazzaniga Paolo La variabilità Altri indici di variabilità Dato un insieme di n valori ordinati x1 , x2 , . . . , xn Range: Calcolato come R = xn − x1 Indice molto semplice da calcolare Non fornisce indicazioni precise, soprattutto nel caso di valori anomali nella distribuzione Differenza interquartile: Calcolata come distanza tra terzo e primo quartile DI = Q3 − Q1 Indice semplice da calcolare, esclude eventuali valori anomali Se DI è piccola, allora la metà dei valori si trova concentrata intorno alla mediana All’aumentare di DI aumenta quindi la dispersione del 50% dei valori intorno alla mediana Dott. Cazzaniga Paolo La variabilità Rappresentazione grafica [1/3] La descrizione di un carattere tramite indice di posizione (ad es. media) dovrebbe essere sempre accompagnato da un indice di variabilità Box-plot: realizzabile per caratteri quantitativi o qualitativi ordinabili è composto da: una scatola con un segmento orizzontale che identifica la mediana o la media un box che rappresenta la variabilità della distribuzione (50% centrale della distribuzione) due segmenti che identificano gli intervalli in cui sono presenti i valori < Q1 e > Q3 eventuali valori anomali esterni individuati come Q1 − (α × DI) e Q3 + (α × DI), con α = 1, 5 Dott. Cazzaniga Paolo La variabilità Rappresentazione grafica [2/3] Informazioni date dal box-plot: distanze tra la mediana e i quartili descrivono la forma della distribuzione (simmetria/asimmetria) valori adiacenti inferiori e superiori forniscono informazioni sulla dispersione e sulle code della distribuzione Per disegnare un box-plot: 1 ordinare i dati 2 calcolare la mediana, il primo e il terzo quartile 3 identificare i valori massimo e minimo Dott. Cazzaniga Paolo La variabilità Rappresentazione grafica [3/3] Dott. Cazzaniga Paolo La variabilità Indici di mutua variabilità [1/4] Permettono di effettuare confronti a coppie tra le diverse modalità assunte dalle unità del collettivo Differenza semplice media senza ripetizione: n n XX 1 |xi − xj | ∆= n(n − 1) i=1 j=1 dove i, j = 1, . . . , n e i 6= j. Ovvero la media aritmetica delle differenze (in valore assoluto) di tutte le coppie di termini distinti Differenza semplice media con ripetizione: ∆R = n n 1 XX |xi − xj | n2 i=1 j=1 vengono considerate tutte le coppie, anche quelle formate da una modalità con sé stessa Dott. Cazzaniga Paolo La variabilità Indici di mutua variabilità [2/4] Nel caso di distribuzioni di frequenza, sapendo che il numero di coppie è pari a ni nj : n ∆= n XX 1 |xi − xj | ni nj n(n − 1) i=1 j=1 ∆R = n n 1 XX |xi − xj | ni nj n2 i=1 j=1 La relazione tra i due indici è la seguente: ∆ = ∆R Dott. Cazzaniga Paolo n n−1 La variabilità Indici di mutua variabilità [3/4] ∆ e ∆R assumono valore 0 quando tutti i dati sono uguali ∆ e ∆R assumono valore massimo quando (n − 1) valori sono pari a 0 tranne l’n-esimo Un indice normalizzato (tra 0 e 1, ovvero una percentuale) può essere ottenuto come segue: dividendo ∆ per il suo massimo teorico 2x̄ R = ∆/2x̄ viene chiamato rapporto di concentrazione Dott. Cazzaniga Paolo La variabilità Indici di mutua variabilità [4/4] Differenza quadratica media senza e con ripetizione: v v u u X n X n n X u u1 n X 1 ∆2 = t |xi − xj |, ∆2R = t 2 |xi − xj | n(n − 1) n i=1 j=1 i=1 j=1 Si può inoltre dimostrare che: ∆2 = σ 2n ∼ √ =σ 2 n−1 Dott. Cazzaniga Paolo La variabilità r La concentrazione [1/3] Misura specifica dei caratteri quantitativi e trasferibili Dato un insieme di n valori 0 ≤ x1 ≤ x2 ≤ · · · ≤ xn La ricchezza complessiva del carattere è An = x1 + x2 + · · · + xn Se tutte le unità hanno lo stesso ammontare di ricchezza An /n, allora c’è assenza di concentrazione Se (n − 1) unità hanno 0 e l’n-esima possiede tutta la ricchezza, allora concentrazione è massima Per le situazioni intermedie si considerano: la frequenza cumulata Fi delle prime i unità i la quota del carattere Qi = x1 +x2A+···+x = AAni posseduta dalle prime n i unità in generale Fi ≥ Qi Dott. Cazzaniga Paolo La variabilità La concentrazione [2/3] Curva di Lorenz Asse delle ascisse (asse x): frequenze cumulate relative Fi Asse delle ordinate (asse y ): quantità cumulate relative Qi Dott. Cazzaniga Paolo La variabilità La concentrazione [3/3] Curva di Lorenz: equidistribuzione e massima concentrazione Dott. Cazzaniga Paolo La variabilità Indici di mutabilità Attitudine dei caratteri qualitativi ad assumere differenti modalità Esempio: colore degli occhi Dott. Cazzaniga Paolo La variabilità Indici di omogeneità [1/2] L’indice di omogeneità viene definito a partire dalle frequenze relative fj di una distribuzione come: O1 = f12 + f22 + · · · + fk2 = k X fj2 j=1 aumenta se le frequenze sono concentrate su poche modalità aumenta al diminuire del numero di modalità il valore è massimo quando una sola modalità ha frequenza relativa fj = 1 il valore minimo è O1 = 1/k , quando tutte le frequenze sono uguali tra loro Il risultato dipende dal numero di modalità del carattere Dott. Cazzaniga Paolo La variabilità Indici di omogeneità [2/2] Indice di omogeneità relativo: O1_rel = k (O1 ) k −1 assume valore 1 quando tutti i casi si trovano nella stessa categoria assume valore 0 quando tutte le modalità hanno uguale frequenza Entropia: O2 = − k X fj log(fj ) j=1 assume valore 0 nel caso di massima omogeneità assume valore −log(k ) nel caso di minima omogeneità Dott. Cazzaniga Paolo La variabilità Indici di eterogeneità Calcolati come complemento a uno degli indici di omogeneità: Indice di eterogeneità: E1 = 1 − k X fj2 j=1 Indice relativo di eterogeneità: k E1 k −1 E1_rel = Indice di eterogeneità (rispetto all’entropia): E2 = 1 − k X fj log(fj ) j=1 Indice relativo di eterogeneità: E2_rel = Dott. Cazzaniga Paolo E2 log(k ) La variabilità La forma di una distribuzione [1/3] Caratteristiche di una distribuzione: asimmetria curtosi Una distribuzione è simmetrica quando il ramo destro della distribuzione può essere ribaltato e perfettamente sovrapposto a quello sinistro La differenza tra media, mediana e moda: fornisce una misura assoluta riguardo alla simmetria di una distribuzione non permette di fare confronti tra fenomeni diversi Dott. Cazzaniga Paolo La variabilità La forma di una distribuzione [2/3] Indice di asimmetria di Pearson (skewness): misura relativa e quantitativa del grado di asimmetria di una distribuzione viene calcolato come: Sk = x̄ − Mo ∼ 3(x̄ − Me) = σ σ Indice di Fisher: assume valori positivi (negativi) nel caso di asimmetria positiva (negativa) assume valori nulli in caso di simmetria l’indice nullo è una condizione necessaria ma non sufficiente per avere simmetria viene calcolato come: n γ1 = 1X n i=1 Dott. Cazzaniga Paolo xi − x̄ σ 3 La variabilità La forma di una distribuzione [3/3] Curtosi o disnormalità: rileva quanto una distribuzione è piatta o appuntita rispetto alla distribuzione normale distribuzioni piatte con code ampie sono dette platicurtiche distribuzioni appuntite con code piccole sono dette leptocurtiche la distribuzione normale è mesocurtica o normocurtica Dott. Cazzaniga Paolo La variabilità Ricapitolando Popolazione Moda Campione rappresentativo della popolazione Indagine Medie di posizione Mediana Quartili Dati primari (ottenuti tramite indagini) Collezionare dati Media aritmetica Dati secondari (ottenuti tramite altre fonti) Misure di sintesi Medie analitiche Media geometrica Dati Media armonica Dati qualitativi Discreti Range Dati quantitativi Statistica Continui Boxplot Varianza Devianza Variabilità Deviazione standard Rappresentazione grafica Scostamento semplice dalla media Diagramma a barre Istogramma Dott. Cazzaniga Paolo La variabilità Dove studio questi argomenti? Capitolo 9 del libro! Dott. Cazzaniga Paolo La variabilità