Indici Statistici Per confrontare tra loro due o più campioni, o le variazioni della stessa popolazione in diversi periodi, non basta aver raccolto i dati e averli riuniti in tabelle di frequenza, è necessario determinare misure di sintesi numerica (media, mediana, moda) attorno a cui i dati si “addensano” e calcolare in che misura ciò accade, ovvero studiare la variabilità dei dati (range, deviazione standard, varianza, coefficiente di variazione). Se non ci fosse variabilità all’interno di una popolazione, non ci sarebbe bisogno della statistica. Una singola unità sarebbe sufficiente a descrivere l’intera popolazione. Indici di posizione e di variabilità La caratteristica più studiata di un collettivo di dati è il suo centro o il valore in cui le osservazioni tendono ad aggregarsi. Gli indici di posizione più utilizzati sono: • Media • Mediana • Moda Le misure di variabilità (o dispersione) più note: • Range • Deviazione standard e Varianza • Coefficiente di variazione La media aritmetica La media di un insieme di n misurazioni è data da: n x x2 ... xn x 1 n x i 1 i n E’ un indice di misura di tendenza centrale che può essere determinato solo per le variabili quantitative sia discrete che continue. Non è adatta per dati qualitativi nominali (non ha senso dire il color medio degli occhi). A volte per questo tipo di dati però i numeri vengono utilizzati come etichette. Ricordate sopravvissuti nell’es.Titanic Esempio Ad esempio se scegliamo di indicare il gruppo sanguigno: zero, A, B, AB con i numeri 1, 2, 3, 4 un gruppo sanguigno medio di 1.8 non ha alcun significato come non ha senso l’ordine insito nei numeri il gruppo 1 non è minore del gruppo 2 e cosi via ….. La media è molto sensibile a valori estremi: se osserviamo pressioni diastoliche (“minima”) in un paziente in 7 momenti differenti: 60, 68, 72, 69, 80, 77, 190 la pressione media risentirà di quest’ultimo valore atipico non rappresentando così l’andamento medio. Potremmo pensare ad un errore di misurazione (la sistolica anziché la diastolica). Esempio: media utilizzata con formula inversa La media per dati raggruppati Se i dati sono sintetizzati in classi detto mi il punto medio della i-sima classe e fj la frequenza assoluta per determinare la media si può usare la formula seguente: s m1 f 1 m2 f 2 ... ms f s x f 1 f 2 ... f s m i i 1 fi n Questa formula è valida anche se non si hanno le classi ma singoli valori sintetizzati in una distribuzione di frequenza in tal caso i valori sostituiranno, banalmente, i punti medi ESEMPIO: media per singoli valori ma dati in distribuzione di frequenza La seguente tabella mostra la distribuzione di frequenza assoluta dell’età dei ragazzi che frequentano un liceo scientifico. Qual è l’età la media dei ragazzi? Età Freq. assoluta 14 30 15 25 16 10 17 15 18 5 m1 f1 m2 f 2 ... ms f s 14 * 30 15 * 25 16 *10 17 *15 18 * 5 x 15.3 f1 f 2 ... f s 30 25 10 15 5 ESEMPIO: media per dati raggruppati in classe La tabella che segue mostra gli stipendi di una fabbrica di operai suddivisi per classi. Calcolare il salario medio degli operai: x Classi di salario N°di operai [1100;1200] 50 (1200;1300] 30 (1300;1400] 20 m1 f1 m2 f 2 ... ms f s 1150 * 50 1250 * 30 1350 * 20 1220 f1 f 2 ... f s 100 La media per dati raggruppati Classe birth Frequenza assoluta weight non fumatrici 50-59 60-69 70-79 80-89 90-99 100-109 110-119 120-129 130-139 140-149 150-159 160-169 170-179 TOTALE 1 3 8 13 31 76 166 198 140 62 27 11 6 742 s x m1 f1 m2 f 2 ... m s f s f1 f 2 ... f s m i 1 n i fi 54.5 *1 64.5 * 3 74.5 * 8 ... 174.5 * 6 123.031 742 La mediana Un’altra misura di tendenza centrale è la mediana. La mediana è quel valore della variabile quantitativa ma anche qualitativa ordinale che, nella successione di valori osservati, disposti in ordine crescente, occupa la posizione centrale. E’ quel numero che lascia alla sua destra tante osservazioni quante ne lascia a sinistra. Questo non significa che la mediana è esattamente il valore più grande diviso 2, dipende dalle frequenze con cui si presentano i valori Per variabili quantitative: se n è dispari la mediana è il valore corrispondente all’unità di posizione (n+1)/2 nella distribuzione ordinata; se n è pari la mediana è il valor medio tra le osservazioni che hanno posizione n/2 e (n/2+1). Proprietà: La mediana non è sempre uno dei valori osservati. Non è sensibile ai dati atipici e per questo motivo si dice che è più “robusta” rispetto alla media. Esempio: la mediana Un soggetto affetto da disturbi dell’alimentazione affronta contemporaneamente sedute psicoanalitiche e una dieta ferrea. Il suo peso dai 240 Kg iniziali cala drasticamente a 120 Kg. In successive pesature si riscontra: 118; 128; 125; 122; 120. Chiaramente se calcolassimo il peso medio sarebbe influenzato dalla prima misurazione. Determino la mediana come misura di tendenza centrale: (n=7) Procedimento: n dispari: ordino i valori in senso crescente : 118; 120; 120; 122; 125; 128; 240 il valore in posizione: (n+1)/2=4 Mediana =122 n pari: aggiungo un’altra pesatura: 124 Kg Ordino i valori: 118; 120; 120; 122; 124; 125; 128; 240. media tra i valori in n/2=4° e (n/2)+1= 5° posizione Mediana =123 La mediana per dati raggruppati in classi La classe mediana è quella classe che contiene l’elemento N/2 dove N è il totale delle frequenze. La mediana M, una volta individuata la classe mediana, è data dalla formula: N ( freq) inf M Inf ( 2 ) * amp freq.classemedi ana Dove: - Inf è estremo inferiore della classe mediana - ( freq)inf somma delle frequenze delle classi precedenti quella mediana - freq.classe mediana - amp è l’ampiezza della classe mediana. Come per la media anche la mediana si calcola se non si hanno le classi ma singoli valori Esempio di mediana di var. discreta In un campione di 100 famiglie il numero di figli è così distribuito. Calcolare il numero mediano di figli a famiglia nel campione N° figli frequenze 0 15 1 33 2 25 3 20 4 6 5 1 N/2=50 sommando le frequenze la classe mediana è 2 M=2 Esempio di mediana di var. discreta Si vuole studiare il tempo di durata mediano di un determinato componente meccanico soggetti a carichi variabili di stress. Si ha disposizione un campione di N=911 e se ne valuta il loro tempo di rottura in mesi. Calcolare la durata mediana: n°di componenti frequenze 5 135 7 123 10 97 11 123 21 99 29 51 35 43 38 51 39 80 40 109 Si osserva che le osservazioni sono già espresse in senso crescente. N/2=911/2=405.5 sommando via via le frequenze: 135+123+97=355 mentre 135+123+97+123=478 M=11 Mediana per dati raggruppati in classi Distribuzione di frequenza , distribuita in classi, dei pesi di N=26 ragazzi (in Kg): classi 46-50 50-54 54-58 58-62 62-66 66-70 70-74 frequenze 2 3 5 6 5 3 2 N/2=13 sommando successivamente le frequenze in quale classe cade 13? 2+3+5+6 la classe mediana è 58-62 N ( freq) inf M Inf ( 2 ) * amp freq.classemedi ana M=58+[(13-10)/6]*4 = 60 ©2009 29elode.it – Tutti i diritti riservati La moda o modalità prevalente La moda è utilizzabile per tutti i tipi di dati ed è il valore (o la modalità) prevalente del carattere ossia quella a cui è associata la frequenza massima. Si possono avere distribuzioni poli-modali qualora le frequenze massime siano le stesse per più di una modalità. Assume particolarmente importanza quando si vuole un indice di posizione per caratteri qualitativi sconnessi. Moda Determinare la moda della distribuzione “Gruppo sanguigno” Gruppo sanguigno Frequenze 0 (zero) 38 AB 25 B 32 A 38 La distribuzione è bimodale: 0 ed A ©2009 29elode.it – Tutti i diritti riservati Indici di dispersione o variabilità Gli indici di posizione (misure di tendenza centrale) dicono attorno a quale valore le osservazioni sono centrate e sono tanto più significativi quanto più i dati sono concentrati intorno ad essi. Per ottenere un’informazione più accurata, è quindi necessario misurare il grado di dispersione dei dati intorno a tali indici. Questo è possibile, soltanto per i caratteri quantitativi, associando alle misure di tendenza centrale delle misure di dispersione o variabilità. Indici di dispersione o variabilità Variabilità Range Range Interquartile Varianza Deviazione Standard Stesso indice di posizione, differente dispersione Coefficiente di variazione Range Un numero che può essere utilizzato per descrivere la variabilità dei dati è il range o campo di variazione. E’ definito come la differenza tra l’osservazione più grande e quella più piccola. L’utilità di questo indice è molto limitata dato che: • considera solo i valori estremi di una serie di dati e pertanto, come la media, è molto sensibile a valori eccezionalmente grandi o piccoli. Esempio: 1,1,1,2,2,2,2,3,3,4,5,6,120 • Range=119 ignora come i dati sono distribuiti. Esempio: 6,8,9,11,12 6,6,7,10,12,12,12 Range=12-6=6 lo stesso anche se le due distribuzioni sono differenti Peso alla nascita Non F F Min 55 Q1 113 102 Q2 123 Q3 134 126 Max 176 163 R a nge 121 105 R a nge i nt e r qua r t i l e 21 58 115 24 Rappresentazione grafica: il box plot Il Box-Plot rappresenta in modo compatto la distribuzione statistica attraverso alcuni indici sintetici: il range delle misure attraverso un segmento verticale, i 3 quartili della distribuzione mediante un rettangolo (box), tagliato internamente da un segmento che rappresenta la mediana. 25% Minimum 25% 1st Quartile Median 25% 3rd Quartile 25% Maximum Il box è il range interquartile e contiene il 50% centrale della distribuzione. La dimensione della base (o altezza se messo in orizzontale) del rettangolo non rappresenta alcuna informazione, come pure la posizione del Box-Plot, che può essere posto sia verticalmente che orizzontalmente. ©2009 29elode.it – Tutti i diritti riservati Il Box-Plot La varianza e la deviazione standard La misura di dispersione più comunemente utilizzata è la deviazione standard perché ha la stessa unità di misura della media ed insieme ad essa rappresentano i due parametri chiave delle distribuzioni teoriche di probabilità. La varianza è definita come il quadrato della deviazione standard e misura l’entità della dispersione dei dati dalla media. Maggiore è il suo valore e minore è la capacità della media di rappresentare tutte le osservazioni, maggiore risulta la perdita di informazione che essa comporta. L’unità di misura della varianza è il quadrato di quella della variabile per questo motivo e per facilitarne l’interpretazione si utilizza la deviazione standard: . Minore è la deviazione standard più le osservazioni sono omogenee e concentrate intorno alla media. La deviazione standard Molti testi riportano la formula della varianza chiamandola Var anziché S2 e dividono per n anziché n-1. Esempio: calcolo della varianza e della deviazione standard In uno studio che esamina le cause di morte in soggetti affetti da asma grave è stata raccolta la frequenza cardiaca su 11 pazienti asmatici arrivati in ospedale con arresto respiratorio . I valori in battiti al minuto sono i seguenti: 167; 150; 125; 120; 150; 150; 140; 136; 120; 150; 148. Si determina la media: 141.45 e quindi la varianza (battiti al minuto)2: 2 S2 1 [(167 141.5) 2 (150 141.5) 2 (125 141.5) 2 ... (148 141.5) 2 ] 221.07 10 Ed infine la deviazione standard in battiti al minuto: S 2 221.07 14.87 Varianza e deviazione standard raggruppate in classi Per determinare varianza e deviazione standard su dati raggruppati innanzitutto bisogna calcolare la media tramite la relativa formula: s x m1 f 1 m2 f 2 ... ms f s f 1 f 2 ... f s m i i 1 fi n Dopodiché varianza e deviazione standard: s S2 (m i 1 i 2 x) f i n 1 s S2 Varianza e deviazione standard raggruppate in classi Classe birth Frequenza assoluta weight non fumatrici 50-59 60-69 70-79 80-89 90-99 100-109 110-119 120-129 130-139 140-149 150-159 160-169 170-179 TOTALE 1 3 8 13 31 76 166 198 140 62 27 11 6 742 s x s S2 (m m i 1 n i fi 123.031 2 i x) f i n 1 (54.5 123.031) 2 3(64.5 123.031) 2 8(75.5 123.031) 2 ... 6(175.5 123.031) 2 304.32 741 i 1 s 304.3 17.44 Coefficiente di variazione Confrontare due deviazioni standard provenienti da due serie di dati non ha molto senso dato che potrebbero avere unità di misura differente, ad esempio due distribuzioni con s molto simili non hanno necessariamente un’analoga dispersione. A tal proposito si utilizza il coefficiente di variazione CV che mette in relazione la deviazione standard con la sua media: s CV 100% x E’ una misura di variabilità adimensionale (deviazione e media hanno la stessa unità di misura) e relativa. CV esprime l’ampiezza percentuale di s rispetto a x è utile per confrontare serie di dati differenti. Coefficiente di Variazione: CV Negli Stati Uniti la statura viene rilevata in pollici in Italia in cm. Come è possibile confrontare stature medie misurate con unità di misura differenti? Si confrontano i CV!! Un gruppo di studenti americani ha una statura media di 65 pollici con uno scostamento quadratico medio di 2.8 pollici. Un gruppo di studenti italiani ha una statura media di 175.3 cm e scostamento quadratico medio di 6 cm. In quale dei due gruppi la statura è più variabile? Americani altezza media = 69 inch s = 2.4 inch Italiani statura media = 175.3 cm s = 7.7 cm CV =2.8/65*100= 4.3% CV = 6/175.3*100= 3.4% L’altezza è più variabile nel gruppo di studenti americani. Peso alla nascita in once I valori degli indici, in particolare il CV, conferma che le due distribuzioni sono molto simili e differiscono solo per gli indici di posizione: media, mediana, moda. Fumatrici s=18,10 m=114,11 CV=15,86% Non Fumatrici s=17,40 m=123,05 CV=14,14%