Corso di elementi di matematica per la statistica Laurea Specialistica in Scienze della Prevenzione A.A. 2009-2010 Università degli Studi di Trieste e Udine Docente: Giulia Barbati [email protected] Testi di riferimento: Le dispense del corso sono messe a disposizione dalla docente. Testi di approfondimento: G. Dall’Aglio “Calcolo delle probabilità”, Zanichelli. P.Armitage, G.Berry “Statistical Methods in Medical Research”, Third Edition, Blackwell Science. F.E. Harrell “Regression modelling strategies”, Springer. - Scale di misura dei caratteri. - Distribuzioni unitarie e di frequenza. -Gli indici di posizione delle distribuzioni -Gli indici di dispersione delle distribuzioni L'oggetto dell'osservazione di ogni fenomeno individuale che costituisce il fenomeno collettivo in studio è detto 'unità statistica' . Ex: un individuo, una A.S.L., un ospedale... Ciascuna unità statistica presenta delle caratteristiche definite 'caratteri‘ . Ex: il colore degli occhi in un individuo, il numero di medici che lavorano in una A.S.L., il numero di posti letto in un ospedale.... Ciascun carattere è presente in ogni unità con una determinata 'modalità‘ Ex: colore blu degli occhi, 10 medici in una certa ASL, 300 posti letto in un dato ospedale,... La classificazione dei caratteri I caratteri possono essere classificati in: -Caratteri qualitativi (colore degli occhi, tipo di diagnosi...), a loro volta distinti in: - ordinabili: è possibile ordinare le modalità del carattere in senso crescente o decrescente (es: titolo di studio, livello di gravità della diagnosi...); - sconnessi: non c’è alcun ordinamento intrinseco tra le modalità (es: colore degli occhi, sesso...); -Caratteri quantitativi (es: età, peso, numero di medici,...) distinguibili in: - discreti: le modalità del carattere sono numeri interi (es: numero di medici...) - continui: le modalità del carattere sono misurate su una scala continua (es: peso, altezza...). Alla base di tale classificazione dei caratteri vi è la 'scala di misura' con cui sono espresse le modalità: se attraverso dei numeri o delle 'etichette'. Classificazione dei caratteri e scala di misura CARATTERE qualitativo SCALA Sconnesso Nominale Ordinabile Ordinale quantitativo Ad intervalli (scala numerica discreta o continua) Operazioni che è possibile fare sui caratteri in base alla loro classificazione Operazioni sulle Carattere modalità del Quantitativi qualitativi carattere sconnessi ordinabili (discreti/continui) =; ≠ si si si >;< no si si +;- no no si Distribuzioni Quando si rilevano le modalità con cui uno (o piu') caratteri si presentano in ciascuna unità di una popolazione (o di un campione) si ottiene una 'distribuzione' della popolazione/campione secondo il carattere considerato. Ex: distribuzione 'unitaria' del peso in una classe: Studente Peso (kg) Marco 72 Chiara 55 Luca 68 ... ... distribuzione 'unitaria‘ = ad ogni unità del gruppo è associato il suo peso, cioè la corrispondente modalità del carattere considerato. Possiamo anche suddividere in 'classi' la popolazione secondo il carattere considerato, allora le modalità del carattere vengono raggruppate in classi ed otteniamo una distribuzione di 'frequenze', dove per frequenza della classe si intende il numero di individui che appartengono alla classe. Classe di peso Frequenza di studenti (kg) nella classe di peso < 50 3 50 ≤ < 60 7 60 ≤ <70 6 ≥ 70 2 Tot 18 Il numero di unità che appartengono ad una classe= 'frequenza assoluta' della classe. E' possibile calcolare anche le distribuzioni di 'frequenze relative' e di 'frequenze percentuali‘ Classe di peso Frequenza assoluta Frequenza relativa Frequenza percentuale (kg) (%) < 50 3 3/18=0.17 17 50 ≤ < 60 7 7/18=0.39 39 60 ≤ <70 6 6/18=0.33 33 ≥ 70 2 2/18=0.11 11 Tot 18 1 100 Alcuni simboli: Abbiamo k classi di un dato carattere (nell’ex: 4 classi) cioè k=4; le possiamo indicare tramite un indice i che varia da 1 a 4: i=1,2,3,4. Abbiamo rilevato le modalità del carattere su N unità (nell’ex: N=18). - Frequenza assoluta della classe i - Frequenza relativa della classe i - Frequenza percentuale della classe i -> -> -> ni fi=ni/N pi=fi*100=(ni/N)*100 Esiste poi un simbolo matematico indica l'operazione di somma su un gruppo di oggetti ed è chiamato 'sommatoria' : k ∑n i =1 i = n1 + n 2 + n3 + n 4 (per k=4) Classe di peso Frequenza assoluta Frequenza relativa Frequenza percentuale (kg) (%) < 50 3 3/18=0.17 17 50 ≤ < 60 7 7/18=0.39 39 60 ≤ <70 6 6/18=0.33 33 70 2 2/18=0.11 11 Tot 18 1 100 ≥ k ∑n i = n1 + n2 + n3 + n4 = 3 + 7 + 6 + 2 = 18 i =1 k ∑ i =1 k ni = N ; ∑ i =1 k fi = 1 ; ∑ i =1 p i = 100 Distribuzioni doppie Se si rilevano invece due caratteri su un campione si ottiene una distribuzione doppia, ed è uso comune rappresentare le distribuzioni doppie delle modalità rilevate per due caratteri tramite la cosiddetta 'tabella di contingenza' o 'tabella a doppia entrata‘. CLASSI DI PESO 1 2 3 4 <50 50<= <60 60<= <70 ≥ 70 SESSO Totale femmina 3 7 2 1 13 maschio 2 5 8 2 17 5 12 10 3 30 Totale Come si puo’ confrontare correttamente la distribuzione di peso tra femmine e maschi? (i due campioni hanno infatti numerosità diversa). CLASSI DI PESO 1 <50 4 ≥ 70 2 femmina f in SESSO 23.1% 53.8% 15.4% 7.7% 100.0% f in Totale 10.0% 23.3% 6.7% 3.3% 43.3% n 2 5 8 2 17 f in SESSO 11.8% 29.4% 47.1% 11.8% 100.0% f in Totale 6.7% 16.7% 26.7% 6.7% 56.7% n 5 12 10 3 30 f in SESSO 16.7% 40.0% 33.3% 10.0% 100.0% 16.7% 40.0% 33.3% 10.0% 100.0% SESSO maschio Totale f in Totale n= 1 Totale 7 n 3 2 3 50<= <60 60<= <70 13 Frequenza assoluta f in SESSO= Frequenza percentuale rispetto al sesso di appartenenza f in Totale= Frequenza percentuale rispetto al totale degli individui Tabella di Contingenza (a doppia entrata): B B1 B2 Totale ... Bm A1 na1b1 na1b2 ... na1bm NA1 A2 na2b1 na2b2 ... na2bm NA2 A ... ... ... naibj ... ... ... ... ... ... ... ... ... nakbm NAk ... NBm N Ak nakb1 nakb2 Totale NB1 NB2 naibj = numero di soggetti che presentano contemporaneamente la modalità i del carattere A e la modalità j del carattere B. Gli indici di posizione delle distribuzioni Si usano in statistica degli indici per rappresentare in modo obiettivo una massa di informazioni: un indice sintetico deve essere facilmente comprensibile, relativamente semplice da calcolare e soprattutto confrontabile con indici ricavati in tempi e luoghi diversi, sullo stesso tipo di dati. Il dato di sintesi deve essere compreso tra il valore piu' piccolo e quello piu' grande tra quelli osservati (naturalmente se è possibile ordinarli); deve inoltre identificarsi, in qualche modo, con i valori piu' frequenti, i quali corrispondono spesso a quelli localizzati al centro delle misure ordinate. Si definiscono quindi i cosiddetti 'indici di tendenza centrale' o di 'indici di posizione'. Un corretto approccio al problema richiede un'analisi preventiva della scala di misura con cui sono espresse le modalità del carattere al fine di scegliere il tipo di indice di posizione opportuno da utilizzare. Gli indici di posizione delle distribuzioni: MODA Dato un qualsiasi tipo di carattere (qualitativo o quantitativo), la MODA della popolazione distribuita secondo quel carattere è la modalità prevalente del carattere, ossia quella a cui è associata la massima frequenza. Classe di peso Frequenza di studenti nella classe di peso (kg) < 50 3 50 ≤ < 60 7 (Moda o Classe Modale) 60 ≤ <70 6 ≥ 70 2 Tot 18 Non è detto che vi sia un'unica moda in una distribuzione! Colore degli occhi Frequenza di studenti con quel colore di occhi Blu 1 Castano 4 (Moda o Classe Modale) Nero 4 (Moda o Classe Modale) Verde 2 totale 11 …in questo caso la distribuzione viene definita bi-modale, cioè ha due mode. Per quanto riguarda i caratteri qualitativi sconnessi la moda è l'unico indice di posizione che si puo' calcolare. Distribuzioni di frequenze cumulate Dato un carattere ordinabile (qualitativo ordinabile o quantitativo), definiamo la 'distribuzione cumulativa' o 'distribuzione di frequenze cumulate' popolazione rispetto a quel carattere: della -> dopo aver ordinato in senso crescente le modalità del carattere ed aver calcolato le frequenze assolute per ogni modalità, la frequenza cumulata per la modalità i si ottiene sommando le frequenze assolute corrispondenti alle modalità inferiori o uguali ad i. Titolo di studio Frequenze assolute Frequenze cumulate elementare 32 32 media inferiore 15 32+15=47 media superiore 10 32+15+10=57 laurea 4 32+15+10+4=61 totale 61 La frequenza cumulata della modalità i serve a rispondere alla domanda: “Quante unità presentano una certa modalità i del carattere od una ad essa inferiore?” Quante unità nella tab. hanno un titolo di studio di scuola media superiore o un titolo ad esso inferiore? 57=frequenza cumulata della modalità “media superiore”. Distribuzioni di frequenze cumulate percentuali Titolo di studio Frequenze Frequenze Frequenze Frequenze assolute percentuali cumulate cumulate (%) assolute percentuali (%) elementare 32 52 32 52 media inferiore 15 24 47 52+24=76 media superiore 10 17 57 52+24+17=93 laurea 4 7 61 52+24+17+7=100 totale 61 100 "Quale % di questo campione ha un titolo di studio di scuola media superiore o uno ad esso inferiore?" Frequenza cumulata % della modalità "media superiore": 93%. Gli indici di posizione delle distribuzioni: MEDIANA La distribuzione di frequenze cumulate serve definire l'indice di posizione 'MEDIANA': dato un carattere ordinabile (qualitativo ordinabile o quantitativo) la MEDIANA della distribuzione è la modalità del carattere che bi-partisce (=divide in due parti uguali) la distribuzione. POSTO OCCUPATO TITOLO DI STUDIO NELL' ORDINAMENTO ORDINATO SOGGETTO 1 1 Elementari SOGGETTO 4 2 Elementari SOGGETTO 3 3 Medie inferiori SOGGETTO 5 4 Medie inferiori SOGGETTO 7 5 Medie inferiori Medie superiori SOGGETTO 6 6 Medie superiori Medie inferiori SOGGETTO 2 7 Laurea SOGGETTO TITOLO DI STUDIO SOGGETTO 1 Elementari SOGGETTO 2 Laurea SOGGETTO 3 Medie inferiori SOGGETTO 4 Elementari SOGGETTO 5 Medie inferiori SOGGETTO 6 SOGGETTO 7 SOGGETTO Si ordinano le unità in base alla modalità del carattere rilevato (titolo di studio) e si identifica la modalità dell'unità che occupa il posto centrale dell’ ordinamento Con 7 unità -> centro=posto 4, divide la distribuzione in 2 parti uguali. Regola generale per il calcolo della mediana, caratteri qualitativi ordinabili: -Se la numerosità totale del campione N è dispari, la mediana è la modalità del carattere associata all'unità che occupa il posto (N+1)/2 nell'ordinamento; -Se la numerosità totale del campione N è pari, e se i due posti centrali dell'ordinamento N/2 e (N/2 +1) sono occupati da unità aventi la stessa modalità, questa è la mediana; altrimenti le modalità relative alle due unità sono dette entrambe modalità mediane. SOGGETTO TITOLO DI STUDIO POSTO OCCUPATO NELL' ORDINAMENTO SOGGETTO 1 Elementari 1 SOGGETTO 2 Laurea 6 SOGGETTO 3 Medie inferiori 3 SOGGETTO 4 Elementari 2 SOGGETTO 5 Medie inferiori 4 SOGGETTO 6 Medie superiori 5 N=6 soggetti, gli individui centrali occupano N/2=3 e (N/2+1)=4 posto, ed hanno entrambi la modalità scuola media inferiore che è dunque la mediana. SOGGETTO TITOLO DI STUDIO POSTO OCCUPATO NELL' ORDINAMENTO SOGGETTO 1 Elementari 1 SOGGETTO 2 Laurea 6 SOGGETTO 3 Medie inferiori 3 SOGGETTO 4 Elementari 2 SOGGETTO 5' Medie superiori 4 SOGGETTO 6 Medie superiori 5 N=6 soggetti; il soggetto 5’ ha la media superiore, gli individui centrali nell'ordinamento occupano sempre 3 e 4 posto, ma il campione ha due modalità mediane: cioè media inferiore e media superiore. Titolo di studio Frequenze Frequenze Frequenze Frequenze assolute percentuali cumulate cumulate (%) assolute percentuali (%) Elementare 32 52 32 52 media inferiore 15 24 47 76 media superiore 10 17 57 93 laurea 4 7 61 100 totale 61 100 (mediana) Per trovare la mediana, data una distribuzione di frequenze cumulate, basta guardare dove si trova l'unità che occupa il posto centrale nella colonna delle frequenze cumulate assolute o, ancora piu' semplicemente, dove cade il 50% dei casi nella colonna delle frequenze cumulate percentuali. Ex: N=61, dispari, l'unità centrale=posto (61+1)/2=31, nella classe che ha il titolo di studio delle elementari, con associato il 52% delle frequenze cumulate percentuali del campione (che contiene cioè il 50% che determina la mediana). Calcolo della MEDIANA per caratteri quantitativi: - Se la numerosità totale del campione N è dispari, la mediana è la modalità del carattere associata all'unità che occupa il posto (N+1)/2 nell'ordinamento; -Se la numerosità totale del campione N è pari, la mediana è la media aritmetica dei valori assunti dalle due modalità corrispondenti alle unità centrali nell'ordinamento. SOGGETTO PESO POSTO OCCUPATO (kg) NELL' ORDINAMENTO SOGGETTO 1 55 2 SOGGETTO 2 78 5 SOGGETTO 3 52 1 SOGGETTO 4 67 3 SOGGETTO 5 91 6 SOGGETTO 6 76 4 la mediana è: (67+76)/2=71,5 Kg Aver calcolato la mediana ci permette di dire che: il 50% del campione esaminato ha un peso corporeo inferiore o uguale a 71,5 Kg (sintesi dei dati). Gli indici di posizione delle distribuzioni: quartili. Col nome generico di ‘quantili’ o ‘percentili’ si identificano alcuni indici di posizione che altro non sono che un’estensione del concetto di mediana, avendo in comune con essa la caratteristica di suddividere in parti uguali una serie ordinata di dati. Consideriamo ora i ‘quartili’ cioè gli indici di posizione che suddividono una serie ordinata di dati in 4 parti uguali. Classi di altezza Frequenze assolute (cm) Frequenze cumulate Frequenze cumulate assolute percentuali (%) 150 – 154 2 2 2 155 – 159 6 8 10 160 – 164 11 19 23 165 – 169 18 37 45 170 – 174 25 62 76 175 – 179 13 75 91 180 - 184 7 82 100 totale 82 Q1= primo quartile, che delimita il primo 25% della distribuzione; Q3=terzo quartile, che delimita il 75% della distribuzione. La mediana è quindi il secondo quartile: Q2=mediana, poiché delimita il 50% della distribuzione, ed occupa infatti il posto centrale della distribuzione ordinata: Q1 =25%; Q2=Mediana=50%; Q3 =75%. Classi di altezza Frequenze assolute (cm) Frequenze cumulate Frequenze cumulate assolute percentuali (%) 150 – 154 2 2 2 155 – 159 6 8 10 160 – 164 11 19 23 165 – 169 18 37 45 Q1 170 – 174 (contiene il 25%) 25 62 76 Q2 (contiene il 50%) Q3 (contiene il 75%) 175 – 179 13 75 91 180 - 184 7 82 100 totale 82 Gli indici di posizione delle distribuzioni: media. Per i caratteri quantitativi oltre alla moda, mediana, primo e terzo quartile è possibile calcolare anche un altro indice di posizione: la media aritmetica. Rilevate su n unità di una popolazione le modalità di un certo carattere quantitativo A: a1, a2, …, an definiamo la media aritmetica della distribuzione di misure la somma delle misure diviso per il totale delle unità rilevate: n µ= (a1 + a 2 + ... + a n ) µ= n Ex: un infermiere ha fatto delle ore di lavoro straordinario nell’anno 2004, cosi’ distribuite da gennaio a dicembre: 10, 12, 11, 5, 7, 10, 5, 0, 7, 10, 7, 12. Qual è il numero medio mensile di ore di straordinario? µ= (10 + 12 + 11 + 5 + 7 + 10 + 5 + 0 + 7 + 12) = 96 = 8 12 12 ∑a i =1 i= n i Calcolo della media da una distribuzione di frequenze: Ore di lavoro straordinario effettuate in un mese Frequenze assolute µ= 0 1 5 2 7 3 10 3 11 1 12 2 Totale 12 (0 *1 + 5 * 2 + 7 * 3 + 10 * 3 + 11 *1 + 12 * 2) = 96 = 8 12 12 Carattere X Frequenze assolute Frequenze relative x1 n1 f1 x2 n2 f2 x3 n3 f3 … … … … … … xk nk fk Totale n 1 frequenza relativa: fi=ni/n k µ= x i * ni (x1 * n1 + x2 * n2 + ... + xk * nk ) ∑ i =1 n = n k = ∑ xi * f i i =1 Classi di altezza Frequenze assolute (cm): valore medio classe 150 – 154 : 152 2 155 – 159: 157 6 160 – 164: 162 11 165 – 169: 167 18 170 – 174: 172 25 175 – 179: 177 13 180 – 184: 182 7 totale 82 µ= = Nel caso in cui si abbiano delle classi di frequenza per un carattere quantitativo, si considera come valore centrale della classe xi la modalità media tra gli estremi massimo e minimo della classe i: xi = ximin + 1 * ( ximax − ximin ) 2 (152* 2 + 157* 6 + 162*11+ 167*18 + 172* 25 + 177*13 + 182* 7) 13909 = 169.62 82 82 Moda, mediana, quartili e media sono gli indici di posizione di piu’ frequente impiego. Nel caso di distribuzioni simmetriche unimodali la moda coincide con la mediana e con la media. Con il termine ‘simmetrico’ si intende una distribuzione di valori simmetrica rispetto al valor medio, cioè che abbia la stessa quantità di osservazioni inferiori alla media e superiori alla media: 10 Ex: distribuzione simmetrica e unimodale, Moda=Mediana=Media È la cosiddetta curva “normale” o curva “gaussiana” 8 6 4 2 Asse verticale (y): le frequenze con cui le modalità si presentano 0 -2,75 -1,75 -2,25 -,75 -1,25 ,25 -,25 asse orizzontale (x): i valori della distribuzione (cioè le modalità del carattere quantitativo in studio) 1,25 ,75 2,25 1,75 2,75 30 frequenze MODA MEDIANA MEDIA 20 10 0 12 11 0 ,0 0 ,0 0 ,0 00 00 00 00 00 00 00 00 00 00 10 9, 8, 7, 6, 5, 4, 3, 2, 1, 0, classi di modalità del carattere Quanto piu’ moda, mediana e media si differenziano, tanto piu’ la distribuzione è asimmetrica. Istogramma frequenze 30 e la distribuzione sarà -simmetrica se Skewness=0 20 MODA MEDIANA MEDIA -asimmetrica a sinistra se Skewness > 0 - asimmetrica a destra se Skewness < 0 10 0 12 11 0 ,0 0 ,0 0 ,0 00 00 00 00 00 00 00 00 00 00 10 9, 8, 7, 6, 5, 4, 3, 2, 1, 0, Si ha quindi l'indice di skewness (=asimmetria) pari a: sk=3(media-mediana)/dev std E’ necessario visualizzare i dati, in modo tale da scegliere un opportuno indice di posizione. In caso di distribuzioni asimmetriche infatti è preferibile usare la MEDIANA oltre alla MEDIA, che risente eccessivamente di valori anomali (estremamente grandi o estremamente piccoli). Quali indici di posizione sono opportuni per i vari tipi di caratteri: CARATTERE qualitativo quantitativo INDICE DI POSIZIONE Sconnesso Moda Ordinabile Moda, mediana, quartili Moda, mediana, quartili, media Gli indici di dispersione Qualsiasi fenomeno collettivo misurato su un certo numero di unità puo’ essere sintetizzato da un indice di posizione. La posizione è rappresentativa di un fenomeno, permette di inquadrarne la dimensione; tuttavia da sola non basta per definire la reale distribuzione del fenomeno stesso. Occorrono criteri aggiuntivi per quantificare la variabilità delle misure rispetto ad un termine di riferimento. (a) La variabilità delle misure puo’ essere valutata in base alla loro ‘oscillazione’, vale a dire la loro ‘dispersione’ rispetto, per esempio, ai valori medi. (b) La variabilità può essere valutata come distanza tra due modalità della distribuzione: - Misurando la distanza tra il valore minimo ed il valore massimo; - Misurando la distanza tra il primo ed il terzo quartile della distribuzione. 1. VARIABILITA’ RISPETTO ALLA MEDIA: 2+5+5+5+8 =5 µA = 5 1+ 4 + 5 + 6 + 9 µB = =5 5 2,5 3,5 3,0 2,0 2,5 1,5 2,0 1,5 1,0 1,0 ,5 ,5 0,0 0,0 2,0 4,0 6,0 A 8,0 2,0 4,0 6,0 8,0 B …A e B non sembrano simili… A: 2, 5, 5, 5, 8; B: 1, 4, 5, 6, 9. 10,0 1. VARIABILITA’ RISPETTO ALLA MEDIA: Due situazioni estreme: -dispersione nulla: tutte le modalità sono uguali (e quindi uguali alla media); C: 5, 5, 5, 5, 5; 5+5+5+5+5 µC = =5 5 -dispersione massima: tutte le modalità sono pari a zero, esclusa una che concentra in se’ tutta la variabilità: D: 0, 0, 0, 0, 5; µD = 6 0+0+0+0+5 =1 5 5 NULLA 5 MASSIMA 4 4 3 3 2 2 1 1 0 0 5,0 C 0,0 D 2,5 5,0 2. VARIABILITA’ IN BASE ALLA DISTANZA: Come distanza tra due particolari modalità della distribuzione: 2.a) Misurando la distanza tra il valore minimo ed il valore massimo: in C tale distanza è 0 (dispersione nulla) mentre in D tale distanza è 5 (dispersione massima) 2.b) Misurando la distanza tra il primo ed il terzo quartile della distribuzione. Due indici di dispersione del tipo 2 (distanza): 2.a) Data una distribuzione di valori x1, x2, x3…, xn di un carattere qualitativo ordinabile o quantitativo, nei valori dal piu’ piccolo al piu’ grande: x(1)x(2) x(3) …x(n), si definisce: INTERVALLO DI VARIAZIONE (RANGE) la distanza tra il valore minimo x(1) ed il valore massimo x(n) della distribuzione ordinata: RANGE = x(n) - x(1) 2.b) Data una distribuzione di valori x1, x2, x3…, xn di un carattere qualitativo ordinabile o quantitativo, si definisce: DIFFERENZA INTERQUARTILE (RANGE INTERQUARTILE) la distanza tra il primo ed il terzo quartile: RANGE INTERQUARTILE = Q3 - Q1 Questi indici di dispersione sono detti ASSOLUTI perché sono espressi nella stessa unità di misura del carattere. Classi di altezza Frequenze assolute (cm) Frequenze cumulate Frequenze cumulate assolute percentuali (%) 1: 150 – 154 2 2 2 2:155 – 159 6 8 10 3:160 – 164 11 19 23 4:165 – 169 18 37 45 5:170 – 174 25 62 76 6:175 – 179 13 75 91 7:180 - 184 7 82 100 totale 82 Il valore minimo della distribuzione delle altezze è nella classe 1:150-154, il valore massimo è nella classe 7:180-184; per calcolare il RANGE si fa riferimento agli estremi di queste due classi: RANGE = 184 – 150 = 34 cm Q1=165-169 (4) e Q3=170-174 (5); per calcolare il RANGE INTERQUARTILE si fa riferimento ai valori medi di queste due classi: RANGE INTERQUARTILE = 172 – 167 = 5 cm 30 20 10 0 1,0 2,0 3,0 4,0 5,0 6,0 7,0 ALTEZZA Range interquartile= 50% centrale delle unità VARIABILITA’ RISPETTO ALLA MEDIA: Indici di dispersione rispetto ad un valore medio: devianza Per valutare la variabilità complessiva di una distribuzione di valori quantitativi: x1 ,...x n di media µx consideriamo gli scarti (cioè le differenze) di tutte le misure dalla media, cioè la sommatoria: n ∑ (x i =1 i − µx ) Per una particolare proprietà della media aritmetica, la sommatoria degli scarti dalla media è sempre nulla: n ∑ (x i =1 i − µx ) = 0 (a causa della compensazione tra scarti positivi e scarti negativi). Si ricorre al quadrato, e si definisce ‘devianza’ la somma dei quadrati degli scarti dalla media: n 2 DEV = ∑ (xi − µ x ) i =1 Riconsideriamo ad esempio le seguenti distribuzioni di valori: A: 2, 5, 5, 5, 8; B: 1, 4, 5, 6, 9. 2+5+5+5+8 =5 5 1+ 4 + 5 + 6 + 9 µB = =5 5 µA = Calcoliamo la devianza di A e di B: Dev A = (2 − 5) + (5 − 5) + (5 − 5) + (5 − 5) + (8 − 5) = 9 + 0 + 0 + 0 + 9 = 18 2 2 2 2 2 Dev B = (1 − 5) + (4 − 5) + (5 − 5) + (6 − 5) + (9 − 5) = 16 + 1 + 0 + 1 + 16 = 34 2 2 3,5 2 2 2 2,5 3,0 B 2,0 A 2,5 1,5 2,0 1,5 1,0 1,0 ,5 ,5 0,0 0,0 2,0 A 4,0 Meno dispersa 6,0 8,0 2,0 4,0 6,0 8,0 10,0 B Piu’ dispersa Le unità di A hanno modalità del carattere piu’ vicine alla media e piu’ vicine tra loro rispetto a B. La devianza di B (34) è infatti maggiore della devianza di A (18). La devianza non contiene pero’ l’informazione del numero di osservazioni utilizzate nel calcolo. Per superare tale problema si calcola un altro indice di dispersione: Varianza N = numerosità del campione N VARIANZA = s = 2 2 ( ) x − µ ∑ i x i =1 N −1 DEVIANZA = N −1 Le varianze diventano cosi’ confrontabili tra diverse distribuzioni e in base al loro valore si puo’ stabilire quale, tra le due o piu’ serie di misure considerate, presenta una maggiore dispersione rispetto alla media, indipendentemente da N. Varianza di B > Varianza di A; indipendentemente dal fatto che B ha un'osservazione in piu' di A. 3.5 3.5 3.0 3.0 A 2.5 B 2.5 2.0 2.0 1.5 1.5 1.0 1.0 .5 .5 0.0 0.0 2.0 A s A2 [(2 − 5 ) = s B2 [(5 − 5 ) = 2 2 4.0 5 6.0 8.0 2.0 4.0 B 5 6.0 8.0 10.0 A: 2, 5, 5, 5, 8 ; B: 5, 1, 4, 5, 6, 9 ; µ A = 5; N A = 5 µ B = 5; N B = 6 ] + (5 − 5 ) + (5 − 5 ) + (5 − 5 ) + (8 − 5 ) 18 = = 4 .5 5 −1 4 2 2 2 2 2 + (1 − 5 ) + (4 − 5 ) + (5 − 5 ) + (6 − 5 ) + (9 − 5 ) 34 = = 6 .8 6 −1 5 2 2 2 2 ] Calcolo della varianza per distribuzioni di frequenza: n s2 = 2 ( ) x − µ ∑ i x * ni i =1 n −1 ni = frequenza assoluta della modalità xi. CLASSI DI PESO (kg): xi Frequenze assolute Frequenze relative 40 ≤ < 50 : 45.5 2 0.10 50 ≤ < 60 : 55.5 4 0.19 60 ≤ < 70 : 65.5 12 0.57 70 ≤ < 80 : 75.5 3 0.14 Totale 21 1 c valore medio della classe: x i n ∑x µ peso = ∑ (x n s 2 peso = i =1 c i c i i =1 n ) − µ x * ni 2 n −1 * ni = [45.5 * 2 + 55.5 * 4 + 65.5 *12 + 75.5 * 3] = 1325.5 = 63.12 21 21 [(45.5 − 63.12) * 2 + .... + (75.5 − 63.12) * 3] = 1380.95 = 69.05 = 2 2 21 − 1 20 Il peso medio è espresso nella stessa unità di misura dei dati: 63.12 kg. La varianza (dispersione dei valori di peso intorno al peso medio) è invece al quadrato rispetto all'unità di misura originaria. Per questo motivo, presentano i risultati usando la radice quadrata della varianza. Deviazione standard n s = s2 = 2 ( ) µ x − ∑ i x * ni i =1 n −1 Deviazione standard= l'errore che si commette mediamente considerando il valore medio al posto di ogni singolo valore della distribuzione. s peso = s 2 peso = 69.05 = 8.31 Kg In media, le unità del campione osservato si discostano dal peso medio (63.12 kg) di 8.31 kg al di sopra o al di sotto (scostamento "assoluto", a prescindere dal segno positivo o negativo) E' MOLTO IMPORTANTE calcolare sempre la deviazione standard dalla media perchè è un indice fondamentale per capire se i dati che stiamo osservando siano ben sintetizzati dalla media oppure no. Quanto piu' è alta infatti la deviazione standard, tanto meno è informativa la media, perchè i dati si allontanano molto da essa. 14 20 12 10 8 10 6 4 Std. Dev = .60 Std. Dev = 2.07 2 Mean = -.15 Mean = -.13 N = 80.00 0 N = 80.00 0 4. 3. 2. 1. .5 50 50 50 50 0 50 50 50 50 50 0 -.5 . -1 . -2 . -3 . -4 81 05 29 52 6 6 52 29 05 81 0 . -5 3. 3. 2. 1. .7 .0 -.7 . -1 . -2 . -3 . -3 NORM1 NORM2 NORM2: media= -0.13 deviazione standard= 0.6 NORM1: media= -0.15 deviazione standard= 2.07 …praticamente uguali in media pero' diverse come dispersione intorno al valore medio. Quale delle due è meno rappresentata dal valore medio? Approfondimento In piccoli studi si riduce la probabilità di includere dati particolarmente "dispersi" (in generale infatti l'intervallo di variazione o range aumenta con il numero delle osservazioni) e quindi si puo’ sottostimare la variabilità reale della popolazione. Queste considerazioni giustificano, per N piccolo (<50/100), di modificare la formula della varianza: n 2 ( ) x − µ ∑ i x VARIANZA = s 2 = i =1 N −1 Motivo statistico-matematico: se di una distribuzione di dati è nota la media, la conoscenza di uno degli N valori è superflua in quanto ricavabile utilizzando la formula del calcolo della media stessa. Ne deriva che questa misura, pur essendo indispensabile per determinare la media, non è 'indipendente' dalle altre, in quanto è implicita in esse e non fornisce ulteriore informazione; per tale motivo viene trascurata nel calcolo della varianza. Le N-1 osservazioni indipendenti, costituiscono un caso particolare di gradi di libertà; un concetto statistico importante,soprattutto in inferenza, per indicare, nelle varie situazioni, il numero delle informazioni indipendenti.