Statistica descrittiva Testi e figure liberamente tratti da dispense di Prof. Elisa Francini (Università di Firenze) Prof. Alberto Morabito (Università di Milano) La Statistica si occupa dell’analisi quantitativa dei fenomeni collettivi (cioè fenomeni composti da un grande numero di unità elementari). Esempi di fenomeni collettivi: L’insieme degli studenti di un corso universitario. Quali sono le loro caratteristiche? L’insieme dei potenziali pazienti che soffrono di ipertensione. Il farmaco A è più efficace del farmaco B? Gli scopi della statistica sono Descrivere Generalizzare Prevedere La statistica è l’insieme dei metodi, fondati sul calcolo delle probabilità, che consentono, da un lato la corretta programmazione di un esperimento o di una osservazione pianificata e, dall’altro, l’elaborazione dei dati così raccolti. La statistica moderna può essere divisa in tre parti: Statistica descrittiva Statistica matematica Statistica inferenziale La Statistica descrittiva Lo scopo della statistica descrittiva è quello di descrivere efficacemente una grande massa di dati mediante tabelle e grafici e di sintetizzare le informazioni in indici matematici in modo da individuare le caratteristiche fondamentali del campione La Statistica matematica La Statistica matematica si avvale del Calcolo delle Probabilità e presenta le distribuzioni teoriche per misure discrete e continue La Statistica inferenziale La Statistica inferenziale si occupa di dedurre leggi generali disponendo di un campione variabile. In pratica è l’insieme dei metodi che consentono di pervenire a delle conclusioni che vanno al di là della stretta evidenza empirica Il linguaggio della Statistica descrittiva Popolazione statistica: è l’insieme di tutti i possibili oggetti dell’indagine statistica Individuo (o unità statistica): è un qualsiasi elemento della popolazione Variabile: è una qualsiasi caratteristica di ogni individuo della popolazione, soggetta a variazioni di valore da un individuo all’altro Indagine sulle domande di adozione nel distretto della Corte d’Appello di Torino nel 2003 (dati Istat) Tipo di indagine: censimento Popolazione: coppie che hanno presentato domanda di adozione nel distretto della Corte d’Appello di Torino nel 2003 Individuo: una qualunque coppia Variabili: domande poste alle coppie mediante un questionario: Età dei coniugi Titolo di studio dei coniugi Reddito familiare Tipo di matrimonio Numero di figli Tipo di adozione (nazionale o internazionale) Classificazione delle variabili nominali Qualitative ordinali Quantitative discrete continue Età dei coniugi Titolo di studio dei coniugi Reddito familiare Tipo di matrimonio Numero di figli Tipo di adozione quantitativa discreta (?) qualitativa ordinale quantitativa continua qualitativa nominale quantitativa discreta qualitativa nominale Coppie che hanno presentato domanda di adozione alla corte di appello di Torino – anno 2003 1 35 34 n. coppia età marito età moglie Tit.studio marito LAUREA Tit. studio moglie Tipo di matrimoni o Reddito 3 38 39 4 51 45 5 6 32 … 30 … DIP. SUP. DOTTO RATO LIC. MEDIA DIP. SUP. … LAUREA DIP. SUP. LAUREA DIP. SUP. LAUREA … RELIG. RELIG. CIVILE RELIG. RELIG. … 40.700 35.850 45.225 Numero Figli Tipo Adozione 2 42 36 0 INTERN. 1 INTERN. 35.000 30.315 … 1 0 … 0 NAZ. INTERN. INTERN. E NAZ. … FREQUENZA La frequenza di un valore è il numero di individui della popolazione per i quali la variabile assume tale valore TITOLO DI STUDIO DELLA MOGLIE TITOLO DI STUDIO Dottorato o specializ. Laurea Diploma universitario o laurea breve Diploma di scuola media superiore Licenza di scuola media inferiore Licenza elementare Non indicato Totale FREQUENZA 15 139 22 249 113 3 4 545 TITOLO DI STUDIO DELLA MOGLIE TORINO FIRENZE TITOLO DI STUDIO FREQUENZA TITOLO DI STUDIO FREQUENZA Dottorato o specializ. 15 139 Dottorato o specializ. Laurea 16 65 22 Diploma universitario o laurea breve 18 249 Diploma di scuola media superiore 160 Laurea Diploma universitario o laurea breve Diploma di scuola media superiore Licenza di scuola media inferiore Licenza elementare Non indicato Totale 113 3 4 545 Licenza di scuola media inferiore Licenza elementare Non indicato Totale 72 4 2 337 FREQUENZA RELATIVA La frequenza relativa è il rapporto tra la frequenza del valore e il numero di individui della popolazione: freq. relat. = freq. ass. / totale individui La frequenza percentuale si ottiene normalizzando a 100 il totale della popolazione: freq. percentuale = freq. relativa * 100 FREQUENZE RELATIVE TORINO FIRENZE TITOLO DI STUDIO Dott. o spec. Laurea Diploma univers. Diploma superiore Licenza media Licenza elem. Non indicato Totale FREQUENZA FREQUENZA RELATIVA PERCENTUA LE TITOLO DI STUDIO FREQUENZA RELATIVA FREQUENZA PERCENTUA LE 0,0275 2,75% 0,2550 25,50% Dott. o spec. Laurea 0,0475 4,75% 0,1929 19,29% 0,0404 Diploma univers. 0,0534 0,4569 45,69% Diploma superiore 0,4748 47,48% 0,2073 20,73% Licenza media 0,2136 21,36% 0,0055 0,55% Licenza elem. 0,0119 1,19% 0,73% 100% Non indicato 0,0059 1 0,59% 100% 0,0073 1 4,04% Totale 5,34% FREQUENZE CUMULATIVE (TORINO) TITOLO DI STUDIO FREQ Dott. o spec. 15 Laurea 139 Diploma univers. 22 FREQ. RELAT. FREQ. PERC. 0,0275 FREQ. CUMUL. FREQ. CUM. % 2,75% 0,0275 2,75% 0,2550 25,50% 0,2825 28,25% 0,0404 4,04% 0,3229 32,29% Diploma superiore 249 0,4569 45,69% 0,7798 77,98% Licenza media 113 0,2073 20,73% 0,9871 98,71% Licenza elem. 3 0,0055 0,55% 0,9926 99,26% Non indicato 4 0,0073 0,73% 1 100% 545 1 100% Totale Distribuzione La funzione che ad ogni valore della variabile associa la sua frequenza ( o frequenza relativa) si dice distribuzione della variabile. Attenzione: se la variabile è continua o se i possibili valori sono troppi, si possono dividere in classi Esempio: età del marito CLASSE FREQ. FREQ. REL. FREQ. CUMUL. 11 2,02% 2,02% < 30 113 20,73% 22,75% < 35 214 39,27% 62,02% <40 Da 41 a 45 133 24,40% 86,42% <45 Da 46 a 50 49 8,99% 95,41% <50 Da 51 a 55 21 3,85% 99,27% <55 4 0,73% 545 100,00% Da 26 a 30 Da 31 a 35 Da 36 a 40 Non indicato Totale 100,00% Rappresentazioni grafiche Istogramma 250 200 150 Marito Moglie 100 50 0 5 -5 51 0 -5 46 5 -4 41 0 -4 36 5 -3 31 0 -3 25 Rappresentazioni grafiche Diagramma a torta Dottorato Laurea Laurea breve Diploma superiore Licenza media Licenza elementare Non indicato INDICATORI SINTETICI MISURE DI TENDENZA CENTRALE Sono quantità che individuano i valori intorno ai quali i dati sono raggruppati. MEDIA MODA MEDIANA Media Aritmetica Semplice Esempio: “Rossi ha la media del 25” Popolazione: insieme degli esami sostenuti da Rossi Variabile: voto ottenuto nell’esame Media aritmetica semplice = somma dei voti ottenuti / numero esami sostenuti Media Aritmetica Semplice N = numero di individui di una popolazione X = variabile numerica xi = valore che la variabile assume sull’i-esimo individuo della popolazione La media è definita da 1 X N ( x1 x2 ... xN ) xi N i 1 N La media aritmetica può essere calcolata anche conoscendo solo la distribuzione della variabile. Siano xj, per j=1,…, m, i valori che la variabile X può assumere e siano fj le corrispondenti frequenze. Allora m X x j 1 j fj m f j 1 j Voti ottenuti negli esami 25 27 23 25 23 27 25 M. aritm. =(25+27+23+25+23+27+25)/7=25 (23*2+25*3+27*2)/(2+3+2)=25 Quando la variabile è suddivisa in classi, ad ogni classe si associa il valore medio dell’intervallo CLASSE Da 26 a 30 Da 31 a 35 Da 36 a 40 Da 41 a 45 Da 46 a 50 Da 51 a 55 Totale FREQ. VALORE MEDIO 11 113 214 28 33 38 133 49 21 43 48 53 541 28 11 33 113 38 214 43 133 48 49 53 21 X 39,4 541 Media armonica 1 11 1 1 ... H N x1 x2 xN Questa media è la stima più corretta per distribuzioni di dati dei quali devono essere usati gli inversi La città A dista 100 km dalla città B; andiamo da A a B con un’auto che viaggia a 50 km/h e torniamo con una che viaggia a 70 km/h. Quanto tempo impieghiamo? T = 100/50 + 100/70 = 3,43 h Media aritmetica delle velocità=60 km/h t = 2*100/60 = 3,33 h Media armonica=2(1/50+1/70)-1=58,33 km/h t = 2*100/58,33 = 3,43 h Media geometrica G x1 x2 ... xN 1/ N Questa media è adatta, per esempio a stimare i tassi di interesse o di inflazione. Supponiamo che un certo investimento abbia ottenuto un tasso annuale in quattro anni successivi pari al 5%, 4%, 1% e 2,8%. Qual è il tasso nei quattro anni? t = (1,05)*(1,04)*(1,01)*(1,028) = 1,1338 Media aritmetica = 1,032 T = (1,032)4 = 1,1343 Media geometrica = 1,0318 t = (1,0318)4 = 1,1338 Errore comune T = 1 + 0,032*4 = 1,128 Moda La moda è il valore più frequente di una distribuzione. Può essere definita anche per variabili qualitative. Una distribuzione può avere due (o più) massimi di frequenze paragonabili. Si parla allora di distribuzione bimodale. Moda 50 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 Mediana La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati. E’ definita solo per variabili ordinali. In una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana. Come si calcola la mediana Si dispongono i dati in ordine crescente o decrescente e se ne conta il numero totale n Se n è dispari la mediana corrisponde al valore che occupa la posizione centrale (n+1)/2 Se n è pari la mediana è la media tra i valori nelle posizioni n/2 e (n+2)/2 Confronto media e mediana Serie: 23 45 67 73 96 108 132 156 177 Media = 97.44 Serie: 1 1 1 2 mediana 96 560 754 930 1000 Media = 371.67 Centili (percentili, frattili, quartili) Misure di dispersione La dispersione o variabilità è la seconda importante caratteristica di una distribuzione di dati. Essa misura la forma più o meno raccolta della distribuzione intorno al valore centrale. Distribuzioni diverse 10 9 8 7 6 5 4 3 2 1 Serie1 Serie2 S1 27 25 23 21 19 media = 15,47 deviazione standard = 6,45 / 4,76 17 15 13 11 9 7 5 3 1 0 Range (campo di variazione) W xmax xmin Misura puramente descrittiva e poco informativa Es. Le altezze di 10 esemplari di una pianta sono: 10 22 33 44 46 51 67 74 79 85 W=85-10=75 Le altezze di altri 10 esemplari sono invece 10 11 11 12 13 14 15 16 20 85 W=85-10=75 Varianza di una popolazione È la media dei quadrati degli scarti tra i valori della variabile e la media. 1 V N V x X 2 N i 1 i Si chiama deviazione standard o scarto quadratico medio Alcune formule Con la distribuzione V m f j 1 Teorema f x m 1 j 1 j j X 2 j di König V m 1 f m f j 1 j 1 j j x X 2 j 2 Variabili continue Frequenza, distribuzione, densità di probabilità. b P a X b f x dx a Disuguaglianza di Čebišev Una variabile X con media μ e deviazione standard σ verifica la disuguaglianza 1 P X μ kσ 2 k Dimostrazione: Se Y è una variabile positiva, allora E Y 0 a a xf x dx xf x dx a f x dx a P Y a Posto Y = (X - μ)2 ed a = k 2 σ 2 risulta σ 22 E Y k 2 σ 2 P X - μ 2 k 2 σ 2 k 2 σ 2 P X - μ kσ Istogramma della distribuzione di probabilità Lancio di due dadi 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Istogramma della distribuzione di probabilità Lancio di tre dadi 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Istogramma della distribuzione di probabilità Lancio di quattro dadi 0,12 0,1 0,08 0,06 0,04 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Istogramma della distribuzione di probabilità Lancio di cinque dadi 0,12 0,1 0,08 0,06 0,04 0,02 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 Istogramma della distribuzione di probabilità Lancio di sei dadi 0,1 0,08 0,06 0,04 0,02 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 Istogramma della distribuzione di probabilità Lancio di venti dadi 0,06 0,05 0,04 0,03 0,02 0,01 0 1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134 Funzione Gaussiana 1 f y e 2 y 2 2 2 Distribuzione normale Teorema centrale del limite Se X1, X2, … , Xn sono variabili indipendenti con media μ e deviazione standard σ , allora la distribuzione della variabile X 1 X 2 X n nμ σ n Tende alla distribuzione normale standard al crescere di n (per n che tende a + ). Correlazione lineare La media e la deviazione standard possono essere usate per descrivere una singola distribuzione di frequenza ma non ci dicono nulla sulle eventuali relazioni tra due variabili. Potremmo, ad esempio, essere interessati a valutare il grado di associazione o relazione tra l'altezza e il peso “della stessa persona” all’interno di un gruppo di persone, tra il reddito medio pro-capite di un Paese e il tasso di mortalità neonatale, tra l’età della madre e il numero di nati affetti da sindrome di Down e così via. Il primo passo da compiere quando si vuole studiare una relazione tra due variabili consiste nel rappresentarle graficamente. Esperimento 1 Consideriamo un insieme di coppie (xi, yi) di valori di uricemia, misurati con due metodi (X ed Y) in un gruppo di 10 uomini anziani. Si consideri che ciascun prelievo di sangue (uno per soggetto) è stato ripartito in due aliquote, l'una analizzata con il metodo X e l'altra con il metodo Y. Metodi soggetti 1 2 3 4 5 6 7 8 9 10 Metodo X 5.8 6.2 6.9 6.1 5.4 6.2 5.9 5.5 6.6 6.4 Metodo Y 6.0 6.3 6.8 6.2 5.4 6.4 6.1 5.4 6.8 6.6 L'esame visivo del diagramma di dispersione fornisce una prima idea dell'entità e della forma della relazione. Ogni punto rappresenta una coppia (xi , yi), la linea verticale rossa la media (x) delle xi, e La linea orizzontale rossa la media (y) delle yi. Metodo Y (mg/dl) 7 6 5 5 6 Metodo X (mg/dl) 7 URICEMIA (mg/dl): Metodo Y Poiché ogni coppia di misure si riferisce ad uno stesso soggetto, ci si aspetta che, se una misura xi è maggiore della media, anche la corrispondente misura yi sia maggiore della media. Ci aspettiamo che a scarti 7 x- / y+ dalla media (xi - x) positivi x+ / y+ sull'asse x corrispondano scarti dalla media (yi - y) 6 positivi sull’asse y, e che a scarti negativi sull’asse x corrispondano scarti negativi x+ / yx- / ysull’asse y. In effetti, questo 5 5 6 7 è quanto accade per i punti URICEMIA (mg/dl): Metodo X (xi,yi) in figura. Esperimento 2 Un singolo prelievo di sangue viene suddiviso in 10 provette, ed il contenuto di ogni provetta è ripartito in due aliquote, analizzate l'una con il metodo X e l'altra con il metodo Y. Nell'insieme di 10 coppie (xi , yi) di misure di un unico valore, le fluttuazioni attorno alle medie sono dovute solo ad errori di misura. Metodi provette 1 2 3 4 5 6 7 8 9 10 Metodo_X 5.1 4.9 5.0 4.9 5.0 5.1 5.0 5.3 4.9 4.8 Metodo_Y 4.9 4.6 5.1 4.8 4.8 4.8 4.9 5.0 4.9 5.2 Come previsto i punti del grafico non hanno direzioni privilegiate e si dispongono più uniformemente attorno al loro baricentro. Cerchiamo adesso un metodo per quantificare questa disposizione nei grafici di dispersione. Regressione lineare L’idea è di scegliere la retta che meglio approssima i punti del grafico considerando la somma degli scarti quadratici tra i dati misurati e i dati previsti. Metodo Y (mg/dl) y = ax + b 14 12 10 8 6 4 2 0 0 2 4 6 8 10 12 14 Metodo X (mg/dl) Si tratta dunque di minimizzare la funzione n 1 2 E a, b y i a bx i n i 1 Il minimo sarà un punto critico della funzione E(a,b). Quindi ... n E 2 y i a bxi 0 a i 1 n E 2 y i a bxi xi 0 b i 1 b da cui a y bx n xi x y i y i 1 n xi x xi x i 1 con = n var(xi) 1 n x xi n i 1 n 1 y yi n i 1 Quindi n 1 2 a y bx E a, b y i a bxi n i 1 cov x, y n b 1 2 var x y i y bxi x n i 1 2 n n 1 2 b 2 xi x 2b cov x, y y i y n i 1 n i 1 2 2 cov x, y cov x, y var y var y 1 var x var y var x Coefficiente di correlazione lineare cov x, y var x var y ESEMPIO DI CALCOLO (1) n 1 2 3 4 5 6 7 8 9 10 xi 5.8 6.2 6.9 6.1 5.4 6.2 5.9 5.5 6.6 6.4 61.0 yi 6.0 6.3 6.8 6.2 5.4 6.4 6.1 5.4 6.8 6.6 62.0 xi -x yi -y (xi -x) 2 (yi -y) 2 (xi -x)(yi -y) -0.3 +0.1 +0.8 0.0 -0.7 +0.1 -0.2 -0.6 +0.5 +0.3 0.0 -0.2 +0.1 +0.6 0.0 -0.8 +0.2 -0.1 -0.8 +0.6 +0.4 0.0 0.09 0.01 0.64 0.00 0.49 0.01 0.04 0.36 0.25 0.09 1.98 0.04 0.01 0.36 0.00 0.64 0.04 0.01 0.64 0.36 0.16 2.26 +0.06 +0.01 +0.48 0.00 +0.56 +0.02 +0.02 +0.48 +0.30 +0.12 2.05 Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1. x 61.0 10 6.1 y 62.0 10 6.2 Cxy 2.05 Dx 1.98 Dy 2.26 r 2.05 1.98 2.26 0.9691 ESEMPIO DI CALCOLO (2) n 1 2 3 4 5 6 7 8 9 10 xi yi x2 i y2 i x i yi 5.8 6.2 6.9 6.1 5.4 6.2 5.9 5.5 6.6 6.4 61.0 6.0 6.3 6.8 6.2 5.4 6.4 6.1 5.4 6.8 6.6 62.0 33.64 38.44 47.61 37.21 29.16 38.44 34.81 30.25 43.56 40.96 374.08 36.00 39.69 46.24 38.44 29.16 40.96 37.21 29.16 46.24 43.56 386.66 34.80 39.06 46.92 37.82 29.16 39.68 35.99 29.70 44.88 42.24 380.25 Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1. 61.02 Dx 374.08 1.98 x 61.0 10 6.1 2 10 62.0 y 62.0 10 6.2 Dy 386.66 2.26 10 61.0 62.0 r 2.05 1.98 2.26 0.9691 Cxy 380.25 2.05 10 COME APPARE LA CORRELAZIONE: I dati si riferiscono alla correlazione tra i valori di uricemia rilevati con due metodi di misura (X e Y) su un campione di 100 soggetti anziani. 14 r = 0.290 12 uno studente all'ultima lezione 10 8 6 4 2 Metodo Y (mg/dl) uno studente alla 1° lezione Metodo Y (mg/dl) 14 r = 0.861 12 10 8 6 4 2 0 0 0 2 4 6 0 8 10 12 14 un analista esperto r = 0.036 12 10 8 6 4 2 14 Metodo Y (mg/dl) Metodo Y (mg/dl) 14 4 6 8 10 12 14 Metodo X (mg/dl) Metodo X (mg/dl) uno studente alla 2° lezione 2 r = 0.661 12 10 8 6 4 2 0 0 0 2 4 6 8 10 12 14 Metodo X (mg/dl) 0 2 4 6 8 10 12 14 Metodo X (mg/dl) Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta, e non risente dell'inclinazione della retta, salvo che per due importanti eccezioni. Y Y r = 0.95 r = 0.80 X X Y Y r = 0.95 r = 0.80 X X Grafici di dispersione per variabili a correlazione elevata o molto elevata. Y Y r = 0.60 r = 0.95 X X r = 0.80 r = 0.99 Variabile Y Y Variabile X X X Grafici di dispersione per variabili a correlazione nulla o lieve. Y Y r = 0.40 r = 0.00 X Y r = 0.10 V ar iab ile X X X Il coefficiente di correlazione ha il segno del coefficiente angolare della migliore retta approssimante. Il coefficiente di correlazione è indeterminato soltanto se la varianza di una serie è nulla. Y Y r = -0.99 Variabile Y r = 0.99 Variabile X X X Y r = 0.99 r = 0.99 X Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta: vi possono essere associazioni forti non lineari con coefficiente di correlazione quasi nullo. Y Y r = -0.084 Variabile Y Variabile Y r = -0.194 Variabile X Variabile X X Y r = -0.041 Variabile Y Variabile Y r = -0.158 X Variabile X Variabile X X