La media e la mediana sono “indicatori di centralità”, che indicano un centro dei dati. Un indicatore che sintetizza in un unico numero tutti i dati, nascondendo quindi la molteplicità dei dati. Per esempio, il reddito medio è un numero che ci consente di confrontare la ricchezza di un Paese con un altro. Ma nasconde il fatto che in un singolo Paese possono esserci famiglie estremamente ricche e altre molto povere. Esempio Vengono testati 2 farmaci concorrenti A e B. I risultati, in termini di sopravvivenza, su due gruppi di 5 pazienti sono i seguenti: A 3 4,5 5 6 6,5 B 1,2 2 4 8 9,8 Quale farmaco ha dato i migliori risultati? A B 3 1,2 4,5 2 5 4 6 8 6,5 9,8 La sopravvivenza media prodotta dal farmaco A e dal farmaco B è data da 3 + 4,5 + 5 + 6 + 6,5 25 xA = = =5 5 5 1,2 + 3 + 4 + 8 + 8,8 25 xB = = =5 5 5 La media è la stessa! Quindi…quale farmaco scegliere? Consideriamo un insieme di dati statistici x1, x2, …, xn. Sia x la loro media aritmetica. I valori x1 − x, x2 − x, … xn − x si chiamano scarti La varianza dell’insieme di dati statistici x1, x2, …, xn è il numero 1 2 Var = ∑ (x − x i ) n i =1 n cioè la media aritmetica degli scarti al quadrato. Tale numero è una misura di quanto i dati sono mediamente dispersi attorno alla loro media. Calcoliamo la Varianza dei dati dell’esempio precedente. A B 3 1,2 4,5 2 5 4 6 8 6,5 9,8 Varianza per i dati relativi al farmaco A: VarA = ( (3 – 5)2 + (4,5 – 5)2 + (5 – 5)2 + + (6 – 5)2 + (6,5 – 5)2 ) / 5 =(22 + (-0,5)2 + 02 + 12 + 1,52) / 5 = 1,5 A B 3 1,2 4,5 2 5 4 6 8 6,5 9,8 Varianza per i dati relativi al farmaco B: VarB = ( (1,2 – 5)2 + (2 – 5)2 + (4 – 5)2 + + (8 – 5)2 + (9,8 – 5)2 ) / 5 =((-3,8)2 + (-3)2 + (-1)2 + 32 + 4,82) / 5 = 11,3 I risultati che produce il farmaco A sono quindi più “affidabili” di quelli del farmaco B. Nella pratica alla varianza si preferisce la sua radice quadrata, che è chiamata deviazione standard (o scarto quadratico medio): s = Var = 1 n 2 (x − x i ) ∑ n i =1 Tale numero ha il vantaggio di avere la stessa dimensione dei dati x1, … xn, e dà una misura di quanto i dati sono distanti dalla loro media. Con riferimento all’esempio precedente, abbiamo che la deviazione standard relativa al farmaco A è s A = Var A = 1,5 = 1,22 mentre quella relativa al farmaco B è s B = Var B = 11,3 = 3,36 Quando i dati vengono forniti attraverso una tabella delle frequenze, sappiamo che la media aritmetica è una “media ponderata”. Anche nel calcolo della varianza, e quindi la deviazione standard, si deve tener conto dei “pesi” dati dalle frequenze. In presenza di una tabella delle frequenze dato x1 x2 … xk frequenza f1 f2 … fk per il calcolo della varianza e della deviazione standard si usa la formula k ∑ f (x − x i Var = k i =1 ) , i =1 ∑f i 2 i s = Var Esempio – Riprendiamo l’esempio di ieri del giudizio degli studenti Giudizio Frequenza 1 10 2 20 3 30 4 25 5 40 6 25 7 25 8 20 9 3 10 2 Avevamo calcolato una media aritmetica (ponderata) di 4,9. Si calcoli la deviazione standard. Conviene considerare la seguente tabella, per facilitare i calcoli: Giudizio Frequenza 1 10 2 20 3 30 4 25 5 40 6 25 7 25 8 20 9 3 10 2 xi – 4,9 (xi – 4,9)2 Giudizio (xi) Frequenza (fi) xi – 4,9 (xi – 4,9)2 1 10 -3,9 15,21 2 20 -2,9 8,41 3 30 -1,9 3,61 4 25 -0,9 0,81 5 40 0,1 0,01 6 25 1,1 1,21 7 25 2,1 4,41 8 20 3,1 9,61 9 3 4,1 16,81 10 2 5,1 26,01 Vogliamo usare la formula k ∑ f (x − x ) i Var = 2 i , i =1 k ∑f i =1 i s = Var Giudizio Frequenza xi fi 1 10 xi – 4,9 (xi – 4,9)2 fi (xi – 4,9)2 -3,9 15,21 152,1 2 20 -2,9 8,41 168,2 3 30 -1,9 3,61 108,3 4 25 -0,9 0,81 20,25 5 40 0,1 0,01 0,4 6 25 1,1 1,21 30,25 7 25 2,1 4,41 110,25 8 20 3,1 9,61 192,2 9 3 4,1 16,81 50,43 10 2 5,1 26,01 52,02 somma: 884,4 Si ottiene dunque che Var = 884,4 / 200 = 4,42 e s = 2,10 Distribuzione a due caratteri e regressione lineare Finora ci siamo concentrati su una sola caratteristica di una data popolazione (per esempio il giudizio degli studenti, l’efficacia di un farmaco, ecc) Consideriamo ora una situazione nuova. Vogliamo cioè studiare due caratteristiche di una data popolazione e vedere se c’è una correlazione tra di esse. Per esempio, dato un certo insieme di persone, studiamo due caratteristiche di questa popolazione: età pressione arteriosa L’obiettivo è capire se c’è una relazione tra queste due grandezze Supponiamo che la nostra popolazione sia composta da n persone. Per ciascuna persona ci annotiamo - l’età xi - la pressione yi Età (x) Pressione (y) 25 120 30 125 42 135 55 140 55 145 63 140 70 160 In generale otteniamo così n coppie (x1,y1), (x2,y2), …. (xn,yn) che individuano n punti P1, P2, …. Pn in un sistema di assi cartesiani Si ottiene così una “nube” di punti. Essenzialmente può capitare uno dei seguenti 4 casi. a) Nel primo caso, al crescere di x anche i corrispondenti valori di y tendono a crescere. Vi è quindi una correlazione positiva b) Nel secondo caso, al crescere di x anche i corrispondenti valori di y tendono a diminuire. Si parla di correlazione negativa c) Nel terzo caso, al crescere di x anche i corrispondenti valori di y tendono a rimanere costanti. Si parla di indifferenza della caratteristica y rispetto alla x d) Nell’ultimo caso la nube di punti evidenzia l’assenza di alcuna correlazione tra i valori di x e di y Il nostro obiettivo è di studiare i casi a) e b), cioè quando la nube di punti evidenzia una correlazione tra la variabile x e la y. Vogliamo trovare una legge matematica che esprima una tale correlazione. Più precisamente vogliamo capire se è possibile esprimere la y come funzione lineare della variabile x Tornando all’esempio, rappresentiamo sul piano cartesiano le 7 coppie di punti che avevamo annotato Età (x) Pressione (y) 25 120 30 125 42 135 55 140 55 145 63 140 70 160 170 160 150 Pre s s ione 140 130 120 110 100 90 80 0 10 20 30 40 Età 50 60 70 80 È quindi lecito supporre che possa esservi una relazione lineare tra età di una persona e pressione arteriosa. Vogliamo esprimere quantitativamente questa relazione lineare. Il grafico di una funzione lineare è una retta. Quello che noi vogliamo trovare è quindi una retta … che passi “bene in mezzo” ai punti P1, P2, … Pn, e che quindi possa esprimere con la migliore approssimazione possibile la relazione tra la variabile x (età) e y (pressione). Tale retta si chiama retta di regressione lineare 180 170 160 150 Pressione 140 130 120 110 100 90 80 0 10 20 30 40 50 Età 60 70 80 90 100 Esiste una tale retta? È unica? Come trovarne l’equazione? Consideriamo una generica retta y = mx +q In corrispondenza delle ascisse x1, x2, …, xn le rispettive ordinate saranno yi = mxi + q L’errore che si commette nell’approssimare la nostra serie di punti P1(x1,y1), P1(x1,y1), … Pn(xn,yn) con i punti della retta y = mx + q è misurato dalla somma delle lunghezze |yi – (mxi + q)| Si dimostra che esiste un’unica retta (cioè esistono unici m e q) affinché la quantità n ∑ (y i − (mxi + q )) 2 i =1 sia la più piccola possibile. Tale retta si chiama retta di regressione lineare. Si dimostra che 1. Il coefficiente angolare della retta di regressione è dato dalla formula n ∑(x m= i − x )( y i − y ) i =1 n ∑(x i =1 i − x) 2 2. La retta di regressione passa per il punto M ( x, y ) cioè il punto (chiamato baricentro) le cui coordinate sono le medie aritmetiche delle ascisse e delle ordinate dei punti P1(x1,y1), P2(x2,y2), …, Pn(xn,yn). Quindi l’equazione della retta di regressione è y = mx + q con n ∑(x m= i − x )( y i − y ) , i =1 n ∑(x i =1 i − x) 2 q = y − mx A titolo di esempio calcoliamo la retta di regressione per la serie di dati relativi alle osservazioni di età e pressione. Intanto si ha subito che x = 48,57 e y = 137,86 Età x 25 Pressione y 120 xi – 48,57 yi – 137,86 -23,57 -17,86 30 125 -18,57 -12,86 42 135 -6,57 -2,86 55 140 6,43 2,14 55 145 6,43 7,14 63 140 14,43 2,14 70 160 21,43 22,14 xi – 48,57 yi – 137,86 (xi – 48,57 )(yi – 137,86) (xi – 48,5)2 -23,57 -17,86 420,92 555,61 -18,57 -12,86 238,78 344,90 -6,57 -2,86 18,78 43,18 6,43 2,14 13,78 41,33 6,43 7,14 45,92 41,33 14,43 2,14 30,92 208,18 21,43 22,14 474,49 459,18 somma 1243,57 1693,71 Quindi n ∑ (x m= i − x )(y i − y ) i =1 n ∑ (x 2 i − x) 1243,57 = = 0,73 1693,71 i =1 q = y − mx = 137,9 − 0,73 ⋅ 48,57 = 102,4 La retta ha dunque equazione y = 0,73 x +102,4 Quanto la retta trovata approssima bene i dati? Cioè con quale bontà la retta di regressione riesce a dare una schematizzazione fedele del fenomeno? Viene introdotto il seguente numero, chiamato coefficiente di correlazione (o coefficiente di Pearson) n ∑ (x r = i − x )(y i − y ) i =1 n ∑ (x i =1 2 i − x) n ∑ (y i =1 2 i −y) Si dimostra che –1 ≤ r ≤ 1. Quanto più r è vicino a 1 oppure a -1 tanto più i punti P1, P2, …, Pn sono vicini alla retta e la retta di regressione descrive con sempre maggiore approssimazione il fenomeno. Quando r = 1 oppure r = -1, i punti P1, P2, … Pn sono allineati e sono punti appartenenti alla retta di regressione. Invece, valori di r prossimi a 0 stanno a significare che non vi è alcuna correlazione lineare tra le due variabili x e y. Quindi la retta di regressione non è adatta per schematizzare il fenomeno. Cionondimeno potrebbero esserci correlazioni di altro tipo (esponenziale, quadratica, ecc.) tra le due variabili.