Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Analisi delle relazioni tra due caratteri Le misure di connessione misurano il grado di associazione tra due caratteri qualsiasi sotto il profilo statistico (e non causale in quanto non è compito della statistica formulare affermazioni su rapporti di causa-effetto). Se i due caratteri sono entrambi quantitativi, della loro relazione si può anche, oltre che misurare l’intensità, definire la forma. In particolare, se il legame manifestato dai due caratteri quantitativi X e Y è di tipo lineare, se ne potrà misurare intensità e segno Fonte: ISTAT, Rapporto 2007 1 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Analisi delle relazioni tra due caratteri Nello scatter precedente vengono riportate le spese per ricerca e sviluppo (Y, in ordinata) e il valore aggiunto per addetto nelle regioni italiane (X, in ascissa). Emerge chiaramente un’apprezzabile relazione diretta tra le due variabili. (Nello scatter successivo la relazione è, invece, inversa). a) Come misurare questa relazione? b) Cosa significa (e come si ottiene ) la retta che attraversa la nuvola di punti ? Due temi da approfondire: a) la correlazione e b) la regressione. 2 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Analisi delle relazioni tra due caratteri Tra due variabili X e Y esiste correlazione positiva (concordanza) se al crescere di X anche Y, nel complesso, tende a crescere e se al diminuire di X anche Y, nel complesso, tende a diminuire. La correlazione è invece negativa (discordanza) se al diminuire di X la variabile Y, nel complesso, tende a crescere e se al crescere di X, nel complesso, Y tende a diminuire. Se le variabili sono correlate, i punti dello “scatter” si disporranno secondo un andamento facilmente individuabile: se tale andamento è lineare, si parlerà di correlazione lineare. y Y quadrante II quadrante I y x quadrante IV quadrante III x X 3 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Classificazione delle coordinate dei punti nei 4 quadranti secondo il segno algebrico Quadrante Segno algebrico yi = Yi − y I x i = Xi − x + II - + III - - IV + - + Codevianza e Covarianza I prodotti ( Xi − X )( Yi − Y ) avranno segno positivo per i punti del I e III quadrante e negativo per i punti del II e IV quadrante. La somma dei prodotti è detta codevianza n ∑ ( Xi − X )(Yi − Y ) i =1 Dividendo per n si ottiene la covarianza n ∑ ( Xi − X )(Yi − Y ) i =1 n 4 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Codev (X,Y) > 0 prevalgono i prodotti tra scarti di segno uguale: (+ ) ⋅ (+ ) (− ) ⋅ (− ) concordanza Codev (X,Y) < 0 prevalgono i prodotti tra scarti di segno opposto: (+ ) ⋅ (− ) (− ) ⋅ (+ ) discordanza Coefficiente di correlazione lineare Rapportando la codevianza al suo massimo si ottiene il coefficiente r di correlazione lineare di Bravais-Pearson: r = = Codev (X ,Y ) Dev (X ) ⋅ Dev (Y ) Co var (X ,Y ) V (X ) ⋅ V (Y ) E’ un indicatore simmetrico della relazione lineare tra Y e X 5 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Il segno algebrico di r dipende solo dalla covarianza e 0 ≤ r ≤ 1 r = +1 perfetta correlazione lineare positiva tra XeY r = -1 perfetta correlazione lineare negativa; r=0 assenza di correlazione lineare: caratteri linearmente indipendenti r = +1 perfetta correlazione lineare positiva tra X e Y; punti empirici tutti allineati su una sola retta ascendente 6 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" r = -1 perfetta correlazione lineare negativa; punti empirici tutti allineati su una sola retta discendente r = 0 assenza di correlazione lineare Caratteri linearmente indipendenti 7 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Il valore di r è INVARIANTE PER TRASFORMAZIONI LINEARI operate sulle variabili originarie Una variabile X subisce una trasformazione lineare quando: - viene moltiplicata per una costante b (positiva o negativa) al valore ottenuto viene poi aggiunta un’altra costante a (positiva o negativa) - La variabile Z, trasformata lineare di X, è quindi definita da: Z = a + bX Esempio mese X = prezzo del Brent ( € barile ) Y= prezzo benzina alla pompa ( € litro) 03/2005 40,13 1,170 06/2005 44,71 1,209 09/2005 51,32 1,303 12/2005 48,00 1,220 03/2006 51,66 1,253 06/2006 54,30 1,336 09/2006 48,48 1,269 12/2006 47,17 1,219 r = 0,914 Fonte: ENI, Bollettino Studi Energetici 8 Marilena Pillati - Elementi di Statistica e di Informatica (SVIC) «La correlazione lineare" Esprimiamo ora: - il prezzo del petrolio Brent in lire per litro = Z - il prezzo benzina in lire al netto delle accise = V I valori da utilizzare per la trasformazione lineare sono: - £/€ = 1936,27 - barile =166 litri - accise = 0,564€ per litro (non si considera l’IVA) Quindi: 1 ⋅ X = 11, 664 ⋅ X 166 V = 1936, 27(Y − 0,564) = −1092, 056 + 1936, 27 ⋅ Y Z = 1936, 27 ⋅ nella 1a uguaglianza : a=0 e b=11,664 nella 2a uguaglianza : a= − 1092,056 e b=1936,27 La nuova tabella è: mese Z = prezzo del Brent Y= prezzo benzina ( lire per litro ) alla pompa ( lire per litro al netto accise ) 03/2005 468 1173 06/2005 521 1249 09/2005 599 1431 12/2005 560 1270 03/2006 603 1334 06/2006 633 1495 09/2006 565 1365 12/2006 550 1268 r = 0,914 (invariato) 9