Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Regressione lineare Se la correlazione misura l’intensità e il segno del legame lineare tra due variabili, l’obiettivo delle tecniche di regressione è, invece, quello di individuare il tipo di relazione funzionale (non causale) che esiste tra una variabile dipendente e una o più variabili indipendenti (o esplicative). La regressione può essere: ◊ ◊ ◊ ◊ semplice, se la variabile indipendente è una multipla, se le variabili indipendenti sono 2 o + lineare, se la relazione è lineare non lineare, se tale relazione è non lineare Lo studio della relazione lineare tra due variabili X e Y caratteri entrambi quantitativi X Y variabile indipendente variabile dipendente y * = f (x ) f(x): espressione funzionale che descrive la legge di dipendenza di Y da X 1 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Diagramma di dispersione Y yj . xj { x j , y j ; j = 1,2,..., n } X 2 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Modello di dipendenza lineare y * = b0 + bYX x b0 bYX ordinata all’origine (o termine noto) coefficiente angolare della retta Quale retta si adatta meglio alla nube di punti? Y X 3 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Quale retta si adatta meglio alla nube di punti? Y X Quale retta si adatta meglio alla nube di punti? Y X 4 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Criterio di accostamento: metodo dei minimi quadrati yj ordinata empirica di ascissa xj y *j = b0 + bYX x j ordinata teorica di ascissa xj ∑ (y n j =1 = − y *j j ) 2 = n ∑ (y j − b0 − bYX x j )2 = min j =1 Diagramma di dispersione e retta di regressione dei minimi quadrati Y yj . yj* b0 xj X 5 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" b0 = y − bYX x ∑ (y n ∑x y j bYX = j =1 n ∑x 2 j )( n j − nx y − nx 2 j =1 = j − y xj − x j =1 ∑ (x n j −x ) 2 ) = j =1 Codev (X , Y ) Cov (X , Y ) = = Dev (X ) V (X ) bYX coefficiente di regressione Indica di quanto varia in media la variabile dipendente Y per ogni variazione unitaria positiva di X Ha il segno algebrico della codevianza bYX > 0 bYX < 0 bYX = 0 retta ascendente retta discendente retta parallela all’asse delle ascisse Se Y è linearmente indipendente da X, la retta dei minimi quadrati è y =y 6 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" bYX > 0 retta ascendente bYX < 0 retta discendente 7 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" bYX = 0 retta parallela all’asse delle ascisse Y yj y *j y X xj 8 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Scomposizione della devianza di Y Dev(Y )tot = Dev(Y )dis p + Dev(Y )regr R2 : indice di determinazione lineare R2 : indica la frazione della variabilità di Y attribuibile alla dipendenza lineare da X 9 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" R2 : indice di determinazione lineare R2 = 0 se R2 = 1 se (tutta la variabilità di Y è dovuta alla dipendenza lineare da X e la devianza di dispersione è nulla) y* = 10892 x + 3230 R 2 = 0,3347 Reddito familiare annuo 120000 100000 80000 60000 40000 20000 0 0 2 4 6 8 Numero componenti 10 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Equazione della retta di regressione Y*=3230 + 10892 X Per ogni incremento unitario del numero di componenti, il reddito familiare aumenta in media di 10892 euro. R2=0,3347 Il 33,47% della variabilità totale del reddito familiare annuo (Y) è “spiegata” dalla sua relazione lineare con il numero di componenti (X). Qual è il reddito che in media ci si attende per una famiglia di 3 componenti? Y*=3230 + 10892 · 3 = 35 906 Le famiglie con 3 componenti presenti nel collettivo hanno i seguenti redditi annui: € 50245 € 42019 € 12568 11 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" X: Y: variabile dipendente variabile indipendente bxy e byx I due coefficienti angolari hanno lo stesso segno algebrico, dato dalla codevianza, e differiscono per effetto della diversa variabilità dei due caratteri. Se byx=0 si ha anche bxy=0 Se Y è linearmente indipendente da X, anche X è quindi linearmente indipendente da Y (vale anche il viceversa) 12 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Grafico delle rette Y y x X Coefficiente di correlazione lineare r L’indice r (che è il rapporto tra la codevianza e il massimo valore che essa può assumere) può essere ottenuto a partire dai coefficienti di regressione lineare come segue: r = bYX ⋅ bXY Nel modello di regressione lineare semplice vale la relazione R2 = r 2 13 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" 0 < r < +1 tendenziale correlazione positiva tra X e Y; rette di regressione entrambe ascendenti; coefficienti di regressione positivi (quanto più essi si riducono, tanto più le rette si aprono a forbice, espressione dell'attenuarsi della relazione lineare tra le variabili) -1 < r < 0 tendenziale correlazione negativa tra X e Y; rette di regressione entrambe discendenti: coefficienti di regressione negativi (l'angolo racchiuso dalle due rette è tanto minore quanto più si accentua la correlazione negativa) Esempio La correlazione tra il reddito familiare e il numero di componenti è r = 0.58 Infatti r = 10892 ⋅ 0.000031 = 0.58 14 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" r = 0,30 Y r = 0, 70 Y y y X x X x −1 < r < 0 Sarà anche b YX < 0 e b XY < 0 Le due rette di regressione giaceranno nel II e IV quadrante. r = − 0,30 Y r = − 0, 70 Y y y x X x X 15 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" r=0 Sarà anche b YX = 0 e b XY = 0 regressione di Y su X ∗ regressione di X su Y y =0 Y y e si avrà: Y∗ = y x∗ = 0 Y y∗ = 0 x∗ = 0 X∗ = x y Y∗ = y X∗ = x X x X x N.B. I due scatter sono uguali Altri scatter con r uguale a circa zero Y y σ X2 = σ Y2 Y Y X x y σ X2 > σ Y2 x X σ X2 < σ Y2 x X 16 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" 4 r =1 (ovvero r= +1 oppure r= -1) Si può immediatamente verificare che è: b YX = 1 b XY e i punti dello scatter saranno perfettamente allineati (nel I e III quadrante per r=1 e nel II e IV per r=-1). Le due rette di regressione sono sovrapposte. r=−1 Y r = +1 Y y y x X x X 17 Marilena Pillati – Elementi di Statistica e Informatica (SVIC) "Lo studio della relazione lineare tra due variabili" Impieghi (X) e depositi (Y) per un gruppo di 16 banche X Y X* Y* 20 62 20,82 58,78 19 46 18,37 52,81 25 95 25,88 88,66 23 71 22,20 76,71 20 65 21,28 58,78 24 76 22,97 82,69 26 98 26,34 94,64 22 66 21,44 70,73 21 70 22,05 64,76 23 77 23,12 76,71 27 102 26,95 100,61 29 120 29,71 112,57 27 95 25,88 100,61 28 98 26,34 106,59 25 90 25,11 88,66 24 86 24,50 82,69 383 1317 383 1317 Y depositi 110 90 y 70 R2=0,9158 50 impieghi 19 21 23 x X 25 27 18