Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Lo studio della relazione lineare tra due variabili X e Y caratteri entrambi quantitativi X Y variabile indipendente variabile dipendente y * = f (x ) f(x): espressione funzionale che descrive la legge di dipendenza di Y da X 1 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Diagramma di dispersione Y . yj xj { x j , y j ; j = 1,2,..., n } X Modello di dipendenza lineare y * = b0 + bYX x b0 bYX ordinata all’origine (o termine noto) coefficiente angolare della retta 2 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Quale retta si adatta meglio alla nube di punti? Y X Quale retta si adatta meglio alla nube di punti? Y X 3 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Quale retta si adatta meglio alla nube di punti? Y X Criterio di accostamento: metodo dei minimi quadrati yj ordinata empirica di ascissa xj y *j = b0 + bYX x j ordinata teorica di ascissa xj ∑ (y n j =1 = j − y *j ) 2 = n ∑ (y j − b0 − bYX x j )2 = min j =1 4 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Diagramma di dispersione e retta di regressione dei minimi quadrati Y + b YX b 0 = y* yj x . yj* b0 xj X b0 = y − bYX x ∑ (y n ∑ bYX = j =1 n ∑ j =1 = )( n x j y j − nx y x 2j − nx 2 = j − y xj − x j =1 ∑ (x n j −x ) 2 ) = j =1 Codev (X , Y ) Cov (X , Y ) = Dev (X ) V (X ) 5 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Codev (X,Y) > 0 prevalgono i prodotti tra scarti di segno uguale: (+ ) ⋅ (+ ) (− ) ⋅ (− ) concordanza Codev (X,Y) < 0 prevalgono i prodotti tra scarti di segno opposto: (+ ) ⋅ (− ) (− ) ⋅ (+ ) discordanza bYX coefficiente di regressione Indica di quanto varia in media la variabile dipendente Y per ogni variazione unitaria positiva di X Ha il segno algebrico della codevianza bYX > 0 bYX < 0 bYX = 0 retta ascendente retta discendente retta parallela all’asse delle ascisse Se Y è linearmente indipendente da X, la retta dei minimi quadrati è y =y 6 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" bYX > 0 retta ascendente bYX < 0 retta discendente 7 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" bYX = 0 retta parallela all’asse delle ascisse Y yj y *j y X xj 8 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Scomposizione della devianza di Y Dev(Y )tot = Dev(Y )disp + Dev(Y )regr ∑ (y j j −y ) 2 = ∑ (y j j − y *j ) + ∑ (y 2 j * j −y ) 2 R2 : indice di determinazione lineare R2 = Dev(Y )regr Dev(Y )tot =1− Dev(Y )disp Dev(Y )tot 0 ≤ R2 ≤ 1 R2 : indica la frazione della variabilità di Y attribuibile alla dipendenza lineare da X 9 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" R2 : indice di determinazione lineare R2 = 0 se Dev(Y )regr = 0 R2 = 1 se Dev(Y )disp = 0 (tutta la variabilità di Y è dovuta alla dipendenza lineare da X e la devianza di dispersione è nulla) y* = 10892 x + 3230 R 2 = 0,3347 Reddito familiare annuo 120000 100000 80000 60000 40000 20000 0 0 2 4 6 8 Numero componenti 10 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Equazione della retta di regressione Y*=3230 + 10892 X Per ogni incremento unitario del numero di componenti, il reddito familiare aumenta in media di 10892 euro. R2=0,3347 Il 33,47% della variabilità totale del reddito familiare annuo (Y) è “spiegata” dalla sua relazione lineare con il numero di componenti (X). Qual è il reddito che in media ci si attende per una famiglia di 3 componenti? Y*=3230 + 10892 · 3 = 35 906 Le famiglie con 3 componenti presenti nel collettivo hanno i seguenti redditi annui: € 50245 € 42019 € 12568 11 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" X: Y: variabile dipendente variabile indipendente b0' = x − bXY y n bXY = ∑ x j y j − nx y j =1 n ∑y j =1 = 2 j − ny 2 ∑ (y n = j =1 j )( − y xj − x ∑ (y n j =1 j −y ) 2 ) = Codev (X ,Y ) Co var (X ,Y ) = Dev (Y ) V (Y ) bxy e byx I due coefficienti angolari hanno lo stesso segno algebrico, dato dalla codevianza, e differiscono per effetto della diversa variabilità dei due caratteri. Se byx=0 si ha anche bxy=0 Se Y è linearmente indipendente da X, anche X è quindi linearmente indipendente da Y (vale anche il viceversa) 12 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Grafico delle rette x * = b0' + bXY y Y y y * = b0 + bYX x x X Coefficiente di correlazione lineare r E’ un indicatore simmetrico della relazione lineare tra Y e X rispetto al quale i ruoli di variabile indipendente e variabile dipendente perdono di significato r = = Codev (X ,Y ) Dev (X ) ⋅ Dev (Y ) Co var (X ,Y ) −1 ≤ r ≤ +1 V (X ) ⋅ V (Y ) 13 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Coefficiente di correlazione lineare r L’indice r è il rapporto tra la codevianza e il massimo valore che essa può assumere Ha il segno algebrico della codevianza Risulta inoltre: r = bYX ⋅ bXY Nel modello di regressione lineare semplice vale la relazione R2 = r 2 Coefficiente di correlazione lineare r r = +1 perfetta correlazione lineare positiva tra X e Y; punti empirici tutti allineati su una sola retta ascendente r = -1 perfetta correlazione lineare negativa; punti empirici tutti allineati su una sola retta discendente r = 0 assenza di correlazione lineare; rette di regressione ortogonali tra loro, con coefficienti angolari entrambi uguali a 0: caratteri linearmente indipendenti 14 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" r = +1 perfetta correlazione lineare positiva tra X e Y; punti empirici tutti allineati su una sola retta ascendente r = -1 perfetta correlazione lineare negativa; punti empirici tutti allineati su una sola retta discendente 15 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" r = 0 assenza di correlazione lineare rette di regressione ortogonali tra loro, con coefficienti angolari entrambi uguali a 0 Caratteri linearmente indipendenti 0 < r < +1 tendenziale correlazione positiva tra X e Y; rette di regressione entrambe ascendenti; coefficienti di regressione positivi (quanto più essi si riducono, tanto più le rette si aprono a forbice, espressione dell'attenuarsi della relazione lineare tra le variabili) -1 < r < 0 tendenziale correlazione negativa tra X e Y; rette di regressione entrambe discendenti: coefficienti di regressione negativi (l'angolo racchiuso dalle due rette è tanto minore quanto più si accentua la correlazione negativa) 16 Marilena Pillati - Seminari di Statistica (SVIC) "Lo studio della relazione lineare tra due variabili" Esempio La correlazione tra il reddito familiare e il numero di componenti è r = 0.58 Infatti r = 10892 ⋅ 0.000031 = 0.58 Problema Siano X e Y due caratteri quantitativi. In un insieme di unità, la retta di regressione di Y su X è risultata: y=3+2x Quale delle seguenti rette può esprimere la relazione tra X e Y? (a) x = − 1 y − 3 (b) x = −2y + 3 2 (c ) x = 1.2y − 3 (d ) x = 0.2y − 3 17