Lucidi - La regressione lineare

annuncio pubblicitario
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Regressione lineare
Se la correlazione misura l’intensità e il segno del
legame lineare tra due variabili, l’obiettivo delle
tecniche di regressione è, invece, quello di
individuare il tipo di relazione funzionale (non
causale) che esiste tra una variabile dipendente e
una o più variabili indipendenti (o esplicative). La
regressione può essere:
◊
◊
◊
◊
semplice, se la variabile indipendente è una
multipla, se le variabili indipendenti sono 2 o +
lineare, se la relazione è lineare
non lineare, se tale relazione è non lineare
Lo studio della relazione lineare tra
due variabili
X e Y caratteri entrambi quantitativi
X
Y
variabile indipendente
variabile dipendente
y * = f (x )
f(x): espressione funzionale che descrive la
legge di dipendenza di Y da X
1
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Diagramma di dispersione
Y
yj
.
xj
{ x j , y j ; j = 1,2,..., n }
X
2
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Modello di dipendenza lineare
y * = b0 + bYX x
b0
bYX
ordinata all’origine (o termine noto)
coefficiente angolare della retta
Quale retta si adatta meglio alla nube di
punti?
Y
X
3
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Quale retta si adatta meglio alla nube di
punti?
Y
X
Quale retta si adatta meglio alla nube di
punti?
Y
X
4
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Criterio di accostamento: metodo dei minimi
quadrati
yj ordinata empirica di ascissa xj
y *j = b0 + bYX x j ordinata teorica di ascissa xj
∑ (y
n
j =1
=
− y *j
j
)
2
=
n
∑ (y
j
− b0 − bYX x j
)2 = min
j =1
Diagramma di dispersione e retta di
regressione dei minimi quadrati
Y
yj
.
yj*
b0
xj
X
5
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
b0 = y − bYX x
∑ (y
n
∑x y
j
bYX
=
j =1
n
∑x
2
j
)(
n
j
− nx y
− nx
2
j =1
=
j
− y xj − x
j =1
∑ (x
n
j
−x
)
2
)
=
j =1
Codev (X , Y ) Cov (X , Y )
=
=
Dev (X )
V (X )
bYX coefficiente di regressione
Indica di quanto varia in media la variabile dipendente
Y per ogni variazione unitaria positiva di X
Ha il segno algebrico della codevianza
bYX > 0
bYX < 0
bYX = 0
retta ascendente
retta discendente
retta parallela all’asse delle ascisse
Se Y è linearmente indipendente da X,
la retta dei minimi quadrati è
y =y
6
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
bYX > 0 retta ascendente
bYX < 0 retta discendente
7
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
bYX = 0 retta
parallela
all’asse
delle
ascisse
Y
yj
y *j
y
X
xj
8
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Scomposizione della devianza di Y
Dev(Y )tot = Dev(Y )dis p + Dev(Y )regr
R2 : indice di determinazione lineare
R2 : indica la frazione della variabilità di
Y attribuibile alla dipendenza lineare da X
9
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
R2 : indice di determinazione lineare
R2 = 0
se
R2 = 1
se
(tutta la variabilità di Y è dovuta alla
dipendenza lineare da X e la devianza di
dispersione è nulla)
y* = 10892 x + 3230
R 2 = 0,3347
Reddito familiare annuo
120000
100000
80000
60000
40000
20000
0
0
2
4
6
8
Numero componenti
10
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Equazione della retta di regressione
Y*=3230 + 10892 X
Per ogni incremento unitario del numero di
componenti, il reddito familiare aumenta in
media di 10892 euro.
R2=0,3347
Il 33,47% della variabilità totale del reddito
familiare annuo (Y) è “spiegata” dalla sua
relazione lineare con il numero di componenti
(X).
Qual è il reddito che in media ci si attende per
una famiglia di 3 componenti?
Y*=3230 + 10892 · 3 = 35 906
Le famiglie con 3 componenti presenti nel collettivo
hanno i seguenti redditi annui:
€ 50245
€ 42019
€ 12568
11
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
X:
Y:
variabile dipendente
variabile indipendente
bxy e byx
I due coefficienti angolari hanno lo stesso
segno algebrico, dato dalla codevianza, e
differiscono
per
effetto
della
diversa
variabilità dei due caratteri.
Se byx=0 si ha anche bxy=0
Se Y è linearmente indipendente da X, anche
X è quindi linearmente indipendente da Y
(vale anche il viceversa)
12
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Grafico delle rette
Y
y
x
X
Coefficiente di correlazione lineare r
L’indice r (che è il rapporto tra la codevianza e
il massimo valore che essa può assumere)
può essere ottenuto a partire dai coefficienti di
regressione lineare come segue:
r = bYX ⋅ bXY
Nel modello di regressione lineare semplice vale
la relazione
R2 = r 2
13
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
0 < r < +1
tendenziale correlazione positiva tra X e Y;
rette di regressione entrambe ascendenti;
coefficienti di regressione positivi (quanto più
essi si riducono, tanto più le rette si aprono a
forbice, espressione dell'attenuarsi della
relazione lineare tra le variabili)
-1 < r < 0
tendenziale correlazione negativa tra X e Y;
rette di regressione entrambe discendenti:
coefficienti di regressione negativi (l'angolo
racchiuso dalle due rette è tanto minore
quanto più si accentua la correlazione
negativa)
Esempio
La correlazione tra il reddito familiare e il
numero di componenti è r = 0.58
Infatti
r = 10892 ⋅ 0.000031 = 0.58
14
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
r = 0,30
Y
r = 0, 70
Y
y
y
X
x
X
x
−1 < r < 0 Sarà anche b YX < 0 e b XY < 0
Le due rette di regressione giaceranno nel II e IV
quadrante.
r = − 0,30
Y
r = − 0, 70
Y
y
y
x
X
x
X
15
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
r=0
Sarà anche
b YX = 0 e b XY = 0
regressione
di Y su X
∗
regressione di X su Y
y =0
Y
y
e si avrà:
Y∗ = y
x∗ = 0
Y
y∗ = 0
x∗ = 0
X∗ = x
y
Y∗ = y
X∗ = x
X
x
X
x
N.B. I due scatter sono uguali
Altri scatter con r uguale a circa zero
Y
y
σ X2 = σ Y2
Y
Y
X
x
y
σ X2 > σ Y2
x
X
σ X2 < σ Y2
x
X
16
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
4
r =1
(ovvero r= +1 oppure r= -1)
Si può immediatamente verificare che è:
b YX =
1
b XY
e i punti dello scatter saranno perfettamente allineati
(nel I e III quadrante per r=1 e nel II e IV per r=-1).
Le due rette di regressione sono sovrapposte.
r=−1
Y
r = +1
Y
y
y
x
X
x
X
17
Marilena Pillati – Elementi di Statistica e Informatica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Impieghi (X) e depositi (Y) per un gruppo di 16 banche
X
Y
X*
Y*
20
62
20,82
58,78
19
46
18,37
52,81
25
95
25,88
88,66
23
71
22,20
76,71
20
65
21,28
58,78
24
76
22,97
82,69
26
98
26,34
94,64
22
66
21,44
70,73
21
70
22,05
64,76
23
77
23,12
76,71
27
102
26,95
100,61
29
120
29,71
112,57
27
95
25,88
100,61
28
98
26,34
106,59
25
90
25,11
88,66
24
86
24,50
82,69
383
1317
383
1317
Y
depositi
110
90
y
70
R2=0,9158
50
impieghi
19
21
23
x
X
25
27
18
Scarica