16 Regressione lineare multipla cer1

Regressione: approccio matriciale
Esempio:
Su 25 unità sono stati rilevati i
seguenti caratteri




Y: libbre di vapore utilizzate in un
mese
X1: temperatura media mensile in
gradi F
X2: numero di giorni di
operatività in un mese
X3: numero di riavviamenti
(startup) in un mese
Problema:
capire quali variabili e come
influiscono sul consumo di vapore
Y
X1
X2
X3
10.98
35.3
20
4
11.13
29.7
20
5
12.51
30.8
23
4
8.4
9.27
8.73
6.36
8.5
7.82
9.14
8.24
12.19
11.88
9.57
10.94
9.58
10.09
8.11
6.83
8.88
7.68
8.47
8.86
10.36
11.08
58.8
61.4
71.3
74.4
76.7
70.7
57.5
46.4
28.9
28.1
39.1
46.8
48.5
59.3
70
70
74.5
72.1
58.1
44.6
33.4
28.6
20
21
22
11
23
21
20
20
21
21
19
23
20
22
22
11
23
20
21
20
20
22
4
5
4
2
5
4
5
4
4
5
5
4
4
6
4
3
4
4
6
4
4
5
Quali variabili utilizzare nella regressione?
matrice di correlazione
Y
X1
X2
X3
Y
X1
X2
X3
1,00
-0,85
0,54
0,38
1,00
-0,21
-0,24
1,00
0,60
1,00
13
12
11
Y
10
9
8
13
7
12
6
25
35
45
55
65
75
11
X1
Y
10
9
8
13
7
12
6
10
12
14
16
18
X2
11
Y
10
9
8
7
6
1,5
2
2,5
3
3,5
4
X3
4,5
5
5,5
6
6,5
20
22
24
Modello lineare con
una variabile esplicativa
Si vuole spiegare la variabile Y come funzione della X1
supponendo che il legame sia lineare
Y  a  bX 1
quindi si vogliono determinare a e b tali che
yˆ i  a  bx1,i i  1,,25
e
2
25
  yi  yˆi 
i 1
Facendo i conti si ottiene b 
 xy
 x2
 min
 0.08 e a  y  bx  13.6
Possiamo riscrivere le 25 equazioni in un’unica equazione
matriciale, ovvero
yˆ  Xα
con
1 x1,1 
 yˆ1 




a
yˆ    , X   
 , α   
b
 yˆ 
1 x 
 25 
1, 25 

determiniamo a=(a,b) minimizzando
g (a, b)  y  yˆ  y  yˆ   y  Xα  y  Xα 
'
'
la soluzione dell’equazione matriciale è
α  X' X  X' y
1
Dai dati dell’esempio si ottiene
 13.62   a 
α
 
  0.08   b 
 n
X' X  
 xi
 xi 
2
x
 i
  yi 
X' y  

x
y
 i i 
2

x
1
 i
X' X 1 
2
n  xi  x    xi
1315 
 25
X' X  

1315
76323
.
42


X' X 
1
  xi 

n 
 235.6 
X' y  

11821
.
43


1
76323.42  1315

178860.5   1315
25 
13
y = 13,623 - 0,0798x
12
2
R = 0,7144
11
Y
10
9
8
7
6
25
35
45
55
X1
65
75
Si vuole spiegare la variabile Y in funzione della variabile X2
Si ottiene
3.56
α

0
.
29


13
y = 3,5605 + 0,2897x
12
2
R = 0,2874
11
Y
10
9
8
7
6
10
12
14
16
18
X2
20
22
24
Si vuole spiegare la variabile Y in funzione della variabile X3
Si ottiene
6.27 
α

0
.
73


13
y = 0,731x + 6,2662
12
R2 = 0,146
11
Y
10
9
8
7
6
1,5
2
2,5
3
3,5
4
X3
4,5
5
5,5
6
6,5
Quali variabili utilizzare nella regressione?
matrice di correlazione
Y
X1
X2
X3
Y
X1
X2
X3
1,00
-0,85
0,54
0,38
1,00
-0,21
-0,24
1,00
0,60
1,00
Modello lineare
con due variabili esplicative
Si vuole spiegare la Y come funzione lineare di X1
(variabile maggiormente correlata con Y) e X2 (variabile
meno correlata con X1)
il modello ipotizzato è
Y  a  bX 1  cX 2
Si vuole, quindi, determinare il piano che passi il più
vicino possibile ai punti del grafico
y
La regressione lineare semplice parte
da una variabile indipendente, “x”
y =a0 + a1x + e
La linea diventa un piano
X1
La regressione lineare multipla parte
da più variabile indipendenti
Y = a0 + a1x1 + a2x2 + e
X2
Grafico di dispersione della variabile Y rispetto a X1 e X2
si vogliono determinare a, b e c tali che
yˆ i  a  bx1,i  cx2,i i  1,,25
Possiamo riscrivere le 25 equazioni in un’unica equazione
matriciale, ovvero
yˆ  Xα
con
1 x1,1 x2,1 
 yˆ1 
a




 
yˆ    , X   

 , α   b 
 yˆ 
c
1 x x 
 25 
 
1, 25 2, 25 

la soluzione ottenuta con il metodo dei minimi quadrati è
α  X' X  X' y
1
Dai dati dell’esempio otteniamo
 9.13 
α  - 0.07 


 0.20 
Yˆ  9.13  0.07 X 1  0.20 X 2
R  0.85
2
modello ipotizzato: Y  a  bX 1  cX 3
Il piano di regressione ha equazione
Ŷ  11.80  0.075X1  0.37 X 3
R 2  0.75
Il valore di R2 è più
basso perchè le
variabili sono
maggiormente
correlate
Quali variabili utilizzare nella regressione?
matrice di correlazione
Y
X1
X2
X3
Y
X1
X2
X3
1,00
-0,85
0,54
0,38
1,00
-0,21
-0,24
1,00
0,60
1,00
Si scelgono le variabili maggiormente correlate con la
variabile da spiegare e meno correlate tra loro.
Modello lineare
con tre variabili esplicative
Si vuole spiegare la Y come funzione lineare di X1, X2 e X3
il modello ipotizzato è Y  a  bX 1  cX 2  dX 3
l’equazione matriciale è yˆ  Xα
con
1 x1,1 x2,1 x3,1 
 yˆ1 


 
yˆ    , X   
   ,
1 x x x 
 yˆ 
1, 25 2 , 25 3, 25 
 25 

a
 
b
α 
c
 
d 
 
la soluzione ottenuta con il metodo dei minimi quadrati è
α  X' X  X' y
1
Dai dati dell’esempio otteniamo
 9.23 
- 0.07 

α
 0.22 


- 0.08
Yˆ  9.23  0.07 X 1  0.22 X 2  0.08 X 3
R 2  0.8501
Osservazioni




L’indice R2, nel caso della regressione multipla, non è
uguale a r2
Le formule viste per il caso di due regressori si
estendono al caso di k > 2 regressori
Il valore dell’indice R2 aumenta all’aumentare del
numero delle variabili esplicative del modello.
Occorre trovare un compromesso tra numero dei
regressori e bontà di adattamento
Non seguendo questo principio potremmo incappare
in problemi di over fitting, cioè modelli “molto
buoni” ma inutilizzabili a fini previsivi.
Coefficiente di determinazione multiplo
somma dei quadrati
della regressione
(SQR)
R2 
somma dei quadrati
degli errori (SQE)
n
  yˆi  y 
i 1
n
  yi  y 
i 1
n
2
e
i
2
2
 1
i 1
n
2


y

y
 i
i 1
somma dei quadrati della
regressione (SQT)
Coefficiente di determinazione multiplo

Quando alle variabili esplicative del modello di regressione si
aggiunge una nuova variabile, la somma dei quadrati degli
errori non aumenta e normalmente i valori stimati della
variabile Y risultano essere più vicini ai valori osservati.

Il valore di R2 non può decrescere

E’ necessario definire un altro indice per poter confrontare la
capacità di adattamento di diversi modelli, neutralizzando
l’effetto dovuto al diverso numero di variabili esplicative
Coefficiente di determinazione multiplo
corretto
n
RC2  1 
2
e
i
n  k  1
i 1
n
2


y

y
 i
(n  1)
i 1
Il coefficiente di correlazione multiplo è dato dalla radice
quadrata del coefficiente di determinazione multiplo e misura la
correlazione lineare tra i valori osservati yi e i corrispondenti valori
stimati.
Questo indice, a differenza del coefficiente di correlazione lineare,
può assumere solo valori non negativi.
Esempio
Sono stati registrati la media mensile in minuti di
utilizzo del cellulare (Minuti), il costo medio mensile
delle telefonate (Bolletta), la percentuale per uso ufficio
(Lavoro) e il reddito famigliare (Reddito) di 250
individui.
Stimando il modello di regressione lineare multipla che
fa dipendere la variabile media mensile in minuti
d’utilizzo del cellulare dalle restanti variabili, si
ottengono le seguenti tabelle di output:
Statistica della regressione
R multiplo
0,540
R al quadrato
0,292
R al quadrato corretto
0,283
Errore standard
39,424
Osservazioni
250
ANALISI VARIANZA
gdl
Regressione
3
Residuo
246
Totale
249
Intercetta
BOLLETTA
LAVORO
REDDITO
SQ
157695,7
382340,71
540036,41
MQ
52565,2
1554,23
F
33,821
Significatività
2,45E-18
errore
inferiore superiore
Coefficienti standard Stat t
p-value
95%
95%
29,625 15,503
1,911 0,057
-0,91
60,161
0,885
0,147
6,016 0,000
0,595
1,175
0,536
0,323
1,662 0,098
-0,099
1,172
0,956
0,233
4,112 0,000
0,498
1,414
a.
b.
c.
d.
e.
Aumentando di un euro il costo medio della bolletta di quanto
aumenta la media mensile di utilizzo del cellulare (tenendo
costante il valore delle altre variabili)?
Considerando un livello di significatività pari a α = 0.10,
indicare quali sono le variabili esplicative che presentano un
coefficiente di regressione significativamente diverso da zero.
Considerando un livello di confidenza pari a 1−α=0.95, il
coefficiente di regressione della variabile Bolletta può essere
pari a 1.2?
La bontà di adattamento del modello di regressione lineare è
molto elevata?
Si può rifiutare l’ipotesi nulla che i coefficienti di regressione
sono tutti uguali a zero per un α = 0.05 ?