Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X1: temperatura media mensile in gradi F X2: numero di giorni di operatività in un mese X3: numero di riavviamenti (startup) in un mese Problema: capire quali variabili e come influiscono sul consumo di vapore Y X1 X2 X3 10.98 35.3 20 4 11.13 29.7 20 5 12.51 30.8 23 4 8.4 9.27 8.73 6.36 8.5 7.82 9.14 8.24 12.19 11.88 9.57 10.94 9.58 10.09 8.11 6.83 8.88 7.68 8.47 8.86 10.36 11.08 58.8 61.4 71.3 74.4 76.7 70.7 57.5 46.4 28.9 28.1 39.1 46.8 48.5 59.3 70 70 74.5 72.1 58.1 44.6 33.4 28.6 20 21 22 11 23 21 20 20 21 21 19 23 20 22 22 11 23 20 21 20 20 22 4 5 4 2 5 4 5 4 4 5 5 4 4 6 4 3 4 4 6 4 4 5 Quali variabili utilizzare nella regressione? matrice di correlazione Y X1 X2 X3 Y X1 X2 X3 1,00 -0,85 0,54 0,38 1,00 -0,21 -0,24 1,00 0,60 1,00 13 12 11 Y 10 9 8 13 7 12 6 25 35 45 55 65 75 11 X1 Y 10 9 8 13 7 12 6 10 12 14 16 18 X2 11 Y 10 9 8 7 6 1,5 2 2,5 3 3,5 4 X3 4,5 5 5,5 6 6,5 20 22 24 Modello lineare con una variabile esplicativa Si vuole spiegare la variabile Y come funzione della X1 supponendo che il legame sia lineare Y a bX 1 quindi si vogliono determinare a e b tali che yˆ i a bx1,i i 1,,25 e 2 25 yi yˆi i 1 Facendo i conti si ottiene b xy x2 min 0.08 e a y bx 13.6 Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero yˆ Xα con 1 x1,1 yˆ1 a yˆ , X , α b yˆ 1 x 25 1, 25 determiniamo a=(a,b) minimizzando g (a, b) y yˆ y yˆ y Xα y Xα ' ' la soluzione dell’equazione matriciale è α X' X X' y 1 Dai dati dell’esempio si ottiene 13.62 a α 0.08 b n X' X xi xi 2 x i yi X' y x y i i 2 x 1 i X' X 1 2 n xi x xi 1315 25 X' X 1315 76323 . 42 X' X 1 xi n 235.6 X' y 11821 . 43 1 76323.42 1315 178860.5 1315 25 13 y = 13,623 - 0,0798x 12 2 R = 0,7144 11 Y 10 9 8 7 6 25 35 45 55 X1 65 75 Si vuole spiegare la variabile Y in funzione della variabile X2 Si ottiene 3.56 α 0 . 29 13 y = 3,5605 + 0,2897x 12 2 R = 0,2874 11 Y 10 9 8 7 6 10 12 14 16 18 X2 20 22 24 Si vuole spiegare la variabile Y in funzione della variabile X3 Si ottiene 6.27 α 0 . 73 13 y = 0,731x + 6,2662 12 R2 = 0,146 11 Y 10 9 8 7 6 1,5 2 2,5 3 3,5 4 X3 4,5 5 5,5 6 6,5 Quali variabili utilizzare nella regressione? matrice di correlazione Y X1 X2 X3 Y X1 X2 X3 1,00 -0,85 0,54 0,38 1,00 -0,21 -0,24 1,00 0,60 1,00 Modello lineare con due variabili esplicative Si vuole spiegare la Y come funzione lineare di X1 (variabile maggiormente correlata con Y) e X2 (variabile meno correlata con X1) il modello ipotizzato è Y a bX 1 cX 2 Si vuole, quindi, determinare il piano che passi il più vicino possibile ai punti del grafico y La regressione lineare semplice parte da una variabile indipendente, “x” y =a0 + a1x + e La linea diventa un piano X1 La regressione lineare multipla parte da più variabile indipendenti Y = a0 + a1x1 + a2x2 + e X2 Grafico di dispersione della variabile Y rispetto a X1 e X2 si vogliono determinare a, b e c tali che yˆ i a bx1,i cx2,i i 1,,25 Possiamo riscrivere le 25 equazioni in un’unica equazione matriciale, ovvero yˆ Xα con 1 x1,1 x2,1 yˆ1 a yˆ , X , α b yˆ c 1 x x 25 1, 25 2, 25 la soluzione ottenuta con il metodo dei minimi quadrati è α X' X X' y 1 Dai dati dell’esempio otteniamo 9.13 α - 0.07 0.20 Yˆ 9.13 0.07 X 1 0.20 X 2 R 0.85 2 modello ipotizzato: Y a bX 1 cX 3 Il piano di regressione ha equazione Ŷ 11.80 0.075X1 0.37 X 3 R 2 0.75 Il valore di R2 è più basso perchè le variabili sono maggiormente correlate Quali variabili utilizzare nella regressione? matrice di correlazione Y X1 X2 X3 Y X1 X2 X3 1,00 -0,85 0,54 0,38 1,00 -0,21 -0,24 1,00 0,60 1,00 Si scelgono le variabili maggiormente correlate con la variabile da spiegare e meno correlate tra loro. Modello lineare con tre variabili esplicative Si vuole spiegare la Y come funzione lineare di X1, X2 e X3 il modello ipotizzato è Y a bX 1 cX 2 dX 3 l’equazione matriciale è yˆ Xα con 1 x1,1 x2,1 x3,1 yˆ1 yˆ , X , 1 x x x yˆ 1, 25 2 , 25 3, 25 25 a b α c d la soluzione ottenuta con il metodo dei minimi quadrati è α X' X X' y 1 Dai dati dell’esempio otteniamo 9.23 - 0.07 α 0.22 - 0.08 Yˆ 9.23 0.07 X 1 0.22 X 2 0.08 X 3 R 2 0.8501 Osservazioni L’indice R2, nel caso della regressione multipla, non è uguale a r2 Le formule viste per il caso di due regressori si estendono al caso di k > 2 regressori Il valore dell’indice R2 aumenta all’aumentare del numero delle variabili esplicative del modello. Occorre trovare un compromesso tra numero dei regressori e bontà di adattamento Non seguendo questo principio potremmo incappare in problemi di over fitting, cioè modelli “molto buoni” ma inutilizzabili a fini previsivi. Coefficiente di determinazione multiplo somma dei quadrati della regressione (SQR) R2 somma dei quadrati degli errori (SQE) n yˆi y i 1 n yi y i 1 n 2 e i 2 2 1 i 1 n 2 y y i i 1 somma dei quadrati della regressione (SQT) Coefficiente di determinazione multiplo Quando alle variabili esplicative del modello di regressione si aggiunge una nuova variabile, la somma dei quadrati degli errori non aumenta e normalmente i valori stimati della variabile Y risultano essere più vicini ai valori osservati. Il valore di R2 non può decrescere E’ necessario definire un altro indice per poter confrontare la capacità di adattamento di diversi modelli, neutralizzando l’effetto dovuto al diverso numero di variabili esplicative Coefficiente di determinazione multiplo corretto n RC2 1 2 e i n k 1 i 1 n 2 y y i (n 1) i 1 Il coefficiente di correlazione multiplo è dato dalla radice quadrata del coefficiente di determinazione multiplo e misura la correlazione lineare tra i valori osservati yi e i corrispondenti valori stimati. Questo indice, a differenza del coefficiente di correlazione lineare, può assumere solo valori non negativi. Esempio Sono stati registrati la media mensile in minuti di utilizzo del cellulare (Minuti), il costo medio mensile delle telefonate (Bolletta), la percentuale per uso ufficio (Lavoro) e il reddito famigliare (Reddito) di 250 individui. Stimando il modello di regressione lineare multipla che fa dipendere la variabile media mensile in minuti d’utilizzo del cellulare dalle restanti variabili, si ottengono le seguenti tabelle di output: Statistica della regressione R multiplo 0,540 R al quadrato 0,292 R al quadrato corretto 0,283 Errore standard 39,424 Osservazioni 250 ANALISI VARIANZA gdl Regressione 3 Residuo 246 Totale 249 Intercetta BOLLETTA LAVORO REDDITO SQ 157695,7 382340,71 540036,41 MQ 52565,2 1554,23 F 33,821 Significatività 2,45E-18 errore inferiore superiore Coefficienti standard Stat t p-value 95% 95% 29,625 15,503 1,911 0,057 -0,91 60,161 0,885 0,147 6,016 0,000 0,595 1,175 0,536 0,323 1,662 0,098 -0,099 1,172 0,956 0,233 4,112 0,000 0,498 1,414 a. b. c. d. e. Aumentando di un euro il costo medio della bolletta di quanto aumenta la media mensile di utilizzo del cellulare (tenendo costante il valore delle altre variabili)? Considerando un livello di significatività pari a α = 0.10, indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero. Considerando un livello di confidenza pari a 1−α=0.95, il coefficiente di regressione della variabile Bolletta può essere pari a 1.2? La bontà di adattamento del modello di regressione lineare è molto elevata? Si può rifiutare l’ipotesi nulla che i coefficienti di regressione sono tutti uguali a zero per un α = 0.05 ?