Cap. 4a La regressione lineare

Università di Cagliari
DICAAR – Dipartimento di Ingegneria Civile, Ambientale e
architettura
Sezione Trasporti
PIANIFICAZIONE DEI TRASPORTI
Regressione lineare
A.A. 2016-2017 Prof. Italo Meloni
Relazione funzionale
2
Dato un set di dati (X,Y), che graficamente è rappresentato da
una nuvola di punti nel piano, si vuole trovare la relazione:
Y  f X   
Y variabile dipendente;
X variabile indipendente; ε variabile aleatoria
In particolare la relazione lineare è:
Ŷi  â  b̂X i
Valori noti
Incognite
i  1,..., n
Modello di regressione
3
E  0  EY X  f X
Media degli
errori nulla
Funzione di
regressione
Media della variabile
dipendente date le X
Modello di regressione lineare semplice
4
1.
yi   0  1 xi   i ;
i  1,2,...n.
2. Le εi sono variabili casuali indipendenti con
E(εi)=0 e V(εi)=σ2
Non vi è una distorsione
sistematica
La variabilità non dipende dai valori
delle X ed è costante (omoschedasticità)
3. La X è una variabile non stocastica i cui
valori sono noti senza errore.
Modello di regressione lineare semplice
5
E(εi)=0 in media, la retta di regressione sia corretta
Y
Ŷ
i
 0
i
 0
X1
X2
X3
X
Modello di regressione lineare semplice
6
PDF di
εi
V(εi)=σ2 varianza costante dei disturbi
(omoschedasticità)
Y
X1
X2
Ŷ
X3
X
Modello di regressione lineare semplice
7
PDF di εi
V(εi)=σi2 varianza non costante dei disturbi
(eteroschedasticità)
Y
X1
X2
Ŷ
X3
X
Metodo dei minimi quadrati
8
Ricerchiamo i valori di β0 e β1 che rendono minima la
seguente espressione:
2
n
G 0 , 1     yi   0  1 xi 
i 1
ˆ0  y  ˆ1 x
(intercetta)
x  x  y  y  




 x  x 
n
ˆ
1
i 1
i
i
n
i 1
2
i
xy
2
x
(pendenza)
Il coefficiente di determinazione
9
 yi  y    yi  yˆi    yˆi  y 
Yˆ  ˆ0  ˆ1 X
 yi  y 
 yi  yˆi   eˆi
 yˆi  y 
Yy
Il coefficiente di determinazione
10
I valori stimati con il metodo dei minimi quadrati
soddisfano la seguente relazione (scomposizione della
varianza totale):
  y  y     y  yˆ     yˆ  y 
n
i
i 1
SST (Total Sum
of Squares)
2
n
2
i
i
i 1
SSR (Residual Sum
of Squares)
n
2
i
i 1
SSE (Explained
Sum of Squares)
Situazioni estreme che possono verificarsi


SSE=0, la relazione di regressione non riduce l’incertezza e i valori stimati
sono uguali alla media campionaria.
SSR=0, la relazione di regressione elimina tutta l’incertezza e i valori
stimati sono uguali a quelli osservati; si tratta di una relazione funzionale.
Il coefficiente di determinazione
11
Dividendo SSE per il suo valore massimo SST,
otteniamo il coefficiente di determinazione:
R
2
XY
SSE
SSR

 1
SST
SST
Rappresenta la proporzione di variabilità di Y
spiegata dalla variabile esplicativa X attraverso
il modello di regressione.
Il coefficiente di determinazione
12
Si può dimostrare che il coefficiente di
determinazione è il quadrato del coefficiente di
correlazione lineare ρXY :
R
2
XY
  XY 
2
  XY
 
  XY



2
Il coefficiente di determinazione
13
Se R2 = 0 vuol dire che la variabilità residua
coincide con quella totale, la retta di regressione
è parallela all’asse ed il modello ha un
adattamento pessimo.
Se R2 = 1 vuol dire che la variabilità residua è
nulla e quindi la retta passa esattamente lungo
tutti i punti che sono, ovviamente, allineati.
Proprietà degli stimatori
14
Siano B0 e B1 gli stimatori di β0 e β1:
1. B0 e B1 sono stimatori corretti di β0 e β1
2. V B1  
2
2


x

x
i 1 i
n
2
1

x

V B0    2   n
2 
n
i 1 xi  x  

3. Nella classe degli stimatori lineari corretti, sono
quelli più efficienti.
Stimatore della varianza
15
Uno stimatore corretto della varianza dei residui
è dato dalla seguente formula:
y


n
s
2
i 1
i
 yˆ i 
n2
2
Inferenza sui parametri
16

Yi  N 0  1x i ,  2
 i  N 0,   
2
B0   0
 t n 2
sB0 
B1  1
 t n 2
sB1 

Verifica d’ipotesi
17
B0  b0
H 0 :  0  b0  t 
 tn  2
s B0 
B1  b1
H 0 : 1  b1  t 
 tn  2
s B1 
Verifica d’ipotesi
18
Una procedura alternativa alla verifica dell’ipotesi
H0:β1=0 è l’Analisi della Varianza (ANOVA)
SSE
1
F 
SSR
n2
Se H0 è vera la statistica F ha distribuzione F di Fisher con 1
e n-2 gradi di libertà. In particolare se Fα è tale che
P(F1,n-2 > Fα) = α allora si respinge l’ipotesi nulla in favore
di quella alternativa se F> Fα .
Verifica d’ipotesi
19
In particolare se H0: β1= 0 allora con:
•
H1: β1>0 respingo H0 se toss>tα
•
H1: β1<0 respingo H0 se toss<-tα
•
H1: β1≠0 respingo H0 se toss>tα/2
dove α è il livello di significatività del test.
Tavola dei valori critici di t
20
In riga sono riportati i gradi di libertà mentre in colonna sono riportati gli
errori di primo tipo (a). Nella prima riga sono indicati i livelli di probabilità di
errore per il t-test a una coda e per il t-test a due code.
Modello multilineare
21
In questo modello compare più di una variabile
esplicativa.
y  X  
(n x 1)
(n x k+1)
(k+1 x 1) (n x 1)
Stima dei coefficienti
22
1
ˆ
   X X  X y
Questi stimatori godono delle stesse proprietà
degli stimatori precedentemente calcolati, in
particolare:

1
2
ˆ
var     X X 
Inferenza sui parametri
23
 i  N 0,   

Yi  N Xi,  2

2
Bj  j
sB j 
 t n  k 1


Stimatore di σ2:
y


n
s
2
i 1
i
 yˆ i 
n  k 1
2

1

y  Xˆ y  Xˆ
n  k 1

Verifica d’ipotesi
24
H 0 : 1   2     k  0; 
H1 : i  0, i  1,, k.
SSE
SSR
k
n  k  1
 Fk ,n k 1
Verifica d’ipotesi
25
H 0 :  i   0i ; 
ˆi   0i
12
ii
sq
 tn k 1
dove Q   X X 1
H1 : i  0i
Usualmente si fa l’ipotesi che
βi sia uguale a 0, contro
l’ipotesi che sia diverso da 0.
Variabile esplicativa aleatoria
26
1.La distribuzione condizionata della Y per X=xi
è Normale con media β0+β1xi e varianza σ2.
2.Le Xi sono variabili aleatorie indipendenti, le
cui distribuzioni non dipendono da β0, β1 e σ2.
3.Le variabili
indipendenti.
aleatorie
Xi
ed
εi
sono