Il modello di regressione lineare

Università degli Studi di Basilicata – Facoltà di Economia
Corso di Laurea in Economia Aziendale - a.a. 2012/2013
lezioni di statistica del 20 e 21 giugno 2013
- di Massimo Cristallo -
Il modello di regressione lineare
In diversi settori è ormai frequente la ricerca di eventuali legami tra variabili statistiche. In
particolare, si parla di analisi della regressione (relazione causa-effetto) quando una
variabile può essere espressa in funzione di altre.
Il problema che si pone in questa sede è quello dell’individuazione di un modello
matematico che esprima la variabile conseguente (o dipendente) in funzione di una o più
variabili, dette antecedenti o indipendenti.
Assumendo per semplicità che queste relazioni siano di tipo lineare, e che vi sia una sola
variabile indipendente, è possibile formalizzare nel seguente modo il modello di
regressione lineare semplice:
Yi = β 0 + β 1 x i + E i
(i = 1, 2, …, n)
ove β 0 e β1 denotano, rispettivamente l’intercetta e il coefficiente di regressione, mentre
Ei definisce la componente aleatoria (non osservabile e che quindi denota l’incertezza del
modello).
Se così è, allora vuol dire che la variabile dipendente Yi riproduce esattamente una
variabile casuale, le cui determinazioni sono di seguito riportate:
y i = β 0 + β 1 xi + ei
(i = 1, 2, …, n)
Una volta specificato il modello di riferimento, affinché si possa procedere alla stima dei
relativi parametri incogniti β 0 e β1 , in letteratura si formulano le seguenti ipotesi
“semplificatrici” (cd. classiche):
1. linearità della relazione;
2. non sistematicità degli errori E ( E i ) = 0 ;
3. omoschedasticità degli errori Var ( E i ) = σ 2 ;
4. incorrelazione tra gli errori Cov( E i , E j ) = 0 per i ≠ j ;
5. non stocasticità della variabile indipendente.
Stima puntuale dei parametri
Osservando un campione di dimensione n ed applicando il metodo dei minimi quadrati,
si ottengono le seguenti stime OLS (Ordinary Least Squares) dei parametri incogniti del
modello di regressione lineare semplice:
βˆ1 =
Cov ( x, y )
Var ( x)
βˆ 0 = y − βˆ1 x
che rappresentano, rispettivamente, le realizzazioni campionarie degli stimatori B1 e B0 .
Si dimostra che valgono le seguenti relazioni:
E ( B1 ) = β1 (proprietà della correttezza)
Var ( B1 ) =
σ2
n
∑ (x
− x)
i
2
i =1
e che se valgono le ipotesi classiche, lo stimatore B1 è lo stimatore migliore (più
efficiente) di β1 (teorema di Gauss-Markov).
Una stima corretta di σ 2 è data dall’espressione seguente:
n
∑e
2
i
2
s cor
= i =1
n− 2
da cui si ricava l’errore standard dello stimatore B1 :
s ( B1 ) =
s cor
n
∑ (x
i
− x)
2
i =1
Stima intervallare dei parametri
Consideriamo, come in precedenza, solo il parametro di maggiore interesse β1 e
distinguiamo il caso di piccoli campioni da quello di grandi campioni.
Piccoli campioni
Sotto l’ipotesi di distribuzione normale della variabile dipendente Y, al livello di
confidenza 1 − α si ha il seguente intervallo di confidenza per il parametro ignoto β1 :
[βˆ1 − t n−2 ( α / 2 ) s (B1 ), βˆ1 + t n−2 ( α / 2 )s (B1 )]
ove (n-2) sono i gradi di libertà della variabile aleatoria t di student.
2
Grandi campioni
In questo caso, anche senza l’ipotesi di distribuzione normale della variabile dipendente
Y, al livello di confidenza 1 − α si ha il seguente intervallo di confidenza per il parametro
ignoto β1 :
[βˆ1 − z( α / 2 ) s (B1 ), βˆ1 + z( α / 2 )s (B1 )]
Test d’ipotesi
Si sottopone a verifica l’ipotesi nulla che il coefficiente di regressione sia nullo contro
l’ipotesi alternativa che non lo sia, per cui il sistema delle ipotesi è così costituito:
H 0 : β1 = 0
H 1 : β1 ≠ 0
Le fasi da seguire per il problema di verifica d’ipotesi sono le stesse già esaminate nelle
lezioni precedenti. Si riportano in questa sede i valori empirici del test:
statistica test per piccoli campioni (e con l’ipotesi di “normalità” della variabile Y)
βˆ
v.a. t di student con (n-2) gradi di libertà :
(valore empirico)
t= 1
s ( B1 )
statistica test per grandi campioni
βˆ
v.a. normale standardizzata : z = 1
s ( B1 )
(valore empirico)
E’ possibile, inoltre, sottoporre a verifica l’ipotesi nulla che il coefficiente di
determinazione lineare (che ora denotiamo con δ ) sia nullo contro l’ipotesi alternativa
che sia diverso da zero, utilizzando un’altra statistica test, nota come F di Snedecor-Fischer.
Si ricorda che il coefficiente di determinazione lineare misura la bontà di adattamento del
modello ai dati osservati, mentre il rifiuto dell’ipotesi nulla non indica un “perfetto
adattamento” ma semplicemente la non nullità del coefficiente δ .
Il modello lineare di regressione multipla
Nella realtà che ci circonda spesso ci troviamo di fronte più di una variabile indipendente,
per cui occorre generalizzare il modello precedente considerando la relazione di
dipendenza lineare della variabile dipendente Y dalle variabili indipendenti (o regressori)
X 1 , X 2 , ...,X k .
Tale modello si ispira agli stessi fondamenti concettuali del precedente, ed è esprimibile
come segue:
3
Y = β 0 + β 1 X 1 + ... + β k X k + ε
ove ε è la “componente erratica” che esprime la variabilità di Y non spiegata dalla
relazione lineare con i regressori, mentre β 0 , β1 , ..., β k rappresentano i parametri incogniti
del modello. Questi ultimi possono essere stimati osservando le (k+1) variabili su n unità
campionarie.
Considerando il caso in cui k=2, si ha che β 0 , β1 e β 2 indicano, rispettivamente,
l’intercetta, l’inclinazione della variabile Y rispetto alla variabile X 1 (tenendo costante la
variabile X 2 ) e l’inclinazione della variabile Y rispetto alla variabile X 2 (tenendo costante
la variabile X 1 ).
La teoria e i metodi di analisi del modello lineare di regressione multipla si basano su
alcune assunzioni (già esaminate nel caso in cui k=1), determinanti per consentire la
costruzione di stimatori (e test di ipotesi) dotati di importanti proprietà ottimali.
Anche in questo caso, quindi, si fa ricorso al metodo dei minimi quadrati e si ottiene uno
stimatore OLS corretto e con varianza minima nella classe degli stimatori lineari corretti
del vettore dei parametri incogniti.
Un’attenzione particolare va posta, infine, alla scelta dei regressori X 1 , X 2 , ...,X k del
modello, al fine di evitare che queste siano legate tra di loro. Quando c’è dipendenza
lineare tra i regressori, si pone infatti il problema della multicollinearità.
Esistono varie cause che portano alla multicollinearità, ma a prescindere da quale essa sia
le conseguenze della sua presenza sono sicuramente negative. L’effetto più grave è quello
di provocare un aumento della varianza degli stimatori utilizzati, e di conseguenza una
diminuzione della loro precisione.
Per il predetto motivo, in letteratura sono stati proposti diversi metodi per cercare di
limitare gli effetti negativi causati dalla multicollinearità (tra questi troviamo gli stimatori
“ridge”).
Infine, se non valgono le ipotesi di omoschedasticità o di in correlazione degli errori,
allora lo stimatore OLS pur essendo ancora corretto, non ha più varianza minima nella
classe degli stimatori lineari corretti del vettore dei parametri incogniti. Si ricorre in questi
casi al cosiddetto stimatore dei minimi quadrati generalizzati o GLS , che “conserva” la
varianza minima nella classe degli stimatori lineari corretti del vettore dei parametri ignoti.
4