Università degli Studi di Basilicata – Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 20 e 21 giugno 2013 - di Massimo Cristallo - Il modello di regressione lineare In diversi settori è ormai frequente la ricerca di eventuali legami tra variabili statistiche. In particolare, si parla di analisi della regressione (relazione causa-effetto) quando una variabile può essere espressa in funzione di altre. Il problema che si pone in questa sede è quello dell’individuazione di un modello matematico che esprima la variabile conseguente (o dipendente) in funzione di una o più variabili, dette antecedenti o indipendenti. Assumendo per semplicità che queste relazioni siano di tipo lineare, e che vi sia una sola variabile indipendente, è possibile formalizzare nel seguente modo il modello di regressione lineare semplice: Yi = β 0 + β 1 x i + E i (i = 1, 2, …, n) ove β 0 e β1 denotano, rispettivamente l’intercetta e il coefficiente di regressione, mentre Ei definisce la componente aleatoria (non osservabile e che quindi denota l’incertezza del modello). Se così è, allora vuol dire che la variabile dipendente Yi riproduce esattamente una variabile casuale, le cui determinazioni sono di seguito riportate: y i = β 0 + β 1 xi + ei (i = 1, 2, …, n) Una volta specificato il modello di riferimento, affinché si possa procedere alla stima dei relativi parametri incogniti β 0 e β1 , in letteratura si formulano le seguenti ipotesi “semplificatrici” (cd. classiche): 1. linearità della relazione; 2. non sistematicità degli errori E ( E i ) = 0 ; 3. omoschedasticità degli errori Var ( E i ) = σ 2 ; 4. incorrelazione tra gli errori Cov( E i , E j ) = 0 per i ≠ j ; 5. non stocasticità della variabile indipendente. Stima puntuale dei parametri Osservando un campione di dimensione n ed applicando il metodo dei minimi quadrati, si ottengono le seguenti stime OLS (Ordinary Least Squares) dei parametri incogniti del modello di regressione lineare semplice: βˆ1 = Cov ( x, y ) Var ( x) βˆ 0 = y − βˆ1 x che rappresentano, rispettivamente, le realizzazioni campionarie degli stimatori B1 e B0 . Si dimostra che valgono le seguenti relazioni: E ( B1 ) = β1 (proprietà della correttezza) Var ( B1 ) = σ2 n ∑ (x − x) i 2 i =1 e che se valgono le ipotesi classiche, lo stimatore B1 è lo stimatore migliore (più efficiente) di β1 (teorema di Gauss-Markov). Una stima corretta di σ 2 è data dall’espressione seguente: n ∑e 2 i 2 s cor = i =1 n− 2 da cui si ricava l’errore standard dello stimatore B1 : s ( B1 ) = s cor n ∑ (x i − x) 2 i =1 Stima intervallare dei parametri Consideriamo, come in precedenza, solo il parametro di maggiore interesse β1 e distinguiamo il caso di piccoli campioni da quello di grandi campioni. Piccoli campioni Sotto l’ipotesi di distribuzione normale della variabile dipendente Y, al livello di confidenza 1 − α si ha il seguente intervallo di confidenza per il parametro ignoto β1 : [βˆ1 − t n−2 ( α / 2 ) s (B1 ), βˆ1 + t n−2 ( α / 2 )s (B1 )] ove (n-2) sono i gradi di libertà della variabile aleatoria t di student. 2 Grandi campioni In questo caso, anche senza l’ipotesi di distribuzione normale della variabile dipendente Y, al livello di confidenza 1 − α si ha il seguente intervallo di confidenza per il parametro ignoto β1 : [βˆ1 − z( α / 2 ) s (B1 ), βˆ1 + z( α / 2 )s (B1 )] Test d’ipotesi Si sottopone a verifica l’ipotesi nulla che il coefficiente di regressione sia nullo contro l’ipotesi alternativa che non lo sia, per cui il sistema delle ipotesi è così costituito: H 0 : β1 = 0 H 1 : β1 ≠ 0 Le fasi da seguire per il problema di verifica d’ipotesi sono le stesse già esaminate nelle lezioni precedenti. Si riportano in questa sede i valori empirici del test: statistica test per piccoli campioni (e con l’ipotesi di “normalità” della variabile Y) βˆ v.a. t di student con (n-2) gradi di libertà : (valore empirico) t= 1 s ( B1 ) statistica test per grandi campioni βˆ v.a. normale standardizzata : z = 1 s ( B1 ) (valore empirico) E’ possibile, inoltre, sottoporre a verifica l’ipotesi nulla che il coefficiente di determinazione lineare (che ora denotiamo con δ ) sia nullo contro l’ipotesi alternativa che sia diverso da zero, utilizzando un’altra statistica test, nota come F di Snedecor-Fischer. Si ricorda che il coefficiente di determinazione lineare misura la bontà di adattamento del modello ai dati osservati, mentre il rifiuto dell’ipotesi nulla non indica un “perfetto adattamento” ma semplicemente la non nullità del coefficiente δ . Il modello lineare di regressione multipla Nella realtà che ci circonda spesso ci troviamo di fronte più di una variabile indipendente, per cui occorre generalizzare il modello precedente considerando la relazione di dipendenza lineare della variabile dipendente Y dalle variabili indipendenti (o regressori) X 1 , X 2 , ...,X k . Tale modello si ispira agli stessi fondamenti concettuali del precedente, ed è esprimibile come segue: 3 Y = β 0 + β 1 X 1 + ... + β k X k + ε ove ε è la “componente erratica” che esprime la variabilità di Y non spiegata dalla relazione lineare con i regressori, mentre β 0 , β1 , ..., β k rappresentano i parametri incogniti del modello. Questi ultimi possono essere stimati osservando le (k+1) variabili su n unità campionarie. Considerando il caso in cui k=2, si ha che β 0 , β1 e β 2 indicano, rispettivamente, l’intercetta, l’inclinazione della variabile Y rispetto alla variabile X 1 (tenendo costante la variabile X 2 ) e l’inclinazione della variabile Y rispetto alla variabile X 2 (tenendo costante la variabile X 1 ). La teoria e i metodi di analisi del modello lineare di regressione multipla si basano su alcune assunzioni (già esaminate nel caso in cui k=1), determinanti per consentire la costruzione di stimatori (e test di ipotesi) dotati di importanti proprietà ottimali. Anche in questo caso, quindi, si fa ricorso al metodo dei minimi quadrati e si ottiene uno stimatore OLS corretto e con varianza minima nella classe degli stimatori lineari corretti del vettore dei parametri incogniti. Un’attenzione particolare va posta, infine, alla scelta dei regressori X 1 , X 2 , ...,X k del modello, al fine di evitare che queste siano legate tra di loro. Quando c’è dipendenza lineare tra i regressori, si pone infatti il problema della multicollinearità. Esistono varie cause che portano alla multicollinearità, ma a prescindere da quale essa sia le conseguenze della sua presenza sono sicuramente negative. L’effetto più grave è quello di provocare un aumento della varianza degli stimatori utilizzati, e di conseguenza una diminuzione della loro precisione. Per il predetto motivo, in letteratura sono stati proposti diversi metodi per cercare di limitare gli effetti negativi causati dalla multicollinearità (tra questi troviamo gli stimatori “ridge”). Infine, se non valgono le ipotesi di omoschedasticità o di in correlazione degli errori, allora lo stimatore OLS pur essendo ancora corretto, non ha più varianza minima nella classe degli stimatori lineari corretti del vettore dei parametri incogniti. Si ricorre in questi casi al cosiddetto stimatore dei minimi quadrati generalizzati o GLS , che “conserva” la varianza minima nella classe degli stimatori lineari corretti del vettore dei parametri ignoti. 4