Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Contenuti: o Specificazione del modello o Ipotesi del modello classico o Stima dei parametri Regressione semplice Roberta Siciliano 2 1 Il modello Scopo dell analisi di regressione lineare è di formalizzare un modello che esprima il legame lineare esistente in media tra la variabile Y (variabile dipendente) ed una variabile esplicativa X: Y = β +β X +u 1 2 è la componente stocastica che riassume il non spiegato teoricamente Intercetta della come le eventuali retta di variabili omesse o regressione gli errori di misurazione coefficiente angolare della retta Il modello Classico di Regressione Lineare Semplice Il modello è detto: • semplice poiché considera la relazione tra due sole variabili; • classico poiché le ipotesi su cui si basa per la stima dei parametri sono dette classiche; • di regressione poiché con esso si intende stimare o predire il valor medio della variabile dipendente sulla base di valori prefissati della variabile esplicativa, per cui si dice che la variabile dipendente regredisce verso la media al variare dei valori della variabile esplicativa; Il termine lineare è invece riferito ai parametri indipendentemente dalle variabili che possono essere opportunamente trasformate 2 Le ipotesi classiche del modello 1) Il valore atteso di ciascuna v.c. errore è uguale a zero E (ui ) = 0 ⇒ E ( yi ) = E ( E (Y | xi )) + E (ui ) = β1 + β 2 xi non c è errore sistematico. Un eventuale errore sistematico verrebbe incorporato nell'intercetta del modello; 2) La varianza dell errore è costante: c'è omoschedasticità var(ui ) =σ2 ⇒var(yi ) =σ2 , ∀i degli errori. 3) La covarianza degli errori è uguale a zero: cov( u i , u j ) =E ( u i u j ) −E ( u i ) E ( u j ) =0,∀i ≠ j per cui gli errori sono incorrelati, ma non necessariamente indipendenti 4) La variabile esplicativa X non è correlata con l errore cov( x i , u i ) = 0 ,∀i non è aleatoria, ovvero Per cui si intende che il campione sia stato estratto dalle distribuzioni condizionate di Y dati i livelli della variabile X; 5) Il modello è correttamente specificato, ovvero la relazione lineare tra le variabili è correttamente formalizzata nel modello. 6) La varianza di X, supposta diversa da zero, non deve essere eccessivamente elevata altrimenti un analisi lineare condurrebbe a soluzioni non informative. 3 Stima dei Parametri La Stima dei Parametri Il modello di regressione lineare semplice Yi =β1 + β 2 X i + u i può essere riferito alla popolazione di N unità. Generalmente, si dispone di un campione di n coppie di osservazioni (xi,yi) con le quali possiamo stimare il modello ed ottenere: ˆ +β ˆ x +e yi = ŷi +ei =β 1 2 i i ŷ i = βˆ 1 + βˆ 2 x i e i = y i − ŷ i Il residuo potrà interpretarsi come stima degli errori 4 Il Metodo dei Minimi Quadrati La stima dei parametri nel modello di regressione è ottenuta attraverso il metodo dei minimi quadrati, ossia minimizzando la somma dei quadrati degli errori. min Q ( β1 , β 2 ) = 2 ∑x y = β ∑x +β ∑x i i 1 i 2 i i i i ∑ ( yi − β1 − β 2 xi )2 i Ciò si traduce nella risoluzione di un sistema di equazioni normali eguagliando a zero le derivate prime della funzione Q (.) rispetto ai parametri: ∑ y i = nβ1 + β 2 ∑ x i i i Infine, si ottiene la stima dei parametri: ∑ x i yi − n x y Cod ( X , Y ) S xy i ˆ β2 = = = 2 2 Dev ( X ) S2 ∑ xi −n x x i Sono la covarianza campionaria tra X e Y e la varianza campionaria della X. βˆ1 = y − βˆ 2 x Regressione semplice Roberta Siciliano 10 5 Proprietà del Metodo dei Minimi Quadrati 1) La retta stimata passa per il punto di coordinate ⎛⎜⎝ x, y ⎞⎟⎠ 2) 3) ( ) ( ) E yi = E ŷi , E ( ei ) = 0 , ∑i ei = 0 ∑ i e ix i = 0 Per quanto riguarda le proprietà degli stimatori dei minimi quadrati, si dimostra con il Teorema di GaussMarkov che essi sono lineari, non distorti e con varianza minima (Best Linear Unbiased Estimators). Per valutare la precisione degli stimatori ed in particolare per l inferenza sui parametri del modello occorre conoscere la varianza degli stimatori: σ2 2 ⎛⎜ 1 x 2 ⎞⎟ ˆ ˆ Var ( β1 ) = σ ⎜ + ⎟ Var( β 2 ) = Dev ( X ) n Dev(X) ⎝ ⎠ Se la varianza dell errore non è nota allora la sua stima corretta è data da: 2 ∑ ei 2 σˆ u = i n −2 6 Contenuti: o Bontà di adattamento o Test e analisi della varianza o Previsione Regressione semplice Roberta Siciliano 13 La bontà di adattamento Lineare La bontà di adattamento lineare ai dati si può valutare osservando Q ( βˆ1 , βˆ2 ) = ∑ ei2 i Tanto minore sarà questo valore tanto migliore sarà l adattamento della retta ai punti Questo valore potrà variare da caso a caso dipendendo dall unità di misura del fenomeno, occorre definire una misura standardizzata che consenta il confronto tra diversi modelli. Si è osservato che: ∑ e2 i è parte della seguente decomposizione i della devianza totale di Y ( ∑ yi − y i Devianza totale 2 ) ( = ∑ ŷ i − y i 2 ) + ∑ ei2 i Devianza di regressione Devianza dei residui 7 Si potrà definire l indice di determinazione lineare per valutare la bontà di adattamento del modello lineare ai dati osservati, considerando quanta parte della devianza totale è spiegata dalla retta di regressione R = 2 Dev(R ) Dev(e ) = 1− Dev(Y ) Dev(Y ) È un indice che varia da zero ad uno, esprimendo un buon grado di adattamento lineare qualora il suo valore è prossimo ad uno Test sui Parametri del Modello A fini inferenziali si assume che: ( ) u i ~ N 0 ,σ 2 gli errori si distribuiscono normalmente Si dimostra che questa assunzione implica che: ˆ ~ N β , Var β ˆ β 1 1 1 ( ( )) βˆ 2 ~ N β 2 , Var βˆ 2 ( ( )) gli stimatori si distribuiscono normalmente 8 Si potrà quindi fare riferimento alla normale standardizzata per la verifica delle ipotesi. Dalla standardizzazione delle variabili otteniamo: βˆ1 −β1 βˆ 2 −β 2 Z1 = e Z2 = σˆ σˆ β1 β2 Le variabili seguono la distribuzione normale standardizzata: Se la varianza degli errori è nota. Z ~ N (0,1) quando la varianza degli errori non è nota occorre stimarla pervenendo a stime corrette della varianza degli stimatori. Si dimostra che le statistiche campionarie ˆ −β ˆ −β β β 1 1 2 2 T1 = e T2 = ˆˆ ˆˆ σ σ β1 β2 lo stimatore corretto della varianza dell errore è legata alla distribuzione chi – quadrato con (n – 2) gradi di libertà: Regressione semplice Roberta Siciliano si distribuiscono come una tStudent con (n - 2) gradi di libertà χ 2 = ( n − 2) σˆ 2 σ2 18 9