Corso di STATISTICA Prof. Roberta Siciliano Contenuti:

Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Contenuti:
o  Specificazione del modello
o  Ipotesi del modello classico
o  Stima dei parametri
Regressione semplice
Roberta Siciliano
2
1
Il modello
Scopo dell analisi di regressione lineare è di formalizzare
un modello che esprima il legame lineare esistente in
media tra la variabile Y (variabile dipendente) ed una
variabile esplicativa X:
Y = β +β X +u
1
2
è la componente
stocastica che
riassume il non
spiegato
teoricamente
Intercetta della
come
le eventuali
retta di
variabili omesse o
regressione
gli errori di
misurazione
coefficiente angolare della
retta
Il modello Classico di Regressione Lineare Semplice
Il modello è detto:
•  semplice poiché considera la relazione tra due sole
variabili;
•  classico poiché le ipotesi su cui si basa per la
stima dei parametri sono dette classiche;
•  di regressione poiché con esso si intende stimare o
predire il valor medio della variabile dipendente sulla
base di valori prefissati della variabile esplicativa, per
cui si dice che la variabile dipendente regredisce verso
la media al variare dei valori della variabile esplicativa;
Il termine lineare è invece riferito ai parametri
indipendentemente dalle variabili che possono essere
opportunamente trasformate
2
Le ipotesi classiche del modello
1) Il valore atteso di ciascuna v.c. errore è uguale a zero
E (ui ) = 0 ⇒ E ( yi ) = E ( E (Y | xi )) + E (ui ) = β1 + β 2 xi
non c è errore sistematico. Un
eventuale errore sistematico verrebbe
incorporato nell'intercetta del modello;
2) La varianza dell errore è costante: c'è omoschedasticità
var(ui ) =σ2 ⇒var(yi ) =σ2 , ∀i
degli errori.
3) La covarianza degli errori è uguale a zero:
cov( u i , u j ) =E ( u i u j ) −E ( u i ) E ( u j ) =0,∀i ≠ j
per cui gli errori sono incorrelati, ma
non necessariamente indipendenti
4) La variabile esplicativa X
non è correlata con l errore
cov( x i , u i ) = 0 ,∀i
non è aleatoria, ovvero
Per cui si intende che il
campione sia stato estratto dalle
distribuzioni condizionate di Y
dati i livelli della variabile X;
5) Il modello è correttamente specificato, ovvero la
relazione lineare tra le variabili è correttamente
formalizzata nel modello.
6) La varianza di X, supposta diversa da zero, non deve
essere eccessivamente elevata altrimenti un analisi
lineare condurrebbe a soluzioni non informative.
3
Stima dei Parametri
La Stima dei Parametri
Il modello di regressione lineare semplice
Yi =β1 + β 2 X i + u i
può essere riferito
alla popolazione di
N unità.
Generalmente, si dispone di un campione di n coppie
di osservazioni (xi,yi) con le quali possiamo stimare il
modello ed ottenere:
ˆ +β
ˆ x +e
yi = ŷi +ei =β
1 2 i i
ŷ i = βˆ 1 + βˆ 2 x i
e i = y i − ŷ i
Il residuo potrà
interpretarsi
come stima
degli errori
4
Il Metodo dei Minimi Quadrati
La stima dei parametri nel modello di regressione è
ottenuta attraverso il metodo dei minimi quadrati, ossia
minimizzando la somma dei quadrati degli errori.
min Q ( β1 , β 2 ) =
2
∑x y = β ∑x +β ∑x
i i 1 i 2 i
i
i
i
∑ ( yi − β1 − β 2 xi )2
i
Ciò si traduce nella risoluzione
di un sistema di equazioni
normali eguagliando a zero le
derivate prime della funzione Q
(.) rispetto ai parametri:
∑ y i = nβ1 + β 2 ∑ x i
i
i
Infine, si ottiene la stima dei parametri:
∑ x i yi − n x y
Cod ( X , Y ) S xy
i
ˆ
β2 =
=
=
2
2
Dev
(
X
)
S2
∑ xi −n x
x
i
Sono la covarianza campionaria tra X e Y e
la varianza campionaria della X.
βˆ1 = y − βˆ 2 x
Regressione semplice
Roberta Siciliano
10
5
Proprietà del Metodo dei
Minimi Quadrati
1) La retta stimata passa per il punto di coordinate ⎛⎜⎝ x, y ⎞⎟⎠
2)
3)
( ) ( )
E yi = E ŷi , E ( ei ) = 0 , ∑i ei = 0
∑ i e ix i = 0
Per quanto riguarda le proprietà degli stimatori dei
minimi quadrati, si dimostra con il Teorema di GaussMarkov che essi sono lineari, non distorti e con
varianza minima (Best Linear Unbiased Estimators).
Per valutare la precisione degli stimatori ed in
particolare per l inferenza sui parametri del
modello occorre conoscere la varianza degli
stimatori:
σ2
2 ⎛⎜ 1
x 2 ⎞⎟
ˆ
ˆ
Var ( β1 ) = σ ⎜ +
⎟ Var( β 2 ) = Dev ( X )
n
Dev(X)
⎝
⎠
Se la varianza dell errore non
è nota allora la sua stima
corretta è data da:
2
∑ ei
2
σˆ u = i
n −2
6
Contenuti:
o  Bontà di adattamento
o  Test e analisi della varianza
o  Previsione
Regressione semplice
Roberta Siciliano
13
La bontà di adattamento Lineare
La bontà di adattamento
lineare ai dati si può
valutare osservando
Q ( βˆ1 , βˆ2 ) = ∑ ei2
i
Tanto minore
sarà questo
valore tanto
migliore sarà
l adattamento
della retta ai
punti
Questo valore potrà variare da caso a caso
dipendendo dall unità di misura del fenomeno,
occorre definire una misura standardizzata che
consenta il confronto tra diversi modelli. Si è
osservato che:
∑ e2
i
è parte della seguente decomposizione
i
della devianza totale di Y
(
∑ yi − y
i
Devianza totale
2
)
(
= ∑ ŷ i − y
i
2
)
+ ∑ ei2
i
Devianza di regressione
Devianza dei residui
7
Si potrà definire l indice di determinazione lineare
per valutare la bontà di adattamento del modello
lineare ai dati osservati, considerando quanta
parte della devianza totale è spiegata dalla retta di
regressione
R =
2
Dev(R )
Dev(e )
= 1−
Dev(Y )
Dev(Y )
È un indice che varia da zero ad uno,
esprimendo un buon grado di
adattamento lineare qualora il suo valore è
prossimo ad uno
Test sui Parametri
del Modello
A fini inferenziali si
assume che:
( )
u i ~ N 0 ,σ 2
gli errori si distribuiscono
normalmente
Si dimostra che questa assunzione
implica che:
ˆ ~ N β , Var β
ˆ
β
1
1
1
(
( ))
βˆ 2 ~ N β 2 , Var βˆ 2
(
( ))
gli stimatori si distribuiscono
normalmente
8
Si potrà quindi fare riferimento alla normale
standardizzata per la verifica delle ipotesi. Dalla
standardizzazione delle variabili otteniamo:
βˆ1 −β1
βˆ 2 −β 2
Z1 =
e Z2 =
σˆ
σˆ
β1
β2
Le variabili seguono
la distribuzione
normale
standardizzata:
Se la varianza
degli errori è
nota.
Z ~ N (0,1)
quando la varianza degli errori non è nota occorre
stimarla pervenendo a stime corrette della varianza
degli stimatori. Si dimostra che le statistiche
campionarie
ˆ −β
ˆ −β
β
β
1
1
2
2
T1 =
e T2 =
ˆˆ
ˆˆ
σ
σ
β1
β2
lo stimatore corretto della
varianza dell errore è legata
alla distribuzione chi –
quadrato con (n – 2) gradi di
libertà:
Regressione semplice
Roberta Siciliano
si distribuiscono
come una tStudent con (n - 2)
gradi di libertà
χ 2 = ( n − 2)
σˆ 2
σ2
18
9