Lucidi: esempi di regressione semplice

•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Modelli statistici
Il modello di regressione semplice
29 settembre 2016
M.S.: regressione semplice
1 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Indice
1
Retta dei minimi quadrati
2
Modello lineare con errori normali
3
Previsione col modello di regressione semplice
4
Esempio completo
M.S.: regressione semplice
2 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Dati
Si sono osservate le altezze di 11
coppie madre-glia.
x
y
1
153.7
163.1
2
156.7
159.5
3
173.5
169.4
4
157.0
158.0
5
161.8
164.3
6
140.7
150.0
7
179.8
170.3
8
150.9
158.9
9
154.4
161.5
10
162.3
160.8
11
166.6
160.6
M.S.: regressione semplice
3 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Dati
Si sono osservate le altezze di 11
160
150
140
Altezza figlie
170
180
coppie madre-glia.
140
150
160
Altezza madri
170
180
x
y
1
153.7
163.1
2
156.7
159.5
3
173.5
169.4
4
157.0
158.0
5
161.8
164.3
6
140.7
150.0
7
179.8
170.3
8
150.9
158.9
9
154.4
161.5
10
162.3
160.8
11
166.6
160.6
M.S.: regressione semplice
3 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Correlazione
Una misura sintetica della linearità della relazione tra due variabili è il
coeciente di correlazione
cov(X , Y )
ρ= p
V (X )V (Y )
Il coeciente di correlazione è compreso tra
.
−1
e 1 e raggiunge i casi
limite solo in caso di perfetta dipendenza lineare.
•
Lo stimatore di
ρ
è
Pn
− ȳ )(xi − x̄)
,
Pn
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ )
ρ̂ = pPn
dove
x̄
e
ȳ
i=1 (yi
(1)
sono le medie aritmetiche delle osservazioni.
•
Per i dati sulle altezze
ρ̂ = 0.88.
M.S.: regressione semplice
4 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Retta di regressione
Le due variabili sono in relazione: madri più alte tendono ad avere glie più
alte.
•
La relazione è approssimativa, c'è variabilità.
•
Possiamo descrivere la relazione includendo un termine di errore
yi = β1 + β2 xi + εi ,
yi
altezza della glia nell'i -esima coppia
xi
altezza della madre nell'i -esima coppia,
β1 , β2
εi
sono numeri reali
è un termine di errore
M.S.: regressione semplice
5 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Quale retta? (signicato)
Appare naturale associare la relazione lineare alla media della variabile
Y:
si assume
E (Y |X = x) = β1 + β2 x,
V (Y |X = x) = σ 2 .
In termini dell'errore
εi
E (εi ) =
0,
V (εi ) = σ 2 .
M.S.: regressione semplice
6 / 60
•
MQ
•
MV
•
Previsione
•
•
Esempio 2
Diverse distanze punto retta
Vogliamo determinare dei valori per
β1
e
β2
tali per cui la retta sia vicina
alle osservazioni: dobbiamo denire una distanza tra retta e nuvola di punti.
●
170
●
●
●
minimi quadrati
dist. vert. ass
dist. oriz. quad.
●
dist. geometrica
165
Altezza figlie
y
dist. verticale al quadrato
dist. vert.
dist. oriz.
dist. geometrica
●
●
●
160
●
●
●
●
155
150
●
140
x
150
160
170
180
Altezza madri
M.S.: regressione semplice
7 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Retta dei minimi quadrati
La nostra scelta è di usare le distanze verticali al quadrato, con ciò la
distanza tra la retta
yi = β1 + β2 x
S(β1 , β2 ) =
e i punti è
n
X
(yi − (β1 + β2 xi ))2 .
i=1
Deniamo allora stimatore dei minimi quadrati di
argmin
n
X
(β1 , β2 )
(yi − (β1 + β2 xi ))2 .
(2)
β1 ,β2 ∈R i=1
yi = β̂1 + β̂2 x
(xi , yi ), i = 1, . . . , n.
La retta
è quella che si trova a minima distanza dai punti
M.S.: regressione semplice
8 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Stimatore dei minimi quadrati
Eguagliamo a zero le due derivate parziali di
S(β1 , β2 ) =
n
X
(yi − (β1 + β2 xi ))2 .
i=1
ottenendo il sistema
( ∂S(β
1 ,β2 )
∂β1
∂S(β1 ,β2 )
∂β2
= −2
= −2
Pn
1
Pi=
n
(yi − (β1 + β2 xi )) = 0
i=1 xi (yi
− (β1 + β2 xi )) = 0,
M.S.: regressione semplice
9 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Stimatore dei minimi quadrati
Eguagliamo a zero le due derivate parziali di
S(β1 , β2 ) =
n
X
(yi − (β1 + β2 xi ))2 .
i=1
ottenendo il sistema
( ∂S(β
1 ,β2 )
∂β1
∂S(β1 ,β2 )
∂β2
= −2
= −2
Pn
1
Pi=
n
(yi − (β1 + β2 xi )) = 0
i=1 xi (yi
− (β1 + β2 xi )) = 0,
che equivale a
M.S.: regressione semplice
9 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Stimatore dei minimi quadrati
Eguagliamo a zero le due derivate parziali di
S(β1 , β2 ) =
n
X
(yi − (β1 + β2 xi ))2 .
i=1
ottenendo il sistema
( ∂S(β
1 ,β2 )
∂β1
∂S(β1 ,β2 )
∂β2
= −2
= −2
Pn
1
Pi=
n
(yi − (β1 + β2 xi )) = 0
i=1 xi (yi
− (β1 + β2 xi )) = 0,
(P
Pn
n
i=1 yi − nβ1 − β2
i=1 xi = 0
Pn
Pn
Pn
2
i=1 xi yi − β1
i=1 xi − β2
i=1 xi = 0.
M.S.: regressione semplice
9 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Stimatore dei minimi quadrati
Eguagliamo a zero le due derivate parziali di
S(β1 , β2 ) =
n
X
(yi − (β1 + β2 xi ))2 .
i=1
ottenendo il sistema
(P
Pn
n
i=1 yi − nβ1 − β2
i=1 xi = 0
Pn
Pn
Pn
2
i=1 xi yi − β1
i=1 xi − β2
i=1 xi = 0.
Purché
Pn
β̂2 =
− x̄)2 6= 0,
P
P
P
Pn
n ni=1 yi xi − ni=1 xi ni=1 yi
(yi − ȳ )(xi − x̄)
1
Pn
Pn
= i=P
,
n
2
2
2
n i=1 xi − ( i=1 xi )
i=1 (xi − x̄)
i=1 (xi
β̂1 = ȳ − β̂2 x̄.
M.S.: regressione semplice
9 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Stimatore di β2
Lo stimatore del coeciente angolare è il rapporto tra la covarianza
X e Y e la varianza campionaria di X ,
P
Pn
P
P
n ni=1 yi xi − ni=1 xi ni=1 yi
(yi − ȳ )(xi − x̄)
1
Pn
Pn
=
= i=P
,
n
2
2
2
n i=1 xi − ( i=1 xi )
i=1 (xi − x̄)
cov (X , Y )
=
var (X )
s
var (Y )
= ρ
var (X )
campionaria di
β̂2
M.S.: regressione semplice
10 / 60
•
MQ
•
MV
•
•
Previsione
•
Esempio 2
Calcolo delle stime per i MQ
Sostituendo i valori del campione si ha
1
n
1
n
n
X
xi =
i=1
n
X
xi2 =
i=1
1
11
1
11
1757.4
281940
= 159.76,
= 25631,
n = 11
n
X
1
n
1
n
e
yi =
i=1
n
X
1
11
xi yi =
i=1
1776.4
1
11
= 161.49,
284340
= 25849,
Si ha allora
β̂2 =
Pn
Pn
x y /n − x̄ ȳ
i=1 (yi − ȳ )(xi − x̄)
1 i i
Pn
Pi=
=
=
n
2
2
2
(x
−
x̄)
i=1 i
i=1 xi /n − x̄
/
284340 11
− 159.76 × 161.49
= 0.46
/ − 159.762
281940 11
β̂1 = ȳ − β̂2 x̄ = 161.49 − 0.46 × 159.76 = 88.11,
M.S.: regressione semplice
11 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Indice
1
Retta dei minimi quadrati
Media e varianza degli stimatori dei minimi quadrati
2
Modello lineare con errori normali
3
Previsione col modello di regressione semplice
4
Esempio completo
M.S.: regressione semplice
12 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Linearità di β̂2
Osserviamo che
β̂2
Pn
i=1 xi Yi − nx̄ Ȳ
P
=
n
2
2
i=1 xi − nx̄
n
X
x − x̄
Pn i 2
=
Yi
2
j=1 xj − nx̄
i=1
=
n
X
xi − x̄
Yi
2
j=1 (xj − x̄)
Pn
i=1
=
n
X
wi Yi ,
i=1
dove, per
i = 1, . . . , n ,
xi − x̄
2
j=1 (xj − x̄)
wi = Pn
M.S.: regressione semplice
13 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Media di β̂2
Per la linearità della speranza matematica
E (β̂2 ) = E (
n
X
wi Yi )
i=1
=
=
n
X
i=1
n
X
wi E (Yi )
wi (β1 + β2 xi )
i=1
= β1
n
X
i=1
wi + β2
n
X
wi xi = β2 .
i=1
M.S.: regressione semplice
14 / 60
•
•
MQ
MV
•
•
Previsione
Esempio 2
•
Varianza di β̂2
Nuova ipotesi:
le Y1 , . . . , Yn sono non correlate
(equivalentemente: gli errori
ε1 , . . . , ε n
sono non correlati).
•
n
X
V (β̂2 ) = V
= σ2
wi Yi
i=1
n
X
i=1
=
!
=
n
X
wi2 V (Yi ) = σ 2
i=1
n
X
wi2
i=1
2
(xi − x̄)
P
n
j=1 (xj
− x̄)2
2
σ2
.
2
j=1 (xj − x̄)
Pn
M.S.: regressione semplice
15 / 60
•
•
MQ
MV
•
Previsione
•
Esempio 2
•
Media e varianza di β̂1
Anche
β̂1
è combinazione lineare delle
β̂1 = ȳ − β̂2 x̄ =
n
X
i=1
1
n
Yi −
n
X
Yi ,
wi Yi x̄ =
i=1
n X
1
i=1
n
− wi x̄ Yi =
n
X
wi∗ Yi ,
i=1
β̂1 si ha
n
n
X
X
∗
E (β̂1 ) =
wi E (Yi ) = β1 + β2
wi∗ xi = β1
Ragionando come per
i=1
V (β̂1 ) =
n
X
i=1
(wi∗ )2 V (Yi )
=σ
i=1
i=1
2
n X
2
n X
1
1
2
2
1
n
+ wi x̄ − 2 x̄wi
n
1
x̄ 2
2
P
= σ
+ n
,
2
n
i=1 (xi − x̄)
= σ
i=1
n2
2
− wi x̄
=
M.S.: regressione semplice
16 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Covarianza tra β̂1 e β̂2
cov
β̂1 , β̂2
ȳ − β̂2 x̄, β̂2
= cov ȳ , β̂2 − x̄ cov β̂2 , β̂2
!
n
n
X
1 X
= cov
Yi ,
wi Yi − x̄V (β̂2 )
n
=
cov
i=1
=
=
1
n
n
X
σ2
2
i=1 (xi − x̄)
wi V (Yi ) − x̄ Pn
i=1
n
1 X
n
i=1
σ2
2
i=1 (xi − x̄)
wi σ 2 − x̄ Pn
i=1
σ2
.
2
i=1 (xi − x̄)
= −x̄ Pn
M.S.: regressione semplice
(3)
17 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Valori teorici e residui
Trovate le stime
β̂1
e
β̂2
si deniscono i valori teorici
ŷi = β̂1 + β̂2 xi , i = 1, . . . , n.
e i residui
ei = yi − ŷi = yi − β̂1 − β̂2 xi , i = 1, . . . , n.
che sono i corrispondenti campionari degli errori
εi .
M.S.: regressione semplice
18 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Stimatore di σ 2
σ2
è la varianza degli errori
εi .
•
Gli errori sono quantità non osservate, uso come sostituti i loro
corrispondenti campionari: i residui
ei
•
Uno stimatore naturale di
σ2
è la varianza campionaria dei residui.
•
Essendo però
Pn
i=1 ei
=0
si ha
σ̂ 2 =
1
n
n
X
ei2 .
i=1
M.S.: regressione semplice
19 / 60
•
•
MQ
MV
•
Previsione
•
Esempio 2
•
Stimatore corretto di σ 2
Lo stimatore
σ̂ 2
non è corretto, si mostra che
E (σ̂ 2 ) =
Lo stimatore corretto di
σ2
n−2 2
σ
n
è
n
X
1
n
ei2 .
σ̂ 2 =
s =
n−2
n−2
2
i=1
M.S.: regressione semplice
20 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Modello stimato, valori teorici, residui
Il modello stimato è
yi = 88.11 + 0.45934xi 2 + εi .
Valori teorici:
ŷi = β̂1 + β̂2 xi
ad esempio
ŷ4 = 88.11 + 0.45934 × (157) = 160.24.
Residui
ei = yi − β̂1 − βˆ2 xi
ad esempio
e4 = 158 − 160.24 = −2.24.
M.S.: regressione semplice
21 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Graco delle quantità
^ ^
y^i = β1 + β2xi
yi
xi
M.S.: regressione semplice
22 / 60
•
•
MQ
•
MV
Previsione
•
Esempio 2
•
Stima di σ 2
La stima
σ̂
2
σ̂ 2
è allora
=
=
1
n
1
n
n
X
Pn
2
i=1 ei e, in base a quanto visto,
2
2
(yi − ȳ ) − β̂2
i=1
n
X
yi2 /n − ȳ 2 − β̂22
i=1
=
1
n
n
X
(xi − x̄)2
i=1
n
X
!
xi2 /n − x̄ 2
i=1
26107
2
− 161.49 − (0.46)2 (25631 − 159.762 ) = 5.25.
La stima corretta, inne, è
s2 =
n
σ̂ 2 =
n−2
11
11
−2
5.25
= 6.41.
M.S.: regressione semplice
23 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Stimatori delle varianze degli stimatori β̂1 e β̂2
Nelle espressioni per le varianze degli stimatori
σ2
2
j=1 (xj − x̄)
1
x̄ 2
2
V (β̂1 ) = σ
+ Pn
2
n
i=1 (xi − x̄)
V (β̂2 ) =
compare il parametro
σ2,
Pn
gli stimatori di dette varianze si ottengono
sostituendovi il suo stimatore corretto
s2
2
j=1 (xj − x̄)
1
x̄ 2
2
V̂ (β̂1 ) = s
+ Pn
2
n
i=1 (xi − x̄)
1
159.76
2
dell'esempio s'ottiene V̂ (β̂1 ) = 6.413
+
= 138.69
11
1185.2
V̂ (β̂2 ) =
Con i dati
e
V̂ (β̂2 ) =
s 2.
Pn
2
.
6 413
.
1185 2
= 0.0054109.
M.S.: regressione semplice
24 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Indice
1
Retta dei minimi quadrati
2
Modello lineare con errori normali
3
Previsione col modello di regressione semplice
4
Esempio completo
M.S.: regressione semplice
25 / 60
•
•
MQ
MV
•
Previsione
•
Esempio 2
•
Ipotesi del modello
Il modello può essere scritto
Yi = β1 + β2 xi + εi i = 1, . . . , n
con le ipotesi
i. linearità:
E (εi ) = 0 i = 1, . . . , n
ii. omoschedasticità:
iii. normalità:
V (εi ) = σ 2 i = 1, . . . , n
εi ∼ i.i.d.(N (0, σ 2 )) i = 1, . . . , n
iv. identicabilità:
xi
non tutte uguali
oppure, equivalentemente,
Yi ∼ N β1 + β2 xi , σ 2
con
Yi
indipendenti.
M.S.: regressione semplice
26 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Ipotesi distributiva: gracamente
Yi ≈ N(β1 + β2xi,σ2)
y = β1 + β2x
yi
^ ^
y = β1 + β2x
yk
ek
εk
^ ^
y^k = β1 + β2xk
E(Yk)=β1 + β2xk
0
0
xk
xi
M.S.: regressione semplice
27 / 60
•
MQ
•
•
MV
•
Previsione
Esempio 2
•
Verosimiglianza
Funzione di verosimiglianza associata al modello è
2
L(β1 , β2 , σ ) =
n
Y
pi (yi ; xi , β1 , β2 , σ 2 )
i=1
=
n
Y
√
i=1
1
2πσ
exp
−
1
2σ 2
2
(yi − (β1 + β2 xi ))
(
= (2π)−n/2 (σ 2 )−n/2 exp −
1
2σ 2
n
X
(yi − (β1 + β2 xi ))2
)
,
i=1
la corrispondente log-verosimiglianza è
2
l(θ) = l(β1 , β2 , σ ) = −
n
2
log σ
2
−
1
2σ 2
n
X
(yi − (β1 + β2 xi ))2 .
i=1
M.S.: regressione semplice
28 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Stimatore di massima verosimiglianza
Equazione di verosimiglianza

0
= l∗ (θ) =

∂l(β1 ,β2 ,σ 2 )
1
 ∂l(β∂β

2
1 ,β2 ,σ ) 



∂β2
∂l(β1 ,β2 ,σ 2 )
∂σ 2
qualunque sia
σ2,
Pn

1
(y − (β1 + β2 xi ))
σ 2P i=1 i
n
1

.
i (yi − (β1 + β2 xi ))
i=1 xP
σ2
n
1
n
2
− 2σ2 + 2(σ2 )2 i=1 (yi − (β1 + β2 xi ))

=
il massimo di
L
si ottiene minimizzando
n
X
(yi − β1 − β2 xi )2 ,
i=1
quindi, la soluzione per
non dipende da
σ2 ;
(β1 , β2 )
coincide con gli stimatori dei minimi quadrati.
dalla terza equazione si ottiene
σ̂ 2 =
1
n
n
X
i=1
(yi − β̂1 − β̂2 xi )2 ,
M.S.: regressione semplice
29 / 60
•
MQ
•
MV
•
Previsione
•
•
Esempio 2
Distribuzione degli stimatori β̂i
Ricordiamo: una combinazione lineare di v.a. normali è normale.
•
Allora essendo
β̂2
c.l. delle
Yi ,
β̂2 ∼ N
se queste sono normali,
σ2
β2 , Pn
2
j=1 (xj − x̄)
β̂2
è normale
!
.
•
Analogamente, per
β̂1
si ha
1
x̄ 2
2
β̂1 ∼ N β1 , σ
+ Pn
.
2
n
i=1 (xi − x̄)
M.S.: regressione semplice
30 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Distribuzione di σˆ2
σ̂ 2 si mostra che
Pn
Pn
2
2
nσ̂ 2
i=1 ei
i=1 (Yi − Ŷi )
=
=
∼ χ2n−2 .
σ2
σ2
σ2
Per quanto riguarda
e quindi
(n − 2)s 2
∼ χ2n−2 .
σ2
Inoltre, si mostra anche che
σ̂ 2 ,
e quindi
s 2,
è indipendente da
M.S.: regressione semplice
(β̂1 , β̂2 ).
31 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Inferenza sui coecienti: quantità pivotale
Una quantità pivotale è una funzione del campione e dei parametri la cui
distribuzione non dipende dal parametro.
•
Nel modello di regressione semplice si ha la quantità pivotale
√β̂r −βr
β̂r − βr
β̂r − βr
N (0, 1)
V (β̂r )
=q
∼ tn−2 ,
tr = q
= q
∼ q
χn−
s
s
V (β̂r )
V̂ (β̂r )
σ
σ
n−2
2
2
2
2
2
2
M.S.: regressione semplice
32 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Verica d'ipotesi
Consideriamo il sistema d'ipotesi
(
H0 : βr = βr 0
H1 : βr 6= βr 0 ,
nell'ipotesi nulla si ha,
β̂r − βr 0
tr = q
∼ tn−2 .
V̂ (β̂r )
regione critica:
{|tr | > kα }
riuto al livello di sig.
valore
α
se
|tr | > tn−2,1−α/2 .
p
αoss =
=
2 min{P(tn−2
2P(tn−2
≤ tross ), P(tn−2 ≥ tross )}
≥ |tross |).
M.S.: regressione semplice
33 / 60
•
MQ
•
MV
•
•
Previsione
Esempio 2
•
Verica d'ipotesi: nullità del coeciente β2
Consideriamo il sistema
(
H0 : β2 = 0
H1 : β2 6= 0,
si calcola allora
β̂2 − 0
0.46 − (0)
t2 = q
= 6.26
=
0.00541
V̂ (β̂2 )
e la si confronta con una
α
oss
tn−2 .
Il valore
p
è
=
2 min{P(tn−2
≤ t2 ), P(tn−2 ≥ t2 )}
=
2 min{P(tn−2
≤ 6.26), P(tn−p ≥ 6.26)}
=
2 min{1, 0}
=
0,
e quindi, ad esempio, al livello del 5%,
si riuta l'ipotesi nulla.
M.S.: regressione semplice
34 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Intervalli di condenza
Usando la medesima quantità pivotale
1
− α = P tn−2,α/2 < tr < tn−2,1−α/2


β̂r − βr
= P −tn−2,1−α/2 < q
< tn−2,1−α/2 
V̂ (β̂r )
q
q
= P − V̂ (β̂r )tn−2,1−α/2 < β̂r − βr < V̂ (β̂r )tn−2,1−α/2
q
q
= P β̂r − tn−2,1−α/2 V̂ (β̂r ) < βr < β̂r + tn−2,1−α/2 V̂ (β̂r )
qualunque siano
L'intervallo
β1 , β2
e
σ2.
q
β̂r ± tn−2,1− α V̂ (β̂r ).
2
è perciò un intervallo di condenza al livello 1
−α
per
βr .
M.S.: regressione semplice
35 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Tabella dei coecienti
parametro
statistica
t
valore
p per
H1 : βr 6= 0
stima
errore standard
β̂r
q
V̂ (β̂r )
q
tr = β̂r / V̂ (β̂r )
P(|Tn−2 | > |tr |)
β1
88.106
11.777
7.4812
0.000037664
β2
0.45934
0.073559
6.2445
0.00015062
H0 : βr = 0
M.S.: regressione semplice
v.
36 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Intervalli di condenza
−α
βr è
q
q
β̂r − tn−2,1−α/2 V̂ (β̂r ), β̂r + tn−2,1−α/2 V̂ (β̂r )
Un i.c. di livello 1
per
cioè ha estremi
β̂r ± tn−2,1− α
2
q
V̂ (β̂r ).
Sostituendo le quantità della tabella si ottiene, con
per
β1
l'intervallo con estremi
88.11
per
β2
α = 0.05
± 2.26 × 11.78 → [61.47, 114.75]
l'intervallo
[0.46 − 2.26 × 0.07, 0.46 + 2.26 × 0.07] = [0.29, 0.63].
M.S.: regressione semplice
37 / 60
•
MQ
•
•
MV
Previsione
•
•
Esempio 2
Scomposizione dei residui
Alla base della valutazione dell'adeguatezza del modello di regressione
semplice si ha la scomposizione della devianza
n
X
(yi − ŷi )2 +
●
180
●
150
y
●
●
●
●
●
●
140
●
150
160
x
170
180
●
160
●
150
●
●
●
140
●
●
●
●
●
●
●
●
●
●
140
y
●
●
●
●
160
160
●
●
170
180
170
170
●
140
y
(yi − ȳ )2 ,
i=1
●
●
150
n
X
(ŷi − ȳ )2 =
i=1
180
i=1
n
X
140
150
160
170
180
140
150
x
160
170
180
x
M.S.: regressione semplice
38 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Coeciente di determinazione, R 2
Il coeciente di determinazione
R2
è denito come
SQR
SQS
R2 = 1 −
=
,
SQT
SQT
compreso tra 0 e 1
misura quanta parte della variabilità di
regressione che produce le
R2
y
è spiegata dal modello di
ŷ .
è anche la correlazione campionaria al quadrato
Pn
(xi − x̄)2
R = β̂2 Pni=1
2
i=1 (yi − ȳ )
Pn
P
(xi − x̄)(yi − ȳ ) 2 ni=1 (xi − x̄)2
i=
1
Pn
Pn
=
2
2
i=1 (xi − ȳ )
i=1 (yi − ȳ )
Pn
(
(xi − x̄)(yi − ȳ ))2
Pn
= Pn i=1
= ρ̂2 .
2
2
(x
−
ȳ
)
(y
−
ȳ
)
i
i
i=1
i=1
2
2
M.S.: regressione semplice
39 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Coeciente di determinazione R 2
Con i dati dell'esempio si ottiene
SQR = 66.29, SQE = 240.61, SQT = 306.81,
e quindi
R2 = 1 −
SQR
=1−
SQT
66.29
306.81
= 0.78
D'altra parte si ha
R2 =
t22
=
n − 2 + t22
6.24
11
2
− 2 + 6.242
= 0.81
dove la dierenza col risultato precedente si deve alle approssimazioni
numeriche nel calcolo.
M.S.: regressione semplice
40 / 60
•
•
MQ
•
MV
•
Previsione
•
Esempio 2
R 2 e utilità del modello
●
8
●
● ●
●
●
●●
●
●
●
●
●
●
●●
8
●
●
y
●
2
6
●
●
●
0
0.0
●
●●
●
●● ●
●
2
●
●
●
0.5
Due
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
4
y
4
●●
●
●
●
●●
●
● ●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
10
●
6
●
●
●
R2 = 0.94
12
R2 = 0.377
1.0
x
1.5
2.0
●
●
●●
●
●
● ●●
●● ●
●● ●
0.0
●
●
0.5
1.0
1.5
2.0
x
esempi: nel primo la regressione semplice è un modello adeguato, e il
coeciente di determinazione è contenuto, nel secondo caso il coeciente
è molto elevato, ma il modello è chiaramente migliorabile
M.S.: regressione semplice
41 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Indice
1
Retta dei minimi quadrati
2
Modello lineare con errori normali
3
Previsione col modello di regressione semplice
4
Esempio completo
M.S.: regressione semplice
42 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Previsione (Stima) della media di Y per un dato X
Obiettivo è la stima di
E (Y |X = x0 ) = β1 + β2 x0 ,
una ragionevole stima puntuale è
Ŷ0 = β̂1 + β̂2 x0 .
Un intervallo di condenza per
E (Y |X = x0 )
si ottiene a partire da
Ŷ0 = Ȳ + β̂2 (x0 − x̄).
Si può mostrare che
Ȳ
e
β̂2
sono indipendenti, sappiamo che sono normali
e perciò
σ2
(x0 − x̄)2
2
+ Pn
Ŷ0 ∼ N E (Y |X = x0 ),
σ .
2
n
i=1 (xi − x̄)
M.S.: regressione semplice
43 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Previsione (Stima) della media di Y per un dato X
(continua)
Di conseguenza, si ha la quantità pivotale
Ŷ − E (Y |X = x0 )
r 0
,
−x̄)
s 2 n1 + Pn(x (x
i −x̄)
0
i=1
distribuita secondo una
tn−2 .
(4)
2
2
Si ha quindi l'intervallo di estremi
s
Ŷ0 ± tn−2,1−α/2
s
2
(x0 − x̄)2
+ Pn
2
n
i=1 (xi − x̄)
1
la cui ampiezza, si noti, cresce all'aumentare di
|x0 − x̄|:
l'incertezza della
previsione aumenta quanto più ci si allontana dal centro delle osservazioni
x.
M.S.: regressione semplice
44 / 60
•
MQ
•
MV
•
•
Previsione
Esempio 2
•
Previsione di Y per un dato X
Obiettivo è prevedere
Y0 = (Y |X = x0 ),
si ha
Y0 = E (Y |X = x0 ) + ε,
dove
ε
è una variabile gaussiana indipendente dagli stimatori e con varianza
σ2.
•
Si ha allora che
Ŷ0 − Y0 = Ŷ0 − E (Y |X = x0 ) + E (Y |X = x0 ) − Y0 .
Per
una
Ŷ0 − E (Y |X = x0 )
N (0, σ 2 ), quindi
si ha quanto sopra, mentre
E (Y |X = x0 ) − Y0
è
Ŷ − E (Y |X = x0 )
r 0
−x̄)
s 2 1 + n1 + Pn(x (x
i −x̄)
0
i=1
è distribuito secondo una
2
2
tn−2 .
M.S.: regressione semplice
45 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
Previsione
Intervallo di condenza:
s
Ŷ0 ± tn−2,1−α/2
s
2
(x0 − x̄)2
+ Pn
2
n
i=1 (xi − x̄)
1
Intervallo di previsione:
s
s
(x0 − x̄)2
+ Pn
1+
2
n
i=1 (xi − x̄)
1
140 150 160 170 180
Altezza figlie
Ŷ0 ± tn−2,1−α/2
2
140
150
160
170
180
M.S.: regressione semplice
46 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Indice
1
Retta dei minimi quadrati
2
Modello lineare con errori normali
3
Previsione col modello di regressione semplice
4
Esempio completo
M.S.: regressione semplice
47 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
I dati
n = 1375
coppie madre-glia
170
160
150
140
Altezza figlie
180
Si osservano le altezze di
140
150
160
170
180
Altezza madri
M.S.: regressione semplice
48 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
170
160
150
140
Altezza figlie
180
I dati
140
150
160
170
180
Altezza madri
M.S.: regressione semplice
49 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
170
160
150
140
Altezza figlie
180
I dati
140
150
160
170
180
Altezza madri
M.S.: regressione semplice
50 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Stima
Pn
xi = 218120
1
Pi=
n
Pni=1 yi2 = 222650 7
xi = 3.46 × 10
1
Pi=
n
7
i=1 xi yi = 3.53 × 10
β̂2 =
x̄ = 218120/1375 = 158.63
ȳ = 222650/1375 = 161.93
P
n
7
i=1 yi xi = 3.53 × 10
Pn
7
xi yi /n − x̄ ȳ
3.53 × 10 /1375 − 158.63 × 161.93
1
Pi=
=
= 0.53
n
2
2
3.46 × 107 /1375 − 158.632
i=1 xi /n − x̄
β̂1 = ȳ − β̂2 x̄ = 161.93 − (0.53) × 158.63 = 78.43.
Il modello stimato è dunque
yi = 78.43 + 0.5264xi + ei
M.S.: regressione semplice
51 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
170
160
150
140
Altezza figlie
180
Retta stimata
140
150
160
170
180
Altezza madri
M.S.: regressione semplice
52 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Stima di σ 2
σ̂ 2 =
=
=
=
=
1
n
1
n
1
n
1
n
n
X
ei2 =
i=1
n
X
1
n
(yi − ȳ )2 − β̂22
i=1
n
X
!
(yi − ȳ )(xi − x̄)
i=1
!
n
X
xi2 − nx̄ 2 )
yi2 − nȳ 2 − β̂22 (
i=1
3.61
n
X
i=1
× 107 − 1375 × 161.932 − 0.532 (3.46 × 107 − 1375 × 158.63
44763
32.55;
La stima secondo
s 2,
stimatore corretto
s2 =
n
σ̂ 2 =
n−2
1375
1375
−2
32.55
= 32.6.
M.S.: regressione semplice
53 / 60
•
•
MQ
MV
•
Previsione
•
Esempio 2
•
Stima di V (β̂r )
Possiamo poi calcolare le stime delle varianze degli stimatori di
β1
e
β2 ,
a
tal ne notiamo che
x̄ 2 = 158.63,
n
X
(xi − x̄)2 =
i=1
n
X
xi2 − nx̄ 2 = 3.46 × 107 − 1375 × 25163 = 50219,
i=1
con questo
s2
=
2
i=1 (xi − x̄)
V̂ (β̂2 ) = Pn
32.6
50219
= 0.00065,
e
V̂ (β̂1 ) = s
2
1
n
x̄ 2
2
i=1 (xi − x̄)
+ Pn
= 32.6
2
1
1375
+
158.63
2
50219
M.S.: regressione semplice
= 16.36.
54 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Tabella dei coecienti
p per
H0 : βr = 0
H1 : βr 6= 0
valore
r
statistica
t
stima
errore standard
β̂r
q
V̂ (β̂r )
1
78.427
4.0447
19.39
0
2
0.5264
0.025479
20.66
0
tr∗ = √ β̂r
V̂ (β̂r )
P(|tn−2 | > |tr∗ |)
M.S.: regressione semplice
55 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Scomposizione della varianza
Si ha
SQT = nvar(y ) =
n
X
yi2 − nȳ 2 = 3.61 × 107 − 1375 × 161.932 = 58678
i=1
SQE = β̂22
n
X
(xi − x̄)2 = (0.53)2
3.46
× 107 − 1375 × 158.632 = 13916
i=1
e quindi
SQR = 45481.
Con queste quantità si calcola inne
R2 = 1 −
45481
59907
= 0.24
M.S.: regressione semplice
56 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
170
150
130
Altezza figlie
190
Intervalli di condenza e previsione
130
140
150
160
170
180
190
Altezza madri
M.S.: regressione semplice
57 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Intervalli di condenza e previsione
170
150
130
Altezza figlie
190
Eetto della dimensione campionaria
130
140
150
160
170
180
190
Altezza madri
In rosso gli intervalli ottenuti col campione ridotto.
M.S.: regressione semplice
58 / 60
•
MQ
•
•
MV
Previsione
•
Esempio 2
•
180
170
140
150
160
Altezza figlie
170
160
150
140
Altezza figlie
180
Standardizzazione della x
140
150
160
170
Altezza madri
180
−20 −10
0
10
20
x−x
M.S.: regressione semplice
59 / 60
•
MQ
•
MV
•
Previsione
•
Esempio 2
•
Standardizzazione della x
Estimate
Std. Error
t value
Pr(>|t|)
(Intercept)
75.9527
4.1204
18.43
0.0000
x
0.5420
0.0260
20.88
0.0000
Estimate
Std. Error
t value
Pr(>|t|)
(Intercept)
161.9279
0.1552
1043.40
0.0000
x.std
0.5420
0.0260
20.88
0.0000
Consideriamo una madre di altezza
x0 = 140,
ad essa corrisponde un valore
teorico pari a
Ŷ0 = 75.95 + 0.54x0 = 151.83
secondo la prima retta e
Ŷ0 = 161.93 + 0.54(x0 − x̄) = 151.83
per la seconda.
M.S.: regressione semplice
60 / 60