13. La regressione lineare semplice Statistica per le ricerche di

Statistica per le ricerche di
mercato
A.A. 2011/12
Prof.ssa Tiziana Laureti
Dott. Luca Secondi
13. La regressione lineare
semplice
•
Il termine regressione fu introdotto verso la metà dell‘Ottocento
dall’inglese Sir Francis Galton (1822-1911) che, nei suoi studi di
eugenetica, voleva verificare se la statura dei figli potesse essere
prevista sulla base di quella dei genitori, esprimendo questa
corrispondenza in una legge matematica.
•
Galton osservò che figli alti provenivano da genitori tendenzialmente
alti così come figli bassi provenivano da genitore tendenzialmente
bassi. Tuttavia, a genitori eccezionalmente alti non corrispondevano
figli alti in modo così estremo, e a genitori eccezionalmente bassi non
corrispondevano figli altrettanto bassi.
•
Poichè Galton notò una tendenza delle altezze dei figli a spostarsi nella
generazione successiva verso l’altezza media, scrisse che ciò
costituiva una “regression towards mediocrity” e la relazione statistica
stimata dalle osservazioni fu chiamata il modello della regressione.
regressione
2
Se la correlazione misura l’intensità e il
segno del legame lineare tra due
variabili, l’obiettivo delle tecniche di
regressione è, invece, quello di
individuare il tipo di relazione funzionale
che esiste tra una variabile dipendente
(o spiegata o endogena) e una o più
variabili indipendenti (o esplicative o
esogene).
3
Affermare che il fenomeno Y “dipende” dal fenomeno X secondo la
relazione matematica
Y=f(X)
semplifica ovviamente la dinamica reale dove intervengono, con differenti
pesi, una miriade di interrelazioni, tra le variabili X e Y ed il resto del
mondo dei fenomeni non esplicitati nella formula proposta.
E’ possibile allora correggere il modello scrivendo:
Y=f(X)+u
Dove u costituisce la componente stocastica del modello ed è
rappresentata da una variabile casuale che compendia l’insieme di
circostanze che impediscono a tale relazione di essere un legame teorico
di tipo matematico.
4
Perché si introduce la componente di errore nel modello?
Negli studi empirici la relazione tra due variabili non è mai una relazione funzionale
esatta del tipo Y=f(X)
I comportamenti economici e sociali non sono descritti adeguatamente da relazioni che
fanno corrispondere ad un dato valore di X un unico valore di Y
Esempi:
Nello studio della relazione di dipendenza del consumo familiare (Y) dal reddito
familiare (X), è ragionevole ipotizzare che famiglie con lo stesso reddito abbiano
comportamenti di consumo differenti;
La dimensione di un punto vendita non può essere la sola variabile esplicativa del
fatturato del punto vendita stesso;
La decisione di un consumatore di acquistare il prodotto di una determinata azienda
non è influenzata esclusivamente dal numero di spot giornalieri trasmetti in
televisione.
Il termine di errore u tiene conto di ogni altro fattore (non osservato o non
osservabile) che, oltre alla variabile esplicativa, può influenzare la risposta Y.
Esempio: Il consumo delle famiglie può dipendere, oltre che dal reddito disponibile, anche dal
numero di componenti, dalla loro età e dal livello di istruzione
5
Perché si introduce la componente di errore nel modello?
Se la relazione lineare valesse con esattezza - relazione deterministica o
matematica - il metodo di stima sarebbe semplice: basterebbe conoscere le
coordinate di due punti campionari per tracciare la retta che li unisce e produrre
la relativa equazione.
Tuttavia imbattersi in relazioni funzionali esatte - sulla base dell’osservazione di
dati empirici - risulta estremamente improbabile.
Al contrario è piuttosto frequente osservare delle discrepanze più o meno
accentuate tra i valori osservati di Y e quelli che emergono da una relazione
funzionale esatta con X.
Il termine di errore u serve proprio a rappresentare formalmente tali
discrepanze e a distinguere una relazione statistica (o stocastica)
stocastica da una
deterministica.
6
La regressione
semplice: se la variabile indipendente è solo una;
multipla: se le variabili indipendenti sono due o
più;
lineare: se la relazione che esprime la variabile
dipendente è di tipo lineare;
non lineare: se tale relazione non è lineare.
7
Principali caratteristiche delle analisi di regressione
¾ L’obiettivo principale è quello di investigare su eventuali
relazioni empiriche tra variabili allo scopo di analizzare le
cause (determinanti) che possono spiegare un determinato
fenomeno oggetto di studio.
¾ È caratterizzata dalla semplicità intrinseca dei modelli
utilizzati, basati essenzialmente su funzioni lineari.
¾ Sebbene non tutte le relazioni funzionali siano esprimibili
attraverso modelli lineari, una prima analisi fondata su forme
funzionali semplici costituisce comunque un buon punto di
partenza per passare poi ad eventuali modelli più complessi.
8
Principali fasi di un’analisi di regressione lineare
i.
Si ipotizza una relazione funzionale lineare tra una variabile oggetto di
studio (variabile dipendente o risposta) e una o più altre variabili
(variabili indipendenti o esplicative);
ii.
Si stimano i parametri di tale relazione funzionale sulla base dei dati
campionari a disposizione;
iii.
L’analisi è completata con appropriati test statistici sulla significatività dei
parametri e la valutazione della bontà dell’adattamento del modello ai
dati;
iv.
Ulteriori analisi di conferma servono ad assicurarsi che la relazione
ipotizzata sia effettivamente lineare e che le assunzioni su cui si basa la
stima del modello siano state rispettate
9
Semplice
Regressione
Lineare
Multipla
Consideriamo dapprima il caso più semplice:
esaminiamo il legame tra due sole variabili X e Y.
10
Partiamo da un esempio… [rif. Bracalente et al.2009]
Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato
un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale
proposito viene estratto un campione di 10 supermercati:
IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati
delle vendite
11
¾Per mettere in evidenza la relazione lineare esistente tra due caratteri è possibile rappresentare
l’insieme delle coppie di punti su un asse cartesiano (in cui sull’asse delle ascisse viene riportata,
come di consueto, la variabile X e sull’asse delle ordinate la variabile Y).
Il grafico derivante prende il nome di grafico di dispersione (o scatter plot).
Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di correlazione lineare
esistente tra le due variabili.
Se tra X e Y non c’è alcun legame allora X e Y sono indipendenti statisticamente
Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due
caratteri non migliora la “previsione” della modalità dell’altro
Correlazione lineare
ρXY = −1
n
Corr(X, Y ) = ρ XY
σ
= XY =
σXσ Y
∑ (x
i=1
i
− x )(yi − y )
n
n
i=1
i=1
2
2
∑ (xi − x ) ∑ (yi − y )
perfetta discordanza
− 1 < ρXY < 0 discordanza
ρXY = 0
0 < ρXY < 1
ρXY = 1
assenza di legame lineare
concordanza
concordanza perfetta
12
Cov(X,Y)>0
Cov(X,Y)=0
Cov(X,Y)<0
La relazione tra X e Y non è di tipo lineare
13
...torniamo all’esempio
Dal diagramma di dispersione (scatter plot) si può avere conferma della linearità e della direzione
della relazione ipotizzata.
V
o
l
u
m
e
350
La relazione è evidenziata
anche dal valore del
coefficiente di
correlazione lineare
r=0.893
300
250
200
v 150
e
100
n
d 50
i
0
t
0,0
e
50,0
100,0
150,0
200,0
Spazio espositivo
¾Viene formulato un modello lineare dove:
Volume delle vendite Î variabile dipendente (variabile risposta)
Spazio espositivo Î variabile esplicativa
14
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Il modello di regressione lineare mette in relazione una variabile X
con un’altra variabile, Y. Nella relazione lineare tra Y e X la
pendenza della retta è una caratteristica incognita della
distribuzione congiunta di X e Y nella popolazione.
ll compito della statistica è quello di stimare l’effetto su Y di una
variazione unitaria di X, ossia di stimare la pendenza della retta,
utilizzando un campione di dati su queste due variabili.
La pendenza e l’intercetta della retta che mette in relazione X e Y
possono essere stimati utilizzando un metodo chiamato Minimi
Quadrati Ordinari (OLS, acronimo dall’inglese Ordinary Least
Squares)
15
IL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Su un campione di n unità statistiche sono stati osservati i valori
relativi a due distinte variabili:
Y variabile dipendente o variabile risposta
X variabile indipendente o variabile esplicativa
Sulla base dei dati osservati e di alcune assunzioni può essere
formulata la seguente relazione lineare
Yi = α + β X i + ui
i = 1, 2,…, n
Dove, per ogni osservazione i nel campione:
α e β sono costanti dette parametri del modello di regressione
α è l’intercetta della retta di regressione nella popolazione
β è il coefficiente angolare (pendenza) della retta di regressione nella
popolazione
ui è una variabile casuale e rappresenta il termine di errore
Yi = α + β X i
È la retta di regressione della popolazione. Esprime la
relazione esistente in media tra Y e X nella
popolazione
16
La stima dei parametri
Lo stimatore dei minimi quadrati ordinari OLS
Lo stimatore dei minimi quadrati ordinari “sceglie” i coefficienti di regressione
in modo che la retta di regressione stimata sia il più possibile vicina ai
dati osservati, dove la vicinanza è misurata dalla somma dei quadrati
degli errori che si commettono nel predire Y data X.
Siano a e b
stimatori di α e β. La retta di regressione basata su
a + bX i
questi stimatori è
e quindi il valore di Yi predetto usando
questa retta è Yl i = a + bX i . Perciò l’errore che si commette nel predire
la i-esima osservazione è
ei =Yi −( a+bXi ) =Yi −a−bXi
La somma dei quadrati degli errori di predizione per tutte le n osservazioni è
n
n
∑ e = ∑ (Yi − a − bX i )
i =1
2
i
2
i =1
Gli stimatori OLS minimizzano la somma dei quadrati degli errori e sono indicati con a e
b
17
Per minimizzare la somma dei quadrati degli errori si calcolo innanzitutto le derivate parziali
n
∂ n
2
(Yi − a − bX i )
∑ (Yi − a − bX i ) = −2∑
∂a i =1
i =1
n
n
∂
2
(Yi − a − bX i ) = −2∑ (Yi − a − bX i ) X i
∑
∂b i=1
i =1
Gli stimatori OLS sono i valori di
a e b per i quali le derivate sono uguali a zero.
⎧ n
⎪⎪ ∑ (Yi − a − bX i ) = 0
i =1
⎨ n
⎪ (Y − a − bX ) X = 0
i
i
i
⎪⎩∑
i =1
Equazioni normali
Quindi si ha:
n
⎧ n
⎪⎪ ∑ Yi = na + ∑ bX i
i =1
i =1
⎨ n
n
n
⎪ YX =
X i a + ∑ X i2b
∑
∑
i i
⎪⎩ i =1
i =1
i =1
n
⎧ n
⎪⎪ ∑ Yi = na + b∑ X i
i =1
i =1
⎨ n
n
n
⎪ Y X = a X +b X2
∑
∑
i i
i
i
⎪⎩∑
i =1
i =1
i =1
18
Risolvendo il sistema si ricava:
n
∑Y
n
i
i =1
n
b=
n
∑ X ∑Y X
i
i =1
i =1
n
i
∑X
n
i =1
n
n
∑X ∑X
i
i =1
i =1
n
a=
i
i =1
n
∑Y X ∑ X
i
i
i =1
n
∑X
n
i =1
n
n
∑X ∑X
i =1
n
i =1
i =1
i =1
n∑ Yi X i − ∑ X i ∑ Yi
⎛ n
⎞
n∑ X − ⎜ ∑ X i ⎟
⎝ i =1 ⎠
i =1
n
2
2
i
2
i
∑X
i
n
i =1
=
n
n
∑Y
i =1
i
n
i
i =1
i
2
i
i
n
=
n
n
n
∑Y ∑ X − ∑ X ∑ X Y
i =1
i
i =1
2
i
i =1
i
⎛ n
⎞
n∑ X − ⎜ ∑ X i ⎟
⎝ i=1 ⎠
i =1
n
i i
i =1
2
2
i
2
i
19
Attraverso semplici passaggi algebrici e ricordando le definizioni di varianza e
covarianza si ottiene la seguente espressione per b1
∑( X
N
b=
i =1
i
)(
− X Yi − Y
∑( X
N
i =1
i
−X
)
2
) ∑( X
N
=
i =1
i
)(
− X Yi − Y
∑( X
N
i =1
i
−X
)
2
)
n
n
=
σ XY
σ X2
Dividendo la prima equazione normale per n si ottiene la seguente espressione per b1
1 n
1 n
a = ∑ Yi − b ∑ X i = Y − b X
n i =1
n i =1
I valori predetti (previsti) Yl i e i residui sono espressi da:
Yl i = a + bX i
eˆ i = yi − yˆ i
20
Rappresentazione grafica del
residuo
Y
(xi,yi )
yi
Yˆ = a + b x
ê i = y i − ŷ i
ŷ i
xi
X
Ogni residuo è lo scostamento
verticale tra il valore osservato e il
corrispondente valore sulla retta
21
Rappresentazione grafica del
metodo dei minimi quadrati
Y
Yˆ = a + b x
X
La retta si individua minimizzando la somma dei quadrati di
tutti gli scostamenti verticali
22
Stima della risposta media
(valore previsto o predetto di Y)
Le stime dei parametri della retta possono essere
utilizzate per stimare il valore medio di Y per un dato
valore di X
La stima è data da
Yˆ = a + b x
Il valore predetto di Y si ottiene sostituendo nella retta stimata
uno specifico valore di X
23
Tornando all’esempio…
Applicando il metodo dei minimi quadrati è stata stimata la seguente retta di
regressione
ˆ
Y = −10,19 + 0,67 ⋅ X
V 250
o
l
200
u
m
e 150
v 100
e
n
50
d
i
0
t
0
e
50
100
150
200
Spazio espositivo
250
300
350
il coefficiente di regressione ci dice che
ad ogni incremento unitario della variabile
X la variabile Y subisce anch’essa un
incremento, di intensità 0,67 -ossia ad ogni
incremento di un m2 nella superficie del
supermercato il volume delle vendite
settimanali aumenta di 67 euro
24
Esempio2: in un campione di 10 famiglie italiane si
rilevano il reddito mensile (X) e il consumo mensile
per generi alimentari (Y), in euro
Reddito (xi) Consumo (yi)
310
320
340
380
400
420
430
440
470
480
consumo
600
650
670
690
700
720
760
780
790
800
500
480
460
440
420
400
380
360
340
320
300
550
600
650
700
750
800
850
reddito
Il diagramma di dispersione suggerisce la
presenza di un legame lineare di tipo
crescente
Il coefficiente di correlazione lineare suggerisce la presenza di un forte legame di
interrelazione ρxy=0,97
25
La retta è
stimata quando
conosciamo il
valore
dell’intercetta
all’origine e del
coefficiente
angolare
(pendenza)
consumo
Con l’analisi di regressione lineare si deve stimare
quella retta che descrive meglio la nuvola di punti
evidenziata dal grafico
500
480
460
440
420
400
380
360
340
320
300
550
600
650
700
750
800
850
reddito
26
Utilizziamo il metodo dei minimi quadrati ordinari
y
X
Y
600
650
670
690
700
720
760
780
790
800
716
310
320
340
380
400
420
430
440
470
480
399
x = 716
i
− y x
i
-89
-79
-59
-19
1
21
31
41
71
81
-116
-66
-46
-26
-16
4
44
64
74
84
y = 399
− x
(xi − x )(yi − y ) (x i
10324
5214
2714
494
-16
84
1364
2624
5254
6804
34860
n
∑ (x
i=1
i
− x )(yi − y )
a = 399 − 0,884 *716 = −233,8
)2
− x
13456
4356
2116
676
256
16
1936
4096
5476
7056
39440
n
∑ (x
i=1
− x)
2
i
b=
34860
= 0,884
39440
27
Rappresentazione grafica della
retta
Per un incremento
unitario di reddito il
consumo aumenta in
media di 0,8839
500
480
y = 0.8839x - 233.85
460
Consumo
440
420
400
(se il reddito
aumenta di 1000€, il
consumo in media
cresce di 884€)
380
360
340
320
300
550
600
650
700
750
800
850
reddito
a = − 2 3 3, 8 5
b = 0, 8 8 3 9
28
Valori previsti e residui
Valori osservati
di X
X
600
650
670
690
700
720
760
780
790
800
Valori osservati
di Y
Y
310
320
340
380
400
420
430
440
470
480
Valori stimati (previsti) di Y
Yˆ = a + b x
Y prevista
296,47
340,66
358,34
376,02
384,86
402,54
437,89
455,57
464,41
473,25
ei = yi − yˆ i
Residui
13,53
-20,66
-18,34
3,98
15,14
17,46
-7,89
-15,57
5,59
6,75
29
MISURE DI BONTA’ DI ADATTAMENTO
R2 varia tra 0 e 1 e misura la frazione della varianza di Yi che è spiegata da Xi
L’errore standard della regressione misura la distanza tipica di Yi dal suo valore predetto
SCOMPOSIZIONE DELLA DEVIANZA TOTALE DI Yi
∑ (Y
n
i =1
i
−Y
)
2
=
n
∑
i =1
(
Yl i − Y
2
) ∑
+
n
i =1
e i2
SQT=Somma Quadrati
Totale
SQR=Somma Quadrati
Regressione (spiegata)
SQE=Somma Quadrati
Errore
TSS= Total Sum of
Squares
ESS=Exolained Sum of
Squares
RSS= Residual Sum of
Squares
In modo equivalente la varianza di Y può essere scomposta nella somma delle varianze
campionarie delle sue componenti ortogonali: la previsione e il residuo
( )
V (Yi ) = V Yl i + V ( ei )
Tale decomposizione sussiste solo se il modello possiede una intercetta. Solo in tal
caso
∑Yi = ∑Yl i
n
e
∑e X
i =1
i
i
=0
30
Sotto questa condizione la devianza di Y può essere scomposta in:
∑ (Y
n
i =1
=
n
∑
i =1
i
−Y
(Y
)
2
=
n
∑
i =1
− Yl i
2
(Y
− Yl i + Yl i − Y
) + ∑ (Yl
n
i
−Y
i =1
)
2
)
2
n
=
(
+ 2 ∑ Y − Yl i
i =1
) (Yl
i
−Y
)
La scomposizione precedente è dimostrata perché, il doppio prodotto è nullo.
Infatti:
∑ (Y − Yl ) (Yl
n
i
i =1
i
)
(
)
(
)
− Y = ∑ ei Yl i − Y = b1 ∑ ei X i − X =
= b1 ⎡⎣ ∑ ei X i − X ∑ ei ⎤⎦ = b1 [ 0 − 0] = 0
Sostituendo le stime
dei parametri in Yl i
Ricordando la prima e la seconda delle equazioni normali
31
Il coefficiente di determinazione R2
Sulla base di tale scomposizione della varianza di Yi può essere computata
una misura della bontà di adattamento del modello ai dati denominata
coefficiente di determinazione lineare
2
n
R
2
=
∑ (ŷ
i=1
∑ (y
R =
( )=
V Yl i
V (Yi )
− y
)
2
n
i=1
2
i
i
− y
)
n
=
(
SQR
SQT
1 ( n − 1) ∑ Yl i − Y
i =1
n
)
1 ( n − 1) ∑ (Yi − Y )
i =1
= 1 −
SQE
SQT
2
2
n
V ( ei )
R = 1−
= 1−
V (Yi )
2
(
1 ( n − 1) ∑ Y − Yl i
i =1
n
)
1 ( n − 1) ∑ (Yi − Y )
2
2
i =1
R2 può assumere valori compresi nell’intervallo [0,1] ma alcune fonti
di variazioni sono più difficili da spiegare di altre. Il giudizio sul valore
di R2 dipende dai contesti di applicazione
32
L’errore standard della regressione (SER, Standard Error of the
Regression)
E’ uno stimatore della deviazione standard dell’errore di regressione εi. E’
una misura della dispersione delle osservazioni intorno alla retta di
regressione, espressa nell’unità di misura della variabile dipendente.
n
SER =
∑e
i =1
2
i
n−2
Correzione per i gradi di libertà
Attenzione: il denominatore in questo caso è n-2, esso corregge per una piccola
distorsione verso il basso dovuta alla stima di due coefficienti
33
SCOMPOSIZIONE DELLA DEVIANZA (VARIANZA) IN UNO SCHEMA DI REGRESSIONE LINEARE
n
∑ (y
i =1
i
− y
)
2
=
n
∑
i =1
(y
i
− y
)
2
+
n
∑
i =1
e i2
Y
yi
ei = yi − y
yi − y
TSS =
i
ESS =
n
∑ (y
i =1
n
∑
i =1
y *i
yi−y
y
(y
n
∑
RSS =
i =1
xi
i
i
2
− y
)
− y
)
2
e i2
X
34
L’interpretazione del coefficiente R2 - casi limite
R2 = 1
Il modello si adatta perfettamente ai dati
La variabilità di Y è completamente spiegata dal modello di regressione
Îtutti i punti corrispondenti alle osservazioni campionarie giacciono
esattamente sulla retta
Îtutti i residui campionari sono pari a zero e pari a zero è la devianza
residua
Î SQT =SQR
0
18
y = 2 + 3x
2
R =1
16
14
-2
0
1
2
3
4
5
6
-4
12
10
-6
8
-8
6
4
-10
2
-12
0
0
1
2
3
4
5
6
-14
y = 2 -3x
2
R =1
35
L’interpretazione del coefficiente R2 - casi limite
Il modello non si adatta per niente ai dati
R2 = 0
Æil modello non riesce a spiegare nessuna parte - seppur minima della variabilità di Y
ÆLa devianza spiegata è pari a zero; la retta stimata è parallela all’asse
delle ascisse
ÆTutta la variabilità di Y è nei residui
12.5
5.5
y = 10.8
R2 = 0
12
11.5
5
4.5
11
10.5
4
10
y = 4.6
R2 = 0
3.5
9.5
9
3
0
1
2
3
4
5
6
0
1
2
3
4
5
6
36
…alcuni esempi
25
12
y = 10.6 -0.2x
R2 = 0.0026
20
10
8
15
6
10
4
5
y = 8.8 -0.6x
R2 = 0.18
2
0
0
0
30
1
2
3
4
5
6
0
20
2
3
4
5
3
4
5
6
9
y = 12.3+2.3x
R2 = 0.7472
25
1
y = 1.6+1.2x
R2 = 0.973
8
7
6
15
5
4
10
3
5
2
0
1
0
1
2
3
4
5
6
0
0
1
2
6
37
LE ASSUNZIONI DEI MINIMI QUADRATI
Assunzione 1
La distribuzione condizionata di ei data Xi ha media nulla
E ( ui X i ) = 0
Questa assunzione è una formalizzazione matematica riguardante gli “altri
fattori” contenuti in ei ed afferma che questi fattori non sono legati a Xi
nel senso che, dato un valore di Xi, la media della distribuzione di questi
altri fattori è pari a zero.
Questa assunzione viene di solito interpretata come quella che stabilisce
che le variabili X sono esogene. Essa implica inoltre che: E (Yi X i ) = β 0 + β1 X i
E (Yi | X = x 1 )
y
Distribuzione dei
valori di Y quando
X=x1
E(Yi | X = xi ) = β0 + β1xi
x1
x2
x3
x
38
L’assunzione circa la media condizionata implica che Xi e ui siano
incorrelati, ovvero
corr ( X i , ui ) = 0
Poiché la correlazione è una misura di associazione lineare non
vale invece il contrario. Anche se Xi e ui fossero incorrelati la
media condizionata di ui data Xi potrebbe essere non nulla.
Spesso si discute l’assunzione circa la media condizionata nei
termini di una possibile correlazione tra Xi e il termine di errore.
Se Xi e ui sono correlati allora l’assunzione circa la media
condizionata è violata.
In molti casi è ragionevole ritenere che il termine d’errore
contenga variabili non osservate collegate a variabili osservate
raccolte in X.
E’ necessaria quindi una certa cautela nell’interpretare i
coefficienti di regressione ottenuti come misure di effetti causali.
39
Assunzione 2
(Xi, Yi) sono indipendentemente e identicamente distribuite (i.i.d.). Tale
assunzione è una formalizzazione matematica di come viene estratto il
campione. Se le osservazioni sono estratte con campionamento casuale
semplice da un’ampia popolazione, allora (Xi, Yi) i=1,..,n sono i.i.d. In altre
parole, ogni insieme di (Xi, Yi) rappresenta un’estrazione casuale dalla
distribuzione che caratterizza la popolazione.
L’assunzione di i.i.d. è ragionevole per molti schemi di campionamento
In alcuni casi lo schema di campionamento è non-i.d.d. Ad esempio, nel
caso delle serie temporali quando una stessa unità viene osservata
ripetutamente nel tempo.
Assunzione 3
Gli outlier (ossia osservazioni con valori di Xi o Yi molto lontani) sono
improbabili. Tale assunzioni può essere formulata in termini matematici
affermando che X e Y hanno curtosi finita. L’assunzione di curtosi finita è
plausibile in molte applicazioni che coinvolgono dati economici.
Un modo per scoprire gli outlier è quello di rappresentare graficamente i
dati. Se si decide che un outlier è dovuto, ad esempio, ad un errore di
inserimento dati allora si può correggere l’errore, oppure, nel caso in cui
ciò sia impossibile, si può eliminare l’osservazione dai dati.
40
APPLICAZIONE EMPIRICA
Esempio tratto dal testo Stock J.H. e Watson, M.W. Introduzione all’econometria,
Pearson, 2009
Dati: file “Retribuzioni”
Variabili: Y= retribuzione media oraria (in US dollari); tre variabili
indipendenti X=età, laurea e genere
In questo esempio si studia la relazione tra retribuzione media
oraria (Y) ed età del lavoratore (X)
Sulla base delle variabili contenute nel file “Retribuzioni”:
1. Stimare il modello di regressione lineare che mette in relazione
la retribuzione media oraria Y all’età del lavoratore X
2. Stimare la retribuzione di un lavoratore di 30 anni
3. Valutare la bontà di adattamento del modello stimato
41
Riepilogo statistiche descrittive di Y e X (Utilizzando in Excel, tra gli strumenti di
analisi, “statistiche descrittive”
Retribuzione oraria media
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Età
16,771
0,098
14,904
19,231
8,759
76,715
2,656
1,411
58,960
2,098
61,058
133934,402
7986,000
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
29,754
0,032
30,000
34,000
2,891
8,359
-1,226
-0,103
9,000
25,000
34,000
237619,000
7986,000
42
Diagramma di dispersione
Retribuzione media oraria
70
60
50
40
30
20
10
0
0
5
10
15
20
25
30
35
40
Età
Il coefficiente di correlazione lineare, ρXY=0,15 suggerisce l’esistenza di un modesto
legame positivo (In Excel funzione “correlazione”)
43
Utilizzando in Excel, tra gli strumenti di analisi, “regressione” e selezionando come
variabile dipendente la retribuzione media oraria e indipendente l’età si ottiene il
seguente output:
OUTPUT RIEPILOGO
Statistica della regressione
R multiplo
0,1492
R al quadrato
0,0223
0,0221
R al quadrato corretto
Errore standard
8,6612
Osservazioni
7986,0000
ANALISI VARIANZA
gdl
Regressione
Residuo
Totale
Intercetta
Età
1,0
7984,0
7985,0
SQ
13631,814
598935,455
612567,269
Coefficienti
Errore standard
3,324
1,002
0,452
0,034
MQ
13631,814
75,017
F
181,716
Significatività F
0,000
Stat t
Valore di significatività Inferiore 95%
3,317
0,001
1,360
13,480
0,000
0,386
Superiore 95%
5,289
0,518
a) La retta stimata è quindi espressa da:
yˆ i = 3,324 + 0,452 xi
Per un incremento unitario dell’età la retribuzione media
oraria aumenta di 0,452 dollari
44
b) La retribuzione di un lavoratore di 30 anni è espressa da:
yˆ i = 3,324 + 0,452 ⋅ 30=16,884
c) La bontà di adattamento del modello è espressa da R2
R2=0,0223 indica un basso grado di adattamento del modello ai dati
osservati. Solo il 2,23% della variabilità totale di Y è spiegata dal
modello
Si ottiene rapportando
n
R
2
=
∑ ( yˆ
i =1
i
n
∑ (y
i =1
i
− y
− y
)
)
2
2
=
1 3 .6 3 1 ,8 1 4
5 9 8 ,9 3 5 ,4 5 5
=1−
= 0, 0223
6 1 2 .5 6 7 ,2 6 9
6 1 2 .5 6 7 ,2 6 9
45
Inferenza sulla regressione
Le stime dei coefficienti del modello α e β e la
stima della risposta media dipendono dal
campione osservato
Al variare dei campioni si generano le v.c.
stimatori dei coefficienti di regressione e della
risposta media che indichiamo con a, b e Ŷ i
46
PROPRIETA’ DELLO STIMATORE OLS IN CAMPIONE FINITI
LE IPOTESI DI GAUSS-MARKOV
1)
2)
E(ui)=0
i=1…n
V(ui)= σ 2 per ogni i=1…n (ipotesi di varianza
costante o omoschedasticità)
3)Cov(uiuj)=0 i,j =1…n i≠j (I termini di errore (relativi
ad unità statistiche differenti) hanno correlazione
nulla, sono cioè incorrelati. Questa ipotesi esclude la
presenza di qualsiasi forma di autocorrelazione)
4)La variabile X è non stocastica (i dati relativi alla
variabile indipendente X sono “noti senza errore”, cioè
non soggetti a deviazione di natura accidentale).
47
Proprietà dello stimatore OLS
Sotto le assunzioni dei minimi quadrati (1-3) e ipotesi 1-4, lo
stimatore OLS gode delle seguenti proprietà:
Proprietà 1) a e b sono corretti (non
distorti unbiased) cioè E(a)= α e E(b)=
β
Proprietà 2) nella classe degli
stimatori
corretti che sono funzioni
¾STIMATORE BLUE (Best Linear Unbiased Estimator)
lineari di Yi gli stimatori dei minimi
⎞ più efficienti
quadrati ⎛⎜a e b sono
i
⎟
σ u2
x2
2 1
⎟;
var(a) = σ ⎜ Gauss-Markov)
var(b) = n
+ n
(Teorema
⎜n
⎜
⎝
2 ⎟
(
x
x
)
−
∑
i
⎟
⎠
i =1
2
(
x
x
)
−
∑ i
i =1
48
Stime e stimatori nella regressione
Parametro
Stima
Stimatore
Media
α
β
a = Y − βˆ1 X
b = σ xy σ
2
x
a
b
α
Varianza
⎛
⎜
2 1
σ ⎜ +
⎜n
⎜
⎝
⎞
⎟
x
⎟
n
(xi − x)2 ⎟⎟
∑
⎠
i=1
2
σ u2
β
n
∑ (x − x )
i =1
2
i
Il teorema di Gauss- Markov fornisce una giustificazione teorica all’uso
degli OLS. Tuttavia, le sue condizioni potrebbero non valere in pratica. Se il
termine di errore è eteroschedastico, come spesso accade nelle
applicazioni economiche, allora lo stimatore OLS non è più BLUE.
49
Stima della varianza σ2
Per stimare la varianza di a e b dobbiamo sostituire la
varianza degli errori
, ignota, con una
σ 2 = V (u i )
sua stima
Lo stimatore corretto di σ2 è dato da
n
s2 =
∑
i= 1
ê i2
n − 2
Questo stimatore presenta una correzione per i gradi di
libertà, dato che a denominatore troviamo il numero delle
osservazioni meno il numero dei regressori.
s =
s2
è l’errore standard di regressione, già
introdotto, e misura la dispersione dei punti osservati
intorno alla retta di regressione.
50
La varianza stimata di a e b è quindi espressa da:
⎛
⎜
2 1
l
V (a) = s ⎜ +
⎜n
⎜
⎝
⎞
⎟
x2
⎟;
n
( x i − x )2 ⎟⎟
∑
⎠
i =1
l(b) =
V
s2
n
∑ (x
i =1
i
− x )2
La radice quadrata viene di solito chiamata standard
error (o errore standard) di a e b , indicato con
se(b0) e se(b1) e rappresenta una stima dello scarto
quadratico medio dello stimatore OLS e dunque uno
strumento per misurarne la precisione.
51
Distribuzione campionaria di a e b
Con un campione di N osservazioni, l’inferenza statistica
esatta è possibile solo formulando esplicitamente ipotesi sulla
forma della distribuzione dei termini di errore. L’ipotesi più
comune è che gli errori abbiano distribuzione normale
5)
(
ui ∼ NID 0, σ 2
)
i = 1,..., N
Che rappresenta un modo compatto per indicare che i termini
di errore sono estrazioni casuali da una distribuzione normale
(n.i.d.) di media nulla e varianza σ2.
Sotto questa ipotesi anche la yi (per un dato valore di xi)
segue una distribuzione normale. Talvolta l’ipotesi di
distribuzione normale può non essere appropriata. Va
comunque osservato che la maggior parte delle ipotesi (che
hanno una rilevanza diverse per la validità dei risultati che
seguono) può essere sottoposta a verifica empirica.
52
Distribuzione campionaria di a e b
Sotto le ipotesi 1-4 e 5 lo stimatore OLS, come funzione lineare dei
termine di errore, ha distribuzione di probabilità Normale:
⎛
⎞
⎜
⎟
2
σ
⎟
b ~ N ⎜ β; n
⎜
2 ⎟
−
(
x
x
)
∑
i
⎜
⎟
⎝ i =1
⎠
⎛
⎛
⎞⎞
⎜
⎜1
⎟⎟
2
x
⎟⎟
a ~ N ⎜α ;σ 2 ⎜ + n
⎜
⎜n
2 ⎟⎟
−
(
x
x
)
∑
i
⎜
⎜
⎟⎟
i
=
1
⎝
⎠⎠
⎝
b−β
σ2
n
∑ (x
i =1
i
~ N ( 0;1)
− x )2
a−α
⎛
⎜
2 1
σ ⎜ +
⎜n
⎜
⎝
⎞
⎟
x2
⎟
n
( x i − x )2 ⎟⎟
∑
⎠
i =1
~ N ( 0;1)
Y i ~ N (α + β x i ; σ 2 )
53
Distribuzione campionaria di a e b
Quando al posto di σ2 utilizziamo la stima corretta s2
b − β1
s2
n
2
(
)
x
−
x
∑ i
~ tn − 2
Errore
standard di b
i =1
a −α
⎛
⎜1
2
s ⎜ +
⎜n
⎜
⎝
⎞
⎟
x2
⎟
n
2 ⎟
x
−
x
(
)
∑
i
⎟
i =1
⎠
b−β
~ tn − 2
s ( b1 )
~ tn − 2
a −α
~ tn − 2
s (b )
Errore
standard di a
Distribuzione t di Student con n-2
gradi di libertà
54
Intervalli di confidenza dei
coefficienti di regressione
Al livello di confidenza 1-α
β
b ± tα 2;n −2 ⋅ s ( b )
α
a ± tα 2;n −2 ⋅ s ( a )
Un intervallo di confidenza al 95% per β contiene il vero valore del parametro
con probabilità 95%, ovvero contiene il vero valore del parametro nel 95% di
tutti i possibili campioni estratti casualmente
55
Stima per intervallo.
Esempio Dati consumo-reddito
êResidui
i = yi − ŷi
13,53
-20,66
-18,34
3,98
15,14
17,46
-7,89
-15,57
5,59
6,75
n
ê i2
183,04
427,01
336,42
15,85
229,28
305,01
62,26
242,36
31,29
45,62
1878,14
n
∑
i= 1
ê
s2 =
∑ ê
2
i
i=1
n−2
=
1878,14
= 234,77
8
Errore standard della regressione
s =
234 ,77 = 15,32
Errore standard di b1
s(b) =
234,77
= 0,078
39440
Errore standard di b0
2
i
⎛ 1
7162 ⎞
+
s(α ) = 234,77 ⎜
⎟ = 55, 45
⎝ 10 39440 ⎠
56
Stima per intervallo.
Esempio Dati consumo-reddito
Al livello di confidenza
β
1 − α = 0 ,95
t 0 , 025 ; 8 = ± 2 ,31
P(0,88 − 2,31 × 0,078 < β1 < 0,88 + 2,31 × 0,078) = 0,95
stima puntuale valore t
S(b1)
P ( 0, 7 1 < β < 1, 0 6 ) = 0, 9 5
α
P ( −233,85 − 2,31× 55,45 < α < −233,85 + 2,31× 55,45) = 0,95
P ( -361,73 < α < -105,26 ) = 0,95
57
Verifica di ipotesi sui coefficienti di
regressione
Possiamo essere interessati a verificare:
1)
H0 : β = β0
H1 : β ≠ β0
2)
H0 : β = β0
3)
H1 : β > β0
H0 : β = β0
H1 : β < β0
Gli stessi sistemi di ipotesi si possono specificare per
il parametro intercetta α
Statistica test t = b − β 0 ~ t n − 2
s
(b )
si respinge l’ipotesi nulla se per un certo livello di significatività
α si verifica, rispettivamente nelle tre tipologie precedenti, che:
1)
t > tn −2;α 2
2)
t > tn−2;α
3)
−t < −tn−2;α
58
Approccio del p-value
La conclusione di un test può dipendere dalla scelta del livello
di significatività α.
Un’ipotesi nulla rifiutata per α=0,10 potrebbe essere accettata
con α=0,01
L’approccio del p-value permette di sganciare l’esito del test
dalla scelta di α.
Il p-value è definito come la probabilità di osservare un valore
della statistica test uguale o più estremo di quello osservato
effettivamente sul campione, dato che H0 è vera.
Il p-value è chiamato anche “livello di significatività
osservato”
A differenza di α il p-value non è una quantità fissata a priori
Il p-value misura quanto i dati campionari supportano H0: più
piccolo è il p-value, minore è il supporto a favore di H0
(maggiore è l’evidenza contro H0)
Si rifiuta H0 se p-value < α
Si accetta H0 se p-value > α
59
Verifica di ipotesi sui coefficienti di
regressione
Un test frequentemente utilizzato è il seguente:
H0 : β = 0
H1 : β ≠ 0
Se accetto H0 vuol dire che
non c’è nella popolazione una
significativa relazione di
dipendenza lineare di Y da X.
In altre parole X non ha un
effetto “significativo” nello
spiegare le variazioni di Y.
H 0 :α = 0
H1 :α ≠ 0
Se accetto H0 vuol dire che la
relazione nella popolazione
può essere rappresentata
mediante una retta passante
per l’origine
Test di significatività
60
Statistica test
La statistica test si risolve nel rapporto tra il parametro
stimato e il rispettivo errore standard; se tale rapporto
supera il livello critico (individuato dalle tavole), si può
rifiutare H0 e quindi mantenere il parametro stimato
nel modello di regressione.
b
t =
s (b
H0:β=0
H1:β≠0
)
~ tα
2
;n − 2
Al livello di significatività α, accetto H0
se il valore della statistica test
calcolato sul campione cade nell’area
di accettazione dell’ipotesi nulla, cioè
se
− tα
2; n − 2
<
b
< tα
s (b )
2; n − 2
61
Nei software statistici (ma anche in Excel), la
presentazione dei risultati sul modello di regressione
include la stima dei parametri con i rispettivi errori
standard e il loro rapporto (che costituisce la
statistica test calcolata t per verificare che i
parametri siano nulli), assieme al p-value (valore di
significatività in excel) dato dalla probabilità di
osservare un valore della statistica test uguale o
maggiore del valore ottenuto mediante i dati
campionari sotto ipotesi nulla.
Con riferimento al p-value, il parametro stimato è
considerato significativo (cioè si rifiuta l’ipotesi H0 che
il valore del parametro sia pari zero) quando il
corrispondente p-value è inferiore ad un livello di
significatività α adeguato. Ad esempio se α è pari a
0,05,
il
parametro
stimato
si
riterrà
significativamente diverso da zero se il p-value
62
osservato è inferiore a 0,05.
Analisi della varianza nella
regressione
Il test di significatività di X ovvero H 0 : β = 0
può essere derivato anche dalla procedura di
analisi della varianza (ANOVA)
Ricordando la scomposizione della devianza
totale SQT=SQR+SQE, si può dimostrare
che, sotto H0,
n
2
SQR 1
=
SQE (n − 2)
∑ (ŷ
i=1
n
i
− y) 1
∑ ê (n − 2)
i=1
~ F(1;n − 2)
2
i
dove F(1,n-2) indica la distribuzione F di Fisher
con 1,n-2 gradi di libertà
63
Tavola ANOVA
Sorgente
Somma gdl
Media
F
di variazione
dei
dei quadrati
quadrati
Regressione
SQR
1
MQR=SQR/1
F=MQR/MQE
Errore
SQE
n-2 MQE=SQE/(n-2)
Totale
SQT
n-1
Valori campionari della statistica F vicini a 1 fanno
propendere per accettare H 0 : β = 0
Valori di F molto grandi fanno rifiutare H0 a favore di
H1 : β ≠ 0
64
Test F
Ad un livello di
significatività α, si accetta
H0 se F<Fα;1,n-2
In questo caso si conclude
che non c’è relazione
statisticamente
significativa.
Si rifiuta H0 se F>Fα;1,n-2,
concludendo che Y
dipende linearmente da X
Fα; 1,n-2
65
Confronto test t – test F
Per verificare H 0 : β = 0 contro H1 : β ≠ 0
valgono le uguaglianze (tα 2;n−2 )2 = Fα;1;n−2
(tosservato)2 = Fosservato
Quindi si può concludere che nel modello
di regressione lineare semplice il test t
(con l’ipotesi alternativa bidirezionale) e il
test F (ANOVA) sono del tutto equivalenti.
Nell’esempio dell’ipermercato
(t
) = 3,18 = 10,13 = F
(t
) = 4,57 = 20,89 = F
0 ,025 ;3
osservato
2
2
2
2
0 ,025 ;1;3
osservato
66
ESERCIZIO
In un ipermercato di Viterbo è stata svolta
un‘indagine per rilevare il prezzo del pane negli ultimi
cinque mesi (in euro al Kg) e le quantità consumate
in media in un giorno (in Kg)
prezzo quantità
1,65
210
1,67
198
1,68
176
1,69
175
1,7
174
Stimare la retta di regressione che mette
relazione la quantità in funzione del prezzo
in
67
Stima dei coefficienti di regressione - Output Excel
Intercetta
Variabile X 1
Coefficienti
1529
-800
La retta stimata è Y=1529-800X
Un aumento di 1€ del prezzo al Kg del pane fa diminuire la
quantità media di pane consumato giornalmente di 800 kg
Statistica della regressione
R al quadrato
0,87
Errore standard
6,73
La dipendenza
lineare è forte
(R2=0,87)
s=6,73
68
Rappresentazione punti osservati e retta di
regressione - Output Excel
250
y = -800x + 1529
2
R = 0.8744
200
150
1.64
1.68
1.72
69
Test t - Output Excel
Intercetta
Variabile X 1
Coefficienti Errore standard
1529
293,69
-800
175,02
Per verificare
Stat t
p-value
5,21
0,01
-4,57
0,02
H0 : β = 0
H1 : β ≠ 0
t =
b
−800
=
= − 4, 5 7
s (b )
1 7 5, 0 2
Al livello α=0,05
t 0 , 025 ;3 = ± 3 ,18
-4,57<-3,18
t3
-4,57 -3,18
3,18
Si rifiuta H0
C’è evidenza sufficiente per concludere che la quantità
consumata di pane dipende linearmente dal prezzo
70
Esempio Test F ANOVA - Output Excel
ANALISI VARIANZA
gdl
Regressione R
Errore E
Totale
Per verificare
SQ
1 947,20
3 136,00
4 1083,20
MQ
F
947,20 20,89
45,33
p-value
0,02
H0 : β1 = 0
H1 : β1 ≠ 0
F =
MQR
947 ,20
=
= 20 ,89
MQE
45,33
Al livello α=0,05
F0,05;1;3 = 10,13
20,89>10,13
Si rifiuta H0
C’è evidenza sufficiente per concludere che la quantità
consumata di pane dipende linearmente dal prezzo
71
Utilizzo del modello di
regressione per la previsione
Fare una previsione può significare due cose :
1) prevedere il valore atteso E(Yi|X=xi) della
variabile risposta in corrispondenza di un dato
valore di X, diciamo xi
[è un parametro, cioè la media di tutte le Y per le
unità per le quali X=xi, ad esempio il consumo medio
previsto per tutte quelle famiglie con un reddito pari a
40.000€]
2) prevedere il valore singolo della variabile risposta
in corrispondenza di un dato valore di x, diciamo xi
[è una singola determinazione di Yi, ad esempio il
consumo previsto per una particolare famiglia con un reddito
di 40.000€]
72
Previsione puntuale e intervallare
Nei due casi, la stima puntuale del valore previsto
coincide ed è pari a:
yˆ i = a + b x
i
La stima per intervallo, invece, è diversa nei due casi.
Il grado di incertezza associato alla previsione di una
media è minore del grado di incertezza associato alla
previsione di un singolo valore.
L’intervallo di confidenza per il valor medio è
meno ampio dell’intervallo di confidenza per la
previsione di un singolo valore
73
Inferenza per la risposta media
Abbiamo visto che lo stimatore di E(Yi|X=xi) è
yˆ i = a + b x
i
La stima del suo errore standard è data da:
( )=
s Ŷ i
( )=
V Ŷ i
⎡
⎢1
s2 ⎢ +
⎢n
⎣
Ŷi − E(Yi | X = x i )
~ t n−2
s Ŷi
(x i −
∑ (x h
n
h =1
x
)
2
− x
)2
⎤
⎥
⎥
⎥
⎦
( )
Gli estremi dell’intervallo di confidenza per il
valor medio E(Yi|X=xi) a un livello di confidenza
⎡
1-α sono dati da:
2
⎢1
xi − x)
(
2
Ŷ i ± t α 2 , n − 2 ⋅ s ⎢ + n
2
⎢n
∑ (x h − x )
⎣
h =1
⎤
⎥
⎥
⎥
⎦
74
Esempio: Riprendiamo l’esempio dell’ ipermercato
di Viterbo e costruiamo l’intervallo di confidenza al
95% per la quantità media quando il prezzo è pari a
1,66 (valore non osservato di X)
Ŷi = 1529 − 800 × 1,66 = 201
( )
s
s Ŷ i = 6 ,73
x
2
⎡1
(
1,66 − 1,68 ) ⎤
⎢ +
⎥ = 4 ,62
0,00148
⎣5
⎦
t 3 ,0 ,025 = ± 3,18
n
∑ (x h
− x)
2
h =1
Estremi dell’intervallo di confidenza
201 ± 3,18 × 4,62 =
186,31
215,69
75
Inferenza per la previsione di un
singolo valore
Ad un livello di confidenza 1-α gli estremi
dell’intervallo di confidenza per la previsione di un
singolo valore sono dati da:
Ŷi ± t α 2;n − 2 ⋅
⎡
⎢
1
2
s ⎢1 + +
n
⎢
⎣
⎤
(x i − x ) ⎥
⎥
n
2
(x h − x ) ⎥
∑
⎦
h =1
2
76
Esempio: Riprendiamo l’esempio dell’ipermercato di
Viterbo e costruiamo l’intervallo di previsione al 95%
per la quantità prevista per quella unità il cui prezzo
è pari a 1,66
Ŷi = 1529 − 800 × 1,66 = 201
2
⎡
1 (1,66 − 1,68 ) ⎤
s(previsione valore singolo ) = 6,73 ⎢1 + +
⎥ = 8,16
5
0,00148
⎣
⎦
t 0 , 025 , 3 = ± 3 ,18
Estremi dell’intervallo di previsione per il singolo valore
201 ± 3,18 × 8,16 =
175,05
226,95
77
Intervalli di confidenza al 95% per il
valore medio e per il valore singolo
250
240
230
220
210
200
190
180
170
160
150
1.62
per il valore singolo
per il valore medio
1.64
1.66
1.68
x
1.7
1.72
L’int. di confidenza
per il valore medio è
meno ampio dell’int.
per la previsione del
valore singolo.
Per entrambi
l’ampiezza aumenta
quanto più xi si
discosta dal valore
medio x = 1.68
78
LA REGRESSIONE CON UNA VARIABILE BINARIA
Una variabile binaria o dicotomica può assumere solo valore 1 in
caso di presenza del corrispondente attributo e valore 0 in caso di
assenza. E’ detta anche variabile dummy (o variabile
indicatore).
Esempio del testo Verbeek M.
Campione di salari individuali e variabili demografiche tratto dalla
US National Longitudinal Survey. Si tenta di approssimare i salari
con una combinazione lineare della costante e di una variabile 0-1
che indica se l’individuo è uomo (Di=1) o donna (Di=0).
Utilizzando gli OLS si ottiene:
y
ˆi = 5,15
y
ˆi = 5,15 + 1,17 Di
(Di = 0)
y
ˆi = 5,15 + 1,17
(Di = 1)
Il salario di una donna è uguale a 5,15 mentre quello di un uomo è
uguale a 5,15+1,17=6,31
I risultati coincidono con le medie campionarie nei due sottoinsiemi
79