cap 4, fondazione - Facoltà di Economia Marco Biagi

Scuola Internazionale di dottorato di ricerca
in Relazioni di lavoro
Corso di Statistica per il lavoro
Prima Parte – Pistoresi
Lezione 1: 3 marzo
Lezione 2: 9 marzo
Lezione 3: 10 marzo
4-1
Lezione 1
Introduzione alla retta di regressione
(STOCK-WATSON, Introduzione all’ econometria, II
ed., Pearson, Capitolo 4)
Molte decisioni economiche, sociali, aziendali …..
dipendono dalla comprensione delle relazioni tra
variabili del mondo che ci circonda.
Spesso le decisioni del governo, delle istituzioni locali
(regioni, comuni…), delle banche o delle aziende
richiedono risposte quantitative a domande quantitative.
4-2
Esempio 1 Mercato del credito
Una domanda che interessa governo e banche e’ il
seguente: vi e’ discriminazione razziale nel mercato dei
prestiti per le abitazioni?
Esempio 2 Mercato del lavoro
Un’ altra simile che riguarda governo, sindacati e
imprese: vi e’discriminazione di genere nella
determinazione del salario? Le donne guadagnano
meno?
4-3
Esempio 3 Mercati del lavoro
L’ agenda di Lisbona e il conseguente cambiamento nel
regime di protezione dell’ impiego, nella durata dei
sussidi di disoccupazione, nel cuneo fiscale, nelle
politiche attive e passive del lavoro, etc) ha determinato
sostanziali variazioni nella dinamica occupazionale nei
diversi paesi europei? In altri termini, di quanto
dinimuisce la disoccupazione (o aumenta l’ occupazione)
se diminuisce il cuneo fiscale? O si riduce il sussidio di
disoccupazione ……etc
4-4
Esempio 3 Un’altra questione di interesse pubblico
riguarda la sanita’ e le decisioni del governo: di quanto
riduce il consumo di sigarette l’ aumento delle imposte
sulle sigarette?
Esempio 4 Anche i giuristi usano l’ analisi quantitativa
per studiare ad esempio l’ effetto di certi provvedimenti
legislativi. Un esempio riguarda l’ effetto di introdurre un
inasprimento delle pene sul numero di reati (delitti,
rapine etc) ….anche i medici usano gli stessi strumenti
quantitativi per studiare l’ effetto sulla mortalita’ ad
esempio dell’ impiego di farmaci nuovi o variazione dei
dosaggi….
4-5
Il problema empirico che trattiamo come esempio per
introdurre il piu’ semplice strumento di analisi
quantitativa, ovvero la retta di regressione, e’ il seguente:
che influenza ha l’ eta’ del lavoratore sulla retribuzione
media di un lavoratore?
( Nel manuale trovate altro esempio: la valutazione del
rendimento scolastico come funzione ad esempio della
dimensione delle classi. Esempio di valutazione dell’
operato di un dirigente scolastico basata su analisi
quantitativa…)
4-6
Nota bene solo per semplicita’ consideriamo il caso
bivariato in cui la retribuzione, variabile da
spiegare/analizzare, dipende da una sola variabile
esplicativa, l’ eta’ del lavoratore.
In realta’ stiamo consapevolmente omettendo
determinanti del salario molto importanti quali: l’
anzianita’ di servizio, il possesso della laurea o gli anni di
studio, il valore di mercato dell’ azienda, la produttivita’
del lavoro, le condizioni macroeconomiche, etc).
Il caso generale e’ multivariato.
4-7
Il senso comune (o la teoria da testare) suggerisce che la
relazione tra salario ed eta’ e’ positiva (segno atteso): i
lavoratori piu’ anziani avendo una maggiore esperienza
lavorativa hanno in genere una maggiore produttivita’ e
quindi una retribuzione piu’ elevata. Con l’ analisi di
regressione possiamo quantificarne esattamente questo
effetto
 La domanda quantitativa deve essere precisa: qual e’
l’ effetto sul salario (annuale, settimanale, giornaliera,
oraria…) misurato in euro/$ (decine, migliaia) di un
aumento (o riduzione) dell’ eta’ di 1 anno (mese,
giorno…)?
4-8
 E se aumentasse di 2 anni l’ eta’ come varia il
salario?
Cruciale: conoscere sempre la frequenza di rilevazione
dei dati e l’ unita’ di misura!!!
Useremo la regressione lineare per dare una risposta
quantitativa
Dati (esercizio 4.3 pag, 121)
4-9
I dati riguardano la retribuzione media settimanale AWE,
misurata in $, di n lavoratori a tempo pieno di una
impresa, laureati, di eta’ compresa tra i 25 e i 65 anni e l’
eta’ AGE misurata in anni.
La variabile da spiegare (endogena o variabile
dipendente) e’ la retribuzione del lavoratore, la variabile
esplicativa (esogena o variabile indipendente o
regressore) e’ l’ eta’.
Se la regressione riguarda un anno in particolare ad
esempio il 2009, l’ unica variazione dei dati e’ cross
4-10
sezionale, solo n ( numero di lavoratori) varia: dati cross
section.
Se n = 100 lavoratori
AWE ed AGE sono vettori di n osservazioni, i 100 lavoratori
Il database poteva avere come oggetto i lavoratori di diverse
imprese in un particolate anno di rilevazione. Rimaneva in
ogni caso un data base di tipo cross- section ( o cross
sezionale).
Se invece si fossero osservate le variabili su un orizzonte
temporale di vari anni…avrei avuto un panel (o dati
longitudinali), sia n che t variano.
4-11
Ad esempio se avessi studiato le retribuzioni degli n
lavoratori di una impresa dal 2000 al 2009 avrei un panel con
variabili (vettori) di dimensione: (n  t). Dove ad esempio
n = 100 e t = 9.
AWE ed AGE sono vettori di 900 osservazioni
Se avessi invece studiato la retribuzione media rispetto
all’ eta’ media in una impresa o in un comparto
aggregato su un orizzonte temporale (es. 2000-2009)
avrei dati time series e quindi regressione time series.
AWE ed AGE sono vettori di solo 9 osservazioni
4-12
Problema empirico: qual e’ l’ effetto sul salario di un
aumento di 1 anno di eta’? Riscriviamo la domande
come:
AWE
AGE
che rappresenta l’ inclinazione della retta che lega AWE
a AGE
Rappresentazione teorica della retta
AWE = 0 + 1AGE
4-13
La stima usando dati aziendali
AWE = 696.7 + 9.6 AGE
Usando i dati aziendali su salari e eta’ dei lavoratori
abbiamo stimato i parametri incogniti 0 e 1 che
definiscono la retta ovvero la relazione tra le variabili
AGE e’ pero’ solo uno dei possibili fattori che
influenzano i test. Meglio quindi pensare che la relazione
sia la seguente
4-14
AWE = 0 + 1AGE+ altri fattori
In generale,
Y= 0 + 1X+ u
La variabile/vettore u rappresenta l’ errore che
commetto ad approssimare (le variazioni) della Y usando
solo (le variazioni di) X, cattura il problema delle
variabili omesse, cioe’ gli altri fattori
Y: variabile dipendente,
X :variabile esplicativa o indipendente o regressore,
4-15
0 e 1: intercetta (o costante) e pendenza della retta.
Ad esempio nel manuale viene riportato lo scatter plot
per la regressione del rendimento scolastico (Y) rispetto
alla dimensione delle classi in termini di studenti per
insegnante (X). Si vede chiaramente che la relazione e’
negativa. Si evidenziano gli errori u.
4-16
Tutto cio’ ha una rappresentazione grafica:
4-17
La nuvola a punti (scatter plot- diagramma di
dispersione) suggerisce la retta e la sua inclinazione, ma
evidenzia anche gli errori u1 , u2 ,....., un che commetto a
usare solo X per studiare Y e questi errori sono le
distanze geometriche dei punti (X,Y) dalla retta di
regressione
Come sarebbe lo scatter nel ns caso? Sappiamo il segno
atteso che e’ +
AWE = 0 + 1AGE+ u
4-18
NB: il vettore degli errori U  u1 , u2 ,....., un ha la stessa
dimensione dei vettori delle variabili: Y e X, ovvero
(n  1).
Una buona rappresentazione del fenomeno vorrebbe
questi u piccoli.
Infinite rette passono per la nuvola di punti e
suggeriscono relazioni diverse tra Y e X (differenti
inclinazioni) e definiscono differenti u.
4-19
Mi serve un criterio di scelta di una retta tra le infinite
possibili che renda piccoli gli errori u (ovvero le
distanze dalla retta).
Scegliere una retta tra le infinite possibile significa
calcolare (stimare) 0 e 1 cioe’ intercetta e pendenza
della retta (coefficienti della retta) usando un criterio,
cioe’ un metodo
Criterio (MQO – OLS): minimi quadrati ordinari o
ordinary least squared che consente di ricavare 0 and
1, vedremo che minimizzera’ le distanze tra i dati
4-20
osservati sulla Y e la X e la retta di regressione ovvero
minimizzera’ gli errori u.
Nota bene la differenza tra parametri della popolazione e
stime dei parametri usando i dati campionari.
Conoscere la relazione relativa alla popolazione
equivale a conoscere la relazione “vera” tra le due
variabili, se esaurissi tutta l’informazione possibile.
Noi invece abbiamo solo un campione di dati (es. di
alcuni distretti scolastici nel caso appena visto del
rendimento e della dimensione delle classi oppure i dati
4-21
di una azienda su retribuzioni e eta’ lavoratori), quindi
solo parte dell’ informazione sul fenomeno.
Retta di regressione della popolazione, modello
teorico, relazione “vera”:
Y= 0 + 1X
NB: essendo teoricamente una relazione esatta che lega
Y e X nella popolazione, non commetto errori, infatti non
compaiono nel modello sopra
4-22
Per il ns esempio la regressione teorica o della
popolazione
AWE = 0 + 1AGE
0: intercetta
1 = inclinazione della retta di regressione della
popolazione
AWE
1 =
AGE
4-23
1 = variazione nel salario settimanale AWE al
variare di una unita’ in AGE (un anno)
Ma purtroppo questi coefficienti della retta (parametri)
della popolazione sono non noti, dobbiamo stimarli
usando un campione di dati
Il modello da stimare quindi e’ Y= 0 + 1X+ u dove
compaiono gli errori, la relazione non e’ esatta, sto
usando il campione di dati!!
4-24
Quindi il ns criterio MQO minimizzera’ gli u della mia
regressione campionaria e facendo questo stimeremo i
parametri incogniti
n
MQO o OLS:
2
ˆ
ˆ
min  [Yi (  0  1 X i )]
i 1
con i dati reali sulla Yi e X (campione), ˆ0 , ˆ1 sono i
parametri stimati, ovvero le stime dei 0 e 1
Dove il valore predetto-stimato della retta e’
Yˆi  ˆ0  ˆ1 X i
dove i = 1….n
4-25
Gli errori quindi sono le distanze tra retta ovvero valori
predetti e valori effettivi: Yi  Yˆi  uˆi
 OLS minimizza la somma degli errori quadratici,
min  (uˆ ) cioe’ Yi  Yˆi  uˆi in altre parole la differenza
2
tra valore effettivo Y (i dati reali su Y) e il valore
predetto- stimato Yˆi basato sulla retta di regressione
Gli errori u una volta stimati in genere si chiamano
residui, per questo li ho rinominati come ûi .
4-26
Questa minimizzazione consente di ricavare due
equazioni dette equazioni normali che forniscono una
formula per ˆ0 , ˆ1 . Vedi (App. 4.2).
Le soluzioni del sistema di queste due equazioni normali
sono la formula per l’ intercetta e la pendenza della retta
che utilizzeranno i dati sulla Y e X (eq.4.8 e 4.9 sotto)
4-27
4-28
Usando i dati reali sulla X cioe’ l’ eta’ e sulla Y cioe’ il
salario e applicando le formule dalla relazione teorica
ottengo la stima
AWE = 0 + 1AGE
AWE = 696.7 + 9.6 AGE
Inclinazione stimata = ˆ1 = 9.6
Intercetta stimata= ˆ0 = 696.7
Segno atteso + = confermato!
4-29
All’ aumentare dell’ eta’ aumenta il salario
Interpretazione: all’ aumentare di 1 unita’ nel rapporto
AWE/AGE (ovvero quando il salario e’ quello di un
lavoratore con un anno in piu’ di eta’ rispetto alla media)
si ha un salario settimanale di 9.6$ piu’ elevato (segno +)
All’ aumentare di 1 anno di eta’ del lavoratore (X) si ha
un aumento medio del salario settimale di 9.6$.
L’ intercetta suggerirebbe che lavoratori con anni zero
(assurdo) hanno un valore stimato del salario di 696.7. In
questo caso il significato economico dell’ intercetta non
4-30
esiste se fosse l’ anzianita’ si servizio potremmo dire ad
anzianita’ zero il salario di ingresso e’ pari a ……valore
intercetta.
Altro esempio in cui l’ intercetta ha un significato
economico? Funzione del consumo, intercetta e’ la spesa
autonoma!!!
Previsioni e residui:
Posso calcolare per ciascuna classe di eta’ dei lavoratori
ad esempio il salario predetto
4-31
Il valore predetto-stimato dalla regressione per questa
specifica osservazione della X e’ :
Yˆ = 696.7 +9.6 AGE = ….
Ad esempio X = 30 anni, classe d’ eta’
Yˆ = 696.7 + 9.6  30 = 696.7 + 288 = 984.7 salario
atteso
L’ errore commesso usando questo valore predettostimato rispetto al valore effettivo del salario, il residuo
stimato:
4-32
L’ errore stimato per X = 30
û = Y - Yˆ = Y – 984.7 = ….?
û puo’ essere + o negative a seconda che Y > o < di Yˆ
In sintesi, dopo la stima posso dire
1) Lavoratori con 1 anno di eta’ in piu’ hanno hanno
salario maggiori di 9.6 $ a settimana
2) Lavoratori con 2 anni di eta’ in piu’ hanno hanno
salario maggiore di 9.6$ * 2
4-33
3) per una certa classe di eta’ – es. 30 anni possiamo
stimare (predire) un salario di Yˆ = 696.7 +9.6  30 =
696.7 + 288 = 984.7
Misure di bonta’ di adattamento ai dati
(Sezione 4.3, II edizione SW)
Una domanda naturale dopo aver stimato una regressione
e’ quanto bene la retta descriva i dati.
Nelle lezioni passate abbiamo sottolineato che la
regressione non fornisce una stima esatta del fenomeno
analizzato in quanto molte osservazioni della nuvola di
4-34
punti che descrive i dati (X,Y) rimangono sotto o sopra
la retta definendo degli errori (residui):
- errori positivi, quando la retta sta sotto (X,Y), e
sottostimiamo il fenomeno;
- errori negativi, quando la retta sta sopra i dati
(X,Y), e sovrastimiano del fenomeno.
Abbiamo anche detto che la retta scelta MQO e’ quella
ottimale perche’ minimizza questi errori.
Se volessi una indicatore sintetico della bonta’ di
adattamento’, che mi dica quanto le osservazioni si
4-35
concentrano intorno alla retta? Quanto il regressore X
cattura-spiega della Y?
Per la bonta’ di adattamento ai dati ho due indici:
 L’ R2 che misura la frazione della varianza della Y
(anche detta varianza totale della regressione),
spiegata dalla X;
 IL SER standard error of the regression ovvero l’
errore standard della regressione che mi suggerisce
la dispersione delle osservazioni intorno alla retta,
4-36
ovvero i residui (errori) misurata nelle unita’ di
misura della variabile dipendente Y
The R2
La regressione stimata per la banca dati (Yi, Xi) posso
scriverla in due modi
Yi  ˆ0  ˆ1 X i  uˆ
o equivalentemente
Yi = Yˆi + uˆi
Yˆi : valore stimato-predetto della Y usando il regressore X
In termini di varianze posso scriverla:
4-37
var(Yi) = var (Yˆi ) + var ( uˆi )
var(totale) = var (spiegata dalla retta) + var (non
spiegata)
L’ R2 e’ a frazione della varianza di Yi (varianza totale),
spiegata dalla regressione o in altri termini da X, varianza
di Yˆi
2
R =
varianza spiegata
var(Yˆi )

var ianza totale
var(Yi )
ESS
=
TSS
4-38
Varianza spiegata: ESS = var(Yˆi ) =
n
2
ˆ
ˆ
(
Y

Y
)
 i
i 1
n
Varianza totale: TSS = var(Yi) =
2
.
(
Y

Y
)
 i
i 1
Nota bene: 0 ≤ R2 ≤ 1
Limiti teorici:
 R2 = 0 significa che ESS = 0, la varianza spiegata e’
nulla, quindi X non spiega per nulla la Y
 R2 = 1 la varianza spiegata coincide con la varianza
totale ESS = TSS, cioe’ la X spiega esattamente la Y.
Gli errori sono quindi nulli e Y = Yˆ
4-39
L’ R2 puo’ essere visto da una diversa angolazione.
Ricordiamo che abbiamo scritto:
var(Yi) = var (Yˆi ) + var ( uˆi )
var(totale) = var (spiegata) + var (non spiegata)
R2 puo’ essere scritto quindi usando la varianza non
spiegata invece della varianza spiegata come fatto prima.
La varianza non spiegata della Y e’ ovviamente quella
degli errori!!!
4-40
La somma dei quadrati dei residui (errori) e’
n
SSR =
2
R =1-
2
ˆ
u
 i
1
varianza non spiegata
varianza NON spiegata
SSR
1
varianza totale
TSS
NOTA BENE Per regressioni con 1 solo regressore,
variabile esplicativa, cioe’ una sola X, l’ R2 e’ il quadrato
del coefficiente di correlazione tra X and Y
Ripassate il concetto di correlazione tra 2 variabili visto
in statistica, correlazione varia (-1 e 1) e quindi
4-41
prendendone il quadrato come l’ R2 tra 0 ed 1
correlazione mi dice quanto comuovono le 2 variabili!!!
L’ errore standard della regressione (SER)
Mi suggerisce la dispersione delle osservazioni intorno
alla retta quindi ha a che fare con gli u, con la varianza
degli errori (misura della loro importanza): SSR anche
usata per R2
SSR
1
2
ˆ
u

i = radice quadra di n  2
n  2 i 1
n
SER =
4-42
Il SER: Misura la dispersione degli u intorno alla retta,
misurata nelle unita’di misura della Y. Se la Y e’ per
esempio in dollari il SER misura la dimensione dell’
errore tipico della regressione in dollari
Gretl o qualunque software calcola automaticamente sia i
parametri della regressione che R2 e SER.
4-43
Obiettivo:
● Stimare con Gretl una regressione cross section,
analizzo i dati, lo scatter plot, stimo la regressione,
visualizzo i residui,commentare SER ed R quadro
Esercizio E4.1 su SW. Pag. 123.
Dati: retribuzione oraria media (AHE) in $ ed eta’ (AGE)
numero di anni di lavoratori occupati a tempo pieno tra i
25 e i 34 anni con diploma di scuola superiore o laurea.
Cross section. Non ho evoluzione nel tempo dei dati.
4-44
Effettuo una regressione lineare semplice tra AHE ed
AGE:
OUTPUT di GRETL
Modello 1: OLS, usando le osservazioni 1-7986 (QUESTO E’ IL NUMERO DI LAVORATORI)
Variabile dipendente: ahe (y)
coefficiente errore std. rapporto t p-value
-------------------------------------------------------------const
3.32418
1.00223
3.317 0.0009 ***
age = X
0.451931 0.0335255 13.48
5.73e-041 ***
Media var. dipendente 16.77115 SQM var. dipendente 8.758696
Somma quadr. residui 598935.5 E.S. della regressione 8.661234 (SER)
R-quadro
0.022254 R-quadro corretto
0.022131
F(1, 7984)
181.7164 P-value(F)
5.73e-41
Log-verosimiglianza -28571.28 Criterio di Akaike
57146.55
Criterio di Schwarz 57160.52 Hannan-Quinn
57151.33
Note: SQM = scarto quadratico medio; E.S. = errore standard
4-45
Stima : AHE= 3.32 +0.45AGE
R2 = .022, SER = 8.66
1. Si usi la regressione stimata per rispondere alla
domanda: di quanto cresce la retribuzione rispetto
all’ eta’?
Se aumenta di 1 anno l’ eta’ la retribuzione oraria
aumenta di 0.45$
4-46
2. se Bob e’ un lavoratore di 26 anni si predica la sua
retribuzione. X = 26
AHE= 3.32 +0.45 * 26 = ......retribuzione stimata
3. l’ eta’ spiega una frazione elevata della varianza
delle retribuzioni? NO, solo lo 0.2% della varianza
e’ spiegata!!
Dove ho preso i dati?
Per questo esercizio serve, andare al sito del manuale:
4-47
www.aw-bc.com/stock_watson , in Student Resources,
poi cliccare su Data for Empirical Exercises, e trovate il
file CPS04.
I dati: sono 4 colonne di cross section. A noi interessano
per l’ esercizio l’ eta’ Age e la retribuzione oraria media
AHE. Teniamo tutte e 4 le colonne per il futuro ci
serviranno.
Bisogna come prima:
1) copiate i dati in un file Excell
2) caricateli in Gretl, facendo Apri, Importa, file Excell…
E dire a Gretl che i dati sono cross section….
4-48
4-49
Per toccare con mano come utilizzando le formule dell’
intercetta e della pendenza della retta e i dati reali su Y e
X possiamo calcolare la retta di regressione esattamente
come farebbe Gretl…..risolvete il seguente esercizio
Esercizio: calcolate la relazione tra gli anni di scuola dei
figli (Y) e il reddito familiare (X) stimando la retta di
regressione usando le formule date prima e i seguenti dati
Y = (4, 3, 3.5, 2, 3, 3.5, 2.5, 2.5)
X = (21, 15, 15, 9, 12, 18, 6, 12)
4-50
Nota bene: dovete calcolare le medie campionarie di X e
Y cioe’ Y , X . Le medie campionarie per i ns dati sono:
Y = 24/8 = 3
X = 108/8 =13.5
Mi servono anche le seguenti quantita’ (Y  Y ), ( X  X ) ,
il loro prodotto
(Y  Y )( X  X ) e ( X  X ) 2 .
Note queste quantita’ devo calcolare solo delle somme. Il
simbolo della sommatoria e’ il seguente  . Calcolate
queste somme si ricavano i parametri della regressione.
4-51
Nota bene le osservazioni campionarie sono N = 8.
Mi e’ utile costruire una tabella con le quantita’ da
calcolare:
4-52
Y
X
Y Y
4
3
3.5
2
3
3.5
2.5
2.5
21
15
15
9
12
18
6
12
4-3= 1
X  X (Y  Y ) ( X  X ) ( X  X ) 2
21-13.5=7.5
7.5
56.25
 0
  19.50
  162
3-3=0
3.5-3= 0.5
-1
0
0.5
-0.5
-0.5
 y  24  x  108   0
4-53
ˆ1
= 19.50/ 162= 0.12 inclinazione della retta
ˆ0 = 3 – 0.12(13.5) = 1.38 intercetta o costante
ˆ  1.38  0.12 X
Y
Retta regressione :
Applico le formule appena viste per il SER e R quadro ai
dati dell’ esempio reddito familiare e anni di studio dei
figli.
Le formule e le soluzioni sono le seguenti.
4-54
ESS
2
R =
=
TSS
n
n
2
ˆ
ˆ
/
(
Y

Y
)
(
Y

Y
)
 i
 i
2
i 1
i 1
R2 = 2.33/3 = 0.77, ovvero il 77% della varianza e’
spiegata dal modello
u2
0.65

SER =
= 0.33 errore medio
n2
6
Vediamo i calcoli in dettaglio
Esempio anni studi e reddito, continua
4-55
2
ˆ
u
Y Y  u
Yˆ  Yˆ
Yˆ  Yˆ 
Y  Y 
1.38+0.12*(21)
4 -3.90 = 0.01
3.90
3.18
0.001
3.9-3=0.9
0.81
4-3= 1
3 -3.18= -0.18
0.032
3.18-3= 0.18
0.032
0.032
0.29
0.032
0.29
0.81
0.032
Yˆ  1.38  0.12 X
2
=
3.18-3= 0.18
3.18
2.46
2.82
3.54
2.1
2.82
2.46-3= -0.54
-0.18
0.54
-0.9
-0.18
 0
  0.65
  2.33
 3
4-56
Posso verificare tutti questi valori stimandoli con Gretl o altro
software. In Gretl carico i dati Esercizio 1 e stimo il modello
Modello 1: OLS, usando le osservazioni 1-8
Variabile dipendente: anniscuola
coefficiente errore std. rapporto t p-value
-------------------------------------------------------------const
1.37500
0.368776
3.729 0.0098 ***
redditofam 0.120370 0.0259149 4.645 0.0035 ***
Media var. dipendente 3.000000 SQM var. dipendente 0.654654
Somma quadr. residui 0.652778 E.S. della regressione 0.329843, SER
R-quadro
0.782407 R-quadro corretto
0.746142
F(1, 6)
21.57447 P-value(F)
0.003523
Log-verosimiglianza -1.327668 Criterio di Akaike
6.655336
Criterio di Schwarz 6.814219 Hannan-Quinn
5.583734
Note: SQM = scarto quadratico medio; E.S. = errore standard
Parametri, R quadro e SER sono uguali a quelli
calcolati a mano!!
4-57
NB: posso
salvare i residui e visualizzarli per
controllare che siano gli stessi che ho calcolato.
u = residuo della regressione
1
2
3
4
5
6
7
8
0.09722
-0.1805556
0.3194444
-0.4583333
0.1805556
-0.04167
0.4027778
-0.3194444
Sono come quelli calcolati!
Idem per gli altri calcoli.
4-58
Torniamo al commento della stima
SER: E.S. della regressione = 0.329 = 0.33 stessa unita’ di misura di Y
(0.3 anni di scuola, meno di 1 anno)
R-quadro = 0.78, il 78% della varianza della scolarita’ (Y) e’ spiegata
dal reddito familiare (X)
Commento del parametro 1 stimato che lega X a Y e che
misura l’ effetto LINEARE di una variazione di X su Y
(MODELLO REGRESSIONE LINEARE)
Ad una variazione unitaria della X, cioe’ ΔX = 1, ci
aspettiamo una variazione della Y pari a 0.12, cioe’ ΔY =
0.12.
4-59
Ad esempio, se il reddito variasse di 1000 euro (unita’ di
misura dei dati della X sono migliaia di euro), gli anni si
scuola variano di 0.12 (meno di 1 anno).
NB: i redditi nella tabella sono stati divisi per 1000. 12 equivale ad
un reddito di 12 000 euro
Se il reddito aumentasse di 10 000 euro all’ anno avrei
ΔY = 1.2 e quindi avrei un aumento di piu’ di 1 anno di
scuola.
4-60
RICORDA IL MODELLO E’ LINEARE, vedremo che l’
interpretazione dell’ effetto della X sulla Y non sara’ sempre
lineare, ad esempio se le variabili sono in logs, in quel caso
ad esempio la variazione della X e della Y sara’ %!!!
Vediamo meglio il ruolo dei residui-errori: consideriamo
sempre il caso di 12 000 euro di reddito corrispondente a 12
nella tabella.
In quel caso il valore predetto della Y e’ Yˆ = 2.82. Nella
tabella in corrispondenza di un reddito di 12 (X), la Y
effettiva assume due valori 3 anni e 2.5 anni di scuola.
4-61
Notate quindi il valore predetto – stimato e’ intermedio tra i
due valori effettivi!
In un caso si sottostima il fenomeno, quando Y > Yˆ , ovvero
3(valore effettivo) > 2.82 (stima)
in un caso si sovrastima , Y < Yˆ , quando 2.5 < 2.82!!
Avremo quindi errori positivi se si sottostima e negativi nel
caso opposto!!Vedete nella tabella gli errori calcolati!!!
______________________
4-62
APPROFONDIMENTI
Le assunzioni dei MQO
(sezione 4.4 pag 111)
1. L’ errore ha media condizionale nulla data X,
E(u|X = x) = 0. Gli “altri fattori” che sono rappresentati
da u non sono legati a X.
Esempio: nella fig. 4.4 che rappresenta la retta di
regressione tra test e dimensione classi, per una certa
classe ho altri fattori-variabili che possono aiutare a
4-63
predire il rendimento e che non ho incluso dando origine
a u > 0 oppure u < 0. Le previsione-stima talvolta e’
sottostimata e talvolta sovrastimata ma in MEDIA
corretta, cioe’ la media degli u =0.
2. (Xi,Yi), i =1,…,n, sono estratti indipendentemente e
identicamente distribuiti. Questo ha a che fare con il
campionamento. Se le osservazioni sono estratte in
modo casuale (hanno la stessa probabilita’ di essere
estratte) da un' unica popolazione allora vale che sono
i.i.d.
4-64
NB: un campionamento non i.i.d e’ quando abbiamo
serie storiche. Le osservazioni vicine nel tempo non sono
i.i.d ma tendono ad essere correlate. Es. se oggi i tassi di
interesse sono bassi, domani e’ probabile che lo siamo
ancora. Le regressioni con serie temporali quindi
vedremo violando l’assunzione di indipendenza avranno
dei problemi
3. gli outlier sono improbabili, ovvero le osservazioni
con valori di X e Y molto lontani dalla regione dove si
concentra la massa dei dati;
4-65
Una fonte di outlier possono essere errori nei dati, o l’uso
scorretto di unita’ di misura per diverse osservazioni (ad
es. si usano dati in milioni di euro e si inserisce un data in
migliaia). Si veda la figura 4.5 in cui la retta di
regressione stimata deve tenere conto dell’ outlier in alto
e quindi e’ meno inclinata…..e’ distorta verso l’ alto
dalla presenza dell’ outlier
Le 3 assunzioni implicano che in grandi campioni gli
stimatori OLS (es. dei parametri) hanno distribuzioni
normali e questo consentira’ di fare test e costruire
intervalli di confidenza (ad es. per valutare la
significativita’ dei parametri).
4-66
Distribuzione campionaria dei
parametri/coefficienti della regressione
OLS (MQO)
(Sezione 4.5 SW II ed., pag. 116)
Poiche’ le stime OLS dei parametri ˆ0 , ˆ1 della
regressione sono ottenute da un campione di dati non
dalla popolazione, campione estratto casualmente. ˆ0 , ˆ1
hanno una certa distribuzione campionaria.
4-67
La loro distribuzione campionaria vi dice i diversi valori
che i parametri assumono nei diversi campioni possibili.
In piccoli campioni hanno distribuzioni complesse ma al
crescere del campione hanno una distribuzione normale
con una media e varianza.
N piccolo: le distribuzioni di ˆ0 , ˆ1 hanno medie  0 , 1
Date le 3 assunzioni degli OLS date precedentemente,
ˆ0 , ˆ1 sono stimatori/stime non distorte, cioe’ corrette di
 0 , 1 (parametri veri della popolazione).
Dimostrazione appendice 4.3, facoltativa.
4-68
Se N grande (n>100, ci possiamo anche accontentare di
n>30) le distribuzioni di ˆ0 , ˆ1 sono approssimate dalle
distribuzioni normali:
2
ˆ
 0  N (  0 ;  0 )
2
ˆ
1  N ( 1; 1 )
Le stime sono centrate sulla media ovvero il parametro
vero  0 , 1 e hanno una certa dispersione da tale
parametro rappresentata dalle varianze 
2
0
,
2
1 che mi
4-69
misurano l’ incertezza o come vedremo ci suggerisce la
precisione con cui ho stimato i parametri.
Al crescere di N le varianze sono piu’ piccole, la
precisione della stima e’ maggiore, le distribuzioni di
ˆ0 , ˆ1 sono concentrate intorno alle loro medie cioe’
 0 , 1
Avere quindi campioni grandi e’ auspicabile!!!!
Passiamo al CAP 5 dove affonderemo il test di ipotesi
dove andremo a valutare le stime dei coefficienti
4-70
(stime puntuali) usando il fatto che hanno una
distribuzione di probabilita’ in particolare che
abbiamo una misura di precisione delle stime con cui
stabilire ad esempio se sono statisticamente
significative (diverse da zero) etc.
4-71
4-72