Lineamenti di
econometria 2
Camilla Mastromarco
Università di Lecce
Master II Livello
"Analisi dei Mercati e Sviluppo
Locale"
(PIT 9.4)
Aspetti Statistici
della Regressione
Aspetti Statistici della Regressione
α̂ e β̂ sono solo stime di α e β
Domanda chiave: Quanto accurate sono
queste stime?
Tecniche statistiche ci permettono di
rispondere formalmente a questa domanda.
Quali Fattori Influenzano l’Accuratezza
delle Stime OLS?
Intuizione Grafica:
• Figure 5.1 (numero basso di
osservazioni)
• Figure 5.2 (numero alto di osservazioni
ma molto disperse)
• Figure 5.3 (basso numero di osservazioni
ma non molto disperse)
• Figure 5.4 (numero alto di osservazioni,
ma concentrate vicino ad un unico valore
della X)
Quali Fattori Influenzano l’Accuratezza
delle Stime OLS?
Supponiamo di interpolare una linea tra I
punti del grafico a dispersione (XY-plots)
mostrano nelle figure 5.1-5.4.
Intuitivamente la retta che interpola la
nuvola di punti della figura 5.3 dovrebbe
essere quella più accurata
Disporre di più osservazione + errori più
ridotti (perciò minore variabilità negli
errori ) + disporre di una più ampia
gamma di valori (ossia maggiore
variabilità) della variabile esplicativa =
migliore l’accuratezza della stima.
Nota: Le Figure 5.1, 5.2, 5.3 e 5.4 sono
costruite con 4 data set per X e Y,
artificialmente simulati da modelli di
regressione con α=0, β=1.
L’intervallo di Confidenza di β
• L’“intervallo di confidenza” riflette
l’incertezza che circonda
l’accuratezza della stima puntuale
• La formula analitica per l’intervallo
di confidenza di β (di solito al 95%) è:
[ βˆ − t s , βˆ + t s ]
b b
b b
• tb è il “valore critico” dalla
distribuzione “t di Student” --calcolato automaticamente in Excel (o
altri softwares econometrici es. Gretl)
• sb = errore standard (deviazione
standard) di β̂ , è una misura
dell’accuratezza di β̂
s
b
=
SSR
( N − 2 ) × ∑ ( X − X )2
i
L’intervallo di Confidenza di β̂
(cont.)
• tb aumenta al crescere del livello di
confidenza (perciò tb è più grande per un
intervallo di confidenza del 95% rispetto
ad uno di 90%).
• sb misura la variabilità o incertezza di
beta stimato.
• sb varia direttamente con SSR (ossia
tanto più sono variabili gli errori/residui
tanto meno accurata è la stima)
• sb varia inversamente con N, ( numero di
osservazioni)
• sb varia inversamente con ∑ (Xi − X )2 , che è
una componente chiave della deviazione
standard di X (varianza/variabilità di
X).
Nota: Excel (e softwares e econometrici)
calcola automaticamente l’intervallo di
confidenza e denomina gli estremi
dell’intervallo con il termine “95%
inferiore” e “ 95% superiore”
Intervallo di Confidenza:
Un’Interpretazione Intuitiva
• Utile (anche se formalmente sbagliata)
approssimazione sugli intervalli di
confidenza del 95%: “Esiste una
probabilità del 95% che il vero valore
del coefficiente β cada nell’intervallo di
confidenza al 95%”.
• Interpretazione corretta (anche se meno
intuitiva): “Se usate ripetutamente la
precedente formula per calcolare gli
intervalli di confidenza, il 95% degli
intervalli così costruiti conterrà il vero
valore del coefficiente β”.
• Analoghe affermazioni valgono per
intervalli di confidenza diversi (per
esempio al 90%, 99%).
Esempio: Intervalli di Confidenza per I
Data set nelle Figure 5.1-5.4
β̂
95% Confid.
Interval
99% Confid.
Interval
[-1.57,3.39]
[-3.64,5.47]
Figure 5.1
.91
90%
Confid.
Interval
[-.92,2.75]
Figure 5.2
1.04
[.75,1.32]
[.70,1.38]
[.59,1.49]
Figure 5.3
1.00
[.99,1.01]
[.99,1.02]
[.98,1.03]
Figure 5.4
1.52
[-1.33,4.36]
[-1.88,4.91]
[-2.98,6.02]
Data Set
Esempio: La Regressione della
Deforestazione sulla Densità della
Popolazione
Y = deforestazione
X = densità della popolazione
β̂
= .000842
95% Intervallo di confidenza:
[.00061,.001075]
Esempio: La Determinazione del Prezzo delle
Abitazioni
Risultati OLS :
Y = 34,136 + 6.59 X ,
• La stima OLS dell’effetto marginale di X su
Y è pari a 6.59.
• La nostra previsione migliore dice dunque
che “L’aumento dell’ampiezza del lotto di
un metro quadrato è associato a un
incremento di $6.59 nel prezzo della casa.”
• L’intervallo di confidenza al 95% per β è
[5.72,7.47].
• “Siamo fiduciosi al 95% che l’effetto della
dimensione del lotto sul prezzo
dell’abitazione sia almeno di $5.72 e al
massimo di $7.47.”
Verifica delle Ipotesi
• La verifica di β=0 (perciò se X non ha
alcun potere esplicativo sulla variabile
dipendente).
• Un modo per verificare questa ipotesi:
accertarsi che l’intervallo di confidenza
per β contenga il valore zero. Se non lo
contiene, siamo fiduciosi che β≠0.
• Un modo alternativo (ma equivalente) è
quello di calcolare una statistica test. Nel
caso della verifica β=0, la statistica test è
nota come “statistica t” ( o “t-ratio”).
t=
βˆ
s
b
• “Elevati” valori di t indicano che β ≠ 0.
• “Bassi” valori di t indicano che β = 0.
Verifica delle Ipotesi
(cont.)
Domanda: Il problema è su cosa si intende
per t “alto” e “basso”?
Risposta: Il P-value fornisce una misura
diretta per vedere se t è “elevato” o
“basso”.
• Se il P-value ≤ .05 allora t è “alto” e si può
concludere che β≠0.
• If P-value > .05 allora t è “basso” e si può
concludere che β=0.
• Utile (sebbene formalmente non corretta)
intuizione:
P-value fornisce una misura della
probabilità che β = 0.
• .05 = 5% = livello di significatività
• Altri livelli di significatività (per esempio
1% o 10%)
Esempio: La Regressione della
Deforestazione sulla Densità della
Popolazione
(cont.)
95% Intervallo di Confidenza:
[.00061,.001075]
L’intervallo di confidenza non include zero,
pertanto siamo fiduciosi al 95% che β ≠ 0.
Alternativamente:
t-ratio è 7.227937. E’ alto?
Si, il P-value è 5.5×10-10 pertanto molto
inferiore a .05.
Perciò, questo significa che β ≠ 0.
Terminologia
• “Il coefficiente della densità della
popolazione è significativamente diverso
da zero.”
• “La densità della popolazione ha un
potere esplicativo statisticamente
significativo sulla deforestazione.”
• “L’ipotesi che β = 0 può essere rifiutata
al 5% livello di significatività.”
La verifica delle Ipotesi Riguardanti R2: La
Statistica F
• Verificare l’ipotesi che R2=0 (perciò se X
non ha un potere esplicativo su Y)
• Nota: Nel caso della regressione semplice,
questo test R2=0 è equivalente al test per
β=0, ma nel caso della regressione
multipla i due test sono differenti.
• La statistica test F è simile alla statistica
test t (perciò bassi valori indicano R2=0).
( N − 2) R 2
F=
(1 − R 2 )
La verifica delle Ipotesi Riguardanti R2: La
Statistica F (cont.)
• Nel caso di test al 5% livello di
significatività:
• Se P-value è > .05 concludiamo che R2=0.
• Se P-value è ≤.05 concludiamo che R2≠0.
• Excel (Gretl, ecc-) indica il P-value per
questa statistica test come “Significatività
di F”
Esempio: La Regressione della Deforestazione
sulla Densità della Popolazione
(cont.)
• P-value = Significatività di F= 5.5×10-10.
• Poiché P-value < .05 possiamo
concludere che R2≠0.
• La densità della popolazione ha un
potere esplicativo statisticamente
significativo su Y.