Lineamenti di econometria 2 Camilla Mastromarco Università di Lecce Master II Livello "Analisi dei Mercati e Sviluppo Locale" (PIT 9.4) Aspetti Statistici della Regressione Aspetti Statistici della Regressione α̂ e β̂ sono solo stime di α e β Domanda chiave: Quanto accurate sono queste stime? Tecniche statistiche ci permettono di rispondere formalmente a questa domanda. Quali Fattori Influenzano l’Accuratezza delle Stime OLS? Intuizione Grafica: • Figure 5.1 (numero basso di osservazioni) • Figure 5.2 (numero alto di osservazioni ma molto disperse) • Figure 5.3 (basso numero di osservazioni ma non molto disperse) • Figure 5.4 (numero alto di osservazioni, ma concentrate vicino ad un unico valore della X) Quali Fattori Influenzano l’Accuratezza delle Stime OLS? Supponiamo di interpolare una linea tra I punti del grafico a dispersione (XY-plots) mostrano nelle figure 5.1-5.4. Intuitivamente la retta che interpola la nuvola di punti della figura 5.3 dovrebbe essere quella più accurata Disporre di più osservazione + errori più ridotti (perciò minore variabilità negli errori ) + disporre di una più ampia gamma di valori (ossia maggiore variabilità) della variabile esplicativa = migliore l’accuratezza della stima. Nota: Le Figure 5.1, 5.2, 5.3 e 5.4 sono costruite con 4 data set per X e Y, artificialmente simulati da modelli di regressione con α=0, β=1. L’intervallo di Confidenza di β • L’“intervallo di confidenza” riflette l’incertezza che circonda l’accuratezza della stima puntuale • La formula analitica per l’intervallo di confidenza di β (di solito al 95%) è: [ βˆ − t s , βˆ + t s ] b b b b • tb è il “valore critico” dalla distribuzione “t di Student” --calcolato automaticamente in Excel (o altri softwares econometrici es. Gretl) • sb = errore standard (deviazione standard) di β̂ , è una misura dell’accuratezza di β̂ s b = SSR ( N − 2 ) × ∑ ( X − X )2 i L’intervallo di Confidenza di β̂ (cont.) • tb aumenta al crescere del livello di confidenza (perciò tb è più grande per un intervallo di confidenza del 95% rispetto ad uno di 90%). • sb misura la variabilità o incertezza di beta stimato. • sb varia direttamente con SSR (ossia tanto più sono variabili gli errori/residui tanto meno accurata è la stima) • sb varia inversamente con N, ( numero di osservazioni) • sb varia inversamente con ∑ (Xi − X )2 , che è una componente chiave della deviazione standard di X (varianza/variabilità di X). Nota: Excel (e softwares e econometrici) calcola automaticamente l’intervallo di confidenza e denomina gli estremi dell’intervallo con il termine “95% inferiore” e “ 95% superiore” Intervallo di Confidenza: Un’Interpretazione Intuitiva • Utile (anche se formalmente sbagliata) approssimazione sugli intervalli di confidenza del 95%: “Esiste una probabilità del 95% che il vero valore del coefficiente β cada nell’intervallo di confidenza al 95%”. • Interpretazione corretta (anche se meno intuitiva): “Se usate ripetutamente la precedente formula per calcolare gli intervalli di confidenza, il 95% degli intervalli così costruiti conterrà il vero valore del coefficiente β”. • Analoghe affermazioni valgono per intervalli di confidenza diversi (per esempio al 90%, 99%). Esempio: Intervalli di Confidenza per I Data set nelle Figure 5.1-5.4 β̂ 95% Confid. Interval 99% Confid. Interval [-1.57,3.39] [-3.64,5.47] Figure 5.1 .91 90% Confid. Interval [-.92,2.75] Figure 5.2 1.04 [.75,1.32] [.70,1.38] [.59,1.49] Figure 5.3 1.00 [.99,1.01] [.99,1.02] [.98,1.03] Figure 5.4 1.52 [-1.33,4.36] [-1.88,4.91] [-2.98,6.02] Data Set Esempio: La Regressione della Deforestazione sulla Densità della Popolazione Y = deforestazione X = densità della popolazione β̂ = .000842 95% Intervallo di confidenza: [.00061,.001075] Esempio: La Determinazione del Prezzo delle Abitazioni Risultati OLS : Y = 34,136 + 6.59 X , • La stima OLS dell’effetto marginale di X su Y è pari a 6.59. • La nostra previsione migliore dice dunque che “L’aumento dell’ampiezza del lotto di un metro quadrato è associato a un incremento di $6.59 nel prezzo della casa.” • L’intervallo di confidenza al 95% per β è [5.72,7.47]. • “Siamo fiduciosi al 95% che l’effetto della dimensione del lotto sul prezzo dell’abitazione sia almeno di $5.72 e al massimo di $7.47.” Verifica delle Ipotesi • La verifica di β=0 (perciò se X non ha alcun potere esplicativo sulla variabile dipendente). • Un modo per verificare questa ipotesi: accertarsi che l’intervallo di confidenza per β contenga il valore zero. Se non lo contiene, siamo fiduciosi che β≠0. • Un modo alternativo (ma equivalente) è quello di calcolare una statistica test. Nel caso della verifica β=0, la statistica test è nota come “statistica t” ( o “t-ratio”). t= βˆ s b • “Elevati” valori di t indicano che β ≠ 0. • “Bassi” valori di t indicano che β = 0. Verifica delle Ipotesi (cont.) Domanda: Il problema è su cosa si intende per t “alto” e “basso”? Risposta: Il P-value fornisce una misura diretta per vedere se t è “elevato” o “basso”. • Se il P-value ≤ .05 allora t è “alto” e si può concludere che β≠0. • If P-value > .05 allora t è “basso” e si può concludere che β=0. • Utile (sebbene formalmente non corretta) intuizione: P-value fornisce una misura della probabilità che β = 0. • .05 = 5% = livello di significatività • Altri livelli di significatività (per esempio 1% o 10%) Esempio: La Regressione della Deforestazione sulla Densità della Popolazione (cont.) 95% Intervallo di Confidenza: [.00061,.001075] L’intervallo di confidenza non include zero, pertanto siamo fiduciosi al 95% che β ≠ 0. Alternativamente: t-ratio è 7.227937. E’ alto? Si, il P-value è 5.5×10-10 pertanto molto inferiore a .05. Perciò, questo significa che β ≠ 0. Terminologia • “Il coefficiente della densità della popolazione è significativamente diverso da zero.” • “La densità della popolazione ha un potere esplicativo statisticamente significativo sulla deforestazione.” • “L’ipotesi che β = 0 può essere rifiutata al 5% livello di significatività.” La verifica delle Ipotesi Riguardanti R2: La Statistica F • Verificare l’ipotesi che R2=0 (perciò se X non ha un potere esplicativo su Y) • Nota: Nel caso della regressione semplice, questo test R2=0 è equivalente al test per β=0, ma nel caso della regressione multipla i due test sono differenti. • La statistica test F è simile alla statistica test t (perciò bassi valori indicano R2=0). ( N − 2) R 2 F= (1 − R 2 ) La verifica delle Ipotesi Riguardanti R2: La Statistica F (cont.) • Nel caso di test al 5% livello di significatività: • Se P-value è > .05 concludiamo che R2=0. • Se P-value è ≤.05 concludiamo che R2≠0. • Excel (Gretl, ecc-) indica il P-value per questa statistica test come “Significatività di F” Esempio: La Regressione della Deforestazione sulla Densità della Popolazione (cont.) • P-value = Significatività di F= 5.5×10-10. • Poiché P-value < .05 possiamo concludere che R2≠0. • La densità della popolazione ha un potere esplicativo statisticamente significativo su Y.