Scuola Internazionale di dottorato di ricerca in Relazioni di lavoro Corso di Statistica per il lavoro Prima Parte – Pistoresi Lezione 1: 3 marzo Lezione 2: 9 marzo Lezione 3: 10 marzo 4-1 Lezione 1 Introduzione alla retta di regressione (STOCK-WATSON, Introduzione all’ econometria, II ed., Pearson, Capitolo 4) Molte decisioni economiche, sociali, aziendali ….. dipendono dalla comprensione delle relazioni tra variabili del mondo che ci circonda. Spesso le decisioni del governo, delle istituzioni locali (regioni, comuni…), delle banche o delle aziende richiedono risposte quantitative a domande quantitative. 4-2 Esempio 1 Mercato del credito Una domanda che interessa governo e banche e’ il seguente: vi e’ discriminazione razziale nel mercato dei prestiti per le abitazioni? Esempio 2 Mercato del lavoro Un’ altra simile che riguarda governo, sindacati e imprese: vi e’discriminazione di genere nella determinazione del salario? Le donne guadagnano meno? 4-3 Esempio 3 Mercati del lavoro L’ agenda di Lisbona e il conseguente cambiamento nel regime di protezione dell’ impiego, nella durata dei sussidi di disoccupazione, nel cuneo fiscale, nelle politiche attive e passive del lavoro, etc) ha determinato sostanziali variazioni nella dinamica occupazionale nei diversi paesi europei? In altri termini, di quanto dinimuisce la disoccupazione (o aumenta l’ occupazione) se diminuisce il cuneo fiscale? O si riduce il sussidio di disoccupazione ……etc 4-4 Esempio 3 Un’altra questione di interesse pubblico riguarda la sanita’ e le decisioni del governo: di quanto riduce il consumo di sigarette l’ aumento delle imposte sulle sigarette? Esempio 4 Anche i giuristi usano l’ analisi quantitativa per studiare ad esempio l’ effetto di certi provvedimenti legislativi. Un esempio riguarda l’ effetto di introdurre un inasprimento delle pene sul numero di reati (delitti, rapine etc) ….anche i medici usano gli stessi strumenti quantitativi per studiare l’ effetto sulla mortalita’ ad esempio dell’ impiego di farmaci nuovi o variazione dei dosaggi…. 4-5 Il problema empirico che trattiamo come esempio per introdurre il piu’ semplice strumento di analisi quantitativa, ovvero la retta di regressione, e’ il seguente: che influenza ha l’ eta’ del lavoratore sulla retribuzione media di un lavoratore? ( Nel manuale trovate altro esempio: la valutazione del rendimento scolastico come funzione ad esempio della dimensione delle classi. Esempio di valutazione dell’ operato di un dirigente scolastico basata su analisi quantitativa…) 4-6 Nota bene solo per semplicita’ consideriamo il caso bivariato in cui la retribuzione, variabile da spiegare/analizzare, dipende da una sola variabile esplicativa, l’ eta’ del lavoratore. In realta’ stiamo consapevolmente omettendo determinanti del salario molto importanti quali: l’ anzianita’ di servizio, il possesso della laurea o gli anni di studio, il valore di mercato dell’ azienda, la produttivita’ del lavoro, le condizioni macroeconomiche, etc). Il caso generale e’ multivariato. 4-7 Il senso comune (o la teoria da testare) suggerisce che la relazione tra salario ed eta’ e’ positiva (segno atteso): i lavoratori piu’ anziani avendo una maggiore esperienza lavorativa hanno in genere una maggiore produttivita’ e quindi una retribuzione piu’ elevata. Con l’ analisi di regressione possiamo quantificarne esattamente questo effetto La domanda quantitativa deve essere precisa: qual e’ l’ effetto sul salario (annuale, settimanale, giornaliera, oraria…) misurato in euro/$ (decine, migliaia) di un aumento (o riduzione) dell’ eta’ di 1 anno (mese, giorno…)? 4-8 E se aumentasse di 2 anni l’ eta’ come varia il salario? Cruciale: conoscere sempre la frequenza di rilevazione dei dati e l’ unita’ di misura!!! Useremo la regressione lineare per dare una risposta quantitativa Dati (esercizio 4.3 pag, 121) 4-9 I dati riguardano la retribuzione media settimanale AWE, misurata in $, di n lavoratori a tempo pieno di una impresa, laureati, di eta’ compresa tra i 25 e i 65 anni e l’ eta’ AGE misurata in anni. La variabile da spiegare (endogena o variabile dipendente) e’ la retribuzione del lavoratore, la variabile esplicativa (esogena o variabile indipendente o regressore) e’ l’ eta’. Se la regressione riguarda un anno in particolare ad esempio il 2009, l’ unica variazione dei dati e’ cross 4-10 sezionale, solo n ( numero di lavoratori) varia: dati cross section. Se n = 100 lavoratori AWE ed AGE sono vettori di n osservazioni, i 100 lavoratori Il database poteva avere come oggetto i lavoratori di diverse imprese in un particolate anno di rilevazione. Rimaneva in ogni caso un data base di tipo cross- section ( o cross sezionale). Se invece si fossero osservate le variabili su un orizzonte temporale di vari anni…avrei avuto un panel (o dati longitudinali), sia n che t variano. 4-11 Ad esempio se avessi studiato le retribuzioni degli n lavoratori di una impresa dal 2000 al 2009 avrei un panel con variabili (vettori) di dimensione: (n t). Dove ad esempio n = 100 e t = 9. AWE ed AGE sono vettori di 900 osservazioni Se avessi invece studiato la retribuzione media rispetto all’ eta’ media in una impresa o in un comparto aggregato su un orizzonte temporale (es. 2000-2009) avrei dati time series e quindi regressione time series. AWE ed AGE sono vettori di solo 9 osservazioni 4-12 Problema empirico: qual e’ l’ effetto sul salario di un aumento di 1 anno di eta’? Riscriviamo la domande come: AWE AGE che rappresenta l’ inclinazione della retta che lega AWE a AGE Rappresentazione teorica della retta AWE = 0 + 1AGE 4-13 La stima usando dati aziendali AWE = 696.7 + 9.6 AGE Usando i dati aziendali su salari e eta’ dei lavoratori abbiamo stimato i parametri incogniti 0 e 1 che definiscono la retta ovvero la relazione tra le variabili AGE e’ pero’ solo uno dei possibili fattori che influenzano i test. Meglio quindi pensare che la relazione sia la seguente 4-14 AWE = 0 + 1AGE+ altri fattori In generale, Y= 0 + 1X+ u La variabile/vettore u rappresenta l’ errore che commetto ad approssimare (le variazioni) della Y usando solo (le variazioni di) X, cattura il problema delle variabili omesse, cioe’ gli altri fattori Y: variabile dipendente, X :variabile esplicativa o indipendente o regressore, 4-15 0 e 1: intercetta (o costante) e pendenza della retta. Ad esempio nel manuale viene riportato lo scatter plot per la regressione del rendimento scolastico (Y) rispetto alla dimensione delle classi in termini di studenti per insegnante (X). Si vede chiaramente che la relazione e’ negativa. Si evidenziano gli errori u. 4-16 Tutto cio’ ha una rappresentazione grafica: 4-17 La nuvola a punti (scatter plot- diagramma di dispersione) suggerisce la retta e la sua inclinazione, ma evidenzia anche gli errori u1 , u2 ,....., un che commetto a usare solo X per studiare Y e questi errori sono le distanze geometriche dei punti (X,Y) dalla retta di regressione Come sarebbe lo scatter nel ns caso? Sappiamo il segno atteso che e’ + AWE = 0 + 1AGE+ u 4-18 NB: il vettore degli errori U u1 , u2 ,....., un ha la stessa dimensione dei vettori delle variabili: Y e X, ovvero (n 1). Una buona rappresentazione del fenomeno vorrebbe questi u piccoli. Infinite rette passono per la nuvola di punti e suggeriscono relazioni diverse tra Y e X (differenti inclinazioni) e definiscono differenti u. 4-19 Mi serve un criterio di scelta di una retta tra le infinite possibili che renda piccoli gli errori u (ovvero le distanze dalla retta). Scegliere una retta tra le infinite possibile significa calcolare (stimare) 0 e 1 cioe’ intercetta e pendenza della retta (coefficienti della retta) usando un criterio, cioe’ un metodo Criterio (MQO – OLS): minimi quadrati ordinari o ordinary least squared che consente di ricavare 0 and 1, vedremo che minimizzera’ le distanze tra i dati 4-20 osservati sulla Y e la X e la retta di regressione ovvero minimizzera’ gli errori u. Nota bene la differenza tra parametri della popolazione e stime dei parametri usando i dati campionari. Conoscere la relazione relativa alla popolazione equivale a conoscere la relazione “vera” tra le due variabili, se esaurissi tutta l’informazione possibile. Noi invece abbiamo solo un campione di dati (es. di alcuni distretti scolastici nel caso appena visto del rendimento e della dimensione delle classi oppure i dati 4-21 di una azienda su retribuzioni e eta’ lavoratori), quindi solo parte dell’ informazione sul fenomeno. Retta di regressione della popolazione, modello teorico, relazione “vera”: Y= 0 + 1X NB: essendo teoricamente una relazione esatta che lega Y e X nella popolazione, non commetto errori, infatti non compaiono nel modello sopra 4-22 Per il ns esempio la regressione teorica o della popolazione AWE = 0 + 1AGE 0: intercetta 1 = inclinazione della retta di regressione della popolazione AWE 1 = AGE 4-23 1 = variazione nel salario settimanale AWE al variare di una unita’ in AGE (un anno) Ma purtroppo questi coefficienti della retta (parametri) della popolazione sono non noti, dobbiamo stimarli usando un campione di dati Il modello da stimare quindi e’ Y= 0 + 1X+ u dove compaiono gli errori, la relazione non e’ esatta, sto usando il campione di dati!! 4-24 Quindi il ns criterio MQO minimizzera’ gli u della mia regressione campionaria e facendo questo stimeremo i parametri incogniti n MQO o OLS: 2 ˆ ˆ min [Yi ( 0 1 X i )] i 1 con i dati reali sulla Yi e X (campione), ˆ0 , ˆ1 sono i parametri stimati, ovvero le stime dei 0 e 1 Dove il valore predetto-stimato della retta e’ Yˆi ˆ0 ˆ1 X i dove i = 1….n 4-25 Gli errori quindi sono le distanze tra retta ovvero valori predetti e valori effettivi: Yi Yˆi uˆi OLS minimizza la somma degli errori quadratici, min (uˆ ) cioe’ Yi Yˆi uˆi in altre parole la differenza 2 tra valore effettivo Y (i dati reali su Y) e il valore predetto- stimato Yˆi basato sulla retta di regressione Gli errori u una volta stimati in genere si chiamano residui, per questo li ho rinominati come ûi . 4-26 Questa minimizzazione consente di ricavare due equazioni dette equazioni normali che forniscono una formula per ˆ0 , ˆ1 . Vedi (App. 4.2). Le soluzioni del sistema di queste due equazioni normali sono la formula per l’ intercetta e la pendenza della retta che utilizzeranno i dati sulla Y e X (eq.4.8 e 4.9 sotto) 4-27 4-28 Usando i dati reali sulla X cioe’ l’ eta’ e sulla Y cioe’ il salario e applicando le formule dalla relazione teorica ottengo la stima AWE = 0 + 1AGE AWE = 696.7 + 9.6 AGE Inclinazione stimata = ˆ1 = 9.6 Intercetta stimata= ˆ0 = 696.7 Segno atteso + = confermato! 4-29 All’ aumentare dell’ eta’ aumenta il salario Interpretazione: all’ aumentare di 1 unita’ nel rapporto AWE/AGE (ovvero quando il salario e’ quello di un lavoratore con un anno in piu’ di eta’ rispetto alla media) si ha un salario settimanale di 9.6$ piu’ elevato (segno +) All’ aumentare di 1 anno di eta’ del lavoratore (X) si ha un aumento medio del salario settimale di 9.6$. L’ intercetta suggerirebbe che lavoratori con anni zero (assurdo) hanno un valore stimato del salario di 696.7. In questo caso il significato economico dell’ intercetta non 4-30 esiste se fosse l’ anzianita’ si servizio potremmo dire ad anzianita’ zero il salario di ingresso e’ pari a ……valore intercetta. Altro esempio in cui l’ intercetta ha un significato economico? Funzione del consumo, intercetta e’ la spesa autonoma!!! Previsioni e residui: Posso calcolare per ciascuna classe di eta’ dei lavoratori ad esempio il salario predetto 4-31 Il valore predetto-stimato dalla regressione per questa specifica osservazione della X e’ : Yˆ = 696.7 +9.6 AGE = …. Ad esempio X = 30 anni, classe d’ eta’ Yˆ = 696.7 + 9.6 30 = 696.7 + 288 = 984.7 salario atteso L’ errore commesso usando questo valore predettostimato rispetto al valore effettivo del salario, il residuo stimato: 4-32 L’ errore stimato per X = 30 û = Y - Yˆ = Y – 984.7 = ….? û puo’ essere + o negative a seconda che Y > o < di Yˆ In sintesi, dopo la stima posso dire 1) Lavoratori con 1 anno di eta’ in piu’ hanno hanno salario maggiori di 9.6 $ a settimana 2) Lavoratori con 2 anni di eta’ in piu’ hanno hanno salario maggiore di 9.6$ * 2 4-33 3) per una certa classe di eta’ – es. 30 anni possiamo stimare (predire) un salario di Yˆ = 696.7 +9.6 30 = 696.7 + 288 = 984.7 Misure di bonta’ di adattamento ai dati (Sezione 4.3, II edizione SW) Una domanda naturale dopo aver stimato una regressione e’ quanto bene la retta descriva i dati. Nelle lezioni passate abbiamo sottolineato che la regressione non fornisce una stima esatta del fenomeno analizzato in quanto molte osservazioni della nuvola di 4-34 punti che descrive i dati (X,Y) rimangono sotto o sopra la retta definendo degli errori (residui): - errori positivi, quando la retta sta sotto (X,Y), e sottostimiamo il fenomeno; - errori negativi, quando la retta sta sopra i dati (X,Y), e sovrastimiano del fenomeno. Abbiamo anche detto che la retta scelta MQO e’ quella ottimale perche’ minimizza questi errori. Se volessi una indicatore sintetico della bonta’ di adattamento’, che mi dica quanto le osservazioni si 4-35 concentrano intorno alla retta? Quanto il regressore X cattura-spiega della Y? Per la bonta’ di adattamento ai dati ho due indici: L’ R2 che misura la frazione della varianza della Y (anche detta varianza totale della regressione), spiegata dalla X; IL SER standard error of the regression ovvero l’ errore standard della regressione che mi suggerisce la dispersione delle osservazioni intorno alla retta, 4-36 ovvero i residui (errori) misurata nelle unita’ di misura della variabile dipendente Y The R2 La regressione stimata per la banca dati (Yi, Xi) posso scriverla in due modi Yi ˆ0 ˆ1 X i uˆ o equivalentemente Yi = Yˆi + uˆi Yˆi : valore stimato-predetto della Y usando il regressore X In termini di varianze posso scriverla: 4-37 var(Yi) = var (Yˆi ) + var ( uˆi ) var(totale) = var (spiegata dalla retta) + var (non spiegata) L’ R2 e’ a frazione della varianza di Yi (varianza totale), spiegata dalla regressione o in altri termini da X, varianza di Yˆi 2 R = varianza spiegata var(Yˆi ) var ianza totale var(Yi ) ESS = TSS 4-38 Varianza spiegata: ESS = var(Yˆi ) = n 2 ˆ ˆ ( Y Y ) i i 1 n Varianza totale: TSS = var(Yi) = 2 . ( Y Y ) i i 1 Nota bene: 0 ≤ R2 ≤ 1 Limiti teorici: R2 = 0 significa che ESS = 0, la varianza spiegata e’ nulla, quindi X non spiega per nulla la Y R2 = 1 la varianza spiegata coincide con la varianza totale ESS = TSS, cioe’ la X spiega esattamente la Y. Gli errori sono quindi nulli e Y = Yˆ 4-39 L’ R2 puo’ essere visto da una diversa angolazione. Ricordiamo che abbiamo scritto: var(Yi) = var (Yˆi ) + var ( uˆi ) var(totale) = var (spiegata) + var (non spiegata) R2 puo’ essere scritto quindi usando la varianza non spiegata invece della varianza spiegata come fatto prima. La varianza non spiegata della Y e’ ovviamente quella degli errori!!! 4-40 La somma dei quadrati dei residui (errori) e’ n SSR = 2 R =1- 2 ˆ u i 1 varianza non spiegata varianza NON spiegata SSR 1 varianza totale TSS NOTA BENE Per regressioni con 1 solo regressore, variabile esplicativa, cioe’ una sola X, l’ R2 e’ il quadrato del coefficiente di correlazione tra X and Y Ripassate il concetto di correlazione tra 2 variabili visto in statistica, correlazione varia (-1 e 1) e quindi 4-41 prendendone il quadrato come l’ R2 tra 0 ed 1 correlazione mi dice quanto comuovono le 2 variabili!!! L’ errore standard della regressione (SER) Mi suggerisce la dispersione delle osservazioni intorno alla retta quindi ha a che fare con gli u, con la varianza degli errori (misura della loro importanza): SSR anche usata per R2 SSR 1 2 ˆ u i = radice quadra di n 2 n 2 i 1 n SER = 4-42 Il SER: Misura la dispersione degli u intorno alla retta, misurata nelle unita’di misura della Y. Se la Y e’ per esempio in dollari il SER misura la dimensione dell’ errore tipico della regressione in dollari Gretl o qualunque software calcola automaticamente sia i parametri della regressione che R2 e SER. 4-43 Obiettivo: ● Stimare con Gretl una regressione cross section, analizzo i dati, lo scatter plot, stimo la regressione, visualizzo i residui,commentare SER ed R quadro Esercizio E4.1 su SW. Pag. 123. Dati: retribuzione oraria media (AHE) in $ ed eta’ (AGE) numero di anni di lavoratori occupati a tempo pieno tra i 25 e i 34 anni con diploma di scuola superiore o laurea. Cross section. Non ho evoluzione nel tempo dei dati. 4-44 Effettuo una regressione lineare semplice tra AHE ed AGE: OUTPUT di GRETL Modello 1: OLS, usando le osservazioni 1-7986 (QUESTO E’ IL NUMERO DI LAVORATORI) Variabile dipendente: ahe (y) coefficiente errore std. rapporto t p-value -------------------------------------------------------------const 3.32418 1.00223 3.317 0.0009 *** age = X 0.451931 0.0335255 13.48 5.73e-041 *** Media var. dipendente 16.77115 SQM var. dipendente 8.758696 Somma quadr. residui 598935.5 E.S. della regressione 8.661234 (SER) R-quadro 0.022254 R-quadro corretto 0.022131 F(1, 7984) 181.7164 P-value(F) 5.73e-41 Log-verosimiglianza -28571.28 Criterio di Akaike 57146.55 Criterio di Schwarz 57160.52 Hannan-Quinn 57151.33 Note: SQM = scarto quadratico medio; E.S. = errore standard 4-45 Stima : AHE= 3.32 +0.45AGE R2 = .022, SER = 8.66 1. Si usi la regressione stimata per rispondere alla domanda: di quanto cresce la retribuzione rispetto all’ eta’? Se aumenta di 1 anno l’ eta’ la retribuzione oraria aumenta di 0.45$ 4-46 2. se Bob e’ un lavoratore di 26 anni si predica la sua retribuzione. X = 26 AHE= 3.32 +0.45 * 26 = ......retribuzione stimata 3. l’ eta’ spiega una frazione elevata della varianza delle retribuzioni? NO, solo lo 0.2% della varianza e’ spiegata!! Dove ho preso i dati? Per questo esercizio serve, andare al sito del manuale: 4-47 www.aw-bc.com/stock_watson , in Student Resources, poi cliccare su Data for Empirical Exercises, e trovate il file CPS04. I dati: sono 4 colonne di cross section. A noi interessano per l’ esercizio l’ eta’ Age e la retribuzione oraria media AHE. Teniamo tutte e 4 le colonne per il futuro ci serviranno. Bisogna come prima: 1) copiate i dati in un file Excell 2) caricateli in Gretl, facendo Apri, Importa, file Excell… E dire a Gretl che i dati sono cross section…. 4-48 4-49 Per toccare con mano come utilizzando le formule dell’ intercetta e della pendenza della retta e i dati reali su Y e X possiamo calcolare la retta di regressione esattamente come farebbe Gretl…..risolvete il seguente esercizio Esercizio: calcolate la relazione tra gli anni di scuola dei figli (Y) e il reddito familiare (X) stimando la retta di regressione usando le formule date prima e i seguenti dati Y = (4, 3, 3.5, 2, 3, 3.5, 2.5, 2.5) X = (21, 15, 15, 9, 12, 18, 6, 12) 4-50 Nota bene: dovete calcolare le medie campionarie di X e Y cioe’ Y , X . Le medie campionarie per i ns dati sono: Y = 24/8 = 3 X = 108/8 =13.5 Mi servono anche le seguenti quantita’ (Y Y ), ( X X ) , il loro prodotto (Y Y )( X X ) e ( X X ) 2 . Note queste quantita’ devo calcolare solo delle somme. Il simbolo della sommatoria e’ il seguente . Calcolate queste somme si ricavano i parametri della regressione. 4-51 Nota bene le osservazioni campionarie sono N = 8. Mi e’ utile costruire una tabella con le quantita’ da calcolare: 4-52 Y X Y Y 4 3 3.5 2 3 3.5 2.5 2.5 21 15 15 9 12 18 6 12 4-3= 1 X X (Y Y ) ( X X ) ( X X ) 2 21-13.5=7.5 7.5 56.25 0 19.50 162 3-3=0 3.5-3= 0.5 -1 0 0.5 -0.5 -0.5 y 24 x 108 0 4-53 ˆ1 = 19.50/ 162= 0.12 inclinazione della retta ˆ0 = 3 – 0.12(13.5) = 1.38 intercetta o costante ˆ 1.38 0.12 X Y Retta regressione : Applico le formule appena viste per il SER e R quadro ai dati dell’ esempio reddito familiare e anni di studio dei figli. Le formule e le soluzioni sono le seguenti. 4-54 ESS 2 R = = TSS n n 2 ˆ ˆ / ( Y Y ) ( Y Y ) i i 2 i 1 i 1 R2 = 2.33/3 = 0.77, ovvero il 77% della varianza e’ spiegata dal modello u2 0.65 SER = = 0.33 errore medio n2 6 Vediamo i calcoli in dettaglio Esempio anni studi e reddito, continua 4-55 2 ˆ u Y Y u Yˆ Yˆ Yˆ Yˆ Y Y 1.38+0.12*(21) 4 -3.90 = 0.01 3.90 3.18 0.001 3.9-3=0.9 0.81 4-3= 1 3 -3.18= -0.18 0.032 3.18-3= 0.18 0.032 0.032 0.29 0.032 0.29 0.81 0.032 Yˆ 1.38 0.12 X 2 = 3.18-3= 0.18 3.18 2.46 2.82 3.54 2.1 2.82 2.46-3= -0.54 -0.18 0.54 -0.9 -0.18 0 0.65 2.33 3 4-56 Posso verificare tutti questi valori stimandoli con Gretl o altro software. In Gretl carico i dati Esercizio 1 e stimo il modello Modello 1: OLS, usando le osservazioni 1-8 Variabile dipendente: anniscuola coefficiente errore std. rapporto t p-value -------------------------------------------------------------const 1.37500 0.368776 3.729 0.0098 *** redditofam 0.120370 0.0259149 4.645 0.0035 *** Media var. dipendente 3.000000 SQM var. dipendente 0.654654 Somma quadr. residui 0.652778 E.S. della regressione 0.329843, SER R-quadro 0.782407 R-quadro corretto 0.746142 F(1, 6) 21.57447 P-value(F) 0.003523 Log-verosimiglianza -1.327668 Criterio di Akaike 6.655336 Criterio di Schwarz 6.814219 Hannan-Quinn 5.583734 Note: SQM = scarto quadratico medio; E.S. = errore standard Parametri, R quadro e SER sono uguali a quelli calcolati a mano!! 4-57 NB: posso salvare i residui e visualizzarli per controllare che siano gli stessi che ho calcolato. u = residuo della regressione 1 2 3 4 5 6 7 8 0.09722 -0.1805556 0.3194444 -0.4583333 0.1805556 -0.04167 0.4027778 -0.3194444 Sono come quelli calcolati! Idem per gli altri calcoli. 4-58 Torniamo al commento della stima SER: E.S. della regressione = 0.329 = 0.33 stessa unita’ di misura di Y (0.3 anni di scuola, meno di 1 anno) R-quadro = 0.78, il 78% della varianza della scolarita’ (Y) e’ spiegata dal reddito familiare (X) Commento del parametro 1 stimato che lega X a Y e che misura l’ effetto LINEARE di una variazione di X su Y (MODELLO REGRESSIONE LINEARE) Ad una variazione unitaria della X, cioe’ ΔX = 1, ci aspettiamo una variazione della Y pari a 0.12, cioe’ ΔY = 0.12. 4-59 Ad esempio, se il reddito variasse di 1000 euro (unita’ di misura dei dati della X sono migliaia di euro), gli anni si scuola variano di 0.12 (meno di 1 anno). NB: i redditi nella tabella sono stati divisi per 1000. 12 equivale ad un reddito di 12 000 euro Se il reddito aumentasse di 10 000 euro all’ anno avrei ΔY = 1.2 e quindi avrei un aumento di piu’ di 1 anno di scuola. 4-60 RICORDA IL MODELLO E’ LINEARE, vedremo che l’ interpretazione dell’ effetto della X sulla Y non sara’ sempre lineare, ad esempio se le variabili sono in logs, in quel caso ad esempio la variazione della X e della Y sara’ %!!! Vediamo meglio il ruolo dei residui-errori: consideriamo sempre il caso di 12 000 euro di reddito corrispondente a 12 nella tabella. In quel caso il valore predetto della Y e’ Yˆ = 2.82. Nella tabella in corrispondenza di un reddito di 12 (X), la Y effettiva assume due valori 3 anni e 2.5 anni di scuola. 4-61 Notate quindi il valore predetto – stimato e’ intermedio tra i due valori effettivi! In un caso si sottostima il fenomeno, quando Y > Yˆ , ovvero 3(valore effettivo) > 2.82 (stima) in un caso si sovrastima , Y < Yˆ , quando 2.5 < 2.82!! Avremo quindi errori positivi se si sottostima e negativi nel caso opposto!!Vedete nella tabella gli errori calcolati!!! ______________________ 4-62 APPROFONDIMENTI Le assunzioni dei MQO (sezione 4.4 pag 111) 1. L’ errore ha media condizionale nulla data X, E(u|X = x) = 0. Gli “altri fattori” che sono rappresentati da u non sono legati a X. Esempio: nella fig. 4.4 che rappresenta la retta di regressione tra test e dimensione classi, per una certa classe ho altri fattori-variabili che possono aiutare a 4-63 predire il rendimento e che non ho incluso dando origine a u > 0 oppure u < 0. Le previsione-stima talvolta e’ sottostimata e talvolta sovrastimata ma in MEDIA corretta, cioe’ la media degli u =0. 2. (Xi,Yi), i =1,…,n, sono estratti indipendentemente e identicamente distribuiti. Questo ha a che fare con il campionamento. Se le osservazioni sono estratte in modo casuale (hanno la stessa probabilita’ di essere estratte) da un' unica popolazione allora vale che sono i.i.d. 4-64 NB: un campionamento non i.i.d e’ quando abbiamo serie storiche. Le osservazioni vicine nel tempo non sono i.i.d ma tendono ad essere correlate. Es. se oggi i tassi di interesse sono bassi, domani e’ probabile che lo siamo ancora. Le regressioni con serie temporali quindi vedremo violando l’assunzione di indipendenza avranno dei problemi 3. gli outlier sono improbabili, ovvero le osservazioni con valori di X e Y molto lontani dalla regione dove si concentra la massa dei dati; 4-65 Una fonte di outlier possono essere errori nei dati, o l’uso scorretto di unita’ di misura per diverse osservazioni (ad es. si usano dati in milioni di euro e si inserisce un data in migliaia). Si veda la figura 4.5 in cui la retta di regressione stimata deve tenere conto dell’ outlier in alto e quindi e’ meno inclinata…..e’ distorta verso l’ alto dalla presenza dell’ outlier Le 3 assunzioni implicano che in grandi campioni gli stimatori OLS (es. dei parametri) hanno distribuzioni normali e questo consentira’ di fare test e costruire intervalli di confidenza (ad es. per valutare la significativita’ dei parametri). 4-66 Distribuzione campionaria dei parametri/coefficienti della regressione OLS (MQO) (Sezione 4.5 SW II ed., pag. 116) Poiche’ le stime OLS dei parametri ˆ0 , ˆ1 della regressione sono ottenute da un campione di dati non dalla popolazione, campione estratto casualmente. ˆ0 , ˆ1 hanno una certa distribuzione campionaria. 4-67 La loro distribuzione campionaria vi dice i diversi valori che i parametri assumono nei diversi campioni possibili. In piccoli campioni hanno distribuzioni complesse ma al crescere del campione hanno una distribuzione normale con una media e varianza. N piccolo: le distribuzioni di ˆ0 , ˆ1 hanno medie 0 , 1 Date le 3 assunzioni degli OLS date precedentemente, ˆ0 , ˆ1 sono stimatori/stime non distorte, cioe’ corrette di 0 , 1 (parametri veri della popolazione). Dimostrazione appendice 4.3, facoltativa. 4-68 Se N grande (n>100, ci possiamo anche accontentare di n>30) le distribuzioni di ˆ0 , ˆ1 sono approssimate dalle distribuzioni normali: 2 ˆ 0 N ( 0 ; 0 ) 2 ˆ 1 N ( 1; 1 ) Le stime sono centrate sulla media ovvero il parametro vero 0 , 1 e hanno una certa dispersione da tale parametro rappresentata dalle varianze 2 0 , 2 1 che mi 4-69 misurano l’ incertezza o come vedremo ci suggerisce la precisione con cui ho stimato i parametri. Al crescere di N le varianze sono piu’ piccole, la precisione della stima e’ maggiore, le distribuzioni di ˆ0 , ˆ1 sono concentrate intorno alle loro medie cioe’ 0 , 1 Avere quindi campioni grandi e’ auspicabile!!!! Passiamo al CAP 5 dove affonderemo il test di ipotesi dove andremo a valutare le stime dei coefficienti 4-70 (stime puntuali) usando il fatto che hanno una distribuzione di probabilita’ in particolare che abbiamo una misura di precisione delle stime con cui stabilire ad esempio se sono statisticamente significative (diverse da zero) etc. 4-71 4-72