Statistica per le ricerche di mercato A.A. 2011/12 Prof.ssa Tiziana Laureti Dott. Luca Secondi 13. La regressione lineare semplice • Il termine regressione fu introdotto verso la metà dell‘Ottocento dall’inglese Sir Francis Galton (1822-1911) che, nei suoi studi di eugenetica, voleva verificare se la statura dei figli potesse essere prevista sulla base di quella dei genitori, esprimendo questa corrispondenza in una legge matematica. • Galton osservò che figli alti provenivano da genitori tendenzialmente alti così come figli bassi provenivano da genitore tendenzialmente bassi. Tuttavia, a genitori eccezionalmente alti non corrispondevano figli alti in modo così estremo, e a genitori eccezionalmente bassi non corrispondevano figli altrettanto bassi. • Poichè Galton notò una tendenza delle altezze dei figli a spostarsi nella generazione successiva verso l’altezza media, scrisse che ciò costituiva una “regression towards mediocrity” e la relazione statistica stimata dalle osservazioni fu chiamata il modello della regressione. regressione 2 Se la correlazione misura l’intensità e il segno del legame lineare tra due variabili, l’obiettivo delle tecniche di regressione è, invece, quello di individuare il tipo di relazione funzionale che esiste tra una variabile dipendente (o spiegata o endogena) e una o più variabili indipendenti (o esplicative o esogene). 3 Affermare che il fenomeno Y “dipende” dal fenomeno X secondo la relazione matematica Y=f(X) semplifica ovviamente la dinamica reale dove intervengono, con differenti pesi, una miriade di interrelazioni, tra le variabili X e Y ed il resto del mondo dei fenomeni non esplicitati nella formula proposta. E’ possibile allora correggere il modello scrivendo: Y=f(X)+u Dove u costituisce la componente stocastica del modello ed è rappresentata da una variabile casuale che compendia l’insieme di circostanze che impediscono a tale relazione di essere un legame teorico di tipo matematico. 4 Perché si introduce la componente di errore nel modello? Negli studi empirici la relazione tra due variabili non è mai una relazione funzionale esatta del tipo Y=f(X) I comportamenti economici e sociali non sono descritti adeguatamente da relazioni che fanno corrispondere ad un dato valore di X un unico valore di Y Esempi: Nello studio della relazione di dipendenza del consumo familiare (Y) dal reddito familiare (X), è ragionevole ipotizzare che famiglie con lo stesso reddito abbiano comportamenti di consumo differenti; La dimensione di un punto vendita non può essere la sola variabile esplicativa del fatturato del punto vendita stesso; La decisione di un consumatore di acquistare il prodotto di una determinata azienda non è influenzata esclusivamente dal numero di spot giornalieri trasmetti in televisione. Il termine di errore u tiene conto di ogni altro fattore (non osservato o non osservabile) che, oltre alla variabile esplicativa, può influenzare la risposta Y. Esempio: Il consumo delle famiglie può dipendere, oltre che dal reddito disponibile, anche dal numero di componenti, dalla loro età e dal livello di istruzione 5 Perché si introduce la componente di errore nel modello? Se la relazione lineare valesse con esattezza - relazione deterministica o matematica - il metodo di stima sarebbe semplice: basterebbe conoscere le coordinate di due punti campionari per tracciare la retta che li unisce e produrre la relativa equazione. Tuttavia imbattersi in relazioni funzionali esatte - sulla base dell’osservazione di dati empirici - risulta estremamente improbabile. Al contrario è piuttosto frequente osservare delle discrepanze più o meno accentuate tra i valori osservati di Y e quelli che emergono da una relazione funzionale esatta con X. Il termine di errore u serve proprio a rappresentare formalmente tali discrepanze e a distinguere una relazione statistica (o stocastica) stocastica da una deterministica. 6 La regressione semplice: se la variabile indipendente è solo una; multipla: se le variabili indipendenti sono due o più; lineare: se la relazione che esprime la variabile dipendente è di tipo lineare; non lineare: se tale relazione non è lineare. 7 Principali caratteristiche delle analisi di regressione ¾ L’obiettivo principale è quello di investigare su eventuali relazioni empiriche tra variabili allo scopo di analizzare le cause (determinanti) che possono spiegare un determinato fenomeno oggetto di studio. ¾ È caratterizzata dalla semplicità intrinseca dei modelli utilizzati, basati essenzialmente su funzioni lineari. ¾ Sebbene non tutte le relazioni funzionali siano esprimibili attraverso modelli lineari, una prima analisi fondata su forme funzionali semplici costituisce comunque un buon punto di partenza per passare poi ad eventuali modelli più complessi. 8 Principali fasi di un’analisi di regressione lineare i. Si ipotizza una relazione funzionale lineare tra una variabile oggetto di studio (variabile dipendente o risposta) e una o più altre variabili (variabili indipendenti o esplicative); ii. Si stimano i parametri di tale relazione funzionale sulla base dei dati campionari a disposizione; iii. L’analisi è completata con appropriati test statistici sulla significatività dei parametri e la valutazione della bontà dell’adattamento del modello ai dati; iv. Ulteriori analisi di conferma servono ad assicurarsi che la relazione ipotizzata sia effettivamente lineare e che le assunzioni su cui si basa la stima del modello siano state rispettate 9 Semplice Regressione Lineare Multipla Consideriamo dapprima il caso più semplice: esaminiamo il legame tra due sole variabili X e Y. 10 Partiamo da un esempio… [rif. Bracalente et al.2009] Per decidere le dimensioni di nuovo punto vendita, una catena di supermercati ha effettuato un’indagine per studiare la relazione tra dimensione del negozio e le vendite settimanali. A tale proposito viene estratto un campione di 10 supermercati: IPOTESI DI RICERCA: Si ipotizza che a maggiori spazi espositivi tendano a corrispondere valori più elevati delle vendite 11 ¾Per mettere in evidenza la relazione lineare esistente tra due caratteri è possibile rappresentare l’insieme delle coppie di punti su un asse cartesiano (in cui sull’asse delle ascisse viene riportata, come di consueto, la variabile X e sull’asse delle ordinate la variabile Y). Il grafico derivante prende il nome di grafico di dispersione (o scatter plot). Dalla forma che assume la nuvola di punti è possibile “stabilire” il tipo di correlazione lineare esistente tra le due variabili. Se tra X e Y non c’è alcun legame allora X e Y sono indipendenti statisticamente Tra due caratteri esiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro Correlazione lineare ρXY = −1 n Corr(X, Y ) = ρ XY σ = XY = σXσ Y ∑ (x i=1 i − x )(yi − y ) n n i=1 i=1 2 2 ∑ (xi − x ) ∑ (yi − y ) perfetta discordanza − 1 < ρXY < 0 discordanza ρXY = 0 0 < ρXY < 1 ρXY = 1 assenza di legame lineare concordanza concordanza perfetta 12 Cov(X,Y)>0 Cov(X,Y)=0 Cov(X,Y)<0 La relazione tra X e Y non è di tipo lineare 13 ...torniamo all’esempio Dal diagramma di dispersione (scatter plot) si può avere conferma della linearità e della direzione della relazione ipotizzata. V o l u m e 350 La relazione è evidenziata anche dal valore del coefficiente di correlazione lineare r=0.893 300 250 200 v 150 e 100 n d 50 i 0 t 0,0 e 50,0 100,0 150,0 200,0 Spazio espositivo ¾Viene formulato un modello lineare dove: Volume delle vendite Î variabile dipendente (variabile risposta) Spazio espositivo Î variabile esplicativa 14 IL MODELLO DI REGRESSIONE LINEARE SEMPLICE Il modello di regressione lineare mette in relazione una variabile X con un’altra variabile, Y. Nella relazione lineare tra Y e X la pendenza della retta è una caratteristica incognita della distribuzione congiunta di X e Y nella popolazione. ll compito della statistica è quello di stimare l’effetto su Y di una variazione unitaria di X, ossia di stimare la pendenza della retta, utilizzando un campione di dati su queste due variabili. La pendenza e l’intercetta della retta che mette in relazione X e Y possono essere stimati utilizzando un metodo chiamato Minimi Quadrati Ordinari (OLS, acronimo dall’inglese Ordinary Least Squares) 15 IL MODELLO DI REGRESSIONE LINEARE SEMPLICE Su un campione di n unità statistiche sono stati osservati i valori relativi a due distinte variabili: Y variabile dipendente o variabile risposta X variabile indipendente o variabile esplicativa Sulla base dei dati osservati e di alcune assunzioni può essere formulata la seguente relazione lineare Yi = α + β X i + ui i = 1, 2,…, n Dove, per ogni osservazione i nel campione: α e β sono costanti dette parametri del modello di regressione α è l’intercetta della retta di regressione nella popolazione β è il coefficiente angolare (pendenza) della retta di regressione nella popolazione ui è una variabile casuale e rappresenta il termine di errore Yi = α + β X i È la retta di regressione della popolazione. Esprime la relazione esistente in media tra Y e X nella popolazione 16 La stima dei parametri Lo stimatore dei minimi quadrati ordinari OLS Lo stimatore dei minimi quadrati ordinari “sceglie” i coefficienti di regressione in modo che la retta di regressione stimata sia il più possibile vicina ai dati osservati, dove la vicinanza è misurata dalla somma dei quadrati degli errori che si commettono nel predire Y data X. Siano a e b stimatori di α e β. La retta di regressione basata su a + bX i questi stimatori è e quindi il valore di Yi predetto usando questa retta è Yl i = a + bX i . Perciò l’errore che si commette nel predire la i-esima osservazione è ei =Yi −( a+bXi ) =Yi −a−bXi La somma dei quadrati degli errori di predizione per tutte le n osservazioni è n n ∑ e = ∑ (Yi − a − bX i ) i =1 2 i 2 i =1 Gli stimatori OLS minimizzano la somma dei quadrati degli errori e sono indicati con a e b 17 Per minimizzare la somma dei quadrati degli errori si calcolo innanzitutto le derivate parziali n ∂ n 2 (Yi − a − bX i ) ∑ (Yi − a − bX i ) = −2∑ ∂a i =1 i =1 n n ∂ 2 (Yi − a − bX i ) = −2∑ (Yi − a − bX i ) X i ∑ ∂b i=1 i =1 Gli stimatori OLS sono i valori di a e b per i quali le derivate sono uguali a zero. ⎧ n ⎪⎪ ∑ (Yi − a − bX i ) = 0 i =1 ⎨ n ⎪ (Y − a − bX ) X = 0 i i i ⎪⎩∑ i =1 Equazioni normali Quindi si ha: n ⎧ n ⎪⎪ ∑ Yi = na + ∑ bX i i =1 i =1 ⎨ n n n ⎪ YX = X i a + ∑ X i2b ∑ ∑ i i ⎪⎩ i =1 i =1 i =1 n ⎧ n ⎪⎪ ∑ Yi = na + b∑ X i i =1 i =1 ⎨ n n n ⎪ Y X = a X +b X2 ∑ ∑ i i i i ⎪⎩∑ i =1 i =1 i =1 18 Risolvendo il sistema si ricava: n ∑Y n i i =1 n b= n ∑ X ∑Y X i i =1 i =1 n i ∑X n i =1 n n ∑X ∑X i i =1 i =1 n a= i i =1 n ∑Y X ∑ X i i i =1 n ∑X n i =1 n n ∑X ∑X i =1 n i =1 i =1 i =1 n∑ Yi X i − ∑ X i ∑ Yi ⎛ n ⎞ n∑ X − ⎜ ∑ X i ⎟ ⎝ i =1 ⎠ i =1 n 2 2 i 2 i ∑X i n i =1 = n n ∑Y i =1 i n i i =1 i 2 i i n = n n n ∑Y ∑ X − ∑ X ∑ X Y i =1 i i =1 2 i i =1 i ⎛ n ⎞ n∑ X − ⎜ ∑ X i ⎟ ⎝ i=1 ⎠ i =1 n i i i =1 2 2 i 2 i 19 Attraverso semplici passaggi algebrici e ricordando le definizioni di varianza e covarianza si ottiene la seguente espressione per b1 ∑( X N b= i =1 i )( − X Yi − Y ∑( X N i =1 i −X ) 2 ) ∑( X N = i =1 i )( − X Yi − Y ∑( X N i =1 i −X ) 2 ) n n = σ XY σ X2 Dividendo la prima equazione normale per n si ottiene la seguente espressione per b1 1 n 1 n a = ∑ Yi − b ∑ X i = Y − b X n i =1 n i =1 I valori predetti (previsti) Yl i e i residui sono espressi da: Yl i = a + bX i eˆ i = yi − yˆ i 20 Rappresentazione grafica del residuo Y (xi,yi ) yi Yˆ = a + b x ê i = y i − ŷ i ŷ i xi X Ogni residuo è lo scostamento verticale tra il valore osservato e il corrispondente valore sulla retta 21 Rappresentazione grafica del metodo dei minimi quadrati Y Yˆ = a + b x X La retta si individua minimizzando la somma dei quadrati di tutti gli scostamenti verticali 22 Stima della risposta media (valore previsto o predetto di Y) Le stime dei parametri della retta possono essere utilizzate per stimare il valore medio di Y per un dato valore di X La stima è data da Yˆ = a + b x Il valore predetto di Y si ottiene sostituendo nella retta stimata uno specifico valore di X 23 Tornando all’esempio… Applicando il metodo dei minimi quadrati è stata stimata la seguente retta di regressione ˆ Y = −10,19 + 0,67 ⋅ X V 250 o l 200 u m e 150 v 100 e n 50 d i 0 t 0 e 50 100 150 200 Spazio espositivo 250 300 350 il coefficiente di regressione ci dice che ad ogni incremento unitario della variabile X la variabile Y subisce anch’essa un incremento, di intensità 0,67 -ossia ad ogni incremento di un m2 nella superficie del supermercato il volume delle vendite settimanali aumenta di 67 euro 24 Esempio2: in un campione di 10 famiglie italiane si rilevano il reddito mensile (X) e il consumo mensile per generi alimentari (Y), in euro Reddito (xi) Consumo (yi) 310 320 340 380 400 420 430 440 470 480 consumo 600 650 670 690 700 720 760 780 790 800 500 480 460 440 420 400 380 360 340 320 300 550 600 650 700 750 800 850 reddito Il diagramma di dispersione suggerisce la presenza di un legame lineare di tipo crescente Il coefficiente di correlazione lineare suggerisce la presenza di un forte legame di interrelazione ρxy=0,97 25 La retta è stimata quando conosciamo il valore dell’intercetta all’origine e del coefficiente angolare (pendenza) consumo Con l’analisi di regressione lineare si deve stimare quella retta che descrive meglio la nuvola di punti evidenziata dal grafico 500 480 460 440 420 400 380 360 340 320 300 550 600 650 700 750 800 850 reddito 26 Utilizziamo il metodo dei minimi quadrati ordinari y X Y 600 650 670 690 700 720 760 780 790 800 716 310 320 340 380 400 420 430 440 470 480 399 x = 716 i − y x i -89 -79 -59 -19 1 21 31 41 71 81 -116 -66 -46 -26 -16 4 44 64 74 84 y = 399 − x (xi − x )(yi − y ) (x i 10324 5214 2714 494 -16 84 1364 2624 5254 6804 34860 n ∑ (x i=1 i − x )(yi − y ) a = 399 − 0,884 *716 = −233,8 )2 − x 13456 4356 2116 676 256 16 1936 4096 5476 7056 39440 n ∑ (x i=1 − x) 2 i b= 34860 = 0,884 39440 27 Rappresentazione grafica della retta Per un incremento unitario di reddito il consumo aumenta in media di 0,8839 500 480 y = 0.8839x - 233.85 460 Consumo 440 420 400 (se il reddito aumenta di 1000€, il consumo in media cresce di 884€) 380 360 340 320 300 550 600 650 700 750 800 850 reddito a = − 2 3 3, 8 5 b = 0, 8 8 3 9 28 Valori previsti e residui Valori osservati di X X 600 650 670 690 700 720 760 780 790 800 Valori osservati di Y Y 310 320 340 380 400 420 430 440 470 480 Valori stimati (previsti) di Y Yˆ = a + b x Y prevista 296,47 340,66 358,34 376,02 384,86 402,54 437,89 455,57 464,41 473,25 ei = yi − yˆ i Residui 13,53 -20,66 -18,34 3,98 15,14 17,46 -7,89 -15,57 5,59 6,75 29 MISURE DI BONTA’ DI ADATTAMENTO R2 varia tra 0 e 1 e misura la frazione della varianza di Yi che è spiegata da Xi L’errore standard della regressione misura la distanza tipica di Yi dal suo valore predetto SCOMPOSIZIONE DELLA DEVIANZA TOTALE DI Yi ∑ (Y n i =1 i −Y ) 2 = n ∑ i =1 ( Yl i − Y 2 ) ∑ + n i =1 e i2 SQT=Somma Quadrati Totale SQR=Somma Quadrati Regressione (spiegata) SQE=Somma Quadrati Errore TSS= Total Sum of Squares ESS=Exolained Sum of Squares RSS= Residual Sum of Squares In modo equivalente la varianza di Y può essere scomposta nella somma delle varianze campionarie delle sue componenti ortogonali: la previsione e il residuo ( ) V (Yi ) = V Yl i + V ( ei ) Tale decomposizione sussiste solo se il modello possiede una intercetta. Solo in tal caso ∑Yi = ∑Yl i n e ∑e X i =1 i i =0 30 Sotto questa condizione la devianza di Y può essere scomposta in: ∑ (Y n i =1 = n ∑ i =1 i −Y (Y ) 2 = n ∑ i =1 − Yl i 2 (Y − Yl i + Yl i − Y ) + ∑ (Yl n i −Y i =1 ) 2 ) 2 n = ( + 2 ∑ Y − Yl i i =1 ) (Yl i −Y ) La scomposizione precedente è dimostrata perché, il doppio prodotto è nullo. Infatti: ∑ (Y − Yl ) (Yl n i i =1 i ) ( ) ( ) − Y = ∑ ei Yl i − Y = b1 ∑ ei X i − X = = b1 ⎡⎣ ∑ ei X i − X ∑ ei ⎤⎦ = b1 [ 0 − 0] = 0 Sostituendo le stime dei parametri in Yl i Ricordando la prima e la seconda delle equazioni normali 31 Il coefficiente di determinazione R2 Sulla base di tale scomposizione della varianza di Yi può essere computata una misura della bontà di adattamento del modello ai dati denominata coefficiente di determinazione lineare 2 n R 2 = ∑ (ŷ i=1 ∑ (y R = ( )= V Yl i V (Yi ) − y ) 2 n i=1 2 i i − y ) n = ( SQR SQT 1 ( n − 1) ∑ Yl i − Y i =1 n ) 1 ( n − 1) ∑ (Yi − Y ) i =1 = 1 − SQE SQT 2 2 n V ( ei ) R = 1− = 1− V (Yi ) 2 ( 1 ( n − 1) ∑ Y − Yl i i =1 n ) 1 ( n − 1) ∑ (Yi − Y ) 2 2 i =1 R2 può assumere valori compresi nell’intervallo [0,1] ma alcune fonti di variazioni sono più difficili da spiegare di altre. Il giudizio sul valore di R2 dipende dai contesti di applicazione 32 L’errore standard della regressione (SER, Standard Error of the Regression) E’ uno stimatore della deviazione standard dell’errore di regressione εi. E’ una misura della dispersione delle osservazioni intorno alla retta di regressione, espressa nell’unità di misura della variabile dipendente. n SER = ∑e i =1 2 i n−2 Correzione per i gradi di libertà Attenzione: il denominatore in questo caso è n-2, esso corregge per una piccola distorsione verso il basso dovuta alla stima di due coefficienti 33 SCOMPOSIZIONE DELLA DEVIANZA (VARIANZA) IN UNO SCHEMA DI REGRESSIONE LINEARE n ∑ (y i =1 i − y ) 2 = n ∑ i =1 (y i − y ) 2 + n ∑ i =1 e i2 Y yi ei = yi − y yi − y TSS = i ESS = n ∑ (y i =1 n ∑ i =1 y *i yi−y y (y n ∑ RSS = i =1 xi i i 2 − y ) − y ) 2 e i2 X 34 L’interpretazione del coefficiente R2 - casi limite R2 = 1 Il modello si adatta perfettamente ai dati La variabilità di Y è completamente spiegata dal modello di regressione Îtutti i punti corrispondenti alle osservazioni campionarie giacciono esattamente sulla retta Îtutti i residui campionari sono pari a zero e pari a zero è la devianza residua Î SQT =SQR 0 18 y = 2 + 3x 2 R =1 16 14 -2 0 1 2 3 4 5 6 -4 12 10 -6 8 -8 6 4 -10 2 -12 0 0 1 2 3 4 5 6 -14 y = 2 -3x 2 R =1 35 L’interpretazione del coefficiente R2 - casi limite Il modello non si adatta per niente ai dati R2 = 0 Æil modello non riesce a spiegare nessuna parte - seppur minima della variabilità di Y ÆLa devianza spiegata è pari a zero; la retta stimata è parallela all’asse delle ascisse ÆTutta la variabilità di Y è nei residui 12.5 5.5 y = 10.8 R2 = 0 12 11.5 5 4.5 11 10.5 4 10 y = 4.6 R2 = 0 3.5 9.5 9 3 0 1 2 3 4 5 6 0 1 2 3 4 5 6 36 …alcuni esempi 25 12 y = 10.6 -0.2x R2 = 0.0026 20 10 8 15 6 10 4 5 y = 8.8 -0.6x R2 = 0.18 2 0 0 0 30 1 2 3 4 5 6 0 20 2 3 4 5 3 4 5 6 9 y = 12.3+2.3x R2 = 0.7472 25 1 y = 1.6+1.2x R2 = 0.973 8 7 6 15 5 4 10 3 5 2 0 1 0 1 2 3 4 5 6 0 0 1 2 6 37 LE ASSUNZIONI DEI MINIMI QUADRATI Assunzione 1 La distribuzione condizionata di ei data Xi ha media nulla E ( ui X i ) = 0 Questa assunzione è una formalizzazione matematica riguardante gli “altri fattori” contenuti in ei ed afferma che questi fattori non sono legati a Xi nel senso che, dato un valore di Xi, la media della distribuzione di questi altri fattori è pari a zero. Questa assunzione viene di solito interpretata come quella che stabilisce che le variabili X sono esogene. Essa implica inoltre che: E (Yi X i ) = β 0 + β1 X i E (Yi | X = x 1 ) y Distribuzione dei valori di Y quando X=x1 E(Yi | X = xi ) = β0 + β1xi x1 x2 x3 x 38 L’assunzione circa la media condizionata implica che Xi e ui siano incorrelati, ovvero corr ( X i , ui ) = 0 Poiché la correlazione è una misura di associazione lineare non vale invece il contrario. Anche se Xi e ui fossero incorrelati la media condizionata di ui data Xi potrebbe essere non nulla. Spesso si discute l’assunzione circa la media condizionata nei termini di una possibile correlazione tra Xi e il termine di errore. Se Xi e ui sono correlati allora l’assunzione circa la media condizionata è violata. In molti casi è ragionevole ritenere che il termine d’errore contenga variabili non osservate collegate a variabili osservate raccolte in X. E’ necessaria quindi una certa cautela nell’interpretare i coefficienti di regressione ottenuti come misure di effetti causali. 39 Assunzione 2 (Xi, Yi) sono indipendentemente e identicamente distribuite (i.i.d.). Tale assunzione è una formalizzazione matematica di come viene estratto il campione. Se le osservazioni sono estratte con campionamento casuale semplice da un’ampia popolazione, allora (Xi, Yi) i=1,..,n sono i.i.d. In altre parole, ogni insieme di (Xi, Yi) rappresenta un’estrazione casuale dalla distribuzione che caratterizza la popolazione. L’assunzione di i.i.d. è ragionevole per molti schemi di campionamento In alcuni casi lo schema di campionamento è non-i.d.d. Ad esempio, nel caso delle serie temporali quando una stessa unità viene osservata ripetutamente nel tempo. Assunzione 3 Gli outlier (ossia osservazioni con valori di Xi o Yi molto lontani) sono improbabili. Tale assunzioni può essere formulata in termini matematici affermando che X e Y hanno curtosi finita. L’assunzione di curtosi finita è plausibile in molte applicazioni che coinvolgono dati economici. Un modo per scoprire gli outlier è quello di rappresentare graficamente i dati. Se si decide che un outlier è dovuto, ad esempio, ad un errore di inserimento dati allora si può correggere l’errore, oppure, nel caso in cui ciò sia impossibile, si può eliminare l’osservazione dai dati. 40 APPLICAZIONE EMPIRICA Esempio tratto dal testo Stock J.H. e Watson, M.W. Introduzione all’econometria, Pearson, 2009 Dati: file “Retribuzioni” Variabili: Y= retribuzione media oraria (in US dollari); tre variabili indipendenti X=età, laurea e genere In questo esempio si studia la relazione tra retribuzione media oraria (Y) ed età del lavoratore (X) Sulla base delle variabili contenute nel file “Retribuzioni”: 1. Stimare il modello di regressione lineare che mette in relazione la retribuzione media oraria Y all’età del lavoratore X 2. Stimare la retribuzione di un lavoratore di 30 anni 3. Valutare la bontà di adattamento del modello stimato 41 Riepilogo statistiche descrittive di Y e X (Utilizzando in Excel, tra gli strumenti di analisi, “statistiche descrittive” Retribuzione oraria media Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Età 16,771 0,098 14,904 19,231 8,759 76,715 2,656 1,411 58,960 2,098 61,058 133934,402 7986,000 Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio 29,754 0,032 30,000 34,000 2,891 8,359 -1,226 -0,103 9,000 25,000 34,000 237619,000 7986,000 42 Diagramma di dispersione Retribuzione media oraria 70 60 50 40 30 20 10 0 0 5 10 15 20 25 30 35 40 Età Il coefficiente di correlazione lineare, ρXY=0,15 suggerisce l’esistenza di un modesto legame positivo (In Excel funzione “correlazione”) 43 Utilizzando in Excel, tra gli strumenti di analisi, “regressione” e selezionando come variabile dipendente la retribuzione media oraria e indipendente l’età si ottiene il seguente output: OUTPUT RIEPILOGO Statistica della regressione R multiplo 0,1492 R al quadrato 0,0223 0,0221 R al quadrato corretto Errore standard 8,6612 Osservazioni 7986,0000 ANALISI VARIANZA gdl Regressione Residuo Totale Intercetta Età 1,0 7984,0 7985,0 SQ 13631,814 598935,455 612567,269 Coefficienti Errore standard 3,324 1,002 0,452 0,034 MQ 13631,814 75,017 F 181,716 Significatività F 0,000 Stat t Valore di significatività Inferiore 95% 3,317 0,001 1,360 13,480 0,000 0,386 Superiore 95% 5,289 0,518 a) La retta stimata è quindi espressa da: yˆ i = 3,324 + 0,452 xi Per un incremento unitario dell’età la retribuzione media oraria aumenta di 0,452 dollari 44 b) La retribuzione di un lavoratore di 30 anni è espressa da: yˆ i = 3,324 + 0,452 ⋅ 30=16,884 c) La bontà di adattamento del modello è espressa da R2 R2=0,0223 indica un basso grado di adattamento del modello ai dati osservati. Solo il 2,23% della variabilità totale di Y è spiegata dal modello Si ottiene rapportando n R 2 = ∑ ( yˆ i =1 i n ∑ (y i =1 i − y − y ) ) 2 2 = 1 3 .6 3 1 ,8 1 4 5 9 8 ,9 3 5 ,4 5 5 =1− = 0, 0223 6 1 2 .5 6 7 ,2 6 9 6 1 2 .5 6 7 ,2 6 9 45 Inferenza sulla regressione Le stime dei coefficienti del modello α e β e la stima della risposta media dipendono dal campione osservato Al variare dei campioni si generano le v.c. stimatori dei coefficienti di regressione e della risposta media che indichiamo con a, b e Ŷ i 46 PROPRIETA’ DELLO STIMATORE OLS IN CAMPIONE FINITI LE IPOTESI DI GAUSS-MARKOV 1) 2) E(ui)=0 i=1…n V(ui)= σ 2 per ogni i=1…n (ipotesi di varianza costante o omoschedasticità) 3)Cov(uiuj)=0 i,j =1…n i≠j (I termini di errore (relativi ad unità statistiche differenti) hanno correlazione nulla, sono cioè incorrelati. Questa ipotesi esclude la presenza di qualsiasi forma di autocorrelazione) 4)La variabile X è non stocastica (i dati relativi alla variabile indipendente X sono “noti senza errore”, cioè non soggetti a deviazione di natura accidentale). 47 Proprietà dello stimatore OLS Sotto le assunzioni dei minimi quadrati (1-3) e ipotesi 1-4, lo stimatore OLS gode delle seguenti proprietà: Proprietà 1) a e b sono corretti (non distorti unbiased) cioè E(a)= α e E(b)= β Proprietà 2) nella classe degli stimatori corretti che sono funzioni ¾STIMATORE BLUE (Best Linear Unbiased Estimator) lineari di Yi gli stimatori dei minimi ⎞ più efficienti quadrati ⎛⎜a e b sono i ⎟ σ u2 x2 2 1 ⎟; var(a) = σ ⎜ Gauss-Markov) var(b) = n + n (Teorema ⎜n ⎜ ⎝ 2 ⎟ ( x x ) − ∑ i ⎟ ⎠ i =1 2 ( x x ) − ∑ i i =1 48 Stime e stimatori nella regressione Parametro Stima Stimatore Media α β a = Y − βˆ1 X b = σ xy σ 2 x a b α Varianza ⎛ ⎜ 2 1 σ ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x ⎟ n (xi − x)2 ⎟⎟ ∑ ⎠ i=1 2 σ u2 β n ∑ (x − x ) i =1 2 i Il teorema di Gauss- Markov fornisce una giustificazione teorica all’uso degli OLS. Tuttavia, le sue condizioni potrebbero non valere in pratica. Se il termine di errore è eteroschedastico, come spesso accade nelle applicazioni economiche, allora lo stimatore OLS non è più BLUE. 49 Stima della varianza σ2 Per stimare la varianza di a e b dobbiamo sostituire la varianza degli errori , ignota, con una σ 2 = V (u i ) sua stima Lo stimatore corretto di σ2 è dato da n s2 = ∑ i= 1 ê i2 n − 2 Questo stimatore presenta una correzione per i gradi di libertà, dato che a denominatore troviamo il numero delle osservazioni meno il numero dei regressori. s = s2 è l’errore standard di regressione, già introdotto, e misura la dispersione dei punti osservati intorno alla retta di regressione. 50 La varianza stimata di a e b è quindi espressa da: ⎛ ⎜ 2 1 l V (a) = s ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x2 ⎟; n ( x i − x )2 ⎟⎟ ∑ ⎠ i =1 l(b) = V s2 n ∑ (x i =1 i − x )2 La radice quadrata viene di solito chiamata standard error (o errore standard) di a e b , indicato con se(b0) e se(b1) e rappresenta una stima dello scarto quadratico medio dello stimatore OLS e dunque uno strumento per misurarne la precisione. 51 Distribuzione campionaria di a e b Con un campione di N osservazioni, l’inferenza statistica esatta è possibile solo formulando esplicitamente ipotesi sulla forma della distribuzione dei termini di errore. L’ipotesi più comune è che gli errori abbiano distribuzione normale 5) ( ui ∼ NID 0, σ 2 ) i = 1,..., N Che rappresenta un modo compatto per indicare che i termini di errore sono estrazioni casuali da una distribuzione normale (n.i.d.) di media nulla e varianza σ2. Sotto questa ipotesi anche la yi (per un dato valore di xi) segue una distribuzione normale. Talvolta l’ipotesi di distribuzione normale può non essere appropriata. Va comunque osservato che la maggior parte delle ipotesi (che hanno una rilevanza diverse per la validità dei risultati che seguono) può essere sottoposta a verifica empirica. 52 Distribuzione campionaria di a e b Sotto le ipotesi 1-4 e 5 lo stimatore OLS, come funzione lineare dei termine di errore, ha distribuzione di probabilità Normale: ⎛ ⎞ ⎜ ⎟ 2 σ ⎟ b ~ N ⎜ β; n ⎜ 2 ⎟ − ( x x ) ∑ i ⎜ ⎟ ⎝ i =1 ⎠ ⎛ ⎛ ⎞⎞ ⎜ ⎜1 ⎟⎟ 2 x ⎟⎟ a ~ N ⎜α ;σ 2 ⎜ + n ⎜ ⎜n 2 ⎟⎟ − ( x x ) ∑ i ⎜ ⎜ ⎟⎟ i = 1 ⎝ ⎠⎠ ⎝ b−β σ2 n ∑ (x i =1 i ~ N ( 0;1) − x )2 a−α ⎛ ⎜ 2 1 σ ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x2 ⎟ n ( x i − x )2 ⎟⎟ ∑ ⎠ i =1 ~ N ( 0;1) Y i ~ N (α + β x i ; σ 2 ) 53 Distribuzione campionaria di a e b Quando al posto di σ2 utilizziamo la stima corretta s2 b − β1 s2 n 2 ( ) x − x ∑ i ~ tn − 2 Errore standard di b i =1 a −α ⎛ ⎜1 2 s ⎜ + ⎜n ⎜ ⎝ ⎞ ⎟ x2 ⎟ n 2 ⎟ x − x ( ) ∑ i ⎟ i =1 ⎠ b−β ~ tn − 2 s ( b1 ) ~ tn − 2 a −α ~ tn − 2 s (b ) Errore standard di a Distribuzione t di Student con n-2 gradi di libertà 54 Intervalli di confidenza dei coefficienti di regressione Al livello di confidenza 1-α β b ± tα 2;n −2 ⋅ s ( b ) α a ± tα 2;n −2 ⋅ s ( a ) Un intervallo di confidenza al 95% per β contiene il vero valore del parametro con probabilità 95%, ovvero contiene il vero valore del parametro nel 95% di tutti i possibili campioni estratti casualmente 55 Stima per intervallo. Esempio Dati consumo-reddito êResidui i = yi − ŷi 13,53 -20,66 -18,34 3,98 15,14 17,46 -7,89 -15,57 5,59 6,75 n ê i2 183,04 427,01 336,42 15,85 229,28 305,01 62,26 242,36 31,29 45,62 1878,14 n ∑ i= 1 ê s2 = ∑ ê 2 i i=1 n−2 = 1878,14 = 234,77 8 Errore standard della regressione s = 234 ,77 = 15,32 Errore standard di b1 s(b) = 234,77 = 0,078 39440 Errore standard di b0 2 i ⎛ 1 7162 ⎞ + s(α ) = 234,77 ⎜ ⎟ = 55, 45 ⎝ 10 39440 ⎠ 56 Stima per intervallo. Esempio Dati consumo-reddito Al livello di confidenza β 1 − α = 0 ,95 t 0 , 025 ; 8 = ± 2 ,31 P(0,88 − 2,31 × 0,078 < β1 < 0,88 + 2,31 × 0,078) = 0,95 stima puntuale valore t S(b1) P ( 0, 7 1 < β < 1, 0 6 ) = 0, 9 5 α P ( −233,85 − 2,31× 55,45 < α < −233,85 + 2,31× 55,45) = 0,95 P ( -361,73 < α < -105,26 ) = 0,95 57 Verifica di ipotesi sui coefficienti di regressione Possiamo essere interessati a verificare: 1) H0 : β = β0 H1 : β ≠ β0 2) H0 : β = β0 3) H1 : β > β0 H0 : β = β0 H1 : β < β0 Gli stessi sistemi di ipotesi si possono specificare per il parametro intercetta α Statistica test t = b − β 0 ~ t n − 2 s (b ) si respinge l’ipotesi nulla se per un certo livello di significatività α si verifica, rispettivamente nelle tre tipologie precedenti, che: 1) t > tn −2;α 2 2) t > tn−2;α 3) −t < −tn−2;α 58 Approccio del p-value La conclusione di un test può dipendere dalla scelta del livello di significatività α. Un’ipotesi nulla rifiutata per α=0,10 potrebbe essere accettata con α=0,01 L’approccio del p-value permette di sganciare l’esito del test dalla scelta di α. Il p-value è definito come la probabilità di osservare un valore della statistica test uguale o più estremo di quello osservato effettivamente sul campione, dato che H0 è vera. Il p-value è chiamato anche “livello di significatività osservato” A differenza di α il p-value non è una quantità fissata a priori Il p-value misura quanto i dati campionari supportano H0: più piccolo è il p-value, minore è il supporto a favore di H0 (maggiore è l’evidenza contro H0) Si rifiuta H0 se p-value < α Si accetta H0 se p-value > α 59 Verifica di ipotesi sui coefficienti di regressione Un test frequentemente utilizzato è il seguente: H0 : β = 0 H1 : β ≠ 0 Se accetto H0 vuol dire che non c’è nella popolazione una significativa relazione di dipendenza lineare di Y da X. In altre parole X non ha un effetto “significativo” nello spiegare le variazioni di Y. H 0 :α = 0 H1 :α ≠ 0 Se accetto H0 vuol dire che la relazione nella popolazione può essere rappresentata mediante una retta passante per l’origine Test di significatività 60 Statistica test La statistica test si risolve nel rapporto tra il parametro stimato e il rispettivo errore standard; se tale rapporto supera il livello critico (individuato dalle tavole), si può rifiutare H0 e quindi mantenere il parametro stimato nel modello di regressione. b t = s (b H0:β=0 H1:β≠0 ) ~ tα 2 ;n − 2 Al livello di significatività α, accetto H0 se il valore della statistica test calcolato sul campione cade nell’area di accettazione dell’ipotesi nulla, cioè se − tα 2; n − 2 < b < tα s (b ) 2; n − 2 61 Nei software statistici (ma anche in Excel), la presentazione dei risultati sul modello di regressione include la stima dei parametri con i rispettivi errori standard e il loro rapporto (che costituisce la statistica test calcolata t per verificare che i parametri siano nulli), assieme al p-value (valore di significatività in excel) dato dalla probabilità di osservare un valore della statistica test uguale o maggiore del valore ottenuto mediante i dati campionari sotto ipotesi nulla. Con riferimento al p-value, il parametro stimato è considerato significativo (cioè si rifiuta l’ipotesi H0 che il valore del parametro sia pari zero) quando il corrispondente p-value è inferiore ad un livello di significatività α adeguato. Ad esempio se α è pari a 0,05, il parametro stimato si riterrà significativamente diverso da zero se il p-value 62 osservato è inferiore a 0,05. Analisi della varianza nella regressione Il test di significatività di X ovvero H 0 : β = 0 può essere derivato anche dalla procedura di analisi della varianza (ANOVA) Ricordando la scomposizione della devianza totale SQT=SQR+SQE, si può dimostrare che, sotto H0, n 2 SQR 1 = SQE (n − 2) ∑ (ŷ i=1 n i − y) 1 ∑ ê (n − 2) i=1 ~ F(1;n − 2) 2 i dove F(1,n-2) indica la distribuzione F di Fisher con 1,n-2 gradi di libertà 63 Tavola ANOVA Sorgente Somma gdl Media F di variazione dei dei quadrati quadrati Regressione SQR 1 MQR=SQR/1 F=MQR/MQE Errore SQE n-2 MQE=SQE/(n-2) Totale SQT n-1 Valori campionari della statistica F vicini a 1 fanno propendere per accettare H 0 : β = 0 Valori di F molto grandi fanno rifiutare H0 a favore di H1 : β ≠ 0 64 Test F Ad un livello di significatività α, si accetta H0 se F<Fα;1,n-2 In questo caso si conclude che non c’è relazione statisticamente significativa. Si rifiuta H0 se F>Fα;1,n-2, concludendo che Y dipende linearmente da X Fα; 1,n-2 65 Confronto test t – test F Per verificare H 0 : β = 0 contro H1 : β ≠ 0 valgono le uguaglianze (tα 2;n−2 )2 = Fα;1;n−2 (tosservato)2 = Fosservato Quindi si può concludere che nel modello di regressione lineare semplice il test t (con l’ipotesi alternativa bidirezionale) e il test F (ANOVA) sono del tutto equivalenti. Nell’esempio dell’ipermercato (t ) = 3,18 = 10,13 = F (t ) = 4,57 = 20,89 = F 0 ,025 ;3 osservato 2 2 2 2 0 ,025 ;1;3 osservato 66 ESERCIZIO In un ipermercato di Viterbo è stata svolta un‘indagine per rilevare il prezzo del pane negli ultimi cinque mesi (in euro al Kg) e le quantità consumate in media in un giorno (in Kg) prezzo quantità 1,65 210 1,67 198 1,68 176 1,69 175 1,7 174 Stimare la retta di regressione che mette relazione la quantità in funzione del prezzo in 67 Stima dei coefficienti di regressione - Output Excel Intercetta Variabile X 1 Coefficienti 1529 -800 La retta stimata è Y=1529-800X Un aumento di 1€ del prezzo al Kg del pane fa diminuire la quantità media di pane consumato giornalmente di 800 kg Statistica della regressione R al quadrato 0,87 Errore standard 6,73 La dipendenza lineare è forte (R2=0,87) s=6,73 68 Rappresentazione punti osservati e retta di regressione - Output Excel 250 y = -800x + 1529 2 R = 0.8744 200 150 1.64 1.68 1.72 69 Test t - Output Excel Intercetta Variabile X 1 Coefficienti Errore standard 1529 293,69 -800 175,02 Per verificare Stat t p-value 5,21 0,01 -4,57 0,02 H0 : β = 0 H1 : β ≠ 0 t = b −800 = = − 4, 5 7 s (b ) 1 7 5, 0 2 Al livello α=0,05 t 0 , 025 ;3 = ± 3 ,18 -4,57<-3,18 t3 -4,57 -3,18 3,18 Si rifiuta H0 C’è evidenza sufficiente per concludere che la quantità consumata di pane dipende linearmente dal prezzo 70 Esempio Test F ANOVA - Output Excel ANALISI VARIANZA gdl Regressione R Errore E Totale Per verificare SQ 1 947,20 3 136,00 4 1083,20 MQ F 947,20 20,89 45,33 p-value 0,02 H0 : β1 = 0 H1 : β1 ≠ 0 F = MQR 947 ,20 = = 20 ,89 MQE 45,33 Al livello α=0,05 F0,05;1;3 = 10,13 20,89>10,13 Si rifiuta H0 C’è evidenza sufficiente per concludere che la quantità consumata di pane dipende linearmente dal prezzo 71 Utilizzo del modello di regressione per la previsione Fare una previsione può significare due cose : 1) prevedere il valore atteso E(Yi|X=xi) della variabile risposta in corrispondenza di un dato valore di X, diciamo xi [è un parametro, cioè la media di tutte le Y per le unità per le quali X=xi, ad esempio il consumo medio previsto per tutte quelle famiglie con un reddito pari a 40.000€] 2) prevedere il valore singolo della variabile risposta in corrispondenza di un dato valore di x, diciamo xi [è una singola determinazione di Yi, ad esempio il consumo previsto per una particolare famiglia con un reddito di 40.000€] 72 Previsione puntuale e intervallare Nei due casi, la stima puntuale del valore previsto coincide ed è pari a: yˆ i = a + b x i La stima per intervallo, invece, è diversa nei due casi. Il grado di incertezza associato alla previsione di una media è minore del grado di incertezza associato alla previsione di un singolo valore. L’intervallo di confidenza per il valor medio è meno ampio dell’intervallo di confidenza per la previsione di un singolo valore 73 Inferenza per la risposta media Abbiamo visto che lo stimatore di E(Yi|X=xi) è yˆ i = a + b x i La stima del suo errore standard è data da: ( )= s Ŷ i ( )= V Ŷ i ⎡ ⎢1 s2 ⎢ + ⎢n ⎣ Ŷi − E(Yi | X = x i ) ~ t n−2 s Ŷi (x i − ∑ (x h n h =1 x ) 2 − x )2 ⎤ ⎥ ⎥ ⎥ ⎦ ( ) Gli estremi dell’intervallo di confidenza per il valor medio E(Yi|X=xi) a un livello di confidenza ⎡ 1-α sono dati da: 2 ⎢1 xi − x) ( 2 Ŷ i ± t α 2 , n − 2 ⋅ s ⎢ + n 2 ⎢n ∑ (x h − x ) ⎣ h =1 ⎤ ⎥ ⎥ ⎥ ⎦ 74 Esempio: Riprendiamo l’esempio dell’ ipermercato di Viterbo e costruiamo l’intervallo di confidenza al 95% per la quantità media quando il prezzo è pari a 1,66 (valore non osservato di X) Ŷi = 1529 − 800 × 1,66 = 201 ( ) s s Ŷ i = 6 ,73 x 2 ⎡1 ( 1,66 − 1,68 ) ⎤ ⎢ + ⎥ = 4 ,62 0,00148 ⎣5 ⎦ t 3 ,0 ,025 = ± 3,18 n ∑ (x h − x) 2 h =1 Estremi dell’intervallo di confidenza 201 ± 3,18 × 4,62 = 186,31 215,69 75 Inferenza per la previsione di un singolo valore Ad un livello di confidenza 1-α gli estremi dell’intervallo di confidenza per la previsione di un singolo valore sono dati da: Ŷi ± t α 2;n − 2 ⋅ ⎡ ⎢ 1 2 s ⎢1 + + n ⎢ ⎣ ⎤ (x i − x ) ⎥ ⎥ n 2 (x h − x ) ⎥ ∑ ⎦ h =1 2 76 Esempio: Riprendiamo l’esempio dell’ipermercato di Viterbo e costruiamo l’intervallo di previsione al 95% per la quantità prevista per quella unità il cui prezzo è pari a 1,66 Ŷi = 1529 − 800 × 1,66 = 201 2 ⎡ 1 (1,66 − 1,68 ) ⎤ s(previsione valore singolo ) = 6,73 ⎢1 + + ⎥ = 8,16 5 0,00148 ⎣ ⎦ t 0 , 025 , 3 = ± 3 ,18 Estremi dell’intervallo di previsione per il singolo valore 201 ± 3,18 × 8,16 = 175,05 226,95 77 Intervalli di confidenza al 95% per il valore medio e per il valore singolo 250 240 230 220 210 200 190 180 170 160 150 1.62 per il valore singolo per il valore medio 1.64 1.66 1.68 x 1.7 1.72 L’int. di confidenza per il valore medio è meno ampio dell’int. per la previsione del valore singolo. Per entrambi l’ampiezza aumenta quanto più xi si discosta dal valore medio x = 1.68 78 LA REGRESSIONE CON UNA VARIABILE BINARIA Una variabile binaria o dicotomica può assumere solo valore 1 in caso di presenza del corrispondente attributo e valore 0 in caso di assenza. E’ detta anche variabile dummy (o variabile indicatore). Esempio del testo Verbeek M. Campione di salari individuali e variabili demografiche tratto dalla US National Longitudinal Survey. Si tenta di approssimare i salari con una combinazione lineare della costante e di una variabile 0-1 che indica se l’individuo è uomo (Di=1) o donna (Di=0). Utilizzando gli OLS si ottiene: y ˆi = 5,15 y ˆi = 5,15 + 1,17 Di (Di = 0) y ˆi = 5,15 + 1,17 (Di = 1) Il salario di una donna è uguale a 5,15 mentre quello di un uomo è uguale a 5,15+1,17=6,31 I risultati coincidono con le medie campionarie nei due sottoinsiemi 79