Università di Cagliari DICAAR – Dipartimento di Ingegneria Civile, Ambientale e architettura Sezione Trasporti PIANIFICAZIONE DEI TRASPORTI Regressione lineare A.A. 2016-2017 Prof. Italo Meloni Relazione funzionale 2 Dato un set di dati (X,Y), che graficamente è rappresentato da una nuvola di punti nel piano, si vuole trovare la relazione: Y f X Y variabile dipendente; X variabile indipendente; ε variabile aleatoria In particolare la relazione lineare è: Ŷi â b̂X i Valori noti Incognite i 1,..., n Modello di regressione 3 E 0 EY X f X Media degli errori nulla Funzione di regressione Media della variabile dipendente date le X Modello di regressione lineare semplice 4 1. yi 0 1 xi i ; i 1,2,...n. 2. Le εi sono variabili casuali indipendenti con E(εi)=0 e V(εi)=σ2 Non vi è una distorsione sistematica La variabilità non dipende dai valori delle X ed è costante (omoschedasticità) 3. La X è una variabile non stocastica i cui valori sono noti senza errore. Modello di regressione lineare semplice 5 E(εi)=0 in media, la retta di regressione sia corretta Y Ŷ i 0 i 0 X1 X2 X3 X Modello di regressione lineare semplice 6 PDF di εi V(εi)=σ2 varianza costante dei disturbi (omoschedasticità) Y X1 X2 Ŷ X3 X Modello di regressione lineare semplice 7 PDF di εi V(εi)=σi2 varianza non costante dei disturbi (eteroschedasticità) Y X1 X2 Ŷ X3 X Metodo dei minimi quadrati 8 Ricerchiamo i valori di β0 e β1 che rendono minima la seguente espressione: 2 n G 0 , 1 yi 0 1 xi i 1 ˆ0 y ˆ1 x (intercetta) x x y y x x n ˆ 1 i 1 i i n i 1 2 i xy 2 x (pendenza) Il coefficiente di determinazione 9 yi y yi yˆi yˆi y Yˆ ˆ0 ˆ1 X yi y yi yˆi eˆi yˆi y Yy Il coefficiente di determinazione 10 I valori stimati con il metodo dei minimi quadrati soddisfano la seguente relazione (scomposizione della varianza totale): y y y yˆ yˆ y n i i 1 SST (Total Sum of Squares) 2 n 2 i i i 1 SSR (Residual Sum of Squares) n 2 i i 1 SSE (Explained Sum of Squares) Situazioni estreme che possono verificarsi SSE=0, la relazione di regressione non riduce l’incertezza e i valori stimati sono uguali alla media campionaria. SSR=0, la relazione di regressione elimina tutta l’incertezza e i valori stimati sono uguali a quelli osservati; si tratta di una relazione funzionale. Il coefficiente di determinazione 11 Dividendo SSE per il suo valore massimo SST, otteniamo il coefficiente di determinazione: R 2 XY SSE SSR 1 SST SST Rappresenta la proporzione di variabilità di Y spiegata dalla variabile esplicativa X attraverso il modello di regressione. Il coefficiente di determinazione 12 Si può dimostrare che il coefficiente di determinazione è il quadrato del coefficiente di correlazione lineare ρXY : R 2 XY XY 2 XY XY 2 Il coefficiente di determinazione 13 Se R2 = 0 vuol dire che la variabilità residua coincide con quella totale, la retta di regressione è parallela all’asse ed il modello ha un adattamento pessimo. Se R2 = 1 vuol dire che la variabilità residua è nulla e quindi la retta passa esattamente lungo tutti i punti che sono, ovviamente, allineati. Proprietà degli stimatori 14 Siano B0 e B1 gli stimatori di β0 e β1: 1. B0 e B1 sono stimatori corretti di β0 e β1 2. V B1 2 2 x x i 1 i n 2 1 x V B0 2 n 2 n i 1 xi x 3. Nella classe degli stimatori lineari corretti, sono quelli più efficienti. Stimatore della varianza 15 Uno stimatore corretto della varianza dei residui è dato dalla seguente formula: y n s 2 i 1 i yˆ i n2 2 Inferenza sui parametri 16 Yi N 0 1x i , 2 i N 0, 2 B0 0 t n 2 sB0 B1 1 t n 2 sB1 Verifica d’ipotesi 17 B0 b0 H 0 : 0 b0 t tn 2 s B0 B1 b1 H 0 : 1 b1 t tn 2 s B1 Verifica d’ipotesi 18 Una procedura alternativa alla verifica dell’ipotesi H0:β1=0 è l’Analisi della Varianza (ANOVA) SSE 1 F SSR n2 Se H0 è vera la statistica F ha distribuzione F di Fisher con 1 e n-2 gradi di libertà. In particolare se Fα è tale che P(F1,n-2 > Fα) = α allora si respinge l’ipotesi nulla in favore di quella alternativa se F> Fα . Verifica d’ipotesi 19 In particolare se H0: β1= 0 allora con: • H1: β1>0 respingo H0 se toss>tα • H1: β1<0 respingo H0 se toss<-tα • H1: β1≠0 respingo H0 se toss>tα/2 dove α è il livello di significatività del test. Tavola dei valori critici di t 20 In riga sono riportati i gradi di libertà mentre in colonna sono riportati gli errori di primo tipo (a). Nella prima riga sono indicati i livelli di probabilità di errore per il t-test a una coda e per il t-test a due code. Modello multilineare 21 In questo modello compare più di una variabile esplicativa. y X (n x 1) (n x k+1) (k+1 x 1) (n x 1) Stima dei coefficienti 22 1 ˆ X X X y Questi stimatori godono delle stesse proprietà degli stimatori precedentemente calcolati, in particolare: 1 2 ˆ var X X Inferenza sui parametri 23 i N 0, Yi N Xi, 2 2 Bj j sB j t n k 1 Stimatore di σ2: y n s 2 i 1 i yˆ i n k 1 2 1 y Xˆ y Xˆ n k 1 Verifica d’ipotesi 24 H 0 : 1 2 k 0; H1 : i 0, i 1,, k. SSE SSR k n k 1 Fk ,n k 1 Verifica d’ipotesi 25 H 0 : i 0i ; ˆi 0i 12 ii sq tn k 1 dove Q X X 1 H1 : i 0i Usualmente si fa l’ipotesi che βi sia uguale a 0, contro l’ipotesi che sia diverso da 0. Variabile esplicativa aleatoria 26 1.La distribuzione condizionata della Y per X=xi è Normale con media β0+β1xi e varianza σ2. 2.Le Xi sono variabili aleatorie indipendenti, le cui distribuzioni non dipendono da β0, β1 e σ2. 3.Le variabili indipendenti. aleatorie Xi ed εi sono