Modelli statistici Criticità e estensioni del modello lineare F. Pauli A.A. 2016/2017 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Il modello lineare: ipotesi Il modello lineare – e l’inferenza sullo stesso – si basano sugli assunti (a) Y = X β + ε; (b) ε ∼ N 0, σ 2 I ; (c) X non stocastica, rango(X ) = p. Dall’analisi dei residui possono emergere discrepanze tra i dati e uno o più assunti. Che si fa? 1. Niente (cioè uso il modello come se non ci fossero discrepanze) I I Ragionevole se lo scostamento dalle ipotesi è contenuto. Occorre essere coscienti delle conseguenze (quali proprietà non valgono, quali procedure non sono giustificate) 2. Aggiustare il modello. 3. Usare un altro metodo di stima. 4. Abbandonare il modello per un’estensione. F. Pauli Criticità e estensioni del modello lineare 2 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Limiti del modello lineare, cosa può andare storto Si possono avere diverse discrepanze tra dati e assunzioni, in particolare esplodiamo gli assunti sopra e consideriamo Yi = β1 xi1 + . . . + βp xip + εi Y = Xβ + ε V (ε) = Ω E (εi ) = 0 E (Y ) = µ = X β Yi ∼ N (·, ·) εi ∼ N (·, ·) ε ∼ N n (·, ·) omoschedasticità V (Yi ) = V (Y1 ) V (εi ) = V (ε1 ) ωii = ω11 (4) incorrelazione (indipendenza con (2)) Yi ⊥Yj , ∀i 6= j εi ⊥εj , ∀i 6= j ωij = 0, ∀i 6= j (5) X non stocastica a rango pieno (1) linearità (2) normalità (3) E (Yi ) = Pp j=1 xij βj (x1 , . . . , xp ) lin. indip. rango(X ) = p Le espressioni in i si intendono valide per i = 1, . . . , n F. Pauli Criticità e estensioni del modello lineare 3 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Sommario Non linearità Non normalità Eteroschedasticità Dipendenza Multicollinearità Sulle trasformazioni F. Pauli Criticità e estensioni del modello lineare 4 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Non linearità La media di Y è funzione non lineare delle x = (x1 , . . . , xp ) E (Yi |xi ) = f (xi ) 6= xT i β (xi indica qui la riga i-esima della matrice X ). A meno che non sia sufficiente un’approssimazione lineare di f , una condizione di questo tipo rende il modello inadeguato. Due prospettive: 1. una forma funzionale per la relazione tra Y e x è suggerita, a meno di alcuni parametri, dalla teoria sottostante al fenomeno che Y e x descrivono (ad es. una teoria fisica o economica), 2. dobbiamo studiare la relazione tra le quantità senza pregiudizi (suggerimenti). F. Pauli Criticità e estensioni del modello lineare 5 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Non linearità: trasformazioni Nella prima prospettiva, ci si può ricondurre al ML (NB: lineare nei parametri) se la relazione è linearizzabile attraverso I trasformazioni delle xj (g2 , . . . , gp funzioni note) Yi = β1 + β2 g2 (xi2 ) + . . . + βp gp (xip ) + εi I trasformazioni di x e Y , ad es. α2 α3 xi3 Yi = α1 xi2 e εi diviene log Yi = log α1 + α2 log xi2 + α3 xi3 + log εi , F. Pauli Criticità e estensioni del modello lineare 6 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Non linearità: trasformazioni Nella seconda prospettiva I si osserva che la relazione tra Y e x non è adeguatamente descritta da un’applicazione lineare; I si cerca una trasformazione su x e, eventualmente, Y , che ‘linearizzi’ la relazione; I tranne che nel caso di un’unica variabile esplicativa questo è un modo poco realistico di procedere, e anche poco efficiente dato che le trasformazioni possibili sono infinite; √ è in ogni caso ragionevole provarne alcune, tipicamente x, 1/x, x 2 o log x o analoghe per y . I F. Pauli Criticità e estensioni del modello lineare 7 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Modelli non lineari Sarebbe utile un metodo per stimare una funzione f (x) = E (Y |x) senza fare particolari ipotesi sulla forma di f . A questa esigenza rispondono i modelli di regressione semiparametrici e non parametrici I modello polinomiale (naı̈f) I regressione col metodo del nucleo (kernel regression) I polinomi locali (loess) funzioni spline I I I di regressione (regression splines) di lisciamento (smoothing splines) F. Pauli Criticità e estensioni del modello lineare 8 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Modello polinomiale Un’alternativa alle trasformazione è usare un modello che stimi una relazione non lineare, la cosa più semplice è specificare un modello polinomiale (consideriamo un’unica esplicativa) Yi = β1 + p X β1+j x j + εi j=1 + i polinomi, se di grado sufficiente, possono approssimare qualunque funzione − la scelta del grado è cruciale. − può portare problemi di multicollinearità. In pratica, funziona in casi semplici con grado basso (ma non estrapolare). F. Pauli Criticità e estensioni del modello lineare 9 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 0.4 0.6 0.8 1.0 2 −2 −1 0 0.0 0.2 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 1 p= 6 −3 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0 −2 −2 −1 0 1 2 p= 8 p= 9 −4 −3 −4 p= 7 0.2 2 0.2 0.0 p= 5 0 1 2 0.0 −2 p= 4 p= 3 −1 0 0 0 1 1 2 2 0.2 p= 2 2 p= 1 0.0 −2 −1 1 2 1 0 −2 −1 −2 −1 0 1 2 Modello polinomiale: esempio 0.0 0.2 0.4 0.6 F. Pauli 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 Criticità e estensioni del modello lineare 10 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 0.2 0.4 0.6 0.8 1.0 2 0.0 0.2 −2 −1 0.4 0.6 0.8 1.0 p= 3 0.0 0.2 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 0 1 2 1 2 0.0 p= 2 2 p= 1 0 1 2 1 0 −2 −1 −2 −1 0 1 2 Modello polinomiale: esempio 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.4 0.6 0.8 1.0 0.2 −2 p= 7 0.0 F. Pauli p= 8 0.0 0.2 0.0 −2 0 2 4 6 8 2 4 6 8 0 1 2 3 4 0.2 −8 p= 4 0.0 −2 −4 −1 −3 −2 −1 0 p= 6 p= 5 0.2 p= 9 0.0 0.2 Criticità e estensioni del modello lineare 10 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 1.0 Regressione col metodo del nucleo, stimatore di Nadaraya-Watson 0.8 L’obiettivo è la stima di −0.2 0.0 0.2 y 0.4 0.6 f (x) = E (Y |X = x) 0.2 0.4 0.6 0.8 1.0 L’idea più semplice è la media dei punti vicini P i:|x−xi |<h yi fˆ(x) = #{i : |x − xi | < h} x F. Pauli Criticità e estensioni del modello lineare 11 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 1.0 Regressione col metodo del nucleo, stimatore di Nadaraya-Watson 0.8 L’obiettivo è la stima di −0.2 0.0 0.2 y 0.4 0.6 f (x) = E (Y |X = x) 0.2 0.4 0.6 0.8 1.0 L’idea più semplice è la media dei punti vicini P i:|x−xi |<h yi fˆ(x) = #{i : |x − xi | < h} x F. Pauli Criticità e estensioni del modello lineare 11 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 1.0 Regressione col metodo del nucleo, stimatore di Nadaraya-Watson 0.8 L’obiettivo è la stima di y −0.2 0.0 0.2 0.4 0.6 f (x) = E (Y |X = x) 0.2 0.4 0.6 0.8 1.0 L’idea più semplice è la media dei punti vicini P i:|x−xi |<h yi fˆ(x) = #{i : |x − xi | < h} x Una versione più sofisticata prevede di pesare le osservazioni in base alla vicinanza a x Pn x−xi K yi i=1 h fˆ(x) = Pn x−xi i=1 K h dove K è una funzione opportuna, ad esempio la densità della N (0, 1) F. Pauli Criticità e estensioni del modello lineare 11 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Sommario Non linearità Non normalità Eteroschedasticità Dipendenza Multicollinearità Sulle trasformazioni F. Pauli Criticità e estensioni del modello lineare 12 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Non normalità La normalità ‘serve’ per l’inferenza sui parametri. In assenza di normalità I non valgono gli i.c. o test; I d’altra parte, gli SMQ sono corretti e efficienti (cioè a varianza minore) tra gli stimatori lineari corretti (teorema di Gauss-Markov); I non sono di massima verosimiglianza; I vale l’interpretazione geometrica. Le opzioni in caso di non normalità includono I tenersi gli SMQ con le proprietà che hanno; I trasformazioni normalizzanti (Box-Cox); I GLM F. Pauli Criticità e estensioni del modello lineare 13 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Ipotesi del II ordine e teorema di Gauss-Markov Teorema di Gauss-Markov Si assume (a) Y = X β + ε; (b’) V (ε) = σ 2 I ; (c) X non stocastica a rango pieno. indicando con β̂ lo SMQ, se β̃ è uno stimatore lineare e corretto di β, allora V (β̃i ) ≥ V (β̂i ) per i = 1, . . . , p. F. Pauli Criticità e estensioni del modello lineare 14 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Teorema di Gauss-Markov, dimostrazione Essendo lineare, β̃ può essere scritto, posto A = (X T X )−1 X T β̃ = Ly = (A + C )y = β̂ + C y Essendo β̃ corretto, si ha ∀β β = E (β̃) = (A + C )E (y) = (A + C )X β = β(I + CX ) ⇒ CX = 0 La varianza è dunque V (β̃) = V ((A + C )y) = (A + C )V (y)(A + C )T = σ 2 (AAT + CAT + AC T + CC T ) = σ 2 (X T X )−1 + σ 2 CC T = V (β̂) + σ 2 CC T poiché AC T = CAT = C ((X T X )−1 X T )T = CX (X T X )−1 = 0. F. Pauli Criticità e estensioni del modello lineare 15 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Teorema di Gauss-Markov, dimostrazione Essendo lineare, β̃ può essere scritto, posto A = (X T X )−1 X T β̃ = Ly = (A + C )y = β̂ + C y Essendo β̃ corretto, si ha ∀β β = E (β̃) = (A + C )E (y) = (A + C )X β = β(I + CX ) ⇒ CX = 0 La varianza è dunque V (β̃) = V ((A + C )y) = V (β̂) + σ 2 CC T Siccome i termini diagonali di CC T sono non negativi (somma di quadrati) si ha la tesi. F. Pauli Criticità e estensioni del modello lineare 15 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Teorema di Gauss-Markov, estensione Questa proprietà si estende a combinazioni lineari di β nel senso che ψ̂ = aT β̂ è lo stimatore più efficiente di ψ = aT β tra gli stimatori lineari non distorti. Entrambe le affermazioni seguono immediatamente dalla seguente formulazione del teorema. Teorema di Gauss-Markov II Nelle ipotesi (a), (b’), (c) e indicando con β̂ lo stimatore dei minimi quadrati, se β̃ è uno stimatore lineare e corretto di β, allora V (β̃) ≥ V (β̂) nel senso che V (β̃) − V (β̂) è semidefinita positiva. F. Pauli Criticità e estensioni del modello lineare 16 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Teorema di Gauss-Markov, estensione, dimostrazione Sia β̃ lineare, I β̃ = C T y con C (n × p), I V (β̃) = σ 2 C T C ricordando anche che V (β̂) = σ 2 (X T X )−1 , V (β̃) − V (β̂) =σ 2 (C T C − (X T X )−1 ). Essendo poi β̃ corretto si ha C T E (y) = C T X β = β e quindi C T X = X T C = I , si può scrivere perciò V (β̃) − V (β̂) =σ 2 (C T C − C T X (X T X )−1 X T C ) =σ 2 C T (I − P)C , essendo però (I − P) idempotente si ha, per qualunque a ∈ Rp , aT C T (I − P)C a = aT C T (I − P)T (I − P)C a = ||(I − P)C a||2 ≥ 0, come volevasi dimostrare. F. Pauli Criticità e estensioni del modello lineare 17 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Teorema di Gauss-Markov, estensione, conseguenze Da questo discende 1. essendo i termini sulla diagonale di una matrice semidefinita positiva non negativi V (β̃i ) ≥ V (β̂i ) (cioè la prima formulazione del teorema diventa un caso particolare); 2. posto ψ̃ = aT β̃ si ha allora V (ψ̃) = aT V (β̃)a e quindi V (ψ̃) − V (ψ̂) = aT V (β̃)a − aT V (β̂)a = aT (V (β̃) − V (β̂))a ≥ 0. F. Pauli Criticità e estensioni del modello lineare 18 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni di Box-Cox Un’altra strategia è di rintracciare una trasformazione f tale per cui f (Y ) ∼ N () e modellare il trasformato. Una classe di trasformazioni tra cui cercare è quella di Box-Cox, per y > 0 ( λ y −1 λ 6= 0, λ yλ = φλ (y ) = log y λ = 0; che può essere estesa a y qualunque come ( λ yλ,ν = φλ,ν (y ) = (y +ν) −1 λ log(y + ν) λ 6= 0, λ = 0. Il parametro λ può essere scelto per tentativi, provando l’effetto di diversi valori sulla distribuzione, oppure stimato col metodo della massima verosimiglianza. F. Pauli Criticità e estensioni del modello lineare 19 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni di Box-Cox, stima di λ L’obiettivo è trovare un λ per il quale il trasformato yλ soddisfa yλ ∼ N X β, σ 2 I cioè tale che la densità di yλ è 2 −n/2 f (yλ ) = (2πσ ) 1 T exp − 2 (yλ − X β) (yλ − X β) 2σ da questo, la densità di y è f (y) = f (yλ )J(λ, y) = f (yλ ) n Y yiλ−1 i=1 allora Y n 1 yiλ−1 . L(λ, β, σ 2 ) ∝ f (y) = (2πσ 2 )−n/2 exp − 2 (yλ − X β)T (yλ − X β) 2σ i=1 F. Pauli Criticità e estensioni del modello lineare 20 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni di Box-Cox, stima di λ Vogliamo usare Y n 1 L(λ, β, σ 2 ) ∝ f (y) = (2πσ 2 )−n/2 exp − 2 (yλ − X β)T (yλ − X β) yiλ−1 . 2σ i=1 per l’inferenza su λ, un modo è ricavare la verosimiglianza profilo, notiamo che fissato λ il massimo si ha per β̂λ = (X T X )−1 X T yλ σ̂λ2 = (yλ − X β̂λ )T (yλ − X β̂λ )/n la verosimiglianza (profilo) per λ è dunque Lp (λ) = argmaxL(λ, β, σ 2 ) = L(λ, β̂λ , σ̂λ2 ) β,σ 2 n n n oY 2 ∝ exp − log σ̂λ yiλ−1 . 2 i=1 F. Pauli Criticità e estensioni del modello lineare 21 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni di Box-Cox, stima di MV per λ Si ha quindi n X n n lp (λ) = − log σ̂λ2 + (λ − 1) log yi = − log 2 2 i=1 σ̂λ2 ( ! 2(λ−1)/n i=1 yi ) Qn Si noti che sλ2 = σ̂λ2 Qn ( i=1 yi )2(λ−1)/n = T 1 yλ − X β̂λ yλ − X β̂λ Q λ−1 Q λ−1 n 1/n 1/n n n i=1 yi i=1 yi 1 T y (I − P)yλ,g n λ,g Q 1/n dove yλ,g = yλ /( ni=1 yi ) e P è la matrice di proiezione associata al modello. La quantità nsλ2 è quindi la somma dei quadrati dei residui per il modello yλ,g = X β + ε, = F. Pauli Criticità e estensioni del modello lineare 22 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni di Box-Cox, procedura 1. per una griglia di valori di λ ottengo la verosimiglianza profilo lp (λ) I I stimo il modello yλ,g = X β + ε ricavo σ̂λ2 e quindi lp (λ) con le formule sopra 2. determino λ ottimale 3. calcolo il trasformato conseguente e poi impiego il modello lineare sul trasformato. Si noti che cosı̀ facendo l’inferenza sul modello lineare (su β e σ 2 ) è fatta condizionatamente al valore scelto per λ, è stato argomentato che questo ha un effetto contenuto sui risultati. F. Pauli Criticità e estensioni del modello lineare 23 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazione di Box-Cox: esempio 25 (Intercept) x Estimate 4.6271 11.9775 Std. Error 2.5185 1.8616 t value 1.84 6.43 Pr(>|t|) 0.0724 0.0000 10 15 20 y 30 35 40 Il ML Yi = β1 + β2 xi + εi porta a 0.5 1.0 1.5 2.0 10 5 0 −5 Sample Quantiles 15 x −2 −1 0 1 2 Theoretical Quantiles F. Pauli Criticità e estensioni del modello lineare 24 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazione di Box-Cox: esempio 25 Estimate 4.6271 11.9775 (Intercept) x Std. Error 2.5185 1.8616 t value 1.84 6.43 Pr(>|t|) 0.0724 0.0000 10 15 20 y 30 35 40 Il ML Yi = β1 + β2 xi + εi porta a Si disegna perciò la log-verosimiglianza profilo. 1.0 1.5 2.0 −25 0.5 95% −35 −40 −45 10 5 −1 0 1 2 0 −2 λ −5 Sample Quantiles 15 log−Likelihood −30 x −2 −1 0 Theoretical Quantiles 1 2 Questa è massima in λ̂ = −0.1, si trasformano perciò i dati secondo la yλ̂ = (y −0.1 − 1)/ − 0.1 e si stima un nuovo modello, yλ̂,i = β10 + β20 xi + ε0i F. Pauli Criticità e estensioni del modello lineare 24 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazione di Box-Cox: esempio 25 (Intercept) x Estimate 4.6271 11.9775 Std. Error 2.5185 1.8616 t value 1.84 6.43 Pr(>|t|) 0.0724 0.0000 t value 21.84 8.02 Pr(>|t|) 0.0000 0.0000 10 15 20 y 30 35 40 Il ML Yi = β1 + β2 xi + εi porta a 0.5 1.0 1.5 2.0 Il modello yλ̂,i = β10 + β20 xi + ε0i porta a Std. Error 0.0862 0.0637 0 Confrontiamo la previsione di Y ottenuta col modello iniziale (in nero) e quella ottenuta col modello trasformato (in rosso), −2 −1 0 1 2 ŷˆ = (λ̂ŷλ̂ + 1)1/λ̂ 0.4 Theoretical Quantiles 0.0 0.2 = (λ̂(β̂10 + β̂20 x) + 1)1/λ̂ −0.2 Sample Quantiles Estimate 1.8823 0.5109 5 10 (Intercept) x −5 Sample Quantiles 15 x −2 −1 0 Theoretical Quantiles F. Pauli 1 2 Criticità e estensioni del modello lineare 24 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Limiti delle trasformazioni Il metodo di trasformare la variabile risposta è spesso efficace. Si noti anche che si hanno diverse classi all’interno delle quali fare la ricerca. Ha i limiti insiti nelle trasformazioni (discussi poi). In ogni caso, ci sono situazioni in cui nessuna trasformazione può normalizzare la y , ad esempio quando questa ha valori discreti (si pensi al caso limite in cui Y è una variabile di Bernoulli), in questi casi occorre cambiare il modello. F. Pauli Criticità e estensioni del modello lineare 25 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Modelli lineari generalizzati (GLM) Classe di modelli per variabile risposta non normale, si assume y θi − b(θi ) Yi ∼ f (y , θi , ν) = exp − + κ(y , ν) ν e che una funzione della media sia funzione lineare delle variabili esplicative, g (E (Yi )) = xT i β. Nella classe esponenziale rientrano numerose distribuzioni, continue e discrete quali la distribuzione gamma, la Poisson, la binomiale. Con i GLM si modella dunque la media della variabile risposta, legando quest’ultima a una funzione lineare delle variabili esplicative. Si noti che non si ha la struttura additiva segnale+errore del modello lineare. F. Pauli Criticità e estensioni del modello lineare 26 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Sommario Non linearità Non normalità Eteroschedasticità Dipendenza Multicollinearità Sulle trasformazioni F. Pauli Criticità e estensioni del modello lineare 27 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Eteroschedasticità Sia V (εi ) = V (Yi |xi ) = σi2 lo SMQ è corretto ma non efficiente, è ancora normale ma la matrice di varianza è (X T X )−1 X T V (ε)X (X T X )−1 e risultati conseguenti. Nel seguito si trattano tre possibili rimedi, I si stima il modello con i minimi quadrati, ma si calcola la matrice di varianza dello stimatore tenendo conto dell’eteroschedasticità; I si modifica il modello trasformando la variabile risposta (si parla di trasformazioni per stabilizzare la varianza); I il modello è invariato ma si modifica il metodo di stima, usando i minimi quadrati generalizzati. F. Pauli Criticità e estensioni del modello lineare 28 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Stimatori consistenti per V (β̂) in presenza di eteroschedasticità Se V (ε) = Ω con Ω diagonale, allora si hanno degli stimatori consistenti per V (β̂) ponendo V̂ (β̂) = (X T X )−1 X T Ω̂X (X T X )−1 dove Ω̂ = diag(ω1 , . . . , ωn ) e HC 0 : ωi = ei2 n e2 n−p i 1 HC 2 : ωi = e2 1 − hii i 1 HC 3 : ωi = e2 (1 − hii )2 i 1 HC 4 : ωi = e 2 , δi = min{4, hii /h̄} (1 − hii )δi i HC 1 : ωi = F. Pauli Criticità e estensioni del modello lineare 29 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni per stabilizzare la varianza Un’opzione è, anche qui, operare una trasformazione della Y , questa è un’alternativa efficace se la varianza di Y è legata alla media, V (Yi ) ≈ φh(E (Yi )), in tal caso infatti una trasformazione Yi∗ = g (Yi ) ha, usando il metodo delta, varianza approssimativamente pari a V (g (Yi )) ≈ g 0 (E (Yi ))2 V (Yi ) = g 0 (E (Yi ))2 φh(E (Yi )) = φ, che è costante se h(·) ∝ 1/(g 0 (·))2 . F. Pauli Criticità e estensioni del modello lineare 30 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni per stabilizzare la varianza Un’opzione è, anche qui, operare una trasformazione della Y , questa è un’alternativa efficace se la varianza di Y è legata alla media, V (Yi ) ≈ φh(E (Yi )), Alcune trasformazioni che stabilizzano specifici schemi di varianza: schema h(µ) V (Y ) = φE (Y ) V (Y ) = φE (Y )2 V (Y ) = φE (Y )3 V (Y ) = φE (Y )(1 − E (Y )) µ µ2 µ3 µ(1 − µ) F. Pauli g (y ) √ y log y y −1/2 √ sin−1 y (g 0 (y ))−2 4y y2 4y 3 4y (1 − y ) Criticità e estensioni del modello lineare 30 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità Trasformazioni per stabilizzare la varianza: √ • Trasformazioni • Y 0 20 y 40 Si considerino i dati (xi , Yi ) nella figura, stimando su essa il modello 0 2 4 6 8 Yi = β1 + β2 x + εi 10 2 si ottiene 0 (Intercept) x 10 20 30 40 50 fitted(fit) Std. Error 1.5151 0.2798 t value 1.15 17.00 Pr(>|t|) 0.2560 0.0000 e residui evidentemente eteroschedastici. 0 1 Si procede perciò a trasformare la variabile √ risposta definendo Yi∗ = Yi e si ha (Intercept) x −2 rstandard(fit1) Estimate 1.7419 4.7575 −2 rstandard(fit) x 2 3 4 5 fitted(fit1) F. Pauli 6 7 Estimate 2.0945 0.5388 Std. Error 0.1769 0.0327 t value 11.84 16.49 Pr(>|t|) 0.0000 0.0000 e l’analisi dei residui è soddisfacente. Criticità e estensioni del modello lineare 31 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Minimi quadrati generalizzati I minimi quadrati generalizzati sono un metodo di stima alternativo, usando il quale si mantiene invariata la struttura di base del modello, si ha cioè ancora Y = X β + ε. ma V (ε) = σ 2 Ω, dove Ω è una matrice nota. La log-verosimiglianza del modello è allora n 1 l(β, σ 2 ) = − log σ 2 − 2 (y − X β)T Ω−1 (y − X β) 2 2σ e quindi lo SMV è β̂ = argmin(y − X β)T Ω−1 (y − X β) = (X T Ω−1 X )−1 X T Ω−1 y. β Diventa poi banale calcolare la matrice di varianza e successivamente fare inferenza sui parametri, si noti infatti che β̂ è ancora una funzione lineare delle osservazioni. F. Pauli Criticità e estensioni del modello lineare 32 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Minimi quadrati generalizzati Se Ω è diagonale con i GLS si minimizza la funzione SQg = n X 1 2 (yi − xT i β) ωii i=1 Peso lo scarto i-esimo in ragione del rapporto tra varianze (pesano meno gli scostamenti dalle yi ove la varianza è maggiore). Si può interpretare la stima GLS come una stima OLS su dei dati trasformati linearmente: I posto Ω−1 = G T G I lo stimatore GLS è lo stimatore OLS per il modello con risposta Y ∗ = G Y e X = GX . Se la matrice Ω non è nota o è solo parzialmente nota, l’inferenza si complica. F. Pauli Criticità e estensioni del modello lineare 33 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 4 Minimi quadrati generalizzati: esempio −1 0 1 y 2 3 È noto che la varianza è 16 volte più grande quando x < 1/4 o x > 3/4, il vero modello è E (Y ) = 1 + x 0.0 0.2 0.4 0.6 0.8 1.0 x F. Pauli Criticità e estensioni del modello lineare 34 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 4 Minimi quadrati generalizzati: esempio −1 0 1 y 2 3 È noto che la varianza è 16 volte più grande quando x < 1/4 o x > 3/4, il vero modello è E (Y ) = 1 + x 0.0 0.2 0.4 0.6 0.8 1.0 2 3 x 0 −1 −2 rstandard(fit) 1 Stima OLS, s = 0.656 −3 (Intercept) x 1.0 1.2 1.4 1.6 1.8 Std. Error 0.0717 0.1211 t value 14.33 7.92 Pr(>|t|) 0.0000 0.0000 2.0 (gli s.e. consistenti sono 0.082 e 0.156) 2 fitted(fit) −1 0 1 Stime GLS, s = 0.201 −2 (Intercept) x −3 residuals(fit1, type = "pearson") Estimate 1.0270 0.9599 1.0 1.2 1.4 1.6 1.8 Value 1.03 0.98 Std.Error 0.05 0.09 t-value 21.01 10.45 p-value 0.00 0.00 2.0 fitted(fit1) F. Pauli Criticità e estensioni del modello lineare 34 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 4 Minimi quadrati generalizzati: esempio −1 0 1 y 2 3 È noto che la varianza è 16 volte più grande quando x < 1/4 o x > 3/4, il vero modello è E (Y ) = 1 + x 0.0 0.2 0.4 0.6 0.8 1.0 −2 −1 0 1 Stima OLS, s = 0.656 (Intercept) x −3 Sample Quantiles 2 3 x −3 −2 −1 0 1 2 Estimate 1.0270 0.9599 Std. Error 0.0717 0.1211 t value 14.33 7.92 Pr(>|t|) 0.0000 0.0000 3 (gli s.e. consistenti sono 0.082 e 0.156) −1 0 1 Stime GLS, s = 0.201 −2 (Intercept) x −3 Sample Quantiles 2 Theoretical Quantiles −3 −2 −1 0 1 2 Value 1.03 0.98 Std.Error 0.05 0.09 t-value 21.01 10.45 p-value 0.00 0.00 3 Theoretical Quantiles F. Pauli Criticità e estensioni del modello lineare 34 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • y 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 Minimi quadrati generalizzati: esempio È noto che la varianza è proporzionale a x, il vero modello è E (Y ) = 1 + x. 0.5 1.0 1.5 2.0 x F. Pauli Criticità e estensioni del modello lineare 35 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • y 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 Minimi quadrati generalizzati: esempio È noto che la varianza è proporzionale a x, il vero modello è E (Y ) = 1 + x. 0.5 1.0 1.5 2.0 x 1 −1 0 (Intercept) x Estimate 1.0808 0.8903 Std. Error 0.0804 0.0664 t value 13.45 13.41 Pr(>|t|) 0.0000 0.0000 −3 −2 rstandard(fit) 2 3 Stima OLS, s = 0.485 1.5 2.0 2.5 (gli s.e. consistenti sono 0.058 e 0.072) fitted(fit) 0 Estimate 1.0402 0.9356 Std. Error 0.0303 0.0474 t value 34.34 19.73 Pr(>|t|) 0.0000 0.0000 −2 −1 (Intercept) x −3 rstandard(fit1) 1 2 Stime GLS, s = 0.391 1.5 2.0 2.5 fitted(fit1) F. Pauli Criticità e estensioni del modello lineare 35 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • y 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 Minimi quadrati generalizzati: esempio È noto che la varianza è proporzionale a x, il vero modello è E (Y ) = 1 + x. 0.5 1.0 1.5 2.0 x 1 −1 0 (Intercept) x Estimate 1.0808 0.8903 Std. Error 0.0804 0.0664 t value 13.45 13.41 Pr(>|t|) 0.0000 0.0000 −3 −2 Sample Quantiles 2 3 Stima OLS, s = 0.485 −3 −2 −1 0 1 2 3 (gli s.e. consistenti sono 0.058 e 0.072) Theoretical Quantiles 0 Estimate 1.0402 0.9356 Std. Error 0.0303 0.0474 t value 34.34 19.73 Pr(>|t|) 0.0000 0.0000 −2 −1 (Intercept) x −3 Sample Quantiles 1 2 Stime GLS, s = 0.391 −3 −2 −1 0 1 2 3 Theoretical Quantiles F. Pauli Criticità e estensioni del modello lineare 35 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Quale opzione? Stimatore consistente per V (β̂) + semplice, non cambio le stime − ha una giustificazione asintotica, è comunque una soluzione approssimata Trasformazione + soluzione “esatta” (se la trasformazione funziona, ma questo è verificabile) − modello una variabile diversa, l’interpretazione sulla scala originale può essere difficile Minimi quadrati generalizzati + soluzione “esatta”, purché valgano le ipotesi che facciamo sulle varianze − richiede ipotesi sulle varianze che possono non essere facili da formulare F. Pauli Criticità e estensioni del modello lineare 36 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Sommario Non linearità Non normalità Eteroschedasticità Dipendenza Multicollinearità Sulle trasformazioni F. Pauli Criticità e estensioni del modello lineare 37 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Dipendenza La dipendenza può assumere molte forme. In genere è legata alla struttura delle unità statistiche I se le u.s. sono osservazioni di un fenomeno nello spazio, punti spazialmente vicini possono essere “simili”, Yi sarà tanto più correlato a Yj quanto più i siti delle osservazioni i e j sono vicini. I se le osservazioni sono raggruppate: ciascuna osservazione è uno studente, gli studenti appartengono a diverse classi, le u.s. che appartengono alla stessa classe sono correlate. I ci sono osservazioni ripetute dello stesso individuo: pressione sanguigna misurata in momenti diversi della giornata per n individui. I se le osservazioni sono temporali (Yt , xt ) (dove t rappresenta il tempo) è possibile che osservazioni vicine nel tempo siano correlate. Spesso la correlazione nei residui può essere legata all’omissione di un’esplicativa rilevante. F. Pauli Criticità e estensioni del modello lineare 38 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Dipendenza temporale Illustriamo il problema nel caso di dipendenza temporale, si hanno cioè osservazioni nel tempo (Yt , xt ) (per semplicità consideriamo un’unica esplicativa), i dati provengono da Yt = β1 + β2 xt + εt εt = ρεt−1 + ut , ut ∼ IID(N (0, σ 2 )) si dice che gli errori εt seguono un processo autoregressivo di ordine 1 (AR(1)). Ci sono due passi I verificare se vi è dipendenza → test di Durbin-Watson I se la dipendenza c’è, stimare il modello tenendone conto → metodo di Cochrane-Orcutt F. Pauli Criticità e estensioni del modello lineare 39 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 1.0 0.5 et 0.0 −1.0 −0.5 0.0 −1.0 −0.5 et 0.5 1.0 Individuazione della dipendenza temporale 0 50 100 150 200 t Il grafico dei residui contro l’indice temporale, in presenza di autocorrelazione positiva, residui successivi tendono ad avere lo stesso segno ed essere vicini tra loro. F. Pauli −1.0 −0.5 0.0 0.5 1.0 et−1 Può essere utile anche un grafico di et contro et−1 , in caso di correlazione dovrebbe mostrare un andamento lineare. Criticità e estensioni del modello lineare 40 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 1.0 0.5 et 0.0 −0.5 −1.0 −1.0 −0.5 et 0.0 0.5 1.0 Individuazione della dipendenza temporale 0 50 100 150 200 t Il grafico dei residui contro l’indice temporale, in presenza di autocorrelazione negativa, residui successivi tendono ad avere segno opposto ed essere lontani. F. Pauli −1.0 −0.5 0.0 0.5 1.0 et−1 Può essere utile anche un grafico di ei contro ei−1 , in caso di correlazione dovrebbe mostrare un andamento lineare con pendenza negativa. Criticità e estensioni del modello lineare 41 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Individuazione della dipendenza: test di Durbin-Watson Ci si basa sulla statistica Pn (et − et−1 )2 d = t=2Pn 2 t=1 et F. Pauli Criticità e estensioni del modello lineare 42 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Individuazione della dipendenza: test di Durbin-Watson Ci si basa sulla statistica Pn Pn Pn Pn 2 2 (et − et−1 )2 t=1 et + t=2 et−1 − 2 t=2 et et−1 t=2 Pn Pn d= = 2 2 t=1 et t=1 et Pn t=1 et et−1 ≈2 1− P = 2(1 − r ) n 2 t=1 et dove r è la correlazione empirica tra et e et−1 , dunque d ∈ [0, 4] e I d vicino a 2 indica assenza di correlazione I d vicino a 0 (4) indica correlazione positiva (negativa) si hanno dei valori tabulati dL e dU tali per cui se d < dL o d > 4 − dL rifiuto H0 : ρ = 0 accetto H0 : ρ = 0 se dU < d < 4 − dU inconclusivo altrimenti Valori critici esatti dipendono dalle specifiche X a disposizione. F. Pauli Criticità e estensioni del modello lineare 42 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Metodo di Cochrane-Orcutt Se la struttura del modello è Yt = β1 + β2 xt + εt εt = ρεt−1 + ut , ut ∼ IID(N (0, σ 2 )) allora si ha, per t = 2, . . . , n Yt − ρYt−1 = β1 (1 − ρ) +β2 (xt − ρxt−1 ) + (εt − ρεt−1 ) | {z } | {z } | {z } | {z } =Yt∗ =β1∗ =xt∗ =ut si ha il modello lineare con errori indipendenti Yt∗ = β1∗ + β2 xt∗ + ut , t = 2, . . . , n si potrebbe allora stimare β2 da questo, richiede però di conoscere ρ. F. Pauli Criticità e estensioni del modello lineare 43 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Metodo di Cochrane-Orcutt Il metodo procede come segue 1. stimo Yt = β1 + β2 xt + εt e ottengo et 2. sulla base degli et stimo et = ρet−1 + ut e ottengo ρ̂ 3. calcolo Yt∗∗ = Yt − ρ̂Yt−1 , xt∗∗ = xt − ρ̂xt−1 4. stimo Yt∗∗ = β1∗∗ + β2 xt∗∗ + ut , t = 2, . . . , n da cui β̂1∗∗ (e quindi β̂1 ) e β̂2 5. usando β̂1 e β̂2 calcolo nuovi residui et 6. riprendo da 2 a meno che stime successive di ρ̂ siano molto simili. Si noti che gli stimatori cosı̀ ottenuti non sono corretti e che le procedure di inferenza usuali sono solo approssimate. F. Pauli Criticità e estensioni del modello lineare 44 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Stimatori consistenti per V (β̂) in presenza di correlazione Una soluzione più generale, ma approssimata, prevede di continuare a usare gli stimatori dei MQ ma calcolare la matrice divarianza e covaranza tenendo conto della dipendenza, detta V (ε) = Ω −1 −1 T T X ΩX V (β̂) = X T X X X | {z } =nΦ dove Φ è la matrice di varianza e covarianza delle Si (β) = xi (yi − xT i β), si può allora stimare Φ con 1 XX w|i−j| Si (β̂)Sj (β̂) Φ̂ = n i j dove w|i−j| sono pesi, generalmente decrescenti con |i − j|, ad esempio ( 1 − |i−j| se |i − j| ≤ L L+1 w|i−j| = 0 altrimenti F. Pauli Criticità e estensioni del modello lineare 45 / 60 • • Non normalità Non linearità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • −2 −1 0 1 y 2 3 4 Stimatori consistenti per V (β̂): esempio −2 −1 0 1 2 La stima “solita” porta a 1.0 x et −0.5 0.0 0.5 (Intercept) x Estimate 1.0000 1.0009 Std. Error 0.0353 0.0355 t value 28.30 28.17 Pr(>|t|) 0.0000 0.0000 −1.0 Se si impiega la correzione 0 50 100 150 200 t Estimate 1.0000 1.0009 Std. Error 0.0353 0.0355 Corr s.e. 0.0722 0.0665 −1.0 −0.5 et 0.0 0.5 1.0 (Intercept) x −1.0 −0.5 0.0 0.5 1.0 et−1 F. Pauli Criticità e estensioni del modello lineare 46 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Metodo di Cochran-Orcutt La statistica di Durbin-Watson vale 0.801 e corrisponde a un valore p (tabulato) 0. F. Pauli Criticità e estensioni del modello lineare 47 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Metodo di Cochran-Orcutt A partire dalle stime β̂1 e β̂2 in tabella (Intercept) x Estimate 1.0000 1.0009 Std. Error 0.0353 0.0355 t value 28.30 28.17 Pr(>|t|) 0.0000 0.0000 calcoliamo et = yt − β̂1 − β̂2 xt e con essi stimiamo il modello et = ρet−1 + ut → ρ̂ = 0.5977 usando ρ̂ stimiamo il modello Yt − ρ̂Yt−1 = β1∗ + β2 (xt − ρ̂xt−1 ) + ut (Intercept) x.i Estimate 0.4031 0.9708 Std. Error 0.0284 0.0708 t value 14.18 13.72 Pr(>|t|) 0.0000 0.0000 da cui β̂2 = 0.9708 e β̂1 = F. Pauli 0.4031 β̂1∗ = = 1.002 1 − ρ̂ 1 − 0.5977 Criticità e estensioni del modello lineare 47 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Metodo di Cochran-Orcutt Al passo successivo si ha ρ̂ = 0.5981 e la stima (Intercept) x.i Estimate 0.4027 0.9708 Std. Error 0.0284 0.0708 t value 14.16 13.70 Pr(>|t|) 0.0000 0.0000 t value 14.16 13.70 Pr(>|t|) 0.0000 0.0000 e ancora ρ̂ = 0.5981 e la stima (Intercept) x.i F. Pauli Estimate 0.4027 0.9708 Std. Error 0.0284 0.0708 Criticità e estensioni del modello lineare 47 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Effetto della correlazione Nel seguito si simulano dei campioni (xi , Yi ), i = 1, . . . , n con n = 200, e Yi = 1 + xi + εi con εi = ρεt−1 + ut , ut ∼ IID(N (0, 1)) (in altri termini σ = 1, β1 = β2 = 1) per diversi valori di ρ. ρ 0.00 0.25 0.50 0.75 0.90 -0.25 -0.50 -0.75 -0.90 β̂2 1.01 0.82 1.26 0.70 2.50 1.09 1.05 1.03 1.02 F. Pauli Stima OLS q V̂ (β̂2 ) s 0.0733 1.0341 0.0681 0.9603 0.0824 1.1624 0.0964 1.3595 0.1588 2.2405 0.0836 1.1789 0.0762 1.0744 0.0983 1.3866 0.1510 2.1307 Stima con Cochrane-Orcutt q β̂2 V̂ (β̂2 ) s 1.00 0.0689 1.0313 0.84 0.0809 0.9460 1.27 0.1613 0.9416 0.65 0.2261 0.9287 2.42 0.5631 1.0227 1.08 0.0607 1.1155 1.05 0.0499 0.9786 1.03 0.0419 0.9839 1.01 0.0366 0.9579 ρ̂ -0.08 0.16 0.59 0.71 0.89 -0.33 -0.42 -0.70 -0.90 Criticità e estensioni del modello lineare 48 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Altre soluzioni: modelli specifici La soluzione più appropriata è comunque modellare la dipendenza con ipotesi specifiche, e allora si impiegano, a seconda dei casi I modelli per dati spaziali I modelli per serie storiche I modelli per dati longitudinali I modelli per dati gerarchici (a effetti misti) F. Pauli Criticità e estensioni del modello lineare 49 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Sommario Non linearità Non normalità Eteroschedasticità Dipendenza Multicollinearità Sulle trasformazioni F. Pauli Criticità e estensioni del modello lineare 50 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Multicollinearità I I rango(X ) < p, il modello non è identificato, è necessario ridurre il numero di variabili esplicative. rango(X ) = p ma |X T X | vicino a 0 ⇒ esplicative fortemente correlate. ⇒ varianze degli stimatori elevate e, spesso, stime difficilmente interpretabili. l’esclusione di alcune delle esplicative è una possibile soluzione, se però si vogliono mantenere tutte le variabili nel modello si può usare la ridge regression (regressione contratta). F. Pauli Criticità e estensioni del modello lineare 51 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Ridge regression Modifico X T X in modo da incrementare il valore del determinante, si ha lo stimatore β̂R = (X T X + λI )−1 X T y è distorto ma ha varianza minore dello stimatore dei minimi quadrati β̂. 1. penalizzo nella stima valori elevati dei coefficienti β̂R = argmin(y − X β)T (y − X β) + λβ T β β 2. impone una contrazione dei coefficienti verso lo zero β̂R = argmin (y − X β)T (y − X β) β:||β||2 ≤c Scelta di λ è problema di selezione del modello (compromesso distorsione (che cresce con λ) - varianza (che decresce con λ). Sono quindi utilizzabili metodi per il confronto tra modelli (non nidificati) come ad esempio la validazione incrociata. F. Pauli Criticità e estensioni del modello lineare 52 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Riepilogando Ipotesi Conseguenze Rimedio Estensione Linearità Valido come approssimazione; Trasformazioni, cambia l’interpretazione Modelli non lineari (polinomiali, semiparametrici) Normalità Non valgono i test, però le stime sono BLUE Trasformazioni (Box-Cox) GLM Omoschedasticità Stimatori corretti ma non efficienti Trasformazioni stima aggiustata di V (β̂) GLS Incorrelazione stimatori corretti ma non efficienti Cochrane-Orcutt (caso part.) stima aggiustata di V (β̂) GLS modelli specifici(ad es. serie storiche) stimatori fortemente correlati varianze stim elevate Eliminazione esplicative Ridge regression X a rango pieno F. Pauli Criticità e estensioni del modello lineare per 53 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Sommario Non linearità Non normalità Eteroschedasticità Dipendenza Multicollinearità Sulle trasformazioni F. Pauli Criticità e estensioni del modello lineare 54 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Sulle trasformazioni Le trasformazioni compaiono come possibile soluzione per I non linearità I non normalità I eteroschedasticità e se funzionano sono anche la soluzione più semplice (si usa il modello lineare senza variazioni). Ci sono però dei problemi I interpretazione I coperta corta F. Pauli Criticità e estensioni del modello lineare 55 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Interpretazione con un modello trasformato Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità, E (Y ) varia di βr a parità delle altre. E (Y |x2 , x3 ) = β1 + β2 x2 + β3 x3 e si ha ∆(E (Y )) = E (Y |x2 + ∆, x3 ) − E (Y |x2 , x3 ) = β2 ∆ Questa semplicità si perde se si impiegano trasformazioni. F. Pauli Criticità e estensioni del modello lineare 56 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Interpretazione con un modello trasformato Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità, E (Y ) varia di βr a parità delle altre. Se si impiega una trasformazione della x, ad esempio il modello è E (Y ) = β1 + β2 (x2 )2 + β3 x3 si ha ∆(E (Y )) = E (Y |x2 + 1) − E (Y |x2 ) = β2 (2∆x2 + ∆2 ) F. Pauli Criticità e estensioni del modello lineare 56 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Interpretazione con un modello trasformato Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità, E (Y ) varia di βr a parità delle altre. Se si impiega una trasformazione della y , ad esempio il modello è √ E (f (Y )) = E ( Y ) = β1 + β2 x2 + β3 x3 trovare E (Y ) non è banale, ragionando in termini di stima e usando \ E (Y ) = f −1 (E \ (f (Y ))) = (β̂1 + β̂2 x2 + β̂3 x3 )2 si ha \ ∆(E (Y )) = β̂22 ∆2 + 2β̂22 x2 ∆ + 2β̂1 β̂2 ∆ + 2β̂2 β̂3 x3 ∆ la variazione dipende dunque da x2 , da x3 e da tutti i coefficienti. F. Pauli Criticità e estensioni del modello lineare 56 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Interpretazione di un modello trasformato: log-normale Si consideri il modello Yi∗ = log Yi ∼ N β1 + β2 xi , σ 2 Si ha allora la previsione di Yi Ŷi = f −1 (β1 + β2 xi ) = exp {β1 + β2 xi } Tuttavia Yi è log-normale con parametri β1 + β2 xi e σ 2 , quindi σ2 E (Yi ) = exp β1 + β2 xi + , 2 quindi potremmo stimare Yi con s2 \ Ŷi = E (Yi ) = exp β̂1 + β̂2 xi + , 2 (che è maggiore della previsione sopra dato che s 2 > 0 e quindi e s F. Pauli Criticità e estensioni del modello lineare 2 /2 > 1.) 57 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • 30 Y 20 1 10 0 0 −1 log(Y) 2 40 3 50 4 Interpretazione di un modello trasformato: log-normale 0.0 0.5 1.0 x F. Pauli 1.5 0.0 0.5 1.0 1.5 x Criticità e estensioni del modello lineare 58 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Trasformazioni: coperta corta Per quanto visto, una trasformazione della Y ha effetto su I linearità della relazione I varianza di Y I distribuzione di Y una specifica trasformazione che risolva uno dei problemi non è detto ne risolva un altro. Non è detto, poi, anche in presenza di un solo problema, che esista una trasformazione adatta. F. Pauli Criticità e estensioni del modello lineare 59 / 60 • Non linearità • Non normalità • Eteroschedasticità • Dipendenza • Multicollinearità • Trasformazioni • Un esempio di coperta corta 10 8 6 4 rstandard(fit) 0 2 8 6 4 0 0 2 Sample Quantiles 80 40 y 120 10 Per i dati (x, y ) in alto a sinistra si ottiene una trasformazione normalizzante (riga sotto), che però non produce un modello omoschedastico. 1.0 1.5 2.0 −3 −2 −1 0 1 2 3 1.0 x F. Pauli 1.5 2.0 10 2 rstandard(fit1) 2 0 −4 −4 0.5 5 fitted(fit) −2 Sample Quantiles 2 ytr 0 −2 0.0 0 Theoretical Quantiles 4 x 0 0.5 −2 0.0 −3 −2 −1 0 1 2 Theoretical Quantiles 3 0.0 0.5 1.0 1.5 2.0 fitted(fit1) Criticità e estensioni del modello lineare 60 / 60