• MQ • MV • Previsione • Esempio 2 • Modelli statistici Il modello di regressione semplice 29 settembre 2016 M.S.: regressione semplice 1 / 60 • MQ • MV • Previsione • Esempio 2 • Indice 1 Retta dei minimi quadrati 2 Modello lineare con errori normali 3 Previsione col modello di regressione semplice 4 Esempio completo M.S.: regressione semplice 2 / 60 • MQ • MV • Previsione • Esempio 2 • Dati Si sono osservate le altezze di 11 coppie madre-glia. x y 1 153.7 163.1 2 156.7 159.5 3 173.5 169.4 4 157.0 158.0 5 161.8 164.3 6 140.7 150.0 7 179.8 170.3 8 150.9 158.9 9 154.4 161.5 10 162.3 160.8 11 166.6 160.6 M.S.: regressione semplice 3 / 60 • MQ • MV • Previsione • Esempio 2 • Dati Si sono osservate le altezze di 11 160 150 140 Altezza figlie 170 180 coppie madre-glia. 140 150 160 Altezza madri 170 180 x y 1 153.7 163.1 2 156.7 159.5 3 173.5 169.4 4 157.0 158.0 5 161.8 164.3 6 140.7 150.0 7 179.8 170.3 8 150.9 158.9 9 154.4 161.5 10 162.3 160.8 11 166.6 160.6 M.S.: regressione semplice 3 / 60 • MQ • • MV Previsione • Esempio 2 • Correlazione Una misura sintetica della linearità della relazione tra due variabili è il coeciente di correlazione cov(X , Y ) ρ= p V (X )V (Y ) Il coeciente di correlazione è compreso tra . −1 e 1 e raggiunge i casi limite solo in caso di perfetta dipendenza lineare. • Lo stimatore di ρ è Pn − ȳ )(xi − x̄) , Pn 2 2 i=1 (xi − x̄) i=1 (yi − ȳ ) ρ̂ = pPn dove x̄ e ȳ i=1 (yi (1) sono le medie aritmetiche delle osservazioni. • Per i dati sulle altezze ρ̂ = 0.88. M.S.: regressione semplice 4 / 60 • MQ • MV • Previsione • Esempio 2 • Retta di regressione Le due variabili sono in relazione: madri più alte tendono ad avere glie più alte. • La relazione è approssimativa, c'è variabilità. • Possiamo descrivere la relazione includendo un termine di errore yi = β1 + β2 xi + εi , yi altezza della glia nell'i -esima coppia xi altezza della madre nell'i -esima coppia, β1 , β2 εi sono numeri reali è un termine di errore M.S.: regressione semplice 5 / 60 • MQ • MV • Previsione • Esempio 2 • Quale retta? (signicato) Appare naturale associare la relazione lineare alla media della variabile Y: si assume E (Y |X = x) = β1 + β2 x, V (Y |X = x) = σ 2 . In termini dell'errore εi E (εi ) = 0, V (εi ) = σ 2 . M.S.: regressione semplice 6 / 60 • MQ • MV • Previsione • • Esempio 2 Diverse distanze punto retta Vogliamo determinare dei valori per β1 e β2 tali per cui la retta sia vicina alle osservazioni: dobbiamo denire una distanza tra retta e nuvola di punti. ● 170 ● ● ● minimi quadrati dist. vert. ass dist. oriz. quad. ● dist. geometrica 165 Altezza figlie y dist. verticale al quadrato dist. vert. dist. oriz. dist. geometrica ● ● ● 160 ● ● ● ● 155 150 ● 140 x 150 160 170 180 Altezza madri M.S.: regressione semplice 7 / 60 • MQ • • MV Previsione • Esempio 2 • Retta dei minimi quadrati La nostra scelta è di usare le distanze verticali al quadrato, con ciò la distanza tra la retta yi = β1 + β2 x S(β1 , β2 ) = e i punti è n X (yi − (β1 + β2 xi ))2 . i=1 Deniamo allora stimatore dei minimi quadrati di argmin n X (β1 , β2 ) (yi − (β1 + β2 xi ))2 . (2) β1 ,β2 ∈R i=1 yi = β̂1 + β̂2 x (xi , yi ), i = 1, . . . , n. La retta è quella che si trova a minima distanza dai punti M.S.: regressione semplice 8 / 60 • MQ • • MV Previsione • Esempio 2 • Stimatore dei minimi quadrati Eguagliamo a zero le due derivate parziali di S(β1 , β2 ) = n X (yi − (β1 + β2 xi ))2 . i=1 ottenendo il sistema ( ∂S(β 1 ,β2 ) ∂β1 ∂S(β1 ,β2 ) ∂β2 = −2 = −2 Pn 1 Pi= n (yi − (β1 + β2 xi )) = 0 i=1 xi (yi − (β1 + β2 xi )) = 0, M.S.: regressione semplice 9 / 60 • MQ • • MV Previsione • Esempio 2 • Stimatore dei minimi quadrati Eguagliamo a zero le due derivate parziali di S(β1 , β2 ) = n X (yi − (β1 + β2 xi ))2 . i=1 ottenendo il sistema ( ∂S(β 1 ,β2 ) ∂β1 ∂S(β1 ,β2 ) ∂β2 = −2 = −2 Pn 1 Pi= n (yi − (β1 + β2 xi )) = 0 i=1 xi (yi − (β1 + β2 xi )) = 0, che equivale a M.S.: regressione semplice 9 / 60 • MQ • • MV Previsione • Esempio 2 • Stimatore dei minimi quadrati Eguagliamo a zero le due derivate parziali di S(β1 , β2 ) = n X (yi − (β1 + β2 xi ))2 . i=1 ottenendo il sistema ( ∂S(β 1 ,β2 ) ∂β1 ∂S(β1 ,β2 ) ∂β2 = −2 = −2 Pn 1 Pi= n (yi − (β1 + β2 xi )) = 0 i=1 xi (yi − (β1 + β2 xi )) = 0, (P Pn n i=1 yi − nβ1 − β2 i=1 xi = 0 Pn Pn Pn 2 i=1 xi yi − β1 i=1 xi − β2 i=1 xi = 0. M.S.: regressione semplice 9 / 60 • MQ • MV • Previsione • Esempio 2 • Stimatore dei minimi quadrati Eguagliamo a zero le due derivate parziali di S(β1 , β2 ) = n X (yi − (β1 + β2 xi ))2 . i=1 ottenendo il sistema (P Pn n i=1 yi − nβ1 − β2 i=1 xi = 0 Pn Pn Pn 2 i=1 xi yi − β1 i=1 xi − β2 i=1 xi = 0. Purché Pn β̂2 = − x̄)2 6= 0, P P P Pn n ni=1 yi xi − ni=1 xi ni=1 yi (yi − ȳ )(xi − x̄) 1 Pn Pn = i=P , n 2 2 2 n i=1 xi − ( i=1 xi ) i=1 (xi − x̄) i=1 (xi β̂1 = ȳ − β̂2 x̄. M.S.: regressione semplice 9 / 60 • MQ • MV • Previsione • Esempio 2 • Stimatore di β2 Lo stimatore del coeciente angolare è il rapporto tra la covarianza X e Y e la varianza campionaria di X , P Pn P P n ni=1 yi xi − ni=1 xi ni=1 yi (yi − ȳ )(xi − x̄) 1 Pn Pn = = i=P , n 2 2 2 n i=1 xi − ( i=1 xi ) i=1 (xi − x̄) cov (X , Y ) = var (X ) s var (Y ) = ρ var (X ) campionaria di β̂2 M.S.: regressione semplice 10 / 60 • MQ • MV • • Previsione • Esempio 2 Calcolo delle stime per i MQ Sostituendo i valori del campione si ha 1 n 1 n n X xi = i=1 n X xi2 = i=1 1 11 1 11 1757.4 281940 = 159.76, = 25631, n = 11 n X 1 n 1 n e yi = i=1 n X 1 11 xi yi = i=1 1776.4 1 11 = 161.49, 284340 = 25849, Si ha allora β̂2 = Pn Pn x y /n − x̄ ȳ i=1 (yi − ȳ )(xi − x̄) 1 i i Pn Pi= = = n 2 2 2 (x − x̄) i=1 i i=1 xi /n − x̄ / 284340 11 − 159.76 × 161.49 = 0.46 / − 159.762 281940 11 β̂1 = ȳ − β̂2 x̄ = 161.49 − 0.46 × 159.76 = 88.11, M.S.: regressione semplice 11 / 60 • MQ • MV • Previsione • Esempio 2 • Indice 1 Retta dei minimi quadrati Media e varianza degli stimatori dei minimi quadrati 2 Modello lineare con errori normali 3 Previsione col modello di regressione semplice 4 Esempio completo M.S.: regressione semplice 12 / 60 • MQ • MV • Previsione • Esempio 2 • Linearità di β̂2 Osserviamo che β̂2 Pn i=1 xi Yi − nx̄ Ȳ P = n 2 2 i=1 xi − nx̄ n X x − x̄ Pn i 2 = Yi 2 j=1 xj − nx̄ i=1 = n X xi − x̄ Yi 2 j=1 (xj − x̄) Pn i=1 = n X wi Yi , i=1 dove, per i = 1, . . . , n , xi − x̄ 2 j=1 (xj − x̄) wi = Pn M.S.: regressione semplice 13 / 60 • MQ • • MV Previsione • Esempio 2 • Media di β̂2 Per la linearità della speranza matematica E (β̂2 ) = E ( n X wi Yi ) i=1 = = n X i=1 n X wi E (Yi ) wi (β1 + β2 xi ) i=1 = β1 n X i=1 wi + β2 n X wi xi = β2 . i=1 M.S.: regressione semplice 14 / 60 • • MQ MV • • Previsione Esempio 2 • Varianza di β̂2 Nuova ipotesi: le Y1 , . . . , Yn sono non correlate (equivalentemente: gli errori ε1 , . . . , ε n sono non correlati). • n X V (β̂2 ) = V = σ2 wi Yi i=1 n X i=1 = ! = n X wi2 V (Yi ) = σ 2 i=1 n X wi2 i=1 2 (xi − x̄) P n j=1 (xj − x̄)2 2 σ2 . 2 j=1 (xj − x̄) Pn M.S.: regressione semplice 15 / 60 • • MQ MV • Previsione • Esempio 2 • Media e varianza di β̂1 Anche β̂1 è combinazione lineare delle β̂1 = ȳ − β̂2 x̄ = n X i=1 1 n Yi − n X Yi , wi Yi x̄ = i=1 n X 1 i=1 n − wi x̄ Yi = n X wi∗ Yi , i=1 β̂1 si ha n n X X ∗ E (β̂1 ) = wi E (Yi ) = β1 + β2 wi∗ xi = β1 Ragionando come per i=1 V (β̂1 ) = n X i=1 (wi∗ )2 V (Yi ) =σ i=1 i=1 2 n X 2 n X 1 1 2 2 1 n + wi x̄ − 2 x̄wi n 1 x̄ 2 2 P = σ + n , 2 n i=1 (xi − x̄) = σ i=1 n2 2 − wi x̄ = M.S.: regressione semplice 16 / 60 • MQ • • MV Previsione • Esempio 2 • Covarianza tra β̂1 e β̂2 cov β̂1 , β̂2 ȳ − β̂2 x̄, β̂2 = cov ȳ , β̂2 − x̄ cov β̂2 , β̂2 ! n n X 1 X = cov Yi , wi Yi − x̄V (β̂2 ) n = cov i=1 = = 1 n n X σ2 2 i=1 (xi − x̄) wi V (Yi ) − x̄ Pn i=1 n 1 X n i=1 σ2 2 i=1 (xi − x̄) wi σ 2 − x̄ Pn i=1 σ2 . 2 i=1 (xi − x̄) = −x̄ Pn M.S.: regressione semplice (3) 17 / 60 • MQ • MV • Previsione • Esempio 2 • Valori teorici e residui Trovate le stime β̂1 e β̂2 si deniscono i valori teorici ŷi = β̂1 + β̂2 xi , i = 1, . . . , n. e i residui ei = yi − ŷi = yi − β̂1 − β̂2 xi , i = 1, . . . , n. che sono i corrispondenti campionari degli errori εi . M.S.: regressione semplice 18 / 60 • MQ • MV • Previsione • Esempio 2 • Stimatore di σ 2 σ2 è la varianza degli errori εi . • Gli errori sono quantità non osservate, uso come sostituti i loro corrispondenti campionari: i residui ei • Uno stimatore naturale di σ2 è la varianza campionaria dei residui. • Essendo però Pn i=1 ei =0 si ha σ̂ 2 = 1 n n X ei2 . i=1 M.S.: regressione semplice 19 / 60 • • MQ MV • Previsione • Esempio 2 • Stimatore corretto di σ 2 Lo stimatore σ̂ 2 non è corretto, si mostra che E (σ̂ 2 ) = Lo stimatore corretto di σ2 n−2 2 σ n è n X 1 n ei2 . σ̂ 2 = s = n−2 n−2 2 i=1 M.S.: regressione semplice 20 / 60 • MQ • MV • Previsione • Esempio 2 • Modello stimato, valori teorici, residui Il modello stimato è yi = 88.11 + 0.45934xi 2 + εi . Valori teorici: ŷi = β̂1 + β̂2 xi ad esempio ŷ4 = 88.11 + 0.45934 × (157) = 160.24. Residui ei = yi − β̂1 − βˆ2 xi ad esempio e4 = 158 − 160.24 = −2.24. M.S.: regressione semplice 21 / 60 • MQ • MV • Previsione • Esempio 2 • Graco delle quantità ^ ^ y^i = β1 + β2xi yi xi M.S.: regressione semplice 22 / 60 • • MQ • MV Previsione • Esempio 2 • Stima di σ 2 La stima σ̂ 2 σ̂ 2 è allora = = 1 n 1 n n X Pn 2 i=1 ei e, in base a quanto visto, 2 2 (yi − ȳ ) − β̂2 i=1 n X yi2 /n − ȳ 2 − β̂22 i=1 = 1 n n X (xi − x̄)2 i=1 n X ! xi2 /n − x̄ 2 i=1 26107 2 − 161.49 − (0.46)2 (25631 − 159.762 ) = 5.25. La stima corretta, inne, è s2 = n σ̂ 2 = n−2 11 11 −2 5.25 = 6.41. M.S.: regressione semplice 23 / 60 • MQ • • MV Previsione • Esempio 2 • Stimatori delle varianze degli stimatori β̂1 e β̂2 Nelle espressioni per le varianze degli stimatori σ2 2 j=1 (xj − x̄) 1 x̄ 2 2 V (β̂1 ) = σ + Pn 2 n i=1 (xi − x̄) V (β̂2 ) = compare il parametro σ2, Pn gli stimatori di dette varianze si ottengono sostituendovi il suo stimatore corretto s2 2 j=1 (xj − x̄) 1 x̄ 2 2 V̂ (β̂1 ) = s + Pn 2 n i=1 (xi − x̄) 1 159.76 2 dell'esempio s'ottiene V̂ (β̂1 ) = 6.413 + = 138.69 11 1185.2 V̂ (β̂2 ) = Con i dati e V̂ (β̂2 ) = s 2. Pn 2 . 6 413 . 1185 2 = 0.0054109. M.S.: regressione semplice 24 / 60 • MQ • MV • Previsione • Esempio 2 • Indice 1 Retta dei minimi quadrati 2 Modello lineare con errori normali 3 Previsione col modello di regressione semplice 4 Esempio completo M.S.: regressione semplice 25 / 60 • • MQ MV • Previsione • Esempio 2 • Ipotesi del modello Il modello può essere scritto Yi = β1 + β2 xi + εi i = 1, . . . , n con le ipotesi i. linearità: E (εi ) = 0 i = 1, . . . , n ii. omoschedasticità: iii. normalità: V (εi ) = σ 2 i = 1, . . . , n εi ∼ i.i.d.(N (0, σ 2 )) i = 1, . . . , n iv. identicabilità: xi non tutte uguali oppure, equivalentemente, Yi ∼ N β1 + β2 xi , σ 2 con Yi indipendenti. M.S.: regressione semplice 26 / 60 • MQ • MV • Previsione • Esempio 2 • Ipotesi distributiva: gracamente Yi ≈ N(β1 + β2xi,σ2) y = β1 + β2x yi ^ ^ y = β1 + β2x yk ek εk ^ ^ y^k = β1 + β2xk E(Yk)=β1 + β2xk 0 0 xk xi M.S.: regressione semplice 27 / 60 • MQ • • MV • Previsione Esempio 2 • Verosimiglianza Funzione di verosimiglianza associata al modello è 2 L(β1 , β2 , σ ) = n Y pi (yi ; xi , β1 , β2 , σ 2 ) i=1 = n Y √ i=1 1 2πσ exp − 1 2σ 2 2 (yi − (β1 + β2 xi )) ( = (2π)−n/2 (σ 2 )−n/2 exp − 1 2σ 2 n X (yi − (β1 + β2 xi ))2 ) , i=1 la corrispondente log-verosimiglianza è 2 l(θ) = l(β1 , β2 , σ ) = − n 2 log σ 2 − 1 2σ 2 n X (yi − (β1 + β2 xi ))2 . i=1 M.S.: regressione semplice 28 / 60 • MQ • • MV Previsione • Esempio 2 • Stimatore di massima verosimiglianza Equazione di verosimiglianza 0 = l∗ (θ) = ∂l(β1 ,β2 ,σ 2 ) 1 ∂l(β∂β 2 1 ,β2 ,σ ) ∂β2 ∂l(β1 ,β2 ,σ 2 ) ∂σ 2 qualunque sia σ2, Pn 1 (y − (β1 + β2 xi )) σ 2P i=1 i n 1 . i (yi − (β1 + β2 xi )) i=1 xP σ2 n 1 n 2 − 2σ2 + 2(σ2 )2 i=1 (yi − (β1 + β2 xi )) = il massimo di L si ottiene minimizzando n X (yi − β1 − β2 xi )2 , i=1 quindi, la soluzione per non dipende da σ2 ; (β1 , β2 ) coincide con gli stimatori dei minimi quadrati. dalla terza equazione si ottiene σ̂ 2 = 1 n n X i=1 (yi − β̂1 − β̂2 xi )2 , M.S.: regressione semplice 29 / 60 • MQ • MV • Previsione • • Esempio 2 Distribuzione degli stimatori β̂i Ricordiamo: una combinazione lineare di v.a. normali è normale. • Allora essendo β̂2 c.l. delle Yi , β̂2 ∼ N se queste sono normali, σ2 β2 , Pn 2 j=1 (xj − x̄) β̂2 è normale ! . • Analogamente, per β̂1 si ha 1 x̄ 2 2 β̂1 ∼ N β1 , σ + Pn . 2 n i=1 (xi − x̄) M.S.: regressione semplice 30 / 60 • MQ • MV • Previsione • Esempio 2 • Distribuzione di σˆ2 σ̂ 2 si mostra che Pn Pn 2 2 nσ̂ 2 i=1 ei i=1 (Yi − Ŷi ) = = ∼ χ2n−2 . σ2 σ2 σ2 Per quanto riguarda e quindi (n − 2)s 2 ∼ χ2n−2 . σ2 Inoltre, si mostra anche che σ̂ 2 , e quindi s 2, è indipendente da M.S.: regressione semplice (β̂1 , β̂2 ). 31 / 60 • MQ • MV • Previsione • Esempio 2 • Inferenza sui coecienti: quantità pivotale Una quantità pivotale è una funzione del campione e dei parametri la cui distribuzione non dipende dal parametro. • Nel modello di regressione semplice si ha la quantità pivotale √β̂r −βr β̂r − βr β̂r − βr N (0, 1) V (β̂r ) =q ∼ tn−2 , tr = q = q ∼ q χn− s s V (β̂r ) V̂ (β̂r ) σ σ n−2 2 2 2 2 2 2 M.S.: regressione semplice 32 / 60 • MQ • MV • Previsione • Esempio 2 • Verica d'ipotesi Consideriamo il sistema d'ipotesi ( H0 : βr = βr 0 H1 : βr 6= βr 0 , nell'ipotesi nulla si ha, β̂r − βr 0 tr = q ∼ tn−2 . V̂ (β̂r ) regione critica: {|tr | > kα } riuto al livello di sig. valore α se |tr | > tn−2,1−α/2 . p αoss = = 2 min{P(tn−2 2P(tn−2 ≤ tross ), P(tn−2 ≥ tross )} ≥ |tross |). M.S.: regressione semplice 33 / 60 • MQ • MV • • Previsione Esempio 2 • Verica d'ipotesi: nullità del coeciente β2 Consideriamo il sistema ( H0 : β2 = 0 H1 : β2 6= 0, si calcola allora β̂2 − 0 0.46 − (0) t2 = q = 6.26 = 0.00541 V̂ (β̂2 ) e la si confronta con una α oss tn−2 . Il valore p è = 2 min{P(tn−2 ≤ t2 ), P(tn−2 ≥ t2 )} = 2 min{P(tn−2 ≤ 6.26), P(tn−p ≥ 6.26)} = 2 min{1, 0} = 0, e quindi, ad esempio, al livello del 5%, si riuta l'ipotesi nulla. M.S.: regressione semplice 34 / 60 • MQ • MV • Previsione • Esempio 2 • Intervalli di condenza Usando la medesima quantità pivotale 1 − α = P tn−2,α/2 < tr < tn−2,1−α/2 β̂r − βr = P −tn−2,1−α/2 < q < tn−2,1−α/2 V̂ (β̂r ) q q = P − V̂ (β̂r )tn−2,1−α/2 < β̂r − βr < V̂ (β̂r )tn−2,1−α/2 q q = P β̂r − tn−2,1−α/2 V̂ (β̂r ) < βr < β̂r + tn−2,1−α/2 V̂ (β̂r ) qualunque siano L'intervallo β1 , β2 e σ2. q β̂r ± tn−2,1− α V̂ (β̂r ). 2 è perciò un intervallo di condenza al livello 1 −α per βr . M.S.: regressione semplice 35 / 60 • MQ • MV • Previsione • Esempio 2 • Tabella dei coecienti parametro statistica t valore p per H1 : βr 6= 0 stima errore standard β̂r q V̂ (β̂r ) q tr = β̂r / V̂ (β̂r ) P(|Tn−2 | > |tr |) β1 88.106 11.777 7.4812 0.000037664 β2 0.45934 0.073559 6.2445 0.00015062 H0 : βr = 0 M.S.: regressione semplice v. 36 / 60 • MQ • MV • Previsione • Esempio 2 • Intervalli di condenza −α βr è q q β̂r − tn−2,1−α/2 V̂ (β̂r ), β̂r + tn−2,1−α/2 V̂ (β̂r ) Un i.c. di livello 1 per cioè ha estremi β̂r ± tn−2,1− α 2 q V̂ (β̂r ). Sostituendo le quantità della tabella si ottiene, con per β1 l'intervallo con estremi 88.11 per β2 α = 0.05 ± 2.26 × 11.78 → [61.47, 114.75] l'intervallo [0.46 − 2.26 × 0.07, 0.46 + 2.26 × 0.07] = [0.29, 0.63]. M.S.: regressione semplice 37 / 60 • MQ • • MV Previsione • • Esempio 2 Scomposizione dei residui Alla base della valutazione dell'adeguatezza del modello di regressione semplice si ha la scomposizione della devianza n X (yi − ŷi )2 + ● 180 ● 150 y ● ● ● ● ● ● 140 ● 150 160 x 170 180 ● 160 ● 150 ● ● ● 140 ● ● ● ● ● ● ● ● ● ● 140 y ● ● ● ● 160 160 ● ● 170 180 170 170 ● 140 y (yi − ȳ )2 , i=1 ● ● 150 n X (ŷi − ȳ )2 = i=1 180 i=1 n X 140 150 160 170 180 140 150 x 160 170 180 x M.S.: regressione semplice 38 / 60 • MQ • MV • Previsione • Esempio 2 • Coeciente di determinazione, R 2 Il coeciente di determinazione R2 è denito come SQR SQS R2 = 1 − = , SQT SQT compreso tra 0 e 1 misura quanta parte della variabilità di regressione che produce le R2 y è spiegata dal modello di ŷ . è anche la correlazione campionaria al quadrato Pn (xi − x̄)2 R = β̂2 Pni=1 2 i=1 (yi − ȳ ) Pn P (xi − x̄)(yi − ȳ ) 2 ni=1 (xi − x̄)2 i= 1 Pn Pn = 2 2 i=1 (xi − ȳ ) i=1 (yi − ȳ ) Pn ( (xi − x̄)(yi − ȳ ))2 Pn = Pn i=1 = ρ̂2 . 2 2 (x − ȳ ) (y − ȳ ) i i i=1 i=1 2 2 M.S.: regressione semplice 39 / 60 • MQ • MV • Previsione • Esempio 2 • Coeciente di determinazione R 2 Con i dati dell'esempio si ottiene SQR = 66.29, SQE = 240.61, SQT = 306.81, e quindi R2 = 1 − SQR =1− SQT 66.29 306.81 = 0.78 D'altra parte si ha R2 = t22 = n − 2 + t22 6.24 11 2 − 2 + 6.242 = 0.81 dove la dierenza col risultato precedente si deve alle approssimazioni numeriche nel calcolo. M.S.: regressione semplice 40 / 60 • • MQ • MV • Previsione • Esempio 2 R 2 e utilità del modello ● 8 ● ● ● ● ● ●● ● ● ● ● ● ● ●● 8 ● ● y ● 2 6 ● ● ● 0 0.0 ● ●● ● ●● ● ● 2 ● ● ● 0.5 Due ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● 4 y 4 ●● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● 10 ● 6 ● ● ● R2 = 0.94 12 R2 = 0.377 1.0 x 1.5 2.0 ● ● ●● ● ● ● ●● ●● ● ●● ● 0.0 ● ● 0.5 1.0 1.5 2.0 x esempi: nel primo la regressione semplice è un modello adeguato, e il coeciente di determinazione è contenuto, nel secondo caso il coeciente è molto elevato, ma il modello è chiaramente migliorabile M.S.: regressione semplice 41 / 60 • MQ • MV • Previsione • Esempio 2 • Indice 1 Retta dei minimi quadrati 2 Modello lineare con errori normali 3 Previsione col modello di regressione semplice 4 Esempio completo M.S.: regressione semplice 42 / 60 • MQ • MV • Previsione • Esempio 2 • Previsione (Stima) della media di Y per un dato X Obiettivo è la stima di E (Y |X = x0 ) = β1 + β2 x0 , una ragionevole stima puntuale è Ŷ0 = β̂1 + β̂2 x0 . Un intervallo di condenza per E (Y |X = x0 ) si ottiene a partire da Ŷ0 = Ȳ + β̂2 (x0 − x̄). Si può mostrare che Ȳ e β̂2 sono indipendenti, sappiamo che sono normali e perciò σ2 (x0 − x̄)2 2 + Pn Ŷ0 ∼ N E (Y |X = x0 ), σ . 2 n i=1 (xi − x̄) M.S.: regressione semplice 43 / 60 • MQ • MV • Previsione • Esempio 2 • Previsione (Stima) della media di Y per un dato X (continua) Di conseguenza, si ha la quantità pivotale Ŷ − E (Y |X = x0 ) r 0 , −x̄) s 2 n1 + Pn(x (x i −x̄) 0 i=1 distribuita secondo una tn−2 . (4) 2 2 Si ha quindi l'intervallo di estremi s Ŷ0 ± tn−2,1−α/2 s 2 (x0 − x̄)2 + Pn 2 n i=1 (xi − x̄) 1 la cui ampiezza, si noti, cresce all'aumentare di |x0 − x̄|: l'incertezza della previsione aumenta quanto più ci si allontana dal centro delle osservazioni x. M.S.: regressione semplice 44 / 60 • MQ • MV • • Previsione Esempio 2 • Previsione di Y per un dato X Obiettivo è prevedere Y0 = (Y |X = x0 ), si ha Y0 = E (Y |X = x0 ) + ε, dove ε è una variabile gaussiana indipendente dagli stimatori e con varianza σ2. • Si ha allora che Ŷ0 − Y0 = Ŷ0 − E (Y |X = x0 ) + E (Y |X = x0 ) − Y0 . Per una Ŷ0 − E (Y |X = x0 ) N (0, σ 2 ), quindi si ha quanto sopra, mentre E (Y |X = x0 ) − Y0 è Ŷ − E (Y |X = x0 ) r 0 −x̄) s 2 1 + n1 + Pn(x (x i −x̄) 0 i=1 è distribuito secondo una 2 2 tn−2 . M.S.: regressione semplice 45 / 60 • MQ • • MV Previsione • Esempio 2 • Previsione Intervallo di condenza: s Ŷ0 ± tn−2,1−α/2 s 2 (x0 − x̄)2 + Pn 2 n i=1 (xi − x̄) 1 Intervallo di previsione: s s (x0 − x̄)2 + Pn 1+ 2 n i=1 (xi − x̄) 1 140 150 160 170 180 Altezza figlie Ŷ0 ± tn−2,1−α/2 2 140 150 160 170 180 M.S.: regressione semplice 46 / 60 • MQ • MV • Previsione • Esempio 2 • Indice 1 Retta dei minimi quadrati 2 Modello lineare con errori normali 3 Previsione col modello di regressione semplice 4 Esempio completo M.S.: regressione semplice 47 / 60 • MQ • MV • Previsione • Esempio 2 • I dati n = 1375 coppie madre-glia 170 160 150 140 Altezza figlie 180 Si osservano le altezze di 140 150 160 170 180 Altezza madri M.S.: regressione semplice 48 / 60 • MQ • MV • Previsione • Esempio 2 • 170 160 150 140 Altezza figlie 180 I dati 140 150 160 170 180 Altezza madri M.S.: regressione semplice 49 / 60 • MQ • MV • Previsione • Esempio 2 • 170 160 150 140 Altezza figlie 180 I dati 140 150 160 170 180 Altezza madri M.S.: regressione semplice 50 / 60 • MQ • MV • Previsione • Esempio 2 • Stima Pn xi = 218120 1 Pi= n Pni=1 yi2 = 222650 7 xi = 3.46 × 10 1 Pi= n 7 i=1 xi yi = 3.53 × 10 β̂2 = x̄ = 218120/1375 = 158.63 ȳ = 222650/1375 = 161.93 P n 7 i=1 yi xi = 3.53 × 10 Pn 7 xi yi /n − x̄ ȳ 3.53 × 10 /1375 − 158.63 × 161.93 1 Pi= = = 0.53 n 2 2 3.46 × 107 /1375 − 158.632 i=1 xi /n − x̄ β̂1 = ȳ − β̂2 x̄ = 161.93 − (0.53) × 158.63 = 78.43. Il modello stimato è dunque yi = 78.43 + 0.5264xi + ei M.S.: regressione semplice 51 / 60 • MQ • MV • Previsione • Esempio 2 • 170 160 150 140 Altezza figlie 180 Retta stimata 140 150 160 170 180 Altezza madri M.S.: regressione semplice 52 / 60 • MQ • MV • Previsione • Esempio 2 • Stima di σ 2 σ̂ 2 = = = = = 1 n 1 n 1 n 1 n n X ei2 = i=1 n X 1 n (yi − ȳ )2 − β̂22 i=1 n X ! (yi − ȳ )(xi − x̄) i=1 ! n X xi2 − nx̄ 2 ) yi2 − nȳ 2 − β̂22 ( i=1 3.61 n X i=1 × 107 − 1375 × 161.932 − 0.532 (3.46 × 107 − 1375 × 158.63 44763 32.55; La stima secondo s 2, stimatore corretto s2 = n σ̂ 2 = n−2 1375 1375 −2 32.55 = 32.6. M.S.: regressione semplice 53 / 60 • • MQ MV • Previsione • Esempio 2 • Stima di V (β̂r ) Possiamo poi calcolare le stime delle varianze degli stimatori di β1 e β2 , a tal ne notiamo che x̄ 2 = 158.63, n X (xi − x̄)2 = i=1 n X xi2 − nx̄ 2 = 3.46 × 107 − 1375 × 25163 = 50219, i=1 con questo s2 = 2 i=1 (xi − x̄) V̂ (β̂2 ) = Pn 32.6 50219 = 0.00065, e V̂ (β̂1 ) = s 2 1 n x̄ 2 2 i=1 (xi − x̄) + Pn = 32.6 2 1 1375 + 158.63 2 50219 M.S.: regressione semplice = 16.36. 54 / 60 • MQ • MV • Previsione • Esempio 2 • Tabella dei coecienti p per H0 : βr = 0 H1 : βr 6= 0 valore r statistica t stima errore standard β̂r q V̂ (β̂r ) 1 78.427 4.0447 19.39 0 2 0.5264 0.025479 20.66 0 tr∗ = √ β̂r V̂ (β̂r ) P(|tn−2 | > |tr∗ |) M.S.: regressione semplice 55 / 60 • MQ • MV • Previsione • Esempio 2 • Scomposizione della varianza Si ha SQT = nvar(y ) = n X yi2 − nȳ 2 = 3.61 × 107 − 1375 × 161.932 = 58678 i=1 SQE = β̂22 n X (xi − x̄)2 = (0.53)2 3.46 × 107 − 1375 × 158.632 = 13916 i=1 e quindi SQR = 45481. Con queste quantità si calcola inne R2 = 1 − 45481 59907 = 0.24 M.S.: regressione semplice 56 / 60 • MQ • MV • Previsione • Esempio 2 • 170 150 130 Altezza figlie 190 Intervalli di condenza e previsione 130 140 150 160 170 180 190 Altezza madri M.S.: regressione semplice 57 / 60 • MQ • MV • Previsione • Esempio 2 • Intervalli di condenza e previsione 170 150 130 Altezza figlie 190 Eetto della dimensione campionaria 130 140 150 160 170 180 190 Altezza madri In rosso gli intervalli ottenuti col campione ridotto. M.S.: regressione semplice 58 / 60 • MQ • • MV Previsione • Esempio 2 • 180 170 140 150 160 Altezza figlie 170 160 150 140 Altezza figlie 180 Standardizzazione della x 140 150 160 170 Altezza madri 180 −20 −10 0 10 20 x−x M.S.: regressione semplice 59 / 60 • MQ • MV • Previsione • Esempio 2 • Standardizzazione della x Estimate Std. Error t value Pr(>|t|) (Intercept) 75.9527 4.1204 18.43 0.0000 x 0.5420 0.0260 20.88 0.0000 Estimate Std. Error t value Pr(>|t|) (Intercept) 161.9279 0.1552 1043.40 0.0000 x.std 0.5420 0.0260 20.88 0.0000 Consideriamo una madre di altezza x0 = 140, ad essa corrisponde un valore teorico pari a Ŷ0 = 75.95 + 0.54x0 = 151.83 secondo la prima retta e Ŷ0 = 161.93 + 0.54(x0 − x̄) = 151.83 per la seconda. M.S.: regressione semplice 60 / 60