Lezione 10 A. Iodice Regressione lineare semplice Lezione 10 Metodo dei minimi quadrati Statistica Determinazione della retta di regressione Qualità della soluzione trovata Alfonso Iodice D’Enza [email protected] Outliers Università degli studi di Cassino Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 1 / 30 Outline Lezione 10 A. Iodice Regressione lineare semplice 1 Regressione lineare semplice 2 Metodo dei minimi quadrati 3 Determinazione della retta di regressione 4 Qualità della soluzione trovata 5 Outliers 6 Regressione su tabella a doppia entrata Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 2 / 30 Studio della relazione tra due variabili Lezione 10 A. Iodice Commonly Asked Questions Regressione lineare semplice Qual’è la relazione tra la spesa sostenuta per la promozione di un prodotto e il livello di vendite nel primo mese? Metodo dei minimi quadrati Qual’è la relazione tra la concentrazione di alcool nel sangue e il tempo di reazione di un automobilista? Qual’è la relazione tra il voto di laurea conseguito dagli studenti di Economia e lo stipendio da loro percepito al primo impiego? Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata Regressione lineare semplice Per studiare la dipendenza lineare di una variabile di risposta (o dipendente) da una variabile indipendente (regressore, predittore) si utilizza il modello di regressione lineare semplice: tale modello, stabilisce, a meno di variazioni casuali, una relazione lineare tra risposta e predittore. A. Iodice () Lezione 10 Statistica 3 / 30 Studio della relazione tra due variabili Lezione 10 Galton e la regressione verso la mediocrità A. Iodice Nel 1888 Francis Galton, passeggiava in campagna riflettendo sul seguente problema: Regressione lineare semplice Qual’è la relazione tra le caratteristiche fisiche e psichiche di un figlio e quelle dei genitori? Metodo dei minimi quadrati La contraddizione Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata Inizialmente lui credeva che l’altezza di un figlio dovesse essere, in valore atteso (in media), uguale a quella del genitore dello stesso sesso. Dunque si attendeva che metà dei figli di genitori alti fossero ancora più alti e metà dei figli di genitori bassi fossero ancora più bassi: le generazioni successive avrebbero dovuto avere persone sempre più alte (o più basse). Questo tuttavia non accadeva, perchè le altezze osservate erano stabili di generazione in generazione. A. Iodice () Lezione 10 Il temporale e la soluzione Mentre si riparava da un temporale che aveva interrotto la sua passeggiata si rese conto che l’altezza di un figlio era, in valore atteso (in media), compresa tra quella del genitore dello stesso sesso e la media della popolazione. Dunque figli di genitori particolarmente alti (bassi) erano in media meno alti (bassi) dei rispettivi genitori. Questa tendenza, confermata dai dati osservati, Galton la definı̀ regressione verso la mediocrità. Statistica 4 / 30 Modello di regressione lineare semplice In molte applicazioni il ruolo delle variabili x ed Y non è lo stesso, in particolare, assegnato un certo valore al predittore x (indicato pertanto con la lettera minuscola), il valore che Y assume dipende in qualche modo da x. La relazione più semplice tra le variabili è quella lineare, e il modello corrispondente è Lezione 10 A. Iodice Regressione lineare semplice Y = β0 + β1 x; Metodo dei minimi quadrati tale modello presuppone che, stabiliti i parametri β0 e β1 , sia possibile determinare esattamente il valore di Y conoscendo il valore di x: salvo eccezioni, questo non si verifica mai. Determinazione della retta di regressione Il modello Qualità della soluzione trovata Alla determinazione del valore di Y , oltre che la componente deterministica β0 + β1 x, concorre anche una componente casuale detta errore non osservabile , una variabile casuale con media 0 Outliers Regressione su tabella a doppia entrata Y = β0 + β1 x + . Analogamente, la relazione di regressione lineare semplice può essere espressa in termini di valore atteso E[Y |x] = β0 + β1 x. poichè E[] = 0. A. Iodice () Lezione 10 Statistica 5 / 30 Modello di regressione lineare semplice Lezione 10 Si consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l’entità della depressione riscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rullo utilizzato (weight). Per vedere se l’utilizzo del modello di regressione lineare semplice sia ragionevole in questo caso occorre raccogliere delle coppie di osservazioni (xi , yi ) e rappresentarle graficamente attraverso il diagramma di dispersione. A. Iodice Regressione lineare semplice Il diagramma di dispersione (scatter plot) Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata units 1 2 3 4 5 6 7 8 9 10 A. Iodice () weight 1.9 3.1 3.3 4.8 5.3 6.1 6.4 7.6 9.8 12.4 depression 2.0 1.0 5.0 5.0 20.0 20.0 23.0 10.0 30.0 25.0 Lezione 10 Statistica 6 / 30 La retta di regressione Lezione 10 La retta di regressione A. Iodice Regressione lineare semplice Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata La retta di regressione fornisce una approssimazione della dipendenza dei valori di Y dai valori di X. La relazione di dipendenza non è esattamente riprodotta dalla retta; i valori ŷi = β0 + β1 xi sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = β0 + β1 x, in corrispondenza dei valori xi osservati. Le differenze ei tra i valori teorici ŷi e i valori osservati yi vengono definite residui. Questo perchè per ciascuna osservazione il modello è dato da yi = Outliers Regressione su tabella a doppia entrata β0 + β1 xi | {z } comp. deterministica + rette passanti per la nube di punti i |{z} comp. casuale Determinazione della retta di regressione L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , e b1 , stime dell’intercetta e del coefficiente angolare o pendenza, rispettivamente. La retta ’migliore’ è quella che passa più ’vicina’ ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici ŷi e i valori osservati yi siano minime. A. Iodice () Lezione 10 Statistica 7 / 30 La retta di regressione Lezione 10 Metodo dei minimi quadrati A. Iodice le differenze tra i valori teorici ŷi e i valori osservati yi vengono definite residui. La retta di regressione è tale che la somma dei residui al quadrato sia minima. Formalmente Regressione lineare semplice n n X X 2 2 ei = (yi − ŷi ) = i=1 Metodo dei minimi quadrati = Determinazione della retta di regressione i=1 n X 2 (yi − b0 − b1 xi ) i=1 Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni (condizioni del primo ordine o stazionarietà). Qualità della soluzione trovata ∂ Outliers n X ∂b0 i=1 Regressione su tabella a doppia entrata ∂ n X ∂b1 i=1 2 =0 2 =0 (yi − b0 − b1 xi ) (yi − b0 − b1 xi ) Nota: si tratta di punti di minimo perchè le derivate seconde ∂b0 b0 f (b0 , b1 ) = −2(−n), P 2 ∂b1 b1 f (b0 , b1 ) = −2 n i (−xi ) sono sempre non negative. A. Iodice () Lezione 10 Statistica 8 / 30 La retta di regressione Lezione 10 A. Iodice Regressione lineare semplice Stimatori dei parametri della retta di regressione:(b0 ) Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata −2 n X (yi − b0 − b1 xi ) = i=1 n X yi − n ∗ b0 − b1 i=1 n X xi = 0 i=1 b0 = µy − b1 µx Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 9 / 30 La retta di regressione Lezione 10 A. Iodice Stimatori dei parametri della retta di regressione:(b1 ) Regressione lineare semplice −2 Metodo dei minimi quadrati n X xi (yi − b0 − b1 xi ) = 0 i=1 n X Determinazione della retta di regressione xi yi − b0 i=1 n X b1 Qualità della soluzione trovata b1 Outliers Regressione su tabella a doppia entrata b1 xi − b 1 i=1 x2i = n X n X xi yi − i=1 i=1 i=1 n X n X x2i = xi yi − i=1 i=1 i=1 n X n X n X x2i = i=1 x2i = 0 i=1 n X n X i=1 A. Iodice () n X xi yi − Pn i=1 xi n Pn xi i=1 n Pn xi i=1 Lezione 10 yi yi + Pn − b1 n X i=1 xi n Pn xi b1 i=1 i=1 i=1 yi + b1 n Pn i=1 xi xi n 2 n Statistica 10 / 30 La retta di regressione Lezione 10 A. Iodice Stimatori dei parametri della retta di regressione:(b1 ) Regressione lineare semplice Metodo dei minimi quadrati Determinazione della retta di regressione " # 2 Pn Pn n n n X X X 1 1 i=1 xi 2 i=1 yi b1 xi − b1 = xi yi − xi n n n n i=1 i=1 i=1 2 Pn Pn Pn Pn Pn 2 x i=1 i i=1 xi i=1 xi yi i=1 xi i=1 yi b1 − −b1 = n n2 n n n | {z } | {z } | {z } | {z } µx2 Qualità della soluzione trovata Pn Outliers b1 µx2 − (µx )2 = | {z } | Regressione su tabella a doppia entrata σxy b1 = 2 σx 2 σx A. Iodice () µx (µx )2 i=1 xi yi n {z σxy Lezione 10 µy − µx µy } Statistica 11 / 30 Determinazione della retta di regressione Lezione 10 A. Iodice Regressione lineare semplice ...statistiche descrittive Metodo dei minimi quadrati P10 i=1 µx = Determinazione della retta di regressione 10 = 6.07 µy = P10 i=1 yi 10 q P10 σx = σxy = Qualità della soluzione trovata xi rxy = 2 i=1 (xi −µx ) 10 P10 i=1 σxy σx σy = 3.04 (xi −µx )(yi −µy ) 10 σy = = 14.1 q P10 i=1 (yi −µy )2 10 = 10.1 = 24.7 = 0.8 Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 12 / 30 Determinazione della retta di regressione Lezione 10 Calcolo dei coefficienti A. Iodice Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha σ b1 = σxy b0 = µy − b1 µx = 14.1 − (2.66 ∗ 6.07) = −2.04 2 = 2.66 x Regressione lineare semplice Y = −2.04 + 2.66x rappresenta la retta di regressione stimata Metodo dei minimi quadrati La retta ’migliore’ Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 13 / 30 Interpretazione dei valori dei coefficienti di regressione Lezione 10 A. Iodice Regressione lineare semplice Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata b0 rappresenta l’intercetta della retta di regressione ed indica il valore della variabile di risposta Y quando il predittore x assume valore 0. b1 rappresenta l’inclinazione della retta di regressione, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore x. Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 14 / 30 Bontà di adattamento Lezione 10 A. Iodice Regressione lineare semplice Esistono diversi strumenti grafici ed analitici per valutare la bontà dell’adattamento della retta di regressione ai dati Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata Strumenti grafici: plot dei residui Strumenti analitici:coefficiente di determinazione lineare R2 Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 15 / 30 Plot dei residui Lezione 10 Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio, all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione. A. Iodice Regressione lineare semplice Plot dei residui Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n) Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 16 / 30 coefficiente di determinazione lineare R2 Lezione 10 A. Iodice Regressione lineare semplice Ricordando che la devianza il numeratore della varianza... Metodo dei minimi quadrati Devy = Determinazione della retta di regressione = Qualità della soluzione trovata = n X i=1 n X i=1 n X i=1 (yi − µy )2 = (yi − ŷi )2 + (yi − ŷi )2 + n X (yi − ŷi + ŷi − µy )2 = i=1 n X n X i=1 n X i=1 n X (ŷi − µy )2 + 2 (yi − ŷi )(ŷi − µy ) (ŷi − µy )2 + 2( i=1 i=1 yi − n X i=1 n X ŷi )( ŷi − nµy ) i=1 Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 17 / 30 coefficiente di determinazione lineare R2 Lezione 10 Per il metodo dei minimi quadrati A. Iodice n ∂ X (yi − ŷi )2 = 0 ∂ ŷi i=1 ! n X −2 (yi − ŷi ) = 0 Regressione lineare semplice Metodo dei minimi quadrati i=1 n X Determinazione della retta di regressione (yi − ŷi ) = 0 =⇒ i=1 n X i=1 yi = n X ŷi i=1 Qualità della soluzione trovata Outliers Dev(y) = Regressione su tabella a doppia entrata n X i=1 = n X i=1 A. Iodice () (yi − ŷi )2 + n X n X (ŷi − µy )2 + 2 ∗ 0 ∗ ( ŷi − nµy ) i=1 n X (ŷi − µy )2 + i=1 (yi − ŷi )2 = Devr + Deve i=1 Lezione 10 Statistica 18 / 30 Decomposizione della devianza La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve Lezione 10 A. Iodice Regressione lineare semplice Devy = Pn (yi − µy )2 devianza totale Devr = Pn (ŷi − µy )2 devianza di regressione Deve = Pn (yi − ŷi )2 devianza dei residui i=1 i=1 i=1 Interpretazione grafica Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 19 / 30 Bontà dell’adattamento Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di determinazione lineare R2 , dato da Lezione 10 A. Iodice Regressione lineare semplice R 2 = Devr Devy ovvero Metodo dei minimi quadrati R Determinazione della retta di regressione 2 =1− Deve Devy Pn = Pi=1 n (ŷi − µy )2 2 i=1 (yi − µy ) Pn (yi − ŷi )2 = 1 − P i=1 n (y − µ )2 i=1 i y esempio di calcolo R2 Qualità della soluzione trovata Devy = Pn Devr = Pn Outliers Deve = Pn i=1 (yi − µy )2 = 1020.9 2 i=1 (ŷi − µy ) = 657.97 i=1 (yi − ŷi )2 = 362.93 Regressione su tabella a doppia entrata R ovvero R A. Iodice () 2 =1− 2 = Deve Devy Devr Devy = =1− Lezione 10 657.97 1020.9 362.93 1020.9 = 0.64 = 1 − 0.36 = 0.64 Statistica 20 / 30 Influenza di un outlier sulla soluzione Lezione 10 A. Iodice Regressione lineare semplice Un piccolo esempio Si considerino le seguenti osservazioni Metodo dei minimi quadrati Retta di regressione La soluzione induce a concludere che vi sia una relazione di proporzionalità inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la variabile dipendente Y diminuisce. Determinazione della retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 21 / 30 Influenza di un outlier sulla soluzione Lezione 10 Retta di regressione A. Iodice Regressione lineare semplice Un (altro) piccolo esempio Si considerino le osservazioni precedenti a cui è aggiunta un unica coppia di valori (8, 8). I dati sono Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata In questo caso, la sola presenza della nuova osservazione conduce all’identificazione di una retta di regressione diversa dalla prima: l’inclinazione positiva della retta indica una relazione di diretta proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce pertanto un outlier. L’identificazione e la conseguente eliminazione degli eventuali outlier è un elemento molto importante nello studio della dipendenza tra fenomeni. Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 22 / 30 Regressione su distribuzione doppia di frequenze Lezione 10 A. Iodice Si consideri di aver osservato su 10 rivenditori di componenti informatiche le variabili numero di punti vendita e Fatturato settimanale complessivo. Si studi la dipendenza del fatturato dal numero di punti vendita. Regressione lineare semplice Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata fino a 5000 tra 5000 e 10000 fino a 2 3 1 tra 2 e 4 2 2 tra 4 e 6 0 2 Outliers Si stimino i coefficienti della retta di regressione. Regressione su tabella a doppia entrata Si valuti la bontà di adattamento della retta ai dati. A. Iodice () Lezione 10 Statistica 23 / 30 Regressione distribuzione doppia di frequenze Lezione 10 Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai centri di ciascun intervallo. La tabella è dunque data da A. Iodice Regressione lineare semplice Y /X 2500 7500 Tot Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata 3 2 2 4 5 0 2 2 Tot 5 5 10 Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze: µx = Outliers µy = Regressione su tabella a doppia entrata 1 3 1 4 k 1 X n j=1 h 1X n i=1 xj n.j = yi ni. = 1 10 1 10 × (1 × 4) + (3 × 4) + (5 × 2) = × (2500 × 5) + (7500 × 5) = 4 + 12 + 10 10 12500 + 37500 10 = 2.6 = 5000 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. A. Iodice () Lezione 10 Statistica 24 / 30 Regressione: distribuzione doppia di frequenze Lezione 10 Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato A. Iodice Y /X (2500 − 5000)2 (7500 − 5000)2 Tot Regressione lineare semplice Metodo dei minimi quadrati (1 − 2.6)2 3 1 4 (3 − 2.6)2 2 2 4 (5 − 2.6)2 0 2 2 Tot 5 5 10 Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze: Determinazione della retta di regressione Qualità della soluzione trovata 2 σx = k 1 X 2 n j=1 (xj − µx ) n.j = 2 + ((5 − 2.6) × 2) = Outliers 2 σy = Regressione su tabella a doppia entrata = h 1X n i=1 1 10 2 10.24 + 0.64 + 11.52 10 2 (yi − µy ) ni. = 31250000 + 31250000 10 2 × ((1 − 2.6) × 4) + ((3 − 2.6) × 4)+ 1 10 = 2.24 2 2 × (2500 × 5) + (7500 × 5) = 6250000 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. A. Iodice () Lezione 10 Statistica 25 / 30 Esercizio regressione: distribuzione doppia di frequenze Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza. Lezione 10 Y /X (2500 − 5000) (7500 − 5000) Tot A. Iodice Regressione lineare semplice Metodo dei minimi quadrati Determinazione della retta di regressione Qualità della soluzione trovata Outliers σxy = Regressione su tabella a doppia entrata h X k 1 X n i=1 j=1 (1 − 2.6) 3 1 4 (3 − 2.6) 2 2 4 (5 − 2.6) 0 2 2 yi xi yi − µ y xi − µx 2500 2500 2500 2500 2500 7500 7500 7500 7500 7500 1 1 1 3 3 1 3 3 5 5 (2500-5000) (2500-5000) (2500-5000) (2500-5000) (2500-5000) (7500-5000) (7500-5000) (7500-5000) (7500-5000) (7500-5000) (1-2.6) (1-2.6) (1-2.6) (3-2.6) (3-2.6) (1-2.6) (3-2.6) (3-2.6) (5-2.6) (5-2.6) Tot 5 5 10 (yi − µy ) × (xj − µx ) × nij = 1 ((2500 − 5000)(1 − 2.6) × 3 + (2500 − 5000)(3 − 2.6) × 2+ 10 + (7500 − 5000)(1 − 2.6) × 1 + (7500 − 5000)(3 − 2.6) × 2+ = + (7500 − 5000)(5 − 2.6) × 2) = A. Iodice () 12000 − 2000 − 4000 + 2000 + 12000 Lezione 10 10 = 2000 Statistica 26 / 30 Esercizio regressione: distribuzione doppia di frequenze Lezione 10 Avendo calcolato le quantità µx = 2.6, µy = 5000, σx2 = 2.24 e σxy = 2000, è possibile calcolare i coefficienti della retta di regressione A. Iodice Regressione lineare semplice Calcolo dei coefficienti Metodo dei minimi quadrati b1 = Determinazione della retta di regressione Qualità della soluzione trovata = 2000 2.24 = 892.571 b0 = µy − b1 µx = 5000 − (892.571 ∗ 2.6) = 2679.315 quindi l’equazione della retta di regressione è y = b0 + b1 x = 2679.315 + 892.571x Outliers Regressione su tabella a doppia entrata σxy σx2 Dunque, il valore stimato ŷi corrispondente ad un valore xi assegnato è ŷi = b0 + b1 x. A. Iodice () Lezione 10 Statistica 27 / 30 Valutazione della bontà di adattamento Lezione 10 A. Iodice Ricordando che Regressione lineare semplice R Metodo dei minimi quadrati R Devr Devy Pn = Pi=1 n i=1 2 =1− Deve Devy (ŷi − µy )2 (yi − µy )2 Pn = 1 − P i=1 n (yi − ŷi )2 2 i=1 (yi − µy ) con Devy = Devr + Deve Qualità della soluzione trovata Regressione su tabella a doppia entrata = ovvero Determinazione della retta di regressione Outliers 2 Devy = Pn (yi − µy )2 devianza totale Devr = Pn (ŷi − µy )2 devianza di regressione Deve = Pn (yi − ŷi )2 devianza dei residui i=1 i=1 i=1 Per ottenere R2 , misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo 2 già calcolato σy . A. Iodice () Lezione 10 Statistica 28 / 30 Calcolo della devianza dei residui Lezione 10 A. Iodice Regressione lineare semplice Deve = Metodo dei minimi quadrati Determinazione della retta di regressione Pn i=1 (yi − ŷi )2 devianza dei residui in base alla retta di regressione stimata, i valori ŷi stimati in funzione dei valori xi sono Qualità della soluzione trovata ŷ1 = b0 + b1 x1 = 2679.315 + 892.571 × 1 = 3571.886 ŷ2 = b0 + b1 x2 = 2679.315 + 892.571 × 3 = 5357.028 ŷ3 = b0 + b1 x3 = 2679.315 + 892.571 × 5 = 7142.17 Outliers Regressione su tabella a doppia entrata A. Iodice () Lezione 10 Statistica 29 / 30 Calcolo della devianza dei residui Per calcolare i residui yi − ŷi nel caso di tabella a doppia entrata si procede come segue Lezione 10 A. Iodice yi /ŷj y1 = 2500 y2 = 7500 Tot Regressione lineare semplice Metodo dei minimi quadrati Deve = Ph i=1 ŷ1 = 3571.886 3 1 4 Pk i=1 ŷ2 = 5357.028 2 2 4 ŷ3 = 7142.17 0 2 2 Tot 5 5 10 ((yi − ŷj )2 ) × nij devianza dei residui per tabella doppia calcolo della devianza dei residui Determinazione della retta di regressione Deve = h X k X 2 2 2 ((yi − ŷj ) ) × nij = ((2500 − 3571.886) ) × 3 + ((2500 − 5357.028) ) × 2+ i=1 j=1 Qualità della soluzione trovata 2 2 2 + ((7500 − 3571.886) ) × 1 + ((7500 − 5357.028) ) × 2 + ((7500 − 7142.17) ) × 2 = = 44642859 Outliers Regressione su tabella a doppia entrata devy = n X 2 (yi − µy ) 2 = σy × n = 6250000 × 10 = 62500000 i=1 R A. Iodice () 2 =1− deve devy Lezione 10 = 1 − 0.71 = 0.29 Statistica 30 / 30