Esercitazione 6 A. Iodice Studio della dipendenza Esercitazione 6 La retta di regressione Statistica Qualità della soluzione trovata Alfonso Iodice D’Enza [email protected] Outliers Università degli studi di Cassino A. Iodice () Esercitazione 6 Statistica 1 / 16 Outline Esercitazione 6 A. Iodice Studio della dipendenza 1 Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 2 / 16 Outline Esercitazione 6 A. Iodice Studio della dipendenza 1 Studio della dipendenza 2 La retta di regressione La retta di regressione Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 2 / 16 Outline Esercitazione 6 A. Iodice Studio della dipendenza 1 Studio della dipendenza 2 La retta di regressione 3 Qualità della soluzione trovata La retta di regressione Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 2 / 16 Outline Esercitazione 6 A. Iodice Studio della dipendenza 1 Studio della dipendenza 2 La retta di regressione 3 Qualità della soluzione trovata 4 Outliers La retta di regressione Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 2 / 16 Dipendenza lineare Esercitazione 6 A. Iodice Studio della dipendenza Lo studio della relazione tra caratteri statistici è, nel caso della interdipendenza, di tipo simmetrico: due caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A questo scopo sono stati introdotti gli indici di covarianza σxy e di correlazione lineare ρ. Si consideri di aver osservato due caratteri quantitativi X ed Y . Si riportano i valori e il grafico di dispersione: I dati scatter plot La retta di regressione Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 3 / 16 Dipendenza lineare Esercitazione 6 A. Iodice µx = Studio della dipendenza µy = La retta di regressione σx = P30 i=1 xi = 15.63 30 P30 i=1 yi = 44.2 30 rP 30 (x −µ )2 x i i=1 30 rP Qualità della soluzione trovata Outliers scatter plot covarianza e coefficiente di correlazione σy = σxy = ρxy = 30 (y −µ )2 y i i=1 30 = 8.55 = 25.35 P30 i=1 (xi −µx )(yi −µy ) = 205.04 30 σxy 205.04 = 0.9458805 = 216.7716 σx σy Dipendenza funzionale lineare Essendo il valore del coefficiente di correlazione lineare prossimo ad 1 esiste una forte relazione lineare tra X ed Y . Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo Y = f (X) = b0 + b1 X che rappresenta l’equazione di una retta passante attraverso la nube di punti di coordinate (xi , yi ). A. Iodice () Esercitazione 6 Statistica 4 / 16 La retta di regressione Esercitazione 6 rette passanti per la nube di punti A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers La retta di regressione La retta di regressione fornisce una approssimazione della dipendenza dei valori di Y dai valori di X. La relazione di dipendenza non è esattamente riprodotta dalla retta; i valori yi∗ = b0 + b1 xi sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = b0 + b1 X, in corrispondenza dei valori xi osservati. Determinazione della retta di regressione L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , l’intercetta, e b1 , il coefficiente angolare o pendenza. La retta ’migliore’ è quella che passa più ’vicina’ ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi∗ e i valori osservati yi siano minime. A. Iodice () Esercitazione 6 Statistica 5 / 16 La retta di regressione Esercitazione 6 A. Iodice I residui Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers le differenze tra i valori teorici yi∗ e i valori osservati yi vengono definite residui. La retta di regressione è tale che la somma dei residui al quadrato sia minima. Formalmente Ricerca dei parametri della retta di regressione:(b0 ) n n n X X X 2 ∗ 2 2 ei = (yi − yi ) = (yi − b0 − b1 xi ) i=1 i=1 i=1 −2 n X (yi − b0 − b1 xi ) = i=1 Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni ∂ n X ∂b0 i=1 ∂ n X ∂b1 i=1 A. Iodice () =0 2 =0 (yi − b0 − b1 xi ) yi − n ∗ b0 − b1 i=1 n X xi = 0 i=1 b0 = µ y − b1 µ x 2 (yi − b0 − b1 xi ) n X Esercitazione 6 Statistica 6 / 16 La retta di regressione Esercitazione 6 A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata I residui le differenze tra i valori teorici yi∗ e i valori osservati yi vengono definite residui. La retta di regressione è tale che la somma dei residui al quadrato sia minima. Ricerca dei parametri della retta di regressione:(b1 ) Formalmente n n X X 2 ∗ 2 ei = (yi − yi ) = i=1 = n X −2 i=1 n X 2 (yi − b0 − b1 xi ) n X ∂b0 i=1 ∂ n X ∂b1 i=1 A. Iodice () xi yi − b0 i=1 Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni ∂ xi (yi − b0 − b1 xi ) = 0 i=1 i=1 Outliers n X b1 n X n 2 =0 2 =0 (yi − b0 − b1 xi ) 2 xi = n X 2 xi n Esercitazione 6 n X −( Pn i=1 xi n ! 2 xi ) =n n X i=1 Pn yi Pn − b1 i=1 n X n X xi yi − xi ! n xi i=1 yi i=1 Pn σxy xi yi − i=1 xi i=1 yi = Pn Pn 2 2 2 σx i=1 xi − ( i=1 xi ) i=1 n 2 xi = 0 i=1 n X i=1 Pn n X i=1 xi y i − i=1 n X i=1 b1 = (yi − b0 − b1 xi ) xi − b1 i=1 i=1 b1 n X Statistica 7 / 16 Determinazione della retta di regressione Esercitazione 6 A. Iodice Calcolo dei coefficienti Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha b1 = Studio della dipendenza La retta di regressione σxy 2 σx 205.04 = 2.804967 = 205.042 = 73.09889 (8.55) b0 = µy − b1 µx = 44.2 − (2.804967 ∗ 15.63) = 0.349 La retta ’migliore’ Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 8 / 16 Interpretazione dei valori dei coefficienti di regressione Esercitazione 6 A. Iodice Studio della dipendenza b0 rappresenta l’intercetta della retta di regressione ed indica il valore della variabile di risposta Y quando il predittore X assume valore 0. La retta di regressione Qualità della soluzione trovata b1 rappresenta l’inclinazione della retta di regressione, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore X. Outliers A. Iodice () Esercitazione 6 Statistica 9 / 16 Bontà di adattamento Esercitazione 6 A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata Esistono diversi strumenti grafici ed analitici per valutare la bontà dell’adattamento della retta di regressione ai dati Strumenti grafici: plot dei residui Strumenti analitici:coefficiente di determinazione lineare R2 Outliers A. Iodice () Esercitazione 6 Statistica 10 / 16 Plot dei residui Esercitazione 6 A. Iodice Studio della dipendenza La retta di regressione Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio, all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione. Plot dei residui Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n) Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 11 / 16 coefficiente di determinazione lineare R2 Esercitazione 6 Ricordando che la devianza il numeratore della varianza... A. Iodice Devy = Studio della dipendenza 2 (yi − µy ) = i=1 La retta di regressione = Qualità della soluzione trovata = Outliers n X n X ∗ ∗ 2 (yi − yi ) + 2 n X ∗ 2 (yi − µy ) + 2 i=1 ∗ 2 (yi − yi ) + i=1 = Dev(y) = n X n X ∗ 2 (yi − µy ) + 2( n X Pn i=1 i=1 yi∗ = n X ∗ 2 (yi − yi ) + n X ∗ Pn i=1 ∗ 2 2 (yi − µy ) + yi − n X ∗ yi )( i=1 n X n X ∗ yi − nµy ) i=1 yi , quindi (yi − µy ) + 2 ∗ 0 ∗ ( i=1 ∗ ∗ (yi − yi )(yi − µy ) i=1 i=1 = n X i=1 i=1 Il metodo dei minimi quadrati assicura che A. Iodice () ∗ (yi − yi + yi − µy ) i=1 i=1 n X n X n X ∗ yi − nµy ) i=1 ∗ 2 (yi − yi ) = Devr + Deve i=1 Esercitazione 6 Statistica 12 / 16 Decomposizione della devianza Esercitazione 6 La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve P 2 Devy = n i=1 (yi − µy ) devianza totale Pn ∗ Devr = i=1 (yi − µy )2 devianza di regressione P ∗ 2 Deve = n i=1 (yi − yi ) devianza dei residui A. Iodice Studio della dipendenza La retta di regressione Interpretazione grafica Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 13 / 16 Bontà dell’adattamento Esercitazione 6 A. Iodice Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di determinazione lineare R2 , dato da Studio della dipendenza La retta di regressione R 2 = = Pi=1 n i=1 ovvero R 2 =1− Qualità della soluzione trovata Outliers Pn Devr Devy (yi∗ − µy )2 (yi − µy )2 Pn (yi − yi∗ )2 = 1 − P i=1 n 2 (y i − µy ) i=1 Deve Devy esempio di calcolo R2 P 2 Devy = n i=1 (yi − µy ) = 19284.8 Pn Devr = i=1 (yi∗ − µy )2 = 17253.92 P ∗ 2 Deve = n i=1 (yi − yi ) = 2030.885 R ovvero R A. Iodice () 2 =1− 2 = Deve Devy Devr Devy = =1− 17253.92 19284.8 203.885 19284.8 Esercitazione 6 = 0.8947 = 1 − 10.53 = 0.8947 Statistica 14 / 16 Influenza di un outlier sulla soluzione Esercitazione 6 A. Iodice Studio della dipendenza La retta di regressione Un piccolo esempio Si considerino le seguenti osservazioni Retta di regressione La soluzione induce a concludere che vi sia una relazione di proporzionalità inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la variabile dipendente Y diminuisce. Qualità della soluzione trovata Outliers A. Iodice () Esercitazione 6 Statistica 15 / 16 Influenza di un outlier sulla soluzione Esercitazione 6 Retta di regressione A. Iodice Studio della dipendenza La retta di regressione Un (altro) piccolo esempio Si considerino le osservazioni precedenti a cui è aggiunta un unica coppia di valori (8, 8). I dati sono Qualità della soluzione trovata Outliers In questo caso, la sola presenza della nuova osservazione conduce all’identificazione di una retta di regressione diversa dalla prima: l’inclinazione positiva della retta indica una relazione di diretta proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce pertanto un outlier. L’identificazione e la conseguente eliminazione degli eventuali outlier è un elemento molto importante nello studio della dipendenza tra fenomeni. A. Iodice () Esercitazione 6 Statistica 16 / 16