Esercitazione 8 A. Iodice Studio della dipendenza Esercitazione 8 La retta di regressione Statistica Qualità della soluzione trovata Alfonso Iodice D’Enza [email protected] Outliers Regressione su tabella a doppia entrata Università degli studi di Cassino A. Iodice () Esercitazione 8 Statistica 1 / 24 Outline Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata 1 Studio della dipendenza 2 La retta di regressione 3 Qualità della soluzione trovata 4 Outliers 5 Regressione su tabella a doppia entrata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 2 / 24 Dipendenza lineare Esercitazione 8 A. Iodice Lo studio della relazione tra caratteri statistici è, nel caso della interdipendenza, di tipo simmetrico: due caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A questo scopo sono stati introdotti gli indici di covarianza σxy e di correlazione lineare ρ. Si consideri di aver osservato due caratteri quantitativi X ed Y . Si riportano i valori e il grafico di dispersione: Studio della dipendenza Il diagramma di dispersione (scatter plot) La retta di regressione Qualità della soluzione trovata 1 2 3 4 5 6 7 8 9 10 Outliers Regressione su tabella a doppia entrata A. Iodice () Y 28 21 63 42 28 2 80 19 33 60 376 X 11 8 28 17 9 4 28 5 12 23 145 Esercitazione 8 Statistica 3 / 24 Dipendenza lineare Esercitazione 8 covarianza e coefficiente di correlazione P10 i=1 xi = 14.5 10 P10 i=1 yi = 37.6 10 rP 10 (x −µ )2 x i i=1 10 A. Iodice µx = Studio della dipendenza µy = La retta di regressione σx = Qualità della soluzione trovata σy = Outliers ρxy = Regressione su tabella a doppia entrata rP σxy = 10 (y −µ )2 y i i=1 10 = 8.57 = 22.49 P10 i=1 (xi −µx )(yi −µy ) 10 σxy = 0.97 σx σy = 187.3 Dipendenza funzionale lineare Essendo il valore del coefficiente di correlazione lineare prossimo ad 1 esiste una forte relazione lineare tra X ed Y . Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo Y = f (X) = b0 + b1 X che rappresenta l’equazione di una retta passante attraverso la nube di punti di coordinate (xi , yi ). A. Iodice () Esercitazione 8 Statistica 4 / 24 La retta di regressione Esercitazione 8 rette passanti per la nube di punti A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers La retta di regressione La retta di regressione fornisce una approssimazione della dipendenza dei valori di Y dai valori di X. La relazione di dipendenza non è esattamente riprodotta dalla retta; i valori yi∗ = b0 + b1 xi sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = b0 + b1 X, in corrispondenza dei valori xi osservati. Regressione su tabella a doppia entrata Determinazione della retta di regressione L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , l’intercetta, e b1 , il coefficiente angolare o pendenza. La retta ’migliore’ è quella che passa più ’vicina’ ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi∗ e i valori osservati yi siano minime. A. Iodice () Esercitazione 8 Statistica 5 / 24 La retta di regressione Esercitazione 8 A. Iodice I residui Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata le differenze tra i valori teorici yi∗ e i valori osservati yi vengono definite residui. La retta di regressione è tale che la somma dei residui al quadrato sia minima. Formalmente Ricerca dei parametri della retta di regressione:(b0 ) n n n X X X 2 ∗ 2 2 ei = (yi − yi ) = (yi − b0 − b1 xi ) i=1 i=1 i=1 −2 Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni ∂ n X ∂b0 i=1 ∂ n X ∂b1 i=1 A. Iodice () n X (yi − b0 − b1 xi ) = i=1 n X yi − n ∗ b0 − b1 i=1 2 =0 2 =0 (yi − b0 − b1 xi ) (yi − b0 − b1 xi ) Esercitazione 8 n X xi = 0 i=1 b0 = µ y − b1 µ x Statistica 6 / 24 La retta di regressione Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata I residui le differenze tra i valori teorici yi∗ e i valori osservati yi vengono definite residui. La retta di regressione è tale che la somma dei residui al quadrato sia minima. Ricerca dei parametri della retta di regressione:(b1 ) Formalmente n n X X 2 ∗ 2 ei = (yi − yi ) = i=1 = n X 2 (yi − b0 − b1 xi ) n X ∂b0 i=1 ∂ n X ∂b1 i=1 A. Iodice () xi (yi − b0 − b1 xi ) = 0 xi yi − b0 i=1 Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni ∂ n X i=1 i=1 Outliers Regressione su tabella a doppia entrata n X −2 i=1 b1 n X n 2 =0 2 =0 (yi − b0 − b1 xi ) 2 xi = n X 2 xi n Esercitazione 8 n X −( Pn i=1 xi n ! 2 xi ) =n n X i=1 Pn yi Pn − b1 i=1 n X n X xi yi − xi ! n xi i=1 yi i=1 Pn σxy xi yi − i=1 xi i=1 yi = Pn Pn 2 2 2 σx i=1 xi − ( i=1 xi ) i=1 n 2 xi = 0 i=1 n X i=1 Pn n X i=1 xi y i − i=1 n X i=1 b1 = (yi − b0 − b1 xi ) xi − b1 i=1 i=1 b1 n X Statistica 7 / 24 Determinazione della retta di regressione Esercitazione 8 A. Iodice Calcolo dei coefficienti Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha b1 = Studio della dipendenza La retta di regressione σxy 2 σx = 2.55 b0 = µy − b1 µx = 37.6 − (2.55 ∗ 14.5) = 0.62 La retta ’migliore’ Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 8 / 24 Interpretazione dei valori dei coefficienti di regressione Esercitazione 8 A. Iodice Studio della dipendenza b0 rappresenta l’intercetta della retta di regressione ed indica il valore della variabile di risposta Y quando il predittore X assume valore 0. La retta di regressione Qualità della soluzione trovata b1 rappresenta l’inclinazione della retta di regressione, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore X. Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 9 / 24 Bontà di adattamento Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata Esistono diversi strumenti grafici ed analitici per valutare la bontà dell’adattamento della retta di regressione ai dati Strumenti grafici: plot dei residui Strumenti analitici:coefficiente di determinazione lineare R2 Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 10 / 24 Plot dei residui Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio, all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione. Plot dei residui Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n) Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 11 / 24 coefficiente di determinazione lineare R2 Esercitazione 8 Ricordando che la devianza il numeratore della varianza... A. Iodice Devy = Studio della dipendenza 2 (yi − µy ) = i=1 La retta di regressione = Qualità della soluzione trovata = Outliers n X n X 2 (yi − ŷi ) + n X 2 (ŷi − µy ) + 2 2 (yi − ŷi ) + n X Dev(y) = n X 2 n X i=1 (yi − ŷi )(ŷi − µy ) n X i=1 Pn i=1 ŷi = n X 2 (yi − ŷi ) + i=1 = n X (ŷi − µy ) + 2( i=1 Il metodo dei minimi quadrati assicura che A. Iodice () = i=1 i=1 i=1 Regressione su tabella a doppia entrata 2 (yi − ŷi + ŷi − µy ) i=1 i=1 n X n X Pn i=1 2 n X 2 (ŷi − µy ) + 2 ∗ 0 ∗ ( n X ŷi )( i=1 n X ŷi − nµy ) i=1 yi , quindi i=1 (ŷi − µy ) + yi − n X ŷi − nµy ) i=1 2 (yi − ŷi ) = Devr + Deve i=1 Esercitazione 8 Statistica 12 / 24 Decomposizione della devianza Esercitazione 8 La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve A. Iodice Studio della dipendenza La retta di regressione Devy = Pn (yi − µy )2 devianza totale Devr = Pn (ŷi − µy )2 devianza di regressione Deve = Pn (yi − ŷi )2 devianza dei residui i=1 i=1 i=1 Interpretazione grafica Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 13 / 24 Bontà dell’adattamento Esercitazione 8 A. Iodice Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di determinazione lineare R2 , dato da Studio della dipendenza La retta di regressione R 2 = ovvero R 2 =1− Qualità della soluzione trovata Outliers Devr Devy Deve Devy Pn = Pi=1 n (ŷi − µy )2 2 i=1 (yi − µy ) Pn (yi − ŷi )2 = 1 − P i=1 n (y − µ )2 i=1 i y esempio di calcolo R2 Regressione su tabella a doppia entrata Devy = Pn Devr = Pn Deve = Pn i=1 (yi − µy )2 = 5058.4 2 i=1 (ŷi − µy ) = 4776.214 i=1 (yi − ŷi )2 = 282.1862 R ovvero R A. Iodice () 2 =1− 2 = Deve Devy Devr Devy =1− 4776.214 = 5058.4 282.1862 5058.4 Esercitazione 8 = 0.94 = 1 − 10.53 = 0.94 Statistica 14 / 24 Influenza di un outlier sulla soluzione Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Un piccolo esempio Si considerino le seguenti osservazioni Retta di regressione La soluzione induce a concludere che vi sia una relazione di proporzionalità inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la variabile dipendente Y diminuisce. Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 15 / 24 Influenza di un outlier sulla soluzione Esercitazione 8 Retta di regressione A. Iodice Studio della dipendenza La retta di regressione Un (altro) piccolo esempio Si considerino le osservazioni precedenti a cui è aggiunta un unica coppia di valori (8, 8). I dati sono Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata In questo caso, la sola presenza della nuova osservazione conduce all’identificazione di una retta di regressione diversa dalla prima: l’inclinazione positiva della retta indica una relazione di diretta proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce pertanto un outlier. L’identificazione e la conseguente eliminazione degli eventuali outlier è un elemento molto importante nello studio della dipendenza tra fenomeni. A. Iodice () Esercitazione 8 Statistica 16 / 24 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Si consideri di aver osservato su 10 rivenditori di componenti informatiche le variabili numero di punti vendita e Fatturato settimanale complessivo. Si studi la dipendenza del fatturato dal numero di punti vendita. Qualità della soluzione trovata fino a 5000 tra 5000 e 1000 Outliers fino a 2 3 1 tra 2 e 4 2 2 tra 4 e 6 0 2 Regressione su tabella a doppia entrata Si stimino i coefficienti della retta di regressione. Si valuti la bontà di adattamento della retta ai dati. A. Iodice () Esercitazione 8 Statistica 17 / 24 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 A. Iodice Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai centri di ciascun intervallo. La tabella è dunque data da Studio della dipendenza Y /X 2500 7500 Tot La retta di regressione Qualità della soluzione trovata 1 3 1 4 3 2 2 4 5 0 2 2 Tot 5 5 10 Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze: Outliers µx = Regressione su tabella a doppia entrata µy = k 1 X n j=1 h 1X n i=1 xj n.j = yi ni. = 1 10 1 10 × (1 × 4) + (3 × 4) + (5 × 2) = × (2500 × 5) + (7500 × 5) = 4 + 12 + 10 10 12500 + 37500 10 = 2.6 = 5000 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. A. Iodice () Esercitazione 8 Statistica 18 / 24 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato A. Iodice Y /X (2500 − 5000)2 (7500 − 5000)2 Tot Studio della dipendenza (1 − 2.6)2 3 1 4 (3 − 2.6)2 2 2 4 (5 − 2.6)2 0 2 2 Tot 5 5 10 La retta di regressione Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze: Qualità della soluzione trovata 2 σx = Outliers Regressione su tabella a doppia entrata k 1 X 2 n j=1 (xj − µx ) n.j = 2 + ((5 − 2.6) × 2) = 2 σy = = h 1X n i=1 1 10 2 10.24 + 0.64 + 11.52 10 2 (yi − µy ) ni. = 31250000 + 31250000 10 2 × ((1 − 2.6) × 4) + ((3 − 2.6) × 4)+ 1 10 = 2.24 2 2 × (2500 × 5) + (7500 × 5) = 6250000 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. A. Iodice () Esercitazione 8 Statistica 19 / 24 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza. Y /X (2500 − 5000) (7500 − 5000) Tot A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata σxy = h X k 1 X n i=1 j=1 (1 − 2.6) 3 1 4 (3 − 2.6) 2 2 4 (5 − 2.6) 0 2 2 yi xi yi − µ y xi − µx 2500 2500 2500 2500 2500 7500 7500 7500 7500 7500 1 1 1 3 3 1 3 3 5 5 (2500-5000) (2500-5000) (2500-5000) (2500-5000) (2500-5000) (7500-5000) (7500-5000) (7500-5000) (7500-5000) (7500-5000) (1-2.6) (1-2.6) (1-2.6) (3-2.6) (3-2.6) (1-2.6) (3-2.6) (3-2.6) (5-2.6) (5-2.6) Tot 5 5 10 (yi − µy ) × (xj − µx ) × nij = 1 ((2500 − 5000)(1 − 2.6) × 3 + (2500 − 5000)(3 − 2.6) × 2+ 10 + (7500 − 5000)(1 − 2.6) × 1 + (7500 − 5000)(3 − 2.6) × 2+ = + (7500 − 5000)(5 − 2.6) × 2) = A. Iodice () 12000 − 2000 − 4000 + 2000 + 12000 Esercitazione 8 10 = 2000 Statistica 20 / 24 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Avendo calcolato le quantità µx = 2.6, µy = 5000, σx2 = 2.24 e σxy = 2000, è possibile calcolare i coefficienti della retta di regressione Calcolo dei coefficienti b1 = Qualità della soluzione trovata = 2000 2.24 = 892.571 b0 = µy − b1 µx = 5000 − (892.571 ∗ 2.6) = 2679.315 Outliers Regressione su tabella a doppia entrata σxy σx2 quindi l’equazione della retta di regressione è y = b0 + b1 x = 2679.315 + 892.571x Dunque, il valore stimato ŷi corrispondente ad un valore xi assegnato è ŷi = b0 + b1 x. A. Iodice () Esercitazione 8 Statistica 21 / 24 Valutazione della bontà di adattamento Esercitazione 8 A. Iodice Ricordando che Studio della dipendenza La retta di regressione Qualità della soluzione trovata R 2 = Devr Devy Pn = Pi=1 n i=1 ovvero R 2 =1− Deve Devy (ŷi − µy )2 (yi − µy )2 Pn = 1 − P i=1 n (yi − ŷi )2 2 i=1 (yi − µy ) con Devy = Devr + Deve Outliers Regressione su tabella a doppia entrata Devy = Pn (yi − µy )2 devianza totale Devr = Pn (ŷi − µy )2 devianza di regressione Deve = Pn (yi − ŷi )2 devianza dei residui i=1 i=1 i=1 Per ottenere R2 , misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo 2 già calcolato σy . A. Iodice () Esercitazione 8 Statistica 22 / 24 Calcolo della devianza dei residui Esercitazione 8 A. Iodice Studio della dipendenza La retta di regressione Qualità della soluzione trovata Deve = Pn i=1 (yi − ŷi )2 devianza dei residui in base alla retta di regressione stimata, i valori ŷi stimati in funzione dei valori xi sono ŷ1 = b0 + b1 x1 = 2679.315 + 892.571 × 1 = 3571.886 Outliers ŷ2 = b0 + b1 x2 = 2679.315 + 892.571 × 3 = 5357.028 Regressione su tabella a doppia entrata ŷ3 = b0 + b1 x3 = 2679.315 + 892.571 × 5 = 7142.17 A. Iodice () Esercitazione 8 Statistica 23 / 24 Calcolo della devianza dei residui Esercitazione 8 Per calcolare i residui yi − ŷi nel caso di tabella a doppia entrata si procede come segue yi /ŷj y1 = 2500 y2 = 7500 Tot A. Iodice Studio della dipendenza La retta di regressione Deve = Ph i=1 ŷ1 = 3571.886 3 1 4 Pk i=1 Qualità della soluzione trovata calcolo della devianza dei residui Outliers Deve = h X k X ŷ2 = 5357.028 2 2 4 ŷ3 = 7142.17 0 2 2 Tot 5 5 10 ((yi − ŷj )2 ) × nij devianza dei residui per tabella doppia 2 2 2 ((yi − ŷj ) ) × nij = ((2500 − 3571.886) ) × 3 + ((2500 − 5357.028) ) × 2+ i=1 j=1 Regressione su tabella a doppia entrata 2 2 2 + ((7500 − 3571.886) ) × 1 + ((7500 − 5357.028) ) × 2 + ((7500 − 7142.17) ) × 2 = = 44642859 devy = n X 2 (yi − µy ) 2 = σy × n = 6250000 × 10 = 62500000 i=1 R A. Iodice () 2 =1− deve devy Esercitazione 8 = 1 − 0.71 = 0.29 Statistica 24 / 24