Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Esercitazione 8 Statistica Studio della dipendenza La retta di regressione Alfonso Iodice D’Enza [email protected] Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata Università degli studi di Cassino A. Iodice () Esercitazione 8 Statistica 1 / 33 Outline Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare 1 Il coefficiente di correlazione lineare 2 Studio della dipendenza 3 La retta di regressione 4 Qualità della soluzione trovata 5 Outliers 6 Regressione su tabella a doppia entrata Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 2 / 33 Misura del legame Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Nel caso di variabili quantitative preferibile utilizzare una misura del legame che coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili. Le componenti della variabile doppia X e Y possono essere caratterizzate da diversa posizione e variabilità, risulta in genere che Studio della dipendenza La retta di regressione Qualità della soluzione trovata µx 6= µy e σx 6= σy Volendo misurare le variazioni congiunte delle modalità di X ed Y , si fa riferimento alla versione standardizzata delle variabili, data da Zx = Outliers Regressione su tabella a doppia entrata X − µx Y − µy e Zy = σx σy questo per escludere dalla misura del legame gli effetti della differente media e varianza (essendo µx 6= µy e σx 6= σy ) A. Iodice () Esercitazione 8 Statistica 3 / 33 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare L’indice corrispondente alla media aritmetica del prodotto delle modalità standardizzate delle variabili si definisce coefficiente di correlazione lineare di Pearson ρ ed dato da ρxy = Studio della dipendenza La retta di regressione Con piccole trasformazioni si ottiene la presente formalizzazione Qualità della soluzione trovata ρxy = Outliers Regressione su tabella a doppia entrata n n 1 X xi − µx yi − µy 1X (zx,i zy,i ) = × n i=1 n i=1 σx σy 1 n Pn i=1 (xi − µx )(yi − µy ) σx σy = σxy σx σy La quantità al numeratore si definisce covarianza: essa corrisponde alla media del prodotto degli scarti delle modalità di X e Y dalle rispettive medie. La covarianza misura la contenporanea variazione di X e Y con riferimento alle loro medie. A. Iodice () Esercitazione 8 Statistica 4 / 33 Proprietà del coefficiente di correlazione Esercitazione 8 A. Iodice se X e Y sono indipendenti, allora ρxy = 0 (NON vale il contrario) Il coefficiente di correlazione lineare Studio della dipendenza se ρxy = 1, allora Y = α + βX (ovvero Y una trasformazione lineare di X ) La retta di regressione Qualità della soluzione trovata se ρxy = −1, allora Y = α − βX (ovvero Y una trasformazione lineare di X ) Outliers ρxy = ρyx Regressione su tabella a doppia entrata ρxx = 0 A. Iodice () Esercitazione 8 Statistica 5 / 33 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Esercizio Si considerino i voti riportati da n = 8 studenti negli esami di matematica e statistica. Studio della dipendenza 1 2 3 4 5 6 7 8 La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata matematica(xi ) 24 27 30 26 29 18 21 22 statistica(yi ) 23 28 30 27 30 20 20 25 Si misuri il legame lineare che caratterizza le due variabili A. Iodice () Esercitazione 8 Statistica 6 / 33 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 8 A. Iodice Svolgimento É necessario calcolare le medie aritmetiche µ e gli scarti quadratici medi σ Il voto medio ottenuto dagli studenti all’esame di matematica è Il coefficiente di correlazione lineare µm = P8 i=1 xi n = 197 = 24.625 8 Il voto medio ottenuto dagli studenti all’esame di statistica è µs = Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata 1 2 3 4 5 6 7 8 xi 24 27 30 26 29 18 21 22 yi 23 28 30 27 30 20 20 25 T ot 197 203 xi − µx -0.62 2.38 5.38 1.38 4.38 -6.62 -3.62 -2.62 yi − µy -2.38 2.62 4.62 1.62 4.62 -5.38 -5.38 -0.38 sP 8 i=1 scarti quadratici medi: σm = σs = A. Iodice () 8 i=1 (yi − µy )2 5.64 6.89 21.39 2.64 21.39 28.89 28.89 0.14 119.875 115.875 (xi − µm )2 Esercitazione 8 (yi − µs )2 n = 203 = 25.375 8 (xi − µx )2 0.39 5.64 28.89 1.89 19.14 43.89 13.14 6.89 n sP P8 i=1 yi n s = s = 119.875 8 115.875 8 = 3.87 = 3.805 Statistica 7 / 33 Il coefficiente di correlazione lineare di Pearson ρ Esercitazione 8 A. Iodice Svolgimento Per calcolare il coefficiente di correlazione lineare resta da calcolare la covarianza, ovvero la media aritmetica del prodotto degli scarti dalla media. Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata 1 2 3 4 5 6 7 8 xi 24.00 27.00 30.00 26.00 29.00 18.00 21.00 22.00 yi 23.00 28.00 30.00 27.00 30.00 20.00 20.00 25.00 T ot 197 203 La covarianza è P8 σms = i=1 xi − µx -0.62 2.38 5.38 1.38 4.38 -6.62 -3.62 -2.62 yi − µ y -2.38 2.62 4.62 1.62 4.62 -5.38 -5.38 -0.38 (xi − µx ) × (yi − µy ) 1.48 6.23 24.86 2.23 20.23 35.61 19.48 0.98 111.125 (xi − µm )(yi − µs ) n = 111.125 8 = 13.89 É ora possibile calcolare il coefficiente di correlazione dato da ρms = A. Iodice () σms σ m σs = 13.89 3.87 × 3.805 Esercitazione 8 = 0.943 Statistica 8 / 33 Metodo alternativo per il calcolo di ρ Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Da un punto di vista computazionale risulta conveniente l’utilizzo della seguente formulazione alternativa del coefficiente diPcorrelazione Pn lineare ρ basata sulle n somme delle modalità delle componenti ( P i ), sulle somme dei i=1 i=1 xi , Py n 2 2 quadrati delle modalità delle P componenti ( n i=1 (yi ) ), sulla somma i=1 (xi ) , x y ) dei prodotti tra le modalità ( n i=1 i i Qualità della soluzione trovata ρ= q P Pn xi yi − n i=1 yi i=1 xi Pn 2 Pn 2 Pn Pn 2 2 (n i=1 (xi ) − i=1 xi )(n i=1 (yi ) − i=1 yi ) n Pn i=1 Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 9 / 33 Metodo alternativo per il calcolo di ρ Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione 1 2 3 4 5 6 7 8 Qualità della soluzione trovata xi 24 27 30 26 29 18 21 22 P x = 197 yi 23 28 30 27 30 20 20 25 P y = 203 x2i 576 729 900 676 841 324 441 484 P 2 x = 4971 yi2 529 784 900 729 900 400 400 625 P 2 y = 5267 xi yi 552 756 900 702 870 360 420 550 P xy = 5110 Outliers Pn P Pn n n i=1 xi i=1 yi i=1 xi yi − ρ= q P Pn 2 Pn 2 = Pn n 2 2 (n i=1 (xi ) − i=1 xi )(n i=1 (yi ) − i=1 yi ) Regressione su tabella a doppia entrata 8 × 5110 − (197 × 203) = p = 0.943 (8 × 4971 − (197)2 ) × (8 × 5267 − (203)2 ) A. Iodice () Esercitazione 8 Statistica 10 / 33 Coefficiente di correlazione: esempi di casi limite Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 11 / 33 Coefficiente di correlazione: esempi di casi limite Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 11 / 33 Coefficiente di correlazione: esempi di casi limite Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 11 / 33 Coefficiente di correlazione: esempi di casi limite Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 11 / 33 Dipendenza lineare Esercitazione 8 A. Iodice Lo studio della relazione tra caratteri statistici è, nel caso della interdipendenza, di tipo simmetrico: due caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A questo scopo sono stati introdotti gli indici di covarianza σxy e di correlazione lineare ρ. Si consideri di aver osservato due caratteri quantitativi X ed Y . Si riportano i valori e il grafico di dispersione: Il coefficiente di correlazione lineare Il diagramma di dispersione (scatter plot) Studio della dipendenza 1 2 3 4 5 6 7 8 9 10 La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Y 28 21 63 42 28 2 80 19 33 60 376 X 11 8 28 17 9 4 28 5 12 23 145 Esercitazione 8 Statistica 12 / 33 Dipendenza lineare Esercitazione 8 covarianza e coefficiente di correlazione A. Iodice µx = Il coefficiente di correlazione lineare µy = σx = Studio della dipendenza P10 i=1 xi = 14.5 10 P10 i=1 yi = 37.6 10 rP 10 (x −µ )2 x i i=1 10 rP σy = La retta di regressione σxy = Qualità della soluzione trovata ρxy = 10 (y −µ )2 y i i=1 10 = 8.57 = 22.49 P10 i=1 (xi −µx )(yi −µy ) 10 σxy = 0.97 σx σy = 187.3 Outliers Dipendenza funzionale lineare Regressione su tabella a doppia entrata Essendo il valore del coefficiente di correlazione lineare prossimo ad 1 esiste una forte relazione lineare tra X ed Y . Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo Y = f (X) = b0 + b1 X che rappresenta l’equazione di una retta passante attraverso la nube di punti di coordinate (xi , yi ). A. Iodice () Esercitazione 8 Statistica 13 / 33 La retta di regressione Esercitazione 8 rette passanti per la nube di punti A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata La retta di regressione La retta di regressione fornisce una approssimazione della dipendenza dei valori di Y dai valori di X. La relazione di dipendenza non è esattamente riprodotta dalla retta; i valori yi∗ = b0 + b1 xi sono dunque i valori teorici, ovvero i valori che la variabile Y assume, secondo il modello Y = b0 + b1 X, in corrispondenza dei valori xi osservati. Outliers Regressione su tabella a doppia entrata Determinazione della retta di regressione L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , l’intercetta, e b1 , il coefficiente angolare o pendenza. La retta ’migliore’ è quella che passa più ’vicina’ ai punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi∗ e i valori osservati yi siano minime. A. Iodice () Esercitazione 8 Statistica 14 / 33 La retta di regressione Esercitazione 8 A. Iodice I residui Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata le differenze tra i valori teorici yi∗ e i valori osservati yi vengono definite residui. La retta di regressione è tale che la somma dei residui al quadrato sia minima. Formalmente Ricerca dei parametri della retta di regressione:(b0 ) n n n X X X 2 ∗ 2 2 ei = (yi − yi ) = (yi − b0 − b1 xi ) i=1 i=1 i=1 −2 Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni ∂ Outliers n X ∂b0 i=1 Regressione su tabella a doppia entrata ∂ n X ∂b1 i=1 A. Iodice () n X (yi − b0 − b1 xi ) = i=1 n X yi − n ∗ b0 − b1 i=1 2 =0 2 =0 (yi − b0 − b1 xi ) (yi − b0 − b1 xi ) Esercitazione 8 n X xi = 0 i=1 b0 = µ y − b1 µ x Statistica 15 / 33 La retta di regressione Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza I residui le differenze tra i valori teorici yi∗ e i valori osservati yi vengono definite residui. La retta di regressione è tale che la somma dei residui al quadrato sia minima. Ricerca dei parametri della retta di regressione:(b1 ) Formalmente n n X X 2 ∗ 2 ei = (yi − yi ) = i=1 La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata = n X −2 i=1 n X 2 (yi − b0 − b1 xi ) ∂b0 i=1 ∂ n X ∂b1 i=1 A. Iodice () xi yi − b0 i=1 Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di vista operativo bisogna risolvere il seguente sistema di equazioni n X xi (yi − b0 − b1 xi ) = 0 i=1 i=1 ∂ n X b1 n X n 2 =0 2 =0 (yi − b0 − b1 xi ) 2 xi = n X 2 xi n Esercitazione 8 n X −( Pn i=1 xi n ! 2 xi ) =n n X i=1 Pn yi Pn − b1 i=1 n X n X xi yi − xi ! n xi i=1 yi i=1 Pn σxy xi yi − i=1 xi i=1 yi = Pn Pn 2 2 2 σx i=1 xi − ( i=1 xi ) i=1 n 2 xi = 0 i=1 n X i=1 Pn n X i=1 xi y i − i=1 n X i=1 b1 = (yi − b0 − b1 xi ) xi − b1 i=1 i=1 b1 n X Statistica 16 / 33 Determinazione della retta di regressione Esercitazione 8 A. Iodice Calcolo dei coefficienti Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha b1 = Il coefficiente di correlazione lineare Studio della dipendenza σxy 2 σx = 2.55 b0 = µy − b1 µx = 37.6 − (2.55 ∗ 14.5) = 0.62 La retta ’migliore’ La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 17 / 33 Interpretazione dei valori dei coefficienti di regressione Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare b0 rappresenta l’intercetta della retta di regressione ed indica il valore della variabile di risposta Y quando il predittore X assume valore 0. Studio della dipendenza La retta di regressione b1 rappresenta l’inclinazione della retta di regressione, ovvero la variazione della variabile di risposta Y in conseguenza di un aumento unitario del predittore X. Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 18 / 33 Bontà di adattamento Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza Esistono diversi strumenti grafici ed analitici per valutare la bontà dell’adattamento della retta di regressione ai dati La retta di regressione Strumenti grafici: plot dei residui Qualità della soluzione trovata Strumenti analitici:coefficiente di determinazione lineare R2 Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 19 / 33 Plot dei residui Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio, all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione. Plot dei residui Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n) La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 20 / 33 coefficiente di determinazione lineare R2 Esercitazione 8 Ricordando che la devianza il numeratore della varianza... A. Iodice Devy = Il coefficiente di correlazione lineare 2 (yi − µy ) = i=1 = Studio della dipendenza n X = n X n X 2 (yi − ŷi ) + n X 2 (ŷi − µy ) + 2 2 (yi − ŷi ) + n X Dev(y) = n X n X i=1 A. Iodice () 2 (yi − ŷi )(ŷi − µy ) n X i=1 Pn i=1 ŷi = n X 2 (yi − ŷi ) + i=1 = n X (ŷi − µy ) + 2( i=1 Il metodo dei minimi quadrati assicura che Regressione su tabella a doppia entrata = i=1 i=1 i=1 Outliers 2 (yi − ŷi + ŷi − µy ) i=1 i=1 La retta di regressione Qualità della soluzione trovata n X Pn i=1 2 n X 2 (ŷi − µy ) + 2 ∗ 0 ∗ ( n X ŷi )( i=1 n X ŷi − nµy ) i=1 yi , quindi i=1 (ŷi − µy ) + yi − n X ŷi − nµy ) i=1 2 (yi − ŷi ) = Devr + Deve i=1 Esercitazione 8 Statistica 21 / 33 Decomposizione della devianza Esercitazione 8 La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve A. Iodice Il coefficiente di correlazione lineare Devy = Pn (yi − µy )2 devianza totale Devr = Pn (ŷi − µy )2 devianza di regressione Deve = Pn (yi − ŷi )2 devianza dei residui i=1 i=1 i=1 Interpretazione grafica Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 22 / 33 Bontà dell’adattamento Esercitazione 8 A. Iodice Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di determinazione lineare R2 , dato da Il coefficiente di correlazione lineare R 2 = Devr Devy ovvero Studio della dipendenza R 2 =1− Deve Devy Pn = Pi=1 n (ŷi − µy )2 2 i=1 (yi − µy ) Pn (yi − ŷi )2 = 1 − P i=1 n (y − µ )2 i=1 i y La retta di regressione Qualità della soluzione trovata esempio di calcolo R2 Outliers Regressione su tabella a doppia entrata Devy = Pn Devr = Pn Deve = Pn i=1 (yi − µy )2 = 5058.4 2 i=1 (ŷi − µy ) = 4776.214 i=1 (yi − ŷi )2 = 282.1862 R ovvero R A. Iodice () 2 =1− 2 = Deve Devy Devr Devy =1− 4776.214 = 5058.4 282.1862 5058.4 Esercitazione 8 = 0.94 = 1 − 10.53 = 0.94 Statistica 23 / 33 Influenza di un outlier sulla soluzione Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Un piccolo esempio Si considerino le seguenti osservazioni Retta di regressione La soluzione induce a concludere che vi sia una relazione di proporzionalità inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la variabile dipendente Y diminuisce. Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 24 / 33 Influenza di un outlier sulla soluzione Esercitazione 8 Retta di regressione A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza Un (altro) piccolo esempio Si considerino le osservazioni precedenti a cui è aggiunta un unica coppia di valori (8, 8). I dati sono La retta di regressione Qualità della soluzione trovata In questo caso, la sola presenza della nuova osservazione conduce all’identificazione di una retta di regressione diversa dalla prima: l’inclinazione positiva della retta indica una relazione di diretta proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce pertanto un outlier. L’identificazione e la conseguente eliminazione degli eventuali outlier è un elemento molto importante nello studio della dipendenza tra fenomeni. Outliers Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 25 / 33 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza Si consideri di aver osservato su 10 rivenditori di componenti informatiche le variabili numero di punti vendita e Fatturato settimanale complessivo. Si studi la dipendenza del fatturato dal numero di punti vendita. La retta di regressione fino a 5000 tra 5000 e 1000 Qualità della soluzione trovata fino a 2 3 1 tra 2 e 4 2 2 tra 4 e 6 0 2 Outliers Si stimino i coefficienti della retta di regressione. Regressione su tabella a doppia entrata Si valuti la bontà di adattamento della retta ai dati. A. Iodice () Esercitazione 8 Statistica 26 / 33 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 A. Iodice Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai centri di ciascun intervallo. La tabella è dunque data da Il coefficiente di correlazione lineare Y /X 2500 7500 Tot Studio della dipendenza La retta di regressione 1 3 1 4 3 2 2 4 5 0 2 2 Tot 5 5 10 Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze: Qualità della soluzione trovata µx = k 1 X n j=1 xj n.j = 1 10 × (1 × 4) + (3 × 4) + (5 × 2) = 4 + 12 + 10 10 = 2.6 Outliers Regressione su tabella a doppia entrata µy = h 1X n i=1 yi ni. = 1 10 × (2500 × 5) + (7500 × 5) = 12500 + 37500 10 = 5000 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. A. Iodice () Esercitazione 8 Statistica 27 / 33 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato A. Iodice Y /X (2500 − 5000)2 (7500 − 5000)2 Tot Il coefficiente di correlazione lineare Studio della dipendenza (1 − 2.6)2 3 1 4 (3 − 2.6)2 2 2 4 (5 − 2.6)2 0 2 2 Tot 5 5 10 Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze: La retta di regressione 2 σx = Qualità della soluzione trovata k 1 X 2 n j=1 (xj − µx ) n.j = 2 + ((5 − 2.6) × 2) = 1 10 10.24 + 0.64 + 11.52 10 Outliers Regressione su tabella a doppia entrata 2 σy = = h 1X n i=1 2 2 (yi − µy ) ni. = 31250000 + 31250000 10 2 × ((1 − 2.6) × 4) + ((3 − 2.6) × 4)+ 1 10 = 2.24 2 2 × (2500 × 5) + (7500 × 5) = 6250000 dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella. A. Iodice () Esercitazione 8 Statistica 28 / 33 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza. Y /X (2500 − 5000) (7500 − 5000) Tot A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata σxy = h X k 1 X n i=1 j=1 (1 − 2.6) 3 1 4 (3 − 2.6) 2 2 4 (5 − 2.6) 0 2 2 yi xi yi − µ y xi − µx 2500 2500 2500 2500 2500 7500 7500 7500 7500 7500 1 1 1 3 3 1 3 3 5 5 (2500-5000) (2500-5000) (2500-5000) (2500-5000) (2500-5000) (7500-5000) (7500-5000) (7500-5000) (7500-5000) (7500-5000) (1-2.6) (1-2.6) (1-2.6) (3-2.6) (3-2.6) (1-2.6) (3-2.6) (3-2.6) (5-2.6) (5-2.6) Tot 5 5 10 (yi − µy ) × (xj − µx ) × nij = 1 ((2500 − 5000)(1 − 2.6) × 3 + (2500 − 5000)(3 − 2.6) × 2+ 10 + (7500 − 5000)(1 − 2.6) × 1 + (7500 − 5000)(3 − 2.6) × 2+ = + (7500 − 5000)(5 − 2.6) × 2) = A. Iodice () 12000 − 2000 − 4000 + 2000 + 12000 Esercitazione 8 10 = 2000 Statistica 29 / 33 Esercizio regressione: distribuzione doppia di frequenze Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza Avendo calcolato le quantità µx = 2.6, µy = 5000, σx2 = 2.24 e σxy = 2000, è possibile calcolare i coefficienti della retta di regressione Calcolo dei coefficienti b1 = La retta di regressione Qualità della soluzione trovata σxy σx2 = 2000 2.24 = 892.571 b0 = µy − b1 µx = 5000 − (892.571 ∗ 2.6) = 2679.315 quindi l’equazione della retta di regressione è Outliers Regressione su tabella a doppia entrata y = b0 + b1 x = 2679.315 + 892.571x Dunque, il valore stimato ŷi corrispondente ad un valore xi assegnato è ŷi = b0 + b1 x. A. Iodice () Esercitazione 8 Statistica 30 / 33 Valutazione della bontà di adattamento Esercitazione 8 A. Iodice Ricordando che Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione R = Devr Devy Pn = Pi=1 n i=1 ovvero R 2 =1− Deve Devy (ŷi − µy )2 (yi − µy )2 Pn = 1 − P i=1 n (yi − ŷi )2 2 i=1 (yi − µy ) con Devy = Devr + Deve Qualità della soluzione trovata Outliers Regressione su tabella a doppia entrata 2 Devy = Pn (yi − µy )2 devianza totale Devr = Pn (ŷi − µy )2 devianza di regressione Deve = Pn (yi − ŷi )2 devianza dei residui i=1 i=1 i=1 Per ottenere R2 , misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo 2 già calcolato σy . A. Iodice () Esercitazione 8 Statistica 31 / 33 Calcolo della devianza dei residui Esercitazione 8 A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza La retta di regressione Deve = Pn i=1 (yi − ŷi )2 devianza dei residui in base alla retta di regressione stimata, i valori ŷi stimati in funzione dei valori xi sono ŷ1 = b0 + b1 x1 = 2679.315 + 892.571 × 1 = 3571.886 Qualità della soluzione trovata ŷ2 = b0 + b1 x2 = 2679.315 + 892.571 × 3 = 5357.028 Outliers ŷ3 = b0 + b1 x3 = 2679.315 + 892.571 × 5 = 7142.17 Regressione su tabella a doppia entrata A. Iodice () Esercitazione 8 Statistica 32 / 33 Calcolo della devianza dei residui Esercitazione 8 Per calcolare i residui yi − ŷi nel caso di tabella a doppia entrata si procede come segue yi /ŷj y1 = 2500 y2 = 7500 Tot A. Iodice Il coefficiente di correlazione lineare Studio della dipendenza Deve = Ph i=1 ŷ1 = 3571.886 3 1 4 Pk i=1 La retta di regressione calcolo della devianza dei residui Qualità della soluzione trovata Deve = h X k X ŷ2 = 5357.028 2 2 4 ŷ3 = 7142.17 0 2 2 Tot 5 5 10 ((yi − ŷj )2 ) × nij devianza dei residui per tabella doppia 2 2 2 ((yi − ŷj ) ) × nij = ((2500 − 3571.886) ) × 3 + ((2500 − 5357.028) ) × 2+ i=1 j=1 2 2 2 + ((7500 − 3571.886) ) × 1 + ((7500 − 5357.028) ) × 2 + ((7500 − 7142.17) ) × 2 = Outliers = 44642859 Regressione su tabella a doppia entrata devy = n X 2 (yi − µy ) 2 = σy × n = 6250000 × 10 = 62500000 i=1 R A. Iodice () 2 =1− deve devy Esercitazione 8 = 1 − 0.71 = 0.29 Statistica 33 / 33