Regressione e Correlazione Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 1 L’analisi della regressione è una tecnica statistica per modellare e investigare le relazioni tra due (o più) variabili. Nella tavola è riportata la purezza di ossigeno, rilasciata in un processo di distillazione chimica, e la percentuale di idrocarbonio, presente nel condensatore principale di unità di distillazione. 102 100 98 96 94 92 90 88 86 0,85 Diagramma di dispersione Osservazioni Liv.Idrocarbonio Purezza 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,4 93,65 11 1,19 93,54 12 1,15 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,2 90,39 17 1,26 93,25 18 1,32 93,41 19 1,43 94,98 20 0,95 87,33 Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 2 Definizione La covarianza tra le variabili aleatorie X e Y è la quantità : cov( X , Y ) = σ XY = E[(X − µ X )(Y − µ Y )] = E [XY ] − µ X µ Y La covarianza è una misura della relazione lineare tra due variabili aleatorie. (A) Covarianza positiva (B) Covarianza negativa (C) Covarianza nulla (D) Covarianza nulla Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0 σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0.9 3 Contour plots σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0 Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 4 Definizione La correlazione tra le variabili aleatorie X e Y è la quantità : σ cov( X , Y ) = XY ρ= σ Var ( X )Var (Y ) Xσ Y Se la covarianza tra due variabili aleatorie è positiva, negativa o nulla, anche la correlazione sarà positiva, negativa o nulla. Teorema La correlazione tra le variabili aleatorie X e Y gode della seguente proprietà : -1 ≤ ρ ≤ 1 Si dicono incor r elate (linear mente), due var iabili aleator ie con cor r elaz ione nulla. Teorema Due variabili aleatorie X e Y indipendenti sono incorrelate. Il viceversa non vale a meno che X e Y non siano normali. Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 Colonna 1 Colonna 2 Colonna 1 0,035836 Colonna 2 0,535655 9,1251 Covarianza tra X e Y con Excel Colonna 1 Colonna 2 Colonna 1 1 Colonna 2 0,936715 1 Correlazione tra X e Y con Excel 1 n (xi − x )(yi − y ) n i =1 Cov Corr = SxS y Cov = ∑ 5 Osservazioni Liv.Idrocarbonio Purezza 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,4 93,65 11 1,19 93,54 12 1,15 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,2 90,39 17 1,26 93,25 18 1,32 93,41 19 1,43 94,98 20 0,95 87,33 Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 6 102 100 y-Purezza 98 96 94 92 90 88 86 0,85 x-livello di Idrocarbonio β 0 eβ1 sono denominati coefficien ti di regressione. Osservazioni Liv.Idrocarbonio Purezza 1 0,99 90,01 2 1,02 89,05 3 1,15 91,43 4 1,29 93,74 5 1,46 96,73 6 1,36 94,45 7 0,87 87,59 8 1,23 91,77 9 1,55 99,42 10 1,4 93,65 11 1,19 93,54 12 1,15 92,52 13 0,98 90,56 14 1,01 89,54 15 1,11 89,85 16 1,2 90,39 17 1,26 93,25 18 1,32 93,41 19 1,43 94,98 20 0,95 87,33 β 0 , β 1 coefficienti di regressione X (livello di idrocarbonio) var. aleat. indipendente Y (purezza dell' ossigeno) var. aleat. dipendente Y = β 0 + β1 X + ε ε (errore casuale), E[ε ] = 0, Var[ε ] = σ 2 . Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 7 IL METODO DEI MINIMI QUADRATI Siano ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) le n coppie di osservazioni relative alla coppia di variabili aleatorie ( X , Y ). Per stimare i coefficienti β 0 e β 1 , è possibile " minimiz - Soluzioni zare la somma dei quadrati" delle distanze di y i da β 0 + β 1 xi . n βˆ 0 = y − βˆ1 x , βˆ1 = ∑x y i i =1 n ∑x i =1 i 2 i n −n y x , dove y = − nx 2 ∑y i =1 n n i , x= ∑x i =1 i n La retta di regressione stimata è yˆ = βˆ0 + βˆ1 x Interc etta V ariabile X 1 Coeffic ienti E rrore s tandard 74,28331424 1,593473376 14,94747973 1,31675827 Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 8 Y Tracciato delle approssimazioni 105 100 95 90 85 Y Y prevista 0 0,5 1 1,5 2 La retta di regressione stimata è yˆ= 74,2 + 14,9 x Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 9 Analisi dei residui (adeguatezza del modello) Si dicono residui le quantità ei = y i − yˆi = y i − βˆo − βˆ1 x i . I residui sono osservazioni della v.a. ε Tracciato dei residui Residui 4 2 0 -2 0 0,5 1 1,5 2 -4 DUBBIO Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 10 Osservazione 1 2 3 4 5 6 7 8 9 Y prevista 89,08131918 89,52974357 91,47291593 93,56556309 96,10663465 94,61188668 87,28762161 92,66871431 97,45190783 Residui Residui standard 0,928680825 0,878143888 -0,479743567 -0,45363689 -0,042915932 -0,040580534 0,174436905 0,164944401 0,623365351 0,589443066 -0,161886676 -0,15307713 0,302378393 0,285923571 -0,898714311 -0,849808091 1,968092175 1,86099257 n 2 ei =σ 2 i =1 i =1 i =1 = ⇒ Si dimostra che E ES = Errore standard = n−2 n−2 n−2 L' errore standard è una misura che indica la quantità di errori commessi nella pre visione del valore di y per ciascun valore di x. n n ∑e ∑ ( y − yˆ) 2 i i Statistica della regressione R multiplo 0,936715381 R al quadrato 0,877435705 R al quadrato corretto 0,870626578 Errore standard 1,086529053 Osservazioni 20 ∑ 2 i Esprime quanta parte della variabilità della variabile dipendente è spiegata dalla variabilità della variabile indipendente Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 Istogram m a 5 4 3 2 1 3 A ltro 2 2,5 1 1,5 0 0,5 -1 -0,5 -2 -1,5 -3 -2,5 0 Istogramma dei residui standardizzati. Dal grafico si deduce che la variabile aleatoria errore ε standardizzata ha una distribuzione approssimativamente normale. 11 Classe Frequenza % cumulativa -3 0 ,00% -2,5 0 ,00% -2 0 ,00% -1,5 1 5,00% -1 2 15,00% -0,5 4 35,00% 0 3 50,00% 0,5 4 70,00% 1 3 85,00% 1,5 1 90,00% 2 2 100,00% 2,5 0 100,00% 3 0 100,00% Altro 0 100,00% Verificare l’ipotesi di normalità con un test chi-quadrato. NB: se i residui hanno una distribuzione normale, si attestano nell’ intervallo (-2,2) Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 12 Attenzione agli outliers Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 13 I cambiamenti di scala Indagine epidemiologica: somministrazione di un nuovo tipo di vaccino ritenuto efficace nella cura del contagio della febbre da tifo. Corr=-0.91 Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 14 Grafico dei residui Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 15 Previsione per l’anno 1985: Probabilità e Statistica - Analisi della Regressione - a.a. 04/05 16