Il modello di regressione (VEDI CAP 12 VOLUME IEZZI, 2009) Quesito: Posso stimare il numero di ore passate a studiare statistica sul voto conseguito all‟esame? Potrei calcolare il coefficiente di correlazione. La regressione lineare può essere impiegata per studiare l‟effetto “casuale” di una variabile indipendente X su una variabile dipendente Y. La regressione lineare multipla consente di prevedere una grandezza ignota da un insieme di caratteristiche note. Regressione e Correlazione Regressione: costruire un modello attraverso cui prevedere i valori di una variabile dipendente o di risposta Y a partire da una o più variabili indipendenti o esplicative X. Correlazione: studio dell‟associazione tra due variabili quantitative. La regressione lineare semplice e multipla Il diagramma a dispersione Per studiare la relazione tra due variabili è utile il diagramma di dispersione in cui si riportano i valori della variabile esplicativa X sull‟asse delle ascisse e i valori della variabile dipendente Y sull‟asse delle ordinate. La relazione tra due variabili può essere espressa mediante funzioni matematiche più o meno complesse tramite un modello di regressione. Il modello di regressione lineare semplice è adatto quando i valori delle variabili X e Y si distribuiscono lungo una retta nel diagramma di dispersione. Il modello di regressione lineare semplice yi xi i L’inclinazione β indica come varia Y in corrispondenza di una variazione unitaria di X. L’intercetta α corrisponde al valore medio di Y quando X è uguale a 0. Il segno di β indica se la relazione lineare è positiva o negativa. εi errore casuale in Y corrispondente alla i-esima osservazione La scelta del modello matematico appropriato Il modello di regressione lineare semplice Una volta individuati i parametri α e β, possiamo rappresentare ciascun punto, quindi, ciascuna unità statistica, in riferimento alla sua posizione su questa retta. ESEMPIO: creare una sottocartella in C:/temp/ di nome REG e inserire il dataset4 dati<- read.table("C:/temp/REG/dataset4.csv", header=TRUE, sep=";") dati N_viaggi Red SESSO TITOLO 1 0 1000 M D 2 2 1500 M L 3 1 900 F D 4 4 3000 F L 5 1 1100 F D 6 1 1400 F D 7 0 850 M D 8 2 1500 M L 9 3 3100 M L 10 0 1100 M D Il modello di regressione lineare semplice attach(dati) reg<-lm(N_viaggi~Red) reg ## PER OTTENERE IL SIMBOLO ~ digitare ## ALT+126 (sulla tastiera numerica) Call: lm(formula = N_viaggi ~ Red) Coefficients: (Intercept) Red -0.877728 0.001474 Yi=-0.87728+0.001474Xi Inserire nella figura la retta di regressione plot(Red, N_viaggi) abline(-0.877728, 0.001474) oppure posso richiamare il nome che ho dato alla funzione di reg abline(reg) Il modello di regressione lineare semplice La regressione ha come obiettivo quello di individuare la retta che meglio si adatta ai dati. Esistono vari modi per valutare la capacità di adattamento Il criterio più semplice è quello di valutare le differenze tra i valori osservati (Yi) e i valori previsti (Ŷi) Esempio I valori stimati si ottengono attraverso il comando fitted(reg) I valori dei residui resid(reg) L‟indice di determinazione (R2) per valutare la bontà del modello Dev(R) Dev(E) R 1 Dev(Y ) Dev(Y ) 2 Dev (R )= Devianza di regressione Dev (Y) = Devianza Totale Dev (E)= Devianza dei residui n n n y y y y y y 2 i i1 2 i i1 2 i i1 i Devianza di totale n y i1 y 2 i Devianza di Regressione n y i1 y 2 i n Devianza dei residui y y 2 i i1 i Sull‟indice di determinazione Quando la devianza di regressione è nulla, l‟indice di determinazione assume valore zero, quindi, la variabilità di Y non è spiegata dalla retta di regressione. Quando la devianza di regressione coincide con la devianza totale, l‟indice di deteminazione assume valore uno, quindi, la variabilità di Y è spiegata interamente dalla retta di regressione. La radice quadrata dell‟indice di determinazione coincide con il coefficiente di regressione di Pearson. Modello di regressione lineare La previsione di un valore di Y in corrispondenza di un certo valore di X può essere definita in due modi, in relazione all‟intervallo di valori di X usati per stimare il modello: interpolazione: se la previsione di Y corrisponde ad un valore di X interno all‟intervallo estrapolazione: se la previsione di Y corrisponde ad un valore di X che non cade nell‟intervallo Valutazione delle ipotesi: Omoschedasticità: il grafico dei residui rispetto a X consente di stabilire anche se la variabilità degli errori varia a seconda dei valori di X. Il grafico a lato evidenzia ad esempio che la variabilità dei residui aumenta all‟aumentare dei valori di X. Normalità: rappresentazione della distribuzione di frequenze dei residui (es. istogramma) Indipendenza: rappresentando i residui nell‟ordine con cui sono stati raccolti i dati emerge un‟eventuale autocorrelazione tra osservazioni successive. Analisi dei residui Il residuo ei è una stima dell‟errore che commetto nel prevedere Yi tramite Ŷi. Per stimare la capacità di adattamento ai dati della retta di regressione è opportuna una analisi grafica grafico di dispersione dei residui (ordinate) e dei valori di X (ascisse). Se si evidenzia una relazione particolare il modello non è adeguato. Nell‟esempio a lato il modello di regressione lineare non sembra appropriato. Il grafico a destra evidenzia lo scarso adattamento ai dati del modello (lackof fit). Quindi il modello polinomiale è più appropriato. Analisi dei residui plot(Red, resid(reg)) abline(h=N_viaggi) Diagramma a dispersione plot(Red, N_viaggi) summary(reg) Call: lm(formula = N_viaggi ~ Red) Residuals: Min 1Q Median 3Q Max -0.74396 -0.54125 0.03491 0.52691 0.66634 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.8777277 0.4298077 -2.042 0.075423 . Red 0.0014743 0.0002481 5.943 0.000345 *** --Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1 Residual standard error: 0.6153 on 8 degrees of freedom Multiple R-squared: 0.8153, Adjusted R-squared: 0.7923 F-statistic: 35.32 on 1 and 8 DF, p-value: 0.0003446