Regressione Monica Marabelli 15 Gennaio 2016 La regressione L’analisi di regressione é una tecnica statistica che serve a studiare la relazione tra variabili. In particolare, nel modello di regressione lineare semplice si ipotizza una relazione lineare tra una variabile di risposta e un singolo regressore (variabile esplicativa). Prima di procedere con un’analisi di regressione lineare é importante studiare la relazione tra le variabili in studio. Esercizio 1 Un ricercatore sta studiando lo sviluppo delle piante di pioppo. Ha ipotizzato che il volume della pianta sia legato da una relazione lineare al diametro del fusto della pianta stessa. Per verificare questa ipotesi ha misurato alcune piante scelte a caso nel bosco. Leggiamo i dati I dati sono nel file pioppo.xls setwd("X:/") pioppo <- read.csv (file="pioppo.csv") head(pioppo) 1 2 3 4 5 6 diametro 5.43 2.59 10.87 12.22 13.11 13.14 volume 8.176389 9.570832 9.761319 10.554522 10.806041 11.122238 Statistiche di sintesi Visualizziamo le statistiche di sintesi del dataset. str(pioppo) ’data.frame’: 30 obs. of 2 variables: $ diametro: num 5.43 2.59 10.87 12.22 13.11 ... $ volume : num 8.18 9.57 9.76 10.55 10.81 ... summary(pioppo) diametro Min. : 2.59 1st Qu. :15.27 Median:29.04 Mean :30.17 3rd Qu.:38.49 Max. :67.38 volume Min. : 8.176 1st Qu. :12.178 Median:13.560 Mean :14.305 3rd Qu.:17.043 Max. :20.911 Visualizziamo i dati graficamente attach(pioppo) plot(diametro, volume) Sembra che possa esserci una relazione tra di essi? Correlazione Le misure di correlazione valutano la relazione lineare tra due variabili casuali continue. In R la correlazione puó essere valutata con la funzione cor. Esistono diverse misure di correlazione; cor ci permette di utilizzare i seguenti metodi: I coefficiente di correlazione r di Pearson I correlazione rho di Spearman I correlazione tau di Kendall Correlazione Calcoliamo il coefficiente di correlazione r di Pearson cor (diametro, volume, method = "pearson") [1] 0.9699182 Per avere una misura della forza della relazione lineare tra le due variabili possiamo effettuare un test statistico. Correlazione La funzione di R per testare la correlazione é cor.test cor.test (diametro, volume, method = "pearson") Pearson’s product-moment correlation data: diametro and volume t = 21.0833, df = 28, p-value < 2.2e-16 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.9371021 0.9857390 sample estimates: cor 0.9699182 Pvalue < 0.05: il valore del coefficiente di correlazione é significativamente diverso da 0. Analisi di regressione Come abbiamo fatto per l’ANOVA, utilizziamo la funzione lm per costruire un modello di regressione lineare. Y = α + βX + H0 : il coefficiente di regressione β = 0 e non c’é nessuna relazione tra diametro e volume delle piante. Analisi di regressione fit <- lm(volume~diametro) summary(fit) Call: lm(formula = volume ~ diametro) Residuals: Min -1.40753 1Q -0.61126 Median -0.06383 3Q 0.23368 Max 2.02690 Coefficients: Estimate Std. Error t value (Intercept) 8.241123 0.327186 25.19 diametro 0.201014 0.009534 21.08 ––– Signif. codes: 0 `***´ 0.001 `**´ 0.01 `*´ 0.05 `.´ Pr(>|t|) <2e-16 <2e-16 *** *** 0.1 ` ´ 1 Residual standard error: 0.8544 on 28 degrees of freedom Multiple R-squared: 0.9407, Adjusted R-squared: 0.9386 F-statistic: 444.5 on 1 and 28 DF, p-value: < 2.2e-16 Analisi dell’output La prima parte riporta il modello che abbiamo creato. Vi é poi un riassunto sui residui. Spesso nella regressione si analizza la distribuzione dei residui per testare l’assunto di normalitá. La distribuzione deve quindi essere centrata attorno allo zero. Nel nostro caso la mediana é vicina allo zero, quindi i residui sembrano rispettare questo assunto. La parte successiva riassume il risultato della regressione. Sono riportati il valore dell’intercetta (α) e la pendenza della retta (β), il valore della statistica t e il Pvalue . La regressione é significativa (Pvalue < 2e-16). In media in corrispondenza di un aumento di 1 cm di diametro, il volume aumenta di circa 0.2 unitá. In questo modello il diametro spiega circa il 94% della variabilitá del volume degli alberi (R 2 ). Previsione nella regressione lineare Se avessimo un albero con un diametro di 30 cm, quale sarebbe il suo volume atteso? fit$coefficients (Intercept) 8.2411230 diametro 0.2010139 y_att <- fit$coefficients[1] + fit$coefficients[2] * 30 y_att (Intercept) 14.27154 Rappresentazione grafica Disegniamo la retta di regressione su un grafico plot(diametro, volume) lines(diametro, fitted(fit), col="red") segments(diametro, fitted(fit), diametro, volume, lty=2, col="blue") Check del modello Per verificare la bontá dell’adattamento al modello, possiamo eseguire un’analisi dei residui. par(mfrow=c(2,2)) # per visualizzare i grafici in una matrice 2x2 plot(fit) Plot automatici di R Si ottengono 4 grafici: I Tracciato dei residui. Grafico dei residui (r) verso i valori previsti (f). E’ importante per verificare la linearitá: i punti dovrebbero essere distribuiti in modo simmetrico intorno ad una linea orizzontale con intercetta pari a 0; andamenti di tipo diverso indicano la presenza di non linearitá. I Q-Q plot. E’ utile per verificare la normalitá dei residui: i punti si dovrebbero distribuire lungo una retta a 45°. I Grafico delle radici quadrate dei residui standardizzati contro i valori fittati. E’ utile per individuare valori outlier e per visualizzare strutture di dipendenza residue non individuate dal modello stimato. I Grafico delle distanze di Cook. Misura l’influenza di ogni osservazione sulla stima dei parametri del modello: punti molto distanti hanno una maggiore influenza. Esercizio 2 E’ stato condotto uno studio per valutare la variazione della pressione sistolica in funzione dell’etá. I dati sono riportati nel file sbp.xls. Effettua un’analisi di regressione e disegna gli opportuni grafici. Esercizio 3 (Tratto da Weintraub, 1962) E’ stato condotto uno studio per valutare il tasso di natalitá e di mortalitá infantile in relazione allo sviluppo economico negli anni 50. I dati sono nel file farm.csv. Effettua un’analisi di regressione e disegna gli opportuni grafici.