Regressione
Monica Marabelli
15 Gennaio 2016
La regressione
L’analisi di regressione é una tecnica statistica che serve a
studiare la relazione tra variabili. In particolare, nel modello di
regressione lineare semplice si ipotizza una relazione lineare
tra una variabile di risposta e un singolo regressore (variabile
esplicativa).
Prima di procedere con un’analisi di regressione lineare é
importante studiare la relazione tra le variabili in studio.
Esercizio 1
Un ricercatore sta studiando lo sviluppo delle piante di pioppo.
Ha ipotizzato che il volume della pianta sia legato da una
relazione lineare al diametro del fusto della pianta stessa. Per
verificare questa ipotesi ha misurato alcune piante scelte a
caso nel bosco.
Leggiamo i dati
I dati sono nel file pioppo.xls
setwd("X:/")
pioppo <- read.csv (file="pioppo.csv")
head(pioppo)
1
2
3
4
5
6
diametro
5.43
2.59
10.87
12.22
13.11
13.14
volume
8.176389
9.570832
9.761319
10.554522
10.806041
11.122238
Statistiche di sintesi
Visualizziamo le statistiche di sintesi del dataset.
str(pioppo)
’data.frame’: 30 obs. of 2 variables:
$ diametro: num 5.43 2.59 10.87 12.22 13.11 ...
$ volume : num 8.18 9.57 9.76 10.55 10.81 ...
summary(pioppo)
diametro
Min. : 2.59
1st Qu. :15.27
Median:29.04
Mean :30.17
3rd Qu.:38.49
Max. :67.38
volume
Min. : 8.176
1st Qu. :12.178
Median:13.560
Mean :14.305
3rd Qu.:17.043
Max. :20.911
Visualizziamo i dati graficamente
attach(pioppo)
plot(diametro, volume)
Sembra che possa esserci una relazione tra di essi?
Correlazione
Le misure di correlazione valutano la relazione lineare tra due
variabili casuali continue.
In R la correlazione puó essere valutata con la funzione cor.
Esistono diverse misure di correlazione; cor ci permette di
utilizzare i seguenti metodi:
I
coefficiente di correlazione r di Pearson
I
correlazione rho di Spearman
I
correlazione tau di Kendall
Correlazione
Calcoliamo il coefficiente di correlazione r di Pearson
cor (diametro, volume,
method = "pearson")
[1] 0.9699182
Per avere una misura della forza della relazione lineare tra le
due variabili possiamo effettuare un test statistico.
Correlazione
La funzione di R per testare la correlazione é cor.test
cor.test (diametro, volume,
method = "pearson")
Pearson’s product-moment correlation
data: diametro and volume
t = 21.0833, df = 28, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9371021 0.9857390
sample estimates:
cor
0.9699182
Pvalue < 0.05: il valore del coefficiente di correlazione é
significativamente diverso da 0.
Analisi di regressione
Come abbiamo fatto per l’ANOVA, utilizziamo la funzione lm
per costruire un modello di regressione lineare.
Y = α + βX + H0 : il coefficiente di regressione β = 0 e non c’é nessuna
relazione tra diametro e volume delle piante.
Analisi di regressione
fit <- lm(volume~diametro)
summary(fit)
Call:
lm(formula = volume ~ diametro)
Residuals:
Min
-1.40753
1Q
-0.61126
Median
-0.06383
3Q
0.23368
Max
2.02690
Coefficients:
Estimate Std. Error t value
(Intercept) 8.241123 0.327186
25.19
diametro 0.201014 0.009534
21.08
–––
Signif. codes: 0 `***´ 0.001 `**´ 0.01 `*´ 0.05 `.´
Pr(>|t|)
<2e-16
<2e-16
***
***
0.1 ` ´ 1
Residual standard error: 0.8544 on 28 degrees of freedom
Multiple R-squared: 0.9407, Adjusted R-squared: 0.9386
F-statistic: 444.5 on 1 and 28 DF, p-value: < 2.2e-16
Analisi dell’output
La prima parte riporta il modello che abbiamo creato.
Vi é poi un riassunto sui residui. Spesso nella regressione si
analizza la distribuzione dei residui per testare l’assunto di
normalitá. La distribuzione deve quindi essere centrata attorno
allo zero. Nel nostro caso la mediana é vicina allo zero, quindi i
residui sembrano rispettare questo assunto.
La parte successiva riassume il risultato della regressione.
Sono riportati il valore dell’intercetta (α) e la pendenza della
retta (β), il valore della statistica t e il Pvalue . La regressione é
significativa (Pvalue < 2e-16). In media in corrispondenza di un
aumento di 1 cm di diametro, il volume aumenta di circa 0.2
unitá.
In questo modello il diametro spiega circa il 94% della
variabilitá del volume degli alberi (R 2 ).
Previsione nella regressione lineare
Se avessimo un albero con un diametro di 30 cm, quale
sarebbe il suo volume atteso?
fit$coefficients
(Intercept)
8.2411230
diametro
0.2010139
y_att <- fit$coefficients[1] + fit$coefficients[2] * 30
y_att
(Intercept)
14.27154
Rappresentazione grafica
Disegniamo la retta di regressione su un grafico
plot(diametro, volume)
lines(diametro, fitted(fit), col="red")
segments(diametro, fitted(fit), diametro, volume,
lty=2, col="blue")
Check del modello
Per verificare la bontá dell’adattamento al modello, possiamo
eseguire un’analisi dei residui.
par(mfrow=c(2,2)) # per visualizzare i grafici in una matrice 2x2
plot(fit)
Plot automatici di R
Si ottengono 4 grafici:
I
Tracciato dei residui. Grafico dei residui (r) verso i valori
previsti (f). E’ importante per verificare la linearitá: i punti
dovrebbero essere distribuiti in modo simmetrico intorno
ad una linea orizzontale con intercetta pari a 0; andamenti
di tipo diverso indicano la presenza di non linearitá.
I
Q-Q plot. E’ utile per verificare la normalitá dei residui: i
punti si dovrebbero distribuire lungo una retta a 45°.
I
Grafico delle radici quadrate dei residui standardizzati
contro i valori fittati. E’ utile per individuare valori outlier
e per visualizzare strutture di dipendenza residue non
individuate dal modello stimato.
I
Grafico delle distanze di Cook. Misura l’influenza di ogni
osservazione sulla stima dei parametri del modello: punti
molto distanti hanno una maggiore influenza.
Esercizio 2
E’ stato condotto uno studio per valutare la variazione della
pressione sistolica in funzione dell’etá.
I dati sono riportati nel file sbp.xls.
Effettua un’analisi di regressione e disegna gli opportuni grafici.
Esercizio 3
(Tratto da Weintraub, 1962)
E’ stato condotto uno studio per valutare il tasso di natalitá e di
mortalitá infantile in relazione allo sviluppo economico negli
anni 50. I dati sono nel file farm.csv.
Effettua un’analisi di regressione e disegna gli opportuni grafici.