Document

Il modello di regressione
(VEDI CAP 12 VOLUME IEZZI, 2009)
Quesito: Posso stimare il numero di ore passate a
studiare statistica sul voto conseguito all‟esame?
Potrei calcolare il coefficiente di correlazione.
La regressione lineare può essere impiegata per studiare
l‟effetto “casuale” di una variabile indipendente X su
una variabile dipendente Y.
La regressione lineare multipla consente di prevedere
una grandezza ignota da un insieme di caratteristiche
note.
Regressione e Correlazione
Regressione: costruire un modello attraverso cui
prevedere i valori di una variabile dipendente o di
risposta Y a partire da una o più variabili indipendenti
o esplicative X.
Correlazione: studio dell‟associazione tra due variabili
quantitative.
La regressione lineare semplice e
multipla
Il diagramma a dispersione
Per studiare la relazione tra due variabili è utile il
diagramma di dispersione in cui si riportano i valori
della variabile esplicativa X sull‟asse delle ascisse e i
valori della variabile dipendente Y sull‟asse delle
ordinate. La relazione tra due variabili può essere
espressa mediante funzioni matematiche più o meno
complesse tramite un modello di regressione. Il
modello di regressione lineare semplice è adatto
quando i valori delle variabili X e Y si distribuiscono
lungo una retta nel diagramma di dispersione.
Il modello di regressione lineare
semplice
yi    xi  i
L’inclinazione β indica come varia Y in corrispondenza
di una variazione unitaria di X.
L’intercetta α corrisponde al valore medio di Y quando
X è uguale a 0.
Il segno di β indica se la relazione lineare è positiva o
negativa.
εi errore casuale in Y corrispondente alla i-esima
osservazione
La scelta del
modello
matematico
appropriato
Il modello di regressione lineare
semplice
Una volta individuati i parametri α e β, possiamo rappresentare
ciascun punto, quindi, ciascuna unità statistica, in riferimento alla
sua posizione su questa retta.
ESEMPIO: creare una sottocartella in C:/temp/ di nome
REG e inserire il dataset4
dati<- read.table("C:/temp/REG/dataset4.csv", header=TRUE, sep=";")
dati
N_viaggi Red SESSO TITOLO
1
0 1000
M
D
2
2 1500
M
L
3
1 900
F
D
4
4 3000
F
L
5
1 1100
F
D
6
1 1400
F
D
7
0 850
M
D
8
2 1500
M
L
9
3 3100
M
L
10
0 1100
M
D
Il modello di regressione lineare
semplice
attach(dati)
reg<-lm(N_viaggi~Red)
reg
## PER OTTENERE IL SIMBOLO ~ digitare
## ALT+126 (sulla tastiera numerica)
Call:
lm(formula = N_viaggi ~ Red)
Coefficients:
(Intercept)
Red
-0.877728 0.001474
Yi=-0.87728+0.001474Xi
Inserire nella figura la retta di
regressione
plot(Red, N_viaggi)
abline(-0.877728,
0.001474)
oppure posso richiamare
il nome che ho dato alla
funzione di reg
abline(reg)
Il modello di regressione lineare
semplice
La regressione ha come obiettivo quello di
individuare la retta che meglio si adatta ai dati.
Esistono vari modi per valutare la capacità di
adattamento Il criterio più semplice è quello di
valutare le differenze tra i valori osservati (Yi) e i
valori previsti (Ŷi)
Esempio
I valori stimati si ottengono attraverso il comando
fitted(reg)
I valori dei residui
resid(reg)
L‟indice di determinazione (R2)
per valutare la bontà del modello
Dev(R)
Dev(E)
R 
 1
Dev(Y )
Dev(Y )
2
Dev (R )= Devianza di regressione
Dev (Y) = Devianza Totale
Dev (E)= Devianza dei residui

n
n
n
y  y   y  y   y  y 
2
i
i1
2
i
i1
2
i
i1
i
Devianza di totale
n
y
i1

 y
2
i
Devianza di Regressione
n
y
i1

 y
2
i
n
Devianza dei residui y  y 
2
i
i1

i
Sull‟indice di determinazione
Quando la devianza di regressione è nulla, l‟indice di
determinazione assume valore zero, quindi, la variabilità
di Y non è spiegata dalla retta di regressione. Quando la
devianza di regressione coincide con la devianza totale,
l‟indice di deteminazione assume valore uno, quindi, la
variabilità di Y è spiegata interamente dalla retta di
regressione. La radice quadrata dell‟indice di
determinazione coincide con il coefficiente di
regressione di Pearson.
Modello di regressione lineare
La previsione di un valore di Y in corrispondenza di un
certo valore di X può essere definita in due modi, in
relazione all‟intervallo di valori di X usati per stimare
il modello:
interpolazione: se la previsione di Y corrisponde ad un
valore di X interno all‟intervallo
estrapolazione: se la previsione di Y corrisponde ad un
valore di X che non cade nell‟intervallo
Valutazione delle ipotesi:
Omoschedasticità: il grafico dei residui rispetto a X consente di
stabilire anche se la variabilità degli errori varia a seconda dei
valori di X.
Il grafico a lato evidenzia ad esempio che la variabilità dei
residui aumenta all‟aumentare dei valori di X.
Normalità: rappresentazione della distribuzione di frequenze dei
residui (es. istogramma)
Indipendenza: rappresentando i residui nell‟ordine con cui sono
stati raccolti i dati emerge un‟eventuale autocorrelazione tra
osservazioni successive.
Analisi dei residui
Il residuo ei è una stima dell‟errore che commetto nel prevedere Yi
tramite Ŷi. Per stimare la capacità di adattamento ai dati della
retta di regressione è opportuna una analisi grafica grafico di
dispersione dei residui (ordinate) e dei valori di X (ascisse).
Se si evidenzia una relazione particolare il modello non è adeguato.
Nell‟esempio a lato il modello di regressione lineare non sembra
appropriato. Il grafico a destra evidenzia lo scarso adattamento
ai dati del modello (lackof fit). Quindi il modello polinomiale è più
appropriato.
Analisi dei residui
plot(Red, resid(reg))
abline(h=N_viaggi)
Diagramma a dispersione
plot(Red, N_viaggi)
summary(reg)
Call:
lm(formula = N_viaggi ~ Red)
Residuals:
Min
1Q Median
3Q
Max
-0.74396 -0.54125 0.03491 0.52691 0.66634
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.8777277 0.4298077 -2.042 0.075423 .
Red
0.0014743 0.0002481 5.943 0.000345 ***
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Residual standard error: 0.6153 on 8 degrees of freedom
Multiple R-squared: 0.8153, Adjusted R-squared: 0.7923
F-statistic: 35.32 on 1 and 8 DF, p-value: 0.0003446