Correlazione
Regressione
La correlazione e la regressione
Antonello Maruotti
.
A. Maruotti
.
.
.
.
.
Outline
1 Correlazione
2 Regressione
.
.
.
.
.
.
Correlazione
Regressione
Associazione tra caratteri quantitativi
Date due distribuzioni unitarie secondo caratteri quantitativi X e Y
x1
y1
x2
y2
···
···
xn
yn
associate in modeo che nell’unità i-esima il carattere X è presente
con la modalità xi ed il carattere Y con la modalità yi , per
valutare l’associazione fra i due caratteri X e Y ricorriamo
alla coviarianza
alla correlazione
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
La covarianza
Definizione
La covarianza è una misura del legame lineare tra due caratteri
quantitativi X e Y . E’ data dalla media aritmetica del prodotto
degli scarti di due caratteri dalle loro rispettive medie.
σXY =
n
n
1∑
1∑
(xi − µX )(yi − µY ) =
xi yi − µX µY
n i=1
n i=1
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
La covarianza: osservazioni
Osservazioni: quando scarti positivi (negativi) del carattere X
tendono ad associarsi a scarti positivi (negativi) del
carattere Y , allora i loro prodotti saranno positivi e la
covarianza risulterà positiva; quando scarti positivi
del carattere X tendono ad associarsi a scarti negativi
del carattere Y (o viceversa), allora i loro prodotti
saranno negativi e la covarianza risulterà negativa.
Minimo e massimo: non è un indice relativo
−σX σY ≤ σXY ≤ σX σY
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
La correlazione
Definizione
Il coefficiente di correlazione lineare è un indice che misura la
relazione lineare tra due caratteri quantitativi X e Y . E’ espresso
dal rapporto tra la covariaza tra i due caratteri X e Y ed il
prodotto dei rispettivi scarti quadratici medi.
∑
rXY
n
1
(xi − µX )(yi − µY )
σXY
√ ∑
=
= √ ∑ n i=1
n
n
1
σX σY
2 1
2
(x
−
µ
)
i
X
i=1
i=1 (yi − µY )
n
n
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
La correlazione: proprietà
Il coefficiente di correlazione è compreso tra -1 e 1.
−1 ≤ rXY ≤ 1
Se rXY = 0, allora non vi è relazione di tipo lineare tra i due
caratteri. Si noti che l’incorrelazione tra due caratteri implica
correlazione nulla, ma non è vero il contrario.
Se rXY = ±1, allora esiste un legame lineare perfetto positivo
(rXY = 1) o negativo rXY = −1
Il coefficiente di correlazione è invariante per trasformazioni
lineari, a meno del segno.
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
La correlazione: fissiamo le idee
Date due variabili quantitative, diremo che sono
correlate positivamente se variano in modo concorde, ossia
all’aumentare [diminuire] dell’una aumenta
[diminuisce] anche l’altra;
correlate negativamente se variano in modo discorde, ossia
all’aumentare [diminuire] dell’una, l’altra diminuisce
[aumenta]
Osserviamo che due caratteri risultano concordi se gli scarti dalla
media tendono ad essere dello stesso segno mentre risultano
discordi se tali scarti tendono ad essere di segno opposto.
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
Obiettivo della regressione
Obiettivo dell’analisi di regressione è studiare il legame che
intercorre tra due variabili quantitative X e Y .
5
4
1
2
3
Consumo
6
7
8
Correlazione =
0.494
4
6
8
10
12
Reddito
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
Funzioni lineari
Il legame tra due variabili viene espresso mediante una funzione del
tipo
y = f (x )
Una delle funzioni più semplici è quella lineare
y = β0 + β1 x
β0 : valore di y per x = 0
β1 : variazione di y per un aumento unitario di x
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
Modello di regressione lineare semplice
Nella realtà difficilmente due variabili sono legate da una relazione
esatta. Per ovviare a questo inconveniente adottiamo il modello
yi = β0 + β1 xi + ϵi
dove
β0 = interecetta
β1 = coefficiente di regression (pendenza)
yi = variabile risposta (dipendente)
xi = variabile esplicativa (indipendente)
ϵi = residuo o errore (riflette le imperfezioni della relazione
lineare ed eventuali variabili esplicative omesse)
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
Stima dei parametri: metodo dei minimi quadrati
Ipotizziamo che il termine residuale sia di minima entità.
Determiniamo quindi la retta (ossia β0 e β1 ) in modo da rendere
minima la somma
n
∑
(yi − βo − β1 xi )2
i=1
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
Soluzione del problema dei minimi quadrati
Coefficiente di regressione
∑n
b1 =
i=1 (xi − µx )(yi −
∑n
2
i=1 (xi − µx )
µy )
Intercetta
b0 = µy − b1 µx
La retta dei minimi quadrati passa per il baricentro (alla
media di x corrisponde la media di y )
ŷi = b0 + b1 xi
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
Adattamento del modello ai dati
Varianza totale
Varianza spiegata
Varianza residua
n
1∑
(yi − µy )2 = σy2
n i=1
n
1∑
(ŷi − µy )2 = σŷ2
n i=1
n
n
1∑
1∑
(yi − ŷi )2 =
ϵ̂2 = σϵ̂2
n i=1
n i=1 i
Scomposizione della varianza totale
σy2 = σŷ2 + σϵ̂2
.
A. Maruotti
.
.
.
.
.
Correlazione
Regressione
Coefficiente di determinazione
Per avere un indice della bontà di adattamento del modello ai dati
calcoliamo il rapporto tra variabilità spiegata dalla regressione e
variabilità totale
2
r =
1
n
1
n
∑n
σŷ2
− µy )2
=
2
σy2
i=1 (yi − µy )
i=1 (ŷi
∑n
La decomposizione della devianza totale garantisce che r 2 varia tra
0 (pessimo adattamento) e 1 (ottimo adattamento, la relazione è
perfettamente lineare).
.
A. Maruotti
.
.
.
.
.