Esercitazione
6
A. Iodice
Studio della
dipendenza
Esercitazione 6
La retta di
regressione
Statistica
Qualità della
soluzione
trovata
Alfonso Iodice D’Enza
[email protected]
Outliers
Università degli studi di Cassino
A. Iodice ()
Esercitazione 6
Statistica
1 / 16
Outline
Esercitazione
6
A. Iodice
Studio della
dipendenza
1
Studio della dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
2 / 16
Outline
Esercitazione
6
A. Iodice
Studio della
dipendenza
1
Studio della dipendenza
2
La retta di regressione
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
2 / 16
Outline
Esercitazione
6
A. Iodice
Studio della
dipendenza
1
Studio della dipendenza
2
La retta di regressione
3
Qualità della soluzione trovata
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
2 / 16
Outline
Esercitazione
6
A. Iodice
Studio della
dipendenza
1
Studio della dipendenza
2
La retta di regressione
3
Qualità della soluzione trovata
4
Outliers
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
2 / 16
Dipendenza lineare
Esercitazione
6
A. Iodice
Studio della
dipendenza
Lo studio della relazione tra caratteri statistici è, nel caso della interdipendenza, di tipo simmetrico: due
caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A
questo scopo sono stati introdotti gli indici di covarianza σxy e di correlazione lineare ρ. Si consideri di aver
osservato due caratteri quantitativi X ed Y . Si riportano i valori e il grafico di dispersione:
I dati
scatter plot
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
3 / 16
Dipendenza lineare
Esercitazione
6
A. Iodice
µx =
Studio della
dipendenza
µy =
La retta di
regressione
σx =
P30
i=1 xi = 15.63
30
P30
i=1 yi = 44.2
30
rP
30 (x −µ )2
x
i
i=1
30
rP
Qualità della
soluzione
trovata
Outliers
scatter plot
covarianza e coefficiente di correlazione
σy =
σxy =
ρxy =
30 (y −µ )2
y
i
i=1
30
= 8.55
= 25.35
P30
i=1 (xi −µx )(yi −µy ) = 205.04
30
σxy
205.04 = 0.9458805
= 216.7716
σx σy
Dipendenza funzionale lineare
Essendo il valore del coefficiente di correlazione lineare prossimo ad 1 esiste una forte relazione lineare tra X
ed Y . Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta
crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo
Y = f (X) = b0 + b1 X
che rappresenta l’equazione di una retta passante attraverso la nube di punti di coordinate (xi , yi ).
A. Iodice ()
Esercitazione 6
Statistica
4 / 16
La retta di regressione
Esercitazione
6
rette passanti per la nube di punti
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
La retta di regressione
La retta di regressione fornisce una
approssimazione della dipendenza dei valori
di Y dai valori di X. La relazione di
dipendenza non è esattamente riprodotta
dalla retta; i valori yi∗ = b0 + b1 xi sono
dunque i valori teorici, ovvero i valori che la
variabile Y assume, secondo il modello
Y = b0 + b1 X, in corrispondenza dei
valori xi osservati.
Determinazione della retta di regressione
L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , l’intercetta, e b1 , il
coefficiente angolare o pendenza. La retta ’migliore’ è quella che passa più ’vicina’ ai punti osservati. In altre
parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi∗ e i valori osservati yi siano
minime.
A. Iodice ()
Esercitazione 6
Statistica
5 / 16
La retta di regressione
Esercitazione
6
A. Iodice
I residui
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
le differenze tra i valori teorici yi∗ e i valori osservati yi
vengono definite residui. La retta di regressione è tale che
la somma dei residui al quadrato sia minima. Formalmente
Ricerca dei parametri della retta di regressione:(b0 )
n
n
n
X
X
X
2
∗ 2
2
ei =
(yi − yi ) =
(yi − b0 − b1 xi )
i=1
i=1
i=1
−2
n
X
(yi − b0 − b1 xi ) =
i=1
Il problema consiste dunque nel ricercare b0 e b1 che
minimizzano la precedente espressione. Da un punto di vista
operativo bisogna risolvere il seguente sistema di equazioni
∂
n
X
∂b0 i=1
∂
n
X
∂b1 i=1
A. Iodice ()
=0
2
=0
(yi − b0 − b1 xi )
yi − n ∗ b0 − b1
i=1
n
X
xi = 0
i=1
b0 = µ y − b1 µ x
2
(yi − b0 − b1 xi )
n
X
Esercitazione 6
Statistica
6 / 16
La retta di regressione
Esercitazione
6
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
I residui
le differenze tra i valori teorici yi∗ e i valori
osservati yi vengono definite residui. La
retta di regressione è tale che la somma dei
residui al quadrato sia minima.
Ricerca dei parametri della retta di regressione:(b1 )
Formalmente
n
n
X
X
2
∗ 2
ei =
(yi − yi ) =
i=1
=
n
X
−2
i=1
n
X
2
(yi − b0 − b1 xi )
n
X
∂b0 i=1
∂
n
X
∂b1 i=1
A. Iodice ()
xi yi − b0
i=1
Il problema consiste dunque nel ricercare
b0 e b1 che minimizzano la precedente
espressione. Da un punto di vista operativo
bisogna risolvere il seguente sistema di
equazioni
∂
xi (yi − b0 − b1 xi ) = 0
i=1
i=1
Outliers
n
X
b1
n
X
n
2
=0
2
=0
(yi − b0 − b1 xi )
2
xi =
n
X
2
xi
n
Esercitazione 6
n
X
−(
Pn
i=1
xi
n
!
2
xi )
=n
n
X
i=1
Pn
yi
Pn
− b1
i=1
n
X
n
X
xi yi −
xi
!
n
xi
i=1
yi
i=1
Pn
σxy
xi yi − i=1 xi i=1 yi
=
Pn
Pn
2
2
2
σx
i=1 xi − ( i=1 xi )
i=1
n
2
xi = 0
i=1
n
X
i=1
Pn
n
X
i=1
xi y i −
i=1
n
X
i=1
b1 =
(yi − b0 − b1 xi )
xi − b1
i=1
i=1
b1
n
X
Statistica
7 / 16
Determinazione della retta di regressione
Esercitazione
6
A. Iodice
Calcolo dei coefficienti
Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha
b1 =
Studio della
dipendenza
La retta di
regressione
σxy
2
σx
205.04 = 2.804967
= 205.042 = 73.09889
(8.55)
b0 = µy − b1 µx = 44.2 − (2.804967 ∗ 15.63) = 0.349
La retta ’migliore’
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
8 / 16
Interpretazione dei valori dei coefficienti di
regressione
Esercitazione
6
A. Iodice
Studio della
dipendenza
b0 rappresenta l’intercetta della retta di regressione ed
indica il valore della variabile di risposta Y quando il
predittore X assume valore 0.
La retta di
regressione
Qualità della
soluzione
trovata
b1 rappresenta l’inclinazione della retta di regressione,
ovvero la variazione della variabile di risposta Y in
conseguenza di un aumento unitario del predittore X.
Outliers
A. Iodice ()
Esercitazione 6
Statistica
9 / 16
Bontà di adattamento
Esercitazione
6
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Esistono diversi strumenti grafici ed analitici per valutare la
bontà dell’adattamento della retta di regressione ai dati
Strumenti grafici: plot dei residui
Strumenti analitici:coefficiente di determinazione lineare
R2
Outliers
A. Iodice ()
Esercitazione 6
Statistica
10 / 16
Plot dei residui
Esercitazione
6
A. Iodice
Studio della
dipendenza
La retta di
regressione
Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed
X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio,
all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe
non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
Plot dei residui
Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un
diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n)
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
11 / 16
coefficiente di determinazione lineare R2
Esercitazione
6
Ricordando che la devianza il numeratore della varianza...
A. Iodice
Devy =
Studio della
dipendenza
2
(yi − µy )
=
i=1
La retta di
regressione
=
Qualità della
soluzione
trovata
=
Outliers
n
X
n
X
∗
∗ 2
(yi − yi ) +
2
n
X
∗
2
(yi − µy ) + 2
i=1
∗ 2
(yi − yi ) +
i=1
=
Dev(y) =
n
X
n
X
∗
2
(yi − µy ) + 2(
n
X
Pn
i=1
i=1
yi∗ =
n
X
∗ 2
(yi − yi ) +
n
X
∗
Pn
i=1
∗
2
2
(yi − µy ) +
yi −
n
X
∗
yi )(
i=1
n
X
n
X
∗
yi − nµy )
i=1
yi , quindi
(yi − µy ) + 2 ∗ 0 ∗ (
i=1
∗
∗
(yi − yi )(yi − µy )
i=1
i=1
=
n
X
i=1
i=1
Il metodo dei minimi quadrati assicura che
A. Iodice ()
∗
(yi − yi + yi − µy )
i=1
i=1
n
X
n
X
n
X
∗
yi − nµy )
i=1
∗ 2
(yi − yi )
= Devr + Deve
i=1
Esercitazione 6
Statistica
12 / 16
Decomposizione della devianza
Esercitazione
6
La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve
P
2
Devy = n
i=1 (yi − µy ) devianza totale
Pn
∗
Devr = i=1 (yi − µy )2 devianza di regressione
P
∗ 2
Deve = n
i=1 (yi − yi ) devianza dei residui
A. Iodice
Studio della
dipendenza
La retta di
regressione
Interpretazione grafica
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
13 / 16
Bontà dell’adattamento
Esercitazione
6
A. Iodice
Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale
che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà
la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di
determinazione lineare R2 , dato da
Studio della
dipendenza
La retta di
regressione
R
2
=
= Pi=1
n
i=1
ovvero
R
2
=1−
Qualità della
soluzione
trovata
Outliers
Pn
Devr
Devy
(yi∗ − µy )2
(yi − µy )2
Pn
(yi − yi∗ )2
= 1 − P i=1
n
2
(y
i − µy )
i=1
Deve
Devy
esempio di calcolo R2
P
2
Devy = n
i=1 (yi − µy ) = 19284.8
Pn
Devr = i=1 (yi∗ − µy )2 = 17253.92
P
∗ 2
Deve = n
i=1 (yi − yi ) = 2030.885
R
ovvero
R
A. Iodice ()
2
=1−
2
=
Deve
Devy
Devr
Devy
=
=1−
17253.92
19284.8
203.885
19284.8
Esercitazione 6
= 0.8947
= 1 − 10.53 = 0.8947
Statistica
14 / 16
Influenza di un outlier sulla soluzione
Esercitazione
6
A. Iodice
Studio della
dipendenza
La retta di
regressione
Un piccolo esempio
Si considerino le seguenti
osservazioni
Retta di regressione
La soluzione induce a concludere che vi sia una relazione di proporzionalità
inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la
variabile dipendente Y diminuisce.
Qualità della
soluzione
trovata
Outliers
A. Iodice ()
Esercitazione 6
Statistica
15 / 16
Influenza di un outlier sulla soluzione
Esercitazione
6
Retta di regressione
A. Iodice
Studio della
dipendenza
La retta di
regressione
Un (altro) piccolo esempio
Si considerino le osservazioni
precedenti a cui è aggiunta un
unica coppia di valori (8, 8). I
dati sono
Qualità della
soluzione
trovata
Outliers
In questo caso, la sola presenza della nuova osservazione conduce
all’identificazione di una retta di regressione diversa dalla prima:
l’inclinazione positiva della retta indica una relazione di diretta
proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza
dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di
dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce
pertanto un outlier. L’identificazione e la conseguente eliminazione degli
eventuali outlier è un elemento molto importante nello studio della
dipendenza tra fenomeni.
A. Iodice ()
Esercitazione 6
Statistica
16 / 16