Esercitazione
8
A. Iodice
Studio della
dipendenza
Esercitazione 8
La retta di
regressione
Statistica
Qualità della
soluzione
trovata
Alfonso Iodice D’Enza
[email protected]
Outliers
Regressione su
tabella a
doppia entrata
Università degli studi di Cassino
A. Iodice ()
Esercitazione 8
Statistica
1 / 24
Outline
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
1
Studio della dipendenza
2
La retta di regressione
3
Qualità della soluzione trovata
4
Outliers
5
Regressione su tabella a doppia entrata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
2 / 24
Dipendenza lineare
Esercitazione
8
A. Iodice
Lo studio della relazione tra caratteri statistici è, nel caso della interdipendenza, di tipo simmetrico: due
caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A
questo scopo sono stati introdotti gli indici di covarianza σxy e di correlazione lineare ρ. Si consideri di aver
osservato due caratteri quantitativi X ed Y . Si riportano i valori e il grafico di dispersione:
Studio della
dipendenza
Il diagramma di dispersione (scatter plot)
La retta di
regressione
Qualità della
soluzione
trovata
1
2
3
4
5
6
7
8
9
10
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Y
28
21
63
42
28
2
80
19
33
60
376
X
11
8
28
17
9
4
28
5
12
23
145
Esercitazione 8
Statistica
3 / 24
Dipendenza lineare
Esercitazione
8
covarianza e coefficiente di correlazione
P10
i=1 xi = 14.5
10
P10
i=1 yi = 37.6
10
rP
10 (x −µ )2
x
i
i=1
10
A. Iodice
µx =
Studio della
dipendenza
µy =
La retta di
regressione
σx =
Qualità della
soluzione
trovata
σy =
Outliers
ρxy =
Regressione su
tabella a
doppia entrata
rP
σxy =
10 (y −µ )2
y
i
i=1
10
= 8.57
= 22.49
P10
i=1 (xi −µx )(yi −µy )
10
σxy
=
0.97
σx σy
= 187.3
Dipendenza funzionale lineare
Essendo il valore del coefficiente di correlazione lineare prossimo ad 1 esiste una forte relazione lineare tra X
ed Y . Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta
crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo
Y = f (X) = b0 + b1 X
che rappresenta l’equazione di una retta passante attraverso la nube di punti di coordinate (xi , yi ).
A. Iodice ()
Esercitazione 8
Statistica
4 / 24
La retta di regressione
Esercitazione
8
rette passanti per la nube di punti
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
La retta di regressione
La retta di regressione fornisce una
approssimazione della dipendenza dei valori
di Y dai valori di X. La relazione di
dipendenza non è esattamente riprodotta
dalla retta; i valori yi∗ = b0 + b1 xi sono
dunque i valori teorici, ovvero i valori che la
variabile Y assume, secondo il modello
Y = b0 + b1 X, in corrispondenza dei
valori xi osservati.
Regressione su
tabella a
doppia entrata
Determinazione della retta di regressione
L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , l’intercetta, e b1 , il
coefficiente angolare o pendenza. La retta ’migliore’ è quella che passa più ’vicina’ ai punti osservati. In altre
parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi∗ e i valori osservati yi siano
minime.
A. Iodice ()
Esercitazione 8
Statistica
5 / 24
La retta di regressione
Esercitazione
8
A. Iodice
I residui
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
le differenze tra i valori teorici yi∗ e i valori osservati yi
vengono definite residui. La retta di regressione è tale che
la somma dei residui al quadrato sia minima. Formalmente
Ricerca dei parametri della retta di regressione:(b0 )
n
n
n
X
X
X
2
∗ 2
2
ei =
(yi − yi ) =
(yi − b0 − b1 xi )
i=1
i=1
i=1
−2
Il problema consiste dunque nel ricercare b0 e b1 che
minimizzano la precedente espressione. Da un punto di vista
operativo bisogna risolvere il seguente sistema di equazioni
∂
n
X
∂b0 i=1
∂
n
X
∂b1 i=1
A. Iodice ()
n
X
(yi − b0 − b1 xi ) =
i=1
n
X
yi − n ∗ b0 − b1
i=1
2
=0
2
=0
(yi − b0 − b1 xi )
(yi − b0 − b1 xi )
Esercitazione 8
n
X
xi = 0
i=1
b0 = µ y − b1 µ x
Statistica
6 / 24
La retta di regressione
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
I residui
le differenze tra i valori teorici yi∗ e i valori
osservati yi vengono definite residui. La
retta di regressione è tale che la somma dei
residui al quadrato sia minima.
Ricerca dei parametri della retta di regressione:(b1 )
Formalmente
n
n
X
X
2
∗ 2
ei =
(yi − yi ) =
i=1
=
n
X
2
(yi − b0 − b1 xi )
n
X
∂b0 i=1
∂
n
X
∂b1 i=1
A. Iodice ()
xi (yi − b0 − b1 xi ) = 0
xi yi − b0
i=1
Il problema consiste dunque nel ricercare
b0 e b1 che minimizzano la precedente
espressione. Da un punto di vista operativo
bisogna risolvere il seguente sistema di
equazioni
∂
n
X
i=1
i=1
Outliers
Regressione su
tabella a
doppia entrata
n
X
−2
i=1
b1
n
X
n
2
=0
2
=0
(yi − b0 − b1 xi )
2
xi =
n
X
2
xi
n
Esercitazione 8
n
X
−(
Pn
i=1
xi
n
!
2
xi )
=n
n
X
i=1
Pn
yi
Pn
− b1
i=1
n
X
n
X
xi yi −
xi
!
n
xi
i=1
yi
i=1
Pn
σxy
xi yi − i=1 xi i=1 yi
=
Pn
Pn
2
2
2
σx
i=1 xi − ( i=1 xi )
i=1
n
2
xi = 0
i=1
n
X
i=1
Pn
n
X
i=1
xi y i −
i=1
n
X
i=1
b1 =
(yi − b0 − b1 xi )
xi − b1
i=1
i=1
b1
n
X
Statistica
7 / 24
Determinazione della retta di regressione
Esercitazione
8
A. Iodice
Calcolo dei coefficienti
Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha
b1 =
Studio della
dipendenza
La retta di
regressione
σxy
2
σx
= 2.55
b0 = µy − b1 µx = 37.6 − (2.55 ∗ 14.5) = 0.62
La retta ’migliore’
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
8 / 24
Interpretazione dei valori dei coefficienti di
regressione
Esercitazione
8
A. Iodice
Studio della
dipendenza
b0 rappresenta l’intercetta della retta di regressione ed
indica il valore della variabile di risposta Y quando il
predittore X assume valore 0.
La retta di
regressione
Qualità della
soluzione
trovata
b1 rappresenta l’inclinazione della retta di regressione,
ovvero la variazione della variabile di risposta Y in
conseguenza di un aumento unitario del predittore X.
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
9 / 24
Bontà di adattamento
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Esistono diversi strumenti grafici ed analitici per valutare la
bontà dell’adattamento della retta di regressione ai dati
Strumenti grafici: plot dei residui
Strumenti analitici:coefficiente di determinazione lineare
R2
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
10 / 24
Plot dei residui
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed
X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio,
all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe
non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
Plot dei residui
Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un
diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n)
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
11 / 24
coefficiente di determinazione lineare R2
Esercitazione
8
Ricordando che la devianza il numeratore della varianza...
A. Iodice
Devy =
Studio della
dipendenza
2
(yi − µy )
=
i=1
La retta di
regressione
=
Qualità della
soluzione
trovata
=
Outliers
n
X
n
X
2
(yi − ŷi ) +
n
X
2
(ŷi − µy ) + 2
2
(yi − ŷi ) +
n
X
Dev(y) =
n
X
2
n
X
i=1
(yi − ŷi )(ŷi − µy )
n
X
i=1
Pn
i=1
ŷi =
n
X
2
(yi − ŷi ) +
i=1
=
n
X
(ŷi − µy ) + 2(
i=1
Il metodo dei minimi quadrati assicura che
A. Iodice ()
=
i=1
i=1
i=1
Regressione su
tabella a
doppia entrata
2
(yi − ŷi + ŷi − µy )
i=1
i=1
n
X
n
X
Pn
i=1
2
n
X
2
(ŷi − µy ) + 2 ∗ 0 ∗ (
n
X
ŷi )(
i=1
n
X
ŷi − nµy )
i=1
yi , quindi
i=1
(ŷi − µy ) +
yi −
n
X
ŷi − nµy )
i=1
2
(yi − ŷi )
= Devr + Deve
i=1
Esercitazione 8
Statistica
12 / 24
Decomposizione della devianza
Esercitazione
8
La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve
A. Iodice
Studio della
dipendenza
La retta di
regressione
Devy =
Pn
(yi − µy )2 devianza totale
Devr =
Pn
(ŷi − µy )2 devianza di regressione
Deve =
Pn
(yi − ŷi )2 devianza dei residui
i=1
i=1
i=1
Interpretazione grafica
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
13 / 24
Bontà dell’adattamento
Esercitazione
8
A. Iodice
Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale
che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà
la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di
determinazione lineare R2 , dato da
Studio della
dipendenza
La retta di
regressione
R
2
=
ovvero
R
2
=1−
Qualità della
soluzione
trovata
Outliers
Devr
Devy
Deve
Devy
Pn
= Pi=1
n
(ŷi − µy )2
2
i=1 (yi − µy )
Pn
(yi − ŷi )2
= 1 − P i=1
n
(y − µ )2
i=1
i
y
esempio di calcolo R2
Regressione su
tabella a
doppia entrata
Devy =
Pn
Devr =
Pn
Deve =
Pn
i=1
(yi − µy )2 = 5058.4
2
i=1 (ŷi − µy ) = 4776.214
i=1
(yi − ŷi )2 = 282.1862
R
ovvero
R
A. Iodice ()
2
=1−
2
=
Deve
Devy
Devr
Devy
=1−
4776.214
=
5058.4
282.1862
5058.4
Esercitazione 8
= 0.94
= 1 − 10.53 = 0.94
Statistica
14 / 24
Influenza di un outlier sulla soluzione
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Un piccolo esempio
Si considerino le seguenti
osservazioni
Retta di regressione
La soluzione induce a concludere che vi sia una relazione di proporzionalità
inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la
variabile dipendente Y diminuisce.
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
15 / 24
Influenza di un outlier sulla soluzione
Esercitazione
8
Retta di regressione
A. Iodice
Studio della
dipendenza
La retta di
regressione
Un (altro) piccolo esempio
Si considerino le osservazioni
precedenti a cui è aggiunta un
unica coppia di valori (8, 8). I
dati sono
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
In questo caso, la sola presenza della nuova osservazione conduce
all’identificazione di una retta di regressione diversa dalla prima:
l’inclinazione positiva della retta indica una relazione di diretta
proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza
dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di
dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce
pertanto un outlier. L’identificazione e la conseguente eliminazione degli
eventuali outlier è un elemento molto importante nello studio della
dipendenza tra fenomeni.
A. Iodice ()
Esercitazione 8
Statistica
16 / 24
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Si consideri di aver osservato su 10 rivenditori di componenti
informatiche le variabili numero di punti vendita e Fatturato
settimanale complessivo. Si studi la dipendenza del fatturato dal
numero di punti vendita.
Qualità della
soluzione
trovata
fino a 5000
tra 5000 e 1000
Outliers
fino a 2
3
1
tra 2 e 4
2
2
tra 4 e 6
0
2
Regressione su
tabella a
doppia entrata
Si stimino i coefficienti della retta di regressione.
Si valuti la bontà di adattamento della retta ai dati.
A. Iodice ()
Esercitazione 8
Statistica
17 / 24
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
A. Iodice
Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai
centri di ciascun intervallo. La tabella è dunque data da
Studio della
dipendenza
Y /X
2500
7500
Tot
La retta di
regressione
Qualità della
soluzione
trovata
1
3
1
4
3
2
2
4
5
0
2
2
Tot
5
5
10
Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze:
Outliers
µx =
Regressione su
tabella a
doppia entrata
µy =
k
1 X
n j=1
h
1X
n i=1
xj n.j =
yi ni. =
1
10
1
10
× (1 × 4) + (3 × 4) + (5 × 2) =
× (2500 × 5) + (7500 × 5) =
4 + 12 + 10
10
12500 + 37500
10
= 2.6
= 5000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Esercitazione 8
Statistica
18 / 24
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato
A. Iodice
Y /X
(2500 − 5000)2
(7500 − 5000)2
Tot
Studio della
dipendenza
(1 − 2.6)2
3
1
4
(3 − 2.6)2
2
2
4
(5 − 2.6)2
0
2
2
Tot
5
5
10
La retta di
regressione
Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze:
Qualità della
soluzione
trovata
2
σx =
Outliers
Regressione su
tabella a
doppia entrata
k
1 X
2
n j=1
(xj − µx ) n.j =
2
+ ((5 − 2.6) × 2) =
2
σy =
=
h
1X
n i=1
1
10
2
10.24 + 0.64 + 11.52
10
2
(yi − µy ) ni. =
31250000 + 31250000
10
2
× ((1 − 2.6) × 4) + ((3 − 2.6) × 4)+
1
10
= 2.24
2
2
× (2500 × 5) + (7500 × 5)
= 6250000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Esercitazione 8
Statistica
19 / 24
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza.
Y /X
(2500 − 5000)
(7500 − 5000)
Tot
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
σxy =
h X
k
1 X
n i=1 j=1
(1 − 2.6)
3
1
4
(3 − 2.6)
2
2
4
(5 − 2.6)
0
2
2
yi
xi
yi − µ y
xi − µx
2500
2500
2500
2500
2500
7500
7500
7500
7500
7500
1
1
1
3
3
1
3
3
5
5
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(1-2.6)
(1-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(5-2.6)
(5-2.6)
Tot
5
5
10
(yi − µy ) × (xj − µx ) × nij =
1
((2500 − 5000)(1 − 2.6) × 3 + (2500 − 5000)(3 − 2.6) × 2+
10
+ (7500 − 5000)(1 − 2.6) × 1 + (7500 − 5000)(3 − 2.6) × 2+
=
+ (7500 − 5000)(5 − 2.6) × 2) =
A. Iodice ()
12000 − 2000 − 4000 + 2000 + 12000
Esercitazione 8
10
= 2000
Statistica
20 / 24
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Avendo calcolato le quantità µx = 2.6, µy = 5000, σx2 = 2.24 e
σxy = 2000, è possibile calcolare i coefficienti della retta di
regressione
Calcolo dei coefficienti
b1 =
Qualità della
soluzione
trovata
=
2000
2.24
= 892.571
b0 = µy − b1 µx = 5000 − (892.571 ∗ 2.6) = 2679.315
Outliers
Regressione su
tabella a
doppia entrata
σxy
σx2
quindi l’equazione della retta di regressione è
y = b0 + b1 x = 2679.315 + 892.571x
Dunque, il valore stimato ŷi corrispondente ad un valore xi
assegnato è ŷi = b0 + b1 x.
A. Iodice ()
Esercitazione 8
Statistica
21 / 24
Valutazione della bontà di adattamento
Esercitazione
8
A. Iodice
Ricordando che
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
R
2
=
Devr
Devy
Pn
= Pi=1
n
i=1
ovvero
R
2
=1−
Deve
Devy
(ŷi − µy )2
(yi − µy )2
Pn
= 1 − P i=1
n
(yi − ŷi )2
2
i=1 (yi − µy )
con Devy = Devr + Deve
Outliers
Regressione su
tabella a
doppia entrata
Devy =
Pn
(yi − µy )2 devianza totale
Devr =
Pn
(ŷi − µy )2 devianza di regressione
Deve =
Pn
(yi − ŷi )2 devianza dei residui
i=1
i=1
i=1
Per ottenere R2 , misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo
2
già calcolato σy
.
A. Iodice ()
Esercitazione 8
Statistica
22 / 24
Calcolo della devianza dei residui
Esercitazione
8
A. Iodice
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Deve =
Pn
i=1
(yi − ŷi )2 devianza dei residui
in base alla retta di regressione stimata, i valori ŷi stimati in funzione
dei valori xi sono
ŷ1 = b0 + b1 x1 = 2679.315 + 892.571 × 1 = 3571.886
Outliers
ŷ2 = b0 + b1 x2 = 2679.315 + 892.571 × 3 = 5357.028
Regressione su
tabella a
doppia entrata
ŷ3 = b0 + b1 x3 = 2679.315 + 892.571 × 5 = 7142.17
A. Iodice ()
Esercitazione 8
Statistica
23 / 24
Calcolo della devianza dei residui
Esercitazione
8
Per calcolare i residui yi − ŷi nel caso di tabella a doppia entrata si procede come segue
yi /ŷj
y1 = 2500
y2 = 7500
Tot
A. Iodice
Studio della
dipendenza
La retta di
regressione
Deve =
Ph
i=1
ŷ1 = 3571.886
3
1
4
Pk
i=1
Qualità della
soluzione
trovata
calcolo della devianza dei residui
Outliers
Deve =
h X
k
X
ŷ2 = 5357.028
2
2
4
ŷ3 = 7142.17
0
2
2
Tot
5
5
10
((yi − ŷj )2 ) × nij devianza dei residui per tabella doppia
2
2
2
((yi − ŷj ) ) × nij = ((2500 − 3571.886) ) × 3 + ((2500 − 5357.028) ) × 2+
i=1 j=1
Regressione su
tabella a
doppia entrata
2
2
2
+ ((7500 − 3571.886) ) × 1 + ((7500 − 5357.028) ) × 2 + ((7500 − 7142.17) ) × 2 =
= 44642859
devy =
n
X
2
(yi − µy )
2
= σy × n = 6250000 × 10 = 62500000
i=1
R
A. Iodice ()
2
=1−
deve
devy
Esercitazione 8
= 1 − 0.71 = 0.29
Statistica
24 / 24