Lezione 10
A. Iodice
Regressione
lineare
semplice
Lezione 10
Metodo dei
minimi
quadrati
Statistica
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Alfonso Iodice D’Enza
[email protected]
Outliers
Università degli studi di Cassino
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
1 / 30
Outline
Lezione 10
A. Iodice
Regressione
lineare
semplice
1
Regressione lineare semplice
2
Metodo dei minimi quadrati
3
Determinazione della retta di regressione
4
Qualità della soluzione trovata
5
Outliers
6
Regressione su tabella a doppia entrata
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
2 / 30
Studio della relazione tra due variabili
Lezione 10
A. Iodice
Commonly Asked Questions
Regressione
lineare
semplice
Qual’è la relazione tra la spesa sostenuta per la promozione di un prodotto
e il livello di vendite nel primo mese?
Metodo dei
minimi
quadrati
Qual’è la relazione tra la concentrazione di alcool nel sangue e il tempo di
reazione di un automobilista?
Qual’è la relazione tra il voto di laurea conseguito dagli studenti di
Economia e lo stipendio da loro percepito al primo impiego?
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
Regressione lineare semplice
Per studiare la dipendenza lineare di una variabile di risposta (o dipendente) da
una variabile indipendente (regressore, predittore) si utilizza il modello di
regressione lineare semplice: tale modello, stabilisce, a meno di variazioni casuali,
una relazione lineare tra risposta e predittore.
A. Iodice ()
Lezione 10
Statistica
3 / 30
Studio della relazione tra due variabili
Lezione 10
Galton e la regressione verso la mediocrità
A. Iodice
Nel 1888 Francis Galton, passeggiava in campagna riflettendo sul seguente
problema:
Regressione
lineare
semplice
Qual’è la relazione tra le caratteristiche fisiche e psichiche di un figlio e
quelle dei genitori?
Metodo dei
minimi
quadrati
La contraddizione
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
Inizialmente lui credeva che l’altezza di
un figlio dovesse essere, in valore atteso
(in media), uguale a quella del genitore
dello stesso sesso.
Dunque si attendeva che metà dei figli
di genitori alti fossero ancora più alti e
metà dei figli di genitori bassi fossero
ancora più bassi: le generazioni
successive avrebbero dovuto avere
persone sempre più alte (o più basse).
Questo tuttavia non accadeva, perchè
le altezze osservate erano stabili di
generazione in generazione.
A. Iodice ()
Lezione 10
Il temporale e la soluzione
Mentre si riparava da un temporale che
aveva interrotto la sua passeggiata si
rese conto che l’altezza di un figlio era,
in valore atteso (in media), compresa
tra quella del genitore dello stesso sesso
e la media della popolazione. Dunque
figli di genitori particolarmente alti
(bassi) erano in media meno alti (bassi)
dei rispettivi genitori. Questa tendenza,
confermata dai dati osservati, Galton la
definı̀ regressione verso la mediocrità.
Statistica
4 / 30
Modello di regressione lineare semplice
In molte applicazioni il ruolo delle variabili x ed Y non è lo stesso, in particolare,
assegnato un certo valore al predittore x (indicato pertanto con la lettera
minuscola), il valore che Y assume dipende in qualche modo da x. La relazione
più semplice tra le variabili è quella lineare, e il modello corrispondente è
Lezione 10
A. Iodice
Regressione
lineare
semplice
Y = β0 + β1 x;
Metodo dei
minimi
quadrati
tale modello presuppone che, stabiliti i parametri β0 e β1 , sia possibile
determinare esattamente il valore di Y conoscendo il valore di x: salvo eccezioni,
questo non si verifica mai.
Determinazione
della retta di
regressione
Il modello
Qualità della
soluzione
trovata
Alla determinazione del valore di Y , oltre che la componente deterministica
β0 + β1 x, concorre anche una componente casuale detta errore non osservabile ,
una variabile casuale con media 0
Outliers
Regressione su
tabella a
doppia entrata
Y = β0 + β1 x + .
Analogamente, la relazione di regressione lineare semplice può essere espressa in
termini di valore atteso
E[Y |x] = β0 + β1 x.
poichè E[] = 0.
A. Iodice ()
Lezione 10
Statistica
5 / 30
Modello di regressione lineare semplice
Lezione 10
Si consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l’entità della depressione
riscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rullo utilizzato (weight).
Per vedere se l’utilizzo del modello di regressione lineare semplice sia ragionevole in questo caso occorre
raccogliere delle coppie di osservazioni (xi , yi ) e rappresentarle graficamente attraverso il diagramma di
dispersione.
A. Iodice
Regressione
lineare
semplice
Il diagramma di dispersione (scatter plot)
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
units
1
2
3
4
5
6
7
8
9
10
A. Iodice ()
weight
1.9
3.1
3.3
4.8
5.3
6.1
6.4
7.6
9.8
12.4
depression
2.0
1.0
5.0
5.0
20.0
20.0
23.0
10.0
30.0
25.0
Lezione 10
Statistica
6 / 30
La retta di regressione
Lezione 10
La retta di regressione
A. Iodice
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
La retta di regressione fornisce una
approssimazione della dipendenza dei valori
di Y dai valori di X. La relazione di
dipendenza non è esattamente riprodotta
dalla retta; i valori ŷi = β0 + β1 xi sono
dunque i valori teorici, ovvero i valori che la
variabile Y assume, secondo il modello
Y = β0 + β1 x, in corrispondenza dei
valori xi osservati.
Le differenze ei tra i valori teorici ŷi e i
valori osservati yi vengono definite residui.
Questo perchè per ciascuna osservazione il
modello è dato da
yi =
Outliers
Regressione su
tabella a
doppia entrata
β0 + β1 xi
|
{z
}
comp. deterministica
+
rette passanti per la nube di punti
i
|{z}
comp. casuale
Determinazione della retta di regressione
L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , e b1 , stime dell’intercetta e
del coefficiente angolare o pendenza, rispettivamente. La retta ’migliore’ è quella che passa più ’vicina’ ai
punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici ŷi e i
valori osservati yi siano minime.
A. Iodice ()
Lezione 10
Statistica
7 / 30
La retta di regressione
Lezione 10
Metodo dei minimi quadrati
A. Iodice
le differenze tra i valori teorici ŷi e i valori osservati yi vengono definite residui. La retta di regressione è
tale che la somma dei residui al quadrato sia minima. Formalmente
Regressione
lineare
semplice
n
n
X
X
2
2
ei =
(yi − ŷi ) =
i=1
Metodo dei
minimi
quadrati
=
Determinazione
della retta di
regressione
i=1
n
X
2
(yi − b0 − b1 xi )
i=1
Il problema consiste dunque nel ricercare b0 e b1 che minimizzano la precedente espressione. Da un punto di
vista operativo bisogna risolvere il seguente sistema di equazioni (condizioni del primo ordine o stazionarietà).
Qualità della
soluzione
trovata
∂
Outliers
n
X
∂b0 i=1
Regressione su
tabella a
doppia entrata
∂
n
X
∂b1 i=1
2
=0
2
=0
(yi − b0 − b1 xi )
(yi − b0 − b1 xi )
Nota: si tratta di punti di minimo perchè le derivate seconde ∂b0 b0 f (b0 , b1 ) = −2(−n),
P
2
∂b1 b1 f (b0 , b1 ) = −2 n
i (−xi )
sono sempre non negative.
A. Iodice ()
Lezione 10
Statistica
8 / 30
La retta di regressione
Lezione 10
A. Iodice
Regressione
lineare
semplice
Stimatori dei parametri della retta di regressione:(b0 )
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
−2
n
X
(yi − b0 − b1 xi ) =
i=1
n
X
yi − n ∗ b0 − b1
i=1
n
X
xi = 0
i=1
b0 = µy − b1 µx
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
9 / 30
La retta di regressione
Lezione 10
A. Iodice
Stimatori dei parametri della retta di regressione:(b1 )
Regressione
lineare
semplice
−2
Metodo dei
minimi
quadrati
n
X
xi (yi − b0 − b1 xi ) = 0
i=1
n
X
Determinazione
della retta di
regressione
xi yi − b0
i=1
n
X
b1
Qualità della
soluzione
trovata
b1
Outliers
Regressione su
tabella a
doppia entrata
b1
xi − b 1
i=1
x2i
=
n
X
n
X
xi yi −
i=1
i=1
i=1
n
X
n
X
x2i =
xi yi −
i=1
i=1
i=1
n
X
n
X
n
X
x2i =
i=1
x2i = 0
i=1
n
X
n
X
i=1
A. Iodice ()
n
X
xi yi −
Pn
i=1
xi
n
Pn
xi
i=1
n
Pn
xi
i=1
Lezione 10
yi
yi
+
Pn
− b1
n
X
i=1
xi
n
Pn
xi b1
i=1
i=1
i=1 yi
+ b1
n
Pn
i=1
xi
xi
n
2
n
Statistica
10 / 30
La retta di regressione
Lezione 10
A. Iodice
Stimatori dei parametri della retta di regressione:(b1 )
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
"
#
2
Pn
Pn
n
n
n
X
X
X
1
1
i=1 xi
2
i=1 yi
b1
xi − b1
=
xi yi −
xi
n
n
n
n
i=1
i=1
i=1
2
Pn
Pn
Pn
Pn
Pn
2
x
i=1 i
i=1 xi
i=1 xi yi
i=1 xi
i=1 yi
b1
−
−b1
=
n
n2
n
n
n
| {z }
|
{z
}
| {z } | {z }
µx2
Qualità della
soluzione
trovata
Pn
Outliers
b1 µx2 − (µx )2 =
|
{z
} |
Regressione su
tabella a
doppia entrata
σxy
b1 = 2
σx
2
σx
A. Iodice ()
µx
(µx )2
i=1
xi yi
n
{z
σxy
Lezione 10
µy
− µx µy
}
Statistica
11 / 30
Determinazione della retta di regressione
Lezione 10
A. Iodice
Regressione
lineare
semplice
...statistiche descrittive
Metodo dei
minimi
quadrati
P10
i=1
µx =
Determinazione
della retta di
regressione
10
= 6.07
µy =
P10
i=1
yi
10
q P10
σx =
σxy =
Qualità della
soluzione
trovata
xi
rxy =
2
i=1 (xi −µx )
10
P10
i=1
σxy
σx σy
= 3.04
(xi −µx )(yi −µy )
10
σy =
= 14.1
q P10
i=1
(yi −µy )2
10
= 10.1
= 24.7
= 0.8
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
12 / 30
Determinazione della retta di regressione
Lezione 10
Calcolo dei coefficienti
A. Iodice
Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha
σ
b1 = σxy
b0 = µy − b1 µx = 14.1 − (2.66 ∗ 6.07) = −2.04
2 = 2.66
x
Regressione
lineare
semplice
Y = −2.04 + 2.66x rappresenta la retta di regressione stimata
Metodo dei
minimi
quadrati
La retta ’migliore’
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
13 / 30
Interpretazione dei valori dei coefficienti di
regressione
Lezione 10
A. Iodice
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
b0 rappresenta l’intercetta della retta di regressione ed
indica il valore della variabile di risposta Y quando il
predittore x assume valore 0.
b1 rappresenta l’inclinazione della retta di regressione,
ovvero la variazione della variabile di risposta Y in
conseguenza di un aumento unitario del predittore x.
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
14 / 30
Bontà di adattamento
Lezione 10
A. Iodice
Regressione
lineare
semplice
Esistono diversi strumenti grafici ed analitici per valutare la
bontà dell’adattamento della retta di regressione ai dati
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Strumenti grafici: plot dei residui
Strumenti analitici:coefficiente di determinazione lineare
R2
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
15 / 30
Plot dei residui
Lezione 10
Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed
X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio,
all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe
non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
A. Iodice
Regressione
lineare
semplice
Plot dei residui
Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un
diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n)
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
16 / 30
coefficiente di determinazione lineare R2
Lezione 10
A. Iodice
Regressione
lineare
semplice
Ricordando che la devianza il numeratore della varianza...
Metodo dei
minimi
quadrati
Devy =
Determinazione
della retta di
regressione
=
Qualità della
soluzione
trovata
=
n
X
i=1
n
X
i=1
n
X
i=1
(yi − µy )2 =
(yi − ŷi )2 +
(yi − ŷi )2 +
n
X
(yi − ŷi + ŷi − µy )2 =
i=1
n
X
n
X
i=1
n
X
i=1
n
X
(ŷi − µy )2 + 2
(yi − ŷi )(ŷi − µy )
(ŷi − µy )2 + 2(
i=1
i=1
yi −
n
X
i=1
n
X
ŷi )(
ŷi − nµy )
i=1
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
17 / 30
coefficiente di determinazione lineare R2
Lezione 10
Per il metodo dei minimi quadrati
A. Iodice
n
∂ X
(yi − ŷi )2 = 0
∂ ŷi i=1
!
n
X
−2
(yi − ŷi ) = 0
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
i=1
n
X
Determinazione
della retta di
regressione
(yi − ŷi ) = 0 =⇒
i=1
n
X
i=1
yi =
n
X
ŷi
i=1
Qualità della
soluzione
trovata
Outliers
Dev(y) =
Regressione su
tabella a
doppia entrata
n
X
i=1
=
n
X
i=1
A. Iodice ()
(yi − ŷi )2 +
n
X
n
X
(ŷi − µy )2 + 2 ∗ 0 ∗ (
ŷi − nµy )
i=1
n
X
(ŷi − µy )2 +
i=1
(yi − ŷi )2 = Devr + Deve
i=1
Lezione 10
Statistica
18 / 30
Decomposizione della devianza
La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve
Lezione 10
A. Iodice
Regressione
lineare
semplice
Devy =
Pn
(yi − µy )2 devianza totale
Devr =
Pn
(ŷi − µy )2 devianza di regressione
Deve =
Pn
(yi − ŷi )2 devianza dei residui
i=1
i=1
i=1
Interpretazione grafica
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
19 / 30
Bontà dell’adattamento
Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale
che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà
la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di
determinazione lineare R2 , dato da
Lezione 10
A. Iodice
Regressione
lineare
semplice
R
2
=
Devr
Devy
ovvero
Metodo dei
minimi
quadrati
R
Determinazione
della retta di
regressione
2
=1−
Deve
Devy
Pn
= Pi=1
n
(ŷi − µy )2
2
i=1 (yi − µy )
Pn
(yi − ŷi )2
= 1 − P i=1
n
(y − µ )2
i=1
i
y
esempio di calcolo R2
Qualità della
soluzione
trovata
Devy =
Pn
Devr =
Pn
Outliers
Deve =
Pn
i=1
(yi − µy )2 = 1020.9
2
i=1 (ŷi − µy ) = 657.97
i=1
(yi − ŷi )2 = 362.93
Regressione su
tabella a
doppia entrata
R
ovvero
R
A. Iodice ()
2
=1−
2
=
Deve
Devy
Devr
Devy
=
=1−
Lezione 10
657.97
1020.9
362.93
1020.9
= 0.64
= 1 − 0.36 = 0.64
Statistica
20 / 30
Influenza di un outlier sulla soluzione
Lezione 10
A. Iodice
Regressione
lineare
semplice
Un piccolo esempio
Si considerino le seguenti
osservazioni
Metodo dei
minimi
quadrati
Retta di regressione
La soluzione induce a concludere che vi sia una relazione di proporzionalità
inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la
variabile dipendente Y diminuisce.
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
21 / 30
Influenza di un outlier sulla soluzione
Lezione 10
Retta di regressione
A. Iodice
Regressione
lineare
semplice
Un (altro) piccolo esempio
Si considerino le osservazioni
precedenti a cui è aggiunta un
unica coppia di valori (8, 8). I
dati sono
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
In questo caso, la sola presenza della nuova osservazione conduce
all’identificazione di una retta di regressione diversa dalla prima:
l’inclinazione positiva della retta indica una relazione di diretta
proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza
dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di
dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce
pertanto un outlier. L’identificazione e la conseguente eliminazione degli
eventuali outlier è un elemento molto importante nello studio della
dipendenza tra fenomeni.
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
22 / 30
Regressione su distribuzione doppia di frequenze
Lezione 10
A. Iodice
Si consideri di aver osservato su 10 rivenditori di componenti
informatiche le variabili numero di punti vendita e Fatturato
settimanale complessivo. Si studi la dipendenza del fatturato dal
numero di punti vendita.
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
fino a 5000
tra 5000 e 10000
fino a 2
3
1
tra 2 e 4
2
2
tra 4 e 6
0
2
Outliers
Si stimino i coefficienti della retta di regressione.
Regressione su
tabella a
doppia entrata
Si valuti la bontà di adattamento della retta ai dati.
A. Iodice ()
Lezione 10
Statistica
23 / 30
Regressione distribuzione doppia di frequenze
Lezione 10
Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai
centri di ciascun intervallo. La tabella è dunque data da
A. Iodice
Regressione
lineare
semplice
Y /X
2500
7500
Tot
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
3
2
2
4
5
0
2
2
Tot
5
5
10
Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze:
µx =
Outliers
µy =
Regressione su
tabella a
doppia entrata
1
3
1
4
k
1 X
n j=1
h
1X
n i=1
xj n.j =
yi ni. =
1
10
1
10
× (1 × 4) + (3 × 4) + (5 × 2) =
× (2500 × 5) + (7500 × 5) =
4 + 12 + 10
10
12500 + 37500
10
= 2.6
= 5000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Lezione 10
Statistica
24 / 30
Regressione: distribuzione doppia di frequenze
Lezione 10
Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato
A. Iodice
Y /X
(2500 − 5000)2
(7500 − 5000)2
Tot
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
(1 − 2.6)2
3
1
4
(3 − 2.6)2
2
2
4
(5 − 2.6)2
0
2
2
Tot
5
5
10
Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze:
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
2
σx =
k
1 X
2
n j=1
(xj − µx ) n.j =
2
+ ((5 − 2.6) × 2) =
Outliers
2
σy =
Regressione su
tabella a
doppia entrata
=
h
1X
n i=1
1
10
2
10.24 + 0.64 + 11.52
10
2
(yi − µy ) ni. =
31250000 + 31250000
10
2
× ((1 − 2.6) × 4) + ((3 − 2.6) × 4)+
1
10
= 2.24
2
2
× (2500 × 5) + (7500 × 5)
= 6250000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Lezione 10
Statistica
25 / 30
Esercizio regressione: distribuzione doppia di
frequenze
Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza.
Lezione 10
Y /X
(2500 − 5000)
(7500 − 5000)
Tot
A. Iodice
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
Outliers
σxy =
Regressione su
tabella a
doppia entrata
h X
k
1 X
n i=1 j=1
(1 − 2.6)
3
1
4
(3 − 2.6)
2
2
4
(5 − 2.6)
0
2
2
yi
xi
yi − µ y
xi − µx
2500
2500
2500
2500
2500
7500
7500
7500
7500
7500
1
1
1
3
3
1
3
3
5
5
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(1-2.6)
(1-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(5-2.6)
(5-2.6)
Tot
5
5
10
(yi − µy ) × (xj − µx ) × nij =
1
((2500 − 5000)(1 − 2.6) × 3 + (2500 − 5000)(3 − 2.6) × 2+
10
+ (7500 − 5000)(1 − 2.6) × 1 + (7500 − 5000)(3 − 2.6) × 2+
=
+ (7500 − 5000)(5 − 2.6) × 2) =
A. Iodice ()
12000 − 2000 − 4000 + 2000 + 12000
Lezione 10
10
= 2000
Statistica
26 / 30
Esercizio regressione: distribuzione doppia di
frequenze
Lezione 10
Avendo calcolato le quantità µx = 2.6, µy = 5000, σx2 = 2.24 e
σxy = 2000, è possibile calcolare i coefficienti della retta di
regressione
A. Iodice
Regressione
lineare
semplice
Calcolo dei coefficienti
Metodo dei
minimi
quadrati
b1 =
Determinazione
della retta di
regressione
Qualità della
soluzione
trovata
=
2000
2.24
= 892.571
b0 = µy − b1 µx = 5000 − (892.571 ∗ 2.6) = 2679.315
quindi l’equazione della retta di regressione è
y = b0 + b1 x = 2679.315 + 892.571x
Outliers
Regressione su
tabella a
doppia entrata
σxy
σx2
Dunque, il valore stimato ŷi corrispondente ad un valore xi
assegnato è ŷi = b0 + b1 x.
A. Iodice ()
Lezione 10
Statistica
27 / 30
Valutazione della bontà di adattamento
Lezione 10
A. Iodice
Ricordando che
Regressione
lineare
semplice
R
Metodo dei
minimi
quadrati
R
Devr
Devy
Pn
= Pi=1
n
i=1
2
=1−
Deve
Devy
(ŷi − µy )2
(yi − µy )2
Pn
= 1 − P i=1
n
(yi − ŷi )2
2
i=1 (yi − µy )
con Devy = Devr + Deve
Qualità della
soluzione
trovata
Regressione su
tabella a
doppia entrata
=
ovvero
Determinazione
della retta di
regressione
Outliers
2
Devy =
Pn
(yi − µy )2 devianza totale
Devr =
Pn
(ŷi − µy )2 devianza di regressione
Deve =
Pn
(yi − ŷi )2 devianza dei residui
i=1
i=1
i=1
Per ottenere R2 , misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo
2
già calcolato σy
.
A. Iodice ()
Lezione 10
Statistica
28 / 30
Calcolo della devianza dei residui
Lezione 10
A. Iodice
Regressione
lineare
semplice
Deve =
Metodo dei
minimi
quadrati
Determinazione
della retta di
regressione
Pn
i=1
(yi − ŷi )2 devianza dei residui
in base alla retta di regressione stimata, i valori ŷi stimati in funzione
dei valori xi sono
Qualità della
soluzione
trovata
ŷ1 = b0 + b1 x1 = 2679.315 + 892.571 × 1 = 3571.886
ŷ2 = b0 + b1 x2 = 2679.315 + 892.571 × 3 = 5357.028
ŷ3 = b0 + b1 x3 = 2679.315 + 892.571 × 5 = 7142.17
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 10
Statistica
29 / 30
Calcolo della devianza dei residui
Per calcolare i residui yi − ŷi nel caso di tabella a doppia entrata si procede come segue
Lezione 10
A. Iodice
yi /ŷj
y1 = 2500
y2 = 7500
Tot
Regressione
lineare
semplice
Metodo dei
minimi
quadrati
Deve =
Ph
i=1
ŷ1 = 3571.886
3
1
4
Pk
i=1
ŷ2 = 5357.028
2
2
4
ŷ3 = 7142.17
0
2
2
Tot
5
5
10
((yi − ŷj )2 ) × nij devianza dei residui per tabella doppia
calcolo della devianza dei residui
Determinazione
della retta di
regressione
Deve =
h X
k
X
2
2
2
((yi − ŷj ) ) × nij = ((2500 − 3571.886) ) × 3 + ((2500 − 5357.028) ) × 2+
i=1 j=1
Qualità della
soluzione
trovata
2
2
2
+ ((7500 − 3571.886) ) × 1 + ((7500 − 5357.028) ) × 2 + ((7500 − 7142.17) ) × 2 =
= 44642859
Outliers
Regressione su
tabella a
doppia entrata
devy =
n
X
2
(yi − µy )
2
= σy × n = 6250000 × 10 = 62500000
i=1
R
A. Iodice ()
2
=1−
deve
devy
Lezione 10
= 1 − 0.71 = 0.29
Statistica
30 / 30