La regressione come strumento di sintesi delle relazioni

Università degli Studi di Genova
Dipartimento di Economia
La regressione come strumento di sintesi delle
relazioni tra variabili
Enrico di Bella
([email protected])
L’analisi bivariata
L’analisi congiunta dei fenomeni è un procedura
molto comune, che consente di esprimere il legame
esistente tra due fenomeni.
Ad esempio, si supponga di rilevare Statura (Y in cm)
e Peso corporeo di 30 studenti di una classe.
L’analisi bivariata
I dati, una volta raccolti, si presentano di non agevole
lettura:
SOGGETTI
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
P
S
SOGGETTI
P
S
65
72
80
68
72
80
65
68
72
68
65
68
72
68
68
168
182
190
174
174
182
168
174
182
168
168
168
182
174
174
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
65
72
65
68
80
68
72
65
65
80
68
72
80
65
80
182
190
174
174
190
174
174
168
174
174
168
182
190
168
182
L’analisi bivariata
Spesso quindi si preferisce utilizzare una sintesi dei
dati attraverso una tabella a doppia entrata:
S
P
168
174
182
190
Totale
65
68
72
80
5
3
0
0
2
6
2
1
1
0
4
2
0
0
1
3
8
9
7
6
Totale
8
11
7
4
30
L’analisi bivariata
La tabella a doppia entrata consente di studiare sia le
distribuzioni marginali di statura e peso:
S
P
168
174
182
190
Totale
65
68
72
80
5
3
0
0
2
6
2
1
1
0
4
2
0
0
1
3
8
9
7
6
Totale
8
11
7
4
30
che la distribuzione congiunta dei due fenomeni:
S
P
168
174
182
190
Totale
65
68
72
80
5
3
0
0
2
6
2
1
1
0
4
2
0
0
1
3
8
9
7
6
Totale
8
11
7
4
30
L’analisi bivariata
Sovente, tuttavia, la rappresentazione dei dati in
tabelle di frequenza non è agevole in quanto il
numero di modalità in cui si possono presentare i
fenomeni sono estremamente numerosi e ci si può
trovare di fronte a tabelle sparse, cioè popolate
prevalentemente da zero.
L’analisi bivariata
Ad esempio:
SOGGETTI
P
S
SOGGETTI
P
S
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
64
64
80
65
66
66
66
67
67
68
69
69
70
71
71
160
153
170
152
150
154
156
154
156
157
161
161
158
158
158
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
71
71
73
73
73
73
74
74
75
75
76
77
78
80
82
163
165
164
162
164
169
166
170
169
171
173
174
174
182
177
L’analisi bivariata
Ad
esempio,
la
tabella
corrispondente è la seguente:
a
doppia
entrata
Stature
150 152 153 154 156 157 158 160 161 162 163 164 165 166 169 170 171 173 174 177 182
64 0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
65 0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
66 1
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
67 0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
68 0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
69 0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
70 0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
71 0
0
0
0
0
0
2
0
0
0
1
0
1
0
0
0
0
0
0
0
0
Pesi
73 0
0
0
0
0
0
0
0
0
1
0
2
0
0
1
0
0
0
0
0
0
74 0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
75 0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
76 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
77 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
78 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
80 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
82 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
L’analisi bivariata
La quale, se andiamo a ricercare le celle in cui le
frequenze sono non nulle, rivela la seguente struttura:
Stature
150 152 153 154 156 157 158 160 161 162 163 164 165 166 169 170 171 173 174 177 182
64 0
0
1
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
65 0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
66 1
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
67 0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
68 0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
69 0
0
0
0
0
0
0
0
2
0
0
0
0
0
0
0
0
0
0
0
0
70 0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
71 0
0
0
0
0
0
2
0
0
0
1
0
1
0
0
0
0
0
0
0
0
Pesi
73 0
0
0
0
0
0
0
0
0
1
0
2
0
0
1
0
0
0
0
0
0
74 0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
0
75 0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
1
0
0
0
0
76 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
77 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
78 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
80 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
82 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
L’analisi bivariata
Potremmo andare a utilizzare tabelle per classi di
intervallo, ma in generale si preferisce studiare i dati nella
loro forma originaria ricorrendo ai diagrammi di
dispersione (scatter plot):
65
70
pesi
75
80
Diagramma di dispersione dei dati
150
155
160
165
stature
170
175
180
L’analisi bivariata
Per riprodurlo in R è sufficiente scrivere:
NB: In R quando si va a capo con un invio automaticamente il
simbolo > viene sostituito con un + ad indicare che il comando
non è ancora stato concluso.
L’analisi bivariata
Altri comandi di R
La covarianza
Il primo indice che può essere calcolato per valutare il legame tra due
fenomeni quantitativi X e Y è la COVARIANZA (indicata con COV(X,Y)
oppure XY) cioè la media aritmetica del prodotto degli scarti delle intensità
dalla propria media (momento misto centrale di secondo ordine):
essendo:
N il numero totale delle osservazioni
Xi il valore assunto dal carattere X sulla i-ma unità
Yi il valore assunto dal carattere Y sulla i-ma unità
X la media aritmetica del carattere X
P la media aritmetica del carattere Y
La covarianza
Riprendiamo l’esempio di Peso (P) e Statura (S) e aggiungiamo al
grafico una linea verticale e una orizzontale in corrispondenza
delle due medie P e S
65
70
pesi
75
80
Diagramma di dispersione dei dati
150
155
160
165
stature
170
175
180
La covarianza
In R per ottenere quanto visualizzato è sufficiente digitare:
La covarianza
Come si può vedere, rispetto a questi nuovo riferimento si
identificano 4 quadranti:
II quadrante
I quadrante
70
pesi
75
80
Diagramma di dispersione dei dati
III quadrante
65
IV quadrante
150
155
160
165
stature
170
175
180
La covarianza
Come si può vedere, rispetto a questi nuovo riferimento si
identificano 4 quadranti:
65
70
pesi
75
80
Diagramma di dispersione dei dati
150
155
160
165
stature
170
175
180
La covarianza
Pertanto:
Quando vi è un eccesso di punti nel primo e terzo quadrante
rispetto a quelli nel secondo e quarto la covarianza è positiva.
Viceversa, quando vi è un eccesso di punti nel secondo e quarto
quadrante rispetto a quelli nel primo e terzo la covarianza è
negativa.
La covarianza
COVARIANZA NEGATIVA
10
10
20
20
y
y
30
30
40
40
COVARIANZA POSITIVA
5
10
x
15
20
5
10
x
15
20
La covarianza
La covarianza può essere anche nulla, quando gli scarti positivi
e negativi si compensano. Tale situazione può essere legata a
caratteristiche di non co-variazione dei fenomeni, ma anche si
presenta anche in casi in cui la co-variazione è presente ma non
lineare. Esempi:
COVARIANZA NULLA
15
y
10
0
5
-1
0
-2
y
1
20
2
25
COVARIANZA NULLA
-2
-1
0
1
x
2
3
-4
-2
0
x
2
4
Alcune note
Ovviamente:
Inoltre:
21
Alcune note
Da cui si ricava anche che:
22
La covarianza
Ricorrendo alla diseguaglianza di Cauchy-Schwartz:
2
N

 N 2  N 2
  a i bi     a i    bi 
 i 1

 i 1   i 1 
si ricava che:

N
)


y
)(


x
(

Y
i
X
i



 i 1
N2
2
N
 i 1
N

(
x


)(
y


)

i
X
i
Y 

i

1


2
N
N
  x i   X   ( y i  Y ) 2
2
i 1
N
2
= XY  X Y
N
La covarianza
Da cui:
| XY|   X  Y
 X Y  XY  + X Y
1
 XY
+1
 X Y
 X Y
 XY
 X Y



 X Y  X Y  X Y
1
 XY
+1
 X Y
Il coefficiente di correlazione
La quantità:
 XY
=
 X Y
Detta coefficiente di correlazione, rappresenta l’intensità del
legame esistente tra due fenomeni.
-1 < < 0
=0
0< <1
=1
80
70
y
70
80
50
10
60
15
60
y
y
20
30
20
y
30
20
10
10
y
40
25
40
90
50
90
30
= -1
5
10
x
15
20
5
10
x
15
20
5
10
x
15
20
5
10
x
15
20
5
10
x
15
20
I modelli di regressione
Valutata la sussistenza di un legame di dipendenza tra i
fenomeni può essere utile trovare una sua sintesi matematica.
Ad esempio:
Peso = a + b Statura (retta di regressione)
Peso = a + b Statura + c  Statura2 (parabola di regressione)
Peso = a + b Statura + c  Ore_di_attività_sportiva (piano di
regressione)
I modelli di regressione
Il principio di fondo che sottosta a concetto di regressione è che
nello studio dei fenomeni è possibile riscontrare della
dispersione, della variabilità che misuriamo attraverso la
varianza.
Perché un certo fenomeno assume valori differenti?
L’analisi di regressione ricerca le cause di questa variabilità
imputando a queste una quota parte della variabilità del
fenomeno dipendente.
I modelli di regressione
Siano Y una variabile detta dipendente ed X un’altra variabile
detta indipendente, o esplicativa.
Se si osserva che i due fenomeni Y ed X sono tra loro collegati è
possibile immaginare che esista tra loro un legame di questa
natura:
𝑌 =𝑓 𝑋 +𝑒 =𝑌+𝑒
Ovvero: i valori assunti dal fenomeno dipendente, sono legati ai
valori che assume il fenomeno indipendente, con una
componente residuale dovuta ad altre cause.
I modelli di regressione
Per esempio:
Variabile dipendente
Variabile/variabili
indipendenti
Altre ragioni
Peso
Statura
Tipologia di alimentazione,
problemi di salute, ore di
sport praticato
settimanalmente, problemi
psicologici, …
Numero di viaggiatori negli
aeroporti
Giorno della settimana, essere
in un periodo di festività o di
ferie, ciclo economico
Viaggi per ritrovare
parenti, promozioni in atto
sui prezzi dei biglietti, …
Vendite di un prodotto
Investimenti in marketing
Posizionamento del
prodotto a scaffale, prezzo
del prodotto rispetto ai
concorrenti, …
I modelli di regressione
Quali che siano le ragioni ritenute più utili per spiegare la
variabilità di Y, una volta che sono state specificate sotto forma
di variabili indipendenti, tutto ciò che viene escluso dal modello
è ERRORE, residuo dovuto a ragioni che non siamo riusciti per
vari motivi ad includere nel modello:
Se ho ben individuato le cause della variazione di
residuo della regressione sarà piccolo. Viceversa,
variabili che ho individuato per spiegare (ecco
chiamano anche esplicative) la variabilità di Y sono
tal fine, la componente d’errore sarà grande.
Y allora il
se la o le
perché si
inefficaci a
La retta di regressione
La retta di regressione è il modello più semplice per spiegare la
dipendenza di un fenomeno (Y) da un altro (X).
Consideriamo il solito scatter plot di Statura e Peso.
65
70
pesi
75
80
Diagramma di dispersione dei dati
150
155
160
165
stature
170
175
180
La retta di regressione
Le rette su un piano che esprimano il legame di dipendenza di Y
da X sono infinite, a meno che non venga definito un criterio di
ottimalità:
65
70
pesi
75
80
Diagramma di dispersione dei dati
150
155
160
165
stature
170
175
180
La retta di regressione
Questo criterio è la celebre condizione di accostamento dei
minimi quadrati ordinari (MQO - OLS):
Qualunque sia il modello rappresentato da
questa condizione
consente di trovare il valore dei parametri che soddisfa il
precedente vincolo.
La retta di regressione
La condizione OLS specifica di trovare la retta di regressione tale
da rendere minima la somma dei quadrati delle distanze qui
rappresentate:
65
70
pesi
75
80
Diagramma di dispersione dei dati
150
155
160
165
stature
170
175
180
La retta di regressione
Quindi si ha che:
Che è una quantità nota a meno dei due parametri a e b. E
possibile dimostrare che questa quantità è convessa e quindi il
suo minimo viene raggiunto ponendo uguali a zero le due
derivate parziali, rispetto ad a e a b:
La retta di regressione
La retta di regressione
Ricordando che:
La retta di regressione
La retta di regressione
i
1
2
3
4
si
160
153
170
152
pi
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
150
154
156
154
156
157
161
161
158
158
158
163
165
164
162
164
169
166
170
169
171
173
174
174
182
177
66
66
66
67
67
68
69
69
70
71
71
71
71
73
73
73
73
74
74
75
75
76
77
78
80
82
TOTALI
64
64
80
65
s i -  S p i -  P (s i -  S )(p i -  P ) (s i -  S )2 (p i -  P )2
-3,37 -7,60
25,59
11,33
57,76
-10,37 -7,60
78,79
107,47
57,76
6,63
8,40
55,72
44,00
70,56
-11,37 -6,60
75,02
129,20
43,56
-13,37
-9,37
-7,37
-9,37
-7,37
-6,37
-2,37
-2,37
-5,37
-5,37
-5,37
-0,37
1,63
0,63
-1,37
0,63
5,63
2,63
6,63
5,63
7,63
9,63
10,63
10,63
18,63
13,63
0,00
-5,60
-5,60
-5,60
-4,60
-4,60
-3,60
-2,60
-2,60
-1,60
-0,60
-0,60
-0,60
-0,60
1,40
1,40
1,40
1,40
2,40
2,40
3,40
3,40
4,40
5,40
6,40
8,40
10,40
0,00
Medie
74,85
52,45
41,25
43,09
33,89
22,92
6,15
6,15
8,59
3,22
3,22
0,22
-0,98
0,89
-1,91
0,89
7,89
6,32
15,92
19,15
25,95
42,39
57,42
68,05
156,52
141,79
1071,40
35,71
COV(S,P)
178,67
87,73
54,27
87,73
54,27
40,53
5,60
5,60
28,80
28,80
28,80
0,13
2,67
0,40
1,87
0,40
31,73
6,93
44,00
31,73
58,27
92,80
113,07
113,07
347,20
185,87
1922,97
64,10
VAR(S)
31,36
31,36
31,36
21,16
21,16
12,96
6,76
6,76
2,56
0,36
0,36
0,36
0,36
1,96
1,96
1,96
1,96
5,76
5,76
11,56
11,56
19,36
29,16
40,96
70,56
108,16
707,20
23,57
VAR(P)
 S = 163,3667
P =
71,6
a= -19,4214
b= 0,55716
65
70
pesi
75
80
La retta di regressione
150
155
160
165
stature
170
175
180
La bontà della retta di regressione
è quella parte di variabilità di Y che è spiegabile
attraverso il legame di dipendenza da X specificato dal modello.
è quella parte di variabilità di Y che non è interpretabile
attraverso il legame di dipendenza ma è dovuto ad altre cause
residuali.
La bontà della retta di regressione
75
65
70
pesi
80
Scatterplot dei valori osservati
150
155
160
165
170
175
180
stature
0
-6 -4 -2
^
P P
2
4
Scatterplot dei residui di regressione
150
155
160
165
stature
170
175
180
La bontà della retta di regressione
Un modello sarà tanto migliore quanto più i valori teorici si
avvicinano a quelli reali.
modello meno buono
-50
0
50 100
Y
50
Y
100
150
200
modello buono
0
5
10
15
X
20
25
30
0
5
10
15
X
20
25
30
La bontà della retta di regressione
La bontà di un modello può essere valutata tramite il rapporto
tra la varianza spiegata dal modello stesso e la varianza totate,
quantità detta coefficiente di determinazione:
R2 = 0 indica che il modello non spiega nulla della variabilità di
Y le cui ragioni vanno ricercate nella componente residuale
(errore)
R2 = 1 indica che il modello spiega perfettamente la variabilità di
Y e che quindi, conoscendo X siamo perfettamente in grado di
conoscere Y.
Un buon modello è tale per cui R2 > 0.8
La bontà della retta di regressione
Si osservi che:
Altri modelli lineari
La classe dei modelli lineari può essere abbondantemente
estesa:
I parametri di questi modelli possono essere stimati ricorrendo
alla condizione di accostamento dei minimi quadrati ordinari.
Altri modelli lineari
Le formule per il calcolo dei coefficienti non sono più
agevolmente risolvibili per sostituzione e quindi il sistema di
equazioni normali viene risolto ricorrendo al calcolo matriciale.
Altri modelli lineari
Ad esempio, nel caso del piano di regressione
la
condizione di accostamento dei minimi quadrati ordinari porta
a:
N
 f
  2  y i  a  bx i  cz i   0
i 1
 a
N
 f
  2  y i  a  bx i  cz i  x i  0
i 1
 b
N
 f
 y i  a  bxi  cz i  z i  0
 c  2
i 1

N
N
N
  y i  Na  b  x i  c  z i
i 1
i 1
iN1
N
N
N

2
 x i y i  a  xi  b x i  c  x i z i
i 1
i 1
i 1
iN1
N
N
N

y i z i  a  z i  b  x i z i  c  z i2
i
i 1
i 1
i 1
 1

 Z2 XY   XZ  YZ
 X2  YZ   XY  XZ
 Z
a   Y   X  2  2   2
2
 X2  Z2   XZ
X Z
XZ

 Z2 XY   XZ  YZ

b 
2
2
2




X
Z
XZ

 X2  YZ   XY  XZ

c   2  2   2

X Z
XZ
Altri modelli lineari
In R, comunque, la sintassi rimane estremamente semplice. Ad
esempio avendo 5 variabili esplicative (X1, X2, X3, X4, X5),
scriviamo e una dipendente (Y), scriviamo:
lm(Y ~ X1 + X2 + X3 + X4 + X5)
ricavando intercetta e i 5 coefficienti del modello:
Cenni di inferenza
Intuitivamente si può ben comprendere che anche i parametri
dei modelli di regressione e tutta l’analisi di correlazione
collegata siano oggetto di analisi inferenziali. Ad ogni campione
proveniente dalla popolazione corrispondono valori diversi e
quindi anche diversi valori dei parametri.
Cenni di inferenza
Intuitivamente si può ben comprendere che anche i parametri
dei modelli di regressione e tutta l’analisi di correlazione
collegata siano oggetto di analisi inferenziali. Ad ogni campione
proveniente dalla popolazione corrispondono valori diversi e
quindi anche diversi valori dei parametri.
Ad esempio: generiamo 6 campioni di ampiezza 10 dalla
popolazione di 30 unità.
Sulla base dei dati raccolti calcoliamo i coefficienti della retta e
confrontiamo graficamente i risultati.
In rosso sono rappresentati i valori campionati mentre in grigio
quelli non campionati.
Cenni di inferenza
160
165
170
175
180
75
150
155
160
165
170
175
180
150
165
170
Campione 4
Campione 5
Campione 6
165
170
stature
175
180
180
175
180
75
65
70
pesi
75
65
70
pesi
75
70
160
175
80
stature
65
155
160
stature
pesi
150
155
stature
80
155
80
150
65
70
pesi
75
65
70
pesi
65
70
pesi
75
80
Campione 3
80
Campione 2
80
Campione 1
150
155
160
165
170
stature
175
180
150
155
160
165
170
stature
Cenni di inferenza
75
65
70
pesi
65
70
pesi
75
80
10 campioni di ampiezza 5
80
Dati Originali
150 155 160
165 170
175 180
150
155 160 165
170 175 180
10 campioni di ampiezza 10
10 campioni di ampiezza 15
75
65
70
pesi
65
70
pesi
75
80
stature
80
stature
150 155 160
165 170
stature
175 180
150
155 160 165
170 175 180
stature
Cenni di inferenza
75
65
70
pesi
65
70
pesi
75
80
1000 campioni di ampiezza 10
80
1000 campioni di ampiezza 5
150 155 160
165 170
175 180
150
155 160 165
170 175 180
1000 campioni di ampiezza 15
1000 campioni di ampiezza 20
75
65
70
pesi
65
70
pesi
75
80
stature
80
stature
150 155 160
165 170
stature
175 180
150
155 160 165
170 175 180
stature