Regressione e correlazione
Corso di statistica sociale
prof. Natale Carra - Università degli Studi di Bergamo – a.a. 2005-06
Regressione
„
„
Questo modello di analisi bivariata esamina
le relazioni fra coppie di variabili continue.
Un utile strumento per approcciare il modello
è quello di visualizzare le modalità in cui due
variabili continue covariano.
Il diagramma di dispersione
„
Costruito un
diagramma cartesiano,
poniamo i valori della
variabile indipendente
sull’asse X e quelli della
variabile dipendente su
Y
Y
X
Il diagramma di dispersione
„
In corrispondenza delle
coordinate X e Y si
traccia un punto
Y
X
Il diagramma di dispersione
„
L’insieme di questi
rappresenta le modalità
di covariazione
Y
X
Esempio per la regressione - tabella
Arrivi e presenze negli esercizi ricettivi per residenza dei clienti e provincia - 2002
Province
Permanenza italiani
Permanenza stranieri
Torino
3,21
3,06
Vercelli
5,13
3,06
Biella
3,41
2,96
Verbano-Cusio-Ossola
3,28
3,98
Novara
3,10
2,68
Cuneo
3,42
2,52
……..
……..
Ragusa
3,53
6,65
Siracusa
3,67
2,83
Sassari
5,47
5,23
Nuoro
6,78
6,14
Oristano
3,58
3,16
Cagliari
5,18
5,19
…………
Esempio per la regressione - grafico
Arrivi e presenze negli esercizi ricettivi per residenza dei clienti e provincia - 2002
11
10
9
Stranieri
8
7
6
5
4
3
2
1
1
2
3
4
5
6
Italiani
7
8
9
10
11
Regressione (lineare) bivariata
„
„
„
„
Le relazioni fra coppie di variabili continue
sono postulate lineari
In termini algebrici, l’equazione lineare è:
Y = a + bX
dove:
a corrisponde al punto in cui la retta incrocia
l’asse cartesiano verticale (Y)
b esprime l’inclinazione della retta
Equazione predittiva
„
Il valore assunto dalla variabile dipendente
per ciascuna osservazione i, è funzione
lineare esatta del corrispondente valore della
variabile indipendente.
Yˆi = a + bYX X i
Modello di regressione lineare
„
I dati empirici non seguono mai relazioni
lineari perfette, dunque:
Yi = a + bYX X i + ei
„
„
L’errore ei rappresenta la porzione del valore
Y in i non predetta dalla sua relazione lineare
con X.
L’errore ei è detto anche residuo.
Modello di regressione lineare
„
L’errore ei è detto anche residuo perché:
Yi − Yˆi = [a + bYX X i + ei ] − [a + bYX X i ] = ei
„
„
L’analisi di regressione stima i valori di a e b
utilizzando i dati osservati.
Compito del modello è minimizzare i residui
Stima dell’equazione
„
Criterio dei minimi quadrati
∑(
N
i =1
„
Yi − Yˆi
) = ∑e
2
N
i =1
2
i
La somma delle differenze (al quadrato) deve
essere minima.
Coefficiente di regressione
„
La stima dei minimi quadrati per il
coefficiente di regressione bivariata è
calcolato così:
bYX
(
Y − Y )(X − X )
∑
=
∑ (X − X )
i
i
2
i
Intercetta
„
La stima dell’intercetta è più semplice e si
ricava conoscendo il coefficiente e le medie
delle N osservazioni disponibili:
a = Y − bYX X
L’esempio di applicazione
Province
Permanenza italiani
Permanenza stranieri
Torino
3,21
3,06
Vercelli
5,13
3,06
Biella
3,41
2,96
Verbano-Cusio-Ossola
3,28
3,98
Novara
3,10
2,68
Cuneo
3,42
2,52
……..
……..
Ragusa
3,53
6,65
Siracusa
3,67
2,83
Sassari
5,47
5,23
Nuoro
6,78
6,14
Oristano
3,58
3,16
Cagliari
5,18
5,19
X = 4,37
Y = 4,00
…………
L’esempio di applicazione
(Y − Y )(X
)
(X
)
Province
Xi − X
Yi − Y
Torino
-0,99
-1,05
1,04
0,99
Vercelli
0,93
-1,05
-0,97
0,86
Biella
-0,79
-1,15
0,91
0,63
Verbano-Cusio-Ossola
-0,92
-0,13
0,12
0,85
Novara
-1,10
-1,43
1,57
1,21
Cuneo
-0,78
-1,59
1,24
0,61
Ragusa
-0,67
2,54
-1,71
0,45
Siracusa
-0,53
-1,28
0,68
0,28
Sassari
1,27
1,13
1,42
1,60
Nuoro
2,58
2,03
5,24
6,64
Oristano
-0,63
-0,95
0,60
0,39
Cagliari
0,98
1,08
1,06
0,96
227,41
267,81
i
i − X
i − X
2
…………
L’esempio di applicazione - risultati
bYX
(
Y − Y )(X − X )
∑
=
= 0,8491
∑ (X − X )
i
i
2
i
a = Y − bYX X = 0,540
Yˆi = 0,540 + 0,8491X i
Coefficiente di regressione
„
Il numeratore di bYX diviso per N – 1
determina la covarianza, indicata come sYX :
sYX
„
(
Y − Y )(X
∑
=
i
i
−X
)
N −1
Il denominatore di bYX diviso per N – 1
determina la varianza, indicata come s2X :
s
2
X
(
X
∑
=
i
−X
N −1
)
2
Coefficiente di regressione
„
Poiché N – 1 compare al denominatore di
covarianza e varianza, nel rapporto di
queste viene eliminato
sYX
=
2
sX
„
∑ (Y − Y )(X − X )(N − 1)
∑ (X − X ) (N − 1)
i
i
2
i
Allora lo stimatore può essere così espresso:
bYX
sYX
= 2
sX