Lucidi - Lo studio della relazione lineare tra due variabili

Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Lo studio della relazione lineare tra
due variabili
X e Y caratteri entrambi quantitativi
X
Y
variabile indipendente
variabile dipendente
y * = f (x )
f(x): espressione funzionale che descrive la
legge di dipendenza di Y da X
1
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Diagramma di dispersione
Y
.
yj
xj
{ x j , y j ; j = 1,2,..., n }
X
Modello di dipendenza lineare
y * = b0 + bYX x
b0
bYX
ordinata all’origine (o termine noto)
coefficiente angolare della retta
2
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Quale retta si adatta meglio alla nube di
punti?
Y
X
Quale retta si adatta meglio alla nube di
punti?
Y
X
3
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Quale retta si adatta meglio alla nube di
punti?
Y
X
Criterio di accostamento: metodo dei minimi
quadrati
yj ordinata empirica di ascissa xj
y *j = b0 + bYX x j ordinata teorica di ascissa xj
∑ (y
n
j =1
=
j
− y *j
)
2
=
n
∑ (y
j
− b0 − bYX x j
)2 = min
j =1
4
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Diagramma di dispersione e retta di
regressione dei minimi quadrati
Y
+ b YX
b
0
=
y*
yj
x
.
yj*
b0
xj
X
b0 = y − bYX x
∑ (y
n
∑
bYX
=
j =1
n
∑
j =1
=
)(
n
x j y j − nx y
x 2j
− nx
2
=
j
− y xj − x
j =1
∑ (x
n
j
−x
)
2
)
=
j =1
Codev (X , Y ) Cov (X , Y )
=
Dev (X )
V (X )
5
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Codev (X,Y) > 0
prevalgono i prodotti tra scarti di segno uguale:
(+ ) ⋅ (+ )
(− ) ⋅ (− )
concordanza
Codev (X,Y) < 0
prevalgono i prodotti tra scarti di segno opposto:
(+ ) ⋅ (− )
(− ) ⋅ (+ )
discordanza
bYX coefficiente di regressione
Indica di quanto varia in media la variabile dipendente
Y per ogni variazione unitaria positiva di X
Ha il segno algebrico della codevianza
bYX > 0
bYX < 0
bYX = 0
retta ascendente
retta discendente
retta parallela all’asse delle ascisse
Se Y è linearmente indipendente da X,
la retta dei minimi quadrati è
y =y
6
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
bYX > 0 retta ascendente
bYX < 0 retta discendente
7
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
bYX = 0 retta
parallela
all’asse
delle
ascisse
Y
yj
y *j
y
X
xj
8
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Scomposizione della devianza di Y
Dev(Y )tot = Dev(Y )disp + Dev(Y )regr
∑ (y
j
j
−y
)
2
=
∑ (y
j
j
− y *j
) + ∑ (y
2
j
*
j
−y
)
2
R2 : indice di determinazione lineare
R2 =
Dev(Y )regr
Dev(Y )tot
=1−
Dev(Y )disp
Dev(Y )tot
0 ≤ R2 ≤ 1
R2 : indica la frazione della variabilità di
Y attribuibile alla dipendenza lineare da X
9
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
R2 : indice di determinazione lineare
R2 = 0
se
Dev(Y )regr = 0
R2 = 1
se
Dev(Y )disp = 0
(tutta la variabilità di Y è dovuta alla
dipendenza lineare da X e la devianza di
dispersione è nulla)
y* = 10892 x + 3230
R 2 = 0,3347
Reddito familiare annuo
120000
100000
80000
60000
40000
20000
0
0
2
4
6
8
Numero componenti
10
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Equazione della retta di regressione
Y*=3230 + 10892 X
Per ogni incremento unitario del numero di
componenti, il reddito familiare aumenta in
media di 10892 euro.
R2=0,3347
Il 33,47% della variabilità totale del reddito
familiare annuo (Y) è “spiegata” dalla sua
relazione lineare con il numero di componenti
(X).
Qual è il reddito che in media ci si attende per
una famiglia di 3 componenti?
Y*=3230 + 10892 · 3 = 35 906
Le famiglie con 3 componenti presenti nel collettivo
hanno i seguenti redditi annui:
€ 50245
€ 42019
€ 12568
11
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
X:
Y:
variabile dipendente
variabile indipendente
b0' = x − bXY y
n
bXY
=
∑ x j y j − nx y
j =1
n
∑y
j =1
=
2
j
− ny
2
∑ (y
n
=
j =1
j
)(
− y xj − x
∑ (y
n
j =1
j
−y
)
2
)
=
Codev (X ,Y ) Co var (X ,Y )
=
Dev (Y )
V (Y )
bxy e byx
I due coefficienti angolari hanno lo stesso
segno algebrico, dato dalla codevianza, e
differiscono
per
effetto
della
diversa
variabilità dei due caratteri.
Se byx=0 si ha anche bxy=0
Se Y è linearmente indipendente da X, anche
X è quindi linearmente indipendente da Y
(vale anche il viceversa)
12
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Grafico delle rette
x * = b0' + bXY y
Y
y
y * = b0 + bYX x
x
X
Coefficiente di correlazione lineare r
E’ un indicatore simmetrico della relazione
lineare tra Y e X rispetto al quale i ruoli di
variabile indipendente e variabile dipendente
perdono di significato
r =
=
Codev (X ,Y )
Dev (X ) ⋅ Dev (Y )
Co var (X ,Y )
−1 ≤ r ≤ +1
V (X ) ⋅ V (Y )
13
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Coefficiente di correlazione lineare r
L’indice r è il rapporto tra la codevianza e il
massimo valore che essa può assumere
Ha il segno algebrico della codevianza
Risulta inoltre:
r =
bYX ⋅ bXY
Nel modello di regressione lineare semplice vale
la relazione
R2 = r 2
Coefficiente di correlazione lineare r
r = +1 perfetta correlazione lineare positiva
tra X e Y; punti empirici tutti allineati su una
sola retta ascendente
r = -1 perfetta correlazione lineare negativa;
punti empirici tutti allineati su una sola retta
discendente
r = 0 assenza di correlazione lineare; rette di
regressione
ortogonali
tra
loro,
con
coefficienti angolari entrambi uguali a 0:
caratteri linearmente indipendenti
14
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
r = +1 perfetta correlazione lineare positiva tra
X e Y; punti empirici tutti allineati su una sola
retta ascendente
r = -1 perfetta correlazione lineare negativa;
punti empirici tutti allineati su una sola retta
discendente
15
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
r = 0 assenza di correlazione lineare
rette di regressione ortogonali tra loro, con
coefficienti angolari entrambi uguali a 0
Caratteri linearmente indipendenti
0 < r < +1
tendenziale correlazione positiva tra X e Y;
rette di regressione entrambe ascendenti;
coefficienti di regressione positivi (quanto più
essi si riducono, tanto più le rette si aprono a
forbice, espressione dell'attenuarsi della
relazione lineare tra le variabili)
-1 < r < 0
tendenziale correlazione negativa tra X e Y;
rette di regressione entrambe discendenti:
coefficienti di regressione negativi (l'angolo
racchiuso dalle due rette è tanto minore
quanto più si accentua la correlazione
negativa)
16
Marilena Pillati - Seminari di Statistica (SVIC)
"Lo studio della relazione lineare tra due variabili"
Esempio
La correlazione tra il reddito familiare e il
numero di componenti è r = 0.58
Infatti
r = 10892 ⋅ 0.000031 = 0.58
Problema
Siano X e Y due caratteri quantitativi.
In un insieme di unità, la retta di regressione
di Y su X è risultata:
y=3+2x
Quale delle seguenti rette può esprimere la
relazione tra X e Y?
(a) x = −
1
y − 3 (b) x = −2y + 3
2
(c ) x = 1.2y − 3
(d ) x = 0.2y − 3
17