regressione e correlazione - UniFI

annuncio pubblicitario
Modelli statistici
La relazione tra
variabili può essere
studiata per mezzo di
‘modelli statistici’
Regressione
Cicchitelli Cap. 10
1 variabile (es. peso)
2 variabili (peso-altezza)
Quanto ci si discosta
da un valore ‘tipico’
Quanto ci si discosta da
una relazione sistematica
modello
88
86
modello
peso
84
82
peso
80
78
altezza
76
1
Statistica 2010/2011
Cinquecento 700 ED
Panda 1.0 i.e. L.
Uno Fire 1.0 i.e 3P
Tipo 1.4 i.e.
Tempra 1.4 e.e.
Croma 2.0
PESO PREZZO
(kg) (mil lire)
690
9697
715
11071
770
13041
990
17580
1040
20549
1250
29366
35000
30000
Peso e prezzo
dei modelli base
della FIAT,
marzo 1993
35000
30000
Autovettura
Cinquecento 700 ED
Panda 1.0 i.e. L.
Uno Fire 1.0 i.e 3P
Tipo 1.4 i.e.
Tempra 1.4 e.e.
Croma 2.0
Fonte: Gente Motori, febbraio 1993
179
180
181
182
183
184
185
186
2
PESO PREZZO
(kg) (mil lire)
690
9697
715
11071
770
13041
990
17580
1040
20549
1250
29366
25000
20000
errore
15000
10000
5000
costi fissi
25000
20000
PACE L. e SALVAN A., 1996,
Introduzione alla Statistica - I
Statistica Descrittiva, CEDAM,
Padova
178
Esempio: le automobili si vendono a peso?
PREZZO
Autovettura
177
PREZZO
Esempio: le automobili si vendono a peso?
Statistica 2010/2011
74
b
a
0
500
PESO
600
700
800
900
1000
1100
1200
1300
prezzo=a+b*(peso-500)+errore
15000
10000
parte sistematica
5000
PESO
0
500
600
700
800
900
1000
1100
1200
130
3
Statistica 2010/2011
scostamento dovuto
ad altri ‘fattori’
4
Esempio di relazione lineare crescente
Sintesi
tramite
funzioni
analitiche
„
„
Equazione della retta: Y = β0+β1X
La relazione tra due
variabili numeriche
può essere
sintetizzata con una
funzione matematica
(retta, parabola,
logaritmo …)
La retta è la
funzione più
semplice da
adattare ai dati e da
interpretare
β1 =
β0 è l’intercetta, cioè il punto in cui la retta interseca l’asse
di Y (valore di Y quando X=0)
β1 è la pendenza o coefficiente angolare o rapporto
incrementale (variazione in Y quando X aumenta di 1)
Levine, Krehbiel, Berenson - Statistica II ed.© 2006 Apogeo
5
Regressione lineare semplice
„
ΔY
ΔX
6
Regressione lineare semplice
REGRESSIONE: metodo per studiare come una
variabile di risposta (detta anche variabile
dipendente) Y dipende da una o più variabili
esplicative (dette anche variabili indipendenti o
regressori)
„
„
… In
uno studio sui fattori che influenzano la spesa
annuale per consumi di una famiglia, la variabile di
risposta è la spesa annuale per consumi, mentre le
variabili esplicative sono il reddito annuale
complessivo, il tipo di lavoro svolto dal capofamiglia, il
numero di componenti della famiglia, …
Statistica 2010/2011
Statistica 2010/2011
SEMPLICE: è il caso in cui vi è una sola variabile
esplicativa Æ si tratta di un metodo bivariato perché
riguarda due variabili: una variabile di risposta Y e una
variabile esplicativa X
LINEARE: si assume che, nella popolazione, la relazione
tra la variabile di risposta Y e la variabile esplicativa X
sia di tipo lineare (= una retta); più precisamente, si
assume che per ogni valore x appartenente al range di X
il valor medio di Y condizionatamente a x, M(Y |X=x), sia
una funzione lineare di x
La regressione lineare semplice è un metodo per studiare la dipendenza di una
variabile quantitativa Y da una variabile X che può essere sia quantitativa che
qualitativa (anche se in questo corso trattiamo solo il caso di X quantitativa);
quando la risposta Y è qualitativa occorrono modelli di regressione di altro tipo
7
Statistica 2010/2011
8
Regressione lineare semplice
Regressione lineare semplice
Variabile indipendente
(esplicativa)
„
Variabile dipendente
(risposta)
y = β 0 + β1 x + ε
Parte sistematica
Parte accidentale
(segnale)
(rumore)
L’ipotesi fondamentale del modello è che l’effetto di X
sulla media di Y sia completamente catturato dalla parte
sistematica; in altri termini, che la media della parte
accidentale non dipenda da X
M (ε | X = x) = 0 ∀x
„
In alternativa
M (Y | X = x) = β 0 + β1 x ∀x
Questo modello ipotizza che la risposta y sia generata dalla somma di
• una parte sistematica (che è funzione lineare di x)
• una parte accidentale (che è puramente casuale e quindi non dipende da x)
Statistica 2010/2011
9
Statistica 2010/2011
Regressione lineare semplice
„
Interpretazione della pendenza
Il modello assume che la relazione che lega la media di
Y condizionata a X sia una funzione lineare di X (per i
valori x appartenenti al range)
…
„
Supponiamo che X assuma un certo valore x* in corrispondenza del
quale la media condizionata di Y è
M (Y | X = x* ) = β 0 + β1 x*
Y = “spesa per consumi” e X = “reddito”
„
ad ogni valore del reddito x appartenente al range
corrisponde un insieme di famiglie con una certa
distribuzione della spesa per consumi e quindi con una certa
spesa media per consumi M(Y | X=x). La teoria economica
(supportata dall’evidenza empirica) sostiene che al crescere
del reddito cresce la spesa per consumi, cioè M(Y | X=x) è
funzione crescente di x; se si usa la regressione lineare
semplice si assume che tale funzione sia lineare
Statistica 2010/2011
10
Supponiamo poi che X aumenti di 1 e quindi assuma il valore x*+1, in
corrispondenza del quale la media condizionata di Y è
M (Y | X = x* + 1) = β 0 + β1 ( x* + 1)
„
„
11
Sottraendo si ottiene
M (Y | X = x* + 1) − M (Y | X = x* ) = β1
Pertanto β1 è la variazione della media condizionata di Y conseguente
all’aumento di 1 di x, qualunque sia il valore x* di partenza
Statistica 2010/2011
12
Interpretazione della pendenza
„
„
Dal modello ai dati
L’interpretazione di β1 dipende dall’unità di misura delle
due variabili
Se X è l’altezza in cm e Y è il peso in kg allora β1 è
espresso in kg/cm perché rappresenta la variazione in kg
del peso quando l’altezza aumenta di 1 cm
Popolazione o campione di
n unità statistiche
variabili
i = 1, 2,K , n
Si aggiunge l’indice i
Unità
statistiche
Yi = β0 + β1xi +εi
Statistica 2010/2011
13
⎡ y1 ⎤
⎢M⎥
⎢ ⎥
⎢ yi ⎥
⎢ ⎥
⎢M⎥
⎢⎣ yn ⎥⎦
⎡ x1 ⎤
⎢M⎥
⎢ ⎥
⎢ xi ⎥
⎢ ⎥
⎢M⎥
⎢⎣ xn ⎥⎦
14
Statistica 2010/2011
Dati e retta di regressione stimata
stima
y
Determinare la retta di
regressione:
il metodo dei minimi quadrati
.
yˆi
yi
Statistica 2010/2011
15
.
retta stimata
β 0 ⇒ b0
β1 ⇒ b1
dati
. .
. . .
. . .. .
.
.
.
yˆi = b0 + b1 xi
.
.
b0 + b1x
ei
xi
Statistica 2010/2011
x
16
Retta di regressione stimata
Retta di regressione stimata
„
„
„
In termini geometrici: dato un diagramma di
dispersione (che rappresenta n osservazioni della coppia
di variabili in esame), qual è la retta che si adatta meglio
ai punti, che passa più “vicina” all’insieme dei punti?
„
Occorre stabilire una misura di
… distanza tra retta e insieme di punti (punto di vista geometrico)
… errore di previsione complessivo (punto di vista algebrico)
I valori x sono considerati quantità date per cui il problema della
previsione riguarda i valori y
yi = valore osservato di Y per l'unità i
yˆi = b0 + b1 xi = valore previsto di Y per l'unità i
ei = yi − yˆi = errore di previsione (scarto)
In termini algebrici: come si calcolano l’intercetta b0 e
la pendenza b1 della retta di regressione stimata in modo
che l’errore di previsione che si commette con la retta sia
il più piccolo possibile?
„
Il criterio più usato per definire la distanza tra retta e insieme di punti
o per definire l’errore di previsione complessivo è quello della
somma dei quadrati degli errori (di previsione)
n
Statistica 2010/2011
2
i
i =1
17
Minimi Quadrati (MQ)
n
∑ e = ∑ ( y − yˆ )
Retta di MQ
i =1
i
2
i
18
Statistica 2010/2011
ŷ = b0 + b1 x
n
„
„
„
La retta che rende minimo l’errore di previsione
quadratico è chiamata retta dei minimi quadrati
Le rette del piano sono infinite, ognuna individuata in
modo univoco da una coppia di valori (intercetta,
pendenza): determinare la retta dei minimi quadrati
significa determinare la coppia di valori (intercetta,
pendenza) per cui la somma dei quadrati degli errori è
minima
Da un punto di vista matematico si tratta di un problema
di minimizzazione di una funzione in due variabili; per
fortuna, la soluzione è unica ed è esprimibile con due
semplici formule
Statistica 2010/2011
C
b1 = XY =
DX
∑ ( x − x )( y − y )
i
i =1
i
n
∑ (x − x )
i =1
2
=
Cov( X , Y ) σ XY
= 2
Var ( X )
σX
i
b0 = y − b1 x
CXY è detta CODEVIANZA, σXY è detta COVARIANZA
Per determinare i coefficienti della retta di MQ occorrono
quattro indici: media di Y, media di X, devianza di X,
codevianza tra X e Y
19
Statistica 2010/2011
20
Esempio: come crescono i bambini? /1
Il ritmo di crescita varia da
bambino a bambino, possiamo
capire meglio il modello
generale di crescita
osservando come varia nel
tempo l’altezza media di un
gruppo di bambini
18
19
20
21
22
23
24
25
26
27
28
29
Altezza media per mese di
161 bambini
Es. tratto da Moore (2005)
Y=Altezza media (variabile dipendente)
altezza
media (cm)
76.1
77.0
78.1
78.2
78.8
79.7
79.9
81.1
81.2
81.8
82.8
83.5
Statistica 2010/2011
Scatterplot
dell’altezza media di
161 bambini per età
84.0
83.0
82.0
81.0
altezza (cm)
età (mesi)
Esempio: come crescono i bambini? /2
80.0
79.0
78.0
77.0
X=Età (variabile esplicativa)
76.0
75.0
16
18
20
22
24
26
28
30
3
età (mesi)
I punti sono quasi allineati Æ una linea retta che passa
tra i punti descrive bene il legame tra X e Y
21
Esempio: come crescono i bambini? /3
22
Statistica 2010/2011
Esempio: come crescono i bambini? /4
I coefficienti della retta di MQ sono
Retta di MQ: altezza=64.93+0.635*età
84.0
83.0
82.0
Cov( X , Y )
b1 =
Var ( X )
b0 = y − b1 x
altezza (cm)
81.0
80.0
b0=64.93 cm intercetta:
altezza media alla nascita
(età=0)
79.0
78.0
77.0
76.0
75.0
Nel nostro esempio:
M(x)=23.5 mesi, M(y)=79.85
Var(x)=11.52, Cov(x,y)=7.57
16
18
20
22
24
26
28
30
3
età (mesi)
b1=7.57/11.52=0.635
b0=79.85-23.5*0.635=64.93
Statistica 2010/2011
23
b1=0.635 pendenza: l’altezza dei bambini cresce
ogni mese in media di 0.6 cm Æ la pendenza
della retta è il tasso di variazione Y al variare di X
Statistica 2010/2011
24
Alcune proprietà delle stime di MQ
Alcune proprietà dei MQ
n
b1 =
C XY
=
DX
∑ ( x − x )( y − y )
i
i =1
i
n
∑ (x − x )
i =1
b0 = y − b1 x
2
n
i
b1 =
La retta dei MQ passa per il baricentro
x=x
⇒
i =1
i
∑
i i
i
i
i
y − ∑ i yˆi = 0
i i
yˆi = ∑ i yi
(da cui segue yˆ = y )
∑ yˆ = ∑ ( b + b x ) = ∑ ( ( y − b x ) + b x )
= ∑ y +b ∑ (x − x) = ∑ y
i
i
i
1
Traslazione
1 i
0
i
25
Statistica 2010/2011
„
i
Infatti :
∑ e = ∑ ( y − yˆ ) = ∑
b0 = y − b1 x
∑ ( xi − x )2
La somma dei valori stimati è uguale alla somma dei
valori osservati
=0
Infatti :
i
n
i =1
La somma dei residui è nulla
∑e
i
i =1
yˆ = y
Infatti : yˆ = b0 + b1 x = ( y − b1 x ) + b1 x = y
n
C XY
=
DX
∑ ( x − x )( y − y )
i
i
1
i
i
1 i
i
Statistica 2010/2011
26
Cambiamento di scala
x ' = dx x
Consideriamo una traslazione a della x
x' = x + a ⇔
x = x '− a
y = β0 + β1x + ε
y = β 0 + β1 x + ε
⎛ x' ⎞
y'
= β0 + β1 ⎜ ⎟ + ε
dy
⎝ dx ⎠
= β 0 + β1 ( x '− a ) + ε
= ( β 0 − β1a ) + β1 x '+ ε
Caso speciale: a = − x , cioè x ' = x − x
⎛d
⎞
y ' = d y β0 + ⎜ y β1 ⎟ x '+ d yε
⎝ dx ⎠
Pendenza invariata
→ Pendenza invariata
• espansione della scala y (dy > 1) Æ aumenta pendenza
→ Nuova intercetta ben interpretabile:
è il valore previsto di y quando x = x
Statistica 2010/2011
y ' = dy y
• espansione della scala x (dx > 1) Æ diminuisce pendenza
27
Statistica 2010/2011
28
Interpolazione
Possiamo utilizzare la retta di regressione per
prevedere il valore di Y per un dato valore di X
non osservato, ma interno al range di X
(nell’esempio 18-29 mesi).
Interpolazione
ed
estrapolazione
Altezza media dei bambini per x=20.5 mesi:
altezza=64.93+0.635*20.5=77.95 cm
Statistica 2010/2011
29
30
Statistica 2010/2011
Estrapolazione
Esempio del tempo TV: dati
Possiamo utilizzare la retta di regressione per prevedere
il valore di Y per un dato valore di X esterno al suo range
(nell’esempio 18-29 mesi).
I dati riportati nella tabella seguente si riferiscono all’età in anni
(X) e al tempo in minuti passato davanti alla televisione
nell’ultima settimana (Y) per un campione di 6 soggetti:
Altezza media dei bambini per x=32 mesi:
altezza=64.93+0.635*32=85.25 cm
L’accuratezza dell’estrapolazione dipende da:
• quanto la retta si adatta bene ai dati
• quanto il valore di X è lontano dai valori osservati
Esempio
X=0 è un valore esterno lontano Æintercetta potrebbe
non essere una buona previsione dell’altezza alla nascita
Statistica 2010/2011
Somma
Media
31
Età
X
34
42
55
59
61
63
314
52.3
Tempo TV
Y
430
365
620
580
800
780
3575
595.8
Statistica 2010/2011
n
∑ (x − x )
i =1
i
2
= 683.333
n
∑ ( x − x )( y − y ) = 9118.333
i =1
i
i
32
Esempio del tempo TV: interpretazione
Esempio del tempo TV: retta di regressione
n
b1 =
∑ ( x − x )( y − y )
i
i =1
i
n
∑ (x − x )
i =1
2
=
9118.333
= 13.344
683.333
„
i
b0 = y − b1 x = 595.8 − 13.344 × 52.3 = −102.498
tempo TV (Y)
Diagramma di dispersione e retta di regressione
900
800
700
600
500
400
300
200
100
0
„
yˆ = −102.498 + 13.344 x
„
0
10
20
30
40
50
60
70
La pendenza b1 = 13.3 è la variazione media del tempo TV settimanale
in minuti corrispondente ad un aumento di 1 anno dell’età
… Poiché la pendenza è positiva all’aumentare dell’età tende ad
aumentare il tempo TV:
„ 1 anno in più Æ aumento medio di 13.3 minuti per settimana
„ 2 anni in più Æ aumento medio di 26.6 minuti per settimana
„ 10 anni in più Æ aumento medio di 133 minuti per settimana
„ 1 anno in meno Æ riduzione media di 13.3 minuti per settimana
… ecc.
L’intercetta b0 = –102.5 è il tempo TV settimanale previsto per un
soggetto di età zero (x=0)
… In questa applicazione l’intercetta non è interpretabile perché non ha
senso chiedersi qual è il valore previsto del tempo TV per un
neonato!
L’intercetta è un caso speciale di valore previsto (è il valore previsto di Y
quando x=0)
età (X)
Statistica 2010/2011
33
Statistica 2010/2011
Esempio del tempo TV: previsioni
„
„
Interpolazione vs estrapolazione
La retta di regressione può essere usata per calcolare il valore previsto
di Y in corrispondenza di un qualunque valore di X, sia un valore
osservato nel campione che un valore non osservato
Usando la retta di regressione precedente yˆ = −102.498 + 13.344 x
si ottengono, ad esempio, i seguenti valori previsti (arrotondati all’intero)
x
-10
0
20
30
55
60
70
100
500
ŷ
-236
-102
164
298
631
698
832
1232
6570
„
In ogni applicazione si può determinare a priori (cioè
indipendentemente dai dati effettivamente rilevati) un
intervallo di valori di x che ha senso prendere in
considerazione
… nell’esempio del tempo TV l’intervallo di x che ha senso
considerare va grosso modo da 3 a 100 anni
„
A posteriori, alla luce dei dati effettivamente rilevati,
l’intervallo di valori di x che è opportuno utilizzare per
prevedere la Y non dovrebbe essere molto più ampio del
cosiddetto intervallo rilevante, cioè l’intervallo di valori
assunti dalla variabile esplicativa X nel campione osservato
… nell’esempio del tempo TV l’intervallo rilevante va da 34 a
63 anni
La retta, come funzione matematica, è definita
sull’intero asse dei reali e quindi qualsiasi valore
x di X può essere usato per fare la previsione di Y
Tuttavia non tutti i valori di x hanno senso nel
contesto applicativo: nell’esempio del tempo TV
x è l’età e quindi non può essere negativa, ma
non ha senso nemmeno prendere in
considerazione valori di x vicini a 0 (perché i
neonati non guardano la TV) e valori di x oltre
100 (perché gli esseri umani raramente superano
tale età)
Statistica 2010/2011
34
35
Statistica 2010/2011
36
Interpolazione vs estrapolazione
I pericoli dell’estrapolazione
Diagramma di dispersione e retta di regressione
„
„
Interpolazione: prevedere Y in corrispondenza di un valore x
interno all’intervallo rilevante (come la previsione di 398 per
x=60)
Estrapolazione: prevedere Y in corrispondenza di un valore
x esterno all’intervallo rilevante (come la previsione di 164 per
x=20 o la previsione di 832 per x=70)
Le estrapolazioni vanno evitate o, per lo meno, limitate a
valori x appena fuori dall’intervallo rilevante.
…
Infatti la retta di regressione è stata determinata usando i valori x
dell’intervallo rilevante e non vi è alcun modo di sapere come la retta si
modificherebbe aggiungendo valori x esterni all’intervallo rilevante;
facendo estrapolazioni si assume implicitamente che aggiungendo
valori x esterni la retta rimarrebbe sostanzialmente invariata, ma tale
ipotesi non è verificabile ed è tanto meno plausibile quanto più i punti
considerati sono lontani dall’intervallo rilevante
Statistica 2010/2011
tem po TV (Y)
„
Intervallo rilevante
900
800
700
600
500
400
300
200
100
0
0
10
20
30
40
50
60
70
età (X)
La linea rossa rappresenta una possibile relazione tra Y e X nella
popolazione, mentre la retta nera è la retta di regressione determinata
con i dati campionari, in cui l’intervallo rilevante è [34,63]
37
38
Statistica 2010/2011
Misure di variabilità nella regressione
„
DY (Devianza totale di Y): misura la variabilità dei valori Y
osservati attorno alla loro media
n
DY = ∑ ( yi − y ) 2
i =1
Bontà di adattamento della
retta di regressione:
„
il coefficiente di
determinazione r2
DSL (Devianza di Y Spiegata della regressione Lineare su X):
misura la variabilità dei valori Y previsti attorno alla loro media
(la quale, per una proprietà del metodo dei minimi quadrati,
coincide con la media dei valori osservati)
n
n
i =1
i =1
DSL = ∑ ( yˆi − yˆ ) 2 = ∑ ( yˆi − y ) 2
„
DRL (Devianza di Y Residua rispetto alla regressione Lineare
su X): misura la variabilità degli errori di regressione attorno
alla loro media
n
n
n
DRL = ∑ (ei − e ) 2 = ∑ ei 2 = ∑ ( yi − yˆi ) 2
i =1
Statistica 2010/2011
39
i =1
Statistica 2010/2011
i =1
40
Misure di variabilità nella regressione
Misure di variabilità nella regressione
„
Con alcuni passaggi algebrici si dimostra che
DY = DSL + DRL
n
DRL = ∑( yi − yˆi )2
i =1
„
n
DY = ∑( yi − y )2
n
DSL = ∑ ( yˆi − y ) 2
i =1
i =1
Statistica 2010/2011
41
Coefficiente di determinazione r2
Il coefficiente di determinazione è la
proporzione di variabilità totale di Y
spiegata dalla relazione lineare con X:
La regressione può essere vista come un metodo per
spiegare la variabilità di una variabile (Y) tramite la
relazione lineare con un’altra variabile (X)
…
„
La spesa per consumi (Y) varia molto da famiglia a famiglia e può
essere misurata da SST (che è il numeratore della varianza).
„
D: perché le famiglie hanno consumi diversi? R: i motivi sono
molti, uno è perché le famiglie hanno redditi diversi e il consumo
cresce al crescere del reddito.
„
D: quanto è importante il ruolo del reddito nello spiegare la
variabilità dei consumi delle famiglie? R: assumendo una
relazione lineare tra consumi e reddito, la risposta è fornita dalla
scomposizione di SST nelle due parti SSR (variabilità dei
consumi spiegata dalla relazione lineare con il reddito) e SSE
(variabilità residuale dei consumi)
Statistica 2010/2011
42
Statistica 2010/2011
Regressione: spiegare la variabilità
„
Pertanto la regressione lineare semplice opera una
scomposizione della variabilità totale di Y in due parti,
interpretabili come
… DSL: variabilità di Y spiegata da X (più precisamente:
variabilità di Y dovuta alla relazione lineare con X )
… DRL: variabilità residuale di Y (cioè non dovuta alla
relazione lineare con X)
„
43
DSL
DY
Poiché DSL≥0 e DSL≤DY segue che r2 ∈[0,1]. Dunque r2 è un
indice normalizzato: per ogni insieme di dati r2 ha valore min 0 e
max 1
Il coefficiente di determinazione misura la bontà di adattamento
della retta di regressione; infatti per la scomposizione di DY, r2 si
può scrivere anche
r2 = 1−
„
r2 =
DRL
DY
La retta di regressione si adatta ai dati tanto meglio quanto più
piccola è la somma dei quadrati degli errori, DRL, ovvero quanto
più grande è il coefficiente di determinazione r2 (ma r2 è più
facilmente interpretabile perché è un indice normalizzato)
Statistica 2010/2011
44
Coefficiente di determinazione r2
Coefficiente di determinazione r2
„
„
„
„
„
Misurare la bontà di adattamento è cruciale per
l’interpretazione e l’utilizzo dei risultati della regressione
La retta di regressione è la retta che meglio si adatta ai dati,
quella che minimizza l’errore di previsione complessivo
(definito dalla somma dei quadrati degli errori);
Tuttavia la migliore retta potrebbe comunque fare un pessimo
lavoro, cioè la regressione lineare potrebbe spiegare solo una
piccola parte della variabilità di Y (Æ enormi errori di
previsione)
Quando il coefficiente di determinazione r2 è piccolo
l’adattamento della retta è scarso e quindi la regressione
lineare è uno strumento inutile
„
„
45
Statistica 2010/2011
„
Calcolo di r2
Per calcolare r2 occorre calcolare DY e, a scelta, uno dei due
termini della scomposizione della devianza
La via più veloce è quella di calcolare DSL perché
n
n
DSL = ∑ ( yˆi − y ) = ∑ ( (b0 + b1 xi ) − (b0 + b1 x ) )
i =1
2
„
Nell’esempio del tempo TV si ha
… DY = 157220.833
… DX = 683.333
… b1 = 13.344.
„
Pertanto, DSL = (13.344)2 × 683.333 = 121675.870
2
i =1
n
n
= ∑ b1 ( xi − x ) 2 = (b1 ) 2 ∑ ( xi − x ) 2 = (b1 ) 2 DX
i =1
„
46
Statistica 2010/2011
Calcolo di r2
„
Il metro di giudizio sul valore assunto da r2 dipende dal
contesto applicativo: in alcuni campi r2 è solitamente su
valori tra 0.15 e 0.30, in altri campi (ad es. serie temporali)
r2 è spesso intorno a 0.90 Æ non si può dire in generale
quale sia la soglia al di sotto della quale r2 debba ritenersi
insoddisfacente
Caso limite r2=1: accade quando DRL=0, il che significa
che tutti gli errori di previsione sono nulli e quindi tutti i
punti del diagramma di dispersione giacciono sulla retta di
regressione (che può avere qualunque pendenza, positiva
o negativa)
Caso limite r2=0: accade quando DSL=0, il che significa
che i valori previsti yˆi sono tutti uguali a y e quindi la retta
di regressione è orizzontale (ha pendenza nulla)
i =1
D
121675.870
r = SL =
= 0.7739
DY 157220.833
Pertanto r2 si può scrivere anche
2
⎛ CXY ⎞
⎜
⎟ DX
2
2
DSL (b1 ) DX ⎝ DX ⎠
CXY
2
=
=
=
r =
DY
DY
DY
DX DY
Statistica 2010/2011
2
Questo è il quadrato
del coefficiente di
correlazione lineare
(vedi più avanti)
47
Statistica 2010/2011
Il 77.39% della
variabilità del tempo TV
è spiegata dalla relazione
lineare con l’età
48
Errore medio di previsione
„
La radice quadrata della varianza residua è interpretabile
come l’errore medio che si commette prevedendo Y tramite il
modello di regressione lineare su X
σ RL =
„
La simmetria di r2
„
L’indice è simmetrico: rimane invariato cambiando l’ordine di
X e Y cioè invertendo il ruolo di X e Y nella regressione: la
regressione di Y su X e la regressione di X su Y producono lo
stesso coeff. di determinazione, cioè hanno la stessa bontà di
adattamento
Dunque i risultati della regressione non forniscono alcuna
indicazione in merito alla scelta di quale variabile usare come
risposta e quale come esplicativa: tale scelta è
necessariamente basata sulla conoscenza a priori di quale è
la causa (= l’esplicativa) e quale l’effetto (la risposta); in
mancanza di tale conoscenza la scelta è effettuata
arbitrariamente dall’analista in base al punto di vista che vuole
privilegiare
DRL
1
( yi − yˆi )2
=
∑
n
n i=1
„
DRL = 157220.833 − 121675.87 = 35544.963
σ RL =
35544.963
= 76.969
6
(minuti)
Statistica 2010/2011
2
CXY
DX DY
Guadiamo l’indice di determinazione nella forma
n
Nell’esempio del tempo TV
r2 =
„
49
Statistica 2010/2011
50
Relazioni causa-effetto
„
„
Regressione e relazioni
causa-effetto
Statistica 2010/2011
„
51
Si può affermare che X è la causa e Y l’effetto?
La domanda è rilevante sia da un punto di vista
teorico (come funziona il mondo?) che pratico
Infatti, se si interviene nel sistema fissando la X
ad un valore arbitrario, in presenza di una pura
relazione causa-effetto la Y risponde
assumendo il valore medio previsto dal modello,
altrimenti ha un comportamento imprevedibile
Statistica 2010/2011
52
Relazioni causa-effetto: esempio
„
„
„
Relazioni causa-effetto e regressione
Sia X la spesa annuale in pubblicità e Y l’ammontare annuale
di vendite
La pendenza stimata usando i dati degli ultimi anni è 1.2, cioè
ogni euro in più di spesa in pubblicità è associato a 1.2 euro in
più di vendite: se l’anno prossimo l’azienda aumenta la spesa
in pubblicità di 100000 euro si deve attendere un aumento
delle vendite di 120000 euro (e viceversa se riduce la spesa)
Queste previsioni sono attendibili? No!
„
Il modello di regressione può evidenziare
un’associazione tra X e Y ma non consente di dire niente
sulla relazione causa-effetto
…
Ad es. non vi è alcun criterio statistico per preferire (1) la
regressione del consumo sul reddito piuttosto che (2) la
regressione del reddito sul consumo (ricorda: entrambe le
regressioni hanno lo stesso r2): è la teoria economica che
suggerisce di usare la versione (1), in quanto asserisce che il
reddito influenza il consumo e non viceversa
…
Tuttavia per certe finalità può essere utile specificare la
regressione in modo contrario alla relazione causa-effetto:
nell’esempio precedente la versione (2) potrebbe essere
specificata dall’Agenzia delle Entrate qualora disponga di dati sui
consumi dei contribuenti e voglia usarli per inferire il loro reddito
…
In realtà l’ammontare delle vendite dipende solo in parte dalla
pubblicità, perché è fortemente influenzato da fattori come il ciclo
economico
… Inoltre è pure possibile una relazione inversa, cioè che la spesa in
pubblicità sia influenzata dall’andamento delle vendite (se le
vendite aumentano si rendono disponibili risorse aggiuntive che
possono essere destinate alla pubblicità)
Statistica 2010/2011
53
Relazioni causa-effetto e regressione
„
54
Statistica 2010/2011
Tipi di relazioni causa-effetto
Date due variabili, i due possibili modi di
specificare il modello di regressione
(scambiando i ruoli di risposta ed esplicativa)
sono solo due punti di vista alternativi: scegliere
un punto di vista o l’altro ovviamente non
modifica la realtà, semplicemente si traggono
impressioni diverse dello stesso fenomeno
Date due variabili osservate Z1 e Z2 le possibili relazioni
causali sono:
Z1
Z2
Z1
Z2
Z1 causa Z2
Assenza di relazione
…è
come assistere ad un incontro di calcio dalla tribuna
o dalla curva: ciò non modifica l’incontro, anche se si
ottengono impressioni diverse
Z1
Z2
Z1
Z2 causa Z1
Statistica 2010/2011
55
Z2
Z1 causa Z2 e viceversa
Statistica 2010/2011
56
Relazioni causa-effetto e variabili nascoste
Relazioni causa-effetto e variabili nascoste
L’unico modo affidabile di stabilire una relazione causa-effetto
consiste nel raccogliere i dati tramite un esperimento
controllato (assegnare a caso le unità statistiche ai diversi valori
di X, poi osservare la Y)
Al di fuori dei dati sperimentali, vi è sempre un pericolo in
agguato: la relazione tra Z1 e Z2 potrebbe essere in tutto o in
parte dovuta ad una variabile non osservata, o comunque non
inclusa nell’analisi Z0 (variabile nascosta)
Z1
Z2
Associazione tra Z1 e Z2
interamente dovuta a Z0
Z1
Z2 = capacità respiratoria
57
Z2
Associazione tra Z1 e Z2
in parte dovuta a Z0
Z0 = età
Esempio. In una applicazione su bambini di
diverse età: Z1 = lunghezza del piede; Z2 =
numero di vocaboli conosciuti; Z0 = età. La
regressione del numero di vocaboli sulla
lunghezza del piede dà luogo ad una pendenza
positiva significativa, ma ovviamente tra le due
variabili non vi è alcuna relazione causa-effetto
Statistica 2010/2011
Z0
Z1 = numero di sigari fumati al giorno
La regressione della capacità respiratoria sul numero di sigari dà luogo ad una
pendenza significativa (di segno negativo: cioè all’aumentare del numero di sigari la
capacità polmonare tende a diminuire). Tuttavia, entrambe le variabili sono associate
all’età: negli anziani è maggiore la frequenza sia di coloro che fumano il sigaro, sia di
coloro che hanno scarsa capacità polmonare. Gli studi epidemiologici hanno
dimostrato che il fumo (anche quello di sigaro) riduce la capacità polmonare, cioè
esiste una relazione causa-effetto: tuttavia, se nell’analisi si ignora che i soggetti
hanno diverse età, risulta un’associazione più forte di quanto è realmente (la
pendenza della retta di regressione è “troppo” negativa perché incorpora anche
l’effetto dell’età). Una semplice soluzione è di eseguire l’analisi di regressione
separatamente per fasce di età.
58
Statistica 2010/2011
Analisi dei residui
www.causeweb.org
Z0
Esempio. In una applicazione su adulti di
diverse età:
Punti influenti
Variabili nascoste
59
Statistica 2010/2011
60
Analisi dei residui
Residui disposti casualmente
r2 non sempre è sufficiente a verificare la bontà
di adattamento del modello
ei = yi − yˆ i
„
residui
Plot dei residui vs valori previsti:
… La
relazione tra X e Y è lineare?
… La variabilità di Y resta costante al variare di X?
… Sono presenti valori anomali nei dati?
Statistica 2010/2011
61
Statistica 2010/2011
62
Esempio: relazione non lineare
Analisi dei residui: relazione non lineare
x
6.10
5.91
1.79
2.37
1.66
5.21
4.04
1.95
3.64
2.94
5.38
2.34
2.55
0.91
3.96
y
87.49
83.59
11.71
18.64
9.87
67.96
42.31
12.75
33.63
23.53
68.19
17.60
17.90
4.54
41.09
Y*=-20.25+16.64X
r2=0.9716
Analisi dei residui: relazione
quadratica tra X e Y?
Statistica 2010/2011
63
Statistica 2010/2011
64
Esempio: relazione non lineare (segue)
Analisi dei residui: varianza di Y non costante
Y*=1.49+1.79X+2.03X2
r2=0.9986
Analisi dei residui:
andamento casuale
Statistica 2010/2011
65
Osservazioni particolari
„
„
66
Esempio: outlier (residui grandi)
x
-0.73
-0.24
0.41
1.51
2.46
2.71
2.93
3.10
3.37
3.55
4.12
4.26
4.62
6.00
7.92
OUTLIER: osservazione con residuo elevato
(valore anomalo di Y rispetto alla previsione)
LEVERAGE (punto di leva): valore anomalo
della variabile indipendente (X)
PUNTI INFLUENTI: osservazioni con
comportamento anomalo che influenzano
notevolmente i risultati
Non tutti gli outlier e i leverage sono necessariamente
punti influenti
Statistica 2010/2011
Statistica 2010/2011
y
-1.57
2.69
2.67
-1.94
12.54
13.47
14.14
14.89
15.03
15.40
19.46
18.46
20.76
1.95
34.29
Y*=2.11+3.27X
r2=0.5731
Valori anomali!!
67
Statistica 2010/2011
68
Valori anomali e osservazioni influenti
Esempio: outlier (residui grandi) /segue
Cancelliamo i valori anomali
e ristimiamo il modello …
„
Un valore anomalo è un’osservazione che sta
“lontana” dalle altre osservazioni. I punti che
presentano un valore anomalo per Y (outlier)
hanno residui alti, ma i punti con valori anomali
in X (leverage) non necessariamente
presentano residui alti!
„
Un’osservazione è influente se la sua rimozione
comporta un cambiamento notevole nelle stime
dei parametri e/o in r2. Punti con valori anomali
in X sono spesso influenti!
Y*=2.06+4.04X
r2=0.9925
Migliore adattamento del
modello!!
69
Statistica 2010/2011
Esempio: parola e abilità
Esempio: parola e abilità /segue
L’età in cui un bimbo inizia a parlare è un buon previsore del punteggio ad
un successivo test di abilità mentali?
x
15
26
10
9
15
20
18
11
8
20
7
y
95
71
83
91
102
87
93
100
104
94
113
x
9
10
11
11
10
12
42
17
11
10
y
96
83
84
102
100
105
57
121
86
100
Il bambino n.18
inizia a parlare
molto più tardi
degli altri: per la
sua posizione
estrema (leverage)
questo punto ha
una forte influenza
sulla posizione
della retta di
regressione!
Per 21 bambini si conosce l’età, in mesi X, in cui
è stata pronunciata la prima parola e il punteggio
ad un test di abilità Y (Moore e McCabe)
n.19 Y grande!
Y*=109.87-1.127X
n.18: x grande!
r2=0.41
Statistica 2010/2011
70
Statistica 2010/2011
outlier
leverage
Attenzione: non tutti i valori anomali sono influenti!!
71
Statistica 2010/2011
72
Esempio: parola e abilità /segue
y = 105.6299 - 0.779221*x
r2= 0.11
www.causeweb.org
Cosa succede se cancelliamo l’osservazione n.18?
La relazione tra X
e Y è debole!
Prima sembrava
alta a causa della
sola osservazione
n. 18! Servono
più dati per
capire meglio la
relazione
studiata!
Statistica 2010/2011
73
Esempio: cambiamento strutturale
anno
1990
1991
1992
1993
1994
1995
1996
1997
x
4595
4827
4427
4258
3995
4330
4265
4351
y
7364
7547
7099
6894
6572
7156
7232
7450
74
Esempio: cambiamento strutturale \segue
I residui mostrano un
andamento differenziato:
da cosa dipende?
Il dipartimento di matematica di una
grande università deve pianificare il
numero di corsi elementari richiesti.
X = studenti iscritti al primo anno
Y = studenti che scelgono il corso di
matematica
Andamento per anno: dal 1995 una %
più elevata di studenti sceglie il corso
di matematica. È questo cambiamento
che spiega l’andamento osservato nei
residui! I dati antecedenti il 1995 non
possono essere usati per previsioni
Y*=2492.69+1.066X
r2=0.694
Statistica 2010/2011
75
Statistica 2010/2011
76
Variabili nascoste: esempio #1
„
Per le nazioni del mondo rileviamo
…
…
„
„
„
„
Variabili nascoste: esempio #2
„
X = numero di apparecchi TV per 1000 abitanti
Y = speranza di vita alla nascita
…
X = indice di sovraffollamento
… Y = indice di mancanza di servizi igienici
La regressione di Y su X fornisce un coefficiente
angolare positivo e un elevato indice di determinazione
Possiamo allungare la vita del popolo del Rwanda
inviando loro delle TV? NO!
Le nazioni più ricche hanno più TV di quelle povere e
hanno anche una speranza di vita più elevata perché
hanno una migliore alimentazione, acqua potabile e cure
mediche.
Non c’è un rapporto di causa effetto tra TV e speranza di
vita!!
„
„
„
77
Statistica 2010/2011
Poiché X e Y sono entrambe misure di abitazioni
inadeguate ci aspettiamo una forte relazione; invece la
regressione produce r2=0.006. Come è possibile?
Ulteriori indagini hanno mostrato che in alcuni dei
quartieri più poveri c’è una prevalenza di case pubbliche,
con servizi igienici, mentre in altri non è così
La relazione tra X e Y è diversa in questi due tipi di
quartiere Æ analizzare tutti i quartieri insieme oscura la
relazione tra X e Y.
Due gruppi formati da una variabile categorica
Teorizzazione fenomeno
Y su X | Z=0 Æ r2 = 0.79
Y su X | Z=1 Æ r2 = 0.41
Individuazione variabili
esplicative
Y su X | tutti Æ r2 = 0.12
Formulazione o
identificazione modello
Z=1
Uso dei dati per la stima
del modello
La rappresentazione grafica è importante per capire il
legame tra X e Y nei sottogruppi individuati da Z!
Statistica 2010/2011
78
Statistica 2010/2011
Modello statistico: costruzione e uso
Variabili nascoste: esempio #3
Z=0
Uno studio sulle condizioni di salute nella città di Hull
(GB) ha misurato per i quartieri più poveri della città
Uso del modello:
• Descrizione delle
relazioni
• Inferenza
(conoscenza del
processo
generatore dei dati)
• Previsione dei valori
della variabile di
risposta
verifica modello
79
Utilizzo del modello
Statistica 2010/2011
80
Covarianza /1
„
„
Correlazione
Cicchitelli Cap. 11
Consideriamo due variabili quantitative, ad es. SPESE (X) e
RENDIMENTO (Y) nel 2003 per 9 fondi comuni
Esiste una associazione tra SPESE e RENDIMENTO ?
Ovvero: al crescere delle spese il rendimento tende a crescere,
tende a calare o nessuna delle due?
Spese
Rendim.
70.0
1.25
37.3
60.0
0.72
39.2
50.0
1.57
44.2
1.40
44.5
1.33
53.8
1.61
56.6
1.68
59.3
R en d im en to (Y)
„
40.0
30.0
20.0
10.0
Statistica 2010/2011
81
Covarianza /2
…
μY= 51.533 e σY= 9.951
66.5
1.50
2.00
82
Statistica 2010/2011
„
Ma questi indici non dicono nulla sulla associazione tra X e Y
„
Per questo fine serve un indice calcolato congiuntamente, come la
covarianza
−+
60.0
e σX= 0.271
μX=1.353
1.20
1.00
Spese (X)
70.0
Sia per le SPESE (X) che per il RENDIMENTO (Y) posso calcolare
separatamente media e deviazione std
…
62.4
0.50
Covarianza /3
Rendimento (Y)
„
1.42
0.0
0.00
50.0
++
Y
40.0
−−
30.0
20.0
+ + e − − concordanti
10.0
+ − e − + discordanti
0.0
0.00
0.50
+−
X
1.00
1.50
2.00
Spese (X)
Statistica 2010/2011
83
Statistica 2010/2011
84
Covarianza /4
„
„
„
Covarianza /5
Le osservazioni (Xi, Yi) con valori concordanti
hanno scarti dalla media con lo stesso segno (+
+ o − −) e quindi il prodotto degli scarti ha segno
positivo
Le osservazioni (Xi, Yi) con valori discordanti
hanno scarti dalla media con segno opposto (+ −
o − +) e quindi il prodotto degli scarti ha segno
negativo
Per ottenere un indice di associazione basta
sommare i prodotti degli scarti e vedere se il
risultato è positivo (prevalgono i concordanti) o
negativo (prevalgono i discordanti)
Cov ( X , Y ) = σ XY
„
„
„
85
Statistica 2010/2011
Calcolo della covarianza
1.353
spese (X) rendim (Y)
1.25
37.3
0.72
39.2
1.57
44.2
1.40
44.5
1.33
53.8
1.61
56.6
1.68
59.3
1.42
62.4
1.20
66.5
X-M(X)
-0.103
-0.633
0.217
0.047
-0.023
0.257
0.327
0.067
-0.153
Covarianza 9.579 / 9 = 1.064
Statistica 2010/2011
1
=
N
N
∑ (x − μ
i =1
i
X
)( yi − μY )
Se positiva Æ al crescere di X, Y tende a crescere
(notare l’uso della parola tende: infatti, se una unità sta
sopra alla media per X è probabile che vi stia anche per Y,
ma non è detto)
Se negativa Æ al crescere di X, Y tende a diminuire
Se nulla Æ non vi è nessuna tendenza
Statistica 2010/2011
86
Coefficiente di correlazione lineare /1
„
51.533
Y-M(Y)
-14.233
-12.333
-7.333
-7.033
2.267
5.067
7.767
10.867
14.967
prodotto
1.466
7.807
-1.591
-0.331
-0.052
1.302
2.540
0.728
-2.290
9.579
„
I valori minimo e massimo assumibili dalla covarianza
dipendono dai dati in esame Æ non si può dire se un
valore (come il 1.064 dell’esempio) sia da considerarsi
grande o piccolo
Per questo si trasforma la covarianza in modo che abbia
sempre lo stesso minimo (−1) e massimo (+1)
ρ XY =
σ XY
σ X σY
Nell’esempio ρXY = 1.064 / (0.271 × 9.951) = 0.395
87
Statistica 2010/2011
88
Coefficiente di correlazione lineare /2
„
Media del prodotto delle variabili standardizzate:
ρ XY =
„
„
„
Coefficiente di correlazione lineare /3
1
N
N
∑z
i =1
xi
z yi
zx =
xi − μ X
i
„
zy =
σX
i
yi − μY
„
σY
„
Simmetrico: ρ rimane invariato se le due variabili sono
scambiate
„
Numero puro: ρ non ha unità di misura (es. X altezza in cm, Y
peso in kg Æ SXY è in cm×kg, SX è in cm, SY è in kg, e quindi rXY
è un numero puro)
„
Invariante per trasformazioni lineari: ρ rimane invariato se le
variabili vengono linearmente trasformate (traslazione e/o
moltiplicazione per una costante) (es. X temperatura in gradi
Celsius, Y raccolto in quintali, ρ non cambia se si esprime la
temperatura in gradi Fahrenheit e il raccolto in tonnellate)
rXY >0 Æ X e Y correlate positivamente
rXY <0 Æ X e Y correlate negativamente
rXY =0 Æ X e Y incorrelate (assenza di correlazione)
rXY = +1 Æ X e Y hanno massima (perfetta) correlazione
positiva = tutte le osservazioni stanno su una retta
crescente
rXY = −1 Æ X e Y hanno massima (perfetta) correlazione
negativa = tutte le osservazioni stanno su una retta
decrescente
89
Statistica 2010/2011
90
Statistica 2010/2011
Diagrammi di dispersione con vari
Coefficienti di Correlazione
Y
Y
Y
X
X
r = -1
r=0
Y
Y
r = +1
X
r = -0.6
Y
r = -0.9
X
X
r = +0.3
Statistica 2010/2011
Diagrammi di
dispersione per
due variabili
utilizzando sei
data set con 100
osservazioni
r = -0.3
r = -0.6
r = +0.3
X
r=0
91
r = +0.6
r = +0.9
92
Correlazione e linearità /1
Correlazione e linearità /2
„
„
L’indice rXY fa una sintesi di tutte le osservazioni, ma nei dati vi
potrebbero essere andamenti molto diversi
„
„
Il termine “lineare” è spesso sottinteso, ma è importante: infatti rXY
misura l’associazione di tipo lineare (e non parabolico,
esponenziale o altro)
Æ rXY = −1 o +1 significa che vi è relazione lineare perfetta
Æ rXY = 0 significa che, nel complesso, vi è assenza di relazione
lineare, ma vi potrebbe essere una relazione non lineare, anche
forte!
In questo es. vi sono
due sottoinsiemi, uno
con correlazione
negativa e l’altro con
correlazione positiva.
Nel complesso la
correlazione è positiva
(r = 0.612)
Statistica 2010/2011
In questo es. vi è una
relazione di tipo
parabolico, con due
sottoinsiemi. Nel
complesso la
correlazione è quasi nulla
(r = -0.001)
93
Correlazione e causalità /1
„
„
94
Correlazione e causalità /2
„
Se due variabili X e Y sono correlate signfica che tendono
a muoversi insieme (in modo concorde se r >0 o discorde
se r <0)
Es: X = “spesa in pubblicità” e Y = “fatturato”
…
„
Ma il valore di r non dice niente su come e perché X e Y
si muovono insieme: può essere che
… X è causa di Y
… Y è causa di X
… X è causa di Y e al tempo stesso Y è causa di X
… X e Y non sono in relazione di causa-effetto
(cosiddetta correlazione spuria)
Statistica 2010/2011
Statistica 2010/2011
In una certa regione geografica è stata rilevata una forte
correlazione tra X = “numero di cicogne di passaggio” e Y =
“numero di bambini nati”
…
„
è un caso di correlazione spuria, perché tra X e Y non vi è
alcuna relazione!
In alcuni casi la correlazione tra X e Y è generata da una terza
variabile Z nascosta
…
95
X influenza Y, ma anche Y influenza X
Es. X = “macchie gialle sulle dita” e Y = “tosse”: non vi è
relazione causa-effetto, ma la variabile Z = “fumatore” è
causa di entrambe e provoca la correlazione
Statistica 2010/2011
96
Correlazione e causalità /3
„
„
Concordanza
Le serie temporali spesso danno luogo a forti
correlazioni spurie perché vi sono andamenti simili nel
tempo e nello spazio, ad es. in quasi tutti i paesi del
mondo di anno in anno i prezzi crescono, così come gli
studenti che frequentano la scuola superiore, il numero
di donne nel mercato del lavoro …
„
E’ quindi plausibile trovare una correlazione positiva
elevata tra due fenomeni che tendono a crescere nel
tempo, es. il prezzo delle banane in Italia e il salario
degli operai canadesi, oppure il numero di laureati in
Brasile …
„
Statistica 2010/2011
„
… Il
coefficiente di correlazione di Bravais-GaltonPearson misura la correlazione lineare (assume i
valori estremi in caso di perfetta relazione lineare)
97
Massima concordanza/discordanza
„
Tra due variabili X e Y vi è concordanza o
correlazione positiva quando tendono a
crescere insieme
Nel caso contrario si parla di discordanza o
correlazione negativa
Il termine correlazione viene spesso usato nel
senso restrittivo di correlazione lineare, che è
un tipo particolare di concordanza
Indice di Spearman /1
„
Si elencano le coppie (xi,yi) in ordine crescente
della x:
i valori della y sono crescenti Æ massima
concordanza
… Se i valori della y sono decrescenti Æ massima
discordanza
Per ognuna delle due variabili si trasformano i valori in
ranghi (ranks), cioè posizioni in graduatoria (dal più piccolo)
… Se
Statistica 2010/2011
98
Statistica 2010/2011
Voto riportato
da 10 studenti
agli esami di
matematica X
e statistica Y
99
id
x
y
g(x)
g(y)
1
25
28
6
8
2
18
21
1
2
3
20
23
2
4
4
27
30
8
10
5
28
24
9
5
6
22
20
4
1
7
21
22
3
3
8
30
29
10
9
9
26
26
7
7
10
24
25
5
6
Statistica 2010/2011
100
Indice di Spearman /2
„
„
Indice di Spearman /3
L’indice di Spearman (o coefficiente di
correlazione tra ranghi) rS è il coefficiente di
correlazione lineare tra i ranghi delle due
variabili
„
„
Nell’esempio precedente
… Coeff.
x
1
5
10
25
y
0.12
0.60
1.20
3.00
x
1
5
10
25
y
0.00
1.61
2.30
3.22
y = 0.12x
y = ln(x)
r=1
rS = 1
3.50
3.00
2.50
2.00
y
di correlazione lineare: r = 0.78
… Coeff. di correlazione tra ranghi: rS = 0.76
Perfetta relazione lineare crescente (decrescente)
Æ Massima concordanza (discordanza)
Massima concordanza o discordanza
non implica perfetta relazione lineare
„
„
Minimo rS = −1 in caso di massima discordanza
Massimo rS = +1 in caso di massima
concordanza
101
Statistica 2010/2011
Indice di Spearman – caso di parità
„
In caso di parità (due o più unità con lo stesso valore) si attribuisce il
rango medio
Voto riportato
da 10 studenti
agli esami di
matematica X
e statistica Y
id
x
y
g(x)
g(y)
1
25
28
6
8
2
20
21
1.5
2
3
20
23
1.5
4
4
27
30
8
10
5
28
25
9
6
6
22
20
4
1
7
21
22
3
3
8
30
29
10
9
9
26
25
7
6
10
24
25
5
6
Statistica 2010/2011
rS = 0.78
103
1.50
1.00
r = 0.90
rS = 1
0.50
0.00
0
5
10
15
20
25
30
x
Statistica 2010/2011
102
Scarica