1 – Associazione tra variabili quantitative
ASSOCIAZIONE FRA CARATTERI QUANTITATIVI
QUANTITATIVI:
COVARIANZA E CORRELAZIONE
2 – Associazione tra variabili quantitative
Un esempio
Nr.
clienti
171
110
192
135
165
225
134
178
145
171
102
131
Scatterplot dei dati
((diagramma
g
di dispersione)
p
)
230
210
N. clienti
N
Albergo
A
B
C
D
V
F
H
S
T
AS
CC
FF
Prezzo medio
per
cliente (Euro)
70
100
60
80
75
65
100
85
90
80
110
75
190
170
150
130
110
90
40
60
80
Prezzo
100
120
2
3 – Associazione tra variabili quantitative
•
Si vede che i punti del diagramma si dispongono secondo una ‘nuvola
allungata’ tanto da permettere di affermare che all’aumentare di una
variabile (es. prezzo) l’altra variabile tende a diminuire
•
ma se non si conosce a fondo il fenomeno,
fenomeno questi dati non ci dicono se
c’è una relazione causa-effetto fra le due variabili. I casi potrebbero
essere 2:
1. i clienti tendono
d
ad
d essere meno numerosi quando
d il prezzo è più
alto e viceversa (relazione: prezzo Æ nr. clienti);
2.. qquando
d ci
c sono
s
gite
g di
d gruppi
g pp di
d turisti
s (e
( quindi
q d i clienti
c
sono
s
più
p
numerosi), l’albergo è disposto a fissare prezzi più bassi (relazione:
nr. clienti Æ prezzo)
4 – Associazione tra variabili quantitative
Lo scatterplot ci fa capire se esiste una associazione statistica
fra due caratteri quantitativi.
Chiedersi se esiste un’associazione fra due variabili quantitative equivale a
chiedersi: al variare di una, anche l’altra tende a variare? (es. se una aumenta, l’altra
ha la tendenza ad aumentare? a diminuire?)
Quando all
all’aumentare
aumentare di una variabile,
variabile ll’altra
altra tende a diminuire si parla
di associazione discordante
Quando
Q
d all’aumentare
ll’
di una variabile,
i bil l’altra
l’ l tende
d add aumentare sii
parla di associazione concordante
Quando al variare di una l’altra tende a non variare si parla di assenza di
associazione
5 – Associazione tra variabili quantitative
Quale dei due scatterplot mostra una associazione più stretta?
Perché?
(a)
(b)
5
5
6 – Associazione tra variabili quantitative
Risposta intuitiva:
int iti a l’associazione
l’
i zi n è maggiore
m i r n
nell grafico
r fi (b) p
perché
r hé
la nuvola è più stretta.
(a)
(b)
6
7 – Associazione tra variabili quantitative
E cosa dire
di ddeii grafici
fi i seguentii ? Quale
Q l mostra una associazione
i i
più
iù
stretta fra le due variabili ?
(a)
(b)
7
8 – Associazione tra variabili quantitative
Esiste un indice statistico che esprime il grado di associazione fra
due variabili ?
SI.
P capire
Per
i meglio,
li riprendiamo
i
di
la
l definizione
d fi i i
di associazione:
i i
al variare di una variabile
anche l’altra tende a variare,
Ci vuole una misura di
variabilità congiunta delle variabili
9 – La covarianza
Vi ricordate quale era un indice di variabilità per un variabile
quantitativa ? SI’, la varianza
1
var( x ) =
N
N
1
(
x
−
x
)
=
∑
i
N
i =1
2
N
∑ ( x − x )( x − x )
i =1
i
i
Per misurare l’associazione fra la variabile x e la variabile y si usa la
covarianza
1
cov( x , y ) = cov( y , x ) =
N
N
∑ ( x − x )( y
i
i
−y)
i=1
9
10 – La covarianza
Segno della covarianza
1
cov( x , y ) =
N
N
∑ ( x − x )( y
i =1
i
i
−y)
Se “prevalgono” gli addendi positivi il segno sarà positivo,
altrimenti negativo
10
<0
Quadrante SW
<0
<0
( xi − x )( yi − y )
NW
variabile y
NE
y
yi − y
SE
SW
xi − x
x
variabile x
11
NW
NE
SW
SE
DISCORDANZA
NW
( xi − x )( yi − y ) < 0
NE
( xi − x )( yi − y ) > 0
SE
( xi − x )( yi − y ) < 0
SW
( xi − x )( yi − y ) > 0
I punti si trovano in maggioranza nei quadranti NW e SE
Æ covarianza NEGATIVA (associazione discordante )
12
NE
NW
SE
SW
CONCORDANZA
NW
( xi − x )( yi − y ) < 0
NE
( xi − x )( yi − y ) > 0
SE
( xi − x )( yi − y ) < 0
SW
( xi − x )( yi − y ) > 0
I punti si trovano in maggioranza nei quadranti NE e SW
Æ covarianza POSITIVA (associazione concordante)
13
14 – La covarianza
LA COVARIANZA
1.
Assume valore 0 quando al variare di una variabile l’altra rimane
costante
2.
Assume il massimo in valore assoluto positivo quando i punti sono
tutti allineati su una retta crescente e negativo quando i punti sono
tutti allineati su una retta decrescente
15 – La covarianza
y
y
x
x costante al
variare di y
x
y costante al
variare di x
11. La covarianza assume valore 0 quando al variare di una variabile
l’altra rimane costante
15
16 – La covarianza
2. Assume il massimo in valore assoluto positivo quando i punti sono
tutti allineati su una retta crescente e negativo quando i punti sono
tuttii allineati
lli
i su una retta decrescente
d
17 – La covarianza
Valore della covarianza quando c’è perfetta relazione lineare crescente
cov( x , y ) = sqm( x ) sqm( y )
TUTTI i puntii allineati
lli
i su una retta crescente
(sqm: scarto quadratico medio)
17
18 – La covarianza
Valore della covarianza quando c’è perfetta relazione lineare decrescente
cov( x , y ) = − sqm( x ) sqm( y )
TUTTI i puntii allineati
lli
i su una retta decrescente
d
(sqm: scarto quadratico medio)
19 – La covarianza
La covarianza
L
i
fra
f due
d variabili
i bili non può
ò dirci
di i se il legame
l
è stretto o no perché
hé
il valore della covarianza dipende dall’ordine di grandezza delle variabili (e
anche dalla loro unità di misura).
STATURA (in STATURA (in
m)
cm)
1.60
160
1.65
165
1.70
170
1.85
185
1 78
1.78
178
Covarianza ((statura in m,, peso)=0,5456
p ) ,
metri x Kgg
Covarianza (statura in cm, peso)=54,56
cm x Kg
PESO
(Kg.)
60
56
72
76
68
20 – Il coefficiente di correlazione
Coefficiente di correlazione:
e’ dato dalla covarianza diviso il suo valore massimo
cov( x , y )
rxy =
valore massimo di cov( x , y )
In particolare:
cov( x , y )
rxy =
sqm( x ) sqm( y )
variabilità di x
indipendentemente da y
variabilità congiunta di x e y
variabilità di y
indipendentemente da x
21 – Il coefficiente di correlazione
− 1 ≤ rxy ≤ 1
22 – Il coefficiente di correlazione
•Si ricava dalla covarianza dividendola per il suo valore massimo.
•E’ quindi un numero puro che varia da -1 a +1.
•Ci indica la strettezza del legame lineare fra le due variabili (cioè quanto sia
plausibile approssimare la nuvola dei punti con una retta)
1. Assume valore 0 quando al variare di una variabile, l’altra rimane costante
2. Assume valore prossimo a 0 quando la nuvola di punti non ha una forma
approssimabile da una retta (non orizzontale né verticale)
33. Assume valore 1 quando i punti sono tutti allineati su una retta crescente
e valore -1 quando i punti sono tutti allineati su una retta decrescente
4 rxy = r yx
4.
23 – Il coefficiente di correlazione
1. Esso assume valore 0 quando al variare di una variabile l’altra
rimane costante
y
y
x
x
x costante al variare di y
y costante al variare di x
24 – Il coefficiente di correlazione
2. Esso assume valore prossimo a 0 quando la nuvola di punti non ha
una forma approssimabile da una retta ----- c’è incorrelazione (assenza di
dipendenza
p
lineare)) che non vuol dire indipendenza.
p
Infatti nel ggrafico a
destra si evidenzia un legame quadratico tra i dati
25 – Il coefficiente di correlazione
33. Esso
E
assume valore
l
1 quando
d i puntii sono tuttii allineati
lli
i su una retta
crescente e valore -1 quando i punti sono tutti allineati su una retta
decrescente
Coeff. Correlazione =1
Coeff. Correlazione= -1
25
26 – Il coefficiente di correlazione
4. rxy = r yx
x
y
y
x
rxy = r yx = -0.6
27 – Correlazione
correlazione sul web
28 – Associazione tra variabili quantitative
2 domande:
• Quali valori del coefficiente di correlazione fanno ritenere che si sia
associazione ?
• A che cosa serve sapere che è presente un’associazione fra due
variabili?
29 –Associazione tra variabili quantitative
Quali valori del coefficiente di correlazione fanno ritenere che ci sia
associazione ?
Ai nostri scopi :
-11
-0.7
07
Associazione
A
i i
negativa
i
(discordante)
+0 7
+0.7
1
Associazione
A
i i
positiva
iti
(concordante)
30 – Associazione tra variabili quantitative
A che cosa serve sapere che è presente una
associazione
ssoc
o e fra due variabili
b ?
Se due variabili sono associate, conoscendo il valore di
una si possono fare delle congetture abbastanza
precise sul comportamento dell
dell’altra
altra
31 – Associazione tra variabili quantitative
La y tende ad
assumere
valori in
questo
intervallo
S lla x assume valori
Se
l i in
i questo
intervallo
32 – Associazione tra variabili quantitative
•
g
Correlazione e Regressione
L’obiettivo è l’analisi della dipendenza tra 2 variabili quantitative:
y (variabile risposta)
x (variabile esplicativa)
•
Analizziamo come i valori di y tendano a variare in funzione dei diversi valori di x
•
Una formula matematica può sintetizzare (in modo adeguato e non) il legame che
esiste tra x e y per scopi di previsione e controllo
•
La più semplice funzione è la retta che descrive una relazione lineare tra x e y:
y = a + bx
Esempio: Su un gruppo di pazienti viene rilevato il numero di visite per disagi mentali (crisi
p
, attacchi di panico)
p
) e il numero degli
g eventi di particolare
p
rilevanza
z (gravi
(g
d’ansia,, depressione,
e/o felici) che hanno segnato la loro vita. Si vuole indagare se esiste un legame lineare tra disagi
(risposta) ed eventi (esplicativa).
33 – Associazione tra variabili quantitative
•
Si dispone dell’elenco dei dati: n coppie di modalità relative ai caratteri
quantitativi X=#eventi e Y=#disagi
(x1 , y1 )), (x2 , y2 )), ..., (xi , yi )), ..., (xn , yn )
Graficamente:
La nuvola dei punti
appare caratterizzata da
un trend lineare
34 – Retta di regressione
Sembra plausibile l’idea di descrivere il trend della nuvola dei punti con una retta,
e approssimare la realtà con un modello matematico, ma quale retta scegliere?
35 – Retta di regressione
L retta d
La
deii minimi
i i i quadrati
d i
e i = y i − ˆy i
{
yi
ˆy i
La retta ai mini quadrati è
quella che rende minima la
somma dei residui al
quadrato
q
∑ e2 = ∑ ( y − yˆ )2
ƒ vvalori
o teorici
eo c
yˆi = aˆ + bˆxi
ƒ parametri
bˆ =
Cov (X ,Y )
,
Var (X )
ˆ (X )
aˆ = M (Y ) − bM
cov(( x , y )
bˆ =
var( x )
aˆ = y − bˆx
36 – Retta di regressione
Bontà di adattamento
R2 =
var(( yˆ )
= r2
var( y )
• il coefficiente di determinazione R2 è il quadrato del coefficiente di
correlazione
• è il raporto tra varianza spiegata e varianza totale, pertanto indica quanta
parte della
d ll variabilità
i bili à totale
l è spiegata
i
d l modello
dal
d ll
• varia tra 0 (non adattamento) e 1 (perfetto adattamento della retta ai dati)
• indica se il legame lineare ipotizzato per descrivere la relazione tra X e Y è
plausibile
37 – Retta di regressione
Alcuni risultati
•
Nell’esempio, l’equazione della retta è
ˆy = 2.942 + 1.427x
• Significato di b: il numero di visite aumenta di 1.427per ogni evento importante
i più
in
iù nella
ll vita
it del
d l paziente;
i t Significato
Si ifi t di a: anche
h con 0 eventi
ti eccezionali
i li il
modello suggerisce 3 sedute!!!
• Previsione: qual è il numero di disagi che il modello stimato suggerisce per un
paziente che dichiara una vita segnata da 5 eventi?
ˆy = 2.942 + 1.427 * 5 = 10
• Controllo:
C t ll quanti
ti eventi
ti avràà subito,
bit secondo
d il modello
d ll stimato,
ti t un paziente
i t
che dichiara di aver avuto 9 disagi? 9 = 2.942+ 1.427* x
x = ( 9−2.942) 1.427 = 4.24
•
L’indice R2=0.705 indica un buon adattamento della retta ai dati
38 – Retta di regressione
E
Esempio
i 1
Ad alcuni laureati è stato somministrato un questionario per verificare se coloro che hanno
completato gli studi con maggior successo hanno realmente più facilità ad inserirsi nel mondo
del lavoro. Dai questionari ricaviamo le informazioni riguardanti il tempo X (in mesi) trascorso
dalla laurea fino alla stipula del primo contratto di lavoro ed il voto conseguito alla laurea Y.
Tali dati sono riportati di seguito:
Y
66 --| 75
75 --| 90
90 --| 100
100 --| 111
0 --| 5
0
10
35
55
5 --| 15
2
15
21
40
15 --| 24
42
23
5
0
X
1. Determinare il grado di dipendenza lineare;
g
, scegliendo
g
opportunamente
pp
la
2. Calcolare i coefficienti della retta di regressione,
variabile dipendente, e commentarne il significato;
3. Valutare la bontà di adattamento del modello ai dati.
39 – Retta di regressione
1.
1
Cov ( X , Y ) =
N
r(X ,Y ) =
2.
b=
3
4
∑∑ x y
i =1 j =1
i
j
⋅ nij − M ( X ) ⋅ M (Y ) =
Cov ( X , Y )
Var ( X ) ⋅ Var (Y )
=
204820
− 9.657 ⋅ 92.256 = −65.055
248
− 65.055
48.038 ⋅ 171.441
= −0.717
Cov( X , Y ) − 65.055
=
= −0.379
Var (Y )
171.441
a = M ( X ) − b ⋅ M (Y ) = 9.657 + 0.379 ⋅ 92.256 = 44.665
X=44.665-0.379Y
3.
R 2 = [r ( X , Y )] = 0.514
2
Interpretare, commentare, disegnare i dati e la retta!
40 – Retta di regressione
Esempio 2
Si pensa che esista una relazione lineare tra la cifra spesa per S.Valentino ed il numero di
anni di durata della relazione nella coppia. I dati seguenti sono riferiti a 9 coppie di
innamorati
Durata rapporto
(anni)
4
15
8
6
5
2
1
Cifra spesa per S.
Valentino
(i migliaia
(in
i li i di euro))
0.23
0.03
0.08
0.15
0.12
1.2
1.5
14
22
0.028 0.85
11. Utilizzare
Utili
un iindice
di opportuno
t
per confermare
f
che
h esiste
i t discordanza
di
d
ttra i due
d caratteri;
tt i
2. Determinare i parametri della retta di regressione assumendo come variabile dipendente la
cifra spesa;
3 Secondo il modello del punto 11, a quanto ammonterà la spesa di una coppia nel critico
3.
settimo anno di relazione?
4. Valutare la bontà di adattamento della retta ai dati.
41 – Retta di regressione
U po’’ di calcoli
Un
l li
X
4
Y
0.23
X·Y 0.92
X2
16
Y2 0.0529
M (X ) =
1
1.
Var (Y ) =
2.
b=
1
9
9
∑
i =1
xi =
15
8
6
5
2
0.03 0.08 0.15 0.12
1.2
0.45 0.64
0.9
0.6
2.4
225
64
36
25
4
0.0009 0.0064 0.0225 0.0144 1.44
Tot
1
14
2
57
1.5 0.028 0.85 4.188
1.5 0.392
1.7
9.502
1
196
4
571
2.25 0.00078 0.7225 4.51
1 9
4.188
57
1 9
571
= 6 . 33 M (Y ) =
yi =
= 0.465 Var ( X ) = ∑ x i2 − M ( X )2 =
− 6 .33 2 = 23 .33
9
9 i =1
9
9 i =1
9
∑
1 9 2
4.510
1 9
9.502
2
2
(
)
y
−
M
Y
=
−
0
.
465
=
0
.
284
(
)
Cov
X
Y
=
xi ⋅ yi − M ( X ) ⋅ M (Y ) =
− 6.33 ⋅ 0.465 = −1.89
,
∑
i
∑
9 i =1
9
9 i =1
9
Cov( X , Y ) − 1.89
=
= −0.081
Var ( X )
23.33
a = M (Y ) − bM ( X ) = 0.465 + 0.081 ⋅ 6.33 = 0.979
3. y = 0.979 − 0.081 ⋅ 7 = 0.412
4.
r(X ,Y ) =
Cov( X .Y )
Var ( X ) ⋅ Var (Y )
=
− 1.89
23.33 ⋅ 0.284
= −0.734
R 2 = [r ( X , Y )]2 = 0.539
Y=0.979-0.081X