L’analisi della correlazione lineare
Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Prof. Roberta Siciliano
Statistica
1
Obiettivi dell’unità didattica
•  Definire la condizione di incorrelazione lineare
•  Definire il metodo statistico per l’analisi della correlazione
lineare tra due variabili numeriche
Contenuti
•  La rappresentazione grafica mediante “scatterplot”
•  L’uso delle variabili standardizzate
•  La covarianza
•  Il coefficiente di correlazione lineare di Bravais-Pearson
•  Formule alternative
–  Per dati grezzi
–  Per tabelle a doppia entrata che incrociano due variabili
numeriche
Prof. Roberta Siciliano
Statistica
2
1
In caso di variabili quantitative possiamo
rappresentare graficamente la variabile doppia con
uno SCATTER PLOT (diagramma a dispersione,
nube di punti, grafico X,Y)
(xl,yl)
Prof. Roberta Siciliano
Statistica
3
Scatterplot o diagramma a dispersione
•  Analisi grafica della relazione tra due
variabili numeriche
Prof. Roberta Siciliano
Statistica
4
2
L’uso di variabili standardizzate
•  Siano X e Y due variabili numeriche (non
necessariamente con la stessa scala di
misura)
•  Standardizzando si hanno
Prof. Roberta Siciliano
Statistica
5
La matrice dei dati grezzi
Prof. Roberta Siciliano
Statistica
6
3
Analisi grafica
Prof. Roberta Siciliano
Statistica
7
Il coefficiente di correlazione lineare
•  Si definisce come
ρ XY
1 N
1 N x l − µX y l − µY
= ∑ zxl zyl = ∑
=
N l =1
N l =1 σ X
σY
1
∑ ( x l − µX )( y l − µY ) σ XY
N
=
=
σ XσY
σ XσY
covarianza
•  Si dimostra che
Prof. Roberta Siciliano
Statistica
8
€
4
Il coefficiente di correlazione come espressione della devianza
Cod ( X,Y ) = NσXY
Dev ( X ) = NσX2
Dev (Y ) = NσY2
€
Prof. Roberta Siciliano
Statistica
9
€
€
Altre formulazioni
N
∑( x
− µX )( y l − µY )
l
l =1
ρ XY =
∑ (x
l
l
− µX )
2
∑ (y
l
l
− µY )
2
=
N
∑x y
l
=
l
− NµX µY
l =1
∑x
l
2
l
Prof. Roberta Siciliano
− NµX 2
∑y
l
2
l
− NµY 2
Statistica
=
Cod(X,Y )
Dev(X)Dev(Y )
10
€
5
Proprietà di
Il segno di
Se
dipende da
allora X e Y sono incorrelate
Prof. Roberta Siciliano
Statistica
11
Prof. Roberta Siciliano
Statistica
12
6
Prof. Roberta Siciliano
Statistica
13
Esempio
XY
Yi
1 1
2 2
3 4
4 2
5 1
Xi
Esiste una relazione funzionale
Prof. Roberta Siciliano
Statistica
14
7
I calcoli
X
Y
1
1
-2
4
-1
1
2
2
2
-1
1
0
0
0
3
4
0
0
2
4
0
4
2
1
1
0
0
0
5
1
2
4
-1
1
-2
6
0
10
DEV(Y) COD(X,Y)
DEV(X)
Prof. Roberta Siciliano
Statistica
15
Esempio
Le variabili sono incorrelate ma non sono indipendenti.
Esiste una relazione funzionale tra le variabili ma non di
tipo lineare
Prof. Roberta Siciliano
Statistica
16
8
Per tabelle a doppia entrata
k
h
1
∑ ∑ ( x − µX ) y j − µY nij
N i=1 j =1 i
ρ XY =
(
)
(
=
=
2
2
1
1
x
−
µ
n
y
−
µ
n+ j
∑(
∑
X)
i+
Y
N i i
N j j
1
∑ ∑ x y n − µX µY
N i j i j ij
1
1
2
2
2
2
∑
∑
i x i n i+ −µX
j y j n + j −µY
N
N
Prof. Roberta Siciliano
Statistica
)
17
€
Esempio su dati grezzi
Calcolare la covarianza e la correlazione tra i caratteri
“Fatturato” e “Numero di Addetti” per le 10 aziende
incluse nel campione.
σXY =
ρ=
€
Prof. Roberta Siciliano
Statistica
€
1
∑ x l y l − µX µY
N
1
∑ x l y l − µX µY
N
1
1
x l2 −µX 2
y l2 −µY 2
∑
∑
N
N
18
9
Esempio su dati grezzi
Prof. Roberta Siciliano
Statistica
19
Calcolo della covarianza
1
1
x l = 2.124 =212,4
∑
N
10
1
1
µY = ∑ y l = 5.075 =507,5
N
10
µX =
€
€
µXY =
1
1
x l y l = 1.348.589 =134.858,9
∑
N
10
σXY = µXY − µX µY = 134.858,9 − (212,4⋅ 507,5) = 27.065,9
€
Prof. Roberta Siciliano
Statistica
20
€
10
Calcolo della correlazione
1
1
x l 2 = 567.056 =56.705,6
∑
N
10
1
1
µY 2 = ∑ y l 2 = 4.110.179 = 411.017,9
N
10
1
∑ x l y l − µX µY
N
ρ=
=
⎛ 1
2 ⎞⎛ 1
2 ⎞
2
2
⎜ ∑ x l −µX ⎟⎜ ∑ y l −µY ⎟
µX 2 =
€
€
⎝ N
=
⎠⎝ N
⎠
27.065,9
(56.705,6 − 212,4 )(411.017,9 − 507,5 )
Prof. Roberta Siciliano
2
Statistica
2
= 0,642
21
€
Scatterplot
Prof. Roberta Siciliano
Statistica
22
11
Correlazione lineare in tabelle a doppia entrata
Data la seguente distribuzione doppia:
Calcolare la covarianza e la correlazione.
Prof. Roberta Siciliano
Statistica
23
Correlazione lineare in tabelle a doppia entrata
ρ=
1
∑ ∑ x y n − µX µY
N i j i i ij
1
1
x i2 n i+ − µX 2
∑
∑ y 2n − µY 2
N i
N j j +j
Per il calcolo della covarianza si costruisce la tabella degli elementi
€
La somma degli elementi all’interno di tale tabella è pari a 33.561.140
Prof. Roberta Siciliano
Statistica
24
12
Correlazione lineare in tabelle a doppia entrata
Per il calcolo delle medie e delle varianze è utile considerare la
seguente tabella:
Prof. Roberta Siciliano
Statistica
25
Calcolo della covarianza
1
1
x
n
=
18.498 = 369,96
∑
N i i i+ 50
1
1
µY = ∑ j y j n + j = 52.105 = 1.042,1
N
50
µX =
€
€
Prof. Roberta Siciliano
Statistica
26
13
Calcolo della correlazione
1
1
2
2
2
x
n
−
µ
=
15.052.788
−
369,96
∑
i
i+
X
N i
50
1
1
σY2 = ∑ j y 2j n + j − µY2 = 138.872.265 −1.024,12
N
50
σX2 =
1
∑ ∑ x y n − µX µY
N i j i i ij
ρ XY =
=
1
1
2
2
2
2
∑ x n − µX N ∑ j y j n+ j − µY
N i i i+
285.687
= 0,542
2
2
(301.056 − 369,96 ) (2.777.445 −1.024,1 )
€
€
Prof. Roberta Siciliano
Statistica
27
€
14