Regressione e Correlazione
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
1
L’analisi della regressione è una tecnica statistica per modellare e
investigare le relazioni tra due (o più) variabili.
Nella tavola è riportata la purezza di ossigeno, rilasciata in un processo di distillazione chimica, e la
percentuale di idrocarbonio, presente nel condensatore principale di unità di distillazione.
102
100
98
96
94
92
90
88
86
0,85
Diagramma di dispersione
Osservazioni Liv.Idrocarbonio Purezza
1
0,99
90,01
2
1,02
89,05
3
1,15
91,43
4
1,29
93,74
5
1,46
96,73
6
1,36
94,45
7
0,87
87,59
8
1,23
91,77
9
1,55
99,42
10
1,4
93,65
11
1,19
93,54
12
1,15
92,52
13
0,98
90,56
14
1,01
89,54
15
1,11
89,85
16
1,2
90,39
17
1,26
93,25
18
1,32
93,41
19
1,43
94,98
20
0,95
87,33
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
2
Definizione
La covarianza tra le variabili aleatorie X e Y è la quantità :
cov( X , Y ) = σ XY = E[(X − µ X )(Y − µ Y )] = E [XY ] − µ X µ Y
La covarianza è una misura della relazione lineare tra due variabili aleatorie.
(A) Covarianza positiva
(B) Covarianza negativa
(C) Covarianza nulla
(D) Covarianza nulla
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0
σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0.9
3
Contour plots
σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
4
Definizione
La correlazione tra le variabili aleatorie X e Y è la quantità :
σ
cov( X , Y )
= XY
ρ=
σ
Var ( X )Var (Y )
Xσ Y
Se la covarianza tra due variabili aleatorie è positiva, negativa o nulla, anche la
correlazione sarà positiva, negativa o nulla.
Teorema
La correlazione tra le variabili aleatorie X e Y gode della seguente proprietà :
-1 ≤ ρ ≤ 1
Si dicono incor r elate (linear mente), due var iabili aleator ie con cor r elaz ione nulla.
Teorema
Due variabili aleatorie X e Y indipendenti
sono incorrelate.
Il viceversa non vale a meno
che X e Y non siano normali.
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
Colonna 1 Colonna 2
Colonna 1 0,035836
Colonna 2 0,535655
9,1251
Covarianza tra X e Y con Excel
Colonna 1 Colonna 2
Colonna 1
1
Colonna 2 0,936715
1
Correlazione tra X e
Y con Excel
1 n
(xi − x )(yi − y )
n i =1
Cov
Corr =
SxS y
Cov =
∑
5
Osservazioni Liv.Idrocarbonio Purezza
1
0,99
90,01
2
1,02
89,05
3
1,15
91,43
4
1,29
93,74
5
1,46
96,73
6
1,36
94,45
7
0,87
87,59
8
1,23
91,77
9
1,55
99,42
10
1,4
93,65
11
1,19
93,54
12
1,15
92,52
13
0,98
90,56
14
1,01
89,54
15
1,11
89,85
16
1,2
90,39
17
1,26
93,25
18
1,32
93,41
19
1,43
94,98
20
0,95
87,33
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
6
102
100
y-Purezza
98
96
94
92
90
88
86
0,85
x-livello di Idrocarbonio
β 0 eβ1 sono denominati coefficien ti di regressione.
Osservazioni Liv.Idrocarbonio Purezza
1
0,99
90,01
2
1,02
89,05
3
1,15
91,43
4
1,29
93,74
5
1,46
96,73
6
1,36
94,45
7
0,87
87,59
8
1,23
91,77
9
1,55
99,42
10
1,4
93,65
11
1,19
93,54
12
1,15
92,52
13
0,98
90,56
14
1,01
89,54
15
1,11
89,85
16
1,2
90,39
17
1,26
93,25
18
1,32
93,41
19
1,43
94,98
20
0,95
87,33
β 0 , β 1 coefficienti di regressione
X (livello di idrocarbonio) var. aleat. indipendente
Y (purezza dell' ossigeno) var. aleat. dipendente
Y = β 0 + β1 X + ε
ε (errore casuale), E[ε ] = 0, Var[ε ] = σ 2 .
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
7
IL METODO DEI MINIMI QUADRATI
Siano ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) le n coppie di osservazioni relative alla coppia
di variabili aleatorie ( X , Y ). Per stimare i coefficienti β 0 e β 1 , è possibile " minimiz -
Soluzioni
zare la somma dei quadrati" delle distanze di y i da β 0 + β 1 xi .
n
βˆ 0 = y − βˆ1 x , βˆ1 =
∑x y
i
i =1
n
∑x
i =1
i
2
i
n
−n y x
, dove y =
− nx 2
∑y
i =1
n
n
i
, x=
∑x
i =1
i
n
La retta di regressione stimata è yˆ = βˆ0 + βˆ1 x
Interc etta
V ariabile X 1
Coeffic ienti E rrore s tandard
74,28331424
1,593473376
14,94747973
1,31675827
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
8
Y
Tracciato delle approssimazioni
105
100
95
90
85
Y
Y prevista
0
0,5
1
1,5
2
La retta di regressione stimata è yˆ= 74,2 + 14,9 x
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
9
Analisi dei residui (adeguatezza del modello)
Si dicono residui le quantità ei = y i − yˆi = y i − βˆo − βˆ1 x i .
I residui sono osservazioni della v.a.
ε
Tracciato dei residui
Residui
4
2
0
-2 0
0,5
1
1,5
2
-4
DUBBIO
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
10
Osservazione
1
2
3
4
5
6
7
8
9
Y prevista
89,08131918
89,52974357
91,47291593
93,56556309
96,10663465
94,61188668
87,28762161
92,66871431
97,45190783
Residui
Residui standard
0,928680825
0,878143888
-0,479743567
-0,45363689
-0,042915932
-0,040580534
0,174436905
0,164944401
0,623365351
0,589443066
-0,161886676
-0,15307713
0,302378393
0,285923571
-0,898714311
-0,849808091
1,968092175
1,86099257
 n 2

ei 

 =σ 2
i =1
i =1
i =1
=
⇒ Si dimostra che E
ES = Errore standard =
n−2
n−2
n−2 




L' errore standard è una misura che indica la quantità di errori commessi nella pre visione del valore di y per ciascun valore di x.
n
n
∑e
∑ ( y − yˆ)
2
i
i
Statistica della regressione
R multiplo
0,936715381
R al quadrato
0,877435705
R al quadrato corretto 0,870626578
Errore standard
1,086529053
Osservazioni
20
∑
2
i
Esprime quanta parte della
variabilità della variabile dipendente
è spiegata dalla variabilità della
variabile indipendente
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
Istogram m a
5
4
3
2
1
3
A ltro
2
2,5
1
1,5
0
0,5
-1
-0,5
-2
-1,5
-3
-2,5
0
Istogramma dei residui
standardizzati.
Dal grafico si deduce che
la variabile aleatoria errore ε
standardizzata ha una distribuzione
approssimativamente normale.
11
Classe Frequenza % cumulativa
-3
0
,00%
-2,5
0
,00%
-2
0
,00%
-1,5
1
5,00%
-1
2
15,00%
-0,5
4
35,00%
0
3
50,00%
0,5
4
70,00%
1
3
85,00%
1,5
1
90,00%
2
2
100,00%
2,5
0
100,00%
3
0
100,00%
Altro
0
100,00%
Verificare l’ipotesi
di normalità con un
test chi-quadrato.
NB: se i residui hanno una distribuzione normale, si attestano nell’
intervallo (-2,2)
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
12
Attenzione agli outliers
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
13
I cambiamenti di scala
Indagine epidemiologica:
somministrazione di un
nuovo tipo di vaccino ritenuto efficace nella cura del
contagio della febbre da tifo.
Corr=-0.91
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
14
Grafico dei residui
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
15
Previsione per l’anno 1985:
Probabilità e Statistica - Analisi della Regressione - a.a. 04/05
16