Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Esercitazione 8
Statistica
Studio della
dipendenza
La retta di
regressione
Alfonso Iodice D’Enza
[email protected]
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
Università degli studi di Cassino
A. Iodice ()
Esercitazione 8
Statistica
1 / 33
Outline
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
1
Il coefficiente di correlazione lineare
2
Studio della dipendenza
3
La retta di regressione
4
Qualità della soluzione trovata
5
Outliers
6
Regressione su tabella a doppia entrata
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
2 / 33
Misura del legame
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Nel caso di variabili quantitative preferibile utilizzare una misura del legame che
coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili.
Le componenti della variabile doppia X e Y possono essere caratterizzate da
diversa posizione e variabilità, risulta in genere che
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
µx 6= µy e σx 6= σy
Volendo misurare le variazioni congiunte delle modalità di X ed Y , si fa
riferimento alla versione standardizzata delle variabili, data da
Zx =
Outliers
Regressione su
tabella a
doppia entrata
X − µx
Y − µy
e Zy =
σx
σy
questo per escludere dalla misura del legame gli effetti della differente media e
varianza (essendo µx 6= µy e σx 6= σy )
A. Iodice ()
Esercitazione 8
Statistica
3 / 33
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
L’indice corrispondente alla media aritmetica del prodotto delle modalità
standardizzate delle variabili si definisce coefficiente di correlazione lineare di
Pearson ρ ed dato da
ρxy =
Studio della
dipendenza
La retta di
regressione
Con piccole trasformazioni si ottiene la presente formalizzazione
Qualità della
soluzione
trovata
ρxy =
Outliers
Regressione su
tabella a
doppia entrata
n
n 1 X xi − µx
yi − µy
1X
(zx,i zy,i ) =
×
n i=1
n i=1
σx
σy
1
n
Pn
i=1 (xi
− µx )(yi − µy )
σx σy
=
σxy
σx σy
La quantità al numeratore si definisce covarianza: essa corrisponde alla media del
prodotto degli scarti delle modalità di X e Y dalle rispettive medie. La covarianza
misura la contenporanea variazione di X e Y con riferimento alle loro medie.
A. Iodice ()
Esercitazione 8
Statistica
4 / 33
Proprietà del coefficiente di correlazione
Esercitazione
8
A. Iodice
se X e Y sono indipendenti, allora ρxy = 0 (NON vale il
contrario)
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
se ρxy = 1, allora Y = α + βX (ovvero Y una
trasformazione lineare di X )
La retta di
regressione
Qualità della
soluzione
trovata
se ρxy = −1, allora Y = α − βX (ovvero Y una
trasformazione lineare di X )
Outliers
ρxy = ρyx
Regressione su
tabella a
doppia entrata
ρxx = 0
A. Iodice ()
Esercitazione 8
Statistica
5 / 33
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Esercizio
Si considerino i voti riportati da n = 8 studenti negli esami di
matematica e statistica.
Studio della
dipendenza
1
2
3
4
5
6
7
8
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
matematica(xi )
24
27
30
26
29
18
21
22
statistica(yi )
23
28
30
27
30
20
20
25
Si misuri il legame lineare che caratterizza le due variabili
A. Iodice ()
Esercitazione 8
Statistica
6 / 33
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
8
A. Iodice
Svolgimento
É necessario calcolare le medie aritmetiche µ e gli scarti quadratici medi σ
Il voto medio ottenuto dagli studenti all’esame di matematica è
Il coefficiente
di correlazione
lineare
µm =
P8
i=1 xi
n
= 197
= 24.625
8
Il voto medio ottenuto dagli studenti all’esame di statistica è µs =
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
1
2
3
4
5
6
7
8
xi
24
27
30
26
29
18
21
22
yi
23
28
30
27
30
20
20
25
T ot
197
203
xi − µx
-0.62
2.38
5.38
1.38
4.38
-6.62
-3.62
-2.62
yi − µy
-2.38
2.62
4.62
1.62
4.62
-5.38
-5.38
-0.38
sP
8
i=1
scarti quadratici medi: σm =
σs =
A. Iodice ()
8
i=1
(yi − µy )2
5.64
6.89
21.39
2.64
21.39
28.89
28.89
0.14
119.875
115.875
(xi − µm )2
Esercitazione 8
(yi − µs )2
n
= 203
= 25.375
8
(xi − µx )2
0.39
5.64
28.89
1.89
19.14
43.89
13.14
6.89
n
sP
P8
i=1 yi
n
s
=
s
=
119.875
8
115.875
8
= 3.87
= 3.805
Statistica
7 / 33
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
8
A. Iodice
Svolgimento
Per calcolare il coefficiente di correlazione lineare resta da calcolare la covarianza, ovvero la media aritmetica
del prodotto degli scarti dalla media.
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
1
2
3
4
5
6
7
8
xi
24.00
27.00
30.00
26.00
29.00
18.00
21.00
22.00
yi
23.00
28.00
30.00
27.00
30.00
20.00
20.00
25.00
T ot
197
203
La covarianza è
P8
σms =
i=1
xi − µx
-0.62
2.38
5.38
1.38
4.38
-6.62
-3.62
-2.62
yi − µ y
-2.38
2.62
4.62
1.62
4.62
-5.38
-5.38
-0.38
(xi − µx ) × (yi − µy )
1.48
6.23
24.86
2.23
20.23
35.61
19.48
0.98
111.125
(xi − µm )(yi − µs )
n
=
111.125
8
= 13.89
É ora possibile calcolare il coefficiente di correlazione dato da
ρms =
A. Iodice ()
σms
σ m σs
=
13.89
3.87 × 3.805
Esercitazione 8
= 0.943
Statistica
8 / 33
Metodo alternativo per il calcolo di ρ
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Da un punto di vista computazionale risulta conveniente l’utilizzo della seguente
formulazione alternativa del coefficiente diPcorrelazione
Pn lineare ρ basata sulle
n
somme delle modalità delle componenti ( P
i ), sulle somme dei
i=1
i=1 xi ,
Py
n
2
2
quadrati delle modalità delle P
componenti ( n
i=1 (yi ) ), sulla somma
i=1 (xi ) ,
x
y
)
dei prodotti tra le modalità ( n
i=1 i i
Qualità della
soluzione
trovata
ρ= q
P
Pn
xi yi − n
i=1 yi
i=1 xi
Pn
2
Pn
2
Pn
Pn
2
2
(n i=1 (xi ) −
i=1 xi )(n
i=1 (yi ) −
i=1 yi )
n
Pn
i=1
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
9 / 33
Metodo alternativo per il calcolo di ρ
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
1
2
3
4
5
6
7
8
Qualità della
soluzione
trovata
xi
24
27
30
26
29
18
21
22
P
x = 197
yi
23
28
30
27
30
20
20
25
P
y = 203
x2i
576
729
900
676
841
324
441
484
P 2
x = 4971
yi2
529
784
900
729
900
400
400
625
P 2
y = 5267
xi yi
552
756
900
702
870
360
420
550
P
xy = 5110
Outliers
Pn
P
Pn
n n
i=1 xi
i=1 yi
i=1 xi yi −
ρ= q P
Pn
2
Pn
2 =
Pn
n
2
2
(n i=1 (xi ) −
i=1 xi )(n
i=1 (yi ) −
i=1 yi )
Regressione su
tabella a
doppia entrata
8 × 5110 − (197 × 203)
= p
= 0.943
(8 × 4971 − (197)2 ) × (8 × 5267 − (203)2 )
A. Iodice ()
Esercitazione 8
Statistica
10 / 33
Coefficiente di correlazione: esempi di casi limite
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
11 / 33
Coefficiente di correlazione: esempi di casi limite
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
11 / 33
Coefficiente di correlazione: esempi di casi limite
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
11 / 33
Coefficiente di correlazione: esempi di casi limite
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
11 / 33
Dipendenza lineare
Esercitazione
8
A. Iodice
Lo studio della relazione tra caratteri statistici è, nel caso della interdipendenza, di tipo simmetrico: due
caratteri quantitativi X e Y hanno lo stesso ruolo e si vuole studiare se essi siano indipendenti o meno. A
questo scopo sono stati introdotti gli indici di covarianza σxy e di correlazione lineare ρ. Si consideri di aver
osservato due caratteri quantitativi X ed Y . Si riportano i valori e il grafico di dispersione:
Il coefficiente
di correlazione
lineare
Il diagramma di dispersione (scatter plot)
Studio della
dipendenza
1
2
3
4
5
6
7
8
9
10
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Y
28
21
63
42
28
2
80
19
33
60
376
X
11
8
28
17
9
4
28
5
12
23
145
Esercitazione 8
Statistica
12 / 33
Dipendenza lineare
Esercitazione
8
covarianza e coefficiente di correlazione
A. Iodice
µx =
Il coefficiente
di correlazione
lineare
µy =
σx =
Studio della
dipendenza
P10
i=1 xi = 14.5
10
P10
i=1 yi = 37.6
10
rP
10 (x −µ )2
x
i
i=1
10
rP
σy =
La retta di
regressione
σxy =
Qualità della
soluzione
trovata
ρxy =
10 (y −µ )2
y
i
i=1
10
= 8.57
= 22.49
P10
i=1 (xi −µx )(yi −µy )
10
σxy
=
0.97
σx σy
= 187.3
Outliers
Dipendenza funzionale lineare
Regressione su
tabella a
doppia entrata
Essendo il valore del coefficiente di correlazione lineare prossimo ad 1 esiste una forte relazione lineare tra X
ed Y . Come confermato dal grafico di dispersione, i dati sono approssimativamente allineati lungo una retta
crescente. Ci si può dunque aspettare che sussista una relazione funzionale tra i dati del tipo
Y = f (X) = b0 + b1 X
che rappresenta l’equazione di una retta passante attraverso la nube di punti di coordinate (xi , yi ).
A. Iodice ()
Esercitazione 8
Statistica
13 / 33
La retta di regressione
Esercitazione
8
rette passanti per la nube di punti
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
La retta di regressione
La retta di regressione fornisce una
approssimazione della dipendenza dei valori
di Y dai valori di X. La relazione di
dipendenza non è esattamente riprodotta
dalla retta; i valori yi∗ = b0 + b1 xi sono
dunque i valori teorici, ovvero i valori che la
variabile Y assume, secondo il modello
Y = b0 + b1 X, in corrispondenza dei
valori xi osservati.
Outliers
Regressione su
tabella a
doppia entrata
Determinazione della retta di regressione
L’identificazione della retta avviene attraverso la determinazione dei valori di b0 , l’intercetta, e b1 , il
coefficiente angolare o pendenza. La retta ’migliore’ è quella che passa più ’vicina’ ai punti osservati. In altre
parole, si vuole trovare la retta per la quale le differenze tra i valori teorici yi∗ e i valori osservati yi siano
minime.
A. Iodice ()
Esercitazione 8
Statistica
14 / 33
La retta di regressione
Esercitazione
8
A. Iodice
I residui
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
le differenze tra i valori teorici yi∗ e i valori osservati yi
vengono definite residui. La retta di regressione è tale che
la somma dei residui al quadrato sia minima. Formalmente
Ricerca dei parametri della retta di regressione:(b0 )
n
n
n
X
X
X
2
∗ 2
2
ei =
(yi − yi ) =
(yi − b0 − b1 xi )
i=1
i=1
i=1
−2
Il problema consiste dunque nel ricercare b0 e b1 che
minimizzano la precedente espressione. Da un punto di vista
operativo bisogna risolvere il seguente sistema di equazioni
∂
Outliers
n
X
∂b0 i=1
Regressione su
tabella a
doppia entrata
∂
n
X
∂b1 i=1
A. Iodice ()
n
X
(yi − b0 − b1 xi ) =
i=1
n
X
yi − n ∗ b0 − b1
i=1
2
=0
2
=0
(yi − b0 − b1 xi )
(yi − b0 − b1 xi )
Esercitazione 8
n
X
xi = 0
i=1
b0 = µ y − b1 µ x
Statistica
15 / 33
La retta di regressione
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
I residui
le differenze tra i valori teorici yi∗ e i valori
osservati yi vengono definite residui. La
retta di regressione è tale che la somma dei
residui al quadrato sia minima.
Ricerca dei parametri della retta di regressione:(b1 )
Formalmente
n
n
X
X
2
∗ 2
ei =
(yi − yi ) =
i=1
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
=
n
X
−2
i=1
n
X
2
(yi − b0 − b1 xi )
∂b0 i=1
∂
n
X
∂b1 i=1
A. Iodice ()
xi yi − b0
i=1
Il problema consiste dunque nel ricercare
b0 e b1 che minimizzano la precedente
espressione. Da un punto di vista operativo
bisogna risolvere il seguente sistema di
equazioni
n
X
xi (yi − b0 − b1 xi ) = 0
i=1
i=1
∂
n
X
b1
n
X
n
2
=0
2
=0
(yi − b0 − b1 xi )
2
xi =
n
X
2
xi
n
Esercitazione 8
n
X
−(
Pn
i=1
xi
n
!
2
xi )
=n
n
X
i=1
Pn
yi
Pn
− b1
i=1
n
X
n
X
xi yi −
xi
!
n
xi
i=1
yi
i=1
Pn
σxy
xi yi − i=1 xi i=1 yi
=
Pn
Pn
2
2
2
σx
i=1 xi − ( i=1 xi )
i=1
n
2
xi = 0
i=1
n
X
i=1
Pn
n
X
i=1
xi y i −
i=1
n
X
i=1
b1 =
(yi − b0 − b1 xi )
xi − b1
i=1
i=1
b1
n
X
Statistica
16 / 33
Determinazione della retta di regressione
Esercitazione
8
A. Iodice
Calcolo dei coefficienti
Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha
b1 =
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
σxy
2
σx
= 2.55
b0 = µy − b1 µx = 37.6 − (2.55 ∗ 14.5) = 0.62
La retta ’migliore’
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
17 / 33
Interpretazione dei valori dei coefficienti di
regressione
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
b0 rappresenta l’intercetta della retta di regressione ed
indica il valore della variabile di risposta Y quando il
predittore X assume valore 0.
Studio della
dipendenza
La retta di
regressione
b1 rappresenta l’inclinazione della retta di regressione,
ovvero la variazione della variabile di risposta Y in
conseguenza di un aumento unitario del predittore X.
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
18 / 33
Bontà di adattamento
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
Esistono diversi strumenti grafici ed analitici per valutare la
bontà dell’adattamento della retta di regressione ai dati
La retta di
regressione
Strumenti grafici: plot dei residui
Qualità della
soluzione
trovata
Strumenti analitici:coefficiente di determinazione lineare
R2
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
19 / 33
Plot dei residui
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed
X è necessario che i residui abbiano un andamento casuale rispetto ai valori della X. Se, ad esempio,
all’aumentare dei valori della X aumentassero sistematicamente anche i residui, allora la relazione potrebbe
non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
Plot dei residui
Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad X, è possibile utilizzare un
diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n)
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
20 / 33
coefficiente di determinazione lineare R2
Esercitazione
8
Ricordando che la devianza il numeratore della varianza...
A. Iodice
Devy =
Il coefficiente
di correlazione
lineare
2
(yi − µy )
=
i=1
=
Studio della
dipendenza
n
X
=
n
X
n
X
2
(yi − ŷi ) +
n
X
2
(ŷi − µy ) + 2
2
(yi − ŷi ) +
n
X
Dev(y) =
n
X
n
X
i=1
A. Iodice ()
2
(yi − ŷi )(ŷi − µy )
n
X
i=1
Pn
i=1
ŷi =
n
X
2
(yi − ŷi ) +
i=1
=
n
X
(ŷi − µy ) + 2(
i=1
Il metodo dei minimi quadrati assicura che
Regressione su
tabella a
doppia entrata
=
i=1
i=1
i=1
Outliers
2
(yi − ŷi + ŷi − µy )
i=1
i=1
La retta di
regressione
Qualità della
soluzione
trovata
n
X
Pn
i=1
2
n
X
2
(ŷi − µy ) + 2 ∗ 0 ∗ (
n
X
ŷi )(
i=1
n
X
ŷi − nµy )
i=1
yi , quindi
i=1
(ŷi − µy ) +
yi −
n
X
ŷi − nµy )
i=1
2
(yi − ŷi )
= Devr + Deve
i=1
Esercitazione 8
Statistica
21 / 33
Decomposizione della devianza
Esercitazione
8
La devianza può essere decomposta dunque nelle seguenti quantità Devy = Devr + Deve
A. Iodice
Il coefficiente
di correlazione
lineare
Devy =
Pn
(yi − µy )2 devianza totale
Devr =
Pn
(ŷi − µy )2 devianza di regressione
Deve =
Pn
(yi − ŷi )2 devianza dei residui
i=1
i=1
i=1
Interpretazione grafica
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
22 / 33
Bontà dell’adattamento
Esercitazione
8
A. Iodice
Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale
che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà
la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di
determinazione lineare R2 , dato da
Il coefficiente
di correlazione
lineare
R
2
=
Devr
Devy
ovvero
Studio della
dipendenza
R
2
=1−
Deve
Devy
Pn
= Pi=1
n
(ŷi − µy )2
2
i=1 (yi − µy )
Pn
(yi − ŷi )2
= 1 − P i=1
n
(y − µ )2
i=1
i
y
La retta di
regressione
Qualità della
soluzione
trovata
esempio di calcolo R2
Outliers
Regressione su
tabella a
doppia entrata
Devy =
Pn
Devr =
Pn
Deve =
Pn
i=1
(yi − µy )2 = 5058.4
2
i=1 (ŷi − µy ) = 4776.214
i=1
(yi − ŷi )2 = 282.1862
R
ovvero
R
A. Iodice ()
2
=1−
2
=
Deve
Devy
Devr
Devy
=1−
4776.214
=
5058.4
282.1862
5058.4
Esercitazione 8
= 0.94
= 1 − 10.53 = 0.94
Statistica
23 / 33
Influenza di un outlier sulla soluzione
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Un piccolo esempio
Si considerino le seguenti
osservazioni
Retta di regressione
La soluzione induce a concludere che vi sia una relazione di proporzionalità
inversa: poichè la retta è decrescente si deduce che all’aumentare di X, la
variabile dipendente Y diminuisce.
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
24 / 33
Influenza di un outlier sulla soluzione
Esercitazione
8
Retta di regressione
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
Un (altro) piccolo esempio
Si considerino le osservazioni
precedenti a cui è aggiunta un
unica coppia di valori (8, 8). I
dati sono
La retta di
regressione
Qualità della
soluzione
trovata
In questo caso, la sola presenza della nuova osservazione conduce
all’identificazione di una retta di regressione diversa dalla prima:
l’inclinazione positiva della retta indica una relazione di diretta
proporzionalità. Tuttavia tale soluzione è unicamente dovuta dalla presenza
dell’ osservazione (8, 8) che pertanto induce a valutare la relazione di
dipendenza tra Y ed X in maniera errata. L’osservazione (8, 8) si definisce
pertanto un outlier. L’identificazione e la conseguente eliminazione degli
eventuali outlier è un elemento molto importante nello studio della
dipendenza tra fenomeni.
Outliers
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
25 / 33
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
Si consideri di aver osservato su 10 rivenditori di componenti
informatiche le variabili numero di punti vendita e Fatturato
settimanale complessivo. Si studi la dipendenza del fatturato dal
numero di punti vendita.
La retta di
regressione
fino a 5000
tra 5000 e 1000
Qualità della
soluzione
trovata
fino a 2
3
1
tra 2 e 4
2
2
tra 4 e 6
0
2
Outliers
Si stimino i coefficienti della retta di regressione.
Regressione su
tabella a
doppia entrata
Si valuti la bontà di adattamento della retta ai dati.
A. Iodice ()
Esercitazione 8
Statistica
26 / 33
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
A. Iodice
Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai
centri di ciascun intervallo. La tabella è dunque data da
Il coefficiente
di correlazione
lineare
Y /X
2500
7500
Tot
Studio della
dipendenza
La retta di
regressione
1
3
1
4
3
2
2
4
5
0
2
2
Tot
5
5
10
Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze:
Qualità della
soluzione
trovata
µx =
k
1 X
n j=1
xj n.j =
1
10
× (1 × 4) + (3 × 4) + (5 × 2) =
4 + 12 + 10
10
= 2.6
Outliers
Regressione su
tabella a
doppia entrata
µy =
h
1X
n i=1
yi ni. =
1
10
× (2500 × 5) + (7500 × 5) =
12500 + 37500
10
= 5000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Esercitazione 8
Statistica
27 / 33
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato
A. Iodice
Y /X
(2500 − 5000)2
(7500 − 5000)2
Tot
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
(1 − 2.6)2
3
1
4
(3 − 2.6)2
2
2
4
(5 − 2.6)2
0
2
2
Tot
5
5
10
Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze:
La retta di
regressione
2
σx =
Qualità della
soluzione
trovata
k
1 X
2
n j=1
(xj − µx ) n.j =
2
+ ((5 − 2.6) × 2) =
1
10
10.24 + 0.64 + 11.52
10
Outliers
Regressione su
tabella a
doppia entrata
2
σy =
=
h
1X
n i=1
2
2
(yi − µy ) ni. =
31250000 + 31250000
10
2
× ((1 − 2.6) × 4) + ((3 − 2.6) × 4)+
1
10
= 2.24
2
2
× (2500 × 5) + (7500 × 5)
= 6250000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Esercitazione 8
Statistica
28 / 33
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza.
Y /X
(2500 − 5000)
(7500 − 5000)
Tot
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
σxy =
h X
k
1 X
n i=1 j=1
(1 − 2.6)
3
1
4
(3 − 2.6)
2
2
4
(5 − 2.6)
0
2
2
yi
xi
yi − µ y
xi − µx
2500
2500
2500
2500
2500
7500
7500
7500
7500
7500
1
1
1
3
3
1
3
3
5
5
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(1-2.6)
(1-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(5-2.6)
(5-2.6)
Tot
5
5
10
(yi − µy ) × (xj − µx ) × nij =
1
((2500 − 5000)(1 − 2.6) × 3 + (2500 − 5000)(3 − 2.6) × 2+
10
+ (7500 − 5000)(1 − 2.6) × 1 + (7500 − 5000)(3 − 2.6) × 2+
=
+ (7500 − 5000)(5 − 2.6) × 2) =
A. Iodice ()
12000 − 2000 − 4000 + 2000 + 12000
Esercitazione 8
10
= 2000
Statistica
29 / 33
Esercizio regressione: distribuzione doppia di
frequenze
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
Avendo calcolato le quantità µx = 2.6, µy = 5000, σx2 = 2.24 e
σxy = 2000, è possibile calcolare i coefficienti della retta di
regressione
Calcolo dei coefficienti
b1 =
La retta di
regressione
Qualità della
soluzione
trovata
σxy
σx2
=
2000
2.24
= 892.571
b0 = µy − b1 µx = 5000 − (892.571 ∗ 2.6) = 2679.315
quindi l’equazione della retta di regressione è
Outliers
Regressione su
tabella a
doppia entrata
y = b0 + b1 x = 2679.315 + 892.571x
Dunque, il valore stimato ŷi corrispondente ad un valore xi
assegnato è ŷi = b0 + b1 x.
A. Iodice ()
Esercitazione 8
Statistica
30 / 33
Valutazione della bontà di adattamento
Esercitazione
8
A. Iodice
Ricordando che
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
R
=
Devr
Devy
Pn
= Pi=1
n
i=1
ovvero
R
2
=1−
Deve
Devy
(ŷi − µy )2
(yi − µy )2
Pn
= 1 − P i=1
n
(yi − ŷi )2
2
i=1 (yi − µy )
con Devy = Devr + Deve
Qualità della
soluzione
trovata
Outliers
Regressione su
tabella a
doppia entrata
2
Devy =
Pn
(yi − µy )2 devianza totale
Devr =
Pn
(ŷi − µy )2 devianza di regressione
Deve =
Pn
(yi − ŷi )2 devianza dei residui
i=1
i=1
i=1
Per ottenere R2 , misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo
2
già calcolato σy
.
A. Iodice ()
Esercitazione 8
Statistica
31 / 33
Calcolo della devianza dei residui
Esercitazione
8
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
La retta di
regressione
Deve =
Pn
i=1
(yi − ŷi )2 devianza dei residui
in base alla retta di regressione stimata, i valori ŷi stimati in funzione
dei valori xi sono
ŷ1 = b0 + b1 x1 = 2679.315 + 892.571 × 1 = 3571.886
Qualità della
soluzione
trovata
ŷ2 = b0 + b1 x2 = 2679.315 + 892.571 × 3 = 5357.028
Outliers
ŷ3 = b0 + b1 x3 = 2679.315 + 892.571 × 5 = 7142.17
Regressione su
tabella a
doppia entrata
A. Iodice ()
Esercitazione 8
Statistica
32 / 33
Calcolo della devianza dei residui
Esercitazione
8
Per calcolare i residui yi − ŷi nel caso di tabella a doppia entrata si procede come segue
yi /ŷj
y1 = 2500
y2 = 7500
Tot
A. Iodice
Il coefficiente
di correlazione
lineare
Studio della
dipendenza
Deve =
Ph
i=1
ŷ1 = 3571.886
3
1
4
Pk
i=1
La retta di
regressione
calcolo della devianza dei residui
Qualità della
soluzione
trovata
Deve =
h X
k
X
ŷ2 = 5357.028
2
2
4
ŷ3 = 7142.17
0
2
2
Tot
5
5
10
((yi − ŷj )2 ) × nij devianza dei residui per tabella doppia
2
2
2
((yi − ŷj ) ) × nij = ((2500 − 3571.886) ) × 3 + ((2500 − 5357.028) ) × 2+
i=1 j=1
2
2
2
+ ((7500 − 3571.886) ) × 1 + ((7500 − 5357.028) ) × 2 + ((7500 − 7142.17) ) × 2 =
Outliers
= 44642859
Regressione su
tabella a
doppia entrata
devy =
n
X
2
(yi − µy )
2
= σy × n = 6250000 × 10 = 62500000
i=1
R
A. Iodice ()
2
=1−
deve
devy
Esercitazione 8
= 1 − 0.71 = 0.29
Statistica
33 / 33