Statistica

annuncio pubblicitario
Corso di Laurea: Diritto per le Imprese e le istituzioni
a.a. 2016-17
Statistica
Statistica Descrittiva Bivariata 2
Esercizi: 9, 10
Docente: Alessandra Durio
0
Corso di Laurea: Diritto per le Imprese e le istituzioni
a.a. 2016-17
Statistica
Statistica Descrittiva Bivariata 2
Esercizi: 9, 10
Docente: Alessandra Durio
1
Contenuti degli ESECIZI
•La covarianza e il coefficiente di correlazione lineare
•La regressione lineare
2
Esercizio 5.1
Esercizio 7.8: Testo
Si sono eseguite 500 misurazioni della temperatura (Y) dell’acqua
di un lago percorso da correnti a diverse profondità (X) ottenendo
la seguente distribuzione di frequenze congiunte:
Temperatura Y !
Profondità X #
5 a 10
10 a 15
15 a 20
5 |10
10 |20
20 |25
40
80
80
10
100
20
50
20
100
Si proceda a:
calcolare media e varianza dell temperatura del lago;
individuare la distribuzione della profondità condizionata alla
temperatura massima;
calcolare la covarianza di X e Y, nonché il corrispondente
coefficiente di correlazione lineare.
3
Esercizio 5.1: soluzione (i)
Esercizio 7.8 - Soluzione
—i
Riproponiamo la distribuzione di frequenze congiunte della v.s.
(X, Y) aggiungendo alla tabella le frequenze marginali e i centri di
classe:
Temperatura Y !
Profondità X #
5 a 10
10 a 15
15 a 20
ni·
(7.5)
(12.5)
(17.5)
5 a 10 10 a 20 20 a 25
(7.5) (15.0) (22.5)
40
80
80
200
10
100
20
130
50
20
100
170
n·j
100
200
200
500
4
Esercizio 7.8Esercizio
- Soluzione
—
ii
5.1: soluzione (ii)
Dalla distribuzione di frequenze di Y (con centri di classe)
⇢
⇢
yj
7.5 15.0 22.5
Y⌘
=
200 130 170
n·j j=1,2,3
ricaviamo
1
E[Y] =
(7.5 · 200 + 15.0 · 130 + 22.5 · 170) = 14.55
500
⇣
⌘
1
E[Y 2 ] =
7.52 · 200 + 15.02 · 130 + 22.52 · 170 = 253.125
500
V[Y] = E[Y 2 ] (E[Y])2 = 253.125 14.552 = 41.4225
e pertanto scarto quadratico medio sY =
p
41.4225 = 6.436031.
5
Esercizio 7.8 Esercizio
- Soluzione
— iii(iii)
5.1: soluzione
Per rispondere al secondo quesito è sufficiente costruire la
distribuzione di frequenze (in termini di frequenze relative) della
v.s. condizionata X|Y = y3 .
Pertanto dalla distribuzione di frequenze congiunte ricaviamo
X|Y = y3 ⌘
⇢
xi
ni3
n.3
=
i=1,2,3
(
)
7.5 12.5 17.5
50
20 100 =
170 170 170
⇢
7.5 12.5 17.5
=
0.29 0.12 0.59
6
5.1: soluzione
Esercizio 7.8 -Esercizio
Soluzione
— iv (iv)
Ricordiamo innanzitutto che la Covarianza tra le variabili
statistiche X e Y è definita come
Cov[X, Y] = E[(X
E[X]) · E[(Y
E[Y])]
mentre dal punto di vista computazionale conviene ricorrere alla
proprietà
Cov[X, Y] = E[X · Y] E[X] · E[Y]
(1)
Per rispondere al quesito occorrerà dunque calcolare i tre valori
medi
E[X · Y]
E[X]
E[Y]
e successivamente applicare l’equazione (1).
7
Esercizio 5.1: soluzione (v)
Esercizio 7.8 - Soluzione — v
La media della v.s.Y è già stata calcolata ed è E[Y] = 14.55.
Per la media della v.s. X, dalla distribuzione marginale ricaviamo
E[X] =
1
(7.5 · 100 + 12.5 · 200 + 17.5 · 200) = 13.5
500
Per il valor medio E[X · Y], dalla distribuzione di frequenze
congiunte della v.s. (X, Y) ricaviamo
1 r s
E[X · Y] = Â Â xi · yj · nij =
n i=1 j=1
1
=
(7.5 · 7.5 · 40 + ·7.5 · 15.0 · 10 + . . . + 17.5 · 22.5 · 100) =
500
98812.5
=
= 197.625
500
Sicché dalla (1): Cov[X, Y] = 197.625
13.5 · 14.55 = 1.2
8
Esercizio 7.8 -Esercizio
Soluzione
— vi (vi)
5.1: soluzione
Quanto al coefficiente di correlazione lineare definito come
Cov[X, Y]
p
r=
V[X] · V[X]
sapendo che V[Y] = 41.4225 e calcolata la varianza di X
⇣
⌘
1
E[X 2 ] =
7.52 · 100 + 12.52 · 200 + 27.52 · 200 = 196.25
500
V[X] = E[X 2 ] (E[X])2 = 196.25 13.52 = 14
avremo
1.2
r=p
= 0.04983
41.4225 · 14
...Tale risultato non deve sorprendere ...
9
5
10
15
µY = 14.55
0
Temperatura (Y)
20
µX = 13.5
25
Esercizio 7.8 - Soluzione
—
vii
Esercizio 5.1: soluzione (vi)i
0
5
10
15
Profondità (X)
20
25
10
Esercizio 5.2
Esercizio 7.10: Testo
Di una variabile statistica bivariata (X, Y) è noto che
1
E[X] = · E[Y] = 6
2
1
2
E[X ] = · E[Y 2 ] = 52
4
6
E[X · Y] = · E[X] · E[Y]
5
Calcolare Cov[X, Y] e rX,Y .
Introdotte, ora, le trasformate
Z=
X
µX
sX
W=
Y
µY
sY
11
Esercizio 5.2: soluzione
Esercizio 7.10 - Soluzione
—i
Dai dati in nostro possesso ricaviamo
E[X] = 6
e
E[Y] = 12
(essendo E[Y] = 2 · E[X])
E[X 2 ] = 52 e E[Y 2 ] = 208 (essendo E[Y 2 ] = 4 · E[X 2 ])
6
E[X · Y] = · E[X] · E[Y] = 86.4
5
e pertanto
V[X] = E[X 2 ]
(E[X])2 = 52
V[Y] = E[Y 2 ]
(E[Y])2 = 208
36 = 16
144 = 64
Cov[X, Y] = E[X · Y] E[X] · E[Y] = 86.4
14.4
Cov[X, Y]
p
rX,Y =
=
= 0.45
4
·
8
V[X] · V[Y]
72 = 14.4
12
Contenuti degli ESECIZI
•La covarianza e il coefficiente di correlazione lineare
•La regressione lineare
13
Esercizio .2: Testo Esercizio 5.3
La rilevazione del numero di dipendenti (X) e del fatturato
giornaliero (Y), su un collettvo statistico costituito da 70 esercizi
pubblici ha dato luogo alla seguente distribuzione di frequenze
congiunte:
X#
1
2
3
4
Y!
200 a 400
10
4
1
0
400 a 800
5
12
2
1
800 a 1000
2
2
11
6
1000 a 2000
0
1
3
10
Si proceda a:
calcolare i parametri della retta di regressione Ŷ = a0 + a1 X;
calcolare la varianza dei residui di regressione nonché il
coefficiente di determinazione del modello.
14
Esercizio .2 - Soluzione
—i
Esercizio 5.3: soluzione (i)
Iniziamo arricchendo la tabella della distribuzione di frequenze
congiunte della v.s. bivariata (X, Y) con le frequenze marginali
nonché i centri di classe
X# Y!
200 a 400
(y1 = 300)
400 a 800
(y2 = 600)
800 a 1000
(y3 = 900)
1000 a 2000
(y4 = 1500)
ni·
1
2
3
4
n·j
10
4
1
0
15
5
12
2
1
20
2
2
11
6
21
0
1
3
10
14
17
19
17
17
70
15
Esercizio 5.3: soluzione (ii)
Esercizio .2 - Soluzione — ii
1000
800
600
400
200
Fatturato giornaliero (Y)
1400
Un diagramma a bolle ci è di aiuto nell’evidenziare graficamente
l’eventuale legame di dipendenza funzionale tra le due
componenti la v.s. doppia (X, Y).
0
1
2
3
4
5
# dipendenti (x)
16
Esercizio .2 - Soluzione
iii (iii)
Esercizio 5.3: —
soluzione
Anche in questo caso, pare che il modello di regressione
Ŷ = a0 + a1 · X ben si presti a sintetizzare il legame funzionale
esistente tra le v.s. X e Y.
Si tratterà ora di
determinare i valori dei parametri a0 e a1 . A tal fine, come
abitudine, ricorreremo al metodo dei minimi quadrati
misurare la bontà di adattamento del modello all’insieme dei
dati osservati. Per questo costruiremo il diagramma a bolle
dei residui e calcoleremo il coefficiente di determinazione.
17
Esercizio 5.3: soluzione (iv)
Esercizio .2 - Soluzione — iv
Com’è noto, ricorrendo al metodo dei minimi quadrati, il valore dei
parametri della retta di regressione corrisponderano a
a1 =
Cov[X, Y]
V[X]
a0 = E[Y]
a1 · E[X]
e quindi, sulla base della distribuzione di frequenze congiunte
della v.s. doppia (X, Y), calcoliamo
la media e la varianza di X, quindi E[X], E[X 2 ] e V[X].
la media e la varianza di Y, quindi E[Y], E[Y 2 ] e V[Y].
Quest’ultima grandezza, come si vedrà, verrà utilizzata per il
calcolo del coefficiente di determinazione.
la media del prodotto X · Y, cioè E[X · Y], che utilizzeremo per
il computo di Cov[X, Y].
18
Esercizio 5.3: soluzione (v)
Esercizio .2 - Soluzione — v
Pertanto
1 r
1
E[X] = Â xi ni· =
(1 · 17 + . . . + 4 · 17) = 2.485714
n i=1
70
1 r 2
1 2
E[X ] = Â xi ni· =
1 · 17 + . . . + 42 · 17 = 7.4
n i=1
70
2
V[X] = E[X 2 ]
E[X] = 7.4
(2.485714)2 = 1.221224
1 s
1
E[Y] = Â yj n·j =
(300 · 15 + . . . + 1500 · 14) = 805.7143
n j=1
70
1 s 2
1
E[Y ] = Â yj n·j =
3002 · 15 + . . . + 15002 · 14 = 815142.9
n j=1
70
2
V[Y] = E[Y 2 ]
E[Y] = 4349.96
(805.7143)2 = 165967.3
1 r s
1
E[X · Y] = Â Â xi · yj · nij =
(1 · 300 · 10 + . . . + 4 · 1500 · 10) = 2327.143
n i=1 j=1
70
19
Esercizio 5.3: soluzione (vi)
Esercizio .2 - Soluzione — vi
Infine, calcolata la covarianza tra le v.s. X e Y
Cov[X, Y] = E[X · Y] E[X] · E[Y] =
= 2327.143 2.485714 · 805.7143 = 324, 3673
otteniamo i valori dei coefficienti del modello di regressione in
accordo al metodo dei minimi quadrati
a1 =
Cov[X, Y] 324, 3673
=
= 265.6083
V[X]
1.221224
a0 = E[Y]
a1 · E[X] = 805.7143
265.6083 · 2.485714 = 145.4880
In definitiva il modello di regressione proposto diviene
Ŷ = 145.4880 + 265.6083 · X
20
Esercizio 5.3: soluzione (vii)
Esercizio .2 - Soluzione — vii
Se consideriamo ora la v.s. residui della regressione (Y Ŷ) e
costruiamo il diagramma a bolle dei punti di cooordinate
(xi ; yj ŷj ), pare che questi evidenzino una certa tendenza di
fondo (nella figura successiva, lato destro, i residui hanno segno
per lo più negativo). Ciò fa sorgere il dubbio che il modello di
regressione adottato non si adatti bene ai dati.
Quale misura della bontà di adattamento, ricorriamo al
coefficiente di determinazione R2 che, nel caso il modello di
regressione sia quello di una retta, coincide con il quadrato del
coefficiente di correlazione lineare (R2 = r 2 ).
Nel nostro caso otteniamo un valore di R2 piuttosto basso, infatti
(Cov[X, Y])2
324, 36732
R =r =
=
= 0, 519106
V[X] · V[Y]]
1.221224 · 165967.3
2
2
Per inciso è r = 0.72049.
21
!
&!!
<# = !>&#
!"!!!
!&!!
<.=,+6,*+,*7.97.==,8/.
"#!!
#!! %!! '!! (!!
450067508*9,87/5:,.78*(;)
"'!!
"!!!
Esercizio 5.3:—
soluzione
Esercizio .2 - Soluzione
viii (viii)
!
"
#
$
%
)*+,-./+./0,*(2)
&
!
"
#
$
%
&
)*+,-./+./0,*(2)
22
Scarica