Esercitazione 5 - Dipartimento di Economia, Finanza e Statistica

Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Istituzioni di Statistica e Statistica Economica
Università degli Studi di Perugia
Facoltà di Economia, Assisi, a.a. 2013/14
Esercitazione n. 5
A. Si considerino i seguenti dati relativi alle presenze (in migliaia, X ) e al numero di addetti (Y ) nelle
strutture alberghiere di cinque provincie del centro Italia:
X
200
310
250
350
380
Y
175
190
200
225
265
1. Rappresentare graficamente la distribuzione doppia disaggregata.
2. Si determinino i parametri della retta di regressione del numero di addetti in funzione delle
presenze turistiche utilizzando il metodo dei minimi quadrati.
3. Si disegni la retta di regressione e si verifichi che questa passa per il baricentro dei punti.
4. Si verifichi la significatività del coefficiente angolare della retta di regressione al livello α = 0.05.
5. Si valuti la bontà di adattamento della retta di regressione ai dati.
6. Si calcoli il coefficiente di correlazione r e si verifichi l’esistenza di una relazione lineare tra Y e X
al livello α = 0.1.
B. La seguente tabella riporta la serie dei numeri indici (con base 2000 = 100) del numero di presenze
turistiche negli alberghi di 4 o 5 stelle per gli anni dal 2000 al 2007 (fonte ISTAT):
Anno
2000
2001
2002
2003
2004
2005
2006
2007
I t|2000
100
102.35
102.34
104.97
118.26
127.17
139.43
147.7
1. Interpolare la serie storica attraverso una retta di regressione di equazione Y = α + β X + ε con
il metodo dei minimi quadrati (si consiglia di esprimere la variabile esplicativa come X = Anno
−1999 o equivalente).
2. Si rappresenti graficamente la serie storica e la retta di regressione calcolata al punto precedente.
3. Verificare la significatività statistica del parametro b stimato al livello α = 0.01.
4. Si valuti la bontà dell’adattamento della retta interpolatrice ai dati tramite l’indice di determinazione R2 .
5. Si preveda il valore del numero indice per l’anno 2009 e si costruisca il corrispondente intervallo
di confidenza al livello del 95% per il valore previsto. Inoltre, sapendo che nel 2000 il numero assoluto delle presenza ammontava a 60,724,373, calcolare il valore assoluto delle presenze
previste per il 2009.
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Istituzioni di Statistica e Statistica Economica
Università degli Studi di Perugia
Facoltà di Economia, Assisi, a.a. 2013/14
Soluzione esercitazione n. 6
A. Alcune delle quantità calcolate durante lo svolgimento dell’esercizio sono raccolte nella seguente
tabella:
Totale
xi
yi
(x i − x̄)2
( yi − ȳ)2
(x i − x̄)( yi − ȳ)
ŷi
êi = yi − ŷi
( yi − ŷi )2
( ŷi − ȳ)2
200
175
9604
1296.00
3528.00
170.12
4.88
23.80
1671.09
310
190
144
441.00
-252.00
216.01
-26.01
676.29
25.06
250
200
2304
121.00
528.00
190.98
9.02
81.40
400.89
350
225
2704
196.00
728.00
232.69
-7.69
59.15
470.49
380
265
6724
2916.00
4428.00
245.20
19.80
391.85
1169.97
1490
1055
21480
4970.00
8960.00
1055.00
0.00
1232.50
3737.50
• Il diagramma di dispersione degli addetti (Y ) verso le presenze turistiche (X ) è riportato nella
figura sotto.
• I parametri stimati della retta di regressione Y = α + β X + ε sono pari a:
b
=
a
=
8960
= 0.4171
21480
211 − 0.4171 × 298 = 86.74
dove n = 5, x̄ = 1490/5 = 298, ȳ = 1055/5 = 211, CX Y = 8960, DX = 21480.
• La retta di regressione è riportata nel grafico seguente. Inoltre, sono riportate due linee tratteggiate di coordinate pari alle medie delle due variabili, quindi la loro intersezione identifica il baricentro della distribuzione congiunta. Si può verificare graficamente che la retta di regressione
passa per il baricentro della nuvola dei punti.
240
260
●
220
200
y
●
●
180
●
●
200
250
300
350
x
I valori teorici ŷi = a + b x i = 86.74 + 0.4171x i sono riportati nella tabella precedente e giacciono
tutti lungo la retta di regressione.
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
• L’errore standard dei residui è pari a
rP
r
1232.50
( yi − ŷi )2
s=
=
= 20.27
n−2
5−2
Quindi, l’errore standard del coefficiente angolare è pari a:
20.27
s
=p
s(b) = p
= 0.1383
21480
DX
Il test di significatività consiste nel verificare H0 : b = 0 vs H1 : b 6= 0. Il valore critico del test è
pari a:
b
0.4171
t=
=
= 3.016
s(b)
0.1383
che deve essere confrontato con t n−2;α/2 = t 3;0.05/2 = 3.182. Dal momento che |t| < t n−2;α/2 si
accetta l’ipotesi nulla.
• L’indice R2 che misura la bontà di adattamento può essere calcolato come
R2 =
DR
DY
=
3737.5
4970
= 0.752
oppure, ricordando che DY = DR + D E , possiamo calcolare
R2 = 1 −
DE
DY
=1−
1232.5
4970
= 0.752
Esite anche un’altro modo per calcolare R2 che utilizza il legame esistente con il coefficiente di
correlazione, cioè:
C2
89602
= 0.752
R2 = X Y =
DX DY
21480 × 4970
In quest’ultimo caso il calcolo risulta più agevole in quanto non richiede il calcolo dei valori
empirici ŷi e, quindi, della devianza spiegata dalla retta di regressione DR .
Dal valore di R2 si deduce che la bontà di adattamento della retta di regressione ai dati è piuttosto
buona.
• Il coefficiente di correlazione è pari a
8960
CX Y
r=p
=p
= 0.8672
21480 × 4970
DX DY
da cui si deduce che le due variabili sono correlate positivamente. Tale risultato è anche supportato dall’inclinazione della retta di regressione.
Al fine di verifichi l’esistenza di una relazione lineare tra Y e X occorre verificare l’ipotesi H0 : ρ =
0 vs H1 : ρ 6= 0. La statistica test da utilizzare è la seguente:
p
p
0.8672 5 − 2
r n−2
t=p
=p
= 3.016
1 − r2
1 − 0.86722
che deve essere confrontato con t n−2;α/2 = t 3;0.1/2 = 2.353. Dal momento che |t| > t n−2;α/2 si
rifiuta l’ipotesi nulla di assenza di correlazione.
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
B. Alcune delle quantità calcolate durante lo svolgimento dell’esercizio sono raccolte nella seguente
tabella:
Anno
xi
yi
(x i − x̄)2
( yi − ȳ)2
(x i − x̄)( yi − ȳ)
ŷi
êi = yi − ŷi
( yi − ŷi )2
( ŷi − ȳ)2
2000
1
100.00
12.25
316.04
62.22
92.48
7.52
56.51
639.84
2001
2
102.35
6.25
238.01
38.57
99.71
2.64
6.97
326.45
2002
3
102.34
2.25
238.32
23.16
106.94
-4.60
21.13
117.52
2003
4
104.97
0.25
164.03
6.40
114.16
-9.19
84.53
13.06
2004
5
118.26
0.25
0.23
0.24
121.39
-3.13
9.80
13.06
2005
6
127.17
2.25
88.22
14.09
128.62
-1.45
2.10
117.52
2006
7
139.43
6.25
468.83
54.13
135.85
3.58
12.85
326.45
2007
8
147.70
12.25
895.36
104.73
143.07
4.63
21.41
639.84
Totale
36
942.22
42.00
2409.03
303.54
942.22
0.00
215.31
2193.73
Si noti che la variabile indipendente è stata calcolata come x i = Anno − 1999 al fine di semplificare i
calcoli successivi.
• I parametri stimati della retta di regressione Y = α + β X + ε sono:
b
=
a
=
303.54
= 7.23
42
117.78 − 7.23 × 4.5 = 85.245
dove n = 8, x̄ = 36/8 = 4.5, ȳ = 942.22/8 = 117.78, CX Y = 303.54, DX = 42.
• Il grafico seguente riporta la serie storica osservata e la retta di regressione stimata:
2001
2002
2003
2004
2005
2006
2007
2008
160
2000
150
●
140
●
●
130
y
2009
120
●
110
●
100
●
●
●
2
3
●
1
4
5
6
7
x
• L’errore standard del coefficiente angolare è pari a:
5.99
s
s(b) = p
= p = 0.9243
42
DX
dove s =
p
215.31/(8 − 2) = 5.99.
8
9
10
Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca
Il valore critico del test di significatività H0 : β = 0 vs H1 : β 6= 0 è pari a:
t=
b
s(b)
=
7.23
0.9243
= 7.82
che deve essere confrontato con t n−2;α/2 = t 6;0.01/2 = 3.707. Dal momento che |t| > t n−2;α/2 si
rifiuta l’ipotesi nulla.
• L’indice R2 che misura la bontà di adattamento può essere calcolato come
R2 =
DR
DY
=
2193.73
2409.03
= 0.9106
oppure, ricordando che DY = DR + D E , possiamo calcolare
R2 = 1 −
DE
DY
=1−
215.31
2409.03
= 0.9106
Dal valore di R2 si deduce che la bontà di adattamento della retta di regressione ai dati è molto
buona.
• Il valore del numero indice per l’anno 2009 è pari a:
ŷ2009 = 85.245 + 7.23 × (2009 − 1999) = 157.545
Tale valore previsto è rappresentato nel grafico precedente come il punto rosso che giace sulla
retta di regressione in corrispondenza dell’anno 2009.
Per calcolare l’intervallo di confidenza occorre calcolare:
È
1 (x i − x̄)2
ŷi ± t n−2;α/2 s 1 + +
n
DX
r
1 (10 − 4.5)2
157.545 ± 2.447 × 5.99 1 + +
= (137.63, 177.46)
8
42
dove t 8−2;0.05/2 = 2.447.
Infine, sapendo che il valore delle presenze al 2000 era pari a 60,724,373, il valore delle presenze
previste al 2009 è dato da
157.545
× 60,724,373 = 95,668,213
100
Tale risultato si ottiene dalle proprietà dei numeri indici in base fissa:
I2009|2000 =
a2009
a2000
× 100
⇒
a2009 =
I2009|2000
100
× a2000