Esercizio 8
La Swiss Economic Research della Union Bank of Switzerland conduce un controllo periodico dei livelli dei prezzi e
dei salari nella principali città del mondo. Una delle variabili rilevate è il prezzo dell’hamburger Big Mac, Y (misurato
in termini del logaritmo del numero di minuti-lavoro necessari per acquistare un Big Mac). Il Big Mac è un bene
di consumo assai comune, le cui caratteristiche sono identiche in tutto il mondo e, quindi, ci si aspetta che il suo
prezzo, in termini reali, sia identico ovunque. Ovviamente, questa affermazione non è vera e gli economisti utilizzano
il cosiddetto indice di parità Big Mac per valutare l’inefficenza del sistema di cambi valutari. Ci si pone l’obbiettivo
di costruire un modello di regressione lineare multipla che spieghi la variabilitá di Y in 57 città (l’anno di riferimento
è il 2000) utilizzando i seguenti predittori (tutte le variabili sono contenute nel file ubs.txt:
ˆ X1 : logaritmo naturale del salario reale medio. Il salario reale medio (ovvero il potere d’acquisto del salario
medio) di ogni città è commisurato, in termini percentuali, al salario reale medio di Zurigo. La variabile X1 è
quindi il logaritmo (naturale) di questa percentuale.
ˆ X2 : logaritmo naturale del numero di minuti-lavoro necesari per acquistare un Kg. di riso
ˆ X3 : logaritmo naturale del numero di giorni di vacanza remunerati nell’arco dell’anno
ˆ X4 : logaritmo naturale del numero di minuti-lavoro necesari per acquistare un Kg. di pane
ˆ D5 : variabile indicatrice = 1 se la città si trova in Asia, = 0 altrimenti
ˆ D6 : variabile indicatrice = 1 se la città si trova in Europa, Nord-America o Oceania, = 0 altrimenti
Ne segue, ovviamente che le aree geografiche di riferimento sono Africa e America del Sud.
1. Disegnare i diagrammi di dispersione di Y contro X j , j = 1, . . . , 4 utilizzando simboli diversi per ciascuna area
geografica di riferimento e proporre dei commenti adeguati.
2. Stimare un modello di regressione lineare multipla in cui le variabili esplicative siano costituite da X j , j = 1, . . . , 4,
D5 e D6 . Analizzare i residui del modello e commentare i risultati.
3. Generalizzare il modello da cui si è partiti nel punto 2., inserendo i seguenti otto termini di interazione:X j Ds , j =
1, . . . , 4, s = 5, 6. e selezionare le variabili in modo adeguato.
4. Scrivere l’equazione stimata del modello a cui si è pervenuti
5. Analizzare i residui del modello a cui si è giunti e commentare i risultati.
6. Un economista affermerebbe che, al crescere del salario reale e a parità di ogni altra condizione, il costo di
un Big Mac diminuirebbe (per acquistare un Big Mac sarebbe necessario un minor numero di minuti-lavoro).
Secondo il modello che abbiamo costruito, l’economista avrebbe ragione?
7. L’economista sostiene anche che, a parità di ogni altra condizione, all’aumentare del numero di giorni di vacanza
remunerati, il costo del Big Mac diminuisce (infatti, per acquistare un Big Mac sarebbe necessaria una quantitá
inferiore di minuti-lavoro). Possiamo essere d’accordo con l’economista?
8. L’economista sostiene inoltre che, se il costo del pane aumenta, allora, a parità di ogni altra condizione, aumenta
anche il costo del Big Mac. Possiamo essere d’accordo con lei/lui?
Soluzione.
1. Per cancellare tutto ciò che è memorizzato in R, chiudere le finestre grafiche, caricare i dati e disegnare i grafici
diamo i seguenti comandi:
>
>
>
>
>
>
>
>
>
+
rm(list = ls())
graphics.off()
ubs = read.table("ubs.txt", header = T)
attach(ubs)
x11()
plot(X1, Y, type = "n")
points(X1[D5 == 1], Y[D5 == 1], col = "blue", pch = 19)
points(X1[D6 == 1], Y[D6 == 1], pch = 19)
points(X1[D5 == 0 & D6 == 0], Y[D5 == 0 & D6 == 0], col = "red",
pch = 19)
>
+
>
>
>
>
>
+
>
+
>
>
>
>
>
+
>
+
>
>
>
>
>
+
>
+
legend(x = 1.5, y = 3, legend = c("Asia", "Europa", "Africa e Sud America"),
pch = c(19, 19, 19), col = c("blue", "black", "red"))
x11()
plot(X2, Y, type = "n")
points(X2[D5 == 1], Y[D5 == 1], col = "blue", pch = 19)
points(X2[D6 == 1], Y[D6 == 1], pch = 19)
points(X2[D5 == 0 & D6 == 0], Y[D5 == 0 & D6 == 0], col = "red",
pch = 19)
legend(x = 3.5, y = 3, legend = c("Asia", "Europa", "Africa e Sud America"),
pch = c(19, 19, 19), col = c("blue", "black", "red"))
x11()
plot(X3, Y, type = "n", ylim = c(2, 6.5))
points(X3[D5 == 1], Y[D5 == 1], col = "blue", pch = 19)
points(X3[D6 == 1], Y[D6 == 1], pch = 19)
points(X3[D5 == 0 & D6 == 0], Y[D5 == 0 & D6 == 0], col = "red",
pch = 19)
legend(x = 2.4, y = 6.4, legend = c("Asia", "Europa", "Africa e Sud America"),
pch = c(19, 19, 19), col = c("blue", "black", "red"))
x11()
plot(X4, Y, type = "n")
points(X4[D5 == 1], Y[D5 == 1], col = "blue", pch = 19)
points(X4[D6 == 1], Y[D6 == 1], pch = 19)
points(X4[D5 == 0 & D6 == 0], Y[D5 == 0 & D6 == 0], col = "red",
pch = 19)
legend(x = 2, y = 5, legend = c("Asia", "Europa", "Africa e Sud America"),
pch = c(19, 19, 19), col = c("blue", "black", "red"))
I quattro grafici richiesti sono rappresentati in Figura 1. Da questa figura si evince che:
ˆ Il logaritmo del costo del Big Mac (Y) decresce al crescere del logaritmo del salario reale (X1 ): al crescere
del logaritmo del salario reale, il logaritmo della quantità di lavoro necessaria per comprare un Big Mac
diminuisce. Questa relazione non sembra essere influenzata dalla zona geografica di appartenenza: i punti
neri, rossi e blu possono essere interpolati da un’unica retta.
ˆ Il logaritmo del costo del Big Mac cresce al crescere del logaritmo del costo di un chilogrammo di riso (X2 )
e al crescere del logaritmo del costo del pane (X4 ). La relazione positiva tra Y e X4 è ovvia ed intutitiva;
non altrettanto possiamo dire della relazione tra Y e X2 . Come spesso avviene per i prezzi delle derrate
alimentari, è facile verificare che esiste una correlazione positiva tra il prezzo del riso e quello del pane
(e quindi tra i logaritmi dei due prezzi). Questa correlazione positiva implica anche che il logaritmi del
prezzo del Big Mace sia correlato positivamente con il logaritmo del prezzo del riso. In realtà la variabile
che influenza direttamente il logaritmo del costo del Big Mac è il logaritmo del prezzo del pane, non il
logaritmo del prezzo del riso: questo è un esempio di ciò che tecnicamente si definisce correlazione spuria.
ˆ Non sembra esistere alcuna relazione tra il costo del Big Mac e il logaritmo del numero di giorni di vacanza
remunerati nell’arco dell’anno.
2. Dobbiamo stimare un modello del tipo
Yi = β0 + β1 X1,i + β2,i X2,i + β3 X3,i + β4 X4,i + β5 D5,i + β6 D6,i + εi .
(1)
Per far questo utilizziamo il comando
> ubs.0.lm = lm(Y ~ X1 + X2 + X3 + X4 + D5 + D6)
Disegnamo innanzitutto il grafico dei residui e il diagramma di dispersione dei residui (ei ) contro i valori stimati
della funzione di regressione ( ŷi ) (si osservi come, utilizzando la funzione par(), si possano disegnare più grafici
un una singola finestra grafica):
>
>
>
>
x11()
par(mfrow = c(2, 1))
plot(resid(ubs.0.lm), ylab = "residui")
plot(fitted(ubs.0.lm), resid(ubs.0.lm), ylab = "residui", xlab = expression(hat(y)[i]))
I due grafici sono riportati nella Figura 2:
●
●
●
●
● ●●
●
●
●
●
Asia
Europa
Africa e Sud America
●
2.5
●
●
●
1.5
2.5
3.5
2.5
3.5
Y
●
●
●● ●
●●
●
●● ● ●
● ● ●● ●
●●
●
●
●
● ● ●●
● ●
●●● ●
●
●●
●
3.5
●
●
●
Y
4.5
●
●
● ●
4.5
●
●
4.5
●
●
●
●
●
● ●
●
●●●
●
●
●
● ●
●●
●
●
●
●
● ●● ● ● ●●
●●
●
● ●
●
●
●
● ●
●
● ●● ●
●
●
●
2.0
●●
●
●
●
Asia
Europa
Africa e Sud America
3.0
X1
●
●
4.0
5.0
X2
●
Asia
Europa
Africa e Sud America
●
4
●
●
●
2
●
●● ●
●
●
2.4
2.6
●
●● ●
●
●
●
●
●
●
●●
● ●
●
● ●
● ●
●
●
●
● ●● ●
●
●
●● ●
● ●●● ●
●
●
●●
●● ●
●
2.8
3.0
3.2
4.5
●
3.4
X3
●
3.5
●
●
3
Y
5
●
●
●
2.5
●
Y
6
●
●
Asia
Europa
Africa e Sud America
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●●●●●● ●● ●
●
●
●●
●
●
●
●●●●
●● ● ●
●
●
●●
●
●
●
●
●
2.0 2.5 3.0 3.5 4.0 4.5
X4
Figura 1: Diagrammi di dispersione di Y contro X j , j = 1, . . . , 4.
ˆ Nel primo grafico nella Figura 2 si osserva che i residui sembrano oscillare in modo casuale intorno allo
zero, senza particolari regolarità e con una variabilità stabile;
ˆ il secondo grafico rappresenta i residui contro i valori stimati della funzione di regressione. Questo grafico
rappresenta una sintesi dei diagrammi di dispersione dei residui contro le variabili esplicative, essendo
i termini ŷi , i = 1, . . . , n delle combinazioni lineari dei regressori inclusi nel modello. Non emergono
particolari relazioni tra le due variabili e questo depone a favore della bontà del modello stimato.
Esaminiamo ora i diagrammi di dispersione dei residui contro i regressori quantitativi inclusi nel modello (Figura
3):
>
>
>
>
>
>
x11()
par(mfrow = c(2, 2))
plot(X1, resid(ubs.0.lm),
plot(X2, resid(ubs.0.lm),
plot(X3, resid(ubs.0.lm),
plot(X4, resid(ubs.0.lm),
ylab
ylab
ylab
ylab
=
=
=
=
"residui")
"residui")
"residui")
"residui")
Non appaiono evidenti forme di dipendenza tra i residui, che rappresentano la parte di variabilità delle variabile
risposta non spiegabile dal modello, e i regressori, che rappresentano la parte di informazione campionaria che
utilizziamo per spiegare il comportamento della variabile risposta.
Cerchiamo ora di capire se il modello sia gaussiano, prendendo in considerazione il grafico quantile-quantile dei
residui standardizzati (Figura 4):
0.6
0.0
●
● ●●
● ● ● ●
●
●
●
●●
● ●
●
● ●
●●
−0.6
residui
●
●
●●
●
0
10
●
●
●
●
●
●
●
●
●
●●
●
●●
● ●
●●
●● ●
●
● ●
●
●
●
●
●
●
●
●
20
30
40
50
Index
0.0
●
●
● ●● ● ●
●
●
●
●
●
● ●
●
●●
●
● ●
● ●
● ●
●
●
●
−0.6
residui
0.6
●
●
●
●
●
●
●●
●
●
●
●
2.5
●
●
3.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
3.5
4.0
●
4.5
5.0
y^i
Figura 2: Grafico dei residui e diagramma di dispersione dei residui contro i valori stimati della funzione di regressione.
> qqnorm(rstandard(ubs.0.lm))
> qqline(rstandard(ubs.0.lm))
(il comando rstandard(ubs.0.lm) fornisce i residui standardizzati del modello, ed il suo output è equivalente
a quanto si otterrebbe dividendo il vettore dei residui (che si ottiene con il comando resid(ubs.0.lm)) per la
radice quadrata della stima della varianza dei disturbi). Il grafico in Figura 4 è coerente con l’assunzione di
gaussianità del modello.
Esaminiamo ora la sintesi dei risultati della stima del modello:
> summary(ubs.0.lm)
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + D5 + D6)
Residuals:
Min
1Q
Median
-0.57908 -0.15635 -0.01254
3Q
0.09939
Max
0.72457
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.55877
0.66175
6.889 8.95e-09 ***
X1
-0.56832
0.07542 -7.536 8.74e-10 ***
X2
0.14368
0.08819
1.629
0.1096
●
●
●
●
● ●
−0.2
● ●
●
●
●
●
●
1.5
2.5
●
0.6
● ●
3.5
0.2
●
●
●
● ●
●
●
●
●
● ●●
●
● ●●
● ●
●
●
●
●
●●
●
● ●● ● ●
●
●
●
−0.2
●
−0.6
0.2
●●
●
−0.6
residui
●
●
residui
0.6
●
●
4.5
●
●
●
● ●
●
● ●●
●
●●
●● ● ●
●
●●●●● ●
●●
● ●
●
● ● ●●
●
●● ●
●
● ●
●
●
●
●●
2.0
3.0
4.0
−0.6
●
●
2.4
2.6
2.8
3.0
3.2
●
0.2
0.6
●●
−0.2
●●
●
●●
●
●
●
● ●
● ●● ●
●●●
●● ●
●
●● ●●
●
●●
●● ●
●
●
●● ●
●
−0.6
●
●
●
●
residui
0.6
0.2
●●
●
●
●
●
−0.2
residui
●
●
●
5.0
X2
●
●
●
●
X1
●
●
●
●
●
●
●
●
3.4
●
●
●
● ●
●
●
● ● ●●
●
●●●
●
●
●●
●●●
●
●●●
● ●● ●● ● ●● ●
●
●●
●● ● ●
● ●● ●
●
●
●
●
●
●
●
●
●
●
2.0 2.5 3.0 3.5 4.0 4.5
X3
X4
Figura 3: Diagrammi di dispersione dei residui contro i regressori quantitativi
X3
0.03731
X4
0.14223
D5
-0.24239
D6
-0.21683
--Signif. codes: 0 '***'
0.12705
0.09194
0.12072
0.11901
0.294
1.547
-2.008
-1.822
0.7703
0.1282
0.0501 .
0.0745 .
0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2616 on 50 degrees of freedom
Multiple R-Squared: 0.8776,
Adjusted R-squared: 0.8629
F-statistic: 59.72 on 6 and 50 DF, p-value: < 2.2e-16
Il coefficiente di determinazione lineare multipla assume un valore soddisfacente (0.8776) e cosı̀ pure il coefficiente
di determinazione lineare multipla corretto (0.8629). La radice quadrata della stima della varianza dei residui
è pari a 0.2616.
Poichè l’analisi dei residui depone a favore dell’attendibilità dei test che abbiamo studiato (le assunzioni su
cui essi si basano sembrano valere), possiamo saggiare alcuni sistemi di ipotesi di particolare interesse. Il test
congiunto sui coefficienti di regressione ci induce a ritenere che, ad un livello di significatività pari a 0.05, almeno
uno di essi sia diverso da 0 (il livello di significatività osservato è inferiore a 2.2·10−16 . A questo punto dobbiamo
chiederci se nel modello siano state incluse delle variabili ridondanti. I passi da seguire sono i seguenti:
a) Per ogni j, 0 ≤ j ≤ 6, impostare il sistema di ipotesi:
H0 : β j = 0
3
Normal Q−Q Plot
●
●
2
●
1
●● ●
●●
●●
●●
●
0
●
●●●
●●●
●●
●●
●●●●
●●
●
●
●●●
●●●
●●●
●
●●●●
●●
●
●●
−1
Sample Quantiles
●
●
●
−2
●
●
●
−2
−1
0
1
2
Theoretical Quantiles
Figura 4: grafico quantile-quantile dei residui standardizzati
H1 : β j , 0
e controllare il livello di significatività osservato corrispondente al valore osservato della statistica test.
b) Confrontare il livello di significatività osservato con il livello di significatività che abbiamo fissato. Assumiamo di avere fissato un livello di significatività pari a 0.05.
c) Poniamo uguale a zero quel coefficiente in corrispondenza del quale abbiamo riscontrato il più alto livello
di significatività tra tutti quelli che eccedono il livello 0.05.
d) Ristimiamo il modello e ripetiamo i passi a)-d) fino a quando i livelli di significatività osservati, associati
ai test indicati nel punto a), risultano tutti inferiori a 0.05.
Applicando questa procedura, giungiamo al modello finale:
Yi = β0 + β1 X1,i + β2 X2,i + β5 D5,i + β6 D6,i + εi :
> ubs.2.lm = lm(Y ~ X1 + X2 + D5 + D6)
> summary(ubs.2.lm)
Call:
lm(formula = Y ~ X1 + X2 + D5 + D6)
Residuals:
Min
1Q
Median
-0.597891 -0.120872 -0.008774
3Q
0.163878
Max
0.694550
(2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.22173
0.42494 12.288 < 2e-16 ***
X1
-0.61704
0.06765 -9.122 2.25e-12 ***
X2
0.16950
0.08320
2.037
0.0467 *
D5
-0.25632
0.11817 -2.169
0.0347 *
D6
-0.27641
0.11299 -2.446
0.0178 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2626 on 52 degrees of freedom
Multiple R-Squared: 0.8717,
Adjusted R-squared: 0.8618
F-statistic: 88.31 on 4 and 52 DF, p-value: < 2.2e-16
L’equazione di regressione stimata è quindi:
ŷi = 5.2217 − 0.6170x1,i + 0.1695x2,i − 0.2563d5,i − 0.2764d6,i
con s2 = 0.26262 = 0.069.
3. Per generalizzare il modello introdotto nell’equazione (1), dobbiamo stimare il seguente modello:
Yi
=
β0 + β1 X1,i + β2,i X2,i + β3 X3,i + β4 X4,i + β5 D5,i + β6 D6,i +
+β7 X1,i D5,i + β8 X2,i D5,i + β9 X3,i D5,i + β10 X4,i D5,i +
+β11,i X1,i D6,i + β12,i X2,i D6,i + β13 X3,i D6,i + β14 X4,i D6,i + εi .
Stimiamo il modello ed esaminiamo una sintesi dei risultati inferenziali con i seguenti comandi:
> ubs.3.lm = lm(Y ~ X1 + X2 + X3 + X4 + D5 + D6 + X1:D5 + X2:D5 +
+
X3:D5 + X4:D5 + X1:D6 + X2:D6 + X3:D6 + X4:D6)
> summary(ubs.3.lm)
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + D5 + D6 + X1:D5 + X2:D5 +
X3:D5 + X4:D5 + X1:D6 + X2:D6 + X3:D6 + X4:D6)
Residuals:
Min
1Q
Median
-0.60845 -0.12903 -0.04264
3Q
0.13925
Max
0.69760
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.133644
2.445863
2.508
0.0161 *
X1
-0.572081
0.294927 -1.940
0.0591 .
X2
0.204056
0.221660
0.921
0.3625
X3
-0.941549
0.469474 -2.006
0.0514 .
X4
0.496844
0.193897
2.562
0.0141 *
D5
-0.687259
2.703625 -0.254
0.8006
D6
-1.779641
2.590122 -0.687
0.4958
X1:D5
-0.253511
0.345541 -0.734
0.4672
X2:D5
-0.242635
0.373769 -0.649
0.5198
X3:D5
1.336510
0.648420
2.061
0.0455 *
X4:D5
-0.591804
0.264198 -2.240
0.0304 *
X1:D6
0.001661
0.309575
0.005
0.9957
X2:D6
-0.116692
0.247404 -0.472
0.6396
X3:D6
1.016958
0.491028
2.071
0.0445 *
X4:D6
-0.343852
0.231393 -1.486
0.1447
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(3)
Residual standard error: 0.2509 on 42 degrees of freedom
Multiple R-Squared: 0.9054,
Adjusted R-squared: 0.8739
F-statistic: 28.72 on 14 and 42 DF, p-value: < 2.2e-16
Conducendo l’analisi dei residui in modo analogo a quanto svolto nel punto precedente, possiamo ritenere di
poter condurre dei test su diversi sistemi di ipotesi. In particolare, possiamo procedere alla selezione delle
variabili, seguendo la procedura indicata nel punto 2. (continuiamo a fissare un livello di significatività pari a
0.05). Giungiamo quindi al modello finale:
Yi = β0 + β1 X1,i + β4 X4,i + εi .
(4)
Le stime e la sintesi dei risultati si ottengono con i comandi:
> ubs.15.lm = lm(Y ~ X1 + X4)
> summary(ubs.15.lm)
Call:
lm(formula = Y ~ X1 + X4)
Residuals:
Min
1Q
Median
-0.713322 -0.157931 -0.003569
3Q
0.129550
Max
0.663239
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.11389
0.42595
12.01 < 2e-16 ***
X1
-0.65886
0.06100 -10.80 4.17e-15 ***
X4
0.17215
0.08317
2.07
0.0433 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2681 on 54 degrees of freedom
Multiple R-Squared: 0.8611,
Adjusted R-squared: 0.8559
F-statistic: 167.3 on 2 and 54 DF, p-value: < 2.2e-16
Ora siamo alle prese con un problema spinoso: partendo da due modelli diversi siamo giunti a due modelli finali
diversi, descritti dalle equazioni (2) e (4). Quale dei due dobbiamo scegliere? Stiamo toccando un tema molto
difficile, al quale non si possono dare risposte definitive: il tema della scelta di uno tra diversi modelli statistici.
Cerchiamo di ragionare sul problema.
a) Siamo pervenuti al modello (4) partendo da un modello più generale di quello costituito da (1). Possiamo
quindi ritenere di avere sfruttato una maggiore quantità di informazione rispetto al percorso seguito per
giungere a (2).
b) Il modello (4) è più semplice (nel senso che contiene meno parametri e meno variabili) e, forse, più ragionevole del modello (2). In effetti, appare più sensato far dipendere il logaritmo del prezzo del Big Mac dal
logaritmo del costo del pane (X4 ) piuttosto che dal logaritmo del costo del riso (X2 ) (si rifletta su quanto
detto sopra a proposito della cosiddetta correlazione spuria).
La dipendenza della variabile risposta dalle diverse aree geografiche potrebbe essere una complicazione
superflua. In effetti, dall’analisi grafica delle interazioni tra le variabili in gioco, non sembra che la regione
di appartenenza giochi un ruolo fondamentale. Questa, tuttavia, è solo una considerazione di natura
euristica. È forse più logico ritenere che le tre regioni geografiche si distinguano essenzialmente per il
diverso ammontare e per il diverso modo di distribuirsi della ricchezza. L’informazione riguardante questi
aspetti è probabilmente fornita più dalle osservazioni sulla variabile X1 (logaritmo del salario reale), che
dalla regione di appartenenza. Nelle città asiatiche presenti nell’insieme di dati esaminato, troviamo delle
realtà molto variegate: in alcune città il livello del salario compete con quello europeo e nord-americano
(Hong Kong e Tokio, ad esempio); in altre (Jakarta e Bombay, ad esempio) il livello di questa variabile è
molto basso e simile a quello dei paesi africani e sud-americani. Si esamini l’output dei seguenti comandi:
> ubs[D5 == 1, 1:8][order(X1[D5 == 1]), ]
> ubs[D6 == 1, 1:8][order(X1[D6 == 1]), ]
> ubs[D5 == 0 & D6 == 0, 1:8][order(X1[D5 == 0 & D6 == 0]), ]
In altri termini, la suddivisione per regione di appartenenza, nel campione esaminato, non discrimina
nettamente delle realtà economiche distinte e quindi non appare in grado di fornire particolari spiegazioni
sul comportamento della variabile risposta.
Alla luce di queste considerazioni, possiamo ritenere che il modello (4) sia da ritenersi più adeguato del modello
(2) (si osservi, inoltre, che la perdita di termini di varianza spiegata è trascurabile).
4. L’equazione stimata è:
ŷi = 5.1140 − 0.6589x1,i + 0.1722x4,i
con s2 = 0.26812 = 0.0719
5. Si tratta di analizzare i residui del modello a cui si è giunti, in modo analogo a quanto fatto nel punto 2.
6. A questa domanda si risponde saggiando il sistema di ipotesi
H0 : β1 ≥ 0
H1 : β1 < 0.
Fissiamo un livello di significatività 0.05. Il valore osservato della statistica test è toss = −10.8. Accetteremo
l’ipotesi nulla se toss > t54,0.05 . Il valore del quantile cercato si ottiene con il comando:
> qt(0.05, 54)
[1] -1.673565
Poiché −10.8 < −1.6736, ad un livello di significatività 0.05 riteniamo che il valore atteso del logaritmo del
prezzo di un Big Mac diminuisca al crescere del logaritmo del salario reale e, quindi, che l’economista abbia
ragione.
7. In fase di selezione delle variabili, abbiamo visto che, ad un livello di significatività 0.05, il logaritmo del numero
di giorni di vacanza remunerati nell’arco dell’anno (X3 ) non sembra influire sul logaritmo del prezzo di un Big
Mac, quindi, sulla base dell’informazione campionaria di cui disponiamo, non siamo d’accordo con l’economista.
8. A questa domanda si risponde saggiando il sistema di ipotesi
H0 : β4 ≤ 0
H1 : β4 > 0.
Fissiamo un livello di significatività 0.05. Il valore osservato della statistica test è toss = 2.07. Accetteremo
l’ipotesi nulla se toss < t54,0.95 . Il valore del quantile cercato si ottiene con il comando:
> qt(0.95, 54)
[1] 1.673565
Poiché 2.07 > 1.6736, ad un livello di significatività 0.05 riteniamo che il valore atteso del logaritmo del prezzo
di un Big Mac cresca al crescere del logaritmo del prezzo del pane e, quindi, che l’economista abbia ragione.