Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Esercitazione n. 5 A. Si considerino i seguenti dati relativi alle presenze (in migliaia, X ) e al numero di addetti (Y ) nelle strutture alberghiere di cinque provincie del centro Italia: X 200 310 250 350 380 Y 175 190 200 225 265 1. Rappresentare graficamente la distribuzione doppia disaggregata. 2. Si determinino i parametri della retta di regressione del numero di addetti in funzione delle presenze turistiche utilizzando il metodo dei minimi quadrati. 3. Si disegni la retta di regressione e si verifichi che questa passa per il baricentro dei punti. 4. Si verifichi la significatività del coefficiente angolare della retta di regressione al livello α = 0.05. 5. Si valuti la bontà di adattamento della retta di regressione ai dati. 6. Si calcoli il coefficiente di correlazione r e si verifichi l’esistenza di una relazione lineare tra Y e X al livello α = 0.1. B. La seguente tabella riporta la serie dei numeri indici (con base 2000 = 100) del numero di presenze turistiche negli alberghi di 4 o 5 stelle per gli anni dal 2000 al 2007 (fonte ISTAT): Anno 2000 2001 2002 2003 2004 2005 2006 2007 I t|2000 100 102.35 102.34 104.97 118.26 127.17 139.43 147.7 1. Interpolare la serie storica attraverso una retta di regressione di equazione Y = α + β X + ε con il metodo dei minimi quadrati (si consiglia di esprimere la variabile esplicativa come X = Anno −1999 o equivalente). 2. Si rappresenti graficamente la serie storica e la retta di regressione calcolata al punto precedente. 3. Verificare la significatività statistica del parametro b stimato al livello α = 0.01. 4. Si valuti la bontà dell’adattamento della retta interpolatrice ai dati tramite l’indice di determinazione R2 . 5. Si preveda il valore del numero indice per l’anno 2009 e si costruisca il corrispondente intervallo di confidenza al livello del 95% per il valore previsto. Inoltre, sapendo che nel 2000 il numero assoluto delle presenza ammontava a 60,724,373, calcolare il valore assoluto delle presenze previste per il 2009. Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Istituzioni di Statistica e Statistica Economica Università degli Studi di Perugia Facoltà di Economia, Assisi, a.a. 2013/14 Soluzione esercitazione n. 6 A. Alcune delle quantità calcolate durante lo svolgimento dell’esercizio sono raccolte nella seguente tabella: Totale xi yi (x i − x̄)2 ( yi − ȳ)2 (x i − x̄)( yi − ȳ) ŷi êi = yi − ŷi ( yi − ŷi )2 ( ŷi − ȳ)2 200 175 9604 1296.00 3528.00 170.12 4.88 23.80 1671.09 310 190 144 441.00 -252.00 216.01 -26.01 676.29 25.06 250 200 2304 121.00 528.00 190.98 9.02 81.40 400.89 350 225 2704 196.00 728.00 232.69 -7.69 59.15 470.49 380 265 6724 2916.00 4428.00 245.20 19.80 391.85 1169.97 1490 1055 21480 4970.00 8960.00 1055.00 0.00 1232.50 3737.50 • Il diagramma di dispersione degli addetti (Y ) verso le presenze turistiche (X ) è riportato nella figura sotto. • I parametri stimati della retta di regressione Y = α + β X + ε sono pari a: b = a = 8960 = 0.4171 21480 211 − 0.4171 × 298 = 86.74 dove n = 5, x̄ = 1490/5 = 298, ȳ = 1055/5 = 211, CX Y = 8960, DX = 21480. • La retta di regressione è riportata nel grafico seguente. Inoltre, sono riportate due linee tratteggiate di coordinate pari alle medie delle due variabili, quindi la loro intersezione identifica il baricentro della distribuzione congiunta. Si può verificare graficamente che la retta di regressione passa per il baricentro della nuvola dei punti. 240 260 ● 220 200 y ● ● 180 ● ● 200 250 300 350 x I valori teorici ŷi = a + b x i = 86.74 + 0.4171x i sono riportati nella tabella precedente e giacciono tutti lungo la retta di regressione. Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca • L’errore standard dei residui è pari a rP r 1232.50 ( yi − ŷi )2 s= = = 20.27 n−2 5−2 Quindi, l’errore standard del coefficiente angolare è pari a: 20.27 s =p s(b) = p = 0.1383 21480 DX Il test di significatività consiste nel verificare H0 : b = 0 vs H1 : b 6= 0. Il valore critico del test è pari a: b 0.4171 t= = = 3.016 s(b) 0.1383 che deve essere confrontato con t n−2;α/2 = t 3;0.05/2 = 3.182. Dal momento che |t| < t n−2;α/2 si accetta l’ipotesi nulla. • L’indice R2 che misura la bontà di adattamento può essere calcolato come R2 = DR DY = 3737.5 4970 = 0.752 oppure, ricordando che DY = DR + D E , possiamo calcolare R2 = 1 − DE DY =1− 1232.5 4970 = 0.752 Esite anche un’altro modo per calcolare R2 che utilizza il legame esistente con il coefficiente di correlazione, cioè: C2 89602 = 0.752 R2 = X Y = DX DY 21480 × 4970 In quest’ultimo caso il calcolo risulta più agevole in quanto non richiede il calcolo dei valori empirici ŷi e, quindi, della devianza spiegata dalla retta di regressione DR . Dal valore di R2 si deduce che la bontà di adattamento della retta di regressione ai dati è piuttosto buona. • Il coefficiente di correlazione è pari a 8960 CX Y r=p =p = 0.8672 21480 × 4970 DX DY da cui si deduce che le due variabili sono correlate positivamente. Tale risultato è anche supportato dall’inclinazione della retta di regressione. Al fine di verifichi l’esistenza di una relazione lineare tra Y e X occorre verificare l’ipotesi H0 : ρ = 0 vs H1 : ρ 6= 0. La statistica test da utilizzare è la seguente: p p 0.8672 5 − 2 r n−2 t=p =p = 3.016 1 − r2 1 − 0.86722 che deve essere confrontato con t n−2;α/2 = t 3;0.1/2 = 2.353. Dal momento che |t| > t n−2;α/2 si rifiuta l’ipotesi nulla di assenza di correlazione. Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca B. Alcune delle quantità calcolate durante lo svolgimento dell’esercizio sono raccolte nella seguente tabella: Anno xi yi (x i − x̄)2 ( yi − ȳ)2 (x i − x̄)( yi − ȳ) ŷi êi = yi − ŷi ( yi − ŷi )2 ( ŷi − ȳ)2 2000 1 100.00 12.25 316.04 62.22 92.48 7.52 56.51 639.84 2001 2 102.35 6.25 238.01 38.57 99.71 2.64 6.97 326.45 2002 3 102.34 2.25 238.32 23.16 106.94 -4.60 21.13 117.52 2003 4 104.97 0.25 164.03 6.40 114.16 -9.19 84.53 13.06 2004 5 118.26 0.25 0.23 0.24 121.39 -3.13 9.80 13.06 2005 6 127.17 2.25 88.22 14.09 128.62 -1.45 2.10 117.52 2006 7 139.43 6.25 468.83 54.13 135.85 3.58 12.85 326.45 2007 8 147.70 12.25 895.36 104.73 143.07 4.63 21.41 639.84 Totale 36 942.22 42.00 2409.03 303.54 942.22 0.00 215.31 2193.73 Si noti che la variabile indipendente è stata calcolata come x i = Anno − 1999 al fine di semplificare i calcoli successivi. • I parametri stimati della retta di regressione Y = α + β X + ε sono: b = a = 303.54 = 7.23 42 117.78 − 7.23 × 4.5 = 85.245 dove n = 8, x̄ = 36/8 = 4.5, ȳ = 942.22/8 = 117.78, CX Y = 303.54, DX = 42. • Il grafico seguente riporta la serie storica osservata e la retta di regressione stimata: 2001 2002 2003 2004 2005 2006 2007 2008 160 2000 150 ● 140 ● ● 130 y 2009 120 ● 110 ● 100 ● ● ● 2 3 ● 1 4 5 6 7 x • L’errore standard del coefficiente angolare è pari a: 5.99 s s(b) = p = p = 0.9243 42 DX dove s = p 215.31/(8 − 2) = 5.99. 8 9 10 Esercitazioni di Istituzioni di Statistica e Statistica Economica – L. Scrucca Il valore critico del test di significatività H0 : β = 0 vs H1 : β 6= 0 è pari a: t= b s(b) = 7.23 0.9243 = 7.82 che deve essere confrontato con t n−2;α/2 = t 6;0.01/2 = 3.707. Dal momento che |t| > t n−2;α/2 si rifiuta l’ipotesi nulla. • L’indice R2 che misura la bontà di adattamento può essere calcolato come R2 = DR DY = 2193.73 2409.03 = 0.9106 oppure, ricordando che DY = DR + D E , possiamo calcolare R2 = 1 − DE DY =1− 215.31 2409.03 = 0.9106 Dal valore di R2 si deduce che la bontà di adattamento della retta di regressione ai dati è molto buona. • Il valore del numero indice per l’anno 2009 è pari a: ŷ2009 = 85.245 + 7.23 × (2009 − 1999) = 157.545 Tale valore previsto è rappresentato nel grafico precedente come il punto rosso che giace sulla retta di regressione in corrispondenza dell’anno 2009. Per calcolare l’intervallo di confidenza occorre calcolare: È 1 (x i − x̄)2 ŷi ± t n−2;α/2 s 1 + + n DX r 1 (10 − 4.5)2 157.545 ± 2.447 × 5.99 1 + + = (137.63, 177.46) 8 42 dove t 8−2;0.05/2 = 2.447. Infine, sapendo che il valore delle presenze al 2000 era pari a 60,724,373, il valore delle presenze previste al 2009 è dato da 157.545 × 60,724,373 = 95,668,213 100 Tale risultato si ottiene dalle proprietà dei numeri indici in base fissa: I2009|2000 = a2009 a2000 × 100 ⇒ a2009 = I2009|2000 100 × a2000