Università degli Studi di Padova Facoltà di Scienze Politiche STATISTICA DEC curr. Impresa (sede di Rovigo) Prova scritta del 28/06/2006 [25pt] (DEC280606.tex) 1) La seguente tabella riporta alcuni dati relativi alle case occupate nel Comune di Roma (dati rilevati attraverso il censimento 1991). Fonte: www.comune.roma.it. In particolare, per alcuni municipi della città di Roma sono state rilevate le seguenti variabili statistiche: 1 X : superficie media degli appartamenti occupati; 2 X : numero di stanze medio degli appartamenti occupati; 3 X : numero di occupanti medio per appartamento occupato; 4 X : percentuale di appartamenti abitati da proprietari; 5 X : percentuale di appartamenti abitati da affittuari. Municipio 1X 2X 3X 4X 5X I 91.1 4.1 2.1 49.2 43.8 II 105.7 4.6 2.3 62.5 30.1 III 90.9 4.1 2.2 62.4 31.5 IV 85.8 4.0 2.8 54.0 41.7 V 78.9 3.8 2.9 53.1 42.9 VI 74.1 3.6 2.6 62.5 33.2 VII 70.1 3.5 2.8 59.8 35.9 VIII 83.2 3.9 3.1 58.1 35.3 IX 80.8 3.8 2.4 64.2 30.6 [1pt] 1.1) Indicare qual è l’unità statistica, la natura delle variabili e su quale scala sono misurate. [2pt] 1.2) Si calcolino la mediana e il quantile 2 x0.25 della variabile 2 X. [2pt] [2pt] 1.3) Si confronti la variabilità di 2 X con la variabilità di 3 X, commentando opportunamente. 1.4) Si costruisca un box and whiskers plot della variabile 2 X (suggerimento: 2 x0.75 = 4.1.) 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 2X [2pt] 1.5) Si rappresentino in un diagramma cartesiano le variabili 3 X, numero medio di occupanti per appartamento, (in ordinata) e 2 X, numero medio di stanze, (in ascissa) valutando se si possano ritenere stocasticamente indipendenti. In caso contrario si diano alcune ipotesi interpretative. [3pt] 1.6) Si valuti l’intensità della eventuale dipendenza in media di 3 X da 2 X mediante il rapporto di correlazione η32X/2 X e si commenti il valore ottenuto. [1pt] 1.7) Si determinino, nell’ambito del principio dei minimi quadrati, i parametri del modello di regressione 3X = α0 + α1 2 X + ε. [2pt] 1.8) Si valuti il grado di adattamento relativo della retta di regressione calcolata al punto precedente, con opportuni commenti critici. Inoltre, si rappresenti graficamente la retta di regressione sul diagramma cartesiano prodotto al punto 1.5). [3pt] 1.9) Se si adatta ai dati un piano di regressione inserendo anche la variabile 1 X, superficie media, si ottiene il seguente risultato: ∗ 3 X = −8.037817 − 0.2916207 1 X + 8.964606 2 X, la cui varianza residua è pari a 0.025425604. Quantificare il miglioramento rispetto al modello lineare di cui al punto 1.7) commentando opportunamente. 1 [3pt] 1.10) Calcolare il coefficiente di correlazione parziale fra 3 X e 1 X al netto dell’influenza esercitata su entrambe da 2 X. [2pt] 1.11) Se si studia la regressione multipla, secondo i minimi quadrati, del carattere 3 X su alcuni dei restanti caratteri, attraverso il modello 3X = α0 + α1 1 X + α2 2 X + α4 4 X + α5 5 X + α6 (1 X ∗ 2 X) + α7 (4 X ∗ 5 X) + ε, si ottengono i risultati che seguono, ove, tra parentesi tonde, figura la statistica t: αˆ0 = 6, 86229 (0, 742441); αˆ1 = −0, 269938 (−3, 4308); αˆ2 = 13, 6356 (4, 3546); αˆ4 = −0, 352832 (−3, 26481); αˆ5 = −0, 469758 (−2, 83734); αˆ6 = −0, 0261566 (−2, 45576); αˆ7 = 0, 00539263 (1, 64935); con un valore di 3 X R12X,2 X,4 X,5 X,1 X∗2 X,4 X∗5 X pari a 0.980115. Commentare i risultati ottenuti precisando il grado di attendibilità del modello proposto, la differente rilevanza delle componenti esplicative adottate, valutando la possibilità di operare riduzioni del modello. [2pt] 1.12) Se si esclude dal modello precedente la componente relativa all’interazione (4 X ∗ 5 X) e si stima il modello 3X = α0 + α1 1 X + α2 2 X + α4 4 X + α5 5 X + α6 (1 X ∗ 2 X) + ε, si ottengono i risultati che seguono, ove, tra parentesi tonde, figura la statistica t: αˆ0 = −4, 74025 (−0, 630309); αˆ1 = −0, 35962 (−5, 04125); αˆ2 = 16, 9911 (5, 69044); αˆ4 = −0, 198177 (−2, 94034); αˆ5 = −0, 211911 (−3, 09922); αˆ6 = 0, 0294866 (−2, 24774); con un valore di R12X,2 X,4 X,5 X,1 X∗2 X pari a 0.953068. Interpretare i risultati riferendosi esplicitamente al contesto rea3X le descritto al punto 1), precisando il grado di attendibilità del modello ottenuto e la possibilità di operare ulteriori riduzioni nel modello stesso. [9pt] 2) Nella seguente tabella viene riportato il movimento in arrivo di alcuni clienti stranieri negli esercizi alberghieri della città di Roma secondo la provenienza del turista e la categoria dell’albergo. Anno 2004 (dati in migliaia). Fonte: Comune di Roma. Annuario Statistico 2004. X: Categoria 5 stelle 4 stelle 3 stelle 2 stelle 1 stella Totale Y : Provenienza Centro/Sud America Medio Oriente 10 10 66 29 93 23 12 3 3 1 184 66 Australia 3 23 27 3 1 57 Totale 23 118 143 18 5 307 [1pt] 2.1) Si individuino l’unità statistica, la natura e la scala di misurazione delle variabili rilevate. [1pt] 2.2) Calcolare, se possibile, moda, mediana e media aritmetica di X e Y . [3pt] 2.3) Calcolare, rappresentare graficamente e confrontare le distribuzioni di frequenza relativa della variabile X, Categoria alberghiera, per il Centro/Sud America e per il Medio Oriente, commentando opportunamente i risultati ottenuti. [1pt] 2.4) Calcolare e commentare opportunamente il grado di mutabilità della variabile Y , Provenienza. [1pt] 2.5) Si valuti se tra Categoria Alberghiera e Provenienza si possa affermare l’esistenza di indipendenza stocastica. [2pt] 2.6) Si valuti se la Categoria Alberghiera dipenda dalla Provenienza. (Suggerimento: base e, XY H = 0.905606 con log in base 10). XY H = 2.085236 con log in [4pt] 3) Si consideri una variabile statistica quantitativa doppia (X, Y ). Se la funzione di regressione di Y su X è una retta con inclinazione positiva, posso dire che ηY2 |X = 1? Perché? [5pt] 4) Si consideri una variabile statistica quantitativa doppia (X, Y ). Si spieghi per quale ragione la scelta di un modello di previsione P, per prevedere Y sulla base delle informazioni contenute in X, possa essere effettuata attraverso la minimizzazione della devianza N X δ 2 (P ) = [yi − P (xi )]2 . i=1 2