Università degli Studi di Padova Facoltà di Scienze Politiche STATISTICA DEC curr. Impresa (sede di Rovigo) Prova scritta del 06/02/2007 [19pt] (DEC060207.tex) 1) La seguente tabella riporta alcuni dati relativi alla diffusione di tecnologia informatica nelle famiglie italiane nel 2006. Fonte: “ Le tecnologie dell’informazione e della comunicazione: disponibilità nelle famiglie e utilizzo degli individui. Periodo di riferimento: Anno 2006” , www.ISTAT.it. In particolare, in alcune regioni italiane, sono state rilevate le seguenti variabili statistiche: 1X : 2X : 3X : 4X : 5X : 6X : 7X : 8X : 9X : 10 X : 11 X : percentuale di famiglie che dispone a casa propria di un Personal Computer; percentuale di famiglie che dispone a casa propria di una connessione a banda larga; percentuale di famiglie che dispone a casa propria di accesso ad Internet; percentuale di persone che hanno utilizzato Internet per cercare informazioni su merci e servizi; percentuale di persone che hanno utilizzato Internet per mandare o ricevere email; percentuale di persone che hanno utilizzato Internet per telefonare su Internet, partecipare a videoconferenze; percentuale di persone che hanno utilizzato Internet per usare servizi relativi a viaggi e soggiorni; percentuale di persone che hanno utilizzato Internet per usare servizi bancari online; percentuale di persone che hanno utilizzato Internet per leggere o scaricare giornali, news, riviste; percentuale di persone che hanno utilizzato Internet per giocare o scaricare giochi, immagini, musica; percentuale di persone che hanno utilizzato Internet per ordinare o comprare merci e/o servizi su Internet negli ultimi 12 mesi. Regione Valle d’Aosta Lombardia Trentino Alto-Adige Veneto Friuli-Venezia Giulia Liguria Lazio Molise Campania Puglia Sicilia Sardegna 1X 2X 3X 4X 5X 6X 7X 8X 9X 10 X 11 X 46.9 52.1 52.3 48.6 47.3 40.2 48.5 47.4 41.6 40.6 37.6 49.4 12.3 16.9 17.5 14.7 18.6 15.9 18.0 8.6 11.2 12.3 11.4 13.4 34.1 42.0 39.4 38.3 36.7 31.7 39.9 34.0 29.0 28.7 26.6 36.8 63.6 65.4 63.9 63.9 66.5 65.7 60.6 63.5 47.2 50.6 51.4 61.2 76.9 80.1 78.4 78.1 80.3 78.8 78.4 71.4 68.0 69.0 70.2 71.9 5.9 8.3 8.4 6.8 8.2 8.6 12.7 7.7 11.2 7.8 6.1 7.5 38.5 44.7 37.6 43.4 39.0 39.6 40.7 30.0 31.9 32.2 30.7 36.8 26.4 30.2 27.0 27.5 25.9 19.8 24.5 13.2 12.2 12.9 13.9 19.7 26.8 35.1 34.1 36.6 31.7 34.4 39.5 33.7 31.4 29.5 29.9 30.7 28.3 31.5 28.5 31.2 31.5 34.0 34.2 37.8 38.1 33.0 33.0 33.1 25.4 23.7 28.1 23.5 26.3 21.2 20.3 18.8 13.2 16.1 13.7 22.8 [1pt] 1.1) Indicare qual è l’unità statistica, la natura delle variabili e su quale scala sono misurate. [2pt] 1.2) Si calcolino la mediana e il quantile 2 x0.25 della variabile 2 X. [2pt] 1.3) Si confronti la variabilità di 4 X con la variabilità di rimento: 4 σ 2 =40.53909722). [2pt] 1.4) Si rappresentino in un diagramma cartesiano le variabili 11 X, (in ordinata) e 4 X, (in ascissa) valutando se si possano ritenere stocasticamente indipendenti. In caso contrario si diano alcune ipotesi interpretative. [1pt] 11 X, commentando opportunamente (sugge- 1.5) Si determinino, nell’ambito del principio dei minimi quadrati, i parametri del modello di regressione 11 X (suggerimento: = α0 + α1 4 X + ε. 4,11 σ=25.48743056). 1 [2pt] [3pt] 1.6) Si valuti il grado di adattamento relativo della retta di regressione calcolata al punto precedente, con opportuni commenti critici. Inoltre, si rappresenti graficamente la retta di regressione sul diagramma cartesiano prodotto al punto 1.4). 1.7) Se si adatta ai dati, secondo i minimi quadrati, un piano di regressione inserendo la variabile 7 X, si ottiene il seguente risultato: 11 X ∗ = −18.1189 + 0.533551 4 X + 0.189852 7 X. Calcolare la varianza residua intorno a questo modello e quantificare il miglioramento rispetto al modello lineare di cui al punto 1.4) (Suggerimento: 11 X 7 X σ = Cov(11 X, 7 X) = 797.3591667). [1pt] 1.8) Si determini una opportuna media dei residui relativi al modello del punto 1.5). [1pt] 1.9) Si determini il residuo per la regione Molise relativo al modello del punto 1.5), commentando opportunamente il valore ottenuto. [2pt] 1.10) Se si studia la regressione multipla, secondo i minimi quadrati, del carattere restanti caratteri, attraverso il modello (ME) 11 X 11 X su alcuni dei = α0 + α1 1 X + α2 2 X + α3 3 X + α4 4 X + α7 7 X + α8 8 X + α10 10 X + ε, si ottengono i risultati che seguono, ove, tra parentesi tonde, figura la statistica t: α̂0 = −28.2765 (−2.9811); α̂1 = 1.51981 (5.35533); α̂2 = 0.702921 (4.85952); α̂3 = −1.59846 (−4.33478); α̂4 = 0.449773 (8.66322); α̂7 = 0.307159 (1.78038); α̂8 = −0.10851 (−0.590657); 2 pari a 0.992593. α̂10 = −0.342745 (−1.99325) con un valore di 11 X RME Commentare i risultati ottenuti precisando il grado di attendibilità del modello proposto, la differente rilevanza delle componenti esplicative adottate, valutando la possibilità di operare riduzioni del modello. [2pt] 1.11) Se si esclude dal modello precedente la componente relativa a 8 X e si stima il modello (Mrid) 11 X = α0 + α1 1 X + α2 2 X + α3 3 X + α4 4 X + α7 7 X + α10 10 X + ε, si ottengono i risultati che seguono, ove, tra parentesi tonde, figura la statistica t: α̂0 = −28.0234 (−3.17111); α̂1 = 1.49032 (5.72005); α̂2 = 0.687374 (5.18189); α̂3 = −1.60652 (−4.6746); α̂4 = 0.44124 (9.48769); α̂7 = 0.237201 (2.02749); 2 α̂10 = −0.268899 (−2.44234) con un valore di 11 X RMrid pari a 0.991947. Interpretare i risultati riferendosi esplicitamente al contesto reale descritto al punto 1), precisando il grado di attendibilità del modello ottenuto e la possibilità di operare ulteriori riduzioni nel modello stesso. 2 [8pt] 2) Nella seguente tabella è riportata la distribuzione delle regioni italiane suddivise per fascia di spesa media mensile delle famiglie per capitolo di spesa alimentare, X, e non alimentare, Y (Fonte: ISTAT, Annuario Statistico Italiano, dati in euro, anno di riferimento 2004). X: alimentari 395 a 434 434 a 473 473 a 512 Totale 1200 a 2 3 1 6 Y : non alimentari 1600 1600 a 2000 2000 0 4 1 5 a 2400 4 4 1 9 Totale 6 11 3 20 [1pt] 2.1) Si individuino l’unità statistica, la natura e la scala di misurazione delle variabili rilevate. [3pt] 2.2) Calcolare le distribuzioni di frequenza relativa della variabile X condizionate alla prima e alla seconda modalità di Y . Attraverso un’opportuna rappresentazione grafica, effettuare un confronto fra le due distribuzioni ottenute e commentare il risultato. [1pt] 2.3) Giustificando la risposta, valutare se esista indipendenza stocastica tra le variabili X e Y. [3pt] 2.4) Si calcoli e si commenti opportunamente il valore dell’indice di connessione di Pearson χ2 tra la variabile Y e la variabile X, ricorrendo ad una opportuna normalizzazione. [4pt] 3) Si consideri una variabile statistica doppia (X, Y ) a componenti quantitative non incorrelate. Siano Ŷ = â + b̂X, e X̂ = α̂ + β̂Y le due possibili rette di regressione con parametri calcolati con il metodo dei minimi quadrati: il segno del parametro b̂ deve coincidere con quello del parametro β̂. [3pt] 3.1) Si provi l’affermazione precedente. [1pt] 3.2) Si dia una interpretazione informale dell’affermazione precedente. [3pt] 4) Si consideri una variabile statistica quantitativa doppia (X, Y ). Si spieghi per quale ragione la quantità s p 1 X 2 ei RMSE = Y σ 1 − ρ2 = N i possa essere utilizzata come riferimento per l’ordine di grandezza dei residui ei della retta di regressione Y ∗ = αo∗ + α1∗ X. 3