Università degli Studi di Padova Facoltà di Scienze Politiche STATISTICA DEC curr. Impresa (sede di Rovigo) Prova scritta del 03/02/2005 (a030205.tex) [16pt] 1A) Nella seguente tabella sono riportati i dati riguardanti alcune caratteristiche rilevate nell’ambito delle scuole dell’infanzia nelle provincie dell’Emilia Romagna per l’a.s. 2003-2004. Fonte: Sistema informativo scolastico della regione Emilia Romagna su dati MIUR, 2004. In particolare, sono state rilevate le seguenti variabili statistiche: 1X 2X 3X 4X 5X 6X : : : : : : Numero di scuole materne gestite da Enti locali territoriali; Alunni iscritti alle scuole dell’infanzia statali; Alunni iscritti alle scuole dell’infanzia non statali; Totale della popolazione dai 3 ai 5 anni al 1/01/2004; Tasso di scolarizzazione; Iscritti con cittadinanza non italiana alla scuola dell’infanzia. Provincia Piacenza Parma Reggio Emilia Modena Bologna Ferrara Ravenna Forlı̀-Cesena Rimini 1X 2X 3X 4X 5X 6X 17 18 44 33 88 17 25 19 27 3785 3747 3041 8577 10078 2202 3669 5433 2943 2372 5661 7344 8406 12268 4538 4671 3692 4761 6281 9810 14019 17606 22875 6666 8289 8985 7685 98.03 95.90 74.08 96.46 97.69 101.11 100.62 101.56 100.25 522 645 897 1568 1681 269 383 487 338 [1pt] [2pt] [2pt] 1.1A) Qual è l’unità statistica, la natura delle variabili e su quale scala sono misurate. 1.2A) Calcolare la mediana e il quantile Q0.25 della variabile 4 X. 1.3A) Si rappresentino nel successivo diagramma cartesiano le variabili 2 X (in ordinata) e X (in ascissa) valutando se si possano ritenere stocasticamente indipendenti. In caso contrario 4 si diano alcune ipotesi interpretative. 1 [1pt] [2pt] [2pt] 1.4A) Si determinino, nell’ambito del principio dei minimi quadrati, i parametri del modello di regressione, 2 X = β0 + β1 4 X + ε. (suggerimento: x2 = 4830.55556, σ 2 (2 X) = 6580625.358, COV (2 X, 4 X) = 11940845.8148). 1.5A) Si valuti il grado di adattamento relativo della retta di regressione calcolata al punto precedente, con opportuni commenti critici. Inoltre, si rappresenti graficamente la retta di regressione sul diagramma cartesiano prodotto al punto 1.3A). 1.6A) Se si studia la regressione multipla, secondo i minimi quadrati, del carattere 2 X su alcuni dei restanti caratteri, attraverso il modello 2X [2pt] = α0 + α1 1 X + α2 3 X + α3 4 X + α4 5 X + ε, si ottengono i risultati che seguono, ove, tra parentesi tonde, figura la statistica t: αˆ0 = −13395.3 (−24.929); αˆ1 = −1.19347 (−0.261); αˆ2 = −1.01068 (−16.0568); αˆ3 = 0.994082 (33.4068); αˆ4 = 135.211; (25.9585), con un valore di 2 X R12X,3 X,4 X,5 X pari a 0.9994. Commentare i risultati ottenuti precisando il grado di attendibilità del modello proposto, la differente rilevanza delle componenti esplicative adottate, valutando la possibilità di operare riduzioni del modello. 1.7A) Se si esclude dal modello precedente la componente relativa alla variabile 1 X 2X [4pt] = α0 + α1 3 X + α2 4 X + α3 5 X + ε, si ottengono i risultati che seguono, ove, tra parentesi tonde, figura ancora la statistica t: αˆ0 = −13383.2 (−27.7152); αˆ1 = −1.01802 (−20.0332); αˆ2 = 0.9935 (37.1066); αˆ3 = 135.208 (28.777); 2 2 X R3 X,4 X,5 X = 0.999005. Interpretare i risultati riferendosi esplicitamente al contesto reale descritto al punto 1A), precisando il grado di attendibilità del modello ottenuto e la possibilità di operare ulteriori riduzioni nel modello stesso. 1.8A) Sulla scorta del modello stimato al punto 1.4A), calcolare e confrontare tra loro i residui riferiti a Reggio e Ferrara. Supponendo di eliminare dal modello Reggio, valutare, senza fare calcoli, quale potrebbe essere l’effetto che si ottiene sui parametri del modello e su ρ2 . Dire inoltre brevemente che cosa si intende per residuo di un modello di regressione. [13pt] 2A) Con riferimento all’indagine statistica di cui al punto 1A) la tabella seguente riporta la distribuzione dei bimbi iscritti ai nidi di infanzia suddivisi per età e comune di provenienza (si considerano bimbi fino ai 36 mesi provenienti dalle circoscrizioni di tre dei diciassette comuni della provincia parmense). X: Comune Borgo Val di Taro Collecchio Salsomaggiore Terme Totale [1pt] Y : Fascia d’età (mesi) 3 ⊣ 9 9 ⊣ 18 18 ⊣ 24 24 ⊣ 36 10 12 8 10 6 36 19 18 4 23 23 33 20 71 50 61 Totale 40 79 83 202 2.1A) Si individuino l’unità statistica, la natura e la scala di misurazione delle variabili rilevate. 2 [3pt] [3pt] 2.2A) Calcolare, se possibile, moda, mediana e media aritmetica di X e Y . 2.3A) Calcolare, rappresentare graficamente e confrontare le distribuzioni di frequenza relativa delle fasce di età per Borgo Val di Taro e Salsomaggiore Terme commentando opportunamente i risultati ottenuti. [3pt] 2.4A) Si calcoli, attraverso un indice appropriato, in che misura la fascia di età dei bimbi considerati dipenda dal comune di appartenenza. [Suggerimento: HXY = 2.311253 (logaritmi naturali)] [2pt] 2.5A) Si valuti, attraverso un indice opportuno, se l’età dei bimbi si possa ritenere stocasticamente indipendente dal comune di appartenenza. [1pt] 2.6A) Considerando solo i bimbi appartenenti ai comuni di Collecchio e Salsomaggiore Terme, determinare in percentuale coloro che si collocano nella fascia di età dai 9 ai 24 mesi. [3pt] [3pt] 3) Si illustri, con riferimento ad una variabile statistica doppia (X, Y ), come le medie delle distribuzioni condizionate di Y a ciascuna modalità di X, Y µ(xi ), siano legate alla media marginale di Y, µY . 4) Si spieghi, a parità di varianza totale σY2 , come elevati valori della varianza spiegata rappresentino un elevato scostamento dalla situazione di indipendenza in media. 3