1 Università di Venezia - Corso di Statistica I + II (Cb-Ga) Prova Pratica di Statistica - Prof. M. Romanazzi 8 Giugno 2007 1. La tabella riporta i decili xp della % dei votanti registrata nelle elezioni comunali del 27/5/2007 in 75 comuni del Veneto. Per confronto sono riportati anche i decili yp delle precedenti elezioni comunali. p (%) xp yp 0 58:3 62:2 10 64:6 68:9 20 67:9 74:1 30 71:2 75:3 40 72:6 76:5 50 73:6 78:0 60 74:9 79:0 70 76:6 79:6 80 78:3 81:6 90 80:3 83:0 100 85:6 87:7 Valuta, approssimativamente, la % dei comuni in cui la % dei votanti del 27/5/2007 supera il 75%. Fra 30 e 40%, perchè x0:6 = 74:9 pertanto FX (74:9) = 0:6. Com’è variata, nel complesso, la % dei votanti, rispetto alle elezioni precedenti? Giusti…ca accuratamente. Diminuita di circa 4-5 punti percentuali Giusti…cazione: Confronta i quantili corrispondenti delle due occasioni, in particolare le mediane La tabella riporta gli indici riassuntivi della % dei votanti del 27/5/2007 secondo la classe demogra…ca del comune. Determina gli indici riassuntivi a livello aggregato e riportali nella tabella. Emergono di¤erenze signi…cative tra i gruppi? Classe Demogra…ca Fino a 5000 abitanti Da 5000 a 15000 Oltre 15000 Tutti N. Comuni 33 29 13 75 Mediana 74:2 73:1 74:9 73:6 Media 73:6 72:76 73:11 73:19 SD 8:11 4:10 4:82 6:30 s2W ' 39:47, s2B ' 0:186, s2T ' 39:656, s2B =s2T ' 0:005: questo risultato conferma che non ci sono di¤erenze signi…cative tra le medie dei gruppi. È molto evidente invece la maggior dispersione della % dei votanti nei piccoli comuni. 2. Il ramo-foglia mostra la distribuzione dell’età media alla laurea dei laureati triennali in Economia di 31 atenei italiani (fonte: Alma Laurea, 2006). n = 31 25j 1 si legge 25.1 anni P31 xi = 768:30 Pi=1 31 2 i=1 xi = 19 112:11 23 24 25 26 27 28 34666899999 001134444578 125 1 1248 Riporta nella tabella gli indici di sintesi: minimo, massimo, quartili, barriere, media e deviazione standard. Indice x(1) V alore 23:3 x:25 23:9 x:5 24:3 x:75 25:1 x(n) BInf 28:8 22:1 BSup 26:9 x 24:8 sX 1:51 BSup < x(n) ; ci sono quattro dati statisticamente anomali nella coda superiore. 2 Traccia nello spazio sottostante il diagramma scatola-ba¢ . ALMA LAUREA - Profilo Laureati 2006 24 25 26 27 28 29 Età alla Laurea Laureati in Econom ia Distribuzione asimmetrica positivamente (osserva anche la relazione mediana-media). Le estremità dei ba¢ sono 23:3 (che è anche il dato minimo) e 26:1 (massimo dato non anomalo). I laureati a Ca’Foscari e a Bologna hanno un’età media di 24.0 e 28.1 anni, rispettivamente. Qual è la loro posizione, nella distribuzione dei 31 atenei? Venezia Ca’Foscari: molto prossima al primo quartile Bologna: è un dato statisticamente anomalo, nella coda destra 3. La variabile X ha una distribuzione Normale con media X = 10 e deviazione standard X = 2. Qual è il valore della funzione di ripartizione di X nel punto x = 8? FX (8) = 0:15865 La …gura mostra i diagrammi delle funzioni di ripartizione di quattro distribuzioni normali. Qual è il diagramma di X? 3 100 Distribuzioni Normali A: 80 B: C: 60 40 0 20 F. Ripartizione (%) D: 0 5 10 15 20 X A. Non può essere nè C, nè D (la loro media è 12); non può essere B perchè FB (8) > FA (8). Considera la trasformazione Y = X=2. Qual è il primo quartile di Y ? (st) y:25 = x:25 =2 = (10+2x:25 )=2 = 4:326 (equivarianza dei quantili rispetto alle trasformazioni monotone crescenti) 4. La tabella mostra la distribuzione di frequenza degli studenti universitari secondo l’area territoriale di residenza, X, e l’area territoriale di ubicazione dell’università, Y (fonte: ISTAT, a. a. 2005/06). Residenza Studenti, X Nord Centro Sud Marginale Y Ubicazione Università, Y Nord Centro Sud 582518 17858 5528 15980 344929 10334 57435 93179 651907 655933 465966 667769 Marginale X 605904 371243 802521 1779668 Qual è la % degli studenti universitari residenti nelle regioni del nord? 34.0% Considera i soli studenti universitari residenti nelle regioni del nord. Qual è la % degli studenti iscritti ad un’università del centro o del sud, limitatamente a questa sottopopolazione? 3.86% Proponi un indice per valutare la mobilità degli studenti universitari, cioè la loro propensione ad iscriversi ad un’università ubicata in un’area diversa da quella di residenza. Qual è il valore complessivo dell’indice? Qual è l’area territoriale col più alto grado di mobilità? L’indice è la frequenza degli studenti residenti in una data area e che sono iscritti ad università fuori area, divisa per la frequenza degli studenti residenti in quell’area. Il valore complessivo dell’indice è 11.3%; nord: 3.86%, centro: 7.09%, sud: 18.8%; l’area col più alto tasso di mobilità è perciò il sud. Nota che la media ponderata degli indici parziali è uguale all’indice complessivo. 4 5. Le entrate correnti dei comuni comprendono entrate tributarie ed extratributarie e contributi e trasferimenti statali. Il grado di dipendenza erariale (indicato con X) è il rapporto % tra contributi e trasferimenti statali ed entrate correnti. La tabella riporta gli indici di sintesi del grado di dipendenza erariale nel 2002 (X02 ) e nel 2003 (X03 ) su base regionale (fonte: ISTAT). n 20 x02 22:985 s02 14:566 x03 s03 s02;03 18:720 13:156 189:7 Il diagramma di dispersione mostra la distribuzione congiunta di X02 e X03 . La linea punteggiata è la bisettrice del primo quadrante, cioè il luogo dei punti tali che X02 = X03 . Illustra la tendenza statistica che emerge dai dati in riferimento ai seguenti aspetti. Il grado di dipendenza erariale, nel complesso, è aumentato o diminuito? Emergono di¤erenze tra nord, centro e sud? Le variabili sono dipendenti? 50 Bilanci Comunali 2003 n: Regioni del Nord s 40 c: Regioni del Centro s: Regioni del Sud 30 s 20 s c s s c c c nn n 10 0 Dip. Erariale 2003, % s s s n n nn 0 n 10 20 30 40 50 Dip. Erariale 2002, % Il grado di dipendenza erariale è diminuito in misura sensibile per quasi tutte le regioni (i punti sono per lo più sotto la bisettrice): la di¤erenza tra le medie è di circa 4 punti percentuali. Ci sono forti di¤erenze tra le aree territoriali. In particolare nel centro-nord il dato non supera il 25-30%, mentre nel sud è sempre al di sopra di questo valore. Questo risultato, di grande importanza pratica, indica che i comuni del sud dipendono in misura maggiore dai trasferimenti statali. Le due variabili sono fortemente correlate, in senso concorde: il coe¢ ciente di correlazione lineare è circa pari a 0.980. b03 = a + a X02 la previsione di X03 basata sulla retta dei minimi quadrati. Indica con X 0 1 Calcola i valori dei coe¢ cienti della retta. Il grado di dipendenza erariale dei comuni del Veneto è passato da 17.3% nel 2002 a 10.6% nel 2003. Calcola il valore previsto di X03 per i comuni veneti basato sul modello lineare. Qual è l’errore rispetto al dato osservato? a0 ' 1:833 , a1 ' 0:894 Valore previsto: 13:6 , errore: 10:6 13:6 = 3:0, valore un po’più alto, in valore assoluto, della SD dei residui, se = 2:62 La variabile Y = X03 X02 misura la di¤erenza del grado di dipendenza erariale tra il 2002 ed il 2003. Calcolane media e deviazione standard. y = 4:27 , sY = 2:46 5 6. Una scatola contiene 13 biglietti con le sigle delle province del Triveneto (Trentino-Alto Adige, 2 province: BZ, TN; Veneto, 7 province: BL, PD, RO, TV, VE, VI, VR; Friuli-Venezia Giulia, 4 province: GO, PN, TS, UD). Supponi di estrarre a caso, senza reinserimento, 3 biglietti. Descrivi a parole la negazione logica dell’evento “la terna contiene almeno una provincia del Veneto” e calcolane la probabilità. Descrizione: “la terna non contiene province del Veneto” Probabilità: 10=143 Qual è la probabilità della somma logica degli eventi A : la terna contiene 2 province del Veneto, B : la terna contiene 1 provincia del Trentino-Alto Adige? 97=143. Gli eventi sono compatibili (ci sono terne contenenti 2 province del Veneto e 1 provincia del Trentino-Alto Adige) perciò si deve usare la formula P (A) + P (B) P (A \ B); nota che P (A \ B) 6= P (A)P (B) perchè i due eventi sono dipendenti. Calcola la probabilità che alla terza estrazione esca un capoluogo di regione, sapendo che nelle prime due estrazioni sono uscite PD e TN ( i capoluoghi di regione sono TN, VE, TS). 2=11 7. Rossi lancia n volte una moneta regolare e in ogni prova vince o perde 1 euro a seconda che esca testa oppure croce. Fissa n = 10. Qual è la probabilità di osservare 4 teste? Qual è il corrispondente pagamento? 10 Probabilità: 10 = 0:205078, pagamento: +4 6 = 2 4 (1=2) Fissa n = 100. Qual è il valore atteso del pagamento totale T100 ? Qual è l’errore standard? E(T100 ) = 0 , SE(T100 ) = 10 Fissa ancora n = 100. Qual è la probabilità che Rossi ottenga un pagamento totale positivo? Giusti…ca accuratamente la risposta. P100 100 Probabilità: x=51 100 = 0:4602054 ' 1 FN (0;1) (0:1) x (1=2) Giusti…cazione: Rossi ottiene un pagamento positivo se e solo se il numero di teste supera il numero di croci; nella distribuzione binomiale BI(n = 100; p = 1=2) si devono sommare le probabilità dei valori da 51 a 100, estremi inclusi. Grazie al TLC, questa probabilità è approssimabile con l’area sotto la curva gaussiana standard da 0.1 in poi. L’approssimazione è buona. 8. Il ramo-foglia mostra le % dei votanti nelle elezioni comunali del 27/5/2007 in un campione casuale di 58 comuni del centro-nord. Ci proponiamo di usare questi dati per stimare la % media dei votanti, indicata con , in tutti i comuni del centro-nord dove si è votato. n = 58 76j 1 si legge 76.1% P58 xi = 4 564:9 Pi=1 58 2 i=1 xi = 360 899:7 68 70 72 74 76 78 80 82 84 86 88 90 31 7947 014777 2548 13778008 0145577880034467 29 560039 13467 19 0 05 6 Qual è la stima campionaria di ? Qual è la stima dell’errore standard? p Stima di : x58 = 78:705, stima dell’errore standard: sX = 58 ' 0:694 Determina l’intervallo di con…denza per . (77:345; 80:065), liv. conf. 0.95 Quale dovrebbe essere la numerosità campionaria, se l’errore standard deve risultare inferiore a 0:5%? p Risolvendo la diseguaglianza sX = n < 0:5 rispetto ad n si trova n > 112.