Prova Pratica di Statistica $ Prof. M. Romanazzi

1
Università di Venezia - Corso di Statistica I + II (Cb-Ga)
Prova Pratica di Statistica - Prof. M. Romanazzi
8 Giugno 2007
1. La tabella riporta i decili xp della % dei votanti registrata nelle elezioni comunali del 27/5/2007
in 75 comuni del Veneto. Per confronto sono riportati anche i decili yp delle precedenti elezioni
comunali.
p (%)
xp
yp
0
58:3
62:2
10
64:6
68:9
20
67:9
74:1
30
71:2
75:3
40
72:6
76:5
50
73:6
78:0
60
74:9
79:0
70
76:6
79:6
80
78:3
81:6
90
80:3
83:0
100
85:6
87:7
Valuta, approssimativamente, la % dei comuni in cui la % dei votanti del 27/5/2007 supera il
75%.
Fra 30 e 40%, perchè x0:6 = 74:9 pertanto FX (74:9) = 0:6.
Com’è variata, nel complesso, la % dei votanti, rispetto alle elezioni precedenti? Giusti…ca
accuratamente.
Diminuita di circa 4-5 punti percentuali
Giusti…cazione: Confronta i quantili corrispondenti delle due occasioni, in particolare le
mediane
La tabella riporta gli indici riassuntivi della % dei votanti del 27/5/2007 secondo la classe
demogra…ca del comune. Determina gli indici riassuntivi a livello aggregato e riportali nella
tabella. Emergono di¤erenze signi…cative tra i gruppi?
Classe Demogra…ca
Fino a 5000 abitanti
Da 5000 a 15000
Oltre 15000
Tutti
N. Comuni
33
29
13
75
Mediana
74:2
73:1
74:9
73:6
Media
73:6
72:76
73:11
73:19
SD
8:11
4:10
4:82
6:30
s2W ' 39:47, s2B ' 0:186, s2T ' 39:656, s2B =s2T ' 0:005: questo risultato conferma che non
ci sono di¤erenze signi…cative tra le medie dei gruppi. È molto evidente invece la maggior
dispersione della % dei votanti nei piccoli comuni.
2. Il ramo-foglia mostra la distribuzione dell’età media alla laurea dei laureati triennali in Economia
di 31 atenei italiani (fonte: Alma Laurea, 2006).
n = 31
25j 1 si legge 25.1 anni
P31
xi = 768:30
Pi=1
31
2
i=1 xi = 19 112:11
23
24
25
26
27
28
34666899999
001134444578
125
1
1248
Riporta nella tabella gli indici di sintesi: minimo, massimo, quartili, barriere, media e deviazione standard.
Indice x(1)
V alore 23:3
x:25
23:9
x:5
24:3
x:75
25:1
x(n) BInf
28:8 22:1
BSup
26:9
x
24:8
sX
1:51
BSup < x(n) ; ci sono quattro dati statisticamente anomali nella coda superiore.
2
Traccia nello spazio sottostante il diagramma scatola-ba¢ .
ALMA LAUREA - Profilo Laureati 2006
24
25
26
27
28
29
Età alla Laurea Laureati in Econom ia
Distribuzione asimmetrica positivamente (osserva anche la relazione mediana-media). Le
estremità dei ba¢ sono 23:3 (che è anche il dato minimo) e 26:1 (massimo dato non anomalo).
I laureati a Ca’Foscari e a Bologna hanno un’età media di 24.0 e 28.1 anni, rispettivamente.
Qual è la loro posizione, nella distribuzione dei 31 atenei?
Venezia Ca’Foscari: molto prossima al primo quartile
Bologna: è un dato statisticamente anomalo, nella coda destra
3. La variabile X ha una distribuzione Normale con media
X
= 10 e deviazione standard
X
= 2.
Qual è il valore della funzione di ripartizione di X nel punto x = 8?
FX (8) = 0:15865
La …gura mostra i diagrammi delle funzioni di ripartizione di quattro distribuzioni normali.
Qual è il diagramma di X?
3
100
Distribuzioni Normali
A:
80
B:
C:
60
40
0
20
F. Ripartizione (%)
D:
0
5
10
15
20
X
A. Non può essere nè C, nè D (la loro media è 12); non può essere B perchè FB (8) >
FA (8).
Considera la trasformazione Y = X=2. Qual è il primo quartile di Y ?
(st)
y:25 = x:25 =2 = (10+2x:25 )=2 = 4:326 (equivarianza dei quantili rispetto alle trasformazioni
monotone crescenti)
4. La tabella mostra la distribuzione di frequenza degli studenti universitari secondo l’area territoriale
di residenza, X, e l’area territoriale di ubicazione dell’università, Y (fonte: ISTAT, a. a. 2005/06).
Residenza Studenti, X
Nord
Centro
Sud
Marginale Y
Ubicazione Università, Y
Nord
Centro
Sud
582518 17858
5528
15980 344929 10334
57435
93179 651907
655933 465966 667769
Marginale X
605904
371243
802521
1779668
Qual è la % degli studenti universitari residenti nelle regioni del nord?
34.0%
Considera i soli studenti universitari residenti nelle regioni del nord. Qual è la % degli studenti
iscritti ad un’università del centro o del sud, limitatamente a questa sottopopolazione?
3.86%
Proponi un indice per valutare la mobilità degli studenti universitari, cioè la loro propensione
ad iscriversi ad un’università ubicata in un’area diversa da quella di residenza. Qual è il valore
complessivo dell’indice? Qual è l’area territoriale col più alto grado di mobilità?
L’indice è la frequenza degli studenti residenti in una data area e che sono iscritti ad
università fuori area, divisa per la frequenza degli studenti residenti in quell’area. Il valore
complessivo dell’indice è 11.3%; nord: 3.86%, centro: 7.09%, sud: 18.8%; l’area col più alto
tasso di mobilità è perciò il sud. Nota che la media ponderata degli indici parziali è uguale
all’indice complessivo.
4
5. Le entrate correnti dei comuni comprendono entrate tributarie ed extratributarie e contributi e
trasferimenti statali. Il grado di dipendenza erariale (indicato con X) è il rapporto % tra contributi
e trasferimenti statali ed entrate correnti. La tabella riporta gli indici di sintesi del grado di
dipendenza erariale nel 2002 (X02 ) e nel 2003 (X03 ) su base regionale (fonte: ISTAT).
n
20
x02
22:985
s02
14:566
x03
s03
s02;03
18:720 13:156 189:7
Il diagramma di dispersione mostra la distribuzione congiunta di X02 e X03 . La linea punteggiata è la bisettrice del primo quadrante, cioè il luogo dei punti tali che X02 = X03 . Illustra
la tendenza statistica che emerge dai dati in riferimento ai seguenti aspetti. Il grado di dipendenza erariale, nel complesso, è aumentato o diminuito? Emergono di¤erenze tra nord, centro
e sud? Le variabili sono dipendenti?
50
Bilanci Comunali 2003
n: Regioni del Nord
s
40
c: Regioni del Centro
s: Regioni del Sud
30
s
20
s
c
s
s
c
c
c nn
n
10
0
Dip. Erariale 2003, %
s
s
s
n n
nn
0
n
10
20
30
40
50
Dip. Erariale 2002, %
Il grado di dipendenza erariale è diminuito in misura sensibile per quasi tutte le regioni
(i punti sono per lo più sotto la bisettrice): la di¤erenza tra le medie è di circa 4 punti
percentuali. Ci sono forti di¤erenze tra le aree territoriali. In particolare nel centro-nord il dato
non supera il 25-30%, mentre nel sud è sempre al di sopra di questo valore. Questo risultato,
di grande importanza pratica, indica che i comuni del sud dipendono in misura maggiore
dai trasferimenti statali. Le due variabili sono fortemente correlate, in senso concorde: il
coe¢ ciente di correlazione lineare è circa pari a 0.980.
b03 = a + a X02 la previsione di X03 basata sulla retta dei minimi quadrati.
Indica con X
0
1
Calcola i valori dei coe¢ cienti della retta. Il grado di dipendenza erariale dei comuni del
Veneto è passato da 17.3% nel 2002 a 10.6% nel 2003. Calcola il valore previsto di X03 per i
comuni veneti basato sul modello lineare. Qual è l’errore rispetto al dato osservato?
a0 ' 1:833
, a1 ' 0:894
Valore previsto: 13:6
, errore: 10:6 13:6 = 3:0, valore un po’più alto,
in valore assoluto, della SD dei residui, se = 2:62
La variabile Y = X03 X02 misura la di¤erenza del grado di dipendenza erariale tra il 2002
ed il 2003. Calcolane media e deviazione standard.
y = 4:27
, sY = 2:46
5
6. Una scatola contiene 13 biglietti con le sigle delle province del Triveneto (Trentino-Alto Adige, 2
province: BZ, TN; Veneto, 7 province: BL, PD, RO, TV, VE, VI, VR; Friuli-Venezia Giulia, 4
province: GO, PN, TS, UD). Supponi di estrarre a caso, senza reinserimento, 3 biglietti.
Descrivi a parole la negazione logica dell’evento “la terna contiene almeno una provincia del
Veneto” e calcolane la probabilità.
Descrizione: “la terna non contiene province del Veneto”
Probabilità: 10=143
Qual è la probabilità della somma logica degli eventi A : la terna contiene 2 province del
Veneto, B : la terna contiene 1 provincia del Trentino-Alto Adige?
97=143. Gli eventi sono compatibili (ci sono terne contenenti 2 province del Veneto e 1
provincia del Trentino-Alto Adige) perciò si deve usare la formula P (A) + P (B) P (A \ B);
nota che P (A \ B) 6= P (A)P (B) perchè i due eventi sono dipendenti.
Calcola la probabilità che alla terza estrazione esca un capoluogo di regione, sapendo che nelle
prime due estrazioni sono uscite PD e TN ( i capoluoghi di regione sono TN, VE, TS).
2=11
7. Rossi lancia n volte una moneta regolare e in ogni prova vince o perde 1 euro a seconda che esca
testa oppure croce.
Fissa n = 10. Qual è la probabilità di osservare 4 teste? Qual è il corrispondente pagamento?
10
Probabilità: 10
= 0:205078, pagamento: +4 6 = 2
4 (1=2)
Fissa n = 100. Qual è il valore atteso del pagamento totale T100 ? Qual è l’errore standard?
E(T100 ) = 0
, SE(T100 ) = 10
Fissa ancora n = 100. Qual è la probabilità che Rossi ottenga un pagamento totale positivo?
Giusti…ca accuratamente la risposta.
P100
100
Probabilità: x=51 100
= 0:4602054 ' 1 FN (0;1) (0:1)
x (1=2)
Giusti…cazione: Rossi ottiene un pagamento positivo se e solo se il numero di teste supera
il numero di croci; nella distribuzione binomiale BI(n = 100; p = 1=2) si devono sommare
le probabilità dei valori da 51 a 100, estremi inclusi. Grazie al TLC, questa probabilità è
approssimabile con l’area sotto la curva gaussiana standard da 0.1 in poi. L’approssimazione
è buona.
8. Il ramo-foglia mostra le % dei votanti nelle elezioni comunali del 27/5/2007 in un campione casuale
di 58 comuni del centro-nord. Ci proponiamo di usare questi dati per stimare la % media dei
votanti, indicata con , in tutti i comuni del centro-nord dove si è votato.
n = 58
76j 1 si legge 76.1%
P58
xi = 4 564:9
Pi=1
58
2
i=1 xi = 360 899:7
68
70
72
74
76
78
80
82
84
86
88
90
31
7947
014777
2548
13778008
0145577880034467
29
560039
13467
19
0
05
6
Qual è la stima campionaria di ? Qual è la stima dell’errore standard?
p
Stima di : x58 = 78:705, stima dell’errore standard: sX = 58 ' 0:694
Determina l’intervallo di con…denza per .
(77:345; 80:065), liv. conf. 0.95
Quale dovrebbe essere la numerosità campionaria, se l’errore standard deve risultare inferiore
a 0:5%?
p
Risolvendo la diseguaglianza sX = n < 0:5 rispetto ad n si trova n > 112.