Testi e soluzioni dei compiti di esame di STATISTICA - UniFI

Testi e soluzioni dei compiti di esame di
STATISTICA AVANZATA
c.l. Economia dello Sviluppo Avanzata
17 gennaio 2013
1
Elenco
1. Compito del 11.06.2009
2. Compito del 25.06.2009
3. Compito del 09.07.2009
4. Compito del 10.09.2009
5. Compito del 17.12.2009
6. Compito del 28.01.2010
7. Compito del 25.02.2010
8. Compito del 21.07.2010
2
1
1.1
Compito del 11.06.2009
Testo
Premessa: Si parla dei servizi sociali (asili nido, case ad affitti calmierati, servizi sociali ed assistenza
sanitaria per anziani, sconti su tariffe, ecc.) offerti alla cittadinanza da una apposita società creata da
alcuni anni dai comuni appartenenti ad un’ampia area metropolitana.
Esercizio 1. Nel 2007 è stata intrapresa un’attività di controllo delle autocertificazioni richieste (relative
al reddito familiare) al fine di stabilire le rette degli asili nido. I controlli, su base campionaria, hanno
indicato che su 361 posizioni controllate, quelle in cui è stata riscontrata una palese evasione sono 62. In
base ai dati del campione:
(A) Stimare la proporzione di evasori nell’intera popolazione mediante lo stimatore di massima verosimiglianza. Fornire anche lo standard error.
(B) Altre esperienze simili hanno dato una percentuale di evasione del 12.5%. Quella che emerge dai dati
del campione è significativamente diversa? Rispondere mediante il p-value.
Esercizio 2. Relativamente alle posizioni in cui è stata riscontrata evasione, è stata analizzata l’eventuale
relazione esistente fra reddito evaso e reddito dichiarato. La tabella che segue riporta alcune statistiche
calcolate sul campione a disposizione (redditi espressi in migliaia di euro; abbreviazioni autoesplicative).
osservazioni
62
media(Dich)
21.7
media(Evas)
15.42
dev.st(Dich)
5.32
dev.st(Evas)
4.29
correlazione(Dich, Evas)
0.713
Si formuli un opportuno modello che risponda alle esigenze espresse nel testo e si risponda alle seguenti
domande.
(A) Stimare tutti i parametri del modello mediante il metodo dei minimi quadrati.
(B) L’ammontare evaso tende ad aumentare in modo significativo all’aumentare del valore dichiarato?
Rispondere impostando il problema come test delle ipotesi (α = 0.05).
(C) Indicare quanta parte della variabilità della variabile dipendente è spiegata dal modello considerato.
(D) Calcolare il residuo stimato per una osservazione del campione i cui valori dichiarato ed evaso sono
risultati, rispettivamente, di 23.39 e 16.26 migliaia di euro.
Esercizio 3. Una simulazione effettuata prima di intraprendere i controlli (basata su valutazioni di
consulenti) prevedeva che la probabilità di autocertificare un reddito palesemente sottovalutato rispetto
a quello reale fosse 0.123 per i lavoratori dipendenti, 0.241 per i professionisti, di 0.412 per gli altri. In
uno scenario di questo tipo, con riferimento ad una popolazione composta per il 45.3% da dipendenti e
il 14.6% da professionisti:
(A) Presa a caso un’autocertificazione, calcolare la probabilità che questa sia non in regola.
(B) Presa a caso un’autocertificazione fra quelle non in regola, calcolare la probabilità che sia di un
professionista.
1.2
Soluzione
Esercizio 1. Assunzioni: X =’Evasore?’∼ Be(p) (X = 1 sta per evasore).
(A) Lo stimatore di massima verosimiglianza di p è la media campionaria. Stima puntuale: 0.172;
standard error: 0.01985.
(B) Test di H0 : p = 0.125 contro H1 : p
p 6= 0.125. Per semplicità, da ora in poi si indica 0.125 con
p0 . Statistica test sotto H0 : (X − p0 )/ p0 q0 /n con distribuzione approssimata N (0, 1) (n è infatti
sufficientemente
p elevato). Valore campionario della statistica test sotto H0 : zcamp = 2.6855; p − value =
2P [(X − p0 )/ p0 q0 /n > |zcamp ||H0 ] = 2P [Z > 2.6855|H0 ] = 2 ∗ 0.00362 = 0.00724.
p
√
Pn
Pn
Calcoli e valori utili: n = 361, p
x(1 − x)/n = 0.00039 =
i=1 xi = 62,√x =
i=1 xi /n = 0.172, se =
0.01985; p0 = 0.125, q0 = 0.875, p0 q0 /n = 3e − 04 = 0.01741.
3
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui x = reddito
autocertificato, y = reddito evaso.
(A) βb1 = 0.575, βb0 = 2.9434, σ
b2 = 9.3496.
(B) Test di H0 : β1 = 0 contro H1 : β1 > 0. Statistica test sotto H0 : (βb1 − 0)/s(βb1 ) con distribuzione
approssimata T (n − 2). Valore campionario della statistica test sotto H0 : tcamp = 7.8767; regione rifiuto
per α = 0.05: (1.6706, ∞).
(C) R2 = 0.5084.
(D) Residuo in corrispondenza dell’osservazione (xi = 23.39, yi = 16.26): u
bi = −0.1317.
Valori e calcoli utili: n = 62, dev(x) = nV ar(x) = 1754.7488, dev(y) = nV ar(y) = 1141.0542,
q
codev(x, y) = corr(x, y) dev(x)dev(y) = 1008.9047, βb1 = codev(x, y)/dev(x) = 0.575, βb0 = y − βb1 x =
p
√
2.9434, σ
b2 = (dev(y) − βb12 dev(x))/(n − 2) = 9.3496, se(βb1 ) =
σ
b2 /dev(x) = 0.0053 = 0.073,
dev(RES) = dev(y) − βb12 dev(x) = 560.9776, dev(REG) = dev(y) − dev(RES) = 580.0766, R2 =
dev(REG)/dev(y) = 0.5084; ybi = βb0 + βb1 xi = 16.3917, u
bi = yi − ybi = −0.1317.
Esercizio 3. Assunzioni: E =’Evasore’, D =’Dipendente’, R =’Professionista’; A =’Altro’; P (E|D) =
0.123, P (E|R) = 0.241, P (E|A) = 0.412, P (D) = 0.453, P (R) = 0.146.
(A) P (E) = P (E|D)P (D) + P (E|R)P (R) + P (E|A)P (A) = 0.2561.
(B) P (R|E) = P (E|R)P (R)/P (E) = 0.1374.
Valori e calcoli utili: P (A) = 1 − P (D) − P (R) = 0.401
4
2
2.1
Compito del 25.06.2009
Testo
Premessa: Nell’ambito di un progetto di cooperazione, la catena commerciale CPD fa produrre alcuni
prodotti alimentari (fuori stagione per l’Italia) in Burchina Faso.
Esercizio 1. Uno degli obiettivi CPD è quello di ridurre al minimo possibile l’uso di pesticidi nella
coltivazione dei prodotti. A titolo di esprerimento, relativamente alla produzione di fagiolini è stata fatta
una comparazione per verificare l’eventuale perdita di produzione nel caso non si usino pesticidi. La
seguente tabella riporta i risultati ottenuti su due distinti campioni casuali (dati espressi in qli/ettaro).
Senza pesticidi
Con pesticidi
1.8
3.3
2.6
2.7
2.5
3.8
1
2.7
2.7
2.9
Assumendo che la produzione su ciascuna unità del campione si distribuisca in modo normale ed evitando
assunzioni sulle varianze:
(A) Stimare la differenza fra le produzioni medie delle due diverse metodologie; fornire il corrispondente
standard error.
(B) Il fatto di non usare pesticidi fa mediamente diminuire la produzione? (α = 0.01)
(C) Effettuare il calcolo dello standard error richiesto al punto A nel caso in cui si assuma l’uguaglianza
delle due varianze. Confrontare il risultato con quello ottenuto al punto A e spiegare.
Esercizio 2. Produzioni di tipo biologico o, comunque, di lotta integrata richiedono il monitoraggio
della quantità parassiti che possono attaccare le produzioni. Il monitoraggio è spesso effettuato mediante
’trappole’ per catturare e contare i parassiti presenti al momento. I dati che seguono (rilevati in assenza di
ogni intervento) possono aiutare a percepire in che misura la presenza di parassiti danneggia le produzioni
(presenza del parassita yellow fly rilevato dalle trappole espressa in unità standardizzate; produzione in
qli/ettaro).
Produzione di fagiolini
Presenza yellow fly
3.3
2.2
2.7
2.6
3.2
4.7
1.7
7.4
3.2
5.4
Si formuli un opportuno modello e si risponda alle seguenti domande.
(A) Stimare tutti i parametri del modello mediante il metodo dei minimi quadrati.
(B) Calcolare lo standard error dei coefficienti di regressione.
(C) Indicare quanta parte della variabilità della variabile dipendente è spiegata dal modello considerato.
Esercizio 3. Nel 2008 sono state coinvolte nella produzione di fagiolini 61 persone. Si assuma che la
probabilità di una persona di infortunarsi nell’arco della stagione sia il 2% e che gli eventuali infortuni
avvengano in modo indipendente l’uno dall’altro.
(A) Calcolare la probabilità che, complessivamente, si infortunino meno di 2 persone.
(B) Seppure in modo approssimato, il calcolo precedente può essere effettuato ricorrendo ad un’altra
distribuzione (fra quelle a voi note). Effettuare il calcolo spiegandone le ragioni teoriche.
2.2
Soluzione
2
Esercizio 1. Assunzioni: X =’Produzione senza pesticidi’∼ N (µX , σX
); Y =’Produzione con pesticidi’∼
2
N (µY , σY );
(A) La quantità da
p stimare è µY − µX ;√lo stimatore è Y − X; la stima è y − x = 0.96; il corrispondente
standard error è s2Y /nY + s2X /nX = 0.1478 = 0.3844.
(B) Test di H0 : µY − µX = 0 contro H1 : µY − µX > 0. In assenza di assunzioni sulle varianze possiamo
adottare l’approssimazione di Satterthwaite. Statistica test sotto H0 : (Y − X − 0)/se con distribuzione
approssimata T (g), dove se indica lo standard error calcolato come sopra e g indica i g.l. calcolati con
l’approssimazione di Satterthwaite. Valore campionario della statistica test 2.4971; regione di rifiuto per
α = 0.01 (2.998, ∞).
5
p
(C) Nel caso in cui le due varianze siano assunte uguali, lo standard error di Y −X è dato da spooled 1/nX + 1/nY =
0.3844. In pratica viene identico a quello calcolato al punto A, cosa che accade ogni volta in cui nX = nY
(basta controllare le formule).
PnX 2
PnX
PnX 2
xi = 10.6,
xi − nX x2 =
Calcoli e valori utili: nX =P
5, i=1
= i=1
i=1 xi = 24.54, x = 2.12, dev(x)
P
P
n
n
n
Y
Y
Y
2
2
2
2.068 sX = 0.517, nY = 5, i=1 yi = 15.4, i=1 yi = 48.32, y = 3.08, dev(y) = i=1 yi − nY y 2 = 0.888
2
2
2
s2Y = 0.222, A = p
s2X /nX = 0.1034, B = s2Y /nY = 0.0444. g = [A +
√ B] /[A /(nX − 1) + B /(nY − 1)] =
2
2
6.9004, spooled = [sX (nX − 1) + sY (nY − 1)]/(nX + nY − 2) = 0.3695 = 0.6079.
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’produzione’,
x =’parassiti’.
(A) βb1 = −0.2042, βb0 = 3.7306, σ
b2 = 0.3438.
(B) se(βb1 ) = 0.1376, se(βb0 ) = 0.6675.
(C) R2 = 0.4232.
Calcoli e valori
xi
2.2
yi
3.3
x2i
4.84
yi2
10.89
xi yi
7.26
utili:
2.6
2.7
6.76
7.29
7.02
4.7
3.2
22.09
10.24
15.04
7.4
1.7
54.76
2.89
12.58
5.4
3.2
29.16
10.24
17.28
22.3
14.1
117.61
41.55
59.18
Pn
Pn
da cui: n = 5, x = 4.46, y = 2.82, dev(x) = i=1 x2i − nx2 = 18.152, dev(y) = i=1 yi2 − ny 2 = 1.788,
2
Pn
c1 dev(x) = 1.0314, σ
b2 = dev(RES)/(n−
codev(x, y) = i=1 xi yi −nxy = −3.706, dev(RES) = dev(y)− β
p
p
√
√
2
2
2
c1 ) = σ
2) = 0.3438, se(β
b /dev(x) = 0.0189 = 0.1376, se(βb0 ) = σ
b (1/n + x /dev(x)) = 0.4455 =
0.6675, dev(REG) = dev(y) − dev(RES) = 0.7566, R2 = dev(REG)/dev(y) = 0.4232.
Esercizio 3. Assunzioni: X =’totale infortunati nella stagione’ ∼ Bi(n = 61, p = 0.02).
(A) P (X < 2) = P (X ≤ 1) = 0.2916 + 0.363 = 0.6546.
(B) Essendo p abbastanza vicino a 0, possiamo ricorrere all’approssimazione Bi(n, p) ≈ P o(λ = np =
1.22).
P (X < 2) = P (X ≤ 1) = 0.2952 + 0.3602 = 0.6554.
6
3
3.1
Compito del 09.07.2009
Testo
Premessa: Si parla di microcredito in Blangladesh e della celebre Grameen Bank.
Esercizio 1. La seguente tabella mostra una serie di dati della Bank riferiti al recente periodo di attività.
Si vuole analizzare il legame dell’ammontare dei prestiti concessi in funzione del numero di debitori.
Anno
Prestiti concessi (milioni USD)
Numero debitori (milioni)
2004
330
3.9
2005
410
5.3
2006
470
5.8
2007
540
6.2
2008
640
6.1
Formulare un opportuno modello che risponda alle esigenze espresse e rispondere alle seguenti domande:
(A) Stimare tutti i parametri del modello.
(B) Calcolare devianza di regressione, devianza residua ed indice R2 .
(C) In base al modello, stimare il valore dei debiti concessi qualora i debitori salissero del 10% rispetto
al 2008.
Esercizio 2. La probabilità che una donna restituisca interamente il prestito concesso è del 98.8%; per
un uomo tale probabilità è del 90%. Sapendo che i debitori uomini sono il 9.5%:
(A) Calcolare la probabilità che un prestito, estratto casualmente, non venga restituito per intero.
(B) Calcolare le probabilità a posteriori condizionatamente al fatto che un prestito non venga interamente
restituito.
(C) Calcolare la probabilità che su 94 prestiti, estratti casualmente con reimmissione, quelli non restituiti
interamente siano più di 2.
Esercizio 3. La tabella seguente (riferita ad un caso di studio e non a tutta la popolazione) analizza le
perdite subita dalla Bank sui debitori che non restituiscono il prestito per intero. Le statistiche riguardano
l’ammontare percentuale delle rate non rimborsate sul totale (stante la povertà dei debitori, la variabile
in analisi coincide praticamente con la LGD).
Debitori
Uomini
Donne
osservazioni
267
378
Statistiche
√
media
Varianza corretta
47.4
17.5
44.9
16.9
Assumendo che la percentuale non restituita segua una distribuzione Normale (assunzione non completamente giustificata):
(A) Stimare la differenza media della percentuale non restituita fra uomini e donne; fornire il corrispondente standard error.
(B) Le donne tendono ad avere una perdita percentuale media inferiore agli uomini? Rispondere mediante
il p-value.
3.2
Soluzione
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Prestiti
concessi’, x =’Numero di debitori’.
(A) βb1 = 110, βb0 = −122.7, σ
b2 = 4641.7.
(B) dev(Res) = 13925.2, dev(Reg) = 42754.8, R2 = 0.7543.
(C) x0 = (1 + 10%) ∗ x2008 = 6.71, da cui yb(x0 ) = 615.5.
d Calcoli e valori utili:
7
xi
yi
x2i
yi2
xi yi
3.9
330
15.21
108900
1287
5.3
410
28.09
168100
2173
5.8
470
33.64
220900
2726
6.2
540
38.44
291600
3348
6.1
27.3
640
2390
37.21
152.59
409600 1199100
3904
13438
Pn
Pn
da cui: n = 5, x = 5.46, y = 478, dev(x) = i=1 x2i − nx2 = 3.532, dev(y) = i=1 yi2 − ny 2 = 56680,
2
Pn
c1 dev(x) = 13925.2, σ
codev(x, y) = i=1 xi yi −nxy = 388.6, dev(RES) = dev(y)− β
b2 = dev(RES)/(n−
2) = 4641.7, dev(REG) = dev(y) − dev(RES) = 42754.8, R2 = dev(REG)/dev(y) = 0.7543, yb(x0 ) =
βb0 + βb1 x0 = 615.5.
Esercizio 2. Assunzioni: F =’Donna’, M =’Uomo’, R =’Restituisce il prestito’. P (R|F ) = 0.988,
P (R|M ) = 0.9, P (M ) = 0.095, P (F ) = 1 − P (M ) = 0.905.
(A) P (R) = 1 − P (R) = 0.0204, dove P (R) = P (R|F )P (F ) + P (R|M )P (M ) = 0.9796.
(B) P (F |R) = P (R|F )P (F )/P (R) = 0.5334, P (M |R) = 1 − P (F |R) = 0.4666.
(C) X =’numero prestiti non interamente restituiti’Bi(n = 94, p = 0.0204). P (X > 2) = 1 − P (X ≤
2) = 1 − (0.1446 + 0.2825 + 0.2731) = 0.2998.
2
), Y =’Percentuale non
Esercizio 3. Assunzioni: X =’Percentuale non restituita da uomo’∼ N (µX , σX
2
restituita da donna’∼ N (µY , σY ),
(A)
Y . Stimatore X − Y , stima x − y = 2.5; corrispondente standard error se =
p Stima di µX − µ√
s2X /nX + s2Y /nY = 1.9026 = 1.3793.
(B)pTest di H0 : µX − µY = 0 contro H0 : µX − µY > 0. Statistica test (sotto H0 ) (X − Y −
2 /n + S 2 /n la cui distribuzione è, approssimativamente, N (0, 1) in base alle elevate dimensioni
0)/ SX
X
Y
Y
campionarie nX p
e nY . Valore campionario della statistica test (sotto H0 ): zcamp = 1.8125; p − value =
2 /n + S 2 /n > z
P ((X − Y − 0)/ SX
Y
camp |H0 ) = P (Z > zcamp |H0 ) = 0.03496
X
Y
Calcoli e valori utili: nX = 267, nY = 378, x = 47.4, y = 44.9, sX = 17.5, sY = 16.9, s2X = 306.25,
s2Y = 285.61.
8
4
4.1
Compito del 10.09.2009
Testo
Premessa: Una ricerca ha cercato di fare il punto sullo stato del commercio equo e solidale (di seguito
abbreviato in CES) in Italia.
Esercizio 1. Sono state prese in esame le vendite di prodotti alimentari CES effettuate nei supermercati.
La tabella seguente riporta i dati degli ultimi 5 anni (gli unici ragionevolmente affidabili e confrontabili
fra loro).
Anno
Vendite (milioni euro)
2003
42
2004
51
2005
59
2006
78
2007
86
Sia assuma che le vendite nei supermercati abbiano seguito, nel periodo considerato, un trend approssimativamente lineare nel tempo.
(A) Stimare tutti i parametri del modello con i minimi quadrati.
(B) Come si interpreta il la stima ottenuta di β1 ? Determinare anche lo standard error dello stimatore
utilizzato per stimare tale parametro.
(C) Utilizzare il modello utilizzato per stimare quanto saranno le vendite di prodotti alimentari CES nel
2008 e 2009.
Esercizio 2.
Un’analisi effettuata su un campione di clienti di supermercati ha cercato di valutare la loro propensione
all’acquisto di prodotti CES. Fra i 534 maschi intervistati, quelli che ne acquistano abitualmente sono il
12.36%, mentre fra le 824 femmine intervistate, la percentuale di cui sopra è del 16.383%.
(A) Fornire una stima della probabilità che un cliente acquisti abitualmente prodotti CES; fornire il corrispondente standard error (la composizione per sesso del campione rispecchia quella della popolazione).
(B) I due sessi tendono a comportarsi in modo significativamente diverso riguardo la loro propensione
all’acquisto? Rispondere mediante il p-value.
Esercizio 3. Limitatamente a coloro che ne acquistano almeno una volta al mese, si sa che, mensilmente,
i diplomati spendono in prodotti CES una media di 24 euro con una deviazione standard di 8.3 euro; i
non diplomati ne acquistano in media 14 euro con una deviazione standard di 4.8 euro.
Assumendo che la spesa mensile abbia distribuzione Normale e che i diplomati siano il 44.6%:
(A) Calcolare la probabilità che un acquirente estratto a caso spenda più di 20 euro in un mese.
(B) Un acquirente ha speso meno di 20 euro. Calcolare la probabilità che sia un diplomato.
(C) Su 129 acquirenti estratti casualmente, il numero di coloro che spendono più di 20 euro in un mese
è una variabile casuale. Calcolarne media e deviazione standard.
4.2
Soluzione
Esercizio 1. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Vendite’,
x =’Anno’.
(A) βb1 = 11.5, βb0 = −22994.3, σ
b2 = 10.7667.
(B) La stima di β1 di cui al punto (A) indica che, in media, ogni anno che passa le vendite tendono ad
aumentare di 11.5 milioni di euro. Lo standard error richiesto è σ
b(βb1 ) = 1.0376.
(C) yb(2008) = βb0 + βb1 2008 = 97.7; yb(2009) = βb0 + βb1 2009 = 109.2.
Calcoli e valori utili:
xi
2003
2004
yi
42
51
x2i
4012009 4016016
yi2
1764
2601
xi yi
84126
102204
2005
59
4020025
3481
118295
2006
78
4024036
6084
156468
2007
86
4028049
7396
172602
9
10025
316
20100135
21326
633695
Pn
Pn
da cui: n = 5, x = 2005, y = 63.2, dev(x) = i=1 x2i − nx2 = 10, dev(y) = i=1 yi2 − ny 2 = 1354.8,
2
Pn
c1 dev(x) = 32, σ
codev(x, y) = i=1 xi yi − nxy = 115, dev(RES) = dev(y) − β
b2 = dev(RES)/(n − 2) =
p
√
2
b /dev(x) = 1.0767 = 1.0376.
10.7667, σ
b(βb1 ) = σ
Esercizio 2.
(A)
Be(p). Stimatore di p: pb =
p CES’∼ √
Pn Assunzioni: X =’cliente acquista abitualmente prodotti
x
/n;
stima
p
b
=
201/1358
=
0.148;
standard
error:
se
=
p
b
q
b
/n
=
9.286e − 05 = 0.00964.
i=1 i
(B) Assunzioni: X1 =’cliente maschio acquista abitualmente prodotti CES’∼ Be(p1 ); X2 =’cliente maschio acquista abitualmente prodotti CES’∼ Be(p2 ), campioni indipendenti.
Test di H0 : p1 − p2 = 0
p
contro H0 : p1 −p2 6= 0. La statistica test, sotto H0 , è (b
p1 − pb2 −0)/ pbqb(1/n1 + 1/n2 ) la cui distribuzione
è, approssimativamente, N (0, 1);
pil valore campionario della statistica test è, sotto H0 , zcamp = −2.0392;
p − value = 2P ((b
p1 − pb2 − 0)/ pbqb(1/n1 + 1/n2 ) > |zcamp ||H0 ) = 2P (Z > 2.0392|H0 ) = 2 ∗ 0.02071 =
0.04143.
Calcoli e valori utili: n1 = 534, n2 = 824, pb1 = 0.1236, pb2 = 0.16383, x1 =’numero acquirenti abituali
maschi’=
acquirenti abituali femmine’= n2 pb2 = 135, pb = (66+135)/(534+824) =
p n1 pb1 = 66, x2 =’numero
√
0.148, pbqb(1/n1 + 1/n2 ) = 0.00038919 = 0.01973.
Esercizio 3. Assunzioni: X =’spesa mensile in prodotti CES’, D =’diplomato’, X|D ∼ N (µ1 = 24, σ1 =
8.3), X|D ∼ N (µ2 = 14, σ2 = 4.8), P (D) = 0.446, P (D) = 0.554.
(A) P (X > c) = P (X > c|D)P (D) + P (X > c|D)P (D) = 0.36407 dove c = 20.
(B) P (D|X < c) = P (X < c|D)P (D)/P (X < c) = 0.22087.
(C) Y =’numero clienti su √
129 che spendono più di 20 euro’∼ Bi(n = 129, p = 0.36407). E(Y ) = np =
√
46.96526, σ(Y ) = npq = 29.86653 = 5.46503.
Calcoli e valori utili: P (X > c|D) = P ((X − µ1 )/σ1 > (c − µ1 )/σ1 ) = P (Z > −0.48193) = 0.68507,
P (X > c|D) = P ((X − µ2 )/σ2 > (c − µ2 )/σ2 ) = P (Z > 1.25) = 0.10565.
10
5
5.1
Compito del 17.12.2009
Testo
Premessa: Progetto Formazione–Sicurezza della provincia di Udine, in collaborazione con INAIL e
Ispettorato del lavoro, finalizzato alla riduzione degli infortuni sul lavoro.
Esercizio 1.
Prima di mettere in pratica il progetto è stata fatta una rilevazione puramente conoscitiva. Si ritiene
infatti che la preparazione in termini di sicurezza sia spesso adeguata ma che talvolta il personale non ne
rispetti le norme per pigrizia o per rendere più semplice e spedito il lavoro. La seguente tabella riporta
i principali risultati della rilevazione. La domanda, con una diversa formulazione, è stata fatta sia agli
operai che ai loro supervisori (con diversa qualifica) con riferimento all’ultimo anno.
No
Sı̀
Operai : Le è capitato di non mettere in pratica
tutti gli accorgimenti che lei conosce riguardo alla sua sicurezza? 284 303
Supervisori : Ritiene significativo, fra i suoi operai, il
ricorso a pratiche ”scorciatoie” riguardo alla sicurezza personale? 355 428
(A) La proporzione di quanti ritengono che vengano adottati comportamenti non sicuri è significativamente diversa nei due gruppi? (α = 0.02)
(B) Calcolare la potenza del test costruito al punto A nel caso in cui l’alternativa sia ’le probabilità dei
due gruppi differiscono di 0.06’.
Esercizio 2.
Nell’ambito del progetto in questione è stato selezionato un piccolo campione di imprese ad alto rischio
di infortuni. Per un certo periodo, al personale delle stesse sono state somministrate ore di formazione
attinenti la sicurezza. L’analisi dei dati raccolti (principali statistiche in tabella, unità di misura rimosse)
può consentire di valutare se e in che misura tale attività risulta efficace per la riduzione del rischio di
infortunio.
Indicatore formazione
Indicatore infortuni
57
7.4
62
5.2
60
3.3
45
6
35
5.1
45
7.5
Formulare un opportuno modello di regressione e:
(A) Stimarne tutti i parametri.
(B) Fornire lo standard error degli stimatori dei coefficienti di regressione.
(C) L’attività di formazione risulta efficace allo scopo formulato sopra? Rispondere impostando il
problema in termini di test delle ipotesi (α = 0.025).
(D) Scomporre la varianza della variabile dipendente nelle sue componenti fornendo un’interpretazione
dei valori ottenuti.
Esercizio 3.
Si considerino due linee di montaggio che lavorano in modo indipendente. Ogni giorno, in media, ci sono
1.3 ricorsi all’infermeria per quanto riguarda la linea 1 e 1.8 per quanto concerne la linea 2. Si assuma
che la distribuzione del numero di ricorsi in infermeria segua una distribuzione di Poisson.
(A) Calcolare la probabilità che, in un giorno, ci siano complessivamente più di 2 ricorsi all’infermeria.
(B) Calcolare la probabilità che, in un giorno, ci siano 2 ricorsi all’infermeria e tutti provenienti dalla
stessa linea.
5.2
Soluzione
Esercizio 1.
Assunzioni: X =’Operaio non mette in pratica. . . ’∼ Be(pX ); Y =’Supervisore ritiene significativo il
. . . ’∼ Be(pY ). Campioni indipendenti.
11
(A) Test di H0 : pX − pY = 0 contro H1 : pX − pY 6= 0; statistica test (sotto H0 ): (b
pX − pbY − 0)/se la cui
distribuzione
è,
approssimativamente,
N
(0,
1)
in
base
alle
dimensioni
campionarie
sufficientemente
elevate
p
e se = pbX qbX /nX + pbY qbY /nY ; regione di accettazione per α = 0.02: [−z = −2.3263, z = 2.3263]; valore
campionario della statistica test sotto H0 : −1.11721.
(B) γ = P (campione ∈ R|H1 ) = 1 − P (campione ∈ A|H1 ) = 1 − P [−z ≤ (b
pX − pbY − 0)/se ≤ z|H1 ] =
1−P [−z ×se ≤ pbX − pbY ≤ z ×se|H1 ] = 1−P [(−z ×se−d)/se ≤ (b
pX − pbY −d)/se ≤ (z ×se−d)/se|H1 ] =
1 − P [−z − d/se ≤ Z ≤ z − d/se|H1 ] = 1 − P [−4.5291 ≤ Z ≤ 0.1236|H1 ] = 1 − 0.54919 = 0.45081, dove
d = 0.06.
Calcoli e valori utili: nX =√587, nY = 783, pbX = 303/587 = 0.5162, pbY = 428/783 = 0.5466, se =
p
pbX qbX /nX + pbY qbY /nY = 0.000742 = 0.02724.
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + εi , εi ∼ N (0, σ 2 ), in cui y =’Indicatore
infortuni’, x =’Indicatore formazione’.
(A) βb1 = −0.035, βb0 = 7.5245, σ
b2 = 2.970383.
p
p
b 1/n + x2 /dev(x) = 3.7394.
(B) se(βb1 ) = σ
b/ dev(x) = 0.0725, se(βb0 ) = σ
(C) Test di H0 : β1p
= 0 contro H1 : β1 < 0; statistica test (sotto H0 ): (βb1 − 0)/se la cui distribuzione è
T (n − 2) e se = σ
b/ dev(x); regione di rifiuto per α = 0.025: (−∞, −2.77645); valore campionario della
statistica test sotto H0 : −0.48318.
(D) dev(y) = 12.58, dev(REG) = 0.693, dev(RES) = 11.882, da cui R2 = 0.0551, ovvero il modello
spiega il 5.51% della variabilità della variabile dipendente.
Calcoli
xi
yi
x2i
yi2
xi yi
e valori
57
7.4
3249
54.76
421.8
utili:
62
5.2
3844
27.04
322.4
60
3.3
3600
10.89
198
45
6
2025
36
270
35
5.1
1225
26.01
178.5
45
304
7.5
34.5
2025 15968
56.25 210.95
337.5 1728.2
Pn
Pn
da cui: n = 6, x = 50.67, y = 5.75, dev(x) = i=1 x2i − nx2 = 565.33, dev(y) = i=1 yi2 − ny 2 = 12.58,
Pn
codev(x, y) = i=1 xi yi − nxy = −19.8, dev(RES) = dev(y) − βb12 dev(x) = 11.882, σ
b2 = dev(RES)/(n −
2) = 2.970383, σ
b = 1.72348, dev(REG) = dev(y) − dev(RES) = 0.693.
Esercizio 3.
Assunzioni: X1 = numero ricorsi infermeria al giorno linea 1 ∼ P o(λ1 = 1.3), X2 = numero ricorsi
infermeria al giorno linea 2 ∼ P o(λ2 = 1.8), X1 , X2 indipendenti.
(A) X = X1 + X2 ∼ P o(λ1 + λ2 = 3.1) per l’additività della Poisson. Quindi P (X > 2) = 1 − P (X ≤
2) = 1 − [P (X = 0) + P (X = 1) + P (X = 2)] = 1 − [0.04505 + 0.13965 + 0.21646] = 1 − 0.40116 = 0.59884.
(B) P [(X1 = 2, X2 = 0) ∪ (X1 = 0, X2 = 2)] = P (X1 = 2, X2 = 0) + P (X1 = 0, X2 = 2) = P (X1 =
2)P (X2 = 0) + P (X1 = 0)P (X2 = 2) = 0.23029 × 0.1653 + 0.27253 × 0.26778 = 0.11105
12
6
Compito del 28.01.2010
6.1
Testo
Premessa: L’attenzione è rivolta a possibili differenze di carattere socio-economico fra le regioni italiane.
Esercizio 1. La rilevazione ISTAT Condizioni di vita e distribuzione del reddito in Italia fornisce
un’idea su come la situazione economica è percepita nelle diverse regioni. La seguente tabella riporta le
percentuali di coloro che hanno risposto affermativamente alla domanda “Arriva a fine mese con molta
difficoltà?”.
Anno
2007
2008
Piem.
15.5
16.5
Lomb.
10.1
12.8
Centro-Nord
Veneto Friuli
12.2
11.4
12.6
10.6
Em.-Rom.
13.2
11
Campania
22
28
Puglia
21.3
24.1
Centro-Sud
Calabria Sicilia
22.7
26.4
25.2
29.7
Sardegna
16.6
21.9
Assumendo che la percentuale di risposte affermative si distribuisca in modo normale, rispondere alle
seguenti domande.
(A) In media, la situazione 2008 appare significativamente peggiorata rispetto al 2007? (α = 0.01)
(B) Con riferimento al 2008, esiste una differenza significativa fra la percezione media nelle regioni del
centro-nord e quelle del centro-sud? (α = 0.02)
Esercizio 2. Si sta tentando di misurare se, nelle diverse regioni italiane, la spesa in consumi alimentari
è in relazione col reddito oppure no. A questo scopo, sono stati esaminati il PIL e la spesa alimentare
(per entrambi in espressi in termini pro-capite e su scala logaritmica) al 2007 nelle 20 regioni italiane
ottenendo le statistiche riportate in tabella (c = ln(spesa alimentare pro-capite), r = ln(PIL pro-capite)).
20
c = 7.6655
r = 10.1068
1 X
2
(ci − c) = 0.2227
20 i=1
20
1 X
2
(ri − r) = 0.4454
20 i=1
20
1 X
(ci − c) (ri − r) = 0.1084
20 i=1
(A) Formulare un modello statistico che risponda alle esigenze espresse. Stimarne i parametri.
(B) I consumi alimentari tendono a diminuire in modo significativo al diminuire del PIL pro-capite?
(α = 0.01).
(C) Scomporre la devianza della variabile dipendente nelle sue componenti (di regressione e residua)
fornendone i valori. Quale indicazione utile fornisce tale scomposizione?
(D) Calcolare valori teorici e residui per le regioni Sicilia e Trentino-Alto Adige, le cui coppie (Spesa
alimentare pro-capite; PIL pro-capite) sono risultate pari, rispettivamente, a (2260, 17156) e (1937, 32412).
Commentare brevemente il risultato.
Esercizio 3. Una variabile casuale discreta ha la distribuzione riportata nella seguente tabella
x
P (X = x)
−1
0.17
0
0.06
1
0.15
2
0.18
3
0.07
4
0.14
5
0.08
6
0.15
(A) Si rappresenti graficamente la distribuzione della variabile casuale (X|X > 2).
(B) Si calcolino valore atteso e deviazione standard della variabile casuale costruita al punto A.
6.2
Soluzione
Esercizio 1.
(A) Test sulla differenza fra medie per campioni appaiati; si assume quindi D = X2008 − X2007 ∼
2
N (µD , σD
), dove X indica la percentuale di coloro che rispondono affermativamente
alla domanda. Test
√
di H0 : µD = 0 contro H1 : µD > 0; statistica test (sotto H0 ): (D − 0)/(SD / n) la cui distribuzione è
T (n − 1); regione di rifiuto per α = 0.01: (2.8214, ∞); valore campionario della statistica test sotto H0 :
2.5959.
Calcoli e valori utili:
d 1 2.7 0.4 −0.8
−2.2
6
2.8
2.5
3.3
13
5.3
√
n = 10, d = 2.1, s2D = 6.54444, sD = 2.55821, sD / n = 0.80898.
(B) Test sulla differenza fra medie per campioni indipendenti; si assume quindi X1 = ‘% in del centro
-nord’ ∼ N (µ1 , σ 2 ), X2 = ‘% in regione del centro-sud’ ∼ N (µ2 , σ 2 ) (varianze uguali).
Test di H0 :
p
µ1 − µ2 = 0 contro H0 : µ1 − µ2 6= 0; statistica test (sotto H0 ): (X 1 − X 2 − 0)/(Sp 1/n1 + 1/n2 ) la cui
distribuzione è T (n1 +n2 −2); regione di accettazione per α = 0.02: [−2.8965, 2.8965]; valore campionario
della statistica test sotto H0 : −7.5349.
Calcoli e valori utili: (A) n1 = 5, n2 = 5, x1 = 12.7, x2 = 25.78, s21 = 5.44, s22 = 9.627, s2p =
p
[s21 (n1 − 1) + s22 (n2 − 1)]/(n1 + n2 − 2) = 7.5335, sp = 2.74472, sp 1/n1 + 1/n2 = 1.73591.
Esercizio 2. Modello di regressione lineare yi = β0 +β1 xi +εi , εi ∼ N (0, σ 2 ), in cui y = ln(Spesa alimentare pro-capite),
x = ln(PIL pro-capite).
(A) βb1 = 0.2434, βb0 = 5.2057, σ
b2 = 0.218131.
(B) Test di H0 : β1 = 0 contro H0 : β1 > 0; statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ) la cui distribuzione
è T (n − 2); regione di rifiuto per α = 0.01: (2.5524, ∞); valore campionario della statistica test sotto H0 :
1.5553.
(C) dev(y) = 4.454, dev(REG) = 0.528, dev(RES) = 3.926. Segue che R2 = 0.1185, ovvero il modello
spiega il 11.85% della variabilità della variabile indipendente.
(D) ybSIC = βb0 + βb1 ln(17156) = 7.5787, u
bSIC = ySIC − ybSIC = ln(2260) − 7.5787 = 0.1444, ybT.A.A. =
b
b
β0 + β1 ln(32412) = 7.7335, u
bT.A.A. = yT.A.A. − ybT.A.A. = ln(32412) − 7.7335 = −0.1646.
Calcoli e valori utili:
da cui: n = 20, x = 10.11, y = 7.67, dev(x) = 8.908, dev(y) = 4.454, codev(x, y) = 2.168, βb1 =
codev(x, y)/dev(x) = 0.2434, βb0 = y − βb1 x = 5.2057, dev(RES) = dev(y) − βb12 dev(x) = 3.926, σ
b2 =
p
dev(RES)/(n − 2) = 0.218131, σ
b = 0.467045, se(βb1 ) = σ
b/ dev(x) = 0.1565.
Esercizio 3. Le prime due righe della tabella forniscono la risposta alla domanda (A), per ricavare la
quale è sufficiente applicare la definizione di probabilità condizionata: P (X = x|X > 2) = P (X = x, X >
2)/P (X > 2). In tale formula P (X > 2) = 0.44, mentre P (X = x, X > 2) vale 0 se x <= 2 oppure
P (X = x) se x > 2.
Le altre due righe forniscono il prospetto di calcolo per la risposta alla domanda (B).
x
P (X = x|X > 2)
xP (X = x|X > 2)
x2 P (X = x|X > 2)
3
0.15909
0.47727
1.43181
4
0.31818
1.27272
5.09088
5
0.18182
0.9091
4.5455
6
0.34091
2.04546
12.27276
1
4.70455
23.34091
E(X|X
> 2) = 4.70455, V (X|X > 2) = E(X 2 |X > 2) − E(X|X > 2)2 = 1.20816, σ(X|X > 2) =
√
1.20816 = 1.09916.
14
7
7.1
Compito del 25.02.2010
Testo
Premessa: I dati OECD consentono di analizzare l’andamento della produttività del lavoro in Italia negli
ultimi anni, sia in relazione ad altre grandezze che in confronto con altri paesi. La tabella seguente riporta
le variazioni percentuali del PIL e della produttività del lavoro da un anno all’altro.
Anno
Prod. lav. Italia (var%)
Prod. lav. Francia (var%)
PIL Italia (var%)
PIL Francia (var%)
2002
−0.5
5
0.5
1
2003
−1.8
4.5
0
1.1
2004
1.8
2.8
1.4
2.5
2005
1.6
3.8
0.6
1.9
2006
1.5
2.6
2.1
2.2
2007
0.9
1.2
1.4
2.3
2008
−0.5
0.1
−0.9
0.4
Esercizio 1. Molti studiosi ritengono che la produttività del lavoro in Italia sia cresciuta in misura
inferiore rispetto ad altri paesi confrontabili. Qui interessa il paragone con la Francia.
Rispondere alle seguenti domande formulando le opportune assunzioni: tenere conto che misure macroeconomiche riferite allo stesso anno in paesi cosı̀ affini possono essere correlate.
(A) Fornire una stima puntuale del differenziale fra Italia e Francia, in termini di variazione media annuale
della produttività del lavoro; fornire anche lo standard error dello stimatore utilizzato.
(B) In media, la produttività del lavoro in Italia è variata in misura significativamente inferiore a quella
della Francia? (α = 0.01)
Esercizio 2. Un’altra analisi, riferita in modo specifico all’Italia, ha cercato di capire l’eventuale legame
fra variazione del PIL (vista come variabile indipendente) e variazione della Produttività del lavoro (intesa
come variabile dipendente).
(A) Formulare un modello statistico che risponda alle esigenze indicate. Stimarne i parametri.
(B) L’indicatore di produttività tende variare in modo significativo al variare del PIL? (α = 0.02).
(C) La struttura dei dati a disposizione mette in discussione qualcuna delle ipotesi del modello? Spiegare
senza fare conti.
(D) In Italia, la variazione del PIL nel 2009 sarà del −5.1%. Stimare la variazione di produttività che, in
base al modello, si attende per il 2009.
Esercizio 3. Una variabile casuale doppia (X, Y ) ha la distribuzione di probabilità congiunta riportata
nella seguente tabella.
x
0
2
−1
0.0855
0.1045
y
0
0.1755
0.2145
2
0.1890
0.2310
(A) X e Y sono indipendenti? Motivare la risposta.
(B) Determinare la funzione di massa della variabile casuale W = XY .
7.2
Soluzione
Esercizio 1. In base alla correlazione che verosimilmente esiste fra variabili rilevate in paesi cosi vicini
e dai livelli economici relativamente simili, è ragionevole utilizzare la metodologia prevista per i dati
2
appaiati. D = ‘var % prod. lav. Italia’ − ‘var % prod. lav. Francia’ ∼ N (µD , σD
).
(A) Si√tratta di stimare
eD = d = −2.42857; lo standard error
√ µD ; lo stimatore da usare è D; la stima è µ
è sD / n = 2.45473/ 7 = 0.9278.
√
(B) Test di H0 : µD = 0 contro H0 : µD < 0 per α = 0.01; la statistica test sotto H0 è (D − 0)/(SD / n)
con distribuzione T (n − 1); la regione di rifiuto è (−∞, −3.1427); il valore campionario statistica test
sotto H0 è −2.6176.
15
Calcoli e valori utili:
d −5.5 −6.3 −1
−2.2
−1.1
−0.3
−0.6
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui y =var.%
prod. lavoro, x =var.% PIL.
(A) βb1 = 0.9785, βb0 = −0.2843, σ
b2 = 1.10744.
(B) Test di H0 : β1 = 0 contro H0 : β1 6= 0; statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ) la cui distribuzione
è T (n − 2); regione di accettazione per α = 0.02: [−3.3649, 3.3649]; valore campionario della statistica
test sotto H0 : 2.284.
(C) I dati costituiscono una serie temporale. La correlazione che normalmente esiste fra frenomeni rilevati
a tempi vicini mette a rischio l’assunzione di indipendenza dei residui.
(D) yb2009 = βb0 + βb1 x2009 = −0.2843 + 0.9785 ∗ −5.1 = −5.2744
Calcoli e valori utili:
Anno 2002
2003 2004 2005 2006 2007 2008 Somma
xi
0.5
0
1.4
0.6
2.1
1.4
−0.9
5.1
yi
−0.5 −1.8
1.8
1.6
1.5
0.9
−0.5
3
x2i
0.25
0
1.96 0.36 4.41 1.96 0.81
9.75
yi2
0.25
3.24 3.24 2.56 2.25 0.81 0.25
12.6
xi yi
−0.25
0
2.52 0.96 3.15 1.26 0.45
8.09
Pn
Pn
da cui: n = 7, x = 0.7286, y = 0.4286, dev(x) = i=1 x2i − nx2 = 6.0343, dev(y) = i=1 yi2 − ny 2 =
Pn
11.3143, codev(x, y) = i=1 xi yi − nxy = 5.9043, βb1 = codev(x, y)/dev(x) = 0.9785, βb0 = y − βb1 x =
b2 = dev(RES)/(n − 2) = 1.10744, σ
b = 1.05235,
−0.2843, dev(RES) = dev(y) − βb12 dev(x) = 5.537199, σ
p
b
se(β1 ) = σ
b/ dev(x) = 0.4284.
Esercizio 3.
(A) X e Y sono indipendenti se e solo se f (x, y) = f (x)f (y) per tutte le celle della tabella. Poichè questo
è vero, le due variabili sono indipendenti.
x
0
2
−1
0.0855
0.1045
0.19
y
0
0.1755
0.2145
0.39
2
0.1890
0.2310
0.42
0.45
0.55
1
(B) Dai valori in tabella si calcolano facilmente i possibili valori che W = XY può assumere con le
rispettive probabilità:
w
f (w)
−2
0.1045
0
0.6645
4
0.2310
16
8
8.1
Compito del 21.07.2010
Testo
Premessa: Si parla di livello di alfabetizzazione nei diversi paesi africani e della loro relazione con altre
variabili.
Esercizio 1. Il grado di alfabetizzazione giovanile si presenta in modo assai eterogeneo fra i diversi
paesi africani. Per quanto riguarda il differenziale fra sessi, i dati OECD riferiti allo Youth Literacy Rate
(periodo 2005-2008) riportano per ciascun paese il tasso di alfabetizzazione giovanile separatamente per
maschi e femmine. Da tali dati è stata ricavata la seguente tabella (i valori dello Youth Literacy Rate
sono espressi in %; sono stati considerati 36 paesi):
Maschi
Femmine
Differenziale Maschi – Femmine
Media
20.76
23.04
−2.29
Varianza corretta
332.06
473.28
87.78
Rispondere alle seguenti domande formulando le opportune assunzioni.
(A) In media, nel complesso dei paesi considerati il tasso di alfabetizzazione femminile è significativamente
inferiore a quello maschile? (α = 0.01)
(B) Se le deviazioni standard riportate in tabella fossero state quelle vere, invece di quelle calcolate,
sarebbe cambiato qualcosa nella procedura di test? Motivare la risposta. Nel caso in cui si risponda che
nella procedura qualcosa cambia effettuare i nuovi conti.
(C) Calcolare la potenza del test, nella situazione di cui al punto (B), nel caso in cui l’ipotesi alternativa
sia quella di un differenziale fra sessi di 5.1 punti percentuali.
Esercizio 2. Un’altra analisi, di tipo cross-section, ha mirato a vedere se esiste una qualche relazione fra
tasso % di alfabetizzazione della popolazione adulta (l) e variazione % del PIL (g). La seguente tabella
riporta alcune statistiche (fonte OECD, anni 2005 − 2008).
22
l = 13.69
g = 15.46
2
1 X
li − l = 242.59
22 i=1
22
1 X
2
(gi − g) = 263.94
22 i=1
22
1 X
li − l (gi − g) = 247.46
22 i=1
Considerando la variazione del PIL come variabile dipendente:
(A) Formulare un modello statistico che risponda alle esigenze indicate e stimarne tutti i parametri
mediante metodo dei minimi quadrati.
(B) Si forniscano gli standard errors dei coefficienti di regressione
(C) La variazione del PIL è legata in modo significativo alla variabile indipendente? (α = 0.01).
Esercizio 3. Una variabile casuale X ∼ P o(λ). D’altra parte il parametro λ non è noto ma si sa che
può assumere o valore 1.08, e questo accade con probabilità 0.48, oppure valore 1.98, con la probabilità
rimanente. Tutti gli altri valori di λ sono impossibile. Da X è stato estratto un campione casuale semplice
di due osservazioni: x = (x1 = 3, x2 = 3).
(A) Quale fra i due valori dei parametri ha la verosimiglianza maggiore? Argomentare la risposta.
(B) Quale fra i due valori dei parametri ha la probabilità a posteriori maggiore? Argomentare la risposta.
8.2
Soluzione
Esercizio 1.
In base alla correlazione che verosimilmente esiste fra tassi di alfabetizzazione di maschi e femmine
rilevati nello stesso paese, occorre utilizzare la metodologia prevista per i dati appaiati. D = ‘tasso
2
alfabetizzazione maschile’ − ‘tasso alfabetizzazione femminile’ ∼ N (µD , σD
).
17
√
(A) Test di H0 : µD = 0 contro H0 : µD > 0 la statistica test sotto H0 è (D − 0)/(SD / n) con
distribuzione T (n − 1); la regione di rifiuto per α = 0.01 è (2.4377, ∞); il valore campionario statistica
test sotto H0 è −1.4665.
(B) Se la vera deviazione standard
√ fosse risultata nota, sarebbe cambiata la statistica test, che sotto H0
sarebbe divenuta (D − 0)/(σD / n), con distribuzione N (0, 1); la regione di rifiuto per α = 0.01 sarebbe
stata (2.3263, ∞), da confrontare con un valore campionario statistica test sotto H0 pari a −1.4665 (lo
stesso di prima).
(C) Sia H1 : µD = 5.1. Indicando con z il valore critico, con se lo standard error e con µ1 il valore
5.1, allora γ = P (campione ∈ R|H1 ) = P [(D − 0)/se > z|H1 ] = P [D > z × se|H1 ] = P [(D − µ1 )/se >
(z × se − µ1 )/se|H1 ] = P [Z > −0.9397|H1 ] = 0.82632.
√
Calcoli e valori√utili: n = 36, d = −2.29, sD = 87.78 = 9.3691 (corrispondente anche a σD del punto
(B)), se = sD / n = 1.56152.
Esercizio 2. Modello di regressione lineare yi = β0 + β1 xi + ui , ui ∼ N (0, σ 2 ), in cui y =var.% PIL,
x =tasso % alfabetizzazione maschile.
(A) βb1 = 1.0201, βb0 = 1.4952, σ
b2 = 12.663458.
p
p
√
√
b2 [1/n + x2 /dev(x)] = 1.0203 = 1.0101, se(βb1 ) = σ
b2 /dev(x) = 0.0024 = 0.0487.
(B) se(βb0 ) = σ
(C) Test di H0 : β1 = 0 contro H0 : β1 6= 0; statistica test (sotto H0 ): (βb1 − 0)/se(βb1 ) la cui distribuzione
è T (n − 2); regione di accettazione per α = 0.01: [−2.8453, 2.8453]; valore campionario della statistica
test sotto H0 : 20.9413.
Calcoli e valori utili: n = 22, x = 13.69, y = 15.46, dev(x) = 5336.98, dev(y) = 5806.68, codev(x, y) =
5444.12, βb1 = codev(x, y)/dev(x) = 1.0201, βb0 = y − βb1 x = 1.4952, dev(RES) = dev(y) − βb12 dev(x) =
253.269162, σ
b2 = dev(RES)/(n − 2) = 12.663458, σ
b = 3.558575.
Esercizio 3. X ∼ P o(λ), dove λ ∈ {λ1 = 1.08, λ2 = 1.98}, P (λ1 ) = 0.48, P (λ2 ) = 0.52. Campione
casuale semplice: x = (x1 = 3, x2 = 3).
Q2
Q2
(A) Verosimiglianza: L(λ) = f (x; λ) = i=1 f (xi ; λ) = i=1 λxi e−λ /xi !. Facendo i conti separatamente
per i due λ abbiamo L(λ1 ) = 0.1426, L(λ2 ) = 0.35725. (Calcoli e valori utili: f (x1 ; λ1 ) = 0.0713,
f (x2 ; λ1 ) = 0.0713, f (x1 ; λ2 ) = 0.17862, f (x2 ; λ2 ) = 0.17862).
(B) Probabilità a posteriori: P (λ1 |x) = P (x|λ1 )P (λ1 )/P (x) = 0.26925, P (λ2 |x) = 1−P (λ1 |x) = 0.73075.
Il numeratore lo abbiamo dal testo (le probabilità a priori) o dal punto (A); il denominatore lo si calcola
con la formula della probabilità totale (o marginale) P (x) = P (x|λ1 )P (λ1 ) + P (x|λ2 )P (λ2 ) = 0.25422.
18