compiti dal 28.10.2002 al 05.09.2003

COGNOME NOME:
Statistica II, Prof. Bruno Chiandotto
Prova scritta intermedia del 28.10.2002
Istruzioni: Usare 4 cifre decimali
A) Durante un lungo viaggio un camionista ubriaco incontra lungo la sua strada una pattuglia della
polizia stradale ogni 10 Km. Il camionista ha probabilità 0,27 di essere fermato da ogni pattuglia
che incontra e, in questo caso, riceve una multa di 100€ per eccesso di velocità. Durante ciascun
controllo della polizia, vi è inoltre una probabilità pari a 0,14 che il camionista venga sottoposto
a una prova-palloncino e che, di conseguenza, gli venga ritirata la patente e sequestrato il
mezzo.
1. Si determini il valore atteso della distanza percorsa dal camionista prima che gli venga
ritirata la patente.
2. Si determini il valore atteso dell’ammontare di multe che il camionista dovrà pagare prima
che gli venga ritirata la patente.
B) Un camionista acquista una scatola con 35 candele di ricambio; la durata media di una candela
dichiarata dal produttore è di 9300 Km.
1. Si determini la probabilità che una candela duri più di 10700 Km.
2. Si determini la probabilità che la distanza che il camionista potrà percorrere con l’intera
scatola di candele sia minore di 343100 Km.
Si noti che l’unico dato a disposizione è il valore atteso della distribuzione: si identifichi sulla
base di essa un modello probabilistico adeguato.
C) Il produttore delle candele afferma che la probabilità che una candela difettosa superi il controllo
di qualità e sia imballata assieme alle altre è 0,003; le candele normali durano in media 9300
Km, quelle difettose invece 937 Km.
1. Si determini la probabilità che in una scatola da 35 pezzi vi sia almeno una candela
difettosa.
2. Con una candela estratta a caso da una scatola si riescono a percorrere meno di 1147 Km; si
determini la probabilità che la candela sia difettosa.
D) Date due variabili aleatorie X e Y, indipendenti e con distribuzione esponenziale di parametri,
rispettivamente, α e β, si determini la probabilità P(X < Y).
Cognome e nome:
Statistica II, Prof. Bruno Chiandotto Soluzione della prova scritta intermedia del 28.10.2002
A) Sia F l’evento “il camionista viene fermato” e R l’evento “al camionista viene ritirata la
patente”. Si ha allora che P(F) = 0,27 e P(R|F) = 0,14. D’altra parte R⊆F, per cui Rn F = R e
P(R) = P(Rn F) = P(R|F)P(F).
1. La sequenza di passaggi davanti alle pattuglie può essere pensata come una variabile casuale
geometrica che si interrompe quando si verifica l’evento P(R). Il valore atteso del numero di
pattuglie incontrate (compresa quella in corrispondenza del ritiro della patente) è quindi
1/P(R) e la distanza attesa è 10/P(R) = 264,5503 Km.
2. Si noti che, se indichiamo con N il numero di pattuglie incontrate prima che al camionista
sia ritirata la patente, l’ammontare di multe M può essere espresso come M = P(F)·N·100€;
ne segue che E(M) = P(F)·E(N)·100€ = 0,27·(264,5503/10)·100€ = 714,2857€.
B) La variabile aleatoria X (durata di una candela) può essere rappresentata attraverso una
x
1 −λ
distribuzione esponenziale di parametro ? = 9300: f (x ) = e . Si ricordi che la media della
λ
distribuzione esponenziale è pari a ? mentre la varianza è ?2 .
−
x
λ
1. La funzione di ripartizione dell’esponenziale è F ( x ) = 1 − e , per cui P(X > 10700) =
e–10700/9300 = 0,3165.
2. In questo caso, poiché la numerosità del campione di candele è sufficientemente elevata,
possiamo utilizzare il teorema del limite centrale. Sia D la durata complessiva delle 35
(
)
candele; si ha che D = ∑i=1 X i ~ N 35 µx ,35s 2x .
35
Pertanto, P(D > 343100) = 1 – Φ[(343100 – 35·9300)/(35·9300)] = 0,4784.
C) Notiamo in primo luogo che entrambe le domande hanno a che vedere con la distribuzione
binomiale con probabilità di “successo” 0,003: nella prima domanda si devono estrarre 35 unità,
nella seconda 2 unità.
1. Tale situazione può essere rappresentata tramite una variabile casuale binomiale di
parametri 35 e 0,003. Se indichiamo con N il numero di candele difettose all’interno della
 35 
scatola, si ha che P(N = 1) = 1 – P(N = 0) = 1 –   0,0030 (1 – 0,003)35 = 0,0998.
0
2. Nel caso di candela difettosa ?d = 1/937, nel caso di candela normale invece ?n = 1/9300. Sia
G l’evento “la candela è difettosa” e Gc l’evento “la candela non è difettosa” Si ha allora che
P(G) = 0,003 e P(Gc) = (1 – 0,003). Condizionatamente alla conoscenza del fatto che la
candela sia difettosa e indicando con D la durata delle due candele, abbiamo che:
§ P(D < 1147| G) = 1 – e–1147/937 = 0,7060.
§ P(D < 1147| Gc) = 1 – e–1147/9300 = 0,1161.
Pertanto, per la legge delle probabilità totali:
P(D < 1147) = 0,1161·(1 – 0,003) + 0,7060·0,003 = 0,1175.
Possiamo ora applicare il teorema di Bayes:
P(G|D < 1147) = P(D < 1147|G)P(G)/P(D < 1147) = 0,0180.
D)
Se definiamo la densità esponenziale come f (x ) = λe − λx , P(X < Y) = α / (α + β), se invece
utilizziamo f (x ) =
x
1 −λ
e otteniamo P(X < Y) = β / (α + β).
λ
COGNOME NOME: ZZA
Statistica II, Prof. Bruno Chiandotto
Prova scritta finale del 17.12.2002
Istruzioni: Usare 4 cifre decimali – Svolgere l'esercizio P
P) La società di rilevazioni statistiche Wasp svolge ricerche sulle opinioni politiche degli italiani.
Poiché in alcuni casi gli elettori sono restii a confessare le loro opinioni politiche, la società
utilizza alcune domande di controllo su argomenti diversi che si ritiene caratterizzino fortemente
l’appartenenza a uno schieramento. Ad esempio, si sa che, relativamente a una legislazione più
restrittiva sull’aborto, la percentuale di consensi è il 15% tra gli elettori di sinistra, 57% tra
quelli di centro e 48% tra quelli di destra. Si sa inoltre che, alle ultime elezioni politiche, i partiti
di sinistra hanno raccolto il 30% dei consensi, quelli di centro il 14% e quelli di destra il 56%.
1. Si determini la percentuale di elettori favorevoli a una legislazione più restrittiva sull’aborto.
2. Un elettore intervistato si dichiara contrario a una legislazione più restrittiva: si determini la
probabilità che esso abbia votato a sinistra.
A) La società di rilevazioni statistiche Wasp svolge indagini sulle opinioni politiche degli italiani
per una nota trasmissione televisiva. Per analizzare il grado di soddisfazione degli italiani circa
l’operato del governo, sono stati raccolti i giudizi di 792 elettori, sulla base di una scala da 0
(completamente insoddisfatto) a 10 (completamente soddisfatto). L’indagine ha prodotto una
media campionaria pari a 4,69 con deviazione standard 1,95. Si considera che un elettore sia
insoddisfatto se esprime un giudizio inferiore a 5.
1. Vi è sufficiente evidenza campionaria per sostenere (α = 0,05) che gli italiani non sono
soddisfatti dell’operato del governo?
2. Si determini la potenza del test in corrispondenza di un’ipotesi alternativa µ = 4,75.
B) Allo stesso campione viene chiesto se sarebbe disposto a votare per l’attuale coalizione di
governo se le elezioni si svolgessero in questo momento. Il 45,6% degli intervistati hanno
risposto affermativamente.
1. Si costruisca un intervallo di confidenza (α = 0,01) per la proporzione di elettori che
sarebbero disposti a rieleggere il governo in carica.
2. Per le prossime elezioni politiche, la società Wasp sarà chiamata a svolgere degli exit-poll.
Si determini la dimensione campionaria necessaria per avere un margine di errore massimo
pari a ± 1%.
C) La società Wasp rileva, tra le altre cose, dati sul reddito degli intervistati. Su un campione di 42
elettori, sono state rilevate le variabili reddito mensile (in euro) e giudizio sull’operato del
governo (su una scala da 0 a 10). Sono state ricavate le seguenti statistiche riassuntive:
833 Media giudizio
5,66
Media reddito
150391 Devianza giudizio
1,583
Devianza reddito
2
550,3 σ̂
19,38
Codevianza
1. Si proceda alla specificazione di un adeguato modello lineare per valutare la relazione tra
reddito e giudizio sull’operato del governo e si riportino le stime dei parametri.
2. Si sottoponga a test (α = 0,05) l’ipotesi che il reddito influenzi positivamente il giudizio
sull’operato del governo.
D) Dopo aver lanciato 28 volte una moneta e aver osservato 16 volte testa, si può concludere che la
moneta è equilibrata? Rispondere utilizzando il test LR con α = 0,05.
COGNOME NOME: ZZA
Statistica II, Prof. Bruno Chiandotto
Soluzione della prova scritta intermedia del 17.12.2002
P) Si tratta di una semplice applicazione del teorema di Bayes. Indichiamo con F l’evento “essere
favorevoli a una legislazione più restrittiva sull’aborto” e con, rispettivamente S, C e D l’aver
votato per un partito di sinistra, di centro o di destra. Una volta convertite le percentuali in
probabilità si ha:
1. P(F) = P(F|S)P(S) + P(F|C)P(C) + P(F|D)P(D) = 0,3936;
2. P(S|Fc) = P(Fc |S)P(S)/P(Fc) = 0,4205.
A) In questo caso abbiamo a che vedere con un test di ipotesi per la media di una popolazione.
Poiché il campione è sufficientemente grande, l’utilizzo della distribuzione normale è
giustificato nonostante la varianza della popolazione sia ignota. Si tratta di un test unidirezionale
a sinistra, per cui il punto critico, in termini standardizzati, è -1,645.
x − µ0
1. La statistica test da utilizzare è Z =
= -4,47, per cui si rifiuta l’ipotesi nulla.
s n
s
2. Il punto critico espresso in termini della scala dei giudizi è xc = µ 0 − 1,645
= 4,8860.
n
Standardizzando tale valore in termini dell’ipotesi alternativa si ottiene la potenza:
P( x < xc | H1) = 0,9752.
B) Si tratta di un intervallo di confidenza per una proporzione; l’ampiezza della dimensione
campionaria consente di utilizzare senza problemi l’approssimazione normale. In questo caso, ai
fini del calcolo della varianza, il parametro “vero” della distribuzione p è ignoto, per cui una
stima conservativa consiglia di utilizzare il valore di p per cui la varianza è massima, ovvero
0,5.
0,5(1 − 0,5)
1. L’intervallo di confidenza al 99% è dato da pˆ ± 2,576
= [0,4102, 0,5018].
n
2. Un margine di errore di ± 1% equivale a un ampiezza dell’intervallo di confidenza pari a
0,5(1 − 0,5)
0,02; si deve quindi risolvere rispetto a n l’equazione 0,02 = 2 ⋅ 2,576 ⋅
. Si
n
ottiene pertanto n = 16590.
C) Si deve utilizzare un modello di regressione lineare in cui la variabile dipendente è il giudizio
sull’operato del governo e quella esplicativa il reddito. Le stime dei parametri sono date da:
C xy
1. β̂ 1 =
= 550,3/150391 = 0,0037; βˆ o = y − βˆ1 x = 5,66 – 0,0037·833 = 2,6119.
Dx
2. Calcoliamo in primo luogo la varianza della pendenza: σˆ β2ˆ =
σˆ 2
= 0,0025. Si può ora
Dx
costruire la statistica test T con 42 – 2 = 40 gradi di libertà per testare l’ipotesi nulla che
β 1 = 0 contro l’alternativa β 1 > 0 . Il valore critico di T è pertanto, utilizzando le tavole
βˆ
della t di Student con 40 gradi di libertà, 1,684; poiché la statistica test è T = 1 = 1,4652,
σˆ βˆ
1
1
non si rifiuta l’ipotesi nulla e si conclude che la relazione tra reddito e giudizio sull’operato
del governo appare non significativa.
D) La verosimiglianza di un campione di n osservazioni con distribuzione di Bernoulli è data da
n
1− x
l( p ) = ∏i =1 p xi (1 − p ) i ⇒ ln l( p ) = ∑in=1 xi ln p + (n − ∑in=1 xi )ln (1 − p ) e lo stimatore di
massima verosimiglianza è
pˆ = ∑i =1 xi n
n
= 0,5714, in corrispondenza del quale
ln l( p̂ ) = -19,1214. D’altra parte, nel caso in cui la moneta è equilibrata, si ha
ln l( 12 ) = -19,4081; Il test LR vale quindi 0,5734 e, poiché il punto critico per α = 0,05 per un
χ 12 è 3,84, non si rifiuta l’ipotesi nulla che la moneta sia equilibrata.
ZZA
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Prova scritta del 23.1.2003
Istruzioni: Usare 4 cifre decimali
P) L’industria alimentare MATTA produce panettoni. Una macchina dosa automaticamente farina e
zucchero; in seguito vengono aggiunti burro, latte, uova, uvetta e canditi. Si sa che le quantità di
farina e di zucchero erogate (in grammi) si distribuiscono normalmente con medie,
rispettivamente, 782 e 440 e varianze 110 e 103.
1. Si determini la distribuzione del peso dell’impasto di farina e zucchero e la probabilità che il
peso dell’impasto risulti inferiore a 1217.
2. Durante la cottura, il panettone ha probabilità di bruciare 0,15 se il peso dell’impasto di
farina e zucchero è inferiore a 1217 e 0,08 se è superiore. Sapendo che un panettone è
bruciato, si determini la probabilità che in esso l’impasto di farina e zucchero pesasse meno
di 1217 grammi.
A) La macchina che eroga i canditi è regolata su una media di 80 canditi per panettone. Su un
campione di 50 panettoni, il controllo di qualità conta un totale di 3750 canditi.
1. Si esegua una stima per intervallo (α = 0,05) del numero di canditi contenuti in ciascun
panettone.
2. Si sottoponga a test (α = 0,05) l’ipotesi che il numero medio di canditi per panettone
corrisponda al valore su cui la macchina è regolata.
B) Osservando il comportamento dell’apparecchio che eroga il latte, il controllo di qualità ha
rilevato una media di 165 cl. per panettone con varianza corretta 130 su 25 erogazioni.
1. Si sottoponga a test (α = 0,05) l’ipotesi nulla che la varianza della quantità di latte erogata
sia 100 contro un’alternativa che sia maggiore.
2. Si determini la potenza del test in corrispondenza di un’alternativa σ2 = 155.
C) La macchina che eroga l’uvetta può essere regolata in tre modi: poca, media, molta. A un
campione di 12 clienti sono stati fatti provare panettoni ottenuti modificando la quantità di
uvetta ed è stato chiesto di esprimere un giudizio da 0 a 10. I risultati sono presentati nella
tabella seguente:
Uvetta
Giudizi
7
4
7
6
Poca
6
7
8
5
Media
4
4
8
4
Molta
1. Si specifichi un opportuno modello lineare per il giudizio sul panettone e si riportino le
stime dei parametri.
2. Esiste sufficiente evidenza campionaria per sostenere che i giudizi medi dipendono dalla
quantità di uvetta (utilizzare α = 0,05)?
Cognome e nome: A
Statistica II, Prof. Bruno Chiandotto
Soluzione della prova scritta del 23.1.2003
P) Il peso complessivo risulta dalla somma di due variabili aleatorie con distribuzione normale, e
ha pertanto anch’esso distribuzione normale con media 791 + 367 e varianza 101 + 99.
1. La probabilità che il peso complessivo sia inferiore a 1151 grammi risulta quindi dalla
standardizzazione [1151 – (791 + 367)]/√(101 + 99) e vale 0,3103.
2. Per la legge delle probabilità totali si ha che la probabilità che un panettone bruci è data da
0,15·0,3103 + 0,09 + (1 – 0,3103) = 0,1086. Applicando il teorema di Bayes, la probabilità
che un panettone bruciato pesasse meno di 1151 grammi è data da
0,15·0,3103/0,1086 = 0,4285.
A) Si può assumere che il numero di canditi presenti in ciascun panettone segua una distribuzione
di Poisson. Il fatto che, in un campione di 50 unità, siano stati contati complessivamente 3600
canditi corrisponde a una media per panettone di 3600/50 = 72 canditi.
1. Poiché è noto che la stima di massima verosimiglianza di λ è pari alla media campionaria e
che media e varianza coincidono, l’intervallo di confidenza è dato da 72 ± 1,96·√(72/50) →
[69,648; 74,352].
2. Poiché l’intervallo di confidenza non contiene la media ipotizzata sotto H0, si rifiuta l’ipotesi
nulla.
B) Si tratta di un test di ipotesi per la varianza: La statistica Y = nS2/σ2 ha distribuzione χ n2 , per cui
il valore critico è 37,652.
1. La statistica test vale 30,5 per cui non si rifiuta l'ipotesi nulla che la varianza sia uguale 100.
2. Sotto l’ipotesi nulla il corrispondente non standardizzato del valore critico è
37,652·100/25 = 150,608. Tale valore, standardizzato rispetto a H1, è
150,608·25/155 = 24,2916, che corrisponde a una potenza di circa 0,5.
C) Poiché la variabile esplicativa (quantità di uvetta) che si intende utilizzare per spiegare il
giudizio è di tipo qualitativo, si usa un modello lineare del tipo g ij = µ + α i + ε ij .
1. Le stime dei parametri sono date da: µ̂ = 6,0909, α̂ p = 0,1591, α̂ m = -0,3409, α̂ t = -
0,0909.
2. Calcoliamo la devianza totale e la devianza between: DT = 36,0000, DB = 0,5992, per cui DW
= DT – DB = 35,4008. La statistica [DB/(k – 1)]/ [DW/(n – k)] = 0,0762 ha distribuzione
F3 – 1, 12 – 3; il valore critico è quindi 4,26. Pertanto, non si rifuta l’ipotesi nulla che le medie
siano uguali.
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Prova scritta del 10.02.2003
Istruzioni: Usare 4 cifre decimali
P) La società di gestione di capitali HAZARD-SIM ha una divisione di analisti di bilancio. Le
aziende quotate vengono ripartite in “quartili” sulla base del fatturato e suddivise come segue:
sono considerate piccole le aziende con fatturato inferiore al primo quartile, medie quelle con
fatturato inferiore al terzo e grandi le rimanenti. Capita a volte che i bilanci pubblicati dalle
aziende presentino errori ed imprecisioni: si è notato che ciò avviene con probabilità 0,14 per le
aziende piccole, 0,07 per le aziende medie e 0,02 per le aziende grandi.
1. Si determini la probabilità che un bilancio scelto a caso presenti delle imprecisioni.
2. Sapendo che un bilancio è stato analizzato e ritenuto impreciso, si determini la probabilità
che esso appartenga a un’azienda piccola.
A) La HAZARD-SIM deve conservare parte dei fondi raccolti per far fronte ad eventuali richieste
di rimborso. Sui dati storici a disposizione, si è osservato che la durata media in anni di un
contratto è di 8,64 con varianza 17,28. La distribuzione empirica delle durate risulta inoltre
fortemente asimmetrica a destra.
1. Si specifichi un opportuno modello statistico riportando le stime puntuali dei parametri.
2. Sarebbe possibile stimare, sulla base dei risultati della domanda precedente, la probabilità
che un contratto duri più di 4 anni? Se sì, la si indichi, altrimenti si spieghi perché non è
possibile.
B) La customer satisfaction della HAZARD-SIM ha rilevato su un campione casuale di 40 soggetti
intervistati che, alla scadenza del contratto, il 39% di essi si rivolgeranno ad un altro
intermediario.
1. Si sottoponga a test (α = 0,05) l’ipotesi nulla che almeno la metà dei clienti abbandoneranno
la HAZARD-SIM alla scadenza del contratto.
2. Si determini la potenza del test in corrispondenza di un’alternativa p = 0,4.
C) La HAZARD-SIM seleziona i titoli da consigliare ai propri clienti sulla base della loro
sensitività all’andamento del mercato: in fase di contrazione vengono suggeriti titoli che
tendono a muoversi inversamente al mercato, in fase di espansione, al contrario, si consigliano
titoli che seguano l’andamento del mercato. Tali tendenze vengono stimate sulla base di dati
storici attraverso un modello di regressione lineare del rendimento del titolo a cui si è interessati
sul rendimento del mercato; il coefficiente di pendenza della retta di regressione è detto beta del
titolo. Il titolo della ditta MATTA è stato esaminato per un periodo di un anno (250
osservazioni) e sono state ricavate le seguenti statistiche riassuntive:
1,39% Rendimento medio del mercato
-1,4%
Rendimento medio MATTA
230 Devianza mercato
291
Devianza MATTA
2
-109,90 σ̂
1,37
Codevianza
1. Si stimi l’indice beta del titolo MATTA.
2. Si costruisca un intervallo di previsione per il rendimento del titolo sapendo che il
rendimento di mercato sarà il 2%.
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Soluzione della prova scritta del 10.02.2003
Istruzioni: Usare 4 cifre decimali
P) Si tratta di una semplice applicazione del teorema di Bayes. Notiamo in primo luogo che, a
causa della suddivisione in quartili, la probabilità di considerare un’azienda piccola è 0,25,
quella di considerarne una media 0,5 e quella di considerarne una grande 0,25.
1. Per la legge delle probabilità totali P(I) = P(I|P)P(P) + P(I|M)P(M)+ P(I|G)P(G) = 0,0750.
2. Per il teorema di Bayes, P(P|I) = P(I|P)P(P)/P(I) = 0,4667.
A) Consideriamo in primo luogo che, a causa dell’asimmetria, il ricorso alla distribuzione normale
non sembra giustificato. Si potrebbe utilizzare una distribuzione di tipo gamma, con funzione di
β α α −1 − βx
x e , che ha media α/β e varianza α/β2.
densità di probabilità f ( x;α , β ) =
Γ(α )
1. Utilizzando il metodo dei momenti, si ricava αˆ = x 2 s 2 = 4,3200 e βˆ = x s 2 = 0,5000.
2. Notiamo ora che, poiché β̂ è prossimo a ½, possiamo approssimare la distribuzione gamma
con una χ2 con 2α = 9 gradi di libertà. Si ha quindi P(X > 4) = 0,9114.
B) Poiché viene richiesto di testare il fatto che i clienti si rivolgeranno ad altro intermediario,
l’ipotesi nulla appropriata è p = 0,5 contro un’alternativa p < 0,5. L’elevata numerosità
campionaria consente l’uso dell’approssimazione normale, per cui la regione di rifiuto si trova
alla sinistra di -1,645.
1. Il punto critico, espresso in termini di p, vale 0,5 − 1,645 0,5 ⋅ 0,5 n = 0,3700, per cui
l’ipotesi nulla non può essere rifiutata.
2. Standardizzando il punto critico rispetto a H1 otteniamo 0,2646, a cui corrisponde una
potenza pari a 0,6043.
C) L’indice beta è semplicemente il coefficiente di regressione lineare dei rendimenti della
MATTA sul rendimento di mercato.
1. La stima di beta coincide con la stima della pendenza della retta di regressione:
β̂ 1 = C xy D x = -0,3777.
2. Per calcolare la previsione abbiamo bisogno anche della stima di β0 e delle varianze degli
stimatori. Si ha innanzitutto βˆ o = y − βˆ1 x = 0,8613 e, per quanto riguarda le varianze,
1
x2 
 = 0,0147. La previsione puntuale vale quindi
σˆ β2ˆ = σˆ 2 D x = 0,0047 e σˆ β2ˆ = σˆ  +
 n Dx 
1
yˆ = βˆ 0 + βˆ1 x ′ =
0
0,1059%
[-2,2378%, 2,4497%].
e
l’intervallo
è
dato
da
yˆ ± 1,96σˆ 1 +
1 (x′ − x )
+
=
n
Dx
2
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Prova scritta del 23.4.2003
Istruzioni: Usare 5 cifre decimali
P) La centrale nucleare di Springfield è dotata di una pompa di raffreddamento principale e una
ausiliaria. Quando la principale va in avaria, il reattore si surriscalda e può arrivare a fondere. Se
la pompa ausiliaria viene attivata entro 15 minuti, la fusione avviene con probabilità 0,0033,
altrimenti con probabilità 0,9057. H. J. Simpson, addetto alla sicurezza della centrale nucleare di
Springfield, è responsabile dell’attivazione delle pompe ausiliarie, ma tende ad addormentarsi al
suo posto di lavoro con probabilità 0,6005. Nel caso vi sia un allarme, il suo sonno ha durata
esponenziale con media 9,9 minuti.
1. Si determini la probabilità che il reattore fonda.
2. Sapendo che il reattore è fuso, si determini la probabilità che Simpson stesse dormendo e
non sia intervenuto per tempo.
A) La centrale sorveglia il livello di inquinamento controllando la radioattività di campioni delle
acque di raffreddamento, che una vengono poi scaricate nel fiume. In una giornata, un campione
di 10 prelievi ha riportato un livello medio di 50,26 Becquerel con deviazione standard corretta
4,8.
1. Ipotizzando che la distribuzione del livello di radioattività nelle acque sia normale, si esegua
una stima per intervallo (α = 0,05) del livello di radioattività delle acque di raffreddamento
della centrale.
2. Sarebbe possibile determinare la dimensione campionaria necessaria per avere un intervallo
di ampiezza 2? In caso affermativo la si indichi, altrimenti si spieghi perché non è possibile.
B) Uno studio ha rilevato che l’incidenza della leucemia tra gli abitanti di Springfield in fascia
d’età 10-30 anni è 0,0048 contro una media nazionale di 0,001.
1. Sapendo che gli abitanti di Springfield nella fascia d’età 10-30 sono 513, esiste sufficiente
evidenza campionaria (α = 0,05) per concludere che gli abitanti sono più esposti al rischio di
leucemia rispetto alla media nazionale?
2. Si determini la potenza del test in corrispondenza di un’alternativa H1: 0,005.
C) Per verificare l’assorbimento di radiazioni da parte dei cittadini, si è rilevato il livello di cesio
nelle urine di 7 dipendenti della centrale, 4 dirigenti e 9 cittadini che non hanno rapporti con
essa. I risultati sono presentati nella tabella seguente:
Professione
Milligrammi di Cesio
4,5
3,4
6,5
7,9
4,8
2,3
6,3
Dipendente centrale
2,6
5,6
5,7
5,8
Dirigente centrale
3,0
3,2
3,0
2,9
3,3
3,3
3,2
3,2
3,2
Altro
1. Si specifichi un opportuno modello lineare per il livello di cesio e si riportino le stime dei
parametri.
2. Esiste sufficiente evidenza campionaria per sostenere che i dipendenti (non dirigenti) della
centrale assumono più cesio rispetto agli altri (utilizzare α = 0,05)?
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Soluzione della prova scritta del 23.04.2003
Istruzioni: Usare 4 cifre decimali
P) Indichiamo il fatto che Simpson intervenga prima o dopo i 15 minuti con I e Ic. Simpson
interviene in due casi: non si addormenta, oppure si addormenta ma si sveglia per tempo. Al
contrario, non interviene se si addormenta e non si sveglia per tempo. Consideriamo
quest’ultima prospettiva e calcoliamo in primo luogo la probabilità che non si svegli in
tempo, data da 1 meno la funzione di ripartizione di un’esponenziale con media 9,9. Tale
probabilità vale P(S > 15) = e–15/9,9 = 0,22078. Notiamo ora che la probabilità di
addormentarsi e non svegliarsi è data dalla probabilità di addormentarsi per la probabilità di
non svegliarsi condizionata al fatto di essersi addormentato, per cui P(Ic) = 0,13258.
1. La probabilità di fusione sarà allora data da P(F) = P(F|I)P(I) + P(F|Ic)P(Ic) = 0,12294.
2. Per il teorema di Bayes, P(Ic|F) = P(F|Ic)P(Ic)/P(F) = 0,9767.
A) Poiché lavoriamo con una dimensione campionaria ridotta, dobbiamo ipotizzare che il livello di
radioattività abbia distribuzione normale.
s
; i limiti inferiore e superiore sono quindi
1. L’intervallo di confidenza è dato da x ± t n −1
n
48,69284 e 51,82716.
2. Si dovrebbe risolvere rispetto a n l’equazione 2 = 2t n −1
σ̂
; a parte i problemi derivanti
n
dalla stima della varianza con una dimensione campionaria ridotta, si noti che l’equazione
non è risolvibile in forma chiusa poiché da n dipende il valore di t. Non è pertanto possibile
rispondere alla domanda.
B) Poiché viene richiesto di testare il fatto che la percentuale di persone che si ammalano di
leucemia a Springfield sia superiore rispetto alla media nazionale, l’ipotesi nulla appropriata è
p0 = 0,001 contro un’alternativa p > 0,001. L’elevata numerosità campionaria consente l’uso
dell’approssimazione normale, per cui la regione di rifiuto si trova alla destra di 1,645.
pˆ − p 0
1. La statistica test da utilizzare è
= 2,72307, per cui si rifiuta l’ipotesi nulla.
p 0 (1 − p 0 ) n
2. Il punto critico in termini di proporzione è dato da p 0 + 1,645 p 0 (1 − p 0 ) n = 0,00330;
standardizzandolo rispetto a H1 otteniamo -1,22139, a cui corrisponde una potenza pari a
0,88903.
C) Poiché la variabile esplicativa (posizione professionale) che si intende utilizzare per spiegare il
livello di cesio è di tipo qualitativo, si usa un modello lineare del tipo g ij = µ + α i + ε ij .
1. Le stime dei parametri sono date da: µ̂ = 4,185, α̂ dip = 0,915, α̂ dir = 0,74, α̂ al = -1,04056.
2. Calcoliamo la devianza totale e la devianza between: DT = 47,6055, DB = 17,79578, per cui
DW = DT – DB = 29,80972. La statistica [DB/(k – 1)]/ [DW/(n – k)] = 1,3000 ha distribuzione
F3 – 1, 20 – 3; il valore critico è quindi 3,59. Pertanto, si rifiuta l’ipotesi nulla che il livello medio
di cesio sia uguale sulle tre categorie professionali.
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Prova scritta del 4.6.2003
Istruzioni: Usare 4 cifre decimali
P) Durante l’assedio di Minas Tirith, il 43% della popolazione non in armi morì di fame o malattia
e il 12% a causa dei combattimenti. Per quanto riguarda la popolazione in armi, invece, il 65%
morì in combattimento e il 17% per fame o malattia. Prima dell’assedio, la popolazione in armi
costituiva il 77% del totale.
1. Si determini la probabilità che un abitante scelto a caso prima dell’assedio sopravviva allo
stesso.
2. Sapendo che un abitante è sopravvissuto all’assedio, si determini la probabilità che esso
fosse sotto le armi.
A) Nelle prime 18 ore di assedio, la batteria di arcieri guidata da Legolas è riuscita a uccidere 216
assedianti.
0. Si specifichi un opportuno modello statistico per il numero di assedianti colpiti in un’ora e si
ricavino le stime dei parametri, precisando le assunzioni necessarie.
Suggerimento: notare che si tratta di dati di conteggio.
2. Qual è la probabilità che nella prossima ora vengano colpiti più di 19 assedianti?
B) La principessa Arwen, vicecomandante della batteria di arcieri di Legolas, ritiene di saper tirare
in maniera più precisa rispetto al suo capo. Durante un’esercitazione, che consiste nel tirare 21
volte a un bersaglio posto a una distanza fissa e misurare la distanza (in centimetri) del punto
colpito dal centro del bersaglio, la varianza campionaria corretta di Arwen è risultata 11,654 e
quella di Legolas 26,306.
1. Si sottoponga a test (α = 0,05) l’ipotesi nulla che Arwen sia una tiratrice più precisa rispetto
a Legolas, assumendo che la distanza media del centro del bersaglio sia la medesima per
entrambi gli arcieri.
2. Si determini la potenza del test in corrispondenza di un’alternativa in cui il tiro di Arwen è
due volte più preciso rispetto a quello di Legolas.
C) Legolas si sottopone a una prova in cui deve colpire un bersaglio circolare posto a una certa
distanza (misurata in metri); la prova viene ripetuta 12 volte posizionando il bersaglio a distanze
diverse. La precisione del tiro, misurata come distanza (in centimetri) del punto di impatto della
freccia dal centro del bersaglio, è stata rappresentata attraverso un modello del tipo
E( y ) = β 0 e β1x . I risultati della stima sono riportati nella tabella seguente.
0,002 D = 12 (x − x )
5694
β̂ 0
x
β̂ 1
σ̂
0,0190
∑
i =1
x
i
348,8
1,63
1. Sottoporre a test (α = 0,05) l’ipotesi nulla β1 = 0.
2. Costruire un intervallo di previsione al 95% per la precisione di un tiro a un bersaglio posto
a 350 metri di distanza.
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Soluzione della prova scritta del 4.6.2003
P) Sulla base dei dati indicati si ricava che le percentuali di sopravvissuti per popolazione in armi e
non in armi sono, rispettivamente, P(S|A) = 18% e P(S|Ac) = 45%.
1. Per la legge delle probabilità totali, la probabilità di sopravvivenza all’assedio è
P(S) = 0,2421.
2. Applicando il teorema di Bayes si ricava P(A|S) = 0,5725.
A) Si tratta di dati di conteggio, per cui il modello di Poisson potrebbe essere adeguato.
1. Si tratta di dati rilevati in ordine temporale, l’assunzione necessaria è quindi che i dati non
siano autocorrelati. La stima del parametro l, sia che la si ricavi col metodo della massima
verosimiglianza che col metodo dei momenti, è pari alla media, ovvero 12.
2. Utilizzando le tavole della distribuzione di Poisson, si ricava P(X > 19) = 0,0213.
B) Si tratta di un test (unidirezionale) per il rapporto tra varianze.
1. È sufficiente calcolare il rapporto Var(L)/Var(Ar) = 2,2573 che ha distribuzione F20,20. Il
corrispondente valore critico per α = 0,05 è 2,12 per cui si rifiuta l’ipotesi nulla che i due
tiratori abbiano la medesima varianza.
2. Il valore della statistica test standardizzata sotto H1 è 1,1286, a cui corrisponde una potenza
0,6053.
C) Si tratta di un modello di regressione lineare con trasformazione logaritmica: è sufficiente
notare che ln y = ln β 0 + β 1 x .
1. La deviazione standard di β̂ 1 è data da σ̂ /Dx = 0,0003 per cui la statistica test vale 66,3311.
Il valore critico della t10 è ± 2,228 per cui si rifiuta l’ipotesi nulla.
2. La previsione puntuale per una distanza pari a 350 metri vale ln ŷ = ln 0,002 + 0,0190 · 350
= 3,9510, per cui ŷ = e3,9510 = 51,9889. L’intervallo di previsione si determina utilizzando
la formula ln yˆ ± 2,228σˆ 1 +
1 (350 − x )
+
Dx
12
2
e vale [1,1833; 2284,0859].
COGNOME NOME: A1
Statistica II, Prof. Bruno Chiandotto
Prova scritta del 17.7.2003
Istruzioni: Usare 4 cifre decimali
P) Nella popolazione italiana nella fascia d’età 25-30 anni la percentuale di occupati è del 44% nel
nord, del 27% nel centro e del 27% nel sud. Nel nord e nel centro, il 32% degli occupati ha un
contratto a tempo indeterminato; tale percentuale è invece del 68% nel sud. La popolazione in
fascia d’età 25-30 è così distribuita sul territorio nazionale: 20% al nord, 21% al centro, 59% al
sud.
1. Si determini la probabilità che un soggetto estratto casualmente non abbia un contratto a
tempo indeterminato.
2. Sapendo che un soggetto non ha un contratto a tempo indeterminato, si determini la
probabilità che esso abiti nel sud.
A) Uno studio ha analizzato, su un campione di 1000 soggetti, il passaggio dall’università al
mondo del lavoro, rilevando che il numero di mesi che trascorre tra il conseguimento della
laurea e l’ingresso nel mondo del lavoro ha media 8,22.
1. Utilizzando per i dati un modello esponenziale, si ricavi la stima puntuale del parametro col
metodo della massima verosimiglianza e si esegua una stima per intervallo dello stesso
(α = 0,1).
2. Si stimi la probabilità che un soggetto impieghi meno di 6 mesi per trovare lavoro.
B) Un studio sul salario di ingresso di un campione di 73 laureati in statistica alle università di
Firenze e 84 all’università di Napoli ha rilevato un salario medio di 900€ con deviazione
standard 104€ per l’università di Firenze e una media di 842€ con deviazione standard 66€ per
l’università di Napoli.
1. Esiste sufficiente evidenza campionaria per sostenere, con un livello di significatività
α = 0,05, che il salario di ingresso dei laureati in statistica a Firenze è mediamente più alto
rispetto ai laureati a Napoli?
2. Si determini la potenza del test in corrispondenza di un’alternativa in cui la differenza di
salario vale 50€.
C) I dati sul salario mensile di un campione di 23 laureati in statistica a Firenze, divisi per tipo di
mansione svolta, sono i seguenti.
Mansione
Salario mensile
802 828 844 809 756 777 806 782
Raccolta/trattamento dati
819 834 831 755 764 887
Informatica
862 851 894 864
Ricerca
1019 881 1041 510 598
Altro
1. Si specifichi un opportuno modello lineare per il salario mensile e si riportino le stime dei
parametri.
2. Esiste sufficiente evidenza campionaria per sostenere (α = 0,05) che il salario medio dei
laureati in statistica non dipende dal tipo di mansione svolta?
COGNOME NOME: A1
Statistica II, Prof. Bruno Chiandotto
Soluzione della prova scritta del 17.7.2003
Istruzioni: Usare 4 cifre decimali
P) Indichiamo rispettivamente con N, C e S la provenienza territoriale, con O l’essere occupato e
con I l’avere un contratto a tempo indeterminato. Calcoliamo in primo luogo P(I|N) = P(I|O, N)·
P(O|N) = 0,1408, P(I|C) = 0,1504, P(I|S) = 0,1836.
1. Per la legge delle probabilità totali, P(Ic) = 1 – P(I) = 1 – P(I|N)P(N) + P(I|C)P(C) +
P(I|S)P(S) = 0,8319.
2. Per il teorema di Bayes, P(S|Ic) = P(Ic|S)P(S)/ P(Ic) = 0,5790.
A) La densità esponenziale è f ( x) =
1
λ
e
−
x
λ
per x > 0.
1. Si ricava λ̂ = x = 8,22, per cui l’intervallo di confidenza è x ± 1,645 λ̂
8,6476].
2. Poiché la funzione di ripartizione è 1 − e
−
n = [7,7924;
x
λ
, si ha P(x < 6) = 0,5181.
B) Si tratta di un test unidirezionale per la differenza tra medie. Le varianze sono incognite, ma la
popolazione è di dimensione sufficientemente ampia per utilizzare i corrispettivi campionari.
1. La statistica test vale 4,1010, e il punto critico è 2,33, per cui si rifiuta l’ipotesi nulla che le
medie siano uguali.
2. Il punto critico in termini non standardizzati vale 32,9529; standardizzando sotto H1
otteniamo -1,2053 a cui corrisponde una potenza 0,8860.
C) Poiché la variabile esplicativa (mansione professionale) che si intende utilizzare per spiegare il
salario è di tipo qualitativo, si usa un modello lineare del tipo y ij = µ + α i + ε ij .
1. Le stime dei parametri sono date da: µ̂ = 818,0000, α̂ dati = -17,5000, α̂ in = -3,0000,
α̂ ric = -3,0000, α̂ al = -8,2000.
2. Calcoliamo la devianza totale e la devianza between: DT = 268430,0000, DB = 12740,4500,
per cui DW = DT – DB = 255689,5500. La statistica [DB/(k – 1)]/ [DW/(n – k)] = 0,3156 ha
distribuzione F4 – 1, 23 – 4; il valore critico è quindi 3,13. Pertanto, non si rifiuta l’ipotesi nulla
che il salario medio di ingresso sia uguale per le quattro mansioni professionali.
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Prova scritta del 5.9.2003
Istruzioni: Usare 5 cifre decimali
P) Il numero di richieste che arrivano in un minuto al server delle biblioteche dell’università si
distribuisce secondo una legge di Poisson con parametro 10,1. Se il numero di richieste è
superiore a 15, il sistema si guasta con probabilità 0,02, altrimenti con probabilità 0,0001.
1. Considerato un minuto a caso nel corso della giornata, si determini P(G), la probabilità che
il sistema si guasti.
2. Avendo osservato un guasto, si determini la probabilità che vi siano state più di 15 richieste.
A) Dei ricercatori hanno analizzato il tempo di esecuzione delle richieste che pervengono al server
delle biblioteche dell’università. Su un campione di 1000 richieste, si è rilevato un tempo di
esecuzione medio di 1,94ms.
1. Utilizzando per i dati un modello esponenziale, si ricavi la stima per intervallo del parametro
(α = 0,05).
2. Supponendo che al server arrivino simultaneamente 8 richieste, si determini la probabilità
che esse siano eseguite entro 15ms.
Suggerimento: utilizzare la distribuzione χ2.
B) Il nuovo processore K9 viene reclamizzato come più veloce del 10% rispetto alla concorrenza, a
parità di frequenza di clock. La velocità di un processore viene misurata in milioni di operazioni
al secondo e i produttori del K9 affermano che essa è 3300 Mflops. Una rivista specializzata
mette a confronto un campione di 5 processori K9-3GHz contro altri 5 di marca diversa ma
sempre con frequenza 3GHz. La velocità media dei processori K9 è stata 3141 con varianza
10300, quella dei processori di altra marca 2956 con varianza 9630.
1. Si verifichi l’ipotesi, con un livello di significatività α = 0,01, che i processori K9 sono più
veloci degli altri, specificando le condizioni che consentono la risoluzione del problema.
2. Supponendo che l’affermazione dei produttori circa la velocità dei processori K9 sia
attendibile, si determini la potenza del test in corrispondenza di un’alternativa in cui il K9 è
più veloce del 10% rispetto alla concorrenza.
C) In generale, la performance dei processori tende a peggiorare all’aumentare della temperatura
esterna. Un campione di 22 processori K9 è stato sottoposto a test in diverse condizioni
atmosferiche e sono state ricavate le seguenti statistiche riassuntive:
3230 Temperatura media
23°
Velocità media K9
55032 Devianza temperatura
521
Devianza velocità K9
-2982 σ̂ 2
1898,21
Codevianza
1. Si specifichi un opportuno modello lineare per la velocità del processore K9, si proceda alla
stima puntuale dei parametri caratteristici e si sottoponga a test (α = 0,05) l’ipotesi nulla che
la temperatura esterna non abbia influenza sulla velocità.
2.
Costruire un intervallo di previsione (α = 0,05) per la velocità del processore in
corrispondenza di un temperatura esterna di 38°.
COGNOME NOME: A
Statistica II, Prof. Bruno Chiandotto
Soluzione della prova scritta del 5.9.2003
Istruzioni: Usare 5 cifre decimali
P) Utilizzando le tavole della distribuzione di Poisson, si ricava che la probabilità di avere meno di
15 richieste vale circa 0,973.
1. È sufficiente applicare la legge delle probabilità totali e si ottiene 0,00064.
2. Applicando il teorema di Bayes, si ricava 0,84732.
A) La densità esponenziale è f ( x) =
1
λ
e
−
x
λ
per x > 0.
1. Si ricava λ̂ = x = 1,94, per cui l’intervallo di confidenza è x ± 1,645 λ̂ n =
[2,05279; 1,81976].
2. La somma di n variabili aleatorie esponenziali di parametro λ ha distribuzione Γ(n, λ). Nel
nostro caso, una Γ(8, 1,94) può essere ragionevolmente approssimata con una χ 162 , per cui si
ricava che P(X > 15) ≈ 0,5.
B) Si tratta di un test unidirezionale per la differenza tra medie. Poiché la dimensione campionaria
è ridotta, è necessario assumere che le due popolazioni siano normali e abbiano uguale varianza.
1. La statistica test vale 2,93024, e il punto critico è 2,896, per cui si rifuta l’ipotesi nulla che le
medie siano uguali.
2. Il punto critico in termini non standardizzati vale 182,83831; standardizzando sotto H1
otteniamo -1,85574 a cui corrisponde una potenza di 0,94971.
C) Si esegue una regressione lineare della velocità contro la temperatura.
1. Si ricava β̂ 1 = C xy D x = -5,72361 e βˆ o = y − βˆ1 x = 3361,64299 e, per quanto riguarda le
 1 x2 
 = 2013,63943. La statistica test è
varianze, σˆ β2ˆ = σˆ 2 D x = 3,64340 e σˆ β2ˆ = σˆ 2  +
1
0
 n Dx 
quindi data da βˆ1 σˆ β2ˆ = -2,99859 e ha distribuzione t20, pertanto si rifiuta l’ipotesi nulla.
1
2. La previsione puntuale vale yˆ = βˆ 0 + 38 βˆ1 = 3144,14587, per cui l’intervallo è dato da
1 (38 − x )
yˆ ± 1,96σˆ 1 + +
n
Dx
2
= [3040,35362; 3247,93813].