Calcolo delle Probabilità
Paolo Baldi, Università di Roma Tor Vergata
McGraw-Hill 2011
Prima parte: soluzioni pag. 3
Seconda parte: risultati degli esercizi proposti pag. 105
Paolo Baldi
Calcolo delle Probabilità
McGraw-Hill 2011
1
Soluzioni
1.1 Due modi possibili: possiamo innanzitutto considerare tutti i numeri di telefono come
equiprobabili. Essi sono dunque 9 · 107 (9 possibilità per la prima cifra, 10 per le altre 7). Tra
di essi quelli che non contengono lo 0 sono 9 · 97 (9 possibilità per ognuna delle 8 cifre). La
probabilità che un numero scelto a caso non contenga lo 0 è dunque
9 7
9 · 97
=
= 0.48 .
9 · 107
10
Alternativamente, indichiamo con Ai , i = 2, . . . , 8 l’evento ‘‘la i-esima cifra del numero
da chiamare è diversa da 0’’. La probabilità richiesta è quella dell’intersezione degli eventi
9
Ai , i = 2, . . . , 8. Ora P(Ai ) = 10
, i = 2, . . . , 8, poiché è ragionevole supporre che tutte le
cifre abbiano la stessa probabilità di apparire allo i-esimo posto. E se supponiamo che i valori
delle diverse cifre che appaiono in un numero siano indipendenti ritroviamo ancora
9 7
.
P(A2 ∩ . . . ∩ A8 ) = P(A2 ) . . . P(A8 ) =
10
1.2 a) L’insieme dei possibili risultati è costituito da tutti i numeri da 000000 a 999999 (che
sono 1 milione). Possiamo scegliere questo insieme come . Naturalmente su  considereremo
la distribuzione uniforme di probabilità, poiché non c’è motivo di supporre che alcuni numeri
siano più probabili di altri. Poiché  ha cardinalità 1 milione, la probabilità che il biglietto di
Ole Kamp vinca è 10−6 .
b) L’evento A è costituito da tutti i numeri le cui prime 4 cifre sono 0096, che sono 100.
#A
Dunque P(A) = #
= 10−4 . Se ω ∈ A allora P({ω} ∩ A) = P({ω}) = 10−6 e quindi
P({ω})
1
P({ω}|A) = P(A) = 10−2 = #A
. Se invece ω 6∈ A allora l’evento {ω} ∩ A è vuoto e
P({ω}|A) = 0. In conclusione la probabilità che un numero ω sia estratto è ora
1
P({ω} ∩ A)
= #A se ω ∈ A
P({ω}|A) =
0
se ω 6∈ A .
P(A)
Paolo Baldi
Calcolo delle Probabilità
McGraw-Hill 2011
4
Parte 1: soluzioni
In altre parole la probabilità condizionale dato A vale 0 se il numero ω non si trova in A, mentre
tutti i numeri che si trovano in A sono equiprobabili. La probabilità del biglietto di Ole Kamp
1
1
, cioè 100
. Se invece A fosse l’evento costituito dai numeri che iniziano con 00967, la
è ora #A
1
1
probabilità P( |A) varrebbe 10
(cioè sempre #A
) per tutti i biglietti ω le cui cifre iniziano con
00967 e 0 per gli altri.
1.3 Risolveremo il problema con due modelli diversi.
1) Primo modello. Supponiamo di numerare le palline nell’urna e di indicarle B1 , B2 , B3 , B4 ,
N1 , N2 , N3 . Consideriamo come spazio  l’insieme di tutte le coppie del tipo ω = (ω1 , ω2 ),
dove ω1 e ω2 possono prendere i valori B1 , B2 , B3 , B4 , N1 , N2 oppure N3 ; ovvero
 = {B1 , B2 , B3 , B4 , N1 , N2 , N3 }2 .
Poiché siamo in una situazione di estrazioni con rimpiazzo è naturale supporre che tutti gli
elementi di  siano equiprobabili. In questo caso sappiamo che per calcolare la probabilità
#A
. In
di un evento A basta contare quanti elementi esso contiene, perché poi si ha P(A) = #
particolare ogni ω ∈  ha probabilità
P({ω}) =
1
1
1
= 2 =
·
#
7
49
a) L’evento A di cui si richiede la probabilità è quello formato dalle coppie (ω1 , ω2 ) per le
quali ω1 e ω2 sono entrambi B oppure entrambi N. In altre parole
A = {B1 , B2 , B3 , B4 }2 ∪ {N1 , N2 , N3 }2
e dunque #A = 42 + 32 = 25 e
25
·
49
b) Ora si tratta di calcolare la probabilità dell’evento D delle coppie (ω1 , ω2 ) dove uno almeno
tra ω1 e ω2 è diverso da B1 , B2 , B3 , B4 . Dunque il complementare di D è l’evento
P(A) =
D c = {B1 , B2 , B3 , B4 }2
e poiché #D c = 16 allora P(D) = 1 − P(D c ) = 1 −
2) Secondo modello. Consideriamo gli eventi
Z1
Z2
W1
W2
16
49
=
33
49 .
= una pallina bianca viene estratta alla prima estrazione
= una pallina bianca viene estratta alla seconda estrazione
= una pallina nera viene estratta alla prima estrazione
= una pallina nera viene estratta alla seconda estrazione .
Senza preoccuparci per ora di definirlo esplicitamente, è chiaro che, in uno spazio (, !, P)
adeguato a descrivere questa situazione, gli eventi Z1 e Z2 devono risultare indipendenti e così
Esercizio 1.4
5
pure W1 e W2 (poiché le palline vengono rimesse nell’urna i risultati di estrazioni successive
devono essere indipendenti). Inoltre dovrà essere
4
7
3
P(W1 ) = P(W2 ) =
7
P(Z1 ) = P(Z2 ) =
poiché in ogni singola estrazione è ragionevole considerare la distribuzione uniforme di probabilità.
a) L’evento ‘‘vengono estratte due palline dello stesso colore’’ non è altro che (Z1 ∩ Z2 ) ∪
(W1 ∩ W2 ). Poiché i due eventi Z1 ∩ Z2 e W1 ∩ W2 sono disgiunti (se si estraggono palline
bianche non se ne possono estrarre di nere) e per le relazioni d’indipendenza che abbiamo già
segnalato, deve essere
P((Z1 ∩ Z2 ) ∪ (W1 ∩ W2 )) = P(Z1 ∩ Z2 ) + P(W1 ∩ W2 ) =
4 2 3 2
25
= P(Z1 )P(Z2 ) + P(W1 )P(W2 ) =
+
=
·
7
7
49
b) L’evento ‘‘una almeno delle palline estratte è nera’’ con la formulazione appena introdotta
non è altro che W1 ∪ W2 . Usando la formula della probabilità della unione di eventi (osservare
che W1 e W2 non sono disgiunti) abbiamo
P(W1 ∪ W2 ) = P(W1 ) + P(W2 ) − P(W1 ∩ W2 ) =
33
3 3 3 2
+ −
=
·
7 7
7
49
• Questo esercizio mostra che, in generale, lo spazio di probabilità adatto a descrivere un
problema non è unico (pur portando allo stesso risultato). Inoltre qui vediamo l’uso dei due principali strumenti elementari nella costruzione dello spazio di probabilità, cioè l’equiprobabilità
e l’indipendenza.
Da segnalare l’idea di calcolare la probabilità di un evento spezzandolo nella unione di eventi
la cui probabilità è facile da calcolare e l’uso della formula, (1.8), della probabilità della riunione
di due eventi non disgiunti.
1.4 Anche questo esercizio può essere risolto in (almeno) due modi, uno usando la formula
delle probabilità totali (1.12), l’altro costruendo esplicitamente lo spazio di probabilità e usando
i metodi del calcolo combinatorio (cioè contando la cardinalità degli eventi).
Come abbiamo già visto negli esempi il metodo della partizione dell’evento certo consiste nel
cercare degli eventi A1 , . . . , Am disgiunti, tali che la loro unione abbia probabilità 1 e tali che
il calcolo delle probabilità condizionali P(C |Ai ) sia facile. In questo caso una buona scelta è
costituita dagli eventi Ai =‘‘la prima pallina estratta è la numero i’’, i = 1, . . . , 6. È chiaro
che gli eventi A1 , . . . , A6 costituiscono una partizione dell’evento certo (sono disgiunti e la loro
unione esaurisce tutte le possibilità). Inoltre P(Ai ) = 61 per ogni i = 1, . . . , 6. Se indichiamo
con C l’evento ‘‘le due estrazioni danno luogo a due numeri consecutivi’’, allora si ha
P(C |A2 ) =
2
·
5
6
Parte 1: soluzioni
Infatti dopo la prima estrazione (della pallina con il numero 2) nell’urna sono rimaste 5 palline
e l’evento C si verifica se vengono estratte le palline numero 1 oppure 3, con probabilità 25 ,
appunto. Per lo stesso motivo si ha anche
P(C |A3 ) = P(C |A4 ) = P(C |A5 ) =
2
·
5
Se invece la prima pallina estratta è la numero 1, nell’urna restano sempre 5 palline, ma ora
l’evento C si verifica solo se la seconda estratta è la numero 2, con probabilità 51 . Lo stesso vale
se la prima pallina estratta è la numero 6, perché anche in questo caso si ha lo stesso ‘‘effetto
di bordo’’. Dunque
1
P(C |A1 ) = P(C |A6 ) = ·
5
Possiamo ora applicare la formula (1.12):
P(C) = P(C |A1 )P(A1 ) + . . . + P(C |A6 )P(A6 ) =
2 1
1 1
2· +4·
= ·
6
5
5
3
Secondo modo: se poniamo E = {1, 2, 3, 4, 5, 6}, l’estrazione delle due palline dall’urna
equivale alla scelta a caso di un sottoinsieme di due elementi dell’insieme E. L’insieme dei
possibili risultati dell’esperimento casuale è dunque =‘‘insieme di tutti i sottoinsiemi di due
elementi di E’’.
Sappiamo dalle formule del calcolo combinatorio (Proposizione 1.24) che # = 26 = 15.
L’evento C corrisponde in questo modello al sottoinsieme di  dei sottoinsiemi di E formati da
due elementi consecutivi. Poiché la cardinalità di  è piccola possiamo semplicemente passare
in rivista tutti i possibili sottoinsiemi di due elementi e trovare che C è formato dai sottoinsiemi
5
{1, 2}, {2, 3}, {3, 4}, {4, 5}, {5, 6}. Dunque la cardinalità di C è uguale a 5 e P(C) = 15
= 13 .
Osserviamo che gli elementi di  sono sottoinsiemi di cardinalità 2 e non coppie ordinate.
Sarebbe stato comunque possibile anche scegliere come spazio  l’insieme delle coppie ordinate
di elementi di E (cioè le disposizioni di elementi di E a due a due). La cardinalità di  sarebbe
6!
però ora pari a 4!
= 30 ed il calcolo della cardinalità dell’evento corrispondente a C diventa
solo un po’ più complicato.
1.5 a) Indichiamo con ω1 , ω2 le posizioni dei due amici nella coda. L’insieme {ω1 , ω2 } è
un sottoinsieme di {1, . . . , n} di cardinalità 2. Possiamo dunque considerare come modello di
questo problema l’insieme  dei sottoinsiemi
di cardinalità 2 di {1, . . . , n} con la probabilità
(Proposizione 1.24) e l’evento di cui vogliamo
uniforme. La cardinalità di  è n2 = n(n−1)
2
calcolare la probabilità corrisponde al sottoinsieme A ⊂  formato dagli {ω1 , ω2 } tali che
|ω1 − ω2 | = k + 1.
Osserviamo che gli elementi di  sono sottoinsiemi e non coppie ordinate, cioè {1, 2} e
{2, 1} rappresentano lo stesso elemento di . Per rappresentare un elemento di  in maniera
univoca indicheremo un sottoinsieme con la coppia (ω1 , ω2 ) dove ω1 è il numero più piccolo,
(cioè ω1 < ω2 ). Per calcolare la probabilità di A è abbastanza naturale usare la formula
delle probabilità totali (1.12) usando la partizione A1 , . . . , An , dove Ai = {ω1 = i} (cioè Ai
Esercizio 1.6
7
corrisponde all’evento ‘‘quello dei due amici che nella coda ha il numero più basso si trova allo
i-esimo posto’’). È facile vedere che
n
(i, i + k + 1) se i + k + 1 ≤ n
A ∩ Ai =
∅
altrimenti
ovvero A ∩ Ai contiene un solo elemento se i + k + 1 ≤ n ed è vuoto altrimenti. Quindi
(
1
P(A ∩ Ai ) = # se i ≤ n − k − 1
0
altrimenti
e dunque
P(A) = P(A ∩ A1 ) + . . . + P(A ∩ An ) =
2(n − k − 1)
n−k−1
=
·
#
n(n − 1)
b) Scegliere due palline dall’urna senza rimpiazzo equivale a scegliere un sottoinsieme di
cardinalità 2 dall’insieme {1, . . . , n}. Sceglieremo dunque  costituito dai sottoinsiemi di
cardinalità 2 di {1, . . . , n} e l’evento di cui vogliamo calcolare la probabilità corrisponde al
sottoinsieme A ⊂  formato dai sottoinsiemi {ω1 , ω2 } tali che |ω1 − ω2 | = k. Il problema
dunque, anche se la sua formulazione è diversa, si riconduce esattamente allo stesso modello
del punto a) (solamente con k al posto di k + 1). Dunque la probabilità richiesta vale
2(n − k)
n−k
=
·
#
n(n − 1)
• In particolare scegliendo k = 1 otteniamo che la probabilità di estrarre dall’urna due
numeri consecutivi è
2(n − 1)
2
= ·
n(n − 1)
n
Ciò fornisce una nuova soluzione all’esercizio precedente (dove si aveva n = 6).
1.6
Se indichiamo con A e B gli eventi corrispondenti rispettivamente alla presenza del
primo e del secondo difetto, allora P(A) = 0.03, P(B) = 0.07 ed inoltre gli eventi A e B
devono risultare indipendenti.
a) La probabilità che entrambi i difetti siano presenti è
P(A ∩ B) = P(A)P(B) = 0.03 · 0.07 = 0.0021 .
b) La probabilità che uno almeno dei difetti sia presente è
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.03 + 0.07 − 0.0021 = 0.0979 .
c) La probabilità che un pezzo abbia il primo difetto sapendo che è difettoso è
P(A|A ∪ B) =
P(A ∩ (A ∪ B))
P(A)
0.03
=
=
= 0.306 = 30.6%
P(A ∪ B)
P(A ∪ B)
0.0979
8
Parte 1: soluzioni
(infatti A ⊂ A ∪ B e quindi A ∩ (A ∪ B) = A).
d) La probabilità che vi sia uno solo dei difetti sapendo che il pezzo è difettoso è uguale
a 1 meno la probabilità che entrambi i difetti siano presenti (sempre sapendo che il pezzo è
difettoso). Dunque, poiché A ∩ B ⊂ A ∪ B, la probabilità richiesta è
1 − P(A ∩ B |A ∪ B) = 1 −
P(A ∩ B)
0.0021
=1−
= 0.978 = 97.8 .%
P(A ∪ B)
0.0979
1.7 Indichiamo con A1 l’evento ‘‘viene scelta la carta 1’’ (quella con i due lati neri) e con
A2 l’evento ‘‘viene scelta la carta 2’’. Con B invece indichiamo l’evento ‘‘viene scelto un lato
nero’’. È chiaro che P(A1 ) = P(A2 ) = 21 , poiché non vi è motivo di supporre che le due carte
non siano equiprobabili. Inoltre P(B |A1 ) = 1, P(B |A2 ) = 21 , poiché se viene scelta la carta 2,
allora vi sono due lati possibili, uno bianco e l’altro nero, entrambi con probabilità 21 . Anche
il secondo lato è nero se si è scelta la carta 1. Dunque la probabilità richiesta non è altro che
P(A1 |B) e basta dunque applicare la formula di Bayes:
P(A1 |B) =
P(B |A1 )P(A1 )
·
P(B)
Resta ora solo da calcolare P(B). Ma con il metodo della partizione dell’evento certo, dato che
A1 , A2 è una partizione,
P(B) = P(B ∩ A1 ) + P(B ∩ A2 ) = P(B |A1 )P(A1 ) + P(B |A2 )P(A2 ) =
3
1 1
+ = ·
2 4
4
Dunque P(A1 |B) = 23 .
1.8 a) Indichiamo con Ai , i = 1, 2, 3 l’evento ‘‘lo i-esimo lancio ha dato 6’’; è chiaro che
P(A1 ) = P(A2 ) = P(A3 ) = 61 . Ci viene richiesto di calcolare P(A1 ∪ A2 ∪ A3 ). Gli eventi
A1 , A2 , A3 non sono però disgiunti (ad esempio A1 ∩ A2 non è altro che l’evento ‘‘i primi due
lanci danno entrambi 6’’) e dunque la probabilità della unione non è uguale alla somma delle
probabilità. Possiamo però sfruttare il fatto che gli eventi A1 , A2 , A3 sono indipendenti come
pure i loro complementari e usare la formula
P(A1 ∪ A2 ∪ A3 ) = 1 − P (A1 ∪ A2 ∪ A3 )c = 1 − P(Ac1 ∩ Ac2 ∩ Ac3 ) =
5 3
= 1 − P(Ac1 )P(Ac2 )P(Ac3 ) = 1 −
= 0.42
6
(abbiamo usato le formule di De Morgan, vedi in fondo a pag. 3 del libro).
b) Ripetendo questo ragionamento si vede che la probabilità che in n lanci si ottenga 6 almeno
una volta è 1 − ( 65 )n . Perché questa quantità sia più grande di 0.9 occorrerà che sia
1−
5 n
6
> 0.9
Esercizio 1.10
9
Cioè, svolgendo la disuguaglianza, 0.1 > ( 65 )n , ovvero, prendendo i logaritmi e dividendo per
log 65 ,
n > log(0.1)
log 65
e cioè
n > 12.62 .
Attenzione: quando si divide per log 56 occorre invertire il verso della disuguaglianza, perché si
tratta di una quantità negativa. Dunque deve essere n ≥ 13.
• Da segnalare l’uso della formula P(A) = 1 − P(Ac ). Talvolta il calcolo della probabilità
di Ac è più facile del calcolo diretto della probabilità di A.
1.9
Con la distribuzione ipergeometrica si trova che, se i voti si ripartissero a caso tra i
commissari, essi si distribuirebbero come è avvenuto con probabilità
5 3 5 0
8
5
=
1
= 1.78 .%
56
Il giudice può probabilmente decidere che l’evento verificatosi è effettivamente troppo improbabile per essere il frutto del caso. Se invece i 5 voti fossero stati dati da 4 donne e un uomo,
la probabilità sarebbe stata
5 3
15
4 1
= 26.78%
=
8
56
5
che è un valore abbastanza alto perché l’evento possa non essere giudicato improbabile.
1.10 a) Possiamo considerare le 52 carte del mazzo divise in due gruppi, uno composto dai 4
assi e l’altro dalle altre 48 carte. La probabilità di ottenere esattamente k assi, per k = 1, 2, 3, 4,
non è altro che la probabilità di ottenere k elementi dal primo gruppo in una estrazione di 5
elementi senza rimpiazzo. La distribuzione ipergeometrica dà
pk :=
4 48 k 5−k
52
5
=
4! 48! 5! 47!
·
k! (4 − k)! (43 + k)! (5 − k)! 52!
Se indichiamo l’evento ‘‘si ricevono (esattamente) k assi’’ con Ak , l’evento ‘‘si ricevono almeno
2 assi’’ non è altro che la riunione A2 ∪ A3 ∪ A4 . Poiché gli eventi Ak al variare di k = 1, 2, 3, 4
sono disgiunti, la probabilità richiesta p è allora uguale a P(A2 )+P(A3 )+P(A4 ) = p2 +p3 +p4 .
Non ci resta che calcolare queste tre quantità, il che si fa con una calcolatrice dopo avere
10
Parte 1: soluzioni
semplificato al massimo i coefficienti binomiali e i fattoriali che ne risultano:
4 48
4! 48! 5! 47!
5! 47 · 46
=
= 0.04
p2 = 2 523 =
2! 2! 45! 3! 52!
52 · 51 · 50 · 49
5
4 48
4! 48! 5! 47!
2 · 5! 47
p3 = 3 522 =
=
= 0.0017
3! 46! 2! 52!
52 · 51 · 50 · 49
5
4 48
48! 5! 47!
5!
=
= 1.847 · 10−5
p4 = 4 521 =
47! 52!
52 · 51 · 50 · 49
5
e dunque p = p2 + p3 + p4 = 0.042. Da notare che p4 = 1.847 · 10−5 è la probabilità di
ricevere poker d’assi servito.
b) Cominciamo col fissare un colore, quadri ad esempio. La probabilità di ricevere cinque
carte di quadri (cioè colore servito a quadri) si calcola considerando le carte del mazzo ancora
suddivise in due gruppi: le 13 carte di quadri e le altre 39. Le formule della distribuzione
ipergeometrica dicono che la probabilità di ricevere 5 carte del primo gruppo e 0 dal secondo è
13 39
13! 5! 47!
13 · 12 · 11 · 10 · 9
11 · 3
0
5
=
=
=
= 4.95 · 10−4 ·
52
5! 8! 52!
52 · 51 · 50 · 49 · 48
17 · 5 · 49 · 16
5
Se indichiamo con A♦ l’evento ‘‘si riceve colore a quadri servito’’ e con A♥ , A♣ , A♠ , gli
analoghi eventi per gli altri semi, allora ognuno di questi ha probabilità 4.95 · 10−4 , grazie al
calcolo appena fatto. Inoltre la probabilità richiesta non è altro che la probabilità della unione
A♦ ∪ A♥ ∪ A♣ ∪ A♠ . Poiché si tratta di eventi disgiunti, la probabilità di ricevere colore servito
è 4 · 4.95 · 10−4 = 0.00198 = 0.198%.
c) Abbiamo già calcolato in a) la probabilità di ricevere un poker servito di assi. Naturalmente
questa è la stessa che la probabilità di ricevere un poker servito di un altro numero. Poiché i
numeri (comprese le figure) sono 13 e poiché gli eventi ‘‘si riceve poker servito di assi’’, ‘‘. . . di
2’’, ‘‘. . . di 3’’ etc. sono tra di loro disgiunti, la probabilità di ricevere un poker servito è uguale
a 13 · 1.847 · 10−5 = 2.4 · 10−4 .
• La risoluzione di questo esercizio usa, in modo ripetitivo, solo due idee: il fatto che gli
eventi considerati si possono ricondurre a un modello di prove ripetute senza rimpiazzo (che
permette di servirsi delle formule della distribuzione ipergeometrica) e il metodo della partizione
dell’evento certo: in ognuno dei punti a), b) e c) abbiamo suddiviso l’evento che ci interessava
in sottoinsiemi disgiunti, per ciascuno dei quali era facile calcolare la probabilità.
1.11 È facile calcolare la probabilità che le due palline numero 1 vengano estratte insieme:
basta considerare le 93 palline presenti nell’urna come suddivise in due gruppi, il primo formato
dalle due palline n◦ 1 ed il secondo dalle 91 rimanenti. Si tratta di calcolare la probabilità di
estrarre 2 palline dal primo gruppo e 3 dal secondo in cinque estrazioni senza rimpiazzo. La
probabilità richiesta si può calcolare con le formule della distribuzione ipergeometrica e vale
2 91
p=
2
3
93
5
= 2.34 × 10−3 .
Esercizio 1.11
11
Se ora indichiamo con Ai , i = 1, 2, 3, l’evento ‘‘le due palline numero i vengono estratte entrambe’’ è chiaro che i tre eventi hanno la stessa probabilità e dunque P(A1 ) = P(A2 ) =
P(A3 ) = p. Inoltre la probabilità richiesta non è altro che la probabilità della riunione
degli eventi A1 , A2 , A3 . Questi non sono però disgiunti, poiché, ad esempio, la cinquina
(1, 1, 2, 2, 37) si trova sia in A1 che in A2 (ovvero è possibile che simultaneamente vengano
estratte le due palline n◦ 1 e le due n◦ 2). Possiamo però ricorrere alla formula della probabilità
della unione di tre eventi non disgiunti (formula (1.9) a pag. 8 del libro).
Chiaramente l’evento A1 ∩ A2 ∩ A3 ha probabilità 0 (non è possibile estrarre insieme le due
palline 1, le due 2 e le due 3, visto che ne vengono estratte 5 in totale). Il problema è quindi
risolto se sappiamo calcolare P(A1 ∩ A2 ) (le probabilità delle altre intersezioni è la stessa per
simmetria). Ancora usando la distribuzione ipergeometrica (probabilità di estrarre 4 elementi
dal gruppo {1, 1, 2, 2} ed 1 dal gruppo formato dalle altre 89 palline) si ha
P(A1 ∩ A2 ) = q =
per cui in definitiva la probabilità richiesta è
4 89
4 1
93
5
= 1.71 × 10−6
3p − 3q = 0.007 = 0.7% .
b) Cominciamo col calcolare la probabilità di fare terno in un’estrazione normale: ci possiamo
ancora ricondurre alla distribuzione ipergeometrica (probabilità di estrarre 3 palline dal gruppo
composto dalle palline numero 1, 2, 3 e 2 da quello composto da tutte le altre):
3 87
3 2
90
5
= 8.51 × 10−5 .
Il calcolo della probabilità di fare terno con l’urna manomessa è un po’ più complicato. Basta
però dare un’occhiata alla parte finale dell’Esempio 1.28: il numero totale di cinquine è 93
5 ,
mentre il numero di cinquine che contengono esattamente una pallina col numero 1, una col
numero 2 e una col numero 3 è
2 2 2 87
.
2
1 1 1
La probabilità di fare terno con l’urna manomessa è dunque
2 2 2 87
1 1 1 2
93
5
= 5.76 × 10−4 .
• Nella soluzione di questo esercizio abbiamo usato due idee utili anche in altre situazioni: la
prima consiste nel calcolare la probabilità di un evento scrivendolo come riunione di altri eventi
e poi usando la formula sulla probabilità della unione di eventi non (necessariamente) disgiunti.
La seconda consiste nel ricondursi, se possibile, ad un modello già studiato e universale (cioè
che può applicarsi a molte situazioni diverse) come quello delle prove ripetute senza rimpiazzo,
che dà luogo alla distribuzione ipergeometrica.
12
Parte 1: soluzioni
1.12
a) Indichiamo con Ei , i = 1, . . . , n, l’evento ‘‘la i-esima pallina non viene messa
nell’urna 1’’. Per come il problema è stato posto gli eventi Ei si possono supporre indipendenti;
inoltre, poiché ogni volta ognuna delle tre urne ha la stessa probabilità di essere scelta, la
probabilità dell’evento Ei è 23 . L’evento ‘‘l’urna 1 rimane vuota’’ non è altro che l’intersezione
E1 ∩ . . . ∩ En . Quindi
P(E1 ∩ . . . ∩ En ) = P(E1 ) . . . P(En ) =
2 n
3
.
Alternativamente avremmo potuto osservare che siamo in presenza di uno schema di Bernoulli
(Esempio 1.20), cioè di una sequenza di prove ripetute e indipendenti ciascuna delle quali
ha due possibili risultati: successo (corrispondente in questo caso all’evento ‘‘l’urna 1 viene
prescelta’’) con probabilità p (= 31 nel nostro caso) e insuccesso con probabilità 1−p. Abbiamo
visto nell’Esempio 1.20 che in questa situazione la probabilità che non si verifichi nessun
successo è appunto (1 − p)n . Il nostro calcolo non è altro che una ridimostrazione di questo
fatto.
b) La probabilità che una singola pallina non finisca né nell’urna 1 né nella 2 (ovvero che
finisca nell’urna 3) vale 13 . Siamo quindi nella situazione di uno schema successo-insuccesso
come lo abbiamo appena descritto con p = 23 . La probabilità richiesta è dunque ( 31 )n .
c) Consideriamo gli eventi
A1 = l’urna 1 è rimasta vuota
A2 = l’urna 2 è rimasta vuota
A3 = l’urna 3 è rimasta vuota .
L’evento di cui dobbiamo calcolare la probabilità è l’unione A1 ∪ A2 ∪ A3 e possiamo usare la
formula (1.9) sulla probabilità della unione di tre eventi non disgiunti: l’evento A1 ∩ A2 ∩ A3
ha chiaramente probabilità 0 (non è possibile che tutte e tre le urne restino vuote). Inoltre
abbiamo già calcolato le altre probabilità che figurano nella formula: gli eventi A1 , A2 , A3
hanno chiaramente la stessa probabilità, per motivi di simmetria, che vale ( 23 )n per il punto a);
così pure le probabilità delle intersezioni a due a due valgono ( 31 )n per il punto b). In conclusione
la probabilità richiesta vale
1 n
2 n
−3
.
3
3
3
• In questo esercizio ritroviamo alcune idee già viste:
a) l’uso di modelli standard (in questo caso lo schema successo-insuccesso, o di Bernoulli) a
cui ci si riconduce per sfruttare formule stabilite una volta per tutte;
b) il calcolo della probabilità di un evento ottenuta scrivendolo come riunione di altri, la cui
probabilità è facile da calcolare, per poi usare la formula della unione di eventi non disgiunti.
Osserviamo infine che in questa risoluzione non abbiamo precisato quale sia lo spazio di
probabilità. Abbiamo semplicemente supposto che ne esistesse uno contenente degli eventi
E1 , . . . , En , A1 , A2 , A3 aventi certe proprietà. In realtà sarebbe stato possibile costruire uno
spazio (, !, P) adatto, ma ciò avrebbe appesantito lo svolgimento senza renderlo né più chiaro
Esercizio 1.13
13
né più rigoroso. La costruzione completa dello spazio di probabilità verrà spesso sottintesa negli
altri esercizi.
1.13 a) Indichiamo con Ai l’evento ‘‘viene scelta l’urna i-esima’’ e con B l’evento ‘‘vengono
estratte due palline di colori diversi’’; poiché si tratta di estrazioni senza rimpiazzo la probabilità
di estrarre una pallina bianca e una rossa è data dalla distribuzione ipergeometrica. Poiché
nell’urna i-esima vi sono 4 palline R e i palline B, deve essere
i 4
8i
1 1
(1.1)
P(B |Ai ) = 4+i =
:= qi .
(4 + i)(3 + i)
2
Inoltre P(Ai ) =
1
10 ;
dunque, con la formula delle probabilità totali (1.12) e una calcolatrice,
P(B) =
10
X
i=1
10
P(B |Ai )P(Ai ) =
1 X
8i
= 0.506 .
10
(4 + i)(3 + i)
i=1
b) Possiamo applicare la formula di Bayes
P(Ai |B) =
qi
P(B |Ai ) P(Ai )
=
.
P(B)
10 P(B)
Determinare l’urna più probabile significa trovare il valore di i per cui qi è massima. Ciò si
può fare (oltre che con un calcolo numerico con un PC o una calcolatrice) studiando per quali
valori di i si ha qi+1
qi ≥ 1. Si trova
qi+1
(4 + i)(3 + i)
8(i + 1)
i 2 + 4i + 3
=
=
·
qi
(5 + i)(4 + i)
8i
i 2 + 5i
La disuguaglianza
x 2 + 4x + 3
>1
x 2 + 5x
è soddisfatta per 0 < x < 3; inoltre la frazione è = 1 per x = 3 ed è < 1 per x > 3. Dunque
i = 1, 2
i=3
i = 4, . . . , 10 .
qi+1 > qi
qi+1 = qi
qi+1 < qi
Il massimo di i → qi è quindi raggiunto per i = 3 e i = 4: e urne 3 e 4 sono le più probabili.
•
1
•
2
•
•
•
3
4
5
Figura 1.1 Andamento del valore di P(Ai |B) =
•
•
•
•
•
6
7
8
9
10
qi
10 P(B)
per i = 1, . . . , 10.
14
Parte 1: soluzioni
c) Basta ripetere gli argomenti dei punti precedenti, solo che ora P(Ai ) =
2
e P(A10 ) = 11
. Dunque
1
11
per i = 1, . . . , 9
9
P(B) =
2
1 X
qi +
q = 0.500 .
11
11 10
i=1
•
•
1
•
•
•
•
•
•
•
•
2
3
4
5
6
7
8
9
10
Figura 1.2 Andamento del valore di P(Ai |B) quando le urne sono 11.
Applicando ancora la formula di Bayes si trova
P(Ai |B) = P(B|Ai )
P(Ai )
·
P(B)
1
qi per i = 1, . . . , 9 (valore massimo raggiunto ancora per i = 3, 4),
Ora però P(Ai |B) = 11 P(B)
2
mentre P(A10 |B) = 11 P(B) q10 . Un confronto numerico mostra che ora il valore i = 10 è il
più probabile, poiché P(A3 |B) = P(A4 |B) = 0.103 mentre P(A10 |B) = 0.158.
• Gli aspetti importanti di questo esercizio sono l’uso della nozione di probabilità condizionale e della formula di Bayes.
1.14 Vari modi sono possibili (il secondo è in realtà il più semplice).
Primo modo: indichiamo con Ai , i = 1, . . . , k l’evento ‘‘nelle prime i assegnazioni non si
sono avuti conflitti’’. È chiaro che A1 ⊃ A2 ⊃ . . . ⊃ Ak ed inoltre la probabilità richiesta è
proprio P(Ack ). Calcoliamo P(Ai |Ai−1 ). Se l’evento Ai−1 è verificato ciò vuol dire che alle
prime i − 1 variabili sono state assegnate i − 1 celle di memoria diverse. Ne restano dunque
libere n − i + 1 e la probabilità di non avere conflitti alla i-esima assegnazione è
P(Ai |Ai−1 ) =
n−i+1
·
n
Quindi la probabilità che non vi siano conflitti è
P(Ak ) = P(Ak |Ak−1 )P(Ak−1 ) = P(Ak |Ak−1 )P(Ak−1 |Ak−2 )P(Ak−2 ) =
= ... =
= P(Ak |Ak−1 )P(Ak−1 |Ak−2 ) . . . P(A2 |A1 ) P(A1 ) =
| {z }
=1
n−1
n!
n−k+1 n−k+2
...
= k
=
n
n
n
n (n − k)!
Esercizio 1.15
15
n!
.
e quindi la probabilità che vi sia almeno un conflitto è 1 − P(Ak ) = 1 − nk (n−k)!
Secondo modo: Scegliere a caso un’assegnazione di variabili alle celle di memoria significa
scegliere a caso un’applicazione da {1, . . . , k} (l’insieme delle variabili) a valori in {1, . . . , n}
(l’insieme delle celle di memoria). Indichiamo con  l’insieme di queste applicazioni. Si può
vedere  come l’insieme delle k-uple (i1 , . . . , ik ) dove i1 , . . . , ik sono numeri interi compresi
da 1 a n (non necessariamente distinti); dunque # = nk .
L’insieme B delle assegnazioni che non danno luogo a conflitto non è altro che l’insieme delle
applicazioni iniettive da {1, . . . , k} in {1, . . . , n}, ovvero l’insieme delle k-uple (i1 , . . . , ik ) dove
numeri i1 , . . . , ik sono distinti. In altre parole B è l’insieme delle disposizioni di n elementi a k
n!
a k ed ha dunque cardinalità (n−k)!
(Proposizione 1.23). Inoltre, poiché si può supporre che tutte
le possibili assegnazioni siano equiprobabili, considereremo su  la distribuzione uniforme di
probabilità e dunque la probabilità che non vi siano conflitti è
P(B) =
#B
n!
= k
·
#
n (n − k)!
Per n = 1000, k = 25, facendo attenzione a semplificare al massimo numeratore e denominatore
per evitare errori di arrotondamento, la probabilità di avere almeno un conflitto è
1−
999 998
976
...
= 0.261 = 26.1%
1000 1000
1000
che è una probabilità inaspettatamente elevata per così tante celle di memoria rispetto alle
variabili.
• Un esempio classico quando si parla di calcolo combinatorio è quello dei compleanni
dell’Esempio 1.26: qual è la probabilità che in un gruppo di k persone ve ne siano almeno due
che sono nate nello stesso giorno dell’anno? È abbastanza utile rendersi conto che l’esempio dei
compleanni ‘‘è lo stesso’’ di questo appena svolto, nel senso che entrambi si riconducono allo
stesso modello. In entrambi, infatti, si considera come spazio di probabilità lo stesso insieme
 delle k-uple di numeri {i1 , . . . , ik } scelti in {1, . . . , n} (n = 365 nel caso dei compleanni)
e si deve poi calcolare la cardinalità dello stesso insieme A delle k-uple formate da numeri
diversi tra loro. La morale è che problemi che nascono in situazioni applicative diverse possono
ricondursi allo stesso modello (e quindi risolversi con gli stessi calcoli).
1.15 a) A vince se l’ultima pallina rimasta nell’urna è rossa, ovvero se tra le prime 5 palline estratte ve ne sono una rossa e quattro nere. Usando la distribuzione ipergeometrica la probabilità
che ciò accada è
2 4
1
2 · 5!
1 4
= ·
=
6
6!
3
5
Più semplicemente si sarebbe anche potuto osservare che in uno schema di estrazioni senza
rimpiazzo la probabilità di avere un determinato risultato alla prima, alla seconda, . . . , alla
k-esima estrazione è sempre la stessa (vedi l’Esempio 1.30). La probabilità di avere una pallina
rossa alla sesta (e ultima) estrazione è dunque la stessa che alla prima e cioè 31 .
16
Parte 1: soluzioni
b) Se la prima estrazione dà una pallina rossa, nell’urna ne rimangono 4 nere e 1 rossa. A
dunque vince se dalle successive 4 estrazioni risultano tutte palline nere. Ancora la distribuzione
ipergeometrica dà come probabilità
1 4 4!
1
1 4
=
= ·
5
5!
5
4
c) Se indichiamo con D l’evento ‘‘il giocatore A vince’’ e con E l’evento ‘‘la prima pallina
estratta è rossa’’, allora dobbiamo calcolare P(D ∩ E). Ora P(D ∩ E) = P(D|E)P(E).
Ma P(E) = 26 = 31 mentre abbiamo calcolato nel punto b) che P(D|E) = 15 . Dunque
1
P(D ∩ E) = 15
.
1.16 Il risultato dell’esperimento casuale è una 5-upla {k1 , . . . , k5 } di numeri compresi tra
1 e 100. Poiché le palline sono estratte a caso e con rimpiazzo possiamo considerare tutte le
5-uple equiprobabili. Uno spazio di probabilità ragionevole per descrivere questo problema
è dunque lo spazio  formato da queste 5-uple (ovvero il prodotto cartesiano di {1, . . . , 100}
moltiplicato per se stesso 5 volte) e munito della distribuzione uniforme di probabilità. La
cardinalità di  è naturalmente 1005 ; l’evento di cui vogliamo calcolare la probabilità è invece
rappresentato dall’insieme A ⊂  delle 5-uple (k1 , . . . , k5 ) tali che tra i numeri k1 , . . . , k5 ve
ne siano almeno due uguali. Il problema è quindi ridotto al calcolo della cardinalità di A. Il
calcolo diretto non è semplice; ma un attimo di riflessione mostra che il suo complementare
Ac non è altro che l’insieme delle 5-uple (k1 , . . . , k5 ) tali che i numeri k1 , . . . , k5 siano tutti
diversi tra loro, ovvero l’insieme delle disposizioni di 100 elementi a 5 a 5; dunque #Ac = 100!
95! .
Quindi
#Ac
=
#
99 98 97 96
100!
=1−
=1−
= 0.096 = 9.6% .
100 100 100 100
1005 95!
P(A) = 1 − P(Ac ) = 1 −
• Qui vale la stessa osservazione che abbiamo fatto alla fine dell’Esercizio 1.14: il problema
dei compleanni, quello dell’assegnazione delle variabili e questo sono ‘‘lo stesso’’ problema,
nel senso che si riconducono al calcolo della probabilità dello stesso evento nello stesso modello.
1.17 a) Indichiamo con FA l’evento ‘‘il primo genitore fornisce un allele di tipo A’’ e con
A1 , A2 , A3 rispettivamente gli eventi ‘‘il primo genitore è di tipo AA, Aa, aa rispettivamente’’.
Per come il problema è stato posto sarà
P(FA |A1 ) = 1,
P(FA |A2 ) =
1
,
2
P(FA |A3 ) = 0
e dunque
P(FA ) = P(FA |A1 )P(A1 ) + P(FA |A2 )P(A2 ) + P(FA |A3 )P(A3 ) = p +
1
q.
2
Esercizio 1.18
17
La probabilità che anche il secondo genitore trasmetta un allele di tipo A sarà la stessa e, supponendo che i geni trasmessi dai due genitori siano indipendenti, otteniamo che un discendente
sarà di tipo AA con probabilità p1 = (p + 21 q)2 . Analogamente esso sarà di tipo aa con
probabilità r1 = (r + 21 q)2 e di tipo Aa con probabilità
q 1 = 1 − p 1 − r1 = 1 − p +
1
2
q
2
− r+
1
2
q
2
=2 p+
1
2
q r+
1
2
q .
b) Alla generazione successiva, la probabilità di osservare dei discendenti di dato tipo genetico
si otterrà dalle formule precedenti, sostituendo a p, q, r i valori p1 , q1 , r1 appena calcolati.
Otteniamo
2
p2 = (p1 + 21 q1 )2 = (p + 21 q)2 + (p + 21 q)(r + 21 q) =
2
= (p + 21 q)2 = p1 .
= (p + 21 q) p + 21 q + r + 21 q
{z
}
|
=1
Con calcoli simili si vede che anche q2 = q1 , r2 = r1 . Quindi le proporzioni dei tre genotipi
restano costanti in tutte le generazioni successive. In altre parole, nel modello di HardyWeinberg la popolazione raggiunge l’equilibrio genetico dopo la prima generazione.
1.18
Tra Est e Ovest vanno ripartite 26 carte di cui 5 atout. Se indichiamo con Ai , i =
0, . . . , 5 l’evento ‘‘Ovest ha i atout’’, allora usando la distribuzione ipergeometrica
P(Ai ) =
e per i = 2
P(A2 ) =
5 21
2 11
26
13
5 21 i 13−i
26
13
=
13 · 3
= 0.339
23 · 5
che è la probabilità richiesta.
b) Se in Ovest vi sono 2 atout, allora la Q cadrà con due giri di atout solo se in Ovest si trova
anche la Q (altrimenti essa sarebbe terza in Est). Dunque se indichiamo con C l’evento ‘‘la Q
cade con due giri di atout’’, la quantità P(C |A2 ) non è altro che la probabilità che la Q si trovi
in Ovest sapendo che Ovest ha due carte di atout. Quindi P(C |A2 ) = 25 .
c) Usando il metodo della partizione dell’evento certo:
P(C) =
5
X
i=0
P(C ∩ Ai ) =
5
X
i=0
P(C |Ai )P(Ai )
(dove gli eventi Ai sono quelli definiti in a)). In quest’ultima somma vi sono molti termini di
cui già conosciamo il valore: sono note infatti le probabilità P(Ai ), le probabilità condizionali
P(C |Ai ) per i = 2 (calcolata in b)) e per i = 0, 5 (uguali a 0 perché se Ovest possiede 5 atout
oppure nessuno, la Q è quinta e non può cadere con solo due giri). Inoltre per i = 1, ripetendo
Paolo Baldi
Calcolo delle Probabilità
McGraw-Hill 2011
18
Parte 1: soluzioni
il ragionamento del punto b), P(C |A1 ) = 15 , poiché, se in O vi è un solo atout, la Q cadrà solo
se questo è proprio la Q e ciò si verifica appunto con probabilità 15 . In modo simile si possono
calcolare le probabilità condizionali per i = 3, 4, ma è più semplice osservare che
P(C ∩ A2 ) = P(C ∩ A3 ),
P(C ∩ A1 ) = P(C ∩ A4 )
per motivi di simmetria: se Ovest ha 2 atout allora Est ne ha 3 e viceversa e la situazione tra
Est e Ovest è chiaramente simmetrica. Lo stesso vale per i = 1, 4. Basta ora sostituire i valori
numerici:
P(A2 ) = P(A3 ) =
13 · 3
= 0.339
23 · 5
13
= 0.141
4 · 23
P(C) = 2 (0.2 · 0.141 + 0.4 · 0.339) = 0.328 .
P(A1 ) =
d) Si tratta di ripetere gli stessi ragionamenti dei punti precedenti, solo che ora Est e Ovest
hanno insieme 3 atout. Se indichiamo ancora con Ai , i = 0, 1, 2, 3 gli eventi ‘‘Ovest ha i
atout’’, allora P(C ∩ A0 ) = 0 perché se Ovest ha 0 atout, ciò vuole dire che la Q si trova in
Est insieme ad altri due atout e non cadrà al giro successivo. Per lo stesso motivo, scambiando
i ruoli di Est e Ovest, P(C ∩ A3 ) = 0. Dunque
P(C) = P(C ∩ A1 ) + P(C ∩ A2 ) = 2P(C ∩ A1 ) = 2P(C |A1 )P(A1 ) .
Ora P(C |A1 ) =
1
3
perché se Ovest ha un atout la Q cadrà solo se essa è uno di questi. Inoltre
P(A1 ) =
Quindi P(C) =
6
23
3 21
1 11
24
12
=
9
= 0.391 .
23
= 0.260. La probabilità è un po’ diminuita.
2.1
Supponiamo che il comportamento di ogni singolo passeggero sia indipendente da
quello degli altri e poniamo Zi = 1 se lo i-esimo passeggero si presenta alla partenza e Zi = 0
altrimenti. Il numero di passeggeri che si presenta alla partenza è dunque lo stesso che il numero
di successi in uno schema di Bernoulli e dunque (Esempio 2.4) segue una legge binomiale.
Il numero di passeggeri che si presenta su un volo in cui si è accettato il massimo di prenotazioni
è quindi una v.a. X1 di legge B(22, 0.9) per il primo tipo di aereo ed una v.a. X2 di legge
B(11, 0.9) per il secondo. La probabilità di lasciare a terra almeno un passeggero nel volo da
20 posti vale
22
22
0.922 = 0.339
0.921 · 0.1 +
P(X1 ≥ 21) =
22
21
mentre vale
11
0.911 = 0.314
P(X2 = 11) =
11
Esercizio 2.4
19
per l’altro tipo di aereo. Il rischio è maggiore per il volo da 20 passeggeri.
• Il punto chiave della soluzione di questo esercizio consiste nel riconoscere che il problema
si può ricondurre a un modello generale. In questo caso lo schema di Bernoulli.
2.2
Se X indica il numero di volte in cui si ottiene il 6 in n lanci, allora X ∼ B(n, 61 ).
Dunque
5
a) la probabilità che in tre lanci il 6 sia uscito due volte è 23 612 56 = 72
= 0.07.
b) La probabilità che in n lanci il 6 sia uscito 2 volte è
n(n − 1) 5 n−2
n 1 5 n−2
=
.
pn =
2
72
6
2 6 6
Calcolando numericamente si vede che il massimo è raggiunto per n = 11 e n = 12. Più
rigorosamente si sarebbe potuto fare uno studio della funzione t → t (t − 1)( 56 )t−2 , che è
crescente fino a t = 11.49 e poi decrescente; ciò implica che il massimo di pn può essere
raggiunto o per n = 11 o per n = 12 e un controllo diretto mostra che entrambi questi valori
realizzano il massimo. Per questi due valori la probabilità vale 0.296.
2.3 Supponiamo che i 24 operatori siano indipendenti. Ognuno di essi ad un dato istante
si troverà in uno stato di collegamento (che indicheremo convenzionalmente con 1) oppure no
(0). Quindi se Xi indica lo stato dello i-esimo operatore, si modellizza il problema con delle
v.a. X1 , . . . , X24 indipendenti e di Bernoulli B(1, p) con p = 0.6. Sappiamo che la somma di
n v.a. di Bernoulli indipendenti B(1, p) segue una legge binomiale B(n, p). Quindi il numero
totale di utenti collegati X = X1 + . . . + X24 ha legge B(24, 0.6) ed il problema proposto non
è altro che il calcolo della probabilità
P(X ≥ 20) =
24 X
24
0.6k 0.424−k = 0.0135 = 1.35% .
k
k=20
2.4 a) Il calcolo di p si riconduce alla distribuzione ipergeometrica: probabilità di estrarre
1 pallina dal gruppo formato dal solo elemento 67 e 4 dal gruppo degli altri 89 numeri in 5
estrazioni senza rimpiazzo:
1 89
5
1
p = 1 904 =
=
= 0.0556 = 5.56 .%
90
18
5
Poiché è ragionevole supporre che le estrazioni di settimane diverse siano indipendenti tra loro,
sappiamo che il numero T di settimane che trascorrono fino alla prima estrazione del 67 segue
1
. Dunque, ricordando il valore
una distribuzione geometrica modificata di parametro p = 18
della speranza matematica di una v.a. geometrica modificata (Esempi 2.38 e)), il numero medio
di settimane prima della prima estrazione è
E(T ) =
1
= 18 .
p
20
Parte 1: soluzioni
b) In due modi: poiché le estrazioni di settimane diverse sono indipendenti, il numero di volte
in cui il 67 viene estratto in 30 settimane si modellizza come il numero di successi in 30 prove
1
di successo in ogni singola prova. Il numero di estrazioni
indipendenti con probabilità p = 18
che contengono il 67 tra i numeri estratti è dunque una v.a. di legge binomiale B(30, p). La
probabilità di avere 0 successi è dunque
30
(1 − p)30 = 0.18 = 18% .
0
Alternativamente si può osservare che, poiché il primo istante T di successo in uno schema
successo-insuccesso ha una distribuzione geometrica modificata, ricordando le regole di somma
delle serie geometriche (vedi il riquadro pag. 39),
P(T > 30) =
∞
X
k=31
p(1 − p)k−1 =
p(1 − p)30
= (1 − p)30 .
1 − (1 − p)
c) Ancora in due modi: indichiamo con A l’evento ‘‘il 67 non è uscito nelle prime 100
estrazioni’’ e con B e C rispettivamente gli eventi ‘‘il 67 esce entro la 101-esima estrazione’’
e ‘‘il 67 esce solo dopo la 130-esima estrazione’’. Per ottenere P(B |A) calcoleremo prima
P(B c |A) (qualche volta è più facile calcolare la probabilità del complementare di un evento. . . ).
In effetti
P(B c ∩ A)
P(B |A) = 1 − P(B c |A) = 1 −
·
P(A)
L’evento B c ∩ A è l’evento ‘‘il 67 non esce nelle prime 101 estrazioni’’ ed ha probabilità
(1 − p)101 (probabilità di ottenere 0 successi in 101 prove), mentre, per lo stesso motivo
P(A) = (1 − p)100 . Quindi
P(B |A) = 1 − P(B c |A) = 1 −
(1 − p)101
= 1 − (1 − p) = p
(1 − p)100
cioè la probabilità è la stessa che se le prime 100 estrazioni non avessero avuto luogo, un
fatto abbastanza intuitivo dato che le estrazioni sono indipendenti. Allo stesso modo si risolve
l’ultima parte del punto c):
P(C |A) =
P(C ∩ A)
(1 − p)130
=
= (1 − p)30 .
P(A)
(1 − p)100
Alternativamente se T , come prima, indica il numero di settimane fino alla prima estrazione del
67, allora gli eventi A, B, C appena definiti si possono scrivere
A = {T > 100},
B = {T ≤ 10},
C = {T > 130} .
Per la proprietà di mancanza di memoria della legge geometrica
P(B c |A) = P(T > 101|T > 100) = P(T > 1) = 1 − p
P(C |A) = P(T > 130|T > 100) = P(T > 30) = (1 − p)30 .
Esercizio 2.5
21
d) Il numero di volte in cui il 67 viene estratto in 50 settimane segue una legge binomiale
1
B(50, p) con p = 18
. Dunque la probabilità che il 67 sia presente almeno 6 volte in 50
settimane vale
50 X
50 k
p (1 − p)50−k .
k
k=6
Si tratta di una somma di 45 termini che occorre calcolare numericamente. È utile osservare
che la relazione
50 5 X
X
50 k
50 k
50−k
p (1 − p)
=1−
p (1 − p)50−k = 1 − 0.94 = 0.06
k
k
k=6
k=0
permette di ricondurre il calcolo alla somma di 6 termini solamente.
2.5 Indichiamo con A l’evento ‘‘viene scelto uno dei dadi truccati’’ e con B ‘‘viene scelto
uno dei dadi che non sono truccati’’. Naturalmente P(A) = P(B) = 21 .
a) Con la formula delle probabilità totali (1.12) (A e B formano una partizione dell’evento
certo)
P(X = 3) = P(X = 3|A)P(A) + P(X = 3|B)P(B) =
1 1 1 1
2
+
=
·
10 2 6 2
15
La speranza matematica di X è data da
E(X) =
6
X
k=1
kP(X = k) .
Conosciamo già la probabilità di avere 3, ed anche quella di ottenere ognuno dei risultati
2, 4, 5, 6, che sarà uguale a quella di avere 3. D’altra parte la probabilità di avere 1 sarà
P(X = 1) = 1 − P(X = 2) − P(X = 3) − . . . − P(X = 6) = 1 − 5 ·
2
1
= ·
15
3
Dunque
2
1
+ (2 + . . . + 6) = 3 .
3 15
b) Se X e Y indicano i risultati del primo e del secondo lancio rispettivamente allora
E(X) =
P(X = 2, Y = 3) = P(X = 2, Y = 3|A)P(A) + P(X = 2, Y = 3|B)P(B) =
1 1
1
17
=
+
·
=
2 100 36
900
Viceversa se poniamo C = {X = 2, Y = 3}, la probabilità che si tratti di uno dei dadi truccati
sapendo che i due lanci hanno dato 2 e 3 non è altro che P(A|C). Per la formula di Bayes
P(A|C) =
P(C |A)P(A)
·
P(C)
22
Parte 1: soluzioni
1
17
e sappiamo che P(A) = 21 . Inoltre P(C |A) = 100
,
Abbiamo appena calcolato P(C) = 900
1
perché ognuno dei due risultati 2 e 3 ha probabilità 10 di essere ottenuto da un dado truccato.
In conclusione
9
900 1
=
= 0.26 .
P(A|C) =
17 200
34
c) No. Per mostrarlo basta trovare dei valori i, j tali che P(X = i, Y = j ) 6= P(X = i)P(Y =
j ). Ad esempio
2 2
4
16
P(X = 2)P(Y = 3) =
=
=
15 15
225
900
che è diverso dal valore di P(X = 2, Y = 3) calcolato in b).
• L’intuizione potrebbe spingere a rispondere immediatamente alla domanda c) che le variabili sono indipendenti. Ma abbiamo già visto (vedi il riquadro pag. 13) che in probabilità
l’intuizione, se non adeguatamente addestrata, può portare a conclusioni errate. In questo caso
l’errore consiste nell’aver trascurato il fatto che il risultato del primo lancio dà informazioni su
quale delle due urne sia stata scelta.
2.6 Primo modo: consideriamo la v.a. T =‘‘numero di tentativi necessari’’. La domanda
posta in questo esercizio non è altro che il calcolo della legge di T . Per determinarla conviene
prima calcolare la quantità P(T > k) = 1 − FT (k), dove FT è la f.r. di T , per poi ricavare la
densità di T con la formula
P(T = k) = P(T > k − 1) − P(T > k) .
(1.2)
Ora la probabilità che la chiave giusta non si trovi tra le prime k è la stessa che la probabilità di
ottenere 0 successi in k estrazioni (senza rimpiazzo) su n oggetti, dei quali uno solo corrisponde
a ‘‘successo’’. Possiamo applicare la distribuzione ipergeometrica e si ha
P(T > k) =
e usando la (1.2)
1 n−1
0 k
n
k
=
P(T = k) =
(n − 1)!
k!(n − k)!
n−k
=
k!(n − k − 1)!
n!
n
n−k+1 n−k
1
−
=
n
n
n
ovvero la probabilità di trovare la chiave giusta al k-esimo tentativo è la stessa per ogni k e vale
1
n.
Secondo modo: consideriamo un’urna contenente n − 1 palline bianche e una rossa e di
effettuare delle estrazioni senza rimpiazzo. La probabilità richiesta è chiaramente la stessa che
quella di estrarre la pallina rossa al k-esimo tentativo. Abbiamo già visto (Esempio 1.30) che
questa probabilità non dipende da k e che vale n1 .
• I due modi in cui abbiamo risolto questo esercizio sono abbastanza diversi. Mentre il
secondo usa una tecnica tipica del calcolo combinatorio, il primo fa ricorso alla nozione di
funzione di ripartizione di una v.a. con un metodo di calcolo che useremo spesso nel seguito
(per calcolare la legge di una v.a. si determina prima la f.r., per poi usare la (1.2) o formule
Esercizio 2.7
23
simili). Il primo metodo è certo più semplice ed è tipico soprattutto (ma non solo) per v.a. che,
come in questo caso, rappresentano tempi d’attesa.
2.7 a) Indichiamo con A, B e C rispettivamente gli eventi ‘‘il pezzo proviene dalla linea
A’’, ‘‘proviene dalla linea B’’ e ‘‘il pezzo è difettoso’’. I dati del problema ci permettono di
affermare che
P(A) = 0.3,
P(B) = 0.7,
P(C |A) = 0.1,
P(C |B) = 0.17 .
Inoltre gli eventi A e B costituiscono una partizione dell’evento certo (sono disgiunti e la somma
delle loro probabilità vale 1). Dunque per la formula delle probabilità totali (1.12),
P(C) = P(C |A)P(A) + P(C |B)P(B) = 0.1 · 0.3 + 0.17 · 0.7 = 0.15 .
b) Se consideriamo una scatola contenente 10 pezzi provenienti dalla linea A, allora ciascuno
di essi può essere difettoso con probabilità 0.1. Possiamo inoltre supporre che ogni pezzo sia
difettoso oppure no indipendentemente dagli altri. Dunque il numero di pezzi difettosi in una
scatola di 10 proveniente dalla linea A si modellizza con una v.a. di legge binomiale B(10, 0.1).
Analogamente se la scatola proviene dalla linea B il numero di pezzi difettosi seguirà una legge
B(10, 0.17). Se ora indichiamo con C1 l’evento ‘‘nella scatola vi è (esattamente) un pezzo
difettoso’’, allora avremo
10
0.1 · 0.99 = 10 · 0.1 · 0.99 = 0.39
P(C1 |A) =
1
10
0.17 · 0.839 = 10 · 0.17 · 0.839 = 0.32 .
P(C1 |B) =
1
La probabilità che un pezzo difettoso provenga dalla linea A non è altro che la probabilità
condizionale P(A|C1 ). Per calcolarla si usa la formula di Bayes:
P(A|C1 ) =
P(C1 |A)P(A)
·
P(C1 )
Nella frazione a destra nella formula precedente conosciamo tutte le quantità che intervengono
tranne P(C1 ). Il calcolo di questa probabilità è però facile, sempre usando la formula delle
probabilità totali (1.12):
P(C1 ) = P(C1 |A)P(A) + P(C1 |B)P(B) = 0.39 · 0.3 + 0.32 · 0.7 = 0.341 .
Dunque
P(A|C1 ) =
0.39 · 0.3
= 0.343 .
0.34
Allo stesso modo
P(B |C1 ) =
P(C1 |B)P(B)
0.32 · 0.7
=
= 0.657 .
P(C1 )
0.34
24
Parte 1: soluzioni
È quindi più probabile che la scatola provenga dalla linea B.
4
2.8 a) La probabilità vale 52
(è un caso particolare dell’Esempio 1.30: è come se facessimo
delle estrazioni senza rimpiazzo da un’urna con 4 palline rosse e 48 nere, la probabilità di
estrarre una pallina rossa alla k-esima estrazione è la stessa che alla prima estrazione).
b) Indichiamo con T il numero di carte necessario per ottenere il primo asso: dobbiamo
calcolare la legge di T . Come abbiamo visto uno dei metodi possibili consiste nel calcolo
preliminare della f.r. oppure della ‘‘funzione di sopravvivenza’’ k → P(T > k). È questo
spesso il caso quando, come ora, si ha a che fare con v.a. che rappresentano tempi di attesa. Ora
l’evento {T > k} corrisponde al fatto che siano state girate k carte ottenendone 0 dal gruppo dei
4 assi e k dal gruppo delle altre 48. Possiamo quindi applicare la distribuzione ipergeometrica
che dà
4 48
P(T > k) =
0
e sviluppando i coefficienti binomiali
k
52
k
pk = P(T = k) = P(T > k − 1) − P(T > k) =
48! (52 − k + 1)! (52 − k)! 48! (52 − k + 1)! − (52 − k)!(48 − k + 1) −
=
=
=
52! (48 − k + 1)! (48 − k)!
52!
(48 − k + 1)!
48! (52 − k)![(52 − k + 1) − (48 − k + 1)] 48! (52 − k)!
=
·
=4·
52!
(48 − k + 1)!
52! (48 − k + 1)!
Per vedere per quali valori di k pk è massima basta osservare che per ogni valore di k si ha
52 − k
pk
=
≥1
pk+1
49 − k
e dunque la probabilità è massima per k = 1.
2.9 Un attimo di riflessione mostra che la probabilità che tra le 24 figurine acquistate ve ne
siano esattamente k di quelle già possedute è la stessa che la probabilità che in un’estrazione
senza rimpiazzo da un’urna contenente 60 palline di un tipo (corrispondenti alle figurine già
possedute) e 40 di un altro, su 24 palline estratte ve ne siano k del primo tipo. La probabilità di
questo evento è data dalla distribuzione ipergeometrica e vale
Dunque la probabilità richiesta è
60 40 k 24−k
100
24
·
60 40 k 24−k
100
24
k=20
24
X
Esercizio 2.10
25
e con un calcolo numerico si ottiene il valore 0.00594 = 0.594%. Il numero medio di nuove
figurine non è altro che la speranza matematica E(X) della v.a. X =‘‘numero di nuove figurine’’.
La speranza matematica di una v.a. di legge ipergeometrica è calcolata nell’Esempio 2.39 ed
è uguale al numero di ‘‘tentativi’’ (qui sono 24) per la probabilità di successo in un singolo
40
tentativo (= 100
= 25 ) ovvero
48
E(X) =
= 9.6 .
5
2.10 a) Supponiamo per semplicità i = 1 (per valori di i diversi da 1 procedimento e risultato
sono identici). Si tratta di calcolare
P(X1 = 1|Sn = r) =
P(X1 = 1, Sn = r)
·
P(Sn = r)
Se r = 0 si vede subito che la probabilità condizionale vale 0, perché Sn ≥ X1 e quindi gli eventi
{X1 = 1} e {Sn = 0} hanno intersezione vuota. Altrimenti sappiamo già che il denominatore
vale nr pr (1 − p)n−r , poiché Sn è binomiale B(n, p). Per il numeratore invece
P(X1 = 1, Sn = r) = P(X1 = 1, X1 + . . . + Xn = r) =
= P(X1 = 1, X2 + . . . + Xn = r − 1) = P(X1 = 1)P(X2 + . . . + Xn = r − 1) =
n−1 r
n − 1 r−1
p (1 − p)n−r
p (1 − p)n−r =
=p·
r −1
r −1
e dunque
P(X1 = 1|Sn = r) =
n−1
r−1
n
r
=
r
·
n
La legge condizionale di X1 dato Sn = r è di Bernoulli B(1, nr ) (e non dipende da p!).
b) Sfruttiamo la stessa idea del punto a). Se r ≥ k abbiamo
P(Sm = k, Sn = r) = P(Sm = k, Sm + Xm+1 + . . . + Xn = r) =
= P(Sm = k, Xm+1 + . . . + Xn = r − k) = P(Sm = k)P(Xm+1 + . . . + Xn = r − k) =
m k
m n−m r
n − m r−k
p (1 − p)m−k
=
p (1 − p)n−r .
p (1 − p)n−m−r+k =
k
r −k
k
r −k
Quindi P(Sm = k |Sn = r) = 0 se k > r mentre se k ≤ r
P(Sm = k, Sn = r)
P(Sm = k |Sn = r) =
=
P(Sn = r)
m n−m
k r−k
n
r
·
Riconosciamo una distribuzione ipergeometrica: P(Sm = k |Sn = r) è uguale alla probabilità
di estrarre k palline di tipo 1 da un’urna contenente m palline di tipo 1 e n − m di tipo 2 in r
estrazioni senza rimpiazzo. Osserviamo ancora che la legge condizionale ottenuta non dipende
26
Parte 1: soluzioni
da p. Ricordando il valore della media delle v.a. ipergeometriche si ha immediatamente che la
media della legge condizionale di Sm sapendo che Sn = r vale rm
n .
2.11
a) Il numero totale di telefonate ricevute dai due centralini è X + Y ed ha legge di
Poisson di parametro λ + µ = 6, per la regola della somma di v.a. indipendenti di Poisson
(Esempio 2.28). Dunque la probabilità richiesta è
62
63 P(X + Y ≤ 3) = e−6 1 + 6 +
+
= 0.15 .
2
6
b) Se indichiamo con p̄X|X+Y (·|n) la probabilità condizionale di X dato X + Y = n, allora,
se 0 ≤ k ≤ n,
P(X = k, Y = n − k)
P(X = k, X + Y = n)
=
=
P(X + Y = n)
P(X + Y = n)
k
µn−k
e−λ λk! e−µ (n−k)!
P(X = k)P(Y = n − k)
λ k µ n−k
n
=
.
=
=
n
P(X + Y = n)
λ+µ
k λ+µ
e−(λ+µ) (λ+µ)
n!
p̄X|X+Y (k |n) =
λ
). La sua media è uguale a
La legge condizionale è dunque binomiale B(n, λ+µ
c) Per il punto precedente la probabilità richiesta vale
8 1 k 2 8−k
pk :=
.
k 3
3
nλ
λ+µ .
Per determinare il valore di k per cui questa quantità è massima studiamo per quali valori di k
si ha
pk+1
≥1.
pk
Poiché
pk+1
18−k
=
≥1
pk
2k+1
dallo studio della disuguaglianza si ha che
( > 1 per k = 0, 1
pk+1
= 1 per k = 2
è
pk
< 1 per k = 3, 4, . . .
Se ne deduce che il massimo valore di pk si raggiunge per k = 2 oppure k = 3.
d) La retta di regressione di X rispetto a X + Y è x = az + b dove
a=
Cov(X, X + Y )
,
Var(X + Y )
b = E(X) − aE(Y ) .
Ora
Cov(X, X + Y ) = Cov(X, X) + Cov(X, Y ) = Cov(X, X) = Var(X) = λ
| {z }
=0
Esercizio 2.12
27
mentre Var(X + Y ) = λ + µ. Dunque
a=
λ
λ+µ
b =λ−
λ
(λ + µ) = 0
λ+µ
λ
z.
La retta dunque è x = λ+µ
• Se X e Y sono v.a. indipendenti e a valori discreti, la legge congiunta di X e X + Y si
calcola sempre con facilità, come in questo esercizio, usando la relazione
P(X = k, X + Y = n) = P(X = k, Y = n − k) = P(X = k)P(Y = n − k) .
2.12
a) Se indichiamo con X il numero di palline rosse estratte dalla prima urna, allora
naturalmente X ∼ B(n, p). D’altra parte, se indichiamo con A l’evento ‘‘la pallina estratta
(dalla seconda urna) è rossa’’ allora naturalmente
P(A|X = k) =
k
n
perché se X = k, ciò vuol dire che nella seconda urna vi sono k palline rosse su un totale di n.
Possiamo ora usare la formula delle probabilità totali:
n
X
k n k
P(A|X = k)P(X = k) =
P(A) =
p (1 − p)n−k =
n k
k=0
k=0
n
X
1
n k
=
p (1 − p)n−k = p ,
k
k
n
n
X
k=0
dove abbiamo riconosciuto nella somma la speranza matematica di una v.a. B(n, p).
b) Si tratta di calcolare
P(X = k |A) =
P(A|X = k)P(X = k)
·
P(A)
Vediamo subito che la probabilità condizionale vale 0 per k = 0 mentre se k = 1, . . . , n
1 k n k
n − 1 k−1
n−k
P(X = k |A) =
p (1 − p)n−k .
p (1 − p)
=
k−1
p n k
La media della legge condizionale di X sapendo che A si è verificato è
n
X
n − 1 k−1
p (1 − p)n−k .
k
E(X|A) =
k−1
k=1
28
Parte 1: soluzioni
Per calcolare questa somma conviene cercare di ricondursi alla somma che dà la speranza
matematica delle leggi binomiali; sostituendo i = k − 1 si ha
n−1
X
n−1 i
p (1 − p)n−1−i =
(i + 1)
E(X|A) =
i
i=0
n−1
X
n−1 X
n−1 i
n−1 i
n−1−i
p (1 − p)
i
=
+
p (1 − p)n−1−i = (n − 1)p + 1 .
i
i
i=0
i=0
|
{z
} |
{z
}
=1
=media di una B(n−1,p)=(n−1)p
2.13
a) X non è altro che l’istante di primo successo in uno schema di prove ripetute
indipendenti, nelle quali ad ogni prova si ha successo con probabilità 61 . Sappiamo quindi che
X è una v.a. geometrica modificata di parametro p = 61 , ovvero
1 5 k−1
k = 1, 2, . . .
P(X = k) =
6 6
Per lo stesso motivo Y è una v.a. geometrica modificata di parametro 26 = 31 . Sappiamo che una
v.a. geometrica modificata di parametro p ha speranza matematica p1 (Esempi 2.38); dunque
E(X) = 6,
E(Y ) = 3 .
b) Per calcolare la densità discreta di Z conviene calcolarne prima la f.r. Poniamo per semplicità p = 16 e q = 31 . Allora, poiché X e Y sono indipendenti,
P(Z ≤ k) = P(max(X, Y ) ≤ k) = P(X ≤ k, Y ≤ k) =
= P(X ≤ k)P(Y ≤ k) =
k
X
i=1
p(1 − p)i−1
k
X
i=1
q(1 − q)i−1 =
1 − (1 − p)k 1 − (1 − q)k
q
= (1 − (1 − p)k )(1 − (1 − q)k ) .
=p
1 − (1 − p)
1 − (1 − q)
per k = 1, 2, . . . Dunque la densità di Z, sempre per k = 1, 2, . . . , è data da
P(Z = k) = P(Z ≤ k) − P(Z ≤ k − 1) =
= (1 − (1 − p)k )(1 − (1 − q)k ) − (1 − (1 − p)k−1 )(1 − (1 − q)k−1 ) =
= 1 − (1 − p)k − (1 − q)k + [(1 − p)(1 − q)]k +
−1 + (1 − p)k−1 + (1 − q)k−1 − [(1 − p)(1 − q)]k−1 =
= p(1 − p)k−1 + q(1 − q)k−1 − (p + q − pq)[(1 − p)(1 − q)]k−1 .
|
{z
}
=1−p−q+pq
Infine
E(Z) =
=
∞
X
k=1
kp(1 − p)k−1 +
∞
X
k=1
∞
X
k=1
kP(Z = k) =
kq(1 − q)k−1 −
∞
X
k=1
k(p + q − pq)(1 − p − q + pq)k−1 .
Esercizio 2.14
29
1
p = 6. Per lo stesso
1
9
p+q−pq = 4 . Dunque
Riconosciamo però nella prima serie la speranza matematica di X, cioè
motivo la somma della seconda serie vale
1
q
= 3 e quella della terza
E(Z) = 6 + 3 −
27
9
=
·
4
4
c) Usiamo il metodo della partizione dell’evento certo: gli eventi {Y = i}, al variare di
i = 1, 2, . . . , sono disgiunti e la loro unione ha probabilità 1, dunque
P(X ≥ Y ) =
∞
X
i=1
P(X ≥ Y, Y = i) =
∞
X
i=1
P(X ≥ i, Y = i) =
∞
X
i=1
P(X ≥ i)P(Y = i) .
D’altra parte
P(X ≥ i) =
e quindi
P(X ≥ Y ) =
∞
X
i=1
∞
X
k=i
p(1 − p)k−1 = (1 − p)i−1
(1 − p)i−1 q(1 − q)i−1 = q
∞
X
i=1
[(1 − p)(1 − q)]i−1 =
q
q
=
=
1 − (1 − p)(1 − q)
p + q − pq
e sostituendo i valori p = 16 , q =
1
3
si ottiene P(X ≥ Y ) = 43 .
2.14 a) Fissiamo una lettera i e consideriamo l’evento Ai =‘‘la lettera i viene usata’’. La
1
probabilità che la lettera i non venga usata come prima lettera della parola è n−1
n = 1 − n.
Poiché le apparizioni di una lettera nelle posizioni successive della parola sono indipendenti, la
probabilità che la lettera non venga mai usata sarà (1 − n1 )k . Dunque
P(Ai ) = 1 − (1 − n1 )k .
Se k = n allora
P(Ai ) = 1 − (1 − n1 )n
b) Poniamo
→
n→∞
1 − e−1 .
n
1 se la lettera i-esima viene utilizzata
0 altrimenti .
Il numero X di lettere utilizzate è dunque X = X1 + . . . + Xn e il numero medio richiesto è
Xi =
E(X) = E(X1 ) + . . . + E(Xn ) .
D’altra parte le v.a. X1 , . . . , Xn sono di Bernoulli e {Xi = 1} = Ai , dove gli eventi Ai
sono quelli definiti nel punto a). Sono dunque B(1, p) con p = P(Ai ) = (1 − n1 )k . Dunque
E(Xi ) = 1 − (1 − n1 )k e
E(X) = n 1 − (1 − n1 )k .
30
Parte 1: soluzioni
Per n = 21, k = 100 si ha E(X) = 20.84; per n = 21, k = 50 si ha E(X) = 19.17.
Se la probabilità di apparizione della lettera i è pi , allora la probabilità che la lettera i-esima
venga utilizzata diviene
P(Ai ) = 1 − (1 − pi )k
e dunque anche E(Xi ) = 1 − (1 − pi )k , per cui
E(X) =
n
X
i=1
(1 − (1 − pi )k ) .
Con i dati numerici assegnati la somma vale
7 · 1 − (1 −
2.15
3 100
28 )
+ 7 · 1 − (1 −
3 100
112 )
+ 7 · 1 − (1 −
1 100
112 )
= 17.68 .
a) Poniamo
Zi =
n
1
0
se lo i-esimo assicurato deve essere indennizzato
altrimenti .
Allora il numero totale di indennizzi nel corso del primo anno si modellizza con la v.a. X =
Z1 + . . . + ZN . Poiché le v.a. Zi sono indipendenti si ha X ∼ B(N, p). Ma se N è grande e
p piccolo, la legge di X si può approssimare con una legge di Poisson di parametro λ = Np.
Ripetendo lo stesso ragionamento si vede che anche Y è di Poisson di parametro λ. Poiché si
suppone Y indipendente da X, allora Z = X + Y è di Poisson di parametro 2λ. Calcoliamo la
legge congiunta di X e Z: se 0 ≤ k ≤ m
P(X = k, Z = m) = P(X = k, Y = m − k) = P(X = k)P(Y = m − k) =
λk
λm−k
λm
= e−λ e−λ
= e−2λ
k!
(m − k)!
k!(m − k)!
mentre naturalmente P(X = k, Z = m) = 0 se m < k oppure k < 0.
b) La compagnia incassa ogni anno un ammontare pari a 45 pNI e paga in indennizzi X · I .
Quindi in media il beneficio è
5
5
1
pNI − I · E(X) = pNI − pNI = pNI ·
4
4
4
c) La probabilità richiesta si esprime, in termini delle v.a. X e Z come
P({X > 2} ∪ {Z > 3}) = 1 − P(X ≤ 2, Z ≤ 3) =
= 1 − P(X = 0, Z = 0) − P(X = 0, Z = 1) − P(X = 1, Z = 1) − P(X = 0, Z = 2)+
−P(X = 1, Z = 2) − P(X = 2, Z = 2) − P(X = 0, Z = 3)+
−P(X = 1, Z = 3) − P(X = 2, Z = 3) =
= 1 − e−2λ 1 + λ(1 + 1) + λ2 21 + 1 + 21 + λ3 16 + 21 + 21 ·
Esercizio 2.16
31
Sostituendo il valore λ = Np = 1 si ottiene che la probabilità richiesta vale 0.165.
2.16
a) Dire che il programma deve accedere all’unità 1 significa dire che tra le 40 registrazioni che gli sono necessarie ce n’è almeno una che si trova nel disco 1. Se indichiamo
con Z1 il numero di file necessari all’esecuzione del programma che si trovano nell’unità 1, si
riconosce facilmente che Z1 segue una distribuzione ipergeometrica e in particolare, osservando
che i file in totale sono 3000 di cui 100 nell’unità 1, che
100 2900 P(Z1 = i) =
i
40−i
3000
40
i = 0, . . . , 40 .
La probabilità che l’unità 1 sia necessaria all’esecuzione del programma vale quindi
(1.3)
p = P(Z1 > 0) = 1 − P(Z1 = 0) = 1 −
=1−
100 2900
40
0
3000
40
=
2900 · 2899 · . . . · 2861
= 0.745 .
3000 · 2999 · . . . · 2961
b) Se Z indica il numero di file necessari che si trovano nell’unità 1 oppure nell’unità 2,
ripetendo il ragionamento del punto a), Z segue anch’essa una distribuzione ipergeometrica,
solo che ora considereremo i 3000 file suddivisi nelle due classi formate dalle 200 registrazioni
che si trovano in una delle prime due unità disco e dalle altre 2800. Dunque
P(Z = i) =
200 2800 40−i
i
3000
40
i = 0, . . . , 40
e la probabilità che una delle prime due unità sia necessaria vale ora
(1.4)
w = P(Z > 0) = 1 − P(Z = 0) = 1 −
=1−
200 2800
40
0
3000
40
=
2800 · 2799 · . . . · 2761
= 0.938 .
3000 · 2999 · . . . · 2961
Se indichiamo con A1 l’evento ‘‘l’unità 1 è necessaria’’ e con A2 l’analogo evento per l’unità
2, abbiamo appena calcolato P(A1 ∪ A2 ), mentre la probabilità che entrambe le unità siano
necessarie è P(A1 ∩A2 ); ma dalla formula della probabilità della unione di due eventi otteniamo
P(A1 ∩ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∪ A2 ) = 0.745 + 0.745 − 0.938 = 0.552 .
c) Le v.a. Yi sono di Bernoulli (prendono solo i valori 0 e 1) di parametro p = P(Yi = 1) =
0.745, calcolato in a). L’intuizione vorrebbe che le v.a. Yi non siano indipendenti, perché se, ad
esempio, fosse Y1 = 1 ciò vorrebbe dire che almeno una delle registrazioni si trova nell’unità
1 e ciò rende minore la probabilità che siano necessarie le altre unità. Per rendere rigorosa
questa intuizione calcoliamo il coefficiente di correlazione: se esso risulterà diverso da 0 ciò
32
Parte 1: soluzioni
implicherà che le v.a. Yi , i = 1, . . . , 40 sono correlate e quindi non sono indipendenti e neanche
indipendenti a due a due. Il coefficiente di correlazione di Y1 e Y2 è per definizione
̺Y1 ,Y2 = p
Cov(Y1 , Y2 )
Var(Y1 ) Var(Y2 )
=
E(Y1 Y2 ) − E(Y1 )E(Y2 )
·
p
Var(Y1 ) Var(Y2 )
Sappiamo già che Var(Y1 ) = Var(Y2 ) = p(1 − p) ed inoltre che E(Y1 )E(Y2 ) = p2 , poiché
Y1 e Y2 sono entrambe B(1, p). Resta da calcolare E(Y1 Y2 ). Ma anche la v.a. Y1 Y2 è di
Bernoulli, poiché anch’essa può prendere solo i valori 0 oppure 1. Resta dunque da calcolare
P(Y1 Y2 = 1) = P(Y1 = 1, Y2 = 1). Ma quest’ultima non è altro che la probabilità che sia
l’unità 1 che la 2 siano necessarie per l’esecuzione del programma e dunque vale 0.552 per il
punto b). In conclusione
0.552 − 0.7452
= −0.016
0.745 · 0.255
che conferma l’intuizione iniziale di una correlazione negativa tra le variabili. Inoltre il valore
del coefficiente di correlazione, vicino a 0, indica che la dipendenza tra le variabili è abbastanza
piccola.
d) Il calcolo della media di X secondo la definizione di speranza matematica richiederebbe
preliminarmente il calcolo della legge di X, che è abbastanza complicato. Si può però osservare
che X = Y1 + . . . + Y30 e dunque E(X) = E(Y1 ) + . . . + E(Y30 ) (la speranza matematica di
una somma di v.a. è sempre uguale alla somma delle speranze matematiche, anche se le v.a.
non sono indipendenti). Inoltre, poiché le Yi sono tutte di Bernoulli B(1, p) con p = 0.745,
̺Y1 ,Y2 =
E(X) = 30 · p = 22.35 .
• Questo esercizio usa alcune idee di cui ci serviamo ripetutamente. Ci limitiamo a segnalare
il modo di calcolare la speranza matematica di una v.a. X scrivendo che essa è uguale alla somma
X1 + . . . + Xn , dove X1 , . . . , Xn sono v.a. di cui è facile calcolare la speranza matematica.
Talvolta questa idea è fondamentale: il calcolo della legge di X, necessario per applicare la
definizione di speranza matematica, può risultare molto complicato.
2.17 a) Converrà fare i calcoli scrivendo n al posto di 90. La probabilità che alla k-esima
estrazione si ottenga la pallina i-esima è naturalmente uguale a n1 (Esempio 1.30). In particolare,
scegliendo k = i si ha P(Ai ) = n1 .
Per studiare l’indipendenza degli eventi Ai , i = 1, . . . , n, conviene costruire esplicitamente
uno spazio di probabilità. Una scelta naturale può essere quella di porre  =insieme delle
permutazioni di n elementi. Con questo modello si ha Ai = {ω, ωi = i}, cioè Ai corrisponde
all’insieme delle permutazioni che lasciano i allo i-esimo posto. Ora
A1 ∩ A2 = {ω, ω1 = 1, ω2 = 2}
e dunque A1 ∩ A2 ha cardinalità (n − 2)! (la cardinalità delle permutazioni che lasciano fissi 1
e 2 è la stessa che la cardinalità delle permutazioni di {3, . . . , n}). Dunque
P(A1 ∩ A2 ) =
(n − 2)!
1
,
=
n!
n(n − 1)
Esercizio 2.17
33
mentre sappiamo che P(A1 )P(A2 ) = n12 . Dunque gli eventi Ai , i = 1, . . . , n non sono a due a
due indipendenti e quindi neppure indipendenti.
b) Poniamo
n
1 se si ha coincidenza alla i-esima estrazione
Xi =
0 altrimenti .
Allora X = X1 + . . . + Xn ed inoltre le v.a. Xi sono di Bernoulli di parametro p = P(Xi =
1) = P(Ai ) = n1 . Per la proprietà di additività della speranza matematica
E(X) = E(X1 ) + . . . + E(Xn ) = n ·
1
=1.
n
Dunque il numero medio di coincidenze è 1 qualunque sia il numero di palline nell’urna.
c) Sempre con le notazioni del punto b), per la formula della varianza della somma di v.a.
abbiamo
Var(X) =
(1.5)
n
X
i=1
Var(Xi ) +
n
X
Cov(Xi , Xj ) .
i,j =1
i6=j
Sappiamo già che Var(Xi ) = n1 (1 − n1 ), perché le v.a. Xi sono di Bernoulli di parametro
p = n1 ; resta da calcolare Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ). Quanto vale E(Xi Xj )? La
v.a. Xi Xj è di Bernoulli di parametro p = P(Xi Xj = 1) = P(Xi = 1, Xj = 1); ma
{Xi = 1, Xj = 1} = Ai ∩ Aj
dove gli eventi Ai , i = 1, . . . , n sono definiti in a). Per motivi di simmetria la probabilità
di questi eventi non dipende da i, j (purché i 6= j ) e sappiamo, dal punto a), che scegliendo
i = 1, j = 2,
1
P(X1 = 1, X2 = 1) = P(A1 ∩ A2 ) =
n(n − 1)
per cui
Cov(Xi , Xj ) = Cov(X1 , X2 ) =
1
1
−
·
n(n − 1) n2
Infine osserviamo che nella prima somma della (1.5) vi sono n termini, mentre nella seconda
n(n − 1). Dunque
Var(X) = n ·
1
1
1
1
− 2 =1.
1−
+ n(n − 1)
n
n
n(n − 1) n
Anche la varianza del numero di coincidenze è uguale a 1 e non dipende dal numero di palline.
• Anche qui l’idea di scrivere X come somma delle Xi per calcolare la speranza matematica è
fondamentale. Il calcolo della legge del numero di coincidenze X, che è abbastanza importante
in combinatoria, è in effetti possibile ma non facile.
Paolo Baldi
Calcolo delle Probabilità
McGraw-Hill 2011
34
Parte 1: soluzioni
2.18
a) Definiamo i seguenti eventi:
A = {viene scelta l’urna A}
B = {viene scelta l’urna B}
Ri = {alla i-esima estrazione si ottiene una pallina rossa}
Ni = {alla i-esima estrazione si ottiene una pallina nera} .
Osserviamo che gli eventi A e B costituiscono una partizione dell’evento certo. Dunque la
probabilità richiesta vale
P(R1 ) = P(R1 ∩ A) + P(R1 ∩ B) = P(R1 |A)P(A) + P(R1 |B)P(B) .
Per come il problema è stato posto è chiaro che deve essere
P(R1 |A) = 1,
P(R1 |B) = nr ,
P(A) = P(B) =
e dunque
P(R1 ) =
1
2
+
1 r
2 n
=
1
2
1+
r
n
1
2
.
b) Indichiamo con C l’evento ‘‘le prime due estrazioni danno palline di colori diversi’’.
La probabilità che in due estrazioni dall’urna A si ottengano una pallina rossa e una nera è
chiaramente 0. Invece il numero di palline rosse estratte dall’urna B in due estrazioni segue
una legge binomiale B(2, nr ). Dunque
P(C |A) = 0
2 r
r
r(n − r)
P(C |B) =
1−
=2
1 n
n
n2
P(C) = P(C |A)P(A) + P(C |B)P(B) =
r(n − r)
·
n2
c) Indichiamo con T la v.a. ‘‘tempo d’attesa della prima estrazione di una pallina rossa’’.
Dobbiamo calcolare la speranza matematica di T e per farlo calcoliamone prima la legge. Ora,
sempre con la formula delle probabilità totali (1.12),
P(T = k) = P(T = k |A)P(A) + P(T = k |B)P(B) .
Ma, poiché l’urna A contiene solo palline rosse,
P(T = k |A) =
mentre
P(T = k |B) =
n
1
0
se k = 1
altrimenti
p(1 − p)k−1
0
se k = 1, 2, . . .
altrimenti
Esercizio 2.19
dove abbiamo posto p =
E(T ) =
∞
X
k=1
r
n
35
e dunque
kP(T = k) =
∞
X
k=1
k P(T = k |A)P(A) + P(T = k |B)P(B) =
∞
1 1X
1
1 1
n
= +
kp(1 − p)k−1 =
1+
=
1+
2 2
2
p
2
r
k=1
dove abbiamo riconosciuto nell’ultima serie la speranza matematica di una legge geometrica
modificata, che vale appunto p1 .
d) Poniamo Ek = R1 ∩ . . . ∩ Rk . Ek è l’evento ‘‘le prime k estrazioni hanno dato tutte palline
rosse’’. La probabilità richiesta non è altro che P(A|Ek ). Per la formula di Bayes
P(A|Ek ) =
Ora P(Ek |A) = 1 mentre P(A) =
probabilità totali (1.12) dà
1
2.
P(Ek |A)P(A)
·
P(Ek )
Resta da calcolare P(Ek ). Ancora la formula delle
P(Ek ) = P(Ek |A) P(A) + P(Ek |B)P(B) .
| {z }
=1
Ma se l’urna prescelta è la B il numero di palline rosse estratte segue una legge binomiale
B(k, nr ). Dunque
P(Ek |B) = P(R1 |B) . . . P(Rk |B) = ( nr )k
e in conclusione P(Ek ) = 21 (1 + ( nr )k ) e
P(A|Ek ) =
Per n = 12, r = 4
1
·
1 + ( nr )k
1
1 + 3−k
e dopo qualche manipolazione algebrica si vede che perché sia
P(A|Ek ) =
1
≥ 0.99
1 + 3−k
deve essere 3k ≥ 99 e cioè k ≥ 5.
2.19
a) Poniamo
Xi =
n
1
0
se la i-esima pallina finisce nella scatola 1
altrimenti .
36
Parte 1: soluzioni
La probabilità che una singola pallina finisca nella scatola 1 vale 1r poiché, per come il problema
è posto, possiamo supporre che tutte le scatole abbiano la stessa probabilità di essere scelte.
Dunque P(Xi = 1) = 1r e cioè Xi ∼ B(1, 1r ). Inoltre le v.a. X1 , . . . , Xn si possono supporre
indipendenti.
Il numero di palline finite nella scatola 1 è dunque Y1 = X1 + . . . + Xn ; se ne ricava che Y1
è binomiale B(n, 1r ) per cui la probabilità richiesta vale
P(Y1 = i) =
1 n−i
n 1 i
.
1−
r
r
i
b) Indichiamo con Y1 , Y2 , Y3 il numero di palline che finiscono rispettivamente nella scatola
1, nella 2 e in una qualunque delle scatole dalla 3 alla r. Allora la loro legge congiunta è
multinomiale di parametri 1r , 1r , 1 − 2r rispettivamente. Quindi
P(Y1 = i, Y2 = j ) =
1 i 1 j n!
2 n−i−j
.
1−
i!j !(n − i − j )! r
r
r
2.20 a) Indichiamo con A l’evento ‘‘il messaggio proviene dalla sorgente A’’ e naturalmente
con B l’evento ‘‘il messaggio proviene dalla sorgente B’’. Indichiamo con C l’evento ‘‘un
messaggio di lunghezza 10 contiene 4 bit uguali a 1’’. Si richiede di calcolare P(A|C). Per la
formula di Bayes
P(A|C) =
(1.6)
P(C |A)P(A)
·
P(C)
Se il messaggio proviene dalla sorgente A, allora il numero di bit uguali a 1 segue una legge
binomiale B(n, 21 ). Dunque
10 1
P(C |A) =
·
4 210
Invece se esso proviene dalla sorgente B il numero di bit uguali a 1 seguirà una legge B(n, 41 ).
Dunque
10 1 4 3 6
P(C |B) =
.
4
4
4
Per il calcolo di P(C) useremo la formula delle probabilità totali:
P(C) = P(C |A)P(A) + P(C |B)P(B) =
1 10 1
1 10 1 4 3 6
1 10 1 36 =
+
=
1
+
2 4 210
2 4
4
4
2 4 210
210
e dunque, riprendendo la (1.6),
P(A|C) =
1
1+
36
210
= 0.584 .
Esercizio 2.21
37
Poiché P(B |C) = 1 − P(A|C) = 0.416, la sorgente A è la più probabile. Se fosse n = 100, la
(1.6) resta valida, ma ora
1
100
P(C |A) =
100
40 2
100 1 40 3 60
P(C |B) =
4
4
40
per cui
P(C) = P(C |A)P(A) + P(C |B)P(B) =
1 100
1
1 1 100 1 40 3 60
1 100
360 =
+
=
1
+
2 40 2100
2 40
4
4
2 40 2100
2100
e quindi
P(A|C) =
1
1+
360
2100
= 0.968
e la sorgente A è di gran lunga la più probabile.
b) Basta ripetere i calcoli del punto a) sostituendo P(A) = 0.3, P(B) = 0.7. Quindi
10 1 4 3 6
10 1
+ 0.7 ·
.
P(C) = P(C |A)P(A) + P(C |B)P(B) = 0.3 ·
4
4
4
4 210
Sostituendo nella (1.6) e semplificando
P(A|C) =
P(C |A)P(A)
0.3
= 0.376
=
6
P(C)
0.3 + 0.7 2310
mentre per n = 100
P(A|C) =
P(C |A)P(A)
0.3
= 0.928 .
=
60
P(C)
0.3 + 0.7 23100
Quindi per n = 100 la sorgente A resta la più probabile, mentre per n = 10 prevale il fatto che
a priori la più probabile fosse B.
2.21
a) La legge delle v.a. Xi è data da
p0 = P(Xi = 0) =
1
4
,
p1 = P(Xi = 1) =
1
2
,
p2 = P(Xi = 2) =
1
4
mentre pk = P(Xi = k) = 0 per gli altri valori di k. La funzione generatrice delle probabilità
di Xi vale dunque
1
1
t
t2
t 2
ψ(t) = + +
=
+
.
4 2
4
2 2
38
Parte 1: soluzioni
b) Per il calcolo della legge della somma di v.a. indipendenti tra i metodi possibili c’è l’uso
delle funzioni generatrici delle probabilità, che in questo caso sembra praticabile, visto che
la f.g.p. calcolata nel punto precedente ha un’espressione semplice. Poiché si tratta di v.a.
indipendenti, la f.g.p. ψn di X1 + . . . + Xn vale
ψn (t) = ψ(t)n =
1
2
+
t 2n
.
2
Per calcolare la densità di X1 + . . . + Xn non resta che sviluppare la funzione ψn (t) con la
regola del binomio
ψn (t) =
2n X
2n t k 1 2n−k
2
k
k=0
2
2n X
2n 1 k
=
t
k 22n
k=0
2n
per cui P(X1 + . . . + Xn = k) = k 212n .
L’osservatore acuto avrebbe anche potuto riconoscere che la funzione generatrice delle probabilità di Xi è quella di una v.a. binomiale B(2, 21 ). Dunque Xi ∼ B(2, 21 ) e X1 + . . . + Xn ∼
B(2n, 21 ).
2.22
a) Consideriamo le v.a.
Xi =
n
1
0
se lo i-esimo lancio dà testa
se dà croce.
Le Xi hanno tutte legge di Bernoulli B(1, p) e le v.a. N, X1 , X2 , . . . possono essere considerate
indipendenti. Il numero di teste ottenute si modellizza quindi mediante la somma aleatoria
X = X1 + . . . + XN , con l’intesa che X = 0 se N = 0. Per calcolare la legge di X possiamo
prima calcolarne la funzione generatrice delle probabilità ψ. Quest’ultima è data dalla formula
ψ(t) = ψN (ψXi (t))
(vedi la Proposizione 2.62) dove ψN e ψXi indicano le funzioni generatrici di N e di Xi
rispettivamente. Ricordando l’espressione delle funzioni generatrici delle probabilità delle
leggi di Poisson e di Bernoulli si ha ψN (z) = eλ(z−1) e ψXi (t) = 1 − p + pt. Dunque
ψ(t) = eλ(pt+1−p−1) = eλp(t−1) .
Riconosciamo qui la funzione generatrice delle probabilità di una legge di Poisson di parametro
λp, che è quindi la legge cercata. Per lo stesso motivo Y è di Poisson di parametro λ(1 − p).
• In realtà il calcolo appena fatto era già stato sviluppato nell’Esempio 2.63. Lo stesso
risultato si può ottenere senza l’uso delle f.g., come nell’Esempio 2.32.
b) Come al solito la prova dell’indipendenza di X e Y si riconduce al calcolo delle loro leggi
congiunte. Poiché X + Y = N, si ha {X = k, Y = m} = {X = k, N = m + k} e
P(X = k, Y = m} = P(X = k, N = m + k) = P(X1 + . . . + Xm+k = k, N = m + k) .
Esercizio 2.23
39
Ma le v.a. N, X1 , X2 , . . . sono indipendenti e X1 + . . . + Xm+k ∼ B(m + k, p), quindi
P(X = k, Y = m) = P(X1 + . . . + Xm+k = k)P(N = m + k) =
(pλ)k −λ(1−p) ((1 − p)λ)m
m+k k
λm+k
= e−λp
e
=
p (1 − p)m e−λ
=
(m + k)!
k!
m!
k
= P(X = k)P(Y = m)
e quindi X e Y sono indipendenti. In realtà volendo essere precisi il calcolo precedente vale
solo quando uno almeno tra i numeri k e m è > 0. Se entrambi sono nulli il calcolo è comunque
immediato, tenendo conto del punto a):
P(X = 0, Y = 0) = P(N = 0) = e−λ
P(X = 0)P(Y = 0) = e−λp e−λ(1−p) = e−λ .
2.23
(1.7)
a) Consideriamo, per cominciare, il caso k = 1 e poniamo
Zi =
n
1
0
se lo i-esimo errore non viene individuato
altrimenti
per i = 1, . . . , N. È chiaro che il numero di errori rimasti dopo il passaggio del primo revisore è
X1 = Z1 +. . .+ZN . Poiché, per la natura del problema, si possono supporre le v.a. Z1 , . . . , ZN
indipendenti ed inoltre P(Zi = 1) = 1 − p, si vede subito che X1 ∼ B(N, 1 − p).
Per studiare la legge di X2 , si può osservare che X2 è ancora una somma di v.a. Zi come
nella (1.7), solo che ora l’indice i varia tra 1 e X1 (numero di errori rimasti). Ovvero X2 =
Z1 +. . .+ZX1 . Poiché possiamo supporre le v.a. Zi e X1 indipendenti, sappiamo (Proposizione
2.62) che la funzione generatrice delle probabilità ψX2 è data da
ψX2 (t) = ψX1 (ψZ1 (t)) = (p + (1 − p) (p + (1 − p)t))N =
{z
}
|
f.g.p. di Z1
2
N
= (p(2 − p) + (1 − p) t) = 1 − (1 − p)2 + (1 − p)2 t
N
.
Si riconosce quindi che X2 è binomiale B(N, (1 − p)2 ). Ciò suggerisce che la v.a. Xk abbia
legge B(N, (1 − p)k ). La verifica rigorosa di questo fatto si può fare per ricorrenza: se
Xk ∼ B(N, (1 − p)k ), allora Xk+1 = Z1 + . . . + ZXk e dunque
ψXk+1 (t) = ψXk (ψZ1 (t)) = (1 − (1 − p)k + (1 − p)k (p + (1 − p)t))N =
= (1 − (1 − p)k+1 + (1 − p)k+1 t)N
che è appunto la funzione generatrice delle probabilità di una v.a. B(N, (1 − p)k+1 ).
La probabilità che dopo il lavoro di k revisori restino ancora degli errori è
P(Xk > 0) = 1 − P(Xk = 0) = 1 − (1 − (1 − p)k )N .
40
Parte 1: soluzioni
b) Se supponiamo che il numero N di errori sia a sua volta aleatorio il ragionamento è simile
a quello appena visto: il numero di errori rimasti dopo il lavoro del primo revisore è
X1 = Z1 + . . . + ZN .
Poiché la funzione generatrice delle probabilità di N è ψ(z) = eλ(z−1) , quella di X1 è
ψX1 (t) = ψN (ψZ1 (t)) = eλ((p+(1−p)t)−1) = eλ(1−p)(t−1)
e quindi X1 è di Poisson di parametro λ(1 − p). Analogamente la funzione generatrice delle
probabilità di X2 = Z1 + . . . + ZX1 sarà
ψX2 (t) = ψX1 (ψZ1 (t)) = eλ(1−p)((p+(1−p)t)−1) = eλ(1−p)
2 (t−1)
per cui X2 è di Poisson di parametro λ(1 − p)2 . Per ricorrenza, come nel punto a) si vede che
Xk è di Poisson di parametro λ(1 − p)k .
Con i valori numerici assegnati X3 segue una legge di Poisson di parametro λ(1 − p)3 =
300 · 10−3 = 0.3. Dunque la probabilità che restino degli errori è
P(X3 > 0) = 1 − P(X3 = 0) = 1 − e−0.3 = 0.259 = 25.9% .
Il numero medio di errori rimasti è
E(X3 ) = λ(1 − p)3 = 0.3 .
2.24 Perché una funzione g sia la funzione generatrice di qualche v.a. X occorre che siano
soddisfatte alcune proprietà: essa deve intanto essere sviluppabile in serie di potenze con un
intervallo di convergenza che deve contenere [−1, 1]. Inoltre tutti i coefficienti pk dello sviluppo
devono P
essere ≥ 0, poiché deve essere pk = P(X = k); infine deve essere g(1) = 1, perché
g(1) = ∞
k=0 pk = 1.
Da quest’ultima condizione si vede che c, se esiste, deve essere uguale a (log 21 )−1 =
−(log 2)−1 . Per questo valore di c si ha, ricordando lo sviluppo in serie di potenze della
funzione z → log(1 − z),
∞
X
1
g(z) =
zn
n2n log 2
n=1
e g è dunque realmente una funzione generatrice (tutti i coefficienti dello sviluppo sono ≥ 0).
Se X è una v.a. avente funzione generatrice g, allora
P(X = n) =
1
·
n2n log 2
La media di X si calcola facilmente osservando che g è derivabile in z = 1 e
E(X) = g ′ (1) =
1
1
·
=
(2 − z) log 2 z=1
log 2
Esercizio 3.2
41
3.1
a) La v.a. X prende i suoi valori, con probabilità 1, nell’intervallo [0, 10]: infatti
P(0 ≤ X ≤ 10) = F (10) − F (0) = 1.
b) La f.r. F è derivabile a tratti con derivata continua. Dunque X ha densità che si ottiene
derivando la f.r. La densità è dunque data da

1
 25
t
se 0 ≤ t ≤ 5
f (t) = − 1 t + 2 se 5 ≤ t ≤ 10
5
 25
0
altrimenti .
La densità f è lineare a tratti ed il suo grafico è dato dalla Figura 1.3.
0.2
......................
........
........
........
........
........
........
.
.
.
.
.
.
.
........
.
........
........
........
........
.
.
.
.
.
.
........
.
.....
.
.
........
.
.
.
.
.
........
.....
.
.
.
.
.
.
........
.
.....
.
........
.
.
.
.
.
.
........
.....
.
.
.
.
.
........
.
.
.....
.
........
.
.
.
.
.
.
........
.....
.
.
.
.
........
.
.
.
.....
........
.
.
.
.
.
.
.
........
.....
.
.
.
.
........
.
.
.
........
.....
.
.
.
.
.
.
.
........
.....
.
.
.
........
.
.
.
.
........
....
.
........
0
1
2
3
4
5
6
7
8
9
10
Figura 1.3
c) La simmetria del grafico della densità di X suggerisce immediatamente il valore di E(X).
Ad ogni modo il calcolo dà
E(X) =
Z
Z 10 2
1
1 2
t dt +
t dt =
− t2 +
25
5
5
−∞
0 25
125
1000
125
100 25
=
−
+
+
−
=5.
3 · 25 3 · 25 3 · 25
5
5
+∞
tf (t) dt =
Z
5
3.2 a) Calcoliamo la f.r. di Z = X 2 ; poiché la densità di X è > 0 solo per t > 0, si ha
FZ (t) = 0 per t ≤ 0, mentre per t > 0 essa vale
√
P(X ≤ t) = P(X ≤ t) =
2
Z
√
0
t
√
2x −x 2 /θ
2 t
e
dx = −e−x /θ = 1 − e−t/θ .
0
θ
Riconosciamo la f.r. di una legge esponenziale di parametro θ1 .
b) Calcoliamo la f.r. di W ; sfrutteremo il fatto che conosciamo già la f.r. di X 2 . Intanto
osserviamo che, poiché X 2 è a valori positivi, W prenderà valori tra 0 e 1. Se 0 < t < 1
P(e−X
2 /θ
≤ t) = P(X 2 ≥ −θ log t) = e(θ log t)/θ = t .
Dunque W è uniforme su [0, 1].
• Da notare, in questo esercizio, il calcolo della densità di una v.a. eseguito passando prima
per il calcolo della f.r.: è un metodo semplice e che è possibile applicare in molti casi.
42
3.3
Parte 1: soluzioni
a) Si ha
Z
+∞
−∞
f (x) dx = c
Z
+∞
r
x −(λ+1) dx =
c
λr λ
e dunque, poiché l’integrale deve valere 1, c = λr λ .
b) Calcoliamo la f.r. di Y : se t > 0
P(Y ≤ t) = P log Xr ≤ t = P(X ≤ ret ) = λr λ
=−
Z
ret
r
x −(λ+1) dx =
1 t −λ
(e r) − r −λ λr λ = 1 − e−λt .
λ
Y è dunque esponenziale di parametro λ.
• Un calcolo tipico che viene richiesto durante la soluzione di molti esercizi è il seguente:
viene data una funzione nella forma k · g(x) e si richiede di determinare k in modo che x →
k ·g(x) sia una densità di probabilità. La costante k è sempre determinata dal fatto che l’integrale
della densità deve valere 1 e dunque
−1
Z
.
g(x) dx
k=
3.4 Poiché la funzione tangente è monotona crescente nell’intervallo ] −
della f.r. di Y è immediato:
FY (y) = P(tan X ≤ y) = P(X ≤ arctan y) = P X ∈ ] − π2 , arctan y] =
e derivando
fY (y) =
1
π
π π
2 , 2 [,
il calcolo
arctan y +
π
2
1
·
π (1 + y 2 )
3.5 a) Se indichiamo con T1 , T2 , T3 i tempi di vita dei singoli elementi, è chiaro che T =
min(T1 , T2 , T3 ). Il punto a) si riduce quindi al calcolo delle legge del minimo di tre v.a.
indipendenti di cui si conosce la legge. Questo problema si può risolvere passando per il
calcolo della f.r. FT di T , oppure, che è lo stesso, di 1 − FT . Ricordando che la f.r. di una v.a.
esponenziale di parametro λ vale, se t > 0,
F (t) = λ
Z
t
0
e−λs ds = 1 − e−λt
si ha facilmente, per t > 0,
1 − FT (t) = P(min(T1 , T2 , T3 ) > t) = P(T1 > t, T2 > t, T3 > t) =
= P(T1 > t)P(T2 > t)P(T3 > t) = e−λt e−µt e−γ t = e−(λ+µ+γ )t .
Esercizio 3.5
43
La v.a. T ha quindi la stessa f.r. di una v.a. esponenziale di parametro λ + µ + γ . È quindi
anch’essa esponenziale con questo parametro e
E(T ) =
1
= 1.67 .
λ+µ+γ
b) Se T e W sono i tempi di vita di ognuno dei due componenti in parallelo, il tempo di vita
del complesso formato dai due componenti non è altro che X = max(T , W ). Calcoliamo la f.r.
GX di questa v.a. Se t > 0
GX (t) = P(max(T , W ) ≤ t) = P(T ≤ t, W ≤ t) = P(T ≤ t)P(W ≤ t) = (1 − e−(λ+µ+γ )t )2
mentre GX (t) = 0 per t ≤ 0. Da quest’espressione si ricava per derivazione la densità g di X:
gX (t) = GX ′ (t) = 2(λ + µ + γ )e−(λ+µ+γ )t (1 − e−(λ+µ+γ )t )
se t > 0, mentre naturalmente gX (t) = 0 se t ≤ 0. Infine
E(X) =
Z
+∞
0
Z
t gX (t) dt = 2(λ + µ + γ )
+∞
te
−(λ+µ+γ )t
0
dt −
Z
+∞
0
te−2(λ+µ+γ )t dt =
1
1
1
2
= 2(λ + µ + γ )
−
−
= 2.49 .
=
2
2
(λ + µ + γ )
(2(λ + µ + γ ))
λ + µ + γ 2(λ + µ + γ )
c) Possiamo ancora dire che il tempo T di vita del complesso della Figura 3.20 è uguale
a min(T1 , T2 , T3 ), dove però ora T1 è il tempo di vita del componente formato dai primi tre
elementi in parallelo, T2 quello formato dal secondo elemento, T3 quello formato dagli ultimi
due in parallelo. Ripetendo i ragionamenti del punto b) per calcolare la legge del max di variabili
aleatorie, si ricava facilmente
P(T1 ≤ t) = (1 − e−λt )3 ,
P(T2 ≤ t) = 1 − e−µt ,
P(T3 ≤ t) = (1 − e−γ t )2 .
Ripercorrendo i metodi del punto a) per calcolare la legge del min di v.a. abbiamo
P(T > t) = P(T1 > t) P(T2 > t) P(T3 > t) = (1 − (1 − e−λt )3 ) e−µt (1 − (1 − e−γ t )2 ) .
Dunque, sviluppando con un po’ di pazienza il quadrato e il cubo si ottiene che la funzione di
ripartizione G di T è data da
1 − G(t) = P(T > t) = (3e−λt − 3e−2λt + e−3λt ) e−µt (2e−γ t − e−2γ t ) =
= 6e−(λ+µ+γ )t −6e−(2λ+µ+γ )t +2e−(3λ+µ+γ )t −3e−(λ+µ+2γ )t +3e−(2λ+µ+2γ )t −e−(3λ+µ+2γ )t
e dunque la densità è
g(t) = G′ (t) = 6(λ + µ + γ ) e−(λ+µ+γ )t − 6(2λ + µ + γ ) e−(2λ+µ+γ )t +
+2(3λ + µ + γ ) e−(3λ+µ+γ )t − 3(λ + µ + 2γ ) e−(λ+µ+2γ )t +
+3(2λ + µ + 2γ ) e−(2λ+µ+2γ )t − (3λ + µ + 2γ ) e−(3λ+µ+2γ )t
44
Parte 1: soluzioni
da cui, ricordando l’espressione della speranza matematica di una legge esponenziale,
Z +∞
E(T ) =
g(t) dt =
0
6
6
2
3
3
1
=
−
+
−
+
−
·
λ + µ + γ 2λ + µ + γ 3λ + µ + γ λ + µ + 2γ 2λ + µ + 2γ 3λ + µ + 2γ
Il calcolo numerico dà il risultato E(T ) = 3.26, sensibilmente migliore che nel caso b).
• Da segnalare in questo esercizio il calcolo della legge del massimo di due v.a. indipendenti
effettuato determinandone prima la f.r. Per calcolare la densità del minimo invece si opera in
maniera del tutto analoga usando piuttosto la funzione di sopravvivenza 1 − F .
3.6
a)
E(X) =
Z
+∞
0
x·
Z +∞
2x −x 2 /θ
2 +∞
2
+
e
dx = −xe−x /θ e−x /θ dx .
θ
0
{z 0 }
|
=0
L’ultimo integrale si calcola con il cambio di variabile
di
√y
2
2
e−x /2 :
Z
+∞
0
e
−x 2 /θ
=
√x
θ
in modo da ricondurlo a quello
√ Z +∞
√
√ Z +∞
√
θ
θ
θ √
πθ
−y 2 /2
−y 2 /2
e
dy = √
e
dy = √ 2π =
dx = √
·
2
2 0
2 2 −∞
2 2
Per ottenere la varianza calcoliamo prima il momento del second’ordine
Z
2 +∞ 3 −x 2 /θ
x e
dx .
E(X 2 ) =
θ 0
L’integrale si può fare per parti oppure con il cambio di variabile x 2 = y riconducendolo a
quello di una densità Ŵ(2, θ1 ):
E(X 2 ) =
1
θ
Z
+∞
0
ye−y/θ dy =
1 2
θ Ŵ(2) = θ
θ
e quindi
Var(X) = E(X 2 ) − E(X)2 = θ 1 −
b) Una v.a. Y è di Cauchy se ha densità
fY (y) =
π
4
.
1
·
π (1 + y 2 )
Perché Y abbia speranza matematica finita deve essere assolutamente convergente l’integrale
Z +∞
y
dy .
2
−∞ π (1 + y )
Esercizio 3.8
45
L’integrando però per |y| → ∞ tende a zero in modulo come |y|−1 e l’integrale non è dunque
assolutamente convergente. Y quindi non ha speranza matematica finita.
c) La speranza matematica è finita se e solo se è convergente l’integrale
Z +∞
Z +∞
x · x −(λ+1) dx =
x −λ dx
r
r
e cioè se λ > 1. Se λ > 1 si trova immediatamente
Z +∞
λr λ −λ+1 +∞
λr
λ
E(X) = λr
x −λ dx = −
x
·
=
r
λ
−
1
λ
−1
r
Perché la varianza sia finita occorre invece che sia convergente anche l’integrale
Z +∞
Z +∞
2
−(λ+1)
x ·x
dx =
x −λ+1 dx
r
r
e cioè che sia λ > 2. In questo caso si ha
Z +∞
λr 2
λr λ −λ+2 +∞
2
λ
x
·
=
E(X ) = λr
x −λ+1 dx = −
r
λ−2
λ−2
r
e dunque la varianza vale
Var(X) = E(X 2 ) − E(X)2 =
λr 2
λ2 r 2
λr 2 (λ − 1)2 − λ2 r 2 (λ − 2)
−
=
=
λ − 2 (λ − 1)2
(λ − 2)(λ − 1)2
λr 2
·
=
(λ − 2)(λ − 1)2
Per λ → +∞ la media tende a r, mentre la varianza converge a 0.
3.7
√1 (X
2
Basta osservare che la v.a. X − Y = X + (−Y ) segue una legge N(0, 2) e dunque
− Y ) ∼ N(0, 1). Dunque
P(X > Y ) = P(X − Y > 0) = P
mentre allo stesso modo
− Y ) > 0 = 1 − 8(0) =
= P X − Y > 21 = P √1 (X − Y ) >
2
1
√
= 1 − 8(0.35) = 0.36 .
=1−8
P X>Y +
1
2
√1 (X
2
2 2
1
√
2 2
1
2
=
3.8 Se il modello normale è valido, la probabilità che uno studente ottenga un voto superiore
al 24 è pari a P(X ≥ 24), dove X ∼ N(21, 9). Ma sappiamo che si può scrivere X = 3Z + 21,
dove Z ∼ N(0, 1). Dunque
= P(Z ≥ 1) = 1 − 8(1)
P(X ≥ 24) = P(3Z + 21 ≥ 24) = P Z ≥ 24−21
3
46
Parte 1: soluzioni
dove 8 indica la f.r. di una legge N(0, 1). Uno sguardo alle tavole dà il valore 8(1) = 0.84.
Dunque la probabilità richiesta è 1 − 8(1) = 0.16.
Allo stesso modo la probabilità che uno studente ottenga un voto ≤ 17 è
= P(Z ≤ −1.33) = 8(−1.33) =
P(X ≤ 17) = P(3Z + 21 ≤ 17) = P Z ≤ 17−21
3
= 1 − 8(1.33) = 1 − 0.908 = 0.092 .
La probabilità che uno studente non ottenga la sufficienza alla prova scritta è del 9.2%.
• L’argomento chiave di questo esercizio è il fatto che se X è N(µ, σ 2 ), allora si può scrivere
X = σ Z + µ, dove Z ∼ N(0, 1). Questo metodo, che consiste nel ridursi sempre al caso di
una legge N(0, 1), è quello che conviene usare sempre per calcolare quantità legate alle leggi
normali.
3.9 La probabilità che un individuo abbia un’altezza superiore ai 190 cm è P(X > 190)
dove X ∼ N(175, 81). Ma sappiamo che si può scrivere X = 9Z + 175, dove Z ∼ N(0, 1).
Dunque
P(X > 190) = P Z > 190−175
= P(Z > 53 ) = 1 − 8(1.67)
9
dove 8 è la f.r. di una v.a. N(0, 1). Uno sguardo alle tavole dà 8(1.67) = 0.95 e dunque
1 − 8(1.67) = 0.05. La percentuale d’italiani di statura > 190 cm sarebbe del 5%.
Allo stesso modo la probabilità che un italiano sia riformato alla visita di leva sarebbe
P(X ≤ 153) = P Z ≤ 153−175
= P Z ≤ − 22
9
9 = 8(−2.44) = 0.008 .
Dunque la percentuale di reclute scartate sarebbe dello 0.8%.
3.10
La probabilità che una bottiglia risulti insufficientemente riempita è P(X < 730).
Osserviamo di nuovo che si può scrivere X = σ Z + µ con Z ∼ N(0, 1). Dunque
P(X < 730) = P(σ Z + µ < 730) = P Z < 730−µ
.
σ
Uno sguardo alle tavole ci informa che, perché questa probabilità sia inferiore a 0.002, occorre
≤ −2.88, ovvero µ ≥ 730 + σ · 2.88 = 802. Se invece la varianza fosse
che sia 730−µ
σ
σ 2 = 400 si otterrebbe µ ≥ 787.6.
3.11 a) k deve essere scelto in modo che l’integrale di f valga 1, cioè deve essere uguale
all’inverso di
Z
+∞
x 3 e−x/2 dx .
0
In questo caso però basta riconoscere che f è una densità Ŵ(4, 21 ) e dunque k =
1
24 Ŵ(4)
=
1
.
24 3!
b) X + Y ha legge Ŵ(8, 21 ), per la regola della somma di due v.a. Gamma indipendenti.
Sappiamo inoltre che in generale la v.a. aX ha densità
faX (x) =
1
f
|a|
x
a
.
Esercizio 3.12
47
Dunque nel nostro caso
f2X (x) =
1
f
2 X
x
2
ovvero 2X è Ŵ(4, 41 ).
3.12
=k
x 3 −x/4
e
24
a) La f.r. si calcola con il cambio di variabile s α = u, αs α−1 ds = du: se t > 0
F (t) =
Z
t
λαs
0
α−1 −λs α
e
ds =
Z
tα
0
α
λe−λu du = 1 − e−λt .
Per mostrare che f è una densità occorre calcolarne l’integrale e mostrare che esso vale 1. Ma,
poiché già abbiamo calcolato la f.r., basta osservare che
Z t
Z +∞
f (s) ds = lim F (t) = 1 .
f (s) ds = lim
−∞
t→+∞
t→+∞ −∞
b) Se X è esponenziale di parametro λ, ricordando i valori delle costanti per le leggi Gamma,
si ha
Z +∞
λŴ(β + 1)
Ŵ(β + 1)
E(X β ) = λ
t β e−λt dt =
=
·
β+1
λ
λβ
0
Per calcolare la legge di X β usiamo il solito metodo della funzione di ripartizione: se G è la
f.r. di X β allora, per t > 0,
G(t) = P(X β ≤ t) = P(X ≤ t 1/β ) = 1 − e−λt
1/β
da cui si vede che X β è di Weibull di parametri λ e α = β1 (ha la stessa f.r.). Dunque una v.a. Y
di Weibull di parametri λ e α è della forma X 1/α , dove X è esponenziale di parametro λ; essa
ha dunque media
Ŵ(1 + α1 )
·
E(Y ) = E(X 1/α ) =
λ1/α
Per la varianza, evidentemente
E(Y 2 ) = E(X 2/α ) =
e
Var(Y ) = E(Y 2 ) − E(Y )2 =
Ŵ(1 + α2 )
λ2/α
Ŵ(1 + α2 ) − Ŵ(1 + α1 )2
λ2/α
c) Basta osservare che Ŵ(1 + 2t) − Ŵ(1 + t)2 è la varianza di una v.a. di Weibull di parametri
λ = 1 e α = 1t e quindi si tratta di una quantità positiva.
d) Per simulare una v.a. di Weibull di parametri α, λ basta dunque simulare una v.a. esponenziale Y di parametro λ e poi porre X = Y 1/α . In maniera equivalente si può anche ricordare
da a) (o dall’Esempio 3.48) che la funzione di ripartizione di una v.a. di Weibull è
α
F (t) = 1 − e−λ t ,
t > 0,
48
Parte 1: soluzioni
È facile ora vedere che, per y > 0, si ha
1
1/α
F −1 (y) = − log(1 − y)
λ
La funzione di ripartizione in questo caso è quindi invertibile e quindi, come indicato a pag.142,
basta porre X = F −1 (Z), dove Z è uniforme su [0, 1].
3.13 a) Sappiamo che se X ∼ N(µ, σ 2 ) allora Z = X − µ ∼ N(0, σ 2 ). Sappiamo però
che i momenti di ordine dispari delle leggi normali centrate sono tutti nulli, quindi
E((X − µ)3 ) = E(Z 3 ) = 0
e dunque γ = 0. In effetti in questo calcolo abbiamo utilizzato unicamente il fatto che le
v.a. normali hanno una legge che è simmetrica rispetto alla media, cioè sono tali che X − µ e
−(X − µ) hanno la stessa legge. Per tutte le v.a. con questa proprietà si ha
E[(X − µ)3 ] = E[−(X − µ)3 ] = −E[(X − µ)3 ]
per cui E((X − µ)3 ) = 0 e γ = 0. Tutte le v.a. simmetriche intorno alla media (cioè tali che
X − µ e −(X − µ) hanno la stessa legge) hanno dunque indice di skewness = 0.
b) Ricordiamo che per una v.a. X ∼ Ŵ(α, λ) il momento di ordine k vale
E(X k ) =
(α + k − 1)(α + k − 2) . . . α
Ŵ(α + k)
=
λk Ŵ(α)
λk
ovvero per i primi tre momenti:
E(X) =
α
,
λ
E(X 2 ) =
α(α + 1)
,
λ2
E(X 3 ) =
α(α + 1)(α + 2)
·
λ3
Sviluppando il binomio di terzo grado (qui µ = αλ )
E((X − µ)3 ) = E(X 3 ) − 3E(X 2 )µ + 3E(X)µ2 − µ3 =
1
= 3 α(α + 1)(α + 2) − 3α 2 (α + 1) + 3α 3 − α 3 =
λ
α
= 3 α 2 + 3α + 2 − 3α 2 − 3α + 2α 2 =
λ
2α
= 3·
λ
D’altra parte la varianza vale σ 2 =
α
λ2
per cui
γ =
2α
λ3
α 3/2
λ3
= 2α −1/2 .
Esercizio 3.13
49
In particolare l’indice di skewness non dipende da λ e quello di una legge esponenziale Ŵ(1, λ)
è sempre uguale a 2. Osserviamo anche che la skewness di una legge Ŵ è sempre positiva, il che
è in accordo con l’intuizione (il grafico delle densità è sempre come nella Figura 3.21, almeno
per α > 1).
c) Useremo sempre lo sviluppo del binomio di terzo grado, ma occorre ora calcolare il momento del terz’ordine di una legge di Poisson. In effetti già conosciamo i momenti di ordine
uno: E(X) = λ e di ordine due: E(X 2 ) = Var(X) + E(X)2 = λ + λ2 . Il momento di ordine
tre può essere ottenuto in modi diversi: intanto direttamente con la definizione:
E(X 3 ) = e−λ
= λe−λ
∞
X
k=0
∞
X
i=0
k3
∞
∞
k=1
i=0
X
X
λk
λi+1
λk
k2
(i + 1)2
= e−λ
= e−λ
=
k!
(k − 1)!
i!
(i 2 + 2i + 1)
λi
i!
= λ(λ2 + λ + 2λ + 1) = λ3 + 3λ2 + λ
Oppure anche derivando, a scelta, la funzione caratteristica oppure la funzione generatrice dei
momenti. Ricordiamo che, per quest’ultima, si ha (vedi la (3.68))
d3
m (0) = E(X 3 ) .
dθ 3 X
(1.8)
La funzione generatrice dei momenti di una v.a. di Poisson di parametro λ è (Esempio 3.71 b))
mX (θ ) = eλ(e
θ −1)
.
Derivando pazientemente
d
θ
mX (θ ) = λeθ eλ(e −1)
dθ
d2
θ
mX (θ ) = (λeθ + λ2 e2θ )eλ(e −1)
2
dθ
d3
θ
m (θ ) = (λeθ + 3λ2 e2θ + λ3 e3θ )eλ(e −1)
dθ 3 X
da cui, ponendo θ = 0,
E(X 3 ) =
d3
m (0) = λ + 3λ2 + λ3 .
dθ 3 X
Finalmente
E((X − µ)3 ) = E(X 3 ) − 3E(X 2 )µ + 3E(X)µ2 − µ3 =
= λ + 3λ2 + λ3 − 3(λ + λ2 )λ + 3λ3 − λ3 = λ
e quindi
γ =
Paolo Baldi
Calcolo delle Probabilità
McGraw-Hill 2007
λ
= λ−1/2 .
λ3/2
50
Parte 1: soluzioni
3.14
a) Se X ∼ N(0, 1), ripetendo i calcoli dell’Esempio 3.72,
1
E(esX ) = √
2π
1
=√
2π
Z
+∞
1
2
e− 2 (x−s) dx es
2 /2
−∞
Z
+∞
esx e−x
−∞
=
↑
y=x−s
es
2 /2
2 /2
1
√
2π
dx =
Z
+∞
e−y
2 /2
−∞
dy = es
2 /2
.
b1) Se Y è lognormale di parametri µ e σ 2 , allora Y = eX , dove X ∼ N(µ, σ 2 ); d’altra
parte sappiamo che si può rappresentare X = σ Z + µ, dove Z ∼ N(0, 1). Dunque, per il
calcolo precedente
2
E(Y ) = E(eX ) = E(eσ Z+µ ) = eµ eσ /2 .
Per la varianza invece calcoliamo prima
E[(eX )2 ] = E[e2X ] = E[e2(σ Z+µ) ] = e2µ e2σ
2
e dunque
2
Var(eX ) = e2µ e2σ − eµ eσ
0.9
.
...
2 /2
2
2
2
= e2µ eσ eσ − 1 .
....... .......
.......
......
.
....
...
.
.....
...
..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.........
.....
.....
.
.
.
.
.
.
.
.
.
.
.
..
.
.. .............
...
.
.....
........
..
..
.
.
.
.
.
........
......
..
........
..
.
.
........
σ 2 = 41
..
.
.
.
.........
......
. ւ
.........
...
....
..........
.
.
.
.
.
.
...
...........
.
..
...........
.......
..
..
............
..
...
..............
..
................ ..... .....
..
..................... ..
..
..
.......................
ր
...
...............................
.
.
2
.
.
....... .. ..................................
σ =1
..
..........
..... .......
...
..
....... ....... .........................
.
.
.
.
.. .......
...
..
.
.
.
...... .......
1
Figura 1.4 Grafico della densità lognormale per diversi valori di σ 2 e µ = 0. Da notare che al crescere
di σ 2 la media cresce, come si è visto nell’esercizio, mentre la moda (cioè il punto di massimo della
densità) diventa più piccolo. Sempre per µ = 0, la mediana vale 1 per ogni valore di σ 2 .
b2) Se Y è lognormale di parametri µ e σ 2 e Z ∼ N(0, 1), allora
P(Y ≤ z) = P(eσ Z+µ ≤ z) = P Z ≤
1
σ
(log z − µ)
Poiché P(Z ≤ x) = 21 se e solo se x = 0, si ha P(Y ≤ z) = 21 se e solo se z = eµ , che dunque
è il valore cercato della mediana. La mediana dunque non dipende da σ 2 e, se si tiene fisso
il valore di µ e si fa variare σ 2 , la media cresce al crescere di σ 2 , mentre la mediana rimane
costante (vedi anche la Figura 1.4).
Esercizio 3.17
51
3.15 Nella risoluzione di questo esercizio supporremo che il lettore sappia come simulare
le v.a. N(0, 1) e le esponenziali, come indicato nel paragrafo 3.10.
χ 2 (n) è la legge della somma dei quadrati di n v.a. N(0, 1). Basterà quindi simulare n v.a.
N(0, 1) indipendenti X1 , . . . , Xn , dopo di che X12 + . . . + Xn2 avrà legge χ 2 (n).
Ŵ(n, λ) è la legge della somma di n v.a. indipendenti ed esponenziali di parametro λ. Queste
si ottengono considerando che, se X è uniforme su [0, 1], allora Y = − λ1 log X è appunto
esponenziale di parametro λ.
Allo stesso modo per ottenere una v.a. Ŵ( n2 , λ) si possono sommare n v.a. indipendenti
ciascuna di legge Ŵ( 21 , λ). Per ottenere ciascuna di queste basta osservare che è Ŵ( 21 , λ) la
legge del quadrato di una v.a. N(0, √1 ) (Esempio 3.42).
2λ
3.16 a) La v.a. Y è a valori discreti (interi ≥ 0). Inoltre è chiaro che Y = k se e solo se
k ≤ X < k + 1. Dunque
Z k+1
P(Y = k} = P(k ≤ X < k + 1) = λ
e−λt dt = e−λk − e−λ(k+1) = e−λk (1 − e−λ ) .
k
Si può riconoscere che Y ha legge geometrica di parametro p = 1 − e−λ e quindi media
e−λ
·
1 − e−λ
b) Simulare una v.a. esponenziale è facile, poiché è esponenziale di parametro λ la v.a.
X = − λ1 log U , dove U è uniforme su [0, 1]. Abbiamo ora visto che è geometrica la v.a. ⌊X⌋,
che si calcola facilmente a partire da X. Occorre solo scegliere λ in modo che sia p = 1 − e−λ ,
cioè λ = − log(1 − p). Dunque la procedura di simulazione è la seguente:
1) Si simula una v.a. U uniforme su [0, 1].
2) Si pone
1
log U
X = log(1−p)
che è allora geometrica di parametro p.
3.17 a) Il calcolo delle leggi del massimo o del minimo di v.a. indipendenti è stato visto
varie volte nei Capitoli 2 e 3. Ricordando che la f.r. di una v.a. esponenziale di parametro λ è
F (t) = 1 − e−λt per t > 0, mentre F (t) = 0 per t < 0, la f.r. di X(3) è data, sempre per t > 0,
da
G(t) = P(X(3) ≤ t) = P(X1 ≤ t, X2 ≤ t, X3 ≤ t) =
= P(X1 ≤ t)P(X2 ≤ t)P(X3 ≤ t) = (1 − e−λt )3
da cui derivando si ottiene la densità di X(3) : se t > 0, g(t) = G′ (t) = 3λe−λt (1 − e−λt )2 (per
t ≤ 0 naturalmente g(t) = 0). La speranza matematica di X(3) vale dunque
Z +∞
E(X(3) ) = 3λ
t e−λt (1 − e−λt )2 dt =
0
Z +∞
3
1 1 11
= 3λ
t e−λt − 2e−2λt + e−3λt dt =
·
1− +
=
λ
2 9
6λ
0
52
Parte 1: soluzioni
Per il calcolo della legge di X(1) invece, se H ne indica la f.r. e t > 0,
H (t) = 1 − P(X(1) > t) = 1 − P(X1 > t, X2 > t, X3 > t) =
= 1 − P(X1 > t) P(X2 > t) P(X3 > t) = 1 − e−3λt .
Quindi X(1) è esponenziale di parametro 3λ ed ha media
b) Per t fissato poniamo, per i = 1, 2, 3,
Yi =
n
1
0
1
3λ .
se Xi ≤ t
altrimenti
allora le v.a. Yi sono indipendenti e di Bernoulli di parametro p = P(Xi ≤ t) = 1 − e−λt .
Poiché Zt = Y1 + Y2 + Y3 , allora Zt ∼ B(3, 1 − e−λt ).
c) L’idea per il calcolo della f.r. K di X(2) consiste nel collegare la f.r. di X(2) con la legge
di Zt , dato che gli eventi {X(2) ≤ t} e {Zt ≥ 2} sono uguali. Quindi, per t > 0,
K(t) = P(X(2) ≤ t) = P(Zt ≥ 2) = P(Zt = 2) + P(Zt = 3) =
= 3(1 − e−λt )2 e−λt + (1 − e−λt )3 .
Derivando
k(t) = K ′ (t) = 6λe−2λt (1 − e−λt )
per cui la speranza matematica di X(2) vale
E(X(2) ) = 6λ
Z
+∞
0
t e−2λt (1 − e−λt ) dt =
5
·
6λ
Poiché E(X2 ) = λ1 , E(X2 ) > E(X(2) ).
d) Se indichiamo con X1 , X2 i tempi di vita dei due elementi, il tempo di vita del componente
formato dai due elementi in serie è dato da min(X1 , X2 ) ed il tempo medio è la speranza
matematica di questa v.a.; ripetendo il calcolo fatto in a) per determinare la legge di X(1) si vede
facilmente che la legge di min(X1 , X2 ) è ancora esponenziale ma di parametro 2λ, per cui la
1
sua media vale 2λ
.
e) Se indichiamo con X1 , X2 , X3 il tempo di vita di ciascuno degli elementi, allora chiaramente il tempo di vita del componente è dato da X(2) e sappiamo dal punto c) che
E(X(2) ) =
3.18
5
·
6λ
a) Calcoliamo la f.r. di Z: passando in coordinate polari si ha, per z ≥ 0,
FZ (z) = P(Z ≤ z) = P (X, Y ) si trova nella palla di centro 0 e raggio z =
Z
Z 2π
Z z
1
1
2
2
− 21 (x 2 +y 2 )
e
dx dy =
dθ
=
e−̺ /2 ̺ d̺ = 1 − e−z /2
2π {x 2 +y 2 ≤z2 }
2π 0
0
Esercizio 3.19
53
2
da cui derivando si ottiene la densità di Z: fZ (z) = ze−z /2 se z > 0, mentre f (z) = 0 per
z ≤ 0. Uno sguardo al paragrafo 3.8 mostra che si tratta di una densità di Weibull.
b) Abbiamo appena calcolato la f.r. di Z. Dunque la quantità richiesta è
P(Z > 1) = 1 − FZ (1) = e−1/2 .
3.19 La prima probabilità richiesta si può scrivere P((X, Y ) ∈ A) dove A è la regione del
piano formata dai punti (x, y) tali che xy > 21 . Limitandoci ai punti che hanno entrambe le
coordinate positive, si vede facilmente che si tratta della regione al di sopra dell’iperbole della
Figura 1.5.
...
...
...............................
...........................................
........................................
.....................................
........................
................................
..............................
.................
....................
...........
..........
.......
.........
....
ւ
xy =
1
2
Figura 1.5
La probabilità richiesta è dunque l’area della porzione di quadrato che si trova in A, cioè il
valore dell’integrale
Z 1
Z 1
Z 1
1
1 dx = (1 − log 2) .
dx
dy =
1−
1
1
1
2x
2
2
2x
2
Inoltre
P XY < 41 |X >
1
2
=
P(XY < 41 , X > 21 )
·
P X > 21
1
, x > 21 } che è contenuta nel quadrato è quella ombreggiata
La porzione della regione {y < 4x
nella Figura 1.6. La probabilità condizionale P(XY < 41 |X > 21 ) è dunque uguale all’area
della superficie ombreggiata divisa per P(X > 21 ) = 21 , cioè
Z 1
Z 1
Z 1
4x
1
1
dx = log 2 .
2
dy = 2
dx
1
1 4x
2
0
2
2
...
...
...
...
...
...
...
...
...
...
...
.....
.....
..
.......................
...................................
.............................................................
. . . . . . . . . . . . . . .............
.........................................................................
..........................................................
..........................................................
ւ
1
2
Figura 1.6
xy =
1
4
54
Parte 1: soluzioni
Allo stesso modo si calcola l’ultima probabilità condizionale richiesta
P(XY > 41 , X
Y > 2)
·
P XY > 41 | X
Y >2 =
X
P( Y > 2)
La probabilità al denominatore è pari all’area della porzione di quadrato che si trova sotto la
retta y = x2 (ed è quindi 41 ), mentre il numeratore è uguale all’area della superficie ombreggiata
nella Figura 1.7. Quest’ultima vale
Z 1
Z x
Z 1
2
x
1 1
dx
dy
=
−
dx = (1 − log 2)
√
√
2
2 2
1
4x
8
2
4x
2
e quindi
1
P XY > 41 | X
Y > 2 = 2 (1 − log 2) .
...
...
...
...
..
..
..
..
..
..
..
...
...
...
....
.......
.......
...
.......
.....
.......
.....
.......
.
.
.
.....
.
.
.
..... ....
......
.........................................
................. ........
....... .. .............................
.............
.......
.
.
.
.
.
.
...
......
..
.......
.......
.......
.
.
.
.
.
.
.
.
.
....
ց
y=
ւ
x
2
xy =
1
4
√2
2
Figura 1.7
• I due esercizi precedenti illustrano come il calcolo della probabilità di eventi legati a più
v.a. si riconduca spesso a quello dell’integrale della densità congiunta su opportune regioni del
piano, ovvero, nel caso di densità uniformi, al calcolo di aree.
3.20
a) Dobbiamo calcolare la probabilità
P X2 ≤ min(X1 , X3 ) .
Ciò si può fare calcolando prima la densità f di min(X1 , X3 ). Una volta effettuato questo
calcolo, indicando con f2 la densità di X2 potremo scrivere
Z
(1.9)
P(X2 ≤ min(X1 , X3 )) =
f2 (x) f (y) dx dy
A
R2
dove A = {(x, y); x ≤ y} ⊂
è l’insieme dei punti del piano che hanno l’ascissa più piccola
dell’ordinata. Tutto quindi si riconduce al calcolo di f e dell’integrale della (1.9). Se 0 ≤ t ≤ 1
e F indica la f.r. di min(X1 , X3 ), allora
1 − F (t) = P(min(X1 , X3 ) > t) = P(X1 > t)P(X3 > t) .
Esercizio 3.21
Poiché
P(X1 > t) = P(X2 > t) =
Z
55
1
t
ds = 1 − t
si ha 1 − F (t) = (1 − t)2 . Quindi F (t) = 1 − (1 − t)2 , per 0 ≤ t ≤ 1, mentre, naturalmente,
F (t) = 0 se t < 0 e F (t) = 1 se t > 1. La densità di min(X1 , X3 ) si ottiene per derivazione:
n
2(1 − t) se 0 ≤ t ≤ 1
f (t) = F ′ (t) =
0
altrimenti .
Riprendendo la (1.9) e ricordando che la densità f2 di X2 vale 1 su [0, 1] e 0 fuori di [0, 1], si
ha infine
Z
Z 1
Z y
P(X2 ≤ min(X1 , X3 )) =
f2 (x) f (y) dx dy = 2
(1 − y) dy
dx =
=2
Z
A
1
0
0
0
1
2
y(1 − y) dy = 1 − = ·
3
3
b) Se si suddividono i 30 numeri in terzine si vede che in tutte il numero di mezzo è più
piccolo sia del primo che del terzo. Se il generatore fornisse numeri aleatori uniformi su [0, 1] e
indipendenti, la probabilità che in una singola terzina il numero in mezzo sia minore degli altri
due sarebbe 13 . La probabilità che ciò succeda per dieci terzine è quindi 3−10 = 1.7 · 10−5 . Un
valore così piccolo fa almeno sospettare che i numeri aleatori successivi non siano indipendenti.
Il generatore aleatorio quindi meriterebbe qualche controllo.
3.21 a) Se indichiamo con X1 , X2 , . . . gli intervalli di tempo tra le telefonate successive,
allora il tempo di arrivo della seconda telefonata è Y = X1 + X2 . Y ha dunque una legge
Ŵ(2, λ), e la sua f.r. è (vedi la (3.52))
−λt
FY (t) = 1 − e (1 + λt) se t > 0
0
altrimenti .
La probabilità richiesta è dunque 1 − e−2 (1 + 2) = 0.59.
b) Occorre determinare la legge condizionale di X1 dato Y = T . Per fare ciò useremo il
solito metodo di calcolare prima la densità congiunta di X1 e Y , che sarà ottenuta con il teorema
di cambio di variabile. La v.a. (X1 , Y ) si ottiene infatti da (X1 , X2 ) mediante la trasformazione
lineare associata alla matrice
1 0
A=
1 1
la cui inversa è
A−1 =
1
−1
0
1
La densità congiunta di (X1 , X2 ) è
f (x, y) =
λ2 e−λ(x+y)
0
se x > 0, y > 0
altrimenti .
56
Parte 1: soluzioni
Poiché det A = 1 la densità di (X1 , Y ) = (X1 , X1 + X2 ) è quindi
g(x, y) = f (A−1
x
y )
= f (x, y − x) .
g(x, y) è dunque = 0 se x ≤ 0 oppure y ≤ x, mentre vale λ2 e−λy per 0 < x < y. La densità
condizionale di X1 dato Y vale
ḡX1 |Y (x|y) =
g(x, y)
·
fY (y)
Essa è nulla se x non si trova nell’intervallo ]0, y[ mentre in questo intervallo vale
ḡX1 |Y (x|y) =
λ2 e−λy
1
= ·
2
−λy
λ ye
y
Dunque la distribuzione condizionale di X1 dato Y = y è semplicemente la distribuzione
uniforme su ]0, y[. La probabilità che la prima telefonata sia giunta dopo il tempo T2 sapendo
che la seconda è giunta al tempo T è uguale a 21 .
3.22
a) Perché f sia una densità occorre che sia
Z
f (u, v) du dv = c
Z
0
+∞
du
Z
u
0
2u −u2 /θ
c
e
v dv =
θ
θ
Z
+∞
0
u3 e−u
2 /θ
du = 1 .
L’ultimo integrale dell’espressione precedente si calcola per parti (vedi comunque il punto a)
2
dell’Esercizio 3.2). Esso vale dunque θ2 , per cui deve essere
c=
2
·
θ
b) Un modo per investigare l’indipendenza delle v.a. U e U
V consiste nel calcolo della loro
densità congiunta, per poi verificare che questa si può scrivere come prodotto di due funzioni
ciascuna delle quali dipende solo da una delle variabili. Il calcolo della legge congiunta di U e
U
V si può fare osservando che
U, U
V = φ(U, V )
dove φ è la funzione φ(u, v) = (u, uv ); questa funzione è certo infinite volte derivabile per
u > 0, v > 0: se essa fosse anche invertibile e la sua inversa derivabile potremmo calcolare
la densità congiunta g di U e U
V con il teorema di cambio di variabile negli integrali multipli,
grazie al quale si ha che
(1.10)
g(x, y) = f (φ −1 (x, y))| det Dφ −1 (x, y)| .
Le tappe successive per mostrare che U e U
V sono indipendenti sono dunque le seguenti: prima
occorre mostrare che φ è invertibile e calcolarne l’inversa (ovvero calcolarne l’inversa, il che
Esercizio 3.23
57
proverà che φ è invertibile). Poi bisogna calcolare il differenziale Dφ −1 (che in questo caso è
una matrice 2 × 2) e il suo determinante. A questo punto avremo la densità congiunta g tramite
la (1.10) e vedremo che essa è il prodotto di una funzione della sola variabile x moltiplicata
per una funzione della sola variabile y. Come si vede si tratta di un programma abbastanza
complesso, ma nel quale ogni singola parte non presenta grosse difficoltà.
Per calcolare l’inversa di φ, fissati dei valori x e y dobbiamo determinare dei numeri u e v
tali che φ(u, v) = (x, y). In altre parole dobbiamo risolvere rispetto a u e v il sistema
u=x
u
v =y
che dà facilmente u = x, v = xy . Dunque φ −1 (x, y) = (x, xy ). È immediato ora il calcolo del
differenziale di φ −1 :
1
0
Dφ −1 (x, y) = 1
x
− y2
y
per cui det Dφ −1 (x, y) = − yx2 . Abbiamo quindi calcolato tutte le quantità che compaiono nella
(1.10). Sostituendo i valori trovati dobbiamo però ricordare che f (u, v) è = 0 a meno che non
sia 0 < v < u. Dunque otteniamo f (φ −1 (x, y)) = f (x, xy ) = 0 a meno che non sia y > 1 e
x > 0. In conclusione
g(x, y) =
2 2x −x 2 /θ
x
e
1{x>0} (x)1{y>1} (y)
θ θ
y
{z
}
|
=f (φ −1 (x,y))
=
x
y2
|{z}
=
=| det Dφ −1 (x,y)|
1
4 3 −x 2 /θ
x e
1{x>0} (x)
1
(y)
θ2
y 3 {y>1}
|
{z
} |
{z
}
funzione della sola x
funzione della sola y
e dunque U e U
V sono indipendenti.
• Il metodo di calcolo della densità congiunta (a cui si è talvolta condotti per provare
l’indipendenza di due v.a.) con l’uso il teorema di cambio di variabile negli integrali multipli, illustrato in questo esercizio, è un tecnica che risulta utile in molte situazioni. Si tratta
di un calcolo piuttosto complesso ed al quale conviene ricorrere solo quando non ci sono altre
possibilità. Uno sguardo più da vicino mostra però che le diverse tappe del calcolo sono relativamente semplici: calcolo dell’inversa φ −1 (spesso l’operazione più difficile), calcolo del suo
differenziale e del determinante di quest’ultimo, sostituzione dei valori nella (1.10).
3.23 Ricordiamo che la media di una v.a. esponenziale di parametro λ è λ1 .
1
, µ = 61 . Indichiamo con S1 e S2 i tempi di vita di ciascuno dei due
a) Poniamo λ = 10
elementi che compongono il secondo componente. Se T2 è il tempo di vita di quest’ultimo,
allora T2 = max(S1 , S2 ). Se supponiamo che S1 e S2 siano indipendenti allora abbiamo gi]a‘
visto altre volte come si fa il calcolo della f.r. di T2 :
P(T2 ≤ t) = P(max(S1 , S2 ) ≤ t) = P(S1 ≤ t, S2 ≤ t) =
= P(S1 ≤ t) P(S2 ≤ t) = (1 − e−µt )2 .
58
Parte 1: soluzioni
Derivando otteniamo la densità di T2 : f2 (t) = 2µe−µt (1 − e−µt ) per t > 0, f2 (t) = 0 per
t ≤ 0; possiamo quindi calcolare la media
E(T2 ) =
Z
+∞
tf2 (t) dt = 2µ
0
Z
+∞
0
t (e−µt − e−2µt ) dt =
1
3
2
−
=
=9.
µ 2µ
2µ
Il secondo componente dura in media meno del primo.
b) Indichiamo con T1 il tempo di vita del primo componente e con f1 la sua densità. Se
A = {(x, y), x > y} allora dire che T1 > T2 è lo stesso che dire che (T1 , T2 ) ∈ A. Dunque, se
come appare ragionevole supponiamo che T1 e T2 siano indipendenti,
Z
P(T1 > T2 ) = P((T1 , T2 ) ∈ A) =
f1 (x)f2 (y) dx dy =
A
Z +∞
Z +∞
Z +∞
2µe−µy (1 − e−µy ) dy
λe−λx dx =
2µe−(λ+µ)y (1 − e−µy ) dy =
y
0
= 2µ
Z
+∞
0
e−(λ+µ)y dy − 2µ
Z
0
+∞
0
e−(λ+2µ)y dy =
2µ
2µ
25
−
=
= 0.48
λ + µ λ + 2µ
52
Quindi, nonostante in media duri più, la probabilità che il primo componente resti funzionante
più a lungo del secondo è minore di 21 . Naturalmente l’integrale doppio precedente si sarebbe
anche potuto calcolare integrando prima in y e poi in x, cioè
P(T1 > T2 ) =
Z
A
f1 (x)f2 (y) dx dy =
Z
+∞
λe−λx dx
0
Z
0
x
2µe−µy (1 − e−µy ) dy .
Il risultato naturalmente resta lo stesso, ma i conti sono un po’ più complicati.
• Da segnalare in questo esercizio il calcolo della probabilità di eventi della forma {T1 > T2 }
effettuato usando la densità congiunta, che è un metodo di uso frequente.
3.24 a) I dati del problema permettono di affermare che la densità condizionale di Y dato
X = x deve essere f¯Y |X (y |x) = xe−xy per y > 0 e f¯Y |X (y |x) = 0 altrimenti. Poiché
conosciamo anche la legge di X, possiamo calcolare la legge congiunta di (X, Y ), da cui
potremo ricavare la legge di Y , che ne è una marginale, e poi la legge condizionale di X dato
Y = y. La legge congiunta di (X, Y ) è
f (x, y) = fX (x)f¯Y |X (y |x) =
λα α −(λ+y)x
Ŵ(α) x e
0
se x > 0, y > 0
altrimenti .
Calcoliamo la densità di Y come marginale di f . Per y ≤ 0 fY (y) = 0, mentre per y > 0
fY (y) =
Z
+∞
−∞
f (x, y) dx =
λα
Ŵ(α)
=
Z
+∞
0
x α e−(λ+y)x dx =
αλα
·
(λ + y)α+1
λα Ŵ(α + 1)
=
Ŵ(α) (λ + y)α+1
Esercizio 3.25
59
Il valore dell’integrale è stato ottenuto immediatamente riconoscendo che l’integrando è, a meno
della costante, una densità Ŵ(α + 1, λ + y).
b) Y ha speranza matematica finita se e solo se è convergente l’integrale
Z +∞
y
dy .
(λ + y)α+1
0
L’integrando tende a 0 per y → +∞ come y −α ed è quindi convergente se e solo se α > 1.
Quindi Y non ha speranza matematica finita se α ≤ 1. Se invece α > 1, integrando per parti si
ha
Z +∞
Z +∞
y
λα y +∞
λα
E(Y ) = αλα
dy
=
−
dy =
+
α+1
α
(λ + y)
(λ + y) 0
(λ + y)α
0
0
|
{z
}
=0
+∞
1
λα
λ
·
=−
=
α − 1 (λ + y)α−1 0
α−1
c) La legge condizionale di X dato Y = y, y > 0, si ottiene facendo il quoziente tra la densità
congiunta e quella di Y , cioè
(λ + y)α+1 α −(λ+y)x
f¯X|Y (x |y) =
x e
αŴ(α)
per x > 0, mentre è uguale a 0 per x ≤ 0. Riconosciamo che la legge condizionale è una
Ŵ(α + 1, λ + y). Quindi la sua media vale α+1
λ+y .
• Due sono gli aspetti interessanti di questo esercizio: in primo luogo come si usano i dati
del problema per indicare le leggi marginali e/o condizionali delle v.a. che si considerano e
come da queste si ottiene la densità congiunta; poi come dalla densità congiunta si riesce a
calcolare tutto il resto.
3.25
a) La v.a. X − Y si può scrivere
X − Y = X + (−Y ) .
Le v.a. X e −Y sono ancora indipendenti ed inoltre −Y ha legge N(0, 1). Per la regola della
somma di v.a. normali indipendenti,
√X − Y ha legge N(0, 2).
√
b) Per calcolare la legge di (X, 2Y ) basta osservare che X e 2 Y sono ancora v.a. indipendenti. La prima è N(0, 1) mentre la seconda è N(0, 2). Dunque la densità congiunta
è
1
2
2
g(x, y) = √ e−x /2 e−y /4 .
2 2π
√
Avremmo anche potuto osservare che il vettore aleatorio (X, 2 Y ) segue una legge normale
multivariata, essendo una funzione lineare del vettore (X, Y ). La sua legge risulta determinata
dal fatto che la matrice di covarianza è
1 0
K=
0 2
60
Parte 1: soluzioni
√
√
come risulta dal calcolo delle varianze di X e 2 Y e dal fatto che X e 2 Y sono indipendenti
e quindi non correlate.
Per il calcolo della legge di (X, X − Y ) osserviamo che si tratta di una v.a congiuntamente
gaussiana, essendo una funzione lineare delle v.a. X, Y che sono esse stesse gaussiane.
La legge di (X, X − Y ) resta dunque determinata una volta che se ne conoscano media e
matrice di covarianza. È chiaro che E(X) = E(X − Y ) = 0 e dunque anche (X, X − Y ) è
centrata. Per la matrice di covarianza C basta osservare che
Var(X) = 1
Var(X − Y ) = Var(X) + Var(−Y ) = 2
Cov(X, X − Y ) = Cov(X, X) − Cov(X, Y ) = 1 .
| {z } | {z }
=0
=Var(X)=1
Dunque
C=
1
1
1
2
Avremmo anche potuto ricavare la matrice di covarianza C mediante la formula
1 1
1
1
1
0
=
C = AI A∗ =
1 2
0 −1
1 −1
(I indica sempre la matrice identità
I=
1
0
0
1
che è la matrice di covarianza del vettore (X, Y )).
In conclusione (X, X − Y ) ha legge N(0, C).
√
Il calcolo delle marginali si fa immediatamente, poiché sappiamo che X
√ ∼ N(0, 1), 2 Y ∼
N(0, 2), X − Y ∼ N(0, 2). In particolare le due v.a. (X, X − Y ) e (X, 2 Y ) hanno le stesse
distribuzioni marginali ma leggi congiunte diverse.
Per calcolare la legge condizionale di X dato X − Y = z si può usare la definizione, secondo
la quale
g(x, z)
ḡX|X−Y (x |z) =
gX−Y (z)
dove g indica la densità congiunta di X e X − Y , appena calcolata. Dunque
(1.11)
1
1 2
1
1
2
2
2
2
ḡX|X−Y (x |z) = √ e− 2 (2x −2xz+z ) ez /4 = √ e−(x −xz− 4 z ) .
π
π
In generale però conviene ricordare che per le leggi condizionali di variabili congiuntamente
normali valgono le (3.89) e (3.90), cioè se U e Z hanno legge congiunta normale, allora la legge
condizionale di U dato Z = z è ancora normale di varianza
σ 2 = Var(U ) −
Cov(U, Z)2
Var(Z)
Esercizio 3.26
e media
µ = E(U ) +
61
Cov(U, Z)
(z − E(Z)) .
Var(Z)
Nel nostro caso, in cui U = X e Z = X − Y , la densità condizionale x → ḡX|X−Y (x |z)
è dunque normale di media µ = 2z e varianza σ 2 = 21 . Un calcolo diretto mostrerebbe che
l’espressione di questa densità è data proprio dalla (1.11). Questo secondo modo di derivare la
densità condizionale, che vale solo per le v.a. congiuntamente normali, è molto più pratico, ad
esempio perché fornisce immediatamente il valore della media condizionale, 2z , che altrimenti
avrebbe richiesto il calcolo diretto della media della densità data dalla (1.11).
c) Per mostrare che X − Y e X + Y sono indipendenti si può calcolare, con il teorema di
cambio di variabile, la legge congiunta di X − Y e X + Y e vedere che la si può spezzare nel
prodotto di due funzioni che dipendono ciascuna da una sola delle variabili. Ma in questo caso
sappiamo che le v.a. X − Y e X + Y sono congiuntamente normali, essendo funzioni lineari
delle v.a. X, Y che sono congiuntamente normali.
Sappiamo inoltre che v.a. congiuntamente normali e non correlate sono indipendenti. Ora
Cov(X − Y, X + Y ) = Cov(X, X) + Cov(X, Y ) + Cov(−Y, X) + Cov(−Y, Y ) = 0 .
| {z } | {z } |
{z
} |
{z
}
=Var(X)=1
=0
=0
=− Var(Y )=−1
e dunque X − Y e X + Y sono non correlate e indipendenti. Il fatto che X − Y e X + Y siano
non correlate si può vedere anche calcolandone matrice di covarianza C con la formula
1 −1
2 0
1 1
C = AI A∗ =
=
0 2
−1 1
1
1
Poiché C è diagonale le due v.a. sono non correlate.
• Questo esercizio mette bene in evidenza alcuni fatti che rendono semplici i calcoli con le
leggi normali:
a) La proprietà che la somma di v.a. (reali) normali indipendenti è ancora normale con media
pari alla somma delle medie e varianza uguale alla somma delle varianze.
b) La proprietà che trasformazioni lineari trasformano leggi normali in leggi normali. Questo
fatto è particolarmente utile perché la legge cercata rimane determinata non appena si sappiano
calcolare matrice di covarianza e media (che in questo esercizio era sempre uguale a 0). Il calcolo
della matrice di covarianza si fa facilmente o calcolando una per una varianze e covarianze oppure
usando la formula che dice che se la v.a. m-dimensionale Z ha matrice di covarianza CZ e A è
una matrice n × m, allora la v.a. W = AZ ha matrice di covarianza CW = ACZ A∗ (A∗ è la
trasposta), il che riduce il calcolo della matrice di covarianza a quello di un prodotto di matrici.
c) Per ultimo ricordiamo che esistono formule molto semplici che danno, per v.a. congiuntamente normali, le leggi condizionali (vedi le (3.89) e (3.90)). Esse in particolare danno
immediatamente il valore della media condizionale (che non è altro che la media della legge
condizionale e che quindi è data dalla (3.90)).
3.26
a) Calcoliamo la f.r. di T . Indichiamo con A l’evento ‘‘il pezzo prescelto è stato
prodotto dalla prima linea’’ e con B l’evento ‘‘il pezzo prescelto è stato prodotto dalla seconda
62
Parte 1: soluzioni
linea’’. A e B hanno probabilità p e q rispettivamente, mentre, condizionalmente a A e B, T ha
legge esponenziale di parametri λ e µ rispettivamente. Dunque, ricordando l’espressione della
f.r. delle leggi esponenziali si ha, per t ≥ 0
P(T ≤ t) = P(T ≤ t |A)P(A) + P(T ≤ t |B)P(B) =
= p(1 − e−λt ) + q(1 − e−µt ) = 1 − pe−λt − qe−µt .
Naturalmente la f.r. è nulla per t ≤ 0. Derivando si ottiene la densità di T , che vale
−λt + qµe−µt se t > 0
f (t) = pλe
0
altrimenti
e quindi
Z
+∞
p
q
+ ·
λ
µ
0
b) Si tratta di calcolare P(A|T > s). Con la formula di Bayes si trova
E(T ) =
P(A|T > s) =
t (pλe−λt + qµe−µt ) dt =
P(T > s |A)P(A)
pe−λs
p
·
= −λs
=
−µs
P(T > s)
pe
+ qe
p + qe−(µ−λ)s
Per s che tende all’infinito, ricordando che supponiamo µ > λ, questa probabilità tende a 1 e
dunque più s è grande e più è probabile che il componente provenga dalla linea A.
Questo è in accordo con l’intuizione: infatti la condizione λ > µ implica che i pezzi della
prima linea di produzione hanno in media vita più lunga. Dunque era ragionevole aspettarsi
che più il pezzo risulta longevo, più è probabile che provenga dalla prima linea.
3.27 a) Se Z e W sono i tempi d’esecuzione della prima e della seconda fase rispettivamente,
il tempo di esecuzione totale è T = Z + W ; basta ora ricordare che la speranza matematica di
una v.a. esponenziale di parametro λ vale λ1 , per cui
E(T ) = E(Z) + E(W ) =
1
1
+ ·
λ µ
b) Se λ = µ possiamo usare la proprietà di somma delle leggi gamma: T è dunque Ŵ(2, λ)
e, per x > 0, ha densità
f (x) = λ2 xe−λx .
Se invece λ 6= µ calcoliamo la densità di T con la formula
Z +∞
f (x) =
f1 (t)f2 (x − t) dt
−∞
dove f1 e f2 sono densità esponenziali di parametri λ e µ rispettivamente. Ricordando che le
densità esponenziali sono uguali a 0 per valori negativi della variabile, si ha
Z x
Z x
f (x) = λµ
e−λt e−µ(x−t) dt = λµe−µx
e−(λ−µ)t dt =
0
0
λµ −µx
λµ
=
e
(1 − e−(λ−µ)x ) =
(e−µx − e−λx ) .
λ−µ
λ−µ
Esercizio 3.27
63
c) La probabilità che il programma non sia terminato ancora al tempo t + s sapendo che esso
non era terminato al tempo s
P(T > t + s |T > s) =
P(T > t + s)
1 − F (t + s)
P(T > t + s, T > s)
=
=
P(T > s)
P(T > s)
1 − F (s)
dove F è la f.r. di T . Calcoliamola:
Z t
λ
µ
λµ
(e−µx − e−λx ) dx =
(1 − e−µt ) −
(1 − e−λt ) =
F (t) =
λ
−
µ
λ
−
µ
λ
−
µ
0
λe−µt − µe−λt
=1−
λ−µ
dunque
P(T > t + s |T > s) =
λe−µ(t+s) − µe−λ(t+s)
.
λe−µs − µe−λs
Sostituendo i valori numerici si hanno i valori 0.42 per s = 1, 0.38 per s = 2.
d) La probabilità che la prima fase non sia ancora terminata, sapendo che il programma stesso
è ancora in corso al tempo s, è la probabilità condizionale P(Z > s | Z + W > s). Ora l’evento
{Z > s} è contenuto nell’evento {Z + W > s}, perché W è comunque una quantità > 0.
Dunque, se λ 6= µ,
P(Z > s, Z + W > s)
P(Z > s)
=
=
P(Z + W > s)
P(Z + W > s)
e−λs
1 − FZ (s)
= −µs
(λ − µ)
=
1 − F (s)
λe
− µe−λs
P(Z > s |Z + W > s) =
dove abbiamo utilizzato il fatto che Z è esponenziale di parametro λ (la f.r. F di T = Z + W
è stata calcolata in c)). Dunque
P(Z > s |Z + W > s) =
λ−µ
·
λe(λ−µ)s − µ
Possiamo ora analizzare il comportamento di questa probabilità condizionale per s grande.
Abbiamo due casi:
i) Se λ > µ (cioè se in media l’esecuzione della prima fase è più rapida della seconda) allora
e(λ−µ)s → +∞ e dunque P(Z > s |Z + W > s) → 0 per s → +∞.
ii) Se λ < µ allora e(λ−µ)s → 0 e quindi P(Z > s |Z +W > s) → 1− µλ . Con i dati numerici
indicati la probabilità che la prima fase non sia ancora terminata tende a 23 per s → +∞.
Se invece fosse λ = µ, lo svolgimento dell’esercizio è lo stesso, solo che ora la f.r. di Z è
F (s) = 1 − e−λs (1 + λs)
come afferma la formula (3.52) del libro. Dunque
P(Z > s |Z + W > s) =
e−λs
1
1 − FZ (s)
= −λs
=
1 − F (s)
e (1 + λs)
1 + λs
64
Parte 1: soluzioni
che è una quantità che tende a 0 per s → ∞.
3.28 La quantità P(X + Y ≤ t) che dà la f.r. di X + Y è pari all’area ombreggiata nella
Figura 1.8. Dunque
( 2
t
se 0 ≤ t ≤ 1
F (t) = 2 1
1 − 2 (2 − t)2 se 1 ≤ t ≤ 2
.....
.....
.....
.....
.....
.....
.....
.....
.....
. . . . . . . . . ............
. . . . . . . . . . . . .........
. . . . . . . . . . . . . . .........
. . . . . . . . . . . . . . . . .........
. . . . . . . . . . . . . . . . . . .........
. . . . . . . . . . . . . . . . . . . . ..........
. . . . . . . . . . . . . . . . . . . . . . .........
. . . . . . . . . . . . . . . . . . . . . . . . .........
. . . . . . . . . . . . . ......
. .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .............
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .........
...
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...•
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .........
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......
.....
.................................
.....
.................................
.....
.....
. . . . . . . . . . . . . . . . .
.....
....
ւ
x+y =t
ւ
(1, t − 1)
Figura 1.8
e F (t) = 0 altrove. Derivando si ottiene la densità
f (t) =
n
se 0 ≤ t ≤ 1
se 1 ≤ t ≤ 2
t
2−t
e f (t) = 0 per t al di fuori dell’intervallo [0, 2]; f ha il caratteristico grafico ‘‘a casetta’’ della
Figura 1.9.
1
...
..... .....
..... .........
.....
.....
....
.....
.
.
.
.
.
.....
.....
.....
.....
.....
.
.
.
.....
...
.
.
.
.....
.
...
.
.....
.
.
.
.....
....
.
.
.
.....
...
.
.
.....
.
.
...
.....
.
.
.
.
.....
....
.
.
.....
.
...
.....
.
.
.
.
.....
...
.
.
.
.....
.
....
.....
.
.
.
.....
....
.
.
.
.....
.
.....
0
1
2
Figura 1.9
Naturalmente sarebbe stato possibile anche usare la Proposizione 3.23: la densità f di X + Y
è data da
Z
(1.12)
f (t) = g(t − s)g(s) ds
dove
g(t) =
n
1
0
se 0 ≤ t ≤ 1
altrimenti .
Esercizio 3.30
65
Però il calcolo esplicito dell’integrale della (1.12) è abbastanza antipatico: la determinazione,
al variare di t, dei valori di s per i quali l’integrando vale 1 (esso può valere solo 0 oppure 1) è
poco agevole.
3.29
a) X e Y hanno distribuzione congiunta uniforme sul quadrato [0, 1] × [0, 1]. La
probabilità richiesta è P((X, Y ) ∈ A) dove A ⊂ R2 è la regione dei punti (x, y) tali che
|x − y| > 21 . Cioè l’area della regione ombreggiata nella Figura 1.10, che vale 41 .
...
.....
.....
........................................
........................
.
. . . . . . . . ..
................................
..................
................
. . . . . ..
...................
...........
. ..
........
.....
....
.
.
.
.
...
.
1
.
.
.
..
.....
2
....
....
....
.....
.....
.....
.
.
.
.....
.......
.........
...........
..................
.
.
.
................
..................
....................
......................
.................................
.
.
.
.
...........................
.....
.....
.....
տ
Figura 1.10
b) Calcoliamo la f.r. di Z. Se 0 ≤ t ≤ 1, allora P(Z > t) = P(|X − Y | > t) non è altro che
la probabilità che il punto (X, Y ) si trovi in una regione simile a quella della Figura 1.10 (solo
con il valore t al posto di 21 ). Dunque, sempre per 0 ≤ t ≤ 1,
P(Z > t) = (1 − t)2 .
La f.r. di Z è dunque
FZ (t) =
1 − (1 − t)2
0
se 0 ≤ t ≤ 1
altrimenti
per cui la densità è fZ (t) = 2(1 − t) per 0 ≤ t ≤ 1, fZ (t) = 0 altrimenti. La distanza media
tra X e Y è quindi
Z 1
1
E(Z) = 2
t (1 − t) dt = ·
3
0
3.30 Indichiamo con Y la v.a. che rappresenta il valore assunto da θ . La legge congiunta di
X, Y è dunque data dalla densità mista
g(θ, k) = λe−λθ e−θ
θk
,
k!
θ > 0, k = 0, 1, . . .
La legge di X è la seconda marginale, cioè
pX (k) =
Z
+∞
−∞
Paolo Baldi
Calcolo delle Probabilità
McGraw-Hill 2011
g(θ, k) dθ =
λ
k!
Z
0
+∞
e−λθ e−θ θ k dθ =
λ
k!
Z
0
+∞
e−θ(λ+1) θ k dθ
66
Parte 1: soluzioni
dove k = 0, 1, . . . Dunque, a meno della costante, l’integrando è una densità Ŵ(k + 1, λ + 1).
L’integrale vale dunque
Ŵ(k + 1)
k!
=
(λ + 1)k+1
(λ + 1)k+1
da cui
pX (k) =
λ
,
(λ + 1)k+1
k = 0, 1, . . .
λ
Con un po’ d’immaginazione si riconosce una legge geometrica di parametro p = λ+1
. Ricor1−p
1
dando che la media di una v.a. geometrica di parametro p è p otteniamo E(X) = λ .
b) La legge condizionale di Y dato X = k si ottiene facendo il quoziente tra la densità
congiunta e la marginale di X: se θ > 0
k
λe−θ(λ+1) θk!
g(θ, k)
(λ + 1)k+1 k −θ(λ+1)
p̄Y |X (θ |k) =
=
=
θ e
.
λ
pX (k)
k!
k+1
(λ+1)
Cioè la legge condizionale di Y dato X = k è Ŵ(k + 1, λ + 1). Quindi la media condizionale
k+1
vale λ+1
.
3.31 a) Naturalmente Y ha legge N(0, 1 + σ 2 ), per la regola sulla somma di v.a. normali
indipendenti. La legge congiunta di X e Y si può calcolare osservando che (X, Y ) è una funzione
lineare di (X, W ). Dunque anche (X, Y ) ha legge normale multivariata; per determinarla basta
calcolarne media e matrice di covarianza. Entrambe le componenti hanno media nulla
E(X) = 0,
E(Y ) = E(X + W ) = 0
mentre Var(X) = 1, Var(Y ) = 1 + σ 2 e
Cov(X, Y ) = Cov(X, X + W ) = Cov(X, X) + Cov(X, W ) = 1 .
| {z } | {z }
=0
=Var(X)
Quindi (X, Y ) ha matrice di covarianza
C=
1
1
1
1 + σ2
La legge di Y risulta quindi individuata: è N(0, C). Volendo, ciò permette di calcolare la densità
congiunta (cosa che però non è esplicitamente richiesta dall’enunciato). Indicando z = (x, y)
essa è infatti
1
1
−1
e− 2 hC z,zi .
f (z) =
√
2π det C
Ora det C = σ 2 mentre
C
−1
1
= 2
σ
1 + σ2
−1
−1
1
Esercizio 3.32
67
e quindi
h 1
i
1
exp − 2 ((1 + σ 2 )x 2 − 2xy + y 2 ) .
2π σ
2σ
b) Sappiamo, vedi le (3.89) e (3.90), che la legge condizionale di X dato Y è normale di
varianza
Cov(X, Y )2
1
σ2
Var(X) −
=1−
=
Var(Y )
1 + σ2
1 + σ2
e media
y
Cov(X, Y )
(y − E[Y ]) =
E(X) +
Var(Y )
1 + σ2
che è quindi la speranza condizionale richiesta.
11
e per
c) Abbiamo visto nel punto precedente che la legge condizionale di X dato Y = y = 20
f (x, y) =
y
σ2
1 1
1
= 21 e varianza 1+σ
2 = 11 , ovvero che è N( 2 , 11 ). Dunque
1+σ 2
11
probabilità che X si trovi in [ 41 , 43 ] sapendo che Y = 20
è pari alla probabilità che una v.a.
1 1
1 3
1 1
∼ N( 2 , 11 ) si trovi in [ 4 , 4 ]. Ma se Z ∼ N( 2 , 11 ) allora Z è della forma Z = √1 W + 21
11
σ 2 = 0.1 è normale di media
la
Z
dove W ∼ N(0, 1) e quindi
P 41 ≤ Z ≤ 43 = P
√
− 11
4
≤W ≤
√ 11
4
= P(−0.82 ≤ Z ≤ 0.82) =
= 8(0.82) − 8(−0.82) = 0.58 .
3.32 a) Le v.a. X1 , X2 , X3 sono congiuntamente normali, dunque anche le v.a. U, V , W lo
sono, come funzioni lineari di v.a. congiuntamente normali. In particolare ciascuna delle tre
ha legge normale e per determinarla basta calcolarne media e varianza. Le tre v.a. hanno tutte
media nulla, mentre
Var(U ) = Var(2X1 − X2 − X3 ) = 4 Var(X1 ) + Var(−X2 ) + Var(−X3 ) = 6
Var(V ) = Var(X1 + X2 + X3 ) = Var(X1 ) + Var(X2 ) + Var(X3 ) = 3
Var(W ) = Var(X1 − 3X2 + 2X3 ) = Var(X1 ) + 9 Var(−X2 ) + 4 Var(−X3 ) = 14 .
b) Poiché, come abbiamo osservato, U, V e W sono congiuntamente normali, le coppie sono
indipendenti se e solo se sono non correlate. Ora sappiamo che Cov(X1 , X2 ) = Cov(X1 , X3 ) =
Cov(X2 , X3 ) = 0, mentre Cov(Xi , Xi ) = Var(Xi ) = 1, i = 1, 2, 3. Dunque
Cov(U, V ) = Cov(2X1 − X2 − X3 , X1 + X2 + X3 ) =
= 2 Cov(X1 , X1 ) +2 Cov(X1 , X2 ) +2 Cov(X1 , X3 ) − Cov(X2 , X1 ) −
|
|
|
{z
}
{z
}
{z
} |
{z
}
=1
=0
=0
=0
− Cov(X2 , X2 ) − Cov(X2 , X3 ) − Cov(X3 , X1 ) − Cov(X3 , X2 ) − Cov(X3 , X3 ) =
{z
} |
{z
} |
{z
} |
{z
} |
{z
}
|
=1
=0
=0
=2−1−1=0
=0
=1
e quindi U e V sono indipendenti. Analogamente
Cov(U, W ) = Cov(2X1 − X2 − X3 , X1 − 3X2 + 2X3 ) = 2 + 3 − 2 = 3 6= 0
Cov(V , W ) = Cov(X1 + X2 + X3 , X1 − 3X2 + 2X3 ) = 1 − 3 + 2 = 0
68
Parte 1: soluzioni
per cui V e W sono indipendenti, mentre U e W non lo sono.
Alternativamente si sarebbe potuto ragionare nel modo seguente: (U, V , W ) si ottiene da
(X1 , X2 , X3 ) mediante la trasformazione lineare associata alla matrice
2 −1 −1
1
1
1
1 −3
2
A=
cioè
2 −1 −1
1
1
1
1 −3
2
!
X1
X2
X3
!
!
=
U
V
W
!
Dunque il vettore (U, V , W ) ha legge congiunta normale e tutte le sue componenti sono centrate.
Poiché la matrice di covarianza di (X1 , X2 , X3 ) è la matrice identità, (U, V , W ) ha matrice di
covarianza
!
!
!
6 0
3
2 1
1
2 −1 −1
∗
C = AA = 1
−1 1 −3 = 0 3 0
1
1
3 0 14
−1 1
2
1 −3
2
da cui si può rispondere insieme alle questioni dei punti a) e b): U ∼ N(0, 6), V ∼ N(0, 3),
W ∼ N(0, 14) (gli elementi sulla diagonale di C sono le varianze di U , V e W ); inoltre U, V
e V , W sono coppie di v.a. indipendenti, mentre U e W non sono indipendenti (le covarianze
delle variabili si trovano, nella matrice di covarianza, fuori della diagonale).
3.33 a) Poiché S = T +W , si tratta di calcolare la legge della somma di due v.a. esponenziali
indipendenti di parametri rispettivamente λ e µ. Se indichiamo con fT , fW le densità di T e W
rispettivamente, la densità fS di S si può calcolare come indicato dalla Proposizione 3.23, cioè
fS (x) =
Z
+∞
−∞
fT (t)fW (x − t) dt .
Il calcolo di questo integrale è già stato effettuato nel punto b) dell’Esercizio 3.27 e dà come
risultato
λµ
fS (s) =
(e−λs − e−µs ) .
µ−λ
Il calcolo della legge congiunta di S e T si può fare osservando che (T , S) = (T , T + W ).
Poiché T e W sono indipendenti, la loro densità congiunta è
−λz −µw se z ≥ 0, w ≥ 0
g(z, w) = λµe e
0
altrimenti .
La v.a. (T , S) è quindi una trasformazione di (T , W ) tramite l’applicazione lineare associata
alla matrice
1 0
A=
1 1
Esercizio 3.33
69
e per il teorema di cambio di variabile negli integrali multipli la densità f di (T , S) è data da
f (t, s) =
Ma det A = 1 e
1
g A−1 st .
| det A|
A−1 =
1
−1
0
1
t e f (t, s) = g(t, s − t). Quindi intanto f (t, s) = 0 a meno che non sia
per cui A−1 st = s−t
0 ≤ t ≤ s (se fosse t > s allora sarebbe s − t < 0 e dunque g(t, s − t) = 0). Sostituendo
nell’espressione di g a z e w i valori t e s − t rispettivamente, otteniamo
−λt −µ(s−t) se 0 ≤ t ≤ s
f (s, t) = λµe e
0
altrimenti .
b) La densità condizionale di T dato S = s è, per definizione,
fT |S (t |s) =
f (t, s)
·
fS (s)
Sostituendo le espressioni per f e per fS calcolate in a) otteniamo per s > 0
fT |S (t |s) =
(
(µ − λ)e−µs (µ−λ)t
e
e−λs − e−µs
0
se 0 ≤ t ≤ s
altrimenti .
La speranza condizionale di T dato S = s è dunque uguale a
(µ − λ)e−µs
Ē(T |S = s) = −λs
e
− e−µs
Z
s
t e(µ−λ)t dt .
0
Integrando per parti e semplificando
Ē(T |S = s) =
(µ − λ)e−µs s
1
(µ−λ)s
(µ−λ)s
e
+
(1
−
e
)
=
e−λs − e−µs µ − λ
(µ − λ)2
1
s
−
·
=
−(µ−λ)s
µ−λ
1−e
Sostituendo i valori si ottiene
per s = 1.5
per s = 0.1
1.3889
0.0574
c) La retta di regressione di T rispetto a S è y = ax + b, dove i valori di a e b sono dati dalle
(2.52) e (2.53). Dunque, poiché Cov(T , S) = Cov(T , T ) + Cov(T , S) = Cov(T , T ) = Var(T )
a=
Cov(T , S)
Var(T )
=
=
Var(S)
Var(S)
1
λ2
1
λ2
+
1
µ2
=
µ2
λ2 + µ2
70
Parte 1: soluzioni
mentre, con un po’ di semplificazioni,
b = E(T ) − aE(S) =
µ2 1
1
λ−µ
1
− 2
+
·
= 2
2
λ λ +µ µ λ
λ + µ2
Calcolando il valore di y in corrispondenza di s = 1.5 e di s = 0.1, si trova
per s = 1.5
per s = 0.1
1.3960 (1.3889)
0.0099 (0.0574)
Si vede che per valori molto piccoli di s la retta di regressione e la funzione s → Ē(T |S = s)
sono abbastanza diverse.
3.34
a) Si vede subito che f è una densità: poiché si tratta di una funzione pari
Z
+∞
−∞
1
f (x) dx =
2
Z
+∞
e
−|x|
−∞
dx =
Z
+∞
0
e−x dx = 1 .
Si tratta del resto della densità di Laplace di parametro λ = 1, che s’incontra anche negli Esercizi
3.40, 3.46, 3.55, 3.56, 3.58 e 3.63. Il grafico di questa densità si può vedere nella Figura 1.11.
λ ....
2 ..... ......
...
...
...
...
...
...
...
....
....
....
.....
.....
....
.....
......
.......
........
..........
..............
...........................
.............................................................
.........................................................................................
...
...
...
..
.
.
...
...
....
....
.
.
.
....
....
....
.....
.....
.
.
.
.
.
......
.........
...........
..................
.................................
.......................................................................................................................................
−3
Figura 1.11
−2
−1
0
1
2
3
Calcoliamo la sua funzione caratteristica. Dato che x → sin θ x è una funzione dispari, mentre
x → cos θ x è pari,
φX (θ ) =
1
2
Z
+∞
−∞
e−|x| eiθx dx =
1
2
Z
+∞
−∞
e−|x| cos θ x dx =
Z
+∞
e−x cos θ x dx
0
e integrando due volte per parti
Z
+∞
−x
−x
Z
+∞
cos θ x −θ
+∞
cos θ x dx = −e
e−x sin θ x dx =
0
0
0
Z +∞
Z +∞
+∞
−x
2
−x
2
1 + θ e sin θ x −θ
e cos θ x dx = 1 + θ
e−x cos θ x dx
e
0
0
0
da cui si ricava
φX (θ ) =
1
·
1 + θ2
Esercizio 4.1
71
1
b1) θ → 1+θ
2 è una funzione integrabile su R; dunque, per il Teorema 3.82 d’inversione
delle funzioni caratteristiche,
Z +∞
Z +∞ −ixθ
1
e
1
1
f (x) = e−|x| =
e−ixθ φX (θ ) dθ =
dθ .
2
2π −∞
2π −∞ 1 + θ 2
Scambiando x con θ si ricava
1
π
Z
eixθ
dx = e−|θ|
1 + x2
dunque φY (θ ) = e−|θ| .
b2) Calcoliamo la funzione caratteristica di Z = 21 (Y1 +Y2 ): per i punti 1) e 3) del paragrafo
3.13,
φZ (θ ) = φY1 ( θ2 ) φY2 ( θ2 ) = e−|θ|/2 e−|θ|/2 = e−|θ| .
Dunque 21 (Y1 + Y2 ) ha ancora legge di Cauchy.
• Osserviamo che φY non è derivabile in 0; d’altra parte abbiamo visto nell’Esercizio 3.4
che Y non ha speranza matematica finita. Si tratta quindi di un esempio di v.a. che non ha
speranza matematica finita e non ha funzione caratteristica derivabile.
4.1 Primo metodo. Calcoliamo media e varianza delle v.a.
χ 2 (n) ha media n e varianza 2n (vedi la (3.49)),
1
Xn = · n = 1
n
1
2
Var n1 Xn = 2 · 2n =
n
n
E
1
1
n Xn :
ricordando che una v.a.
n
→
n→∞
0.
Le v.a. n1 Xn , n = 1, 2, . . . hanno tutte la stessa media µ = 1 e varianza che tende a 0 per
n → ∞. Per la disuguaglianza di Chebyshev dunque per ogni η > 0
1
Var n1 Xn
→ =0
P n Xn − 1 > η ≤
n→∞
η2
e ciò, per definizione, implica che ( n1 Xn )n converge in probabilità alla costante 1. La convergenza ha luogo anche in legge (la convergenza in probabilità implica sempre quella in legge,
vedi l’Osservazione 4.10).
Secondo metodo. Se (Zn )n è una successione di v.a. indipendenti tutte di legge Ŵ( 21 , 21 ),
allora, per ogni n, Z1 + . . . + Zn ha legge χ 2 (n), cioè la stessa di Xn ; dunque le due v.a.
(1.13)
1
n
Xn
e
1
n
(Z1 + . . . + Zn )
hanno la stessa legge. Ma di queste la seconda converge in probabilità alla media E(Z1 ) = 1
per la Legge dei Grandi Numeri. Dunque, per ogni η > 0,
→ 0
P n1 Xn − 1 > η = P n1 (Z1 + . . . + Zn ) − 1 > η
n→∞
72
Parte 1: soluzioni
che, ancora, permette di affermare la convergenza in legge della successione ( n1 Xn )n alla
costante 1.
• Il primo dei due metodi che abbiamo visto fornisce un criterio semplice per provare la
convergenza in probabilità verso una costante µ di una successione di v.a.: si calcola, per
ciascun termine media e varianza (cosa che è spesso facile); se la media è costante = µ e
la varianza tende a zero allora la disuguaglianza di Chebyshev permette di concludere che la
successione converge in probabilità alla costante µ.
4.2 a) Per la disuguaglianza di Chebyshev e ricordando che la varianza di una v.a. di Poisson
di parametro λ vale appunto λ,
P(|X̄n − λ| ≥ η) ≤
λ
Var(X̄n )
= 2·
2
η
nη
b) Basta usare l’approssimazione normale nella forma (4.8):
−√nη .
P(|X̄n − λ| ≥ η) ≈ 28 √
λ
c) La disuguaglianza di Chebyshev afferma che la probabilità in (4.17) è maggiorata da
λ
=1
nη2
che non è una stima particolarmente utile (che una probabilità sia più piccola di 1 lo sapevamo
già da prima. . . ). Con l’approssimazione normale invece
−√nη P(|X̄n − λ| ≥ η) ≈ 28 √
= 28(−1) = 0.3173 .
λ
Il risultato esatto (ottenuto, ad esempio, con uno dei software menzionati a pag. 45) è 0.3173;
dunque in questo caso l’approssimazione normale dà un valore preciso fino alle prime 4 cifre
decimali.
• Non è male però ricordare che la Disuguaglianza di Chebyshev ha applicazioni comunque
importanti (la Legge dei Grandi Numeri ne è un esempio) ed è vera per ogni valore di n,
mentre l’approssimazione normale è, appunto, un’approssimazione e vale solo se n è abbastanza
grande.
4.3 a) Poiché X1 è una v.a. Ŵ(1, λ) (cioè esponenziale di parametro λ), se indichiamo con
F1 la sua f.r.,
1
P X1 > λ1 = 1 − F1 ( λ1 ) = e−λ· λ = e−1 = 0.37 .
Per X3 sappiamo che la f.r. di una v.a. Ŵ(3, λ) è data da
(λt)2 F3 (t) = 1 − e−λt 1 + λt +
2
Esercizio 4.5
e quindi
73
P(X3 > λ3 ) = e−3 1 + 3 + 29 = 0.42 .
b) Usiamo il Teorema Limite Centrale: siano Z1 , Z2 , . . . delle v.a. indipendenti e tutte di
legge Ŵ(1, λ). Allora
Z1 + . . . + Zn ∼ Ŵ(n, λ) .
Osservando che
P
1
n Xn
>
n
λ
1
λ
è proprio il valore della media di Xn e che Var(Xn ) =
n
,
λ2
= P Xn > λn = P Xn − λn > 0 = P Z1 + . . . + Zn −
Z + . . . + Z − n
1
1
n
λ
=P
>0
→ 1 − 8(0) = ·
p
n→∞
2
2
n/λ
n
λ
>0 =
4.4 Se indichiamo con Xi la v.a. che rappresenta il risultato dello i-esimo lancio, cioè la v.a.
che vale 1 se allo i-esimo lancio Marco vince e 0 altrimenti, allora il numero di volte che Marco
vince in 100 prove si modellizza con la v.a. X = X1 + . . . + X100 . Se la moneta è equilibrata
le v.a. Xi hanno ciascuna legge di Bernoulli B(1, 21 ) e dunque media 21 e varianza 41 . Usando
l’approssimazione normale (4.7), la probabilità che Marco vinca meno (≤) di 36 volte è
P(X1 + . . . + X100 ≤ 36) ≈ 8
36.5 − 50 5
= 8(−2.7) = 0.0035 = 0.35% .
Una probabilità un po’ troppo piccola perché si possa pensare a semplice sfortuna. . .
• In questo esercizio essenzialmente l’approssimazione normale si usa per stimare la f.r.
di una legge binomiale B(n, p) con n grande. La stessa idea può servire per avere dei valori
approssimati di altre leggi di probabilità per le quali non ci sono formule semplici della f.r.
(Poisson, Gamma,. . . ).
4.5 Indichiamo con X una v.a. N(0, 1) (e quindi tale che σ X ∼ N(0, σ 2 )). Per il Teorema
Limite Centrale si ha
(X + . . . + X )2
1
n
≤t =
n
√ √t
√ √ X1 + . . . + Xn
t
≤
→ 8 σt − 8 − σt
≤
=P −
√
n→∞
σ
σ
σ n
P(Zn ≤ t) = P
Dunque le f.r. delle v.a. Zn convergono. Occorre ora verificare che il limite sia la f.r. di una
v.a. e individuarla. Ma
√ √t
√ √ √
√
t
≤X≤
= P(− t ≤ σ X ≤ t ) = P((σ X)2 ≤ t) .
8 σt − 8 − σt = P −
σ
σ
Dunque Zn converge in legge verso la v.a. (σ X)2 , che è una v.a. Ŵ( 21 , 2σ1 2 ) (Esempio 3.42).
74
4.6
Parte 1: soluzioni
a) Si ha
Z 2a
1
E(Xi ) =
x dx = a
2a 0
Z 2a
4
1
x 2 dx = a 2
E(Xi2 ) =
2a 0
3
a2
Var(Xi ) = E(X 2 ) − E(X)2 = ·
3
b) Per il Teorema Limite Centrale
√
P(X1 + . . . + Xn > na + x n) =
q q X + . . . + X − na
n
> x a32
→ 1 − 8 x a32
P 1
q
a2 n
3
n→∞
dove 8 indica al solito la f.r. di una legge N(0, 1). Con i valori numerici assegnati e le tavole
si ottiene
√
x=a
1 − 8( 3 ) = 1 − 8(1.732) = 0.041
√
x = − 21 a 1 − 8(− 21 3 ) = 1 − 8(−0.866) = 0.807 .
4.7 Se indichiamo con Xi l’errore commesso nella i-esima addizione, allora l’errore complessivo è X = X1 + . . . + X106 . Osserviamo che le v.a. Xi hanno densità (discreta)
10 se −0.5 · 10−10 ≤ t ≤ 0.5 · 10−10
f (t) = 10
0
altrimenti .
Esse hanno dunque media nulla (per simmetria, chi non ci crede può calcolare l’integrale. . . ).
Inoltre
Z 0.5·10−10
1
Var(Xi ) = E(Xi2 ) = 1010
t 2 dt =
10−20 := σ 2 .
12
−0.5·10−10
Dunque con l’approssimazione normale e scrivendo n = 106 ,
P(−0.5 · 10−7 ≤ X ≤ 0.5 · 10−7 ) = P(X ≤ 0.5 · 10−7 ) − P(X ≤ −0.5 · 10−7 ) =
= P(X1 + . . . + Xn ≤ 0.5 · 10−7 ) − P(X1 + . . . + Xn ≤ −0.5 · 10−7 ) ≈
≈8
0.5 · 10−7 0.5 · 10−7 −8
√
√
nσ
nσ
Ora
0.5 · 10−7 √ √
= 8 0.5 · 10−7 · 10−3 · 1010 12 = 8( 3 ) = 8(1.732) = 0.958 .
√
nσ
0.5 · 10−7 √ √
= 8 0.5 · 10−7 · 10−3 · 1010 12 = 8( 3 ) = 8(−1.732) = 0.041 .
8 − √
nσ
8
Esercizio 4.9
75
e dunque la probabilità che la settima cifra sia significativa è 0.958 − 0.041 = 0.917. Ripetendo
i calcoli per 0.5 · 10−8 si ha facilmente
P(−0.5 · 10−8 < X ≤ 0.5 · 10−8 ) ≈ 8(0.173) − 8(−0.173) = 0.568 − 0.431 = 0.137 .
La probabilità che la settima cifra decimale sia corretta è molto elevata, mentre per l’ottava non
si può dire lo stesso.
4.8
a) Poniamo
Xi =
n
1
0
se lo i-esimo lancio ha dato 6
altrimenti .
Allora il numero totale di 6 in 900 lanci è X = X1 + . . . + X900 , dove le v.a. Xi sono
5
indipendenti e di Bernoulli B(1, p), p = 61 . Poiché E(Xi ) = 61 e Var(Xi ) = 16 65 = 36
, usando
l’approssimazione normale
P(X ≥ 180) = P(X1 + . . . + X900 > 179.5) ≈ 1 − 8
179.5 − 900 ·
q
5
900 · 36
1
6
=
= 1 − 8(2.63) = 0.0044 = 0.44% .
b) Se un dado è truccato allora il numero totale X di 6 ottenuti in 900 lanci si può ancora
scrivere X = X1 + . . . + X900 , dove però ora le v.a. X1 , . . . , X900 sono di Bernoulli B(1, 29 ).
Dunque, ancora con l’approssimazione normale
P(X ≥ 180) = P(X1 + . . . + X900
179.5 − 900 · 29
> 179.5) ≈ 1 − 8 q
900 · 29 · 79
=
= 1 − 8(−1.64) = 0.95 .
Dunque un dado truccato viene individuato con una probabilità del 95%.
4.9 a) Se X è il numero di bit distorti, è chiaro che X segue una legge B(1000, 0.01) (numero
di successi in 1000 prove indipendenti con probabilità di ‘‘successo’’ p = 0.01 in ogni singola
prova). Dunque E(X) = 1000 · 0.01 = 10. La probabilità che vi siano bit distorti è
P(X ≥ 1) = 1 − P(X = 0) = 1 − (1 − 0.01)1000 ≃ 1
(0.991000 = 4.3 · 10−5 ), mentre la probabilità che vi siano almeno 10 bit distorti è
(1.14)
9 X
1000
P(X ≥ 10) = 1 − P(X ≤ 9) = 1 −
0.01i 0.991000−i .
i
i=0
76
Parte 1: soluzioni
Per calcolarla conviene usare l’approssimazione normale:
P(X ≥ 10) = P(X > 9.5) = 1 − P(X ≤ 9.5) =
9.5 − 1000 · 0.01 ≈1−8 √
= 1 − 8(−0.159) = 0.563 .
√
0.01 · 0.99 1000
A titolo di paragone la somma in (1.14), che viene ottenuta facilmente con un software adatto,
vale 0.543. In questo caso l’approssimazione normale è discreta, ma non particolarmente
precisa.
b) Un singolo bit risulta distorto se almeno due delle tre ritrasmissioni vengono distorte.
Ognuna di queste lo è con probabilità 0.01 e dunque il numero di ritrasmissioni distorte, per un
singolo bit, segue una distribuzione B(3, 0.01). La probabilità che almeno due ritrasmissioni
siano distorte per un singolo bit è
3
3
2
0.013 = 0.012 (3 · 0.99 + 0.01) = 2.98 · 10−4 .
0.01 0.99 +
q :=
3
2
La probabilità che vi siano bit distorti ora è
1 − (1 − q)1000 = 0.258 .
• La probabilità che vi siano più di 10 bit distorti, che abbiamo ottenuto in a), si potrebbe
calcolare anche approssimando la legge B(1000, 0.01) con una legge di Poisson di parametro
λ = 10 (ricordiamo che una densità B(n, p) per n grande e p piccolo si può approssimare con
una densità di Poisson di parametro np, vedi l’Osservazione 4.9). Un calcolo numerico avrebbe
dato
(1.15)
P(X ≥ 10) = 1 − e−10
9
X
λ10
i=0
i!
= 0.543
e 0.543 è lo stesso valore che avremmo ottenuto se avessimo effettuato la somma in (1.14).
In questo caso dunque l’approssimazione con le leggi di Poisson dà risultati migliori che
l’approssimazione normale. Quest’ultima rimane comunque più pratica perché il calcolo della
f.r. in (1.15) richiede comunque un certo lavoro numerico (inoltre, di solito, per le leggi di
Poisson non ci sono tavole, anche se i pacchetti software statistici sono in grado di fornire le f.r.
anche delle leggi di Poisson).
• Si potrebbe pensare di usare l’approssimazione normale per stimare, nella situazione del
punto b), quale sia la probabilità che vi siano più (≥) di k bit distorti, per qualche valore di k
fissato. In realtà in questo caso l’approssimazione normale non funziona bene. Ad esempio per
k = 2 la probabilità di avere più (>) di un bit distorto è 1 − (1 − q)1000 − 1000 · q(1 − q)999 =
0.0365 mentre l’approssimazione normale dà
1.5 − 1000 · q 1−8 √
= 1 − 8(2.2) = 0.0138
√
q(1 − q) 1000
che è un’approssimazione abbastanza scadente dal vero valore 0.0365. In effetti una regola
accettata in pratica per potere utilizzare l’approssimazione normale con leggi binomiali B(n, p) è
Esercizio 4.12
77
che i numeri np e n(1−p) siano entrambi più grandi di 5, mentre in questo caso (p = 2.98·10−4 )
np = 0.298.
4.10 a) Fissiamo l’attenzione su un singolo pixel e indichiamo con Ai , i = 1, . . . , 8, l’evento
‘‘lo i-esimo bit è non distorto’’ e con A l’evento ‘‘nessuno degli 8 bit è distorto’’. Per le
ipotesi del problema, gli eventi A1 , . . . , A8 sono indipendenti e A = A1 ∩ . . . ∩ A8 . Dunque
P(A) = P(A1 ) . . . P(A8 ) = (1 − p)8 = 0.9984.
b) Se poniamo
n
1 se lo i-esimo pixel è distorto
Xi =
0 altrimenti
per i = 1, . . . , 131 072, allora il numero di pixel distorti nell’immagine è X = X1 + . . . +
X131 072 . Inoltre le v.a. Xi sono di Bernoulli (possono prendere solo i valori 0 oppure 1)
B(1, 0.0016) (0.0016 = 1 − 0.9984 è la probabilità che un singolo pixel venga distorto nella
trasmissione). Dunque
E(X) = 131 072 · 0.0016 = 209.7 .
Per calcolare la probabilità che vi siano più di 200 pixel distorti si può usare l’approssimazione
normale. In effetti la v.a. X è la somma di n = 131 072 v.a. di Bernoulli di parametro q =
0.0016. Sappiamo che in questo caso una regola euristica per la validità dell’approssimazione
normale è che i due numeri nq e n(1−q) siano entrambi ≥ 5. Abbiamo già visto che nq = 209.7,
mentre n(1 − q) è certo un numero molto grande. L’approssimazione normale dà quindi
P(X ≥ 200) = 1 − P(X < 200) = 1 − P(X ≤ 199.5) =
199.5 − nq =1−8 √
= 1 − 8(−0.706) = 0.773 .
nq(1 − q)
α
e varianza (α+β)2αβ
4.11 a) Una v.a. Beta(α, β) ha media α+β
(vedi il paragrafo 3.9).
(α+β+1)
Dunque
αβ
α
,
Var(Xn ) =
·
E(Xn ) =
2
α+β
(α + β) (nα + nβ + 1)
α
Dunque le v.a. Xn hanno tutte la stessa media α+β
, mentre la loro varianza tende a 0 per
n → ∞. Come abbiamo visto nell’osservazione successiva all’Esercizio 4.1, ciò implica, per
la disuguaglianza di Chebyshev,
P(|Xn −
α
α+β |
≥ η) ≤
e dunque
Xn
P
→
n→∞
Var(Xn )
→ 0
n→∞
η2
α
·
α+β
4.12 Ricordiamo che vi sono vari modi per studiare il limite in legge: calcolando il limite
delle funzioni di ripartizione oppure delle funzioni caratteristiche, soprattutto.
78
Parte 1: soluzioni
...........
... ..
... ....
..
..
..
...
..
..
.. ....... ..... ...
..
... .......
..... ..
..
.....
..... .
.
.. .
.
......
.....
.... .
.
... ..
........
..............................................................
.
.
.
.
.
.
.
.
.
.............. . .....
.
....... .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
............. .
.
.
......
.............................
.......
...
..
.......
... ..... .................
.
.
......
.
.
.
.
.
.
.
.
....
.
.
.
.
.
... ....... ........................
.
.....
..
.
...
....
.....
....
.
.
.
.
.
.
.
...
..
.
.
.
.
.
.
...... ....... ....... .......................................
.
.
.
.
.
...
.....
.
.
.
.
.
.
.....
..
.
.
.
.....
.
.
.
.
..
.
.
.
.
..
..
.
.
.
.................................... ....... ....... .............................................................
....... ....... ....
.............
5
4
3
2
1
2
5
0
1
Figura 1.12 Andamento della densità Beta(nα, nβ) per α = 2, β = 3 e n = 1 (tratto pieno), n = 3
(trattini) e n = 8 (puntini). La densità tende a concentrarsi intorno alla media.
Primo modo: funzioni di ripartizione. Se indichiamo con Fn la f.r. di Yn = n1 Xn , allora
Fn (t) = 0 per t < 0, mentre per t ≥ 0, calcolando la somma geometrica come indicato a
pag. 39 del libro,
Fn (t) = P(Xn ≤ nt) = P(Xn ≤ ⌊nt⌋) =
⌊nt⌋ X
λ
k=0
n
1−
λ k
n
λ ⌊nt⌋+1
=1− 1−
n
e dunque per ogni t ≥ 0
⌊nt⌋+1
λ
1
−
1
−
n
λ
=
=
n
1− 1− λ
n
lim Fn (t) = 1 − e−λt .
n→∞
Riconosciamo ora nel termine a destra la f.r. di una legge esponenziale di parametro λ. Dunque
Yn converge in legge ad una v.a. che ha questa distribuzione.
Secondo modo: funzioni caratteristiche. Ricordando l’espressione della funzione caratteristica di una v.a. geometrica (Esempi 3.77 b) a pag.155), si ha
φXn (θ ) =
λ
n
λ iθ
n )e
1 − (1 −
=
λ
n(1 − eiθ ) + λeiθ
e dunque
φYn (θ ) = φXn
Osservando che
θ
n
lim n(1 − eiθ/n ) = θ lim
n→∞
=
n→∞
λ
n(1 − eiθ/n ) + λeiθ/n
1 − eiθ/n
θ
n
= −θ
·
d iθ
e |θ=0 = −iθ
dθ
Esercizio 4.14
79
si ha
λ
n→∞
λ − iθ
che è appunto la funzione caratteristica di una legge esponenziale di parametro λ.
Come si vede, in questo caso tutti e due i metodi si possono applicare in maniera semplice.
lim φYn (θ ) =
4.13 Poniamo Sn = X1 + . . . + Xn . Per la Legge dei Grandi Numeri la v.a.
probabilità a E(X1 ) = λ. Possiamo scrivere
P(X1 + . . . + Xn ≤ n) = P n1 Sn ≤ 1 = Fn (1)
dove Fn indica la f.r. di
Sn
n .
Sn
n
converge in
La v.a. costante uguale a λ ha f.r. data da
F (t) =
n
0
1
se t < λ
se t ≥ λ .
Ora, se λ 6= 1, 1 è un punto di continuità per F e poiché la convergenza in probabilità implica
quella in legge (Osservazione 4.10)
n
0 se λ > 1
lim P(X1 + . . . + Xn ≤ n) = lim Fn (1) = F (1) =
n→∞
n→∞
1 se λ < 1 .
Se invece λ = 1 il valore 1 non è un punto di continuità per F e questo ragionamento non basta,
perché la definizione di convergenza in legge e la Legge dei Grandi Numeri non permettono di
stabilire quanto valga il limite. Si ha però per il Teorema Limite Centrale
P(X1 + . . . + Xn ≤ n) = P(X1 + . . . + Xn − n ≤ 0) =
X + . . . + X − n
1
n
=P 1
≤0
→ 8(0) = ·
√
n→∞
2
n
(ricordiamo che stiamo supponendo λ = 1, per cui le v.a.
uguali a 1). In conclusione
(
0
lim P(X1 + . . . + Xn ≤ n) = 21
n→∞
1
4.14
Xi hanno tutte media e varianza
se λ > 1
se λ = 1
se λ < 1 .
a) Calcoliamo la densità f di X1 : è chiaro che la f.r. F è
−λ se x ≥ 1
F (x) = 1 − P(X1 > x) = 1 − x
0
se x < 1 .
Dunque la densità di X1 è f (x) = F ′ (x) = λx −(λ+1) per x ≥ 1, mentre f (x) = 0 per x < 1.
Quindi
Z +∞
Z +∞
E(X1 ) =
tf (t) dt = λ
t −λ dt .
−∞
1
80
Parte 1: soluzioni
Si vede dunque che X1 ha speranza matematica finita se e solo se λ > 1 e in questo caso
E(X1 ) =
Inoltre
E(X12 ) = λ
Z
λ
·
λ−1
+∞
t −λ+1 dt
1
per cui la varianza è finita solo se λ > 2. In questo caso si ha
E(X12 ) =
λ
,
λ−2
Var(X1 ) = E(X12 ) − E(X1 )2 =
λ 2
λ
λ
−
=
·
λ−2
λ−1
(λ − 2)(λ − 1)2
b) Usiamo il metodo della funzione di ripartizione. Poiché P(Yi ≤ 0) = P(Xi ≤ 1) = 0, la
densità di Yi è nulla per t ≤ 0. Per t > 0 invece la f.r. G di Yi è data da
G(t) = P(Yi ≤ t) = P(log Xi ≤ t) = P(Xi ≤ et ) = 1 − e−λt .
La densità di Yi si può calcolare come al solito per derivazione. Qui però basta riconoscere che
G è la f.r. di una legge esponenziale di parametro λ.
c) Osserviamo che
n
n
1X
1X
log(Xi ) =
Yi .
log (X1 X2 . . . Xn )1/n =
n
n
i=1
i=1
Dunque per la Legge dei Grandi Numeri
log (X1 X2 . . . Xn )1/n
e quindi (Osservazione 4.2)
(X1 X2 . . . Xn )1/n
P
→
n→∞
P
→
n→∞
E(Y1 ) =
1
λ
e1/λ .
4.15 La v.a. X1 X2 è il prodotto di due v.a. indipendenti, aventi entrambe speranza matematica finita. Sappiamo quindi (Proposizioni 3.38 oppure 2.41) che anch’essa ha speranza matematica finita e anzi che
E(X1 X2 ) = E(X1 )E(X2 ) = 0 .
Anche la v.a. X12 X22 è il prodotto delle due v.a. X12 e X22 che sono indipendenti ed hanno
speranza matematica finita (perché per ipotesi X1 e X2 hanno varianza finita). Dunque
Var(X1 X2 ) = E(X12 X22 ) = E(X12 )E(X22 ) < +∞ .
Esercizio 4.16
81
b) Le v.a. X1 X2 , . . . , X2n−1 X2n sono indipendenti, centrate ed hanno varianza finita. Inoltre
hanno tutte la stessa legge. Dunque per la Legge dei Grandi Numeri
Vn =
1
(X X + X3 X4 + . . . + X2n−1 X2n )
n 1 2
P
→
n→∞
E(X1 X2 ) = 0 .
√
c) La normalizzazione con n invece che n deve far pensare al Teorema Limite Centrale:
applicandolo alle v.a. X1 X2 , . . . , X2n−1 X2n , che sono indipendenti, equidistribuite e centrate
si ha
X1 X2 + . . . + X2n−1 X2n
+
→ N(0, 1)
√
n→∞
σ n
+
dove σ 2 = Var(X1 X2 ). Dunque Vn → N(0, σ 2 ).
d) Le v.a. X14 , X24 , . . . hanno tutte varianza finita (perché E(Xi8 ) < +∞ per ipotesi) e sono
indipendenti. Per la Legge dei Grandi Numeri dunque
Wn =
1 4
(X + . . . + Xn4 )
n 1
P
→
n→∞
E(X14 ) .
Inoltre si può scrivere
Un =
X12 + . . . + Xn2
X14 + . . . + Xn4
=
1
2
n (X1
1
4
n (X1
+ . . . + Xn2 )
+ . . . + Xn4 )
e dunque per la Legge dei Grandi Numeri applicata al numeratore e al denominatore
Un
P
E(X12 )
n→∞
E(X14 )
→
,
(vedi l’Osservazione 4.2).
4.16 Le v.a. Zn che intervengono in questo esercizio sono definite come il minimo delle v.a.
X1 , . . . , Xn . Siamo dunque in una situazione in cui è facile calcolare le f.r., mentre lo stesso
non si può dire per le funzioni caratteristiche. Nel calcolo dei limiti in legge proposti useremo
quindi piuttosto il metodo basato sulle f.r.
a) Si ha, per 0 ≤ t ≤ 1,
P(Zn > t) = P(X1 > t, . . . , Xn > t) = (1 − t)n
e dunque la f.r. Fn di Zn vale
Fn (t) = 1 − P(Zn > t) =
(0
1 − (1 − t)n
1
per t < 0
per 0 ≤ t ≤ 1
per t > 1 .
82
Parte 1: soluzioni
È chiaro quindi che
lim Fn (t) =
n→∞
per t ≤ 0
per t > 0 .
0
1
Ora la f.r. di una v.a. che assume il solo valore 0 con probabilità 1 è
0 per t < 0
F (t) =
1 per t ≥ 0 .
Poiché Fn (t) → F (t) per n → ∞ per ogni t, tranne che per t = 0, che non è punto di continuità
per F , possiamo concludere che Zn converge in legge ad una v.a. che ha questa distribuzione.
La convergenza ha luogo anche in probabilità, dato che, se η > 0,
P(|Xn | ≤ η) = P(−η ≤ Xn ≤ η) = Fn (η) − Fn (−η)
→
n→∞
1
e dunque
P(|Xn | > η) = 1 − P(|Xn | ≤ η)
→
n→∞
0
b) Se Gn è la f.r. di nZn , allora, se 0 ≤ t ≤ n,
Gn (t) = P(nZn ≤ t) = P Zn ≤
t
n
= Fn
Basta ora applicare un limite ben noto per avere
0
lim Gn (t) = G(t) =
1 − e−t
n→∞
t
n
=1− 1−
t n
n
.
per t ≤ 0
per t > 0 .
Dunque la successione (nZn )n converge ad una legge esponenziale di parametro λ = 1. Per n
grande dunque
P min(X1 , . . . , Xn ) ≤ n2 ≈ 1 − e−2 = 0.86 .
4.17 a) Le v.a. X1 , X2 , . . . assumono tutte due valori, il che rende semplice lo studio della
convergenza in legge sia con le funzioni di ripartizione che con le funzioni caratteristiche.
Usando quest’ultimo metodo vediamo che
φXn (θ ) = (1 − αn )eiθ·0 + αn eiθn = 1 − αn + αn eiθn
e quindi, se αn → 0 per n → ∞,
φXn (θ )
→
n→∞
1,
per ogni θ
che è la funzione caratteristica di una v.a. X che assume il valore 0 con probabilità 1.
b) Le v.a. del punto a) hanno media e varianza date da
E(Xn ) = (1 − αn ) · 0 + αn · n = nαn
E(Xn2 ) = (1 − αn ) · 02 + αn · n2 = n2 αn
Var(Xn ) = E(Xn2 ) − E(Xn )2 = n2 αn (1 − αn )
Esercizio 4.19
83
Dunque se, ad esempio, αn = n1 allora Var(Xn ) → +∞, mentre la varianza del limite in legge
X è uguale a zero. Ed inoltre E(Xn ) ≡ 1, mentre E(X) = 0.
4.18
a) Poniamo
n
1 se lo i-esimo bit vale 1
0 altrimenti .
Il numero totale di bit che assumono il valore 1 nel segnale è Sn = X1 + . . . + Xn , mentre la
proporzione di bit che valgono 1 è p̄n = n1 Sn . Per il Teorema Limite Centrale la v.a.
Xi =
S − 0.2 · n
√n
n(0.2 · 0.8)
segue una legge che, per n abbastanza grande, è approssimativamente N(0, 1). Dunque, con
l’approssimazione normale,
√
S − 0.2 · n
(0.23 − 0.2) · n >
P(p̄n > 0.23) = P(Sn > 0.23 · n) = P √n
≈
√
n(0.2 · 0.8)
0.2 · 0.8
0.03 · √n ≈1−8 √
0.16
sostituendo il valore numerico n = 1000 si ottiene 1 − 8(2.37) = 0.009.
b) Poniamo per comodità
√ ripetendo il ragionamento del punto a) e usando
√ p = 0.2. Allora
la (4.8) si ha, poiché σ = p(1 − p) = 0.16 = 0.4,
P(|p̄n − p| > ε) ≈ 2 1 − 8
√n 40
−√n = 28
40
Perché questa quantità sia più piccola di η = 4 · 10−3 occorre (dopo uno sguardo alle tavole)
che sia
√
− n
≤ −2.88
40
ovvero n > (40 · 2.88)2 = 13271.
4.19 a) log Si assume i valori log(1 + √σn ) e − log(1 + √σn ), entrambi con probabilità 21 . La
funzione caratteristica di Si è dunque
φ(θ ) =
σ 1 iθ log(1+ √σn )
−iθ log(1+ √σ )
n
+e
= cos θ log 1 + √
e
2
n
La v.a. log Xn è uguale a log(x̺t ) + log S1 + . . . + log Sn . La sua funzione caratteristica vale
dunque
σ n
t
φn (θ ) = eiθ log(x̺ ) cos θ log 1 + √
n
84
Parte 1: soluzioni
b) Nel calcolo del limite per n → ∞ di φn (θ ) siamo quindi ricondotti ad una forma 1∞ .
Ricordando gli sviluppi di Taylor per x e z vicini a 0
x2
+ o(x 2 )
2
log(1 + z) = z + o(z)
cos x = 1 −
si ottiene facilmente, per n → ∞,
e dunque
Dunque
σ 1 θ 2σ 2
+o
cos θ log 1 + √
=1−
2 n
n
σ n 1 θ 2σ 2
cos θ log 1 + √
+o
= 1−
2 n
n
φn (θ )
→
n→∞
t
eiθ log(x̺ ) e−θ
θ2
n
n
θ2
n
→
n→∞
= e−θ
2 σ 2 /2
2 σ 2 /2
Se ne deduce che log(Xn ) converge in legge ad una v.a. normale di media log(x̺t ) e varianza
σ 2.
+
c) Sia Z una v.a. normale N(log(x̺t ), σ 2 ). Abbiamo appena visto che log Xn → Z, dunque,
poiché la f.r. di Z è continua,
P(log Xn ≤ x)
→
P(Z ≤ x)
→
P(Z ≤ log x) = P(eZ ≤ x)
n→∞
per ogni x ∈ R. Da ciò si ricava
P(Xn ≤ x) = P(log Xn ≤ log x)
n→∞
Dunque Xn converge in legge ad una v.a. lognormale di parametri log(x̺t ) e σ 2 .
2
La media di questa legge è x̺t eσ /2 . Hanno quindi un rendimento medio maggiore gli effetti
finanziari per cui σ 2 è grande.
Uno sguardo all’andamento delle densità lognormali, come nella Figura 1.4, fa però pensare
che il valore medio non sia forse qui il criterio giusto di valutazione.
4.20 a) Per provare una convergenza in legge abbiamo a disposizione due metodi: quello
della funzione di ripartizione e quello delle funzioni caratteristiche. In questo caso, dato che
le funzioni caratteristiche delle leggi normali sono ben note, è quest’ultimo probabilmente il
metodo più semplice. Infatti
2 2 /2
φXn (θ ) = eibn θ e−σn θ
→
n→∞
e|ibθ e−σ
{z
2 θ 2 /2
f.c. di una v.a.
}
N(b,σ 2 )
.
Esercizio 4.20
85
Anche il metodo delle funzioni di ripartizione comunque non crea problemi: basta ricordare
che se 8b,σ 2 e 8 indicano le f.r. di v.a. N(b, σ 2 ) e N(0, 1) rispettivamente, allora si ha
8b,σ 2 (t) = 8
e dunque, poiché 8 è continua,
8bn ,σn2 (t) = 8
t − b n
σn
t − b
σ
→
n→∞
8
t − b
= 8b,σ 2 (t) .
σ
b1) Cominciamo con l’osservare che X1 ha legge normale (è una funzione lineare-affine
della v.a. normale Z1 ) di media αx e varianza σ 2 .
Anche X2 = αX1 + Z2 è normale, essendo la somma delle due v.a. αX1 e Z2 , che sono
normali e indipendenti. Poiché media e varianza sono date da
E(X2 ) = E(αX1 ) + E(Z2 ) = α 2 x
| {z }
=0
Var(X2 ) = Var(αX1 ) + Var(Z2 ) = α 2 σ 2 + σ 2 .
se ne deduce che X2 ∼ N(α 2 x, σ 2 (1 + α 2 )).
b2) Lo stesso ragionamento, per ricorrenza, prova che Xn ∼ N(α n x, σ 2 (1+α 2 +. . .+α 2n )):
supponiamo che ciò sia vero per un valore n e dimostriamolo per n + 1. Poiché Xn+1 =
αXn + Zn+1 e le due v.a. Xn e Zn+1 sono indipendenti e entrambe di legge normale, anche
Xn+1 ha legge normale. Restano da controllare i valori della media e della varianza di Xn+1 :
E(Xn+1 ) = E(αXn ) + E(Zn ) = α · α n x = α n+1 x
| {z }
=0
Var(Xn+1 ) = Var(αXn ) + Var(Zn ) = α 2 · σ 2 (1 + α 2 + . . . + α 2n ) + σ 2 =
= σ 2 (1 + α 2 + . . . + α 2(n+1) ) .
Poiché |α| < 1 abbiamo (vedi il riquadro a pag. 39)
αnx
→
n→∞
0
σ 2 (1 + α 2 + . . . + α 2n )
→
n→∞
σ2
·
1 − α2
2
σ
e per il punto a) (Xn )n converge in legge ad una v.a. N(0, 1−α
2 ).
b3) Con i valori numerici assegnati Xn converge ad una v.a. N(0, 43 ). Dunque per n grande
q
Xn ha approssimativamente la stessa legge di 43 Z, dove Z ∼ N(0, 1) e quindi
q q q P(|Xn | ≤ 1) = P |Z| ≤ 43 ≈ 8 43 − 8 − 43 =
= 8(0.866) − 8(−0.866) = 0.807 − 0.193 = 0.614 .
86
Parte 1: soluzioni
5.1 a) Le probabilità di transizione in due passi si possono calcolare facendo il prodotto di
matrici P 2 = P · P , che dà



(2)
P 2 = (pij )ij = 

7
16
5
16
3
8
13
36
9
16
7
16
5
8
19
36
0
1
4
0
0
0

0

.
0
1
9
(2)
Dunque si è in 2 dopo due passi con probabilità p22 = 41 partendo da 2 e con probabilità
(2)
p32 = 0 partendo da 3.
b) Sappiamo che uno stato i è transitorio se esso comunica con uno stato j che però non
comunica con i; questa è una condizione sufficiente per la transitorietà di uno stato, che è anche
necessaria se per di più la catena, come in questo caso, è finita. Uno stato è ricorrente se non è
transitorio.
La determinazione di ricorrenza e transitorietà consiste quindi nel verificare, per ogni stato i,
con quali altri stati esso comunica e se questi altri stati a loro volta comunichino con i.
Ora partendo da 1 si può solo restare in 1 oppure andare in 3; invece partendo da 3 si può solo
restare in 3 oppure passare in 1. Gli stati 1 e 3 costituiscono quindi una classe chiusa e sono
ricorrenti, poiché non soddisfano alla condizione di transitorietà che abbiamo appena ricordato
(non comunicano con un altro stato j che non comunica con loro).
Invece lo stato 2 comunica sia con 1 che con 3 che, come abbiamo visto, non comunicano con
2 che quindi è transitorio. Per lo stesso motivo anche 4, che comunica con 1 e 3, è transitorio.
Partendo da 2 la catena può restare in 2 oppure passare in uno degli stati 1 oppure 3. In questa
eventualità la catena non tornerà mai più in 2, perché abbiamo visto che 1 e 3 costituiscono una
classe chiusa. Dunque la sola possibilità di essere in 2 dopo 12 passi consiste nel restare in 2 in
(12)
tutte le 12 transizioni; quindi la probabilità richiesta è p22 = 2112 .
c) La nuova matrice di transizione è
1




4
1
4
1
2
0
0
1
2
0
1
3
3
4
1
4
1
4
1
3
0

0

.
1

4
1
3
Ma ora si vede facilmente che tutti gli stati comunicano tra loro, e sono quindi ricorrenti.
5.2 a) Abbiamo già ricordato che uno stato i è transitorio se esso comunica con uno stato j
che a sua volta non comunica con i.
• 1 comunica con 2 (p12 = 21 > 0) ma 2 non comunica con 1 (in effetti la probabilità pi1 è
uguale a 0 per ogni stato i) e dunque 1 è transitorio.
• 4 comunica con 4 e 5 e lo stesso vale per 5; 4 e 5 sono dunque ricorrenti e costituiscono
una classe irriducibile.
Esercizio 5.2
87
• 2 comunica con 4 che, come abbiamo visto, non comunica con 2: 2 è transitorio.
• 3 comunica con 2 che comunica con 4. Dunque 3 comunica con 4, che però non comunica
con 3: 3 è transitorio. Avremmo anche potuto osservare che 3 comunica con 2, che sappiamo
già essere transitorio, e ciò basta a stabilire la transitorietà di 3 (uno stato ricorrente non può
comunicare con uno transitorio).
Osserviamo che in tutti questi ragionamenti non era importante conoscere i valori dei numeri
pij , ma solo se essi fossero o no > 0. In particolare la classificazione degli stati che abbiamo
ottenuta è valida per ogni matrice della forma

∗ ∗
∗ ∗
∗ ∗
0 0
0 0
0
0

0

0
0

0 0
∗ 0

0 0

∗ ∗
∗ ∗
dove gli asterischi indicano numeri qualunque, purché > 0. Per tutte le matrici di questa forma
gli stati 1, 2, 3 saranno transitori, mentre 4 e 5 ricorrenti.
b) Sappiamo che una distribuzione invariante è data da dei numeri v1 , . . . , v5 , tutti ≥ 0, tali
che v1 + . . . + v5 = 1 e che siano soluzione del sistema di equazioni lineari
v1 p1j + . . . + v5 p5j = vj
j = 1, . . . , 5
ovvero in forma matriciale
(1.16)
(v1 , . . . , v5 )  p11

. . . p15 
..
 = (v1 , . . . , v5 ) .
.
. . . p55
p51
Sostituendo i valori di pij si tratta di risolvere il sistema composto dalle equazioni
(1.17)
1
2
1
2
1
2
v1 +
v1 +
v2 +
1
4
1
4
1
4
3
4
v2 +
v2 +
v4 +
v4 +
1
2
1
2
1
2
1
2
0 = v1
v3 = v2
v3 = v3
v5 = v4
v5 = v5
più l’equazione
v1 + v2 + v3 + v4 + v5 = 1 .
Questo sistema si semplifica però considerevolmente ricordando che una distribuzione invariante
è sempre nulla sugli stati transitori. Dunque v1 = v2 = v3 = 0 e il sistema diviene
(1.18)
1
4
3
4
v4 +
v4 +
1
2
1
2
v5 = v4
v5 = v5
v4 + v5 = 1 .
88
Parte 1: soluzioni
Esprimendo v5 = 1 − v4 dalla terza equazione e sostituendo nella prima, questa dà
1
4
1
2
v4 +
−
1
2
v4 = v4
cioè
1
2
e quindi v4 =
2
5
=
5
4
v4
e v5 = 1 − v4 = 53 . Quindi
v1 = 0,
v2 = 0,
v3 = 0,
v4 = 25 ,
v5 =
3
5
è una distribuzione invariante. Essa è anche unica, perché il sistema (1.18) ammette solo questa
soluzione.
c) Gli stati 4 e 5 sono i soli stati ricorrenti. Sappiamo che una catena di Markov con probabilità
1 lascia prima o poi l’insieme costituito dagli stati transitori. Quindi la probabilità di giungere
in {4, 5} è uguale a 1.
• Un errore molto comune nel calcolo della distribuzione invariante consiste nel considerare
il sistema
(1.19)
pj 1 v1 + . . . + pj N vN = vj
j = 1, . . . , N
(N è il numero degli stati), cioè in forma matriciale
p
11

pN1
. . . p1N   v1   v1 
..
  ..  =  .. 
.
.
.
vN
vN
. . . pNN
invece di quello corretto (1.16)
(1.20)
p1j v1 + . . . + pNj vN = vj
j = 1, . . . , N
cioè nel considerare il sistema i cui coefficienti sono dati dalla matrice P invece che dalla sua
trasposta. C’è però un modo facile per accorgersi di questo errore: la soluzione del sistema
(1.19) è infatti sempre data da v1 = . . . = vN = N1 , cioè dalla distribuzione uniforme, come è
facile accorgersi osservando che pj 1 + . . . + pj N = 1 (la somma degli elementi di ogni riga
della matrice di transizione vale 1).
Si può però dimostrare che la distribuzione uniforme è invariante se e solo se la matrice P
è bistocastica, cioè se e solo se anche la somma degli elementi di ogni colonna vale 1. In
conclusione: se trovate come distribuzione invariante la legge uniforme, verificate che P sia
effettivamente bistocastica, altrimenti rivedete i vostri conti, probabilmente avete commesso
l’errore di considerare il sistema (1.19) invece di quello corretto (1.20).
• In pratica nel calcolo della distribuzione stazionaria occorre risolvere il sistema (1.20) con
in più l’equazione
(1.21)
v1 + . . . + vN = 1 .
Esercizio 5.3
89
Infatti (1.20) non ha soluzione unica (se v = (v1 , . . . , vN ) è soluzione, allora anche αv, α ∈ R
è soluzione). Ciò vuole dire che tra le equazioni (1.20) ce n’è sempre almeno una che è
linearmente dipendente dalle altre (nel caso di (1.18) la seconda equazione è uguale alla prima).
Concretamente per trovare la distribuzione invariante occorre risolvere il sistema che si ottiene
dalla (1.20) eliminando una equazione che dipende dalle altre ed aggiungendo la (1.21). Nei
casi in cui c’è una sola distribuzione invariante in questo modo si ottiene un sistema che ha
soluzione unica.
5.3
a) La matrice di transizione di questa catena è
P =
0
1−p
p
p
0
1−p
1−p
p
0
!
.
La catena è irriducibile perché, per ipotesi, sia p che 1 − p sono numeri > 0 e dunque ogni
stato comunica con tutti gli altri. Per mostrare che la catena è regolare basta mostrare che esiste
un n tale che la matrice P n abbia tutti gli elementi > 0. In questo caso basta n = 2: infatti
P2 =
2p(1 − p) (1 − p)2
p2
2
p
2p(1 − p) (1 − p)2
2
(1 − p)
p2
2p(1 − p)
!
.
Calcoliamo la distribuzione invariante. Prima però di lanciarsi nella risoluzione del sistema
lineare (che in questo caso è in 3 incognite) conviene controllare che non vi siano ‘‘scorciatoie’’,
come succede ad esempio con le matrici di transizione bistocastiche (per le quali anche la somma
degli elementi delle colonne sono = 1). In effetti questa è la situazione e sappiamo dunque che
la distribuzione stazionaria è quella uniforme v = ( 13 , 13 , 31 ).
b) Si ha
P(Xn = 1, Xn+1 = 2) = P(Xn+1 = 2|Xn = 1)P(Xn = 1) =
= p12 P(Xn = 1) = pP(Xn = 1) .
Poiché per n grande P(Xn = 1) ≈ 13 , P(Xn = 1, Xn+1 = 2) ≈
p
3.
Allo stesso modo
P(Xn = 2, Xn+1 = 1) = P(Xn+1 = 1|Xn = 2)P(Xn = 2) = p21 P(Xn = 2) ≈
1−p
·
3
c) Perché la catena sia reversibile occorre che sia vi pij = vj pj i per tutti gli stati i, j . In
questo caso i valori vi della distribuzione stazionaria non dipendono da i. Dunque abbiamo la
reversibilità se pij = pj i per ogni i, j , cioè se e solo se la matrice di transizione è simmetrica.
Uno sguardo a P e si vede subito che ciò si verifica se e solo se p = 21 (che è anche il valore
per cui le due probabilità calcolate in b) sono uguali).
90
Parte 1: soluzioni
5.4 a) Il problema si può chiaramente modellizzare con una catena di Markov del tipo della
rovina del giocatore, avente cioè come insieme degli stati E = {0, 1, . . . , 1001} e matrice di
transizione
(
p se j = i + 1
pij = q se j = i − 1
0 altrimenti
18
19
se 0 < i < 1001 dove p = 37 , q = 37 , mentre invece gli stati i = 0 e i = 1001 sono assorbenti.
Si vede subito che tutti gli stati, tranne 0 e 1001, sono transitori, poiché comunicano con gli
stati assorbenti 0 e 1001 che non comunicano con altri stati. Dunque per n → ∞ la catena
converge (viene assorbita) in 0 oppure in 1001. Se indichiamo con λi la probabilità di passaggio
in 0 della catena con stato iniziale i allora la probabilità che il giocatore vinca è 1 − λ1000 . Le
formule per le probabilità di passaggio della rovina del giocatore danno
λi =
γ i + . . . + γ 1000
1 + . . . + γ 1000
19
. Per calcolare λ1000 conviene effettuare qualche manipolazione algebrica
dove γ = pq = 18
per evitare gli errori di arrotondamento:
λ1000 =
γ 1000
1
1 − γ −1
1
=
=
≃
= 0.053
1000
−1000
−1001
1 + ... + γ
γ
+ ... + 1
1−γ
19
(γ −1001 = 3.33 · 10−24 ). Quindi la probabilità che il giocatore vinca è 1 − 0.053 = 0.947.
Invece con probabilità del 5.3% il giocatore finisce rovinato.
b) La v.a. Y può assumere i soli valori 0 oppure 1001, poiché sappiamo che con probabilità
1 il gioco finisce dopo un numero finito di giocate. Più precisamente, considerando come stato
iniziale i = 1000
P(Y = 0) = λ1000 = 0.053
P(Y = 1001) = 1 − λ1000 = 0.947 .
Quindi
E(Y ) = 0 · 0.053 + 1001 · 0.947 = 947.9 .
In media dunque, come ci si poteva aspettare, il giocatore perde (alla fine ha un capitale inferiore
a quello iniziale).
5.5 Il problema in realtà più difficile in questo tipo di esercizi consiste nella modellizzazione
del problema, cioè nello scrivere la matrice di transizione della catena di Markov da usare come
modello. Ciò del resto si può fare in molti modi. In questo caso il più semplice consiste nel
considerare una catena di Markov con 6 stati:
1 → ‘‘A tiene il gioco’’
2 → ‘‘B tiene il gioco’’
3 → ‘‘C tiene il gioco’’
4 → ‘‘A vince’’
5 → ‘‘B vince’’
6 → ‘‘C vince’’ .
Esercizio 5.6
91
Gli stati 4, 5, 6 saranno assorbenti, il che equivale a dire che il gioco si ferma non appena un
giocatore vince. Se supponiamo che A, B, C siano seduti in senso antiorario intorno al tavolo,
dovrà essere
p11 =
p12 =
p13 =
p14 =
3
8
3
8
1
8
1
8
(probabilità che il giocatore A conservi il gioco)
(probabilità che A passi il gioco a destra)
(probabilità che A passi il gioco a sinistra)
(probabilità che A vinca)
p15 = p16 = 0 (B e C non possono vincere in un passo se è A a tenere il gioco) .
Le relazioni precedenti determinano la prima riga della matrice di transizione (in esse 83 è la
probabilità di ottenere 2 teste e una croce e anche quella di ottenere una croce e due teste, mentre
1
8 è la probabilità di tre teste o tre croci). Le altre righe si determinano in maniera analoga. La
matrice di transizione risulta

3 3 1 1
0 0
8
8
8
8
1 3 3 0 1 0

8 8 8
8

3 1 3
 8 8 8 0 0 81 


P =

0 0 0 1 0 0


0 0 0 0 1 0
0
0
0
0
0
1
La probabilità che il giocatore che inizia il gioco vinca è chiaramente la stessa qualunque sia il
giocatore che inizia. Dunque questa probabilità è la stessa che la probabilità di assorbimento
in 4 partendo da 1. Il calcolo di λi =probabilità di assorbimento in 4 partendo da i, si effettua
risolvendo il sistema (5.9) che qui diventa
λi = pi4 + pi1 λ1 + pi2 λ2 + pi3 λ3
e cioè
λ1 =
1
8
+
λ2 =
λ3 =
La soluzione del sistema è λ1 =
che inizia il gioco vinca è 11
26 .
11
26 , λ2
=
3
8
1
8
3
8
λ1 +
λ1 +
λ1 +
7
26 , λ3
3
8
3
8
1
8
λ2 +
λ2 +
λ2 +
=
8
26 .
i = 1, 2, 3
1
8
3
8
3
8
λ3
λ3
λ3 .
Dunque la probabilità che il giocatore
5.6 a) Indichiamo con Xn il numero di palline nere nell’urna dopo n estrazioni.
• Se Xn = 1 nell’urna si trovano 1 pallina N e 2 R e da essa verrà dunque estratta una pallina
N con probabilità 13 ed una pallina R con probabilità 23 ; dunque Xn+1 = 0 con probabilità 13 e
Xn+1 = 2 con probabilità 23 .
Ripetendo questo ragionamento si vede che
92
Parte 1: soluzioni
• se Xn = 2 allora Xn+1 = 1 con probabiltà 21 e Xn+1 = 3 con probabilità 21 ;
• se Xn = 3 allora Xn+1 = 4 con probabilità 25 e Xn+1 = 2 con probabilità 35 .
Gli stati 0 e 4 vengono scelti assorbenti in quanto corrispondono alla fine della partita. In
conclusione la matrice di transizione è
0
↓
0 → 1
1
1 →
 3

2 → 0

3 → 0
4→ 0
1
↓
0
0
2
↓
0
1
2
0
0
0
0
3
↓
0
0
2
3
1
2
3
5
0
0
4
↓
0
0


0 .

2 
5
1
b) Si richiede di calcolare P2 (X3 ≥ 2) (P2 è la probabilità partendo dallo stato 2). Ricordiamo
(n)
che se pij indica la probabilità di fare una transizione in n passi da i a j , allora Pi (Xn = j ) =
(n)
pij . Dunque
(3)
(3)
(3)
P2 (X3 ≥ 2) = P2 (X3 = 2) + P2 (X3 = 3) + P2 (X3 = 4) = p22 + p23 + p24 .
(3)
Le probabilità pij si determinano calcolando il prodotto P 3 = P · P · P della matrice di
transizione per se stessa 3 volte. Un calcolo paziente dà




3
P =


1
4
9
1
6
1
10
0
0
0
0
19
45
0
0
0
19
60
0
19
60
0
19
50
0
2
15
1
5
13
50
0
0
0
1







19
dunque la probabilità che vi siano almeno due palline N nell’urna dopo tre estrazioni è 60
+ 15 =
31
60 (bisogna guardare la terza riga, perché gli stati sono numerati a partire da 0). Attenzione
anche a non confondere P2 (probabilità partendo dallo stato 2) con P 2 (matrice di transizione
in due passi).
c) La probabilità richiesta non è altro che la probabilità di assorbimento in 4 partendo da 2. Se
λi è la probabilità di assorbimento in 4 partendo da i, allora i numeri λ1 , λ2 , λ3 sono soluzione
del sistema lineare
λ1 = 23 λ2
λ2 =
λ3 =
1
2
2
5
λ1 +
+
3
5
1
2
λ3
λ2 .
4 6 8
, 11 , 11 ) e quindi la probabilità che A vinca è λ2 =
La soluzione è ( 11
6
5
vinca sarà invece 1 − 11
= 11
. Il giocatore A è favorito.
6
11 .
La probabilità che B
Esercizio 5.7
93
d) Se indichiamo con ζi il tempo medio di assorbimento in {0, 4} partendo da i, allora i numeri
ζi , i = 1, 2, 3 sono soluzione di
ζ1 = 1 +
ζ2 = 1 +
ζ3 = 1 +
2
3 ζ2
1
2 ζ1
3
5 ζ2
+
1
2 ζ3
.
60 47
Il sistema ha per soluzione ( 51
11 , 11 , 11 ). Poiché supponiamo di partire inizialmente dallo stato
2 (due palline nere nell’urna), la partita dura in media 60
11 = 5.45 estrazioni.
5.7
a)

r
q

0

0

0
p
p
r
q
0
0
0
0
p
r
q
0
0
0
0
p
r
q
0
0
0
0
p
r
q

q
0

0
 .
0

p
r
b) Ricordiamo che, per definizione, una catena è irriducibile se tutti gli stati comunicano tra
loro. Supponiamo che sia p > 0. Allora lo stato 1 comunica ( ) con 2. Poiché 2
3 per
lo stesso motivo, anche 1
3. Ripetendo lo stesso ragionamento vediamo che 1 comunica
con 4, 5, . . . , N. Dunque 1 comunica con tutti gli altri stati. Lo stesso ragionamento si può
ripetere per ogni altro stato, ottenendo che tutti gli stati comunicano tra loro e quindi la catena
è irriducibile. Lo stesso ragionamento permette di provare l’irriducibilità nell’ipotesi che sia
q > 0.
c) Ricordiamo che una matrice di transizione è regolare se esiste un numero m tale che P m
abbia tutti i suoi elementi > 0; una condizione semplice (ma è solo una condizione sufficiente)
è che la catena sia irriducibile e vi sia almeno un elemento sulla diagonale di P che sia > 0.
Se uno almeno tra i numeri p e q è > 0 abbiamo visto che la catena è irriducibile; se per di più
r > 0, dato che tutti gli elementi della diagonale di P sono uguali a r (come si vede anche dal
punto a)), sono soddisfatte le condizioni del criterio di regolarità: catena irriducibile ed almeno
un elemento sulla diagonale > 0; la catena è quindi regolare.
Se invece r = 0 il criterio non è soddisfatto ed occorre verificare direttamente la definizione,
(m)
cioè se esista un numero m tale che pij > 0, tale cioè che la probabilità di passare da i a j in
m passi, sia > 0 per ogni coppia di stati i, j .
Se N è pari la catena non è regolare. Basta osservare che ad ogni transizione da uno stato i
si può passare solo in uno stato contiguo. Se il poligono ha un numero N pari di vertici, allora
se i è uno stato di indice pari gli stati ad esso contigui hanno indice dispari e, viceversa, se i
è di indice dispari gli stati ad esso contigui sono di indice pari (Vedi la Figura 5.8). Quindi se
si parte dallo stato iniziale i dispari, dopo un numero pari di passi ci troveremo certamente in
uno stato dispari, mentre dopo un numero dispari di passi la catena si troverà in uno stato pari.
94
Parte 1: soluzioni
Quindi, nell’esempio dell’esagono, la matrice di transizione in m passi P m sarà della forma

0 ∗ 0 ∗
∗ 0 ∗ 0

0 ∗ 0 ∗

∗ 0 ∗ 0

0 ∗ 0 ∗
∗ 0 ∗ 0

0 ∗
∗ 0

0 ∗

∗ 0

0 ∗
∗ 0
oppure

∗ 0 ∗
0 ∗ 0

∗ 0 ∗

0 ∗ 0

∗ 0 ∗
0 ∗ 0

0 ∗ 0
∗ 0 ∗

0 ∗ 0

∗ 0 ∗

0 ∗ 0
∗ 0 ∗
a seconda che m sia dispari o pari rispettivamente. P m non può dunque mai avere tutti i suoi
elementi > 0.
Se invece il numero di vertici N è dispari, allora il ragionamento appena svolto non si può
ripetere perché lo stato 1 è contiguo sia a uno stato pari che a uno dispari. Del resto nell’Esercizio
5.3, dove avevamo N = 3, si aveva r = 0 ma la catena era regolare. In realtà si potrebbe
dimostrare che se il numero di vertici è dispari, allora se p > 0, q > 0, la catena è sempre
regolare (anche se r = 0).
d) È facile rendersi conto che la matrice di transizione è bistocastica. Dunque la distribuzione
uniforme πi = N1 è stazionaria. Poiché con i valori di p, r, q assegnati la catena è regolare,
questa è anche l’unica distribuzione invariante. Inoltre, per n grande
P(Xn = 1, Xn+1 = 2) = P(Xn+1 = 2|Xn = 1)P(Xn = 1) ≈ p12
1
p
= ·
N
N
Allo stesso modo si vede che P(Xn = 2, Xn+1 = 1) = Nq . La relazione di reversibilità
πi pij = πj pj i diviene qui p = q: la catena è reversibile se e solo se sono uguali le probabilità
di spostarsi in senso orario e antiorario.
5.8 a) La descrizione dell’evoluzione dello stato della stampante determina subito la matrice
di transizione che è
0
1
↓ ↓
0→ 1−b
b
P =
.
1→
a
1−a
b) Se a = 0, b = 0 la matrice di transizione diventa
1 0
P =
0 1
e i due stati 0 e 1 sono assorbenti. La catena non è dunque irriducibile e non può essere regolare.
Se invece a = 1, b = 1 la matrice di transizione è
0 1
.
P =
1 0
La catena è ora irriducibile (gli stati comunicano), ma non può essere regolare: ad ogni intervallo
di tempo essa cambia di stato con probabilità 1. Dunque se lo stato iniziale è 0, la catena si
Esercizio 5.9
95
troverà in 1 ai tempi dispari ed in 0 ai tempi pari. Non è quindi possibile che P n possa avere
tutti i suoi elementi > 0. Se a = 1, b = 21 invece
P =
1
2
1
1
2
0
.
La catena è regolare. Infatti essa è irriducibile e vi è almeno un elemento > 0 sulla diagonale.
Se infine 0 < a < 1, 0 < b < 1 la catena è certo regolare perché già P ha tutti i suoi elementi
> 0. In quest’ultima situazione la probabilità che la catena si trovi nello stato 1 per n grande
si può valutare approssimativamente con il valore π1 , dove π = (π0 , π1 ) è la distribuzione
stazionaria, la cui unicità è garantita dal Teorema di Markov 5.15. Essa si ottiene risolvendo il
sistema (5.9), più la condizione π0 + π1 = 1. Cioè il sistema lineare
(1 − b)π0 + aπ1 = π0
π0 + π1 = 1
a
b
che ha come soluzione π = ( a+b
, a+b
). Dunque la probabilità che la stampante sia occupata
b
ad un tempo n grande è a+b . Coi valori numerici proposti si ottiene π1 = 0.7
1.1 = 0.636.
c) La catena è irriducibile (abbiamo anzi visto che è regolare). Dunque, per il Teorema
ergodico 5.28, N̄n converge in probabilità al valore della distribuzione stazionaria in 1, che
abbiamo calcolato in b). Con i valori numerici proposti la stampate risulterebbe dunque occupata
il 63.6% del tempo.
5.9 a) La v.a. D1 può assumere i valori:
4 se le coccinelle si spostano entrambe in senso orario oppure entrambe in senso antiorario;
2 se la prima si sposta in senso orario e la seconda in senso antiorario oppure, viceversa, la
prima in senso antiorario e la seconda in senso orario.
Poiché ognuna delle coccinelle sceglie una delle due eventualità con probabilità 21 e in maniera
indipendente dall’altra, è presto visto che
P(D1 = 4) =
1
2
P(D1 = 2) = 21 ·
b) Abbiamo già calcolato in a) che se Dn = 4 allora Dn+1 può assumere i valori 4 oppure 2
con probabilità 21 .
D’altra parte se a un determinato istante la distanza tra le due coccinelle vale 2, allora all’istante
successivo essa potrà essere:
0 se esse si spostano l’una verso l’altra (cioè una in senso orario e l’altra in senso antiorario,
ma dalla parte in cui esse sono più vicine (probabilità 41 ).
2 se esse si spostano entrambe in senso orario oppure entrambe in senso antiorario (probabilità
1
);
2
4 se esse si spostano in sensi opposti, ma allontanandosi (probabilità 41 ).
Se invece Dn = 0 (cioè le due coccinelle si trovano sullo stesso vertice) allora Dn+1 = 0
se esse si spostano insieme nella stessa direzione (probabilità 21 ) oppure Dn+1 = 2 se esse si
spostano in direzioni opposte (probabilità ancora 21 ).
96
Parte 1: soluzioni
In conclusione abbiamo visto tre stati possibili, {0, 2, 4}, con la matrice di transizione:
0
 ↓1
2
↓
4
↓ 
0
1 
4 .
1
2
1
2
1
2
0→
2

P = 2 →  41
4→ 0
1
2
c) La matrice di transizione P è regolare, perché tutti gli stati comunicano tra di loro ed
inoltre vi sono elementi non nulli sulla diagonale. Per il Teorema di Markov esiste dunque
un’unica distribuzione invariante π = (π0 , π2 , π4 ) e la probabilità P(Dn = 0) per n grande si
può approssimare con il valore π0 della distribuzione invariante nello stato 0. Calcoliamo la
distribuzione invariante. Essa è soluzione del sistema π = π P , ovvero
π0 =
π2 =
π4 =
1
2
1
2
1
4
π0 +
π0 +
π2 +
1
4
1
2
1
2
π2
π2 +
1
2
π4
π4
π0 + π2 + π4 = 1 .
La soluzione è facile perché dalla seconda equazione si ha
π2 =
1
2
π0 +
1
2
π2 +
1
2
1
2
π4 =
(π0 + π2 + π4 ) =
1
2
da cui si ricava facilmente π0 = π4 = 41 . Quindi per n grande le due coccinelle si trovano nello
stesso vertice con probabilità 41 (qualunque sia lo stato iniziale).
d) Per calcolare il tempo medio necessario perché le due coccinelle si trovino nello stesso
vertice possiamo ragionare così: rendiamo lo stato 0 assorbente (il che equivale ad arrestare
la catena nel momento in cui essa giunge in 0). Se indichiamo con ζ2 , ζ4 i tempi medi di
assorbimento in 0 partendo da 2 e 4 rispettivamente, allora sappiamo che ζ2 e ζ4 sono soluzione
di
ζ2 = 1 + 21 ζ2 + 41 ζ4
ζ4 = 1 +
1
2 ζ2
+
1
2 ζ4
che ha soluzione ζ2 = 6, ζ4 = 8. Poiché supponiamo che le coccinelle partano da vertici
opposti, il tempo medio perché esse si ritrovino sullo stesso vertice è ζ4 = 8.
5.10
a) È chiaro che, se chiamiamo ‘‘5’’ lo stato ‘‘fine del programma’’, la matrice di
transizione è


0 21 21 0 0
1 0 0 1 1
2
4
4

3
 4 0 0 41 0  .


0 0 1 0 1
2
0
0
0
2
0
1
Esercizio 5.11
97
b) Se indichiamo con ζi il tempo medio di assorbimento in 5 partendo da i allora i numeri ζi
sono soluzione di
ζ1 = 1 + 21 ζ2 + 21 ζ3
ζ2 = 1 +
ζ3 = 1 +
ζ4 = 1 +
1
2 ζ1
3
4 ζ1
1
2 ζ3
+
+
1
4 ζ4
1
4 ζ4
che ha per soluzione
136 104 46 28 ,
,
,
= (9.06, 6.93, 9.2, 5.6) .
15 15 5 5
Il tempo medio partendo da 1 vale 9.06 ed è minore di quello partendo da 3.
c) Con i nuovi valori la matrice di transizione diviene
0
1
2
1
2
0
0
1
2
1
4

0
0
0
0
0
0
1
4
3
4
1
4
1
2
0
0
0
0

0




0

1
2
1
mentre ora il sistema lineare che dà i tempi medi di assorbimento è
ζ1 = 1 +
ζ2 = 1 +
ζ3 = 1 +
ζ4 = 1 +
1
2
1
2
1
4
1
2
ζ2 +
ζ1 +
ζ1 +
1
2 ζ3
1
4 ζ4
3
4 ζ4
ζ3
che ha per soluzione
128 104 110 76 ,
,
,
= (6.09, 4.95, 5.23, 3.62) .
21 21 21 21
Quindi ora l’esecuzione è più veloce, qualunque sia lo stato iniziale.
5.11
a) Se Xn = i ciò vuole dire che nelle due urne la situazione è la seguente
urna A
urna B
palline bianche
i
r −i
palline rosse
r −i
i
2
La probabilità che sia Xn+1 = i + 1 è dunque uguale a (r−i)
: infatti si ha Xn+1 = i + 1 solo
r2
se nell’urna A viene scelta una pallina rossa (probabilità r−i
)
e simultaneamente nell’urna B
r
98
Parte 1: soluzioni
viene scelta una pallina bianca (ancora
che, per i = 1, . . . , r − 1, deve essere
pij =
r−i
r ).
Ripetendo questo genere di ragionamenti si vede

(r−i)2

 r2

 2i(r−i)

i2


 r2
0
r2
se j = i + 1
se j = i
se j = i − 1
altrimenti .
Naturalmente se i = 0 oppure i = r si ha p01 = 1, pr,r−1 = 1.
b) L’insieme degli stati è E = {0, 1, . . . , r}. Tutti gli stati comunicano tra loro: ogni stato
infatti comunica con i suoi vicini a destra e a sinistra; quindi se i, j ∈ E e supponiamo per
semplicità i < j , allora i
i+1
...
j , da cui segue che i
j . D’altra parte si ha
anche j
j −1
...
i e dunque j
i. Quindi ogni stato comunica con tutti gli stati
alla sua destra e con tutti quelli alla sua sinistra, ovvero tutti gli stati comunicano tra di loro e
la catena è irriducibile. Poiché vi è almeno uno stato ricorrente (la catena è finita), tutti gli stati
sono ricorrenti. Essa è anche regolare perché nella matrice di transizione vi sono degli elementi
> 0 sulla diagonale.
c) Primo modo. Intanto osserviamo che la somma delle probabilità πk , k = 0, . . . , n è uguale
a 1 (è l’ultima delle (1.16)). Per mostrare che π è invariante proviamo prima di vedere se per
caso è reversibile. Infatti, anche se la reversibilità è solo una condizione sufficiente per la
stazionarietà, d’altra parte verificare la reversibilità è più facile. La distribuzione π è reversibile
se si ha πk pkj = πj pj k per ogni j, k ∈ E. Poiché pkj è uguale a 0 a meno che j non sia uno
dei tre numeri k − 1, k, k + 1, basta fare la verifica per j = k + 1. Ma, ponendo c = 1/ 2n
n ,
2 (r − 1)! 2
r − k 2
r
=c
r
k!(r − k − 1)!
k
2 (r − 1)! 2
2
k+1
r
=c
=c
r
k!(r − k − 1)!
k+1
πk pk,k+1 = c
πk+1 pk+1,k
e dunque π è reversibile.
Secondo modo. Il lettore attento avrà osservato che questa è una catena di nascita e morte e
per queste catene ci sono delle formule esplicite per la distribuzione stazionaria (vedi l’Esempio
5.26). La formula (5.31) afferma infatti che la distribuzione stazionarie (che per queste catene
è sempre reversibile) è data da
ξ
vi = P∞i
h=0 ξh
dove
ξj =
p0 . . . pj −1
q1 . . . qj
Qui si ha
pi = pi,i+1 =
i2
(r − i)2
, qi = pi,i−1 =
r2
r2
Esercizio 5.13
99
Dunque
ξj =
2
r 2 (r − 1)2 . . . (r − j + 1)2
r
=
j
12 2 2 . . . j 2
ed ora la (5.31) e l’ultima delle (1.16) permettono di concludere.
5.12 a) Se Xn = k, al tempo n + 1 nell’urna vi saranno k − 1 palline se la pallina prescelta
è una delle k che si trovano nella prima urna, oppure k + 1 se la pallina prescelta è una delle
m − k che si trovano nell’altra urna. Si tratta dunque di una catena di nascita e morte su
E = {0, 1, . . . , m} con
m−k
pk = pk,k+1 =
m
rk = pk,k = 0
k
qk = pk,k−1 = ·
m
per k = 0, 1, . . . , m.
b) Trattandosi di una catena di nascita e morte, sappiamo (Esempio 5.26) che la distribuzione
stazionaria è
ξ
πi = Pm i
h=0 ξh
dove i numeri ξi sono definiti da ξ0 = 1 e
ξi =
Evidentemente si ha
p0 . . . pi−1
m
m(m − 1) . . . (m − i + 1)
=
=
i
q1 . . . qi
1...i
m
X
h=0
ξh =
m X
m
h=0
h
= 2m
(vedi il riquadro a pag. 18) e dunque
πi =
m −m
2
i
Le distribuzioni stazionarie delle catene di nascita e morte sono sempre reversibili.
c) Se al tempo 0 la catena si trova in uno stato pari, al tempo successivo essa si troverà in uno
stato dispari e poi in uno pari e così via. Quindi, qualunque sia n, la matrice di transizione in n
passi P n non può avere tutti gli elementi positivi: la catena non è regolare.
5.13 a) Tutti gli stati comunicano tra loro, perché il grafo è connesso; dunque la catena è
irriducibile e la distribuzione stazionaria è unica. Per calcolarla ci sono due possibilità: la prima
consiste nel risolvere il sistema lineare π P = π più la condizione π1 +. . .+π10 = 1. Non è una
via troppo complicata perché per motivi di simmetria è chiaro che deve essere π2 = π3 = π4 e
π5 = π6 = π7 = π8 = π9 = π10 . Ci si riconduce quindi a un sistema lineare in tre incognite.
100
Parte 1: soluzioni
La seconda possibilità consiste nel ricordare che per una catena di Markov sui vertici di un
grafo c’è una formula esplicita della distribuzione stazionaria: se ki è il numero di spigoli del
grafo che arrivano nel vertice i e k è la somma dei numeri ki , allora
πi =
ki
k
è la distribuzione invariante. Qui ki è uguale a 3 per 4 vertici e uguale a 1 per 6. Dunque k = 18.
1
La distribuzione invariante vale 16 per gli stati 1, 2, 3, 4 e 18
per gli altri.
La catena non è regolare. Basta osservare che gli stati si possono suddividere in due classi:
la prima formata da 1, 5, 6, 7, 8, 9, 10 e la seconda da 2, 3, 4. Se la catena si trova in uno stato
della prima classe, all’istante successivo si troverà in uno della seconda e viceversa. Non è
dunque possibile che esista n tale che, partendo da i, si possa essere in ognuno degli stati con
probabilità positiva.
b) Con le nuove regole di transizione la catena è ora regolare: essa è infatti ancora irriducibile
e per di più pii = 21 per gli stati da 5 a 10. Vi sono dunque degli elementi > 0 sulla diagonale
della matrice di transizione e questo, insieme alla irriducibilità, assicura la regolarità della
catena. La formula della distribuzione invariante per le catene sui vertici di un grafo dà ora
k = 24 e quindi
1
se i = 1, 2, 3, 4
πi = 81
12 se i = 5, . . . , 10 .
c) Il tempo medio di passaggio nella classe {5, . . . , 10} partendo da i, i = 1, 2, 3, 4, indicato
ζi , si ottiene risolvendo il sistema
ζi = 1 +
4
X
pij ζj ,
j =1
i = 1, 2, 3, 4 .
Questo si risolve facilmente osservando che, per motivi di simmetria, deve essere ζ2 = ζ3 = ζ4 .
Giungiamo quindi al sistema
ζ2 = 1 + 13 ζ1
ζ1 = 1 + ζ2
che dà facilmente ζ1 = 3, ζ2 = 2. Partendo da 1 dunque si giunge in uno degli stati 5, . . . , 10
in media in 3 passi.
5.14 Come nell’Esempio 5.36, si possono modellizzare i lanci successivi con una catena di
Markov formata dagli stati
0→C
1 → CT
...
n → CT n
dove con CT i indichiamo che negli ultimi i + 1 lanci si sono avute una croce seguita da i teste
consecutive. Ad ogni lancio si può passare da CT i a CT i+1 con probabilità 21 (se il lancio
Esercizio 5.14
101
dà ancora testa) e a C con probabilità 21 (se invece dà croce), se 0 ≤ i ≤ n − 1. Imporremo
invece che lo stato n sia assorbente. Dire che con probabilità 1 si ottengono prima o poi n teste
consecutive significa dire che la catena appena descritta passa prima o poi nello stato CT n .
Ma questo è immediato perché tutti gli stati comunicano con lo stato CT n , che è l’unico stato
assorbente. Quindi tutti gli stati tranne CT n sono transitori e la catena con probabilità 1 entra
nello stato CT n .
Il tempo medio di assorbimento ζi nello stato n partendo dallo stato i, i = 0, 1, . . . , n − 1 si
ottiene risolvendo il sistema lineare
ζi = 1 +
n−1
X
pij ζj
j =0
che in questo caso diventa
ζn−1 = 1 +
ζn−2 = 1 +
1
2 ζ0
1
2 ζ0
...
+
1
2 ζn−1
ζi = 1 +
1
2 ζ0
+
1
2 ζi+1
ζ0 = 1 +
1
2 ζ0
+
1
2 ζ1
...
.
Il tempo medio per ottenere n teste consecutive è ζ0 . Sostituendo il valore di ζn−1 dato dalla
prima equazione nella seconda si ottiene
ζn−2 = 1 +
1
1
1 1 1
1
ζ0 +
1 + ζ0 = 1 + +
1+
ζ .
2
2
2
2 2
2 0
Sostituendo questo valore nell’equazione per ζn−3
ζn−3 = 1 +
1 1
1 1 1
+ +
1+ +
ζ
2 4 2
2 4 0
e più in generale, per ricorrenza,
ζi = 1 +
1
1
1
1 1
+ . . . + n−i−1 +
1 + + . . . + n−i−1 ζ0
2
2
2
2
2
da cui per i = 0
1
1
1
1 1
+ . . . + n−1 +
1 + + . . . + n−1 ζ0 =
2
2
2
2
2
1 − 21n
1 1 − 21n
1 1
+
ζ
=
2
1
−
=
+
1
−
ζ .
0
2 1 − 21
2n
2n 0
1 − 21
ζ0 = 1 +
Quindi, finalmente,
ζ0 = 2(2n − 1) = 2n+1 − 2 .
102
Parte 1: soluzioni
Ad esempio per n = 6 sono necessari in media 27 − 2 = 126 lanci.
5.15 a) Ricordiamo che una catena di nascita e morte è ricorrente se e solo se è divergente
la serie di termine generale
γi =
q1 . . . qi
(1 + 3 − k)(2 + 3 − k) . . . (i + 3 − k)
=
·
p1 . . . pi
(1 + k)(2 + k . . . (i + k)
Cominciamo con il caso k = 0: nell’espressione di γi il numeratore è il prodotto di tutti i numeri
interi da 4 a i + 3, mentre il denominatore è il prodotto dei numeri da 1 a i. Semplificando i
fattori comuni al numeratore e al denominatore otteniamo
γi =
(i + 1)(i + 2)(i + 3)
6
(k = 0)
che è il termine generale di una serie divergente (anzi γi stesso tende all’infinito per i → ∞).
Ripetendo lo stesso argomento, semplificando cioè numeratore e denominatore che contengono
sempre molti termini in comune, si ottengono le espressioni di γi per gli altri valori di k:
i+2
2
2
γi =
i+2
γi =
γi =
6
(i + 1)(i + 2)(i + 3)
(k = 1)
(k = 2)
(k = 3) .
La serie di termine generale γi è dunque ancora divergente per k = 1, 2, ma è convergente per
k = 3. In conclusione la catena è ricorrente per k = 0, 1, 2 e transitoria per k = 3.
Per stabilire quando la catena sia ricorrente positiva oppure ricorrente nulla basta vedere
quando essa ammetta una distribuzione invariante. La catena ammette una distribuzione invariante se e solo se è convergente la serie di termine generale
ξj =
p0 . . . pj −1
=
q1 . . . qj
1 (1 + k) . . . (j + k − 1)
(2j + 3)
2 (4 − k) . . . (j + 3 − k)
(vedi l’Esempio 5.26). Per k = 0 il numeratore nella frazione a destra nell’espressione precedente è il prodotto dei numeri interi da 1 a j − 1, mentre il denominatore contiene i prodotti da
4 a j + 3. Dunque per k = 0
ξj =
3(2j + 3)
j (j + 1)(j + 2)(j + 3)
che è il termine generale di una serie convergente (va a 0 all’infinito come j13 ). Ripetendo lo
stesso ragionamento per k = 1, 2 e semplificando numeratore e denominatore abbiamo
2j + 3
(j + 1)(j + 2)
2j + 3
ξj =
4
ξj =
(k = 1)
(k = 2) .
Esercizio 5.15
103
Dunque la serie di termine generale ξj è divergente per k = 1, 2; in conclusione la catena è
ricorrente positiva per k = 0 e ricorrente nulla per k = 1, 2.
b) Il limite in (5.60) è certamente = 0 per k = 3, perché la catena è transitoria e così pure
per k = 1 e k = 2 (ricorrente nulla). Per k = 0 invece esiste una distribuzione invariante che
indicheremo π . Sappiamo che
lim Pi (Xn = 3) = π3
n→∞
qualunque sia lo stato iniziale i, a condizione che la catena sia aperiodica. Questa condizione
(n)
è verificata in questo caso, poiché l’ipotesi che sia r0 = 21 implica p0,0 ≥ r0n > 0. Dunque lo
stato 0 è aperiodico, e, poiché la catena è irriducibile, tutti gli stati sono aperiodici. Come noto
la distribuzione stazionaria è data da
ξj
πj = P∞
h=0 ξh
(dove si pone ξ0 = 1).
2
Risultati degli esercizi proposti
4
25 .
1.19
a) 51 . b)
1.20
5
12
1.21
a1) 0.15. a2) 0.2. b1) C = (A ∩ B c ) ∪ (B ∩ Ac ). b3) 0.12.
= 0.416.
16 10
) = 0.36, che è una probabilità non trascurabile, ma non particolarmente
1.22 a) 1−(1− 365
alta. b) ≥ 50%: ≥ 25 giorni, ≥ 90%: ≥ 76 giorni. c) ≥ 50%: ≥ 16 partecipanti, ≥ 90%:
≥ 52 partecipanti.
1.23
a) 0.95 · 0.03 + 0.2 · 0.97 = 0.2225. b)
1.24
a)
4 1
5 8
+
1 8
5 27
0.95·0.03
0.2225
= 0.56
c) n ≥ 5.
a) n ≥ 3. b) 1 − 0.8n , 1 −
Paolo Baldi
Calcolo delle Probabilità
McGraw-Hill 2011
(1−0.95)·0.03
0.7775
= 0.16. b1) è più probabile che sia equilibrata. b2)
1 16
4 1
5 16 + 5 81
4 1
1 8
5 8 + 5 27
1.25
= 0.128. c)
0.8n
1−0.2n .
c)
0.8
1−0.2n .
= 0.0019.
106
Parte 2: risultati degli esercizi proposti
1.26
a) 31 . b) 21 .
1.27
a) Le sequenze sono equiprobabili. b) T T T T T T T T .
1.28
a)
(130)(39
13)
= 0.013. b)
(52
13)
13 39
4
1.29
a) 61 . b) 61 . c)
1.30
4
13
0
52
13
−6
26 26
0 13
52
13
+4
39 13
0 13
52
13
= 0.051
2
11 .
28
(12)(28)
(12)(28)
(120)(10
)
− 6 0 40 20 ∼ 4 0 40 10 = 0.062.
40
(10)
(20)
(10)
(8)(7)+(8)(7)+(8)(7)
(28)(47)
= 0.196. b) 0 6 1 15 5 2 4 = 0.23 c) 0.034; è una probabilità un po’
15
(6)
(6)
troppo piccola.
1.31
a)
1.32
a) 21 . b) 47 . c) 13 .
1.33
a)
(24)(26)
= 73 . b)
(104)
1.34
a)
(131)(131)(131)(131)
(13)(13)(13)(13)
(13)(13)(13)(13)
= 0.1. b) 2 2 52 0 0 = 0.022. c) 6 × 2 2 52 0 0 = 0.13. d)
52
(4)
(4)
(4)
1
14 .
c)
1
14 .
(264)(260)
= 0.055.
(524)
(03)(k7)
, k = 1, . . . , 7, q8 = 0. b) pk =
(10k )
massima per k = 1. c) p1 + p3 + p5 + p7 = 0.583.
1.35
a) qk =
1.36
a) 21 . b) 16 .
1.37
(2n)!
2n
3
10·9·8
(10 − k)(9 − k), k = 1, . . . 8,
Esercizio 1.48
1.38
107
n!.
1.41 La probabilità di estrarre palline dello stesso colore è 49 , quella di estrarre palline di
colori diversi 95 ed è più grande.
1.42
a)
(10)(110)
(100)(110
10 )
= 0.404. b) 10 120 0 ≃ 8.16 · 10−15 .
120
( 10 )
( 10 )
1.43
a)
(51)(71)(1)
. b) n = 5 oppure n = 6.
(12+n
3 )
1.44
a) P(N) = 13 , P(R) = 41 , P(G) =
1.45
a)
1.46
a)
n
5
12 .
b1) 23 . b2) 76 .
30
(60
(45)(45)
10)( 0 )
= 0.013. b) 10 90 0 = 5.6 · 10−4 .
90
(10)
(10)
3R →
2R e 1B →
1R e 2B →
3B →
1.47
a) 3 ×
1.48
a) 1 −
10 15
7 15
25
22
10 15
8 14
25
22
10 15
9 13
25
22
10 15
10 12
25
22
=
8 · 9 · 10
= 0.05
23 · 24 · 25
=
9 · 10 · 15 · 3
= 0.29
23 · 24 · 25
=
10 · 14 · 15 · 3
= 0.46
23 · 24 · 25
=
13 · 14 · 15
= 0.2 .
23 · 24 · 25
(10)(10)(10)
(10)(10)(10)
(102)(101)(101)
= 0.492. b) 3 × 3 301 1 + 3 × 2 302 1 = 0.68.
30
(4)
(5)
(5)
(4)(35)
(04)(48
13)
= 0.696. b) 1 − 0 3913 = 0.818. c1)
52
(13)
(13)
4 48
4 48
4 48
3
c2)
1 3 1−
r
0
13
52
13
−3
4 35 4 48
0 13
0 13
39
52
13
13
0
26
52
26
+
−3 1−
0
39
52
39
= 0.748 := r .
4 22 4 48
0 13
0 26
26
52
13
26
+
4 48 0 39
52
39
= 0.813
108
Parte 2: risultati degli esercizi proposti
(A è calcolata in c1).
1.49 a) Figura 1.1 a): 2p2 − p4 ; Figura 1.1 b): 2p2 + p − p4 − 2p3 + p5 . b) 2p2 + 2p3 −
5p4 + 2p5 . c) 1.1 a): 0.59, 1.1 b): 0.84, 1.2: 0.66.
1.50 a) Vero. b) Vero. c) Falso (possono essere indipendenti). d) Falso e) Falso. f) Vero. g)
Vero. h) Falso. i) Vero.
13
2.25 a) 1 − 13
0 0.74 −
13
b) (1 − 0.28) = 0.014.
2 2
4 1
2 7
6
7
+
13
13
13
3
10
2
11
12
1 0.26 · 0.74 − 2 0.26 · 0.74 − 3 0.26 · 0.74
3
4 1
3 7
6
7
+
2.26
a)
2.27
a) ( 21 )n . b) 1 − ( 21 )n . c)
2.28
a) 49 . b)
2.29
a) E(T ) =
2.30
a) ( 23 )k , ( 31 )k . b) 3 ( 23 )k − 3 ( 31 )k ,
4n2
(3n−1)(3n−2) ,
1
3.07
1
2
4
4 1
4 7
= 0.46. b) 1 −
840
2401
= 0.45.
= 0.65.
n(n − 1)( 21 )n . d) 1 − (n + 1)( 21 )n . e)
2m 1 2m
m (2) .
→n→∞ 49 .
· 104 = 3254.15. b) E(T ) =
k=4
0.56
k = 10
0.05
c) P(T = k) = ( 23 )k−1 − 2 ( 13 )k−1 , E(T ) =
1
2.06
· 104 = 4856. Cambia, cambia. . .
k = 20
9 · 10−4
11
2 .
λ(1−p)
1−(1−p)(1−λ) .
2.31
a) (1 − p)n . b)
2.32
X1n ∼ B(1, p), X1 . . . Xn ∼ B(1, pn ).
2.33
a) voto medio= 30 ×
16 14
30 1
2
= 0.0116.
16 3
3
1
4
= 7.5,
16 14
30 1
16 4
3
4
= 0.0006. b) Voto medio= 10,
Esercizio 2.44
2.34
p
1−e(1−p)
2.35
ep
(e−1+p) ,
1 − 1e .
E(e−X ) =
per p >
a)
109
eX non ha speranza matematica finita per p ≤ 1 − 1e , E(eX ) =
(25)(25)(25)
= 0.2. b)
(156)
6!
2! 2! 2!
( 31 )6 = 0.12.
2.36 a) {W1 = k, W2 = m} = {X1 = C, . . . , Xk−1 = C, Xk = T , Xk+1 = C, . . . , Xk+m−1 =
C, Xk+m = T }; P(W1 = k, W2 = m) = p2 (1 − p)m+k−2 = p(1 − p)k−1 p(1 − p)m−1
1
, per
2.37 a) P(X + Y = k) = (k − 1)p2 (1 − p)k−2 , k = 2, 3, . . .. b) pX|X+Y (k|m) = m−1
1
m > k ≥ 1. c) = m−1 per ogni k = 1, . . . , m − 1. Tutti i possibili valori sono equiprobabili.
1
2.38 a) 16 per A, 18
per B. b) qi (1 − qi − q7 )n−2 , dove qi è la probabilità di ottenere i come
12−i+1
per i = 8, . . . , 12. c)
somma del lancio di due dadi, qi = i−1
36 per i = 2, . . . , 7, qi =
36
2
P
qi
q7 + i6=2,7,12 qi +q7 = 0.465; conviene giocare come B.
2.39
a) (p2 + (1 − p)2 )n p(1 − p). b) 21 .
2.40
a)
1
50 .
a1) 83 . a2) È più probabile che si tratti di un dado equilibrato.
2.41 a) P(Y ≤ k) = ( nk )m . b) P(Y = k) = n1m (k m − (k − 1)m ), massima per k = n. c)
k·...·(k−m+1)
m
, P(Y = k) = n·...·(n−m+1)
(k − 1) · . . . · (k − m + 1), massima ancora
P(Y ≤ k) = n·...·(n−m+1)
per k = n.
1
2.42 a) P(X = k) = 16
per k = 1, . . . , 14, P(X = 15) = 18 ; E(X) =
E(Y ) = 4, Var(Y ) = 0. c) 43 .
b
(mr )(k−m)
)
1
, = 15
per b = 7, r = 3, k = 2 e m = 2. b1)
r+b
(k )
b
(r−1)(k−m
)
1
, = 36
per b = 7, r = 3, k = 2 e m = 2.
3, k = 2. b2) mr+b−1
( k )
2.43
a)
2.44
a) p =
5
16 .
b2)
p
n=3
= 0.34
11
32
n=4
= 0.36
93
256
135
16 .
r
b+r ,
=
b) P(Y = 4) = 1,
3
10
per b = 7, r =
110
2.46
Parte 2: risultati degli esercizi proposti
a) E(X) = E(X 3 ) = 0. b)
1
PY |X (r|k) = 2
0
se r = k 2 + 1 oppure r = k 2 − 1
altrimenti;
Ē(Y |X = k) = k 2 . c) a = 0.
2.47 a) P(X = k |X + Y = n) = nk 21n che è una legge binomiale B(n, 21 ); la speranza
condizionale vale 21 . b) Cov(X + Y, X + Z) = Var(X) = λ; ̺X+Y,X+Z = 21 . c) P(X + Y =
4
5
3
2, X + Z = 3) = e−3λ λ2 + λ2 + λ12 .
2.48
a) Falso. b) Falso. c) Vero. d) No. e) Falso.
2.49
a) k0 ≥ 61. b) Usando un software adatto si trova che la probabilità che una v.a.
binomiale B(100, 23 ) assuma valori < 61 (ovvero ≤ 60) vale 0.1.
2.50
1−p .
a) H (pλ ; pλ0 ) = λ log λλ0 +λ0 −λ. b) H (µp ; µp0 ) = n p log pp0 +(1−p) log 1−p
0
2.52
a) P(X = 3) =
1
2.
5√
.
128 2
b) E(X) = 21 , Var(X) = 1. c) X + Y è geometrica di parametro
2.53
P(SN = 0) = e−λ(1−p) , P(SN = 1) = λp(1 − p)e−λ(1−p) .
2.51
a) Binomiale negativa di parametri p, α + β. b) E(X) = α
3.35
b) e− 4 = 0.001.
3.36
Y è esponenziale di parametro λ. fZ (t) = 3t 2 e−λt per t > 0.
1−p
p ,
Var(X) = α
1−p
.
p2
27
3
3.37 a) FX (x) = x θ per 0 ≤ x ≤ 1, = 0 per x ≤ 0 e = 1 per x ≥ 1. b) P(X ≥ 3) = 0,
θ
P(X ≤ 31 ) = 3−θ . c) Y è esponenziale di parametro θ . d) E(X) = θ+1
, Var(X) = (θ+1)θ2 (θ+2) .
Esercizio 3.50
α
θ
3.38 a) F (t) = 1− (θ+t)
α . b) Speranza matematica =
per α > 2.
3.39
a) fY (t) = √1
π
1−t 2
, −1 ≤ t ≤ 1. b) fY (t) =
nel caso a), E(Y ) = − 21 nel caso b).
3.40 a) E(X) = 0, Var(X) =
di parametro λ.
2
.
λ2
θ
α−1
1
π
per α > 1, varianza =
111
αθ 2
(α−1)2 (α−2)
(1 − t)1/2 (1 + t)−1/2 . c) E(Y ) = 0
b) αX è di Laplace di parametro
λ
|α| ,
|X| è esponenziale
3.41 a) P(X∗ ≤ t) = 1 − (1 − t)n , fX∗ (t) = n(1 − t)n−1 , 0 ≤ t ≤ 1. b) fX∗ (t) = nt n−1 .
1
n
, E(X∗ ) = n+1
.0≤t ≤1
d) E(X ∗ ) = n+1
3.42
FY (t) = 0 se t ≤ 0, FY (t) = 1 − e−λt se 0 ≤ t < M, FY (t) = 1 se t ≥ M. No.
3.43
a) 0.9772. b) 0.0668. c) 0.4772. d) 0.5763.
3.44
a) 8(−2.66) = 0.0038. b) 0.54. c) 0.9.
3.45
a) FX∗ (t) = 8(t)n . b) 0.226. c) n ≥ 271. d) 1 − 3.14 · 10−8 .
3.46
a) 0.0227. b)
3.47
α = 41 , λ =
1
4
3.48
a) fW (t) =
c −3/4 −t
e ,
2t
√
1 −2 2
2e
= 0.03.
nel primo caso e α = 4, λ = 4 nel secondo.
che è una Ŵ( 41 , 1). b)
2
.
Ŵ( 41 )
c) E(X) = 0, Var(X) =
Ŵ( 43 )
.
Ŵ( 41 )
3.49 a) 1 − e−1 per α = 1, 1 − 2e−1 per α = 2, 1 − 25 e−1 per α = 3. b) = 8(1.414) −
8(−1.414) = 0.843 per α = 21 ; = − 13 e−1 + 8(1.414) − 8(−1.414) = 0.423 per α = 23 ;
Ŵ( 2 )
1
1
−1
e + 8(1.414) − 8(−1.414)(1) = 0.151 per α = 25 .
=−
3
5 +
Ŵ( 2 )
3.50
Ŵ( 2 )
a) fY (t) =
2
2n/2 Ŵ( n2 )
t n−1 e−t
2 /2
n+1 2
√
√ Ŵ( n+1 )
Ŵ(
)
. b) E( X) = 2 Ŵ( n2 ) , Var(Y ) = n − 2 Ŵ( n2 ) ;
2
2
112
Parte 2: risultati degli esercizi proposti
per n = 3 E(Y ) =
√
2√ 2
,Var(Y )
π
= 3 − π8 ; per n = 4 E(Y ) =
3.51
fZ (t) = e−2λt (2λ2 t + 2λ3 t 2 ), E(Z) =
3.52
a) E[ X1 ] =
b) g(t) =
3.53
λα
Ŵ(α)
λ
α−1 per α >
t −(1+α) e−λ/t .
a1) Ŵ(α, λ). a2)
1
λ
1. Var( X1 ) =
√
3 2
4
√
π, Var(Y ) = 4 −
9
8
π.
5
4λ .
λ2
(α−1)2 (α−2)
per α > 2.
qβ . b1) Ŵ(100, 100). b2) a = 0.81, b = 1.2.
3.54 a) g è ancora esponenziale di parametro λ. b) g(x) = 21 (λ + λ2 x)e−λx . c) g è di Pareto
di parametri α − 1 e λ.
3.55
b) 3. c) 6.
3.56
a1)
F (x) =
1
eλt
1 − 21 e−λt
2
se t ≤ 0
se t ≥ 0 .
a2) Se X è uniforme su [0, 1], allora F −1 (X) è di Laplace di parametri λ, dove F −1 (y) =
log(2y) per y ≤ 21 e F −1 (y) = − λ1 log(2(1 − y)) per y ≥ 21 .
b) Se X è uniforme su [0, 1], allora F −1 (X) è di Weibull di parametri β e λ se F −1 (y) =
1/β
.
− λ1 log(1 − y)
1
λ
3.57 a) µ = − 21 σ 2 . b) X1 X2 è lognormale di parametri µ1 + µ2 e σ12 + σ22 . c) Lognormale
di parametri 0 e σ 2 .
3.58
a) m(t) =
λ2
,
λ2 −t 2
t ≤ λ. b) mY −W (t) =
λ2
,
λ2 −t 2
Y − W è di Laplace di parametro
λ. c) |Y − W | è esponenziale di parametro λ, E(|Y − W |) =
2
= m′′X (0) = Var(X).
λ2
α
θ+t ,
3.59
r(t) =
3.60
a) fZ (t) = 2λe−λt (1 − e−λt ). b) E(Z) =
d) mZ (t) =
2λ
λ−t
−
1
λ.
d) 0 = m′X (0) = E(X),
decrescente in t; no.
2λ
2λ−t .
3
2λ ,
Var(Z) =
5
.
4λ2
c) r(t) = 1 −
1
;
2eλt −1
sì.
Esercizio 3.71
3.61
113
a = E(X).
1
(z − a)2 + (b − z)2 . b4)
3.62 b1) 21 (b + a). b2) m = 21 (b + a). b3) E[|X − z|] = 2(b−a)
z = 21 (b + a). c) E(X) = λ1 , m = λ1 log 2, E[|X − z|] = z − λ1 1 − 2e−λz , z = λ1 log 2.
3.63 a) Se X è una v.a. di densità f , E(X) = ψ ′ (0), Var(X) = ψ ′′ (0).
b2) Se Y è una v.a. di densità fγ , E(Y ) = ψ ′ (γ ), Var(Y ) = ψ ′′ (γ ).
b3) ψ ′′ (γ ) = Var(X) ≥ 0.
b4) fγ ∼ N(σ 2 γ , σ 2 ).
b5) fγ ∼ Ŵ(α, λ − γ ).
b6) fγ (x) =
3.64
λ2 −γ 2
2λ
a) 1 −
r2
.
R2
e−λ|x|+γ x , mγ (t) =
b1) 1 −
r2 n
.
R2
λ2 −γ 2
.
λ2 −(t+γ )2
b2) 1 −
r2 n
nR 2
2
→e
− r2
R
.
6
1
, P(Y = 100) = 100
. a2) E(Y ) = 28. b1)
3.65 a1) P(Y = 20) = 43 , P(Y = 50) = 25
1
c = 20 π , l’area più probabile resta quella relativa al punteggio 20. b2) E(Y ) = 40.
3.66
1
e.
3.67 a) P(|X−Y | > λ1 ) = 1e . b) |X−Y | è esponenziale di parametro λ. c) gX−Y (t) =
(di Laplace di parametro λ).
λ −λ|t|
2 e
3.68 a) c = 1. b) fX (x) = − log x per 0 < x < 1, Y è uniforme su [0, 1]; X e Y non sono
indipendenti. d) P(Y > 2X) = 21 .
3.69
a) 31 . b) 31 . c) 13 .
3.70
X, Y ∼ Ŵ(1, 1).
3.71 a) X è esponenziale di parametro λ, fY (y) =
di parametro λ. d)
fX|Y (x|y) = λ2 x(y + 1)2 e−λx(y+1) ,
1
,
(y+1)2
y > 0 b) Sì. c) Esponenziale
E[X|Y = y] =
2
λ(y + 1)
114
Parte 2: risultati degli esercizi proposti
3.72
a) Ŵ(α + β, λ).
λα+β
α−1 (y − x)β−1 e−λy per 0 < x < y.
Ŵ(α)Ŵ(β) x
Ŵ(α+β) 1 x α−1
(1 − xz )β−1 .
gX|X+Y (x|z) = Ŵ(α)Ŵ(β)
z(z)
α
Ē(X|X + Y = z) = α+β
z. La retta di regressione è x =
b) g(x, y) =
c)
d)
3.73
c)
1
λ
α+x
α+n+β .
b) E(X) =
α
α+β ,
a) g(u, v) =
d)
(α + β)(1 − t) (cioè coincide con la speranza condizionale. . . ).
3.75
a) pX (k) =
b = 0.
nα
α+β .
λα+β uα−1 v α+β−1
v
Ŵ(α)Ŵ(β) (1−u)α+1 exp −λ 1−u , per x > 0, y > 0.
Ŵ(α+β) α−1
fU (u) = Ŵ(α)Ŵ(β)
u (1 − u)β−1 cioè U ∼Beta(α, β).
λα+β
α+β−1 exp − λ v .
fY |U (v|t) = Ŵ(α+β)(1−t)
α+β v
1−t
Ē[U |U = t] = λ1 (α + β)(1 − t). La retta di regressione di Y rispetto
3.74
b)
a) Ē(Z |X = x) =
az + b dove a =
αŴ(α+β)Ŵ(β+k)
Ŵ(β)Ŵ(α+β+k+1) .
finita se α ≤ 1. c) Ē(Y |X = k) =
b) E(X) =
β
α−1 , se α
a) E(X) = E(Y ) = 2. b) P(Y ≥ X) = 49 .
3.77
a) fX (x) =
3.78
fX (x) =
3.79
a) g(u, v) =
3.80
a) P(X ≥ Y ) = 2−n . b)
Ŵ( n2 + 21 )
√
Ŵ( n2 ) π n
1
8
> 1; X non ha speranza matematica
α+1
α+β+k+1
3.76
αλx α−1
.
(λ+x α )2
aU èy =
α
b) fY |X (y|x) = (λ + x α )2 ye−y(λ+x ) . E[Y |X = x] =
1
2 n+1
2
(1+ xn )
·
(u2 − v 2 )e−u . b) gX−Y (v) =
f (t) =
2
λ+x α .
λ
λt
4 e
λ −λt
(1 + 2λt)
4 e
1 −|v|
(1 + |v|).
4e
se t < 0
se t ≥ 0 .
3.81 a) E(X) = 0, Var(X) = 1. b) E[(X + Y )4 ] = 4! = 24. c) Sì X + Y + Z ha una densità
continua, P(X + Y + Z ≥ 0) = 21 .
Esercizio 3.89
115
a) E(X) = 0, E(X 2 ) = 2, E(X 3 ) = 0. b) E[(X +Y )2 ] = 4, E[(X +Y )4 ] = 3·4! = 72.
3.82
3.83
a) φX (θ ) = sinθ θ . b) φY (θ ) =
φX (θ )2 . X1 + X2 ∼ 2Y .
2
2
a) φ(θ ) = e−(θ1 +θ2 +θ1 θ2 ) ,
3.84
2(1−cos θ)
.
θ2
c) φ2Y (θ ) =
(1−cos2 θ+sin2 θ)
2θ 2
=
sin2 θ
θ2
=
1
1
2
2
e− 3 (x1 +x2 −x1 x2 ) .
f (x) = √
2 3π
b) X12 ∼ Ŵ( 21 , 41 ).
c) U1 ∼ N(0, 6), U2 ∼ N(0, 2); U1 e U2 ∼ N(0, 2) sono indipendenti.
d) C non è una matrice definita positiva. . .
a) f (x) =
3.85
4
√
1
π 15
e− 15
1
8x12 +32x22 +8x1 x2 −4x1 −2x2 + 2
che per X2 = 41 . b3) 0.394.
C=
b)
3.87
no.
3.88
. b1) − 18 . b2)
15
16 ,
sia per X2 = − 21
a) (X + Y, X + 2Y ) è congiuntamente gaussiana, centrata e di matrice di covarianza
3.86
− 23
t.
a) Sì. b1) No. b2) Sì. c) g(y, z) =
a) Var(X 2 ) = 2σ 4 . ψX2 (t) =
Z1 ∼ N(0, 3), Z2 ∼ N(0, 1). b2)
b3) Y12 + Y22 = Z12 + Z22 .
2
2
3
3
5
1
√
2π 108
1
1−2σ 2 t
√2
1
13y 2 + 9z2 − 6yz . d) No,
exp − 216
per t <
s
1
.
2σ 2
b1)
√
2
2
2
√
√
O=
2
2
2
2
2
2
Var(Z1 + Z2 ) = 20,
ψZ 2 +Z 2 =
1
q
1
,
(1 − 6t)(1 − 2t)
,
per t ≤
1
·
6
3.89 a) x. b) yn . c) n = 4: 0.733, n = 8: 0.709. Le probabilità non cambiano passando da
X1 a Xn .
116
Parte 2: risultati degli esercizi proposti
4.21
a) ( n1 Xn )n converge in probabilità verso la v.a. costante p. b) (Xn )n converge in
probabilità verso la v.a. costante αλ .
4.23
a) 0.16.
1 200
)
= 0.134. b) 0.3233213; l’approssimazione di Poisson dà 0.3233236,
4.24 a) (1 − 100
l’approssimazione normale 0.3611695.
4.25 a) Probabilità di superare il test: 3.7 10−4 , di prendere un voto inferiore a 5: 0.2. b)
0.0166. c) p = 0.493.
4.26
a) Approssimazione normale: 0.51, risultato esatto (vedi Esempio 3.45): 0.55. b)
0.527. c) Skewness di X: 2 · 5−1/2 = 0.89, skewness di Y : 2 · 25−1/2 = 0.4.
4.27
a) 1 − 8(−1.167) = 0.878 (con correzione di continuità). b) n ≥ 3 378.
4.28
a) 0.067. b) 0.081.
4.29
1
2.
a) limn→∞ P(Xn ≤ n +
4.30
a) Vero. b) Vero. c) Vero.
4.31
a) Z̄n →Pn→∞ 0. b) 0.88.
4.32
a) Sn →+
n→∞ N(0, 15). b) 0.22.
4.33
a) Sn →+
n→∞ N(0, 2). b) 0.017.
4.34
Yn → Ŵ( 21 , 2)
√
n) = 8(1) = 0.841, limn→∞ P(Xn ≤ n) = 8(0) = 21 . b)
Esercizio 5.17
4.35
a) E(log Xn ) = 0. b) Yn → 1 in probabilità. c) Wn → W , con W di densità
1
2
2
fW (t) = √
e−(log t) /(2(log 2) ) .
2π t log 2
4.36
b1) Wn ∼ Ŵ(n,
4.37
a) 0.0013. b) ∼ 10−9 . c) Sì, affidabile.
4.38
a) 0.16. b) n ≥ 66358. c) n ≥ 38959.
4.39
a) 1 − 8(0.816) = 0.21. b) 1 − 8(0.608) = 0.271.
117
√
+
n). b2) Un →+
n→∞ N(0, 1). a) Yn →n→∞ N(0, 1).
4.40
a) (Zn )n converge in legge e in probabilità ad una v.a. che prende il valore 0 con
probabilità 1. b) (Yn )n converge in legge e in probabilità ad una v.a. che prende il valore λ1 con
probabilità 1.
4.41
a) (Mn )n converge in legge e in probabilità ad una v.a. che prende il valore 1 con
probabilità 1. b) (Zn )n converge in legge ad una v.a. esponenziale di parametro 1.
4.42 a) (nYn )n converge in legge a una legge esponenziale di parametro 1. b) (nYn )n converge
in legge ad una v.a. che prende il valore 0 con probabilità 1.
−x
−x
4.43 Converge in legge alla f.r. F (x) = e−e . Se le Xi hanno f.r. F (x) = e−e , allora
Mn ha f.r. F per ogni n.
−α
4.44
a) c = α. b) Converge in legge ad una v.a. avente f.r. G(t) = e−t
4.45
Converge ad una v.a di funzione caratteristica φ(θ ) = e−|θ| , cioè di Cauchy.
per t > 0.
5.16 P1 è irriducibile ma non regolare, P2 e P3 sono regolari. Per P1 e P3 la distribuzione
stazionaria è la probabilità uniforme. Per P2 la distribuzione stazionaria è ( 21 , 41 , 41 ).
5.17 a) P1 non è irriducibile, P2 è regolare. b) Per P1 si ha P2 (Xn = 1) = 0 per ogni n, per
P2 limn→∞ P2 (Xn = 1) = 27 . c) No.
118
Parte 2: risultati degli esercizi proposti
5.18
a) 2 è transitorio, gli altri sono ricorrenti. La catena non è irriducibile. b) Ci sono
3α 3(1−α) 4(1−α)
infinite distribuzioni stazionarie, della forma ( 2α
5 , 0, 5 ,
7 ,
7 ), 0 ≤ α ≤ 1.
5.19
a) La catena è regolare. b) ( 27 , 27 , 37 ), P1 (Xn = 3) ∼ 73 .
1 9 9
, 19 , 19 ). c) 17. d) Ora la catena è irriducibile ma non è
5.20 a) La catena è regolare. b) ( 19
1 4 1
più regolare. La distribuzione stazionaria è ( 18
, 9 , 2 ).
5.21
a) La catena è regolare. b) ( 27 , 27 , 37 ).
5.22
a) 1 e 2 sono transitori, 3, 4, 5 ricorrenti. b) 31 . c) (0, 0, 1, 0, 0), (0, 0, 0, 21 , 21 ) e
(0, 0, 21 , 41 , 41 ), ad esempio.
5.23 a) Irriducibile ma non regolare. La distribuzione stazionaria è uniforme ed è reversibile.
b) Ora la catena è regolare. La distribuzione stazionaria è sempre quella uniforme. c) 10.
5.24
a) 0.2. b) 31 ,
5.25
a)
1

1 0
1
2
2

30

P = 4  13

5
0
60
7 0
2
1
2
0
1
3
0
0
0
0
3
0
4
1
2
0
0
1
3
0
1
3
0
1
2
1
3
0
5
0
0
0
6
0
0
1
3
0
1
2
0
0
0
0
1
3
1
3
1
2
0
1
7

0
0

0


0

0

1
3
0
3 3 1 3 1
b) La catena è irriducibile ma non regolare. π = ( 18 , 81 , 16
, 16 , 8 , 16 , 16 ). c) La catena è
1 1 1 1 1 1,1
4
regolare. π = ( 9 , 9 , 6 , 6 , 6 , 6 9 ) d) 29 . La probabilità più piccola si ha per lo stato i = 1.
Esercizio 5.31
5.26
a)
0
1
0
1
0
1  31 (1 − p)
p

1
P = 2
0

2 (1 − p)
3
0
0
4
0
0
60
(non dipende da p). c) 11(1−p) .
2
0
2
(1
− p)
3
p
3
5 (1 − p)
0

b)
6
11
119
3
0
0
1
(1
− p)
2
p
0
4

0

0


0

2

5 (1 − p)
1
1
per
5.27 a) La catena è irriducibile ma non regolare. b) La distribuzione stazionaria vale 24
1
1
gli stati negli angoli, 16 per quelli sui lati che non sono negli angoli, 12 per quelli in mezzo. c)
5
3
per gli stati negli angoli, 84
per quelli
La catena è regolare. La distribuzione stazionaria vale 84
8
sui lati che non sono negli angoli, 84 per quelli in mezzo. d) La catena è irriducibile ma non
2
3
regolare. La distribuzione stazionaria vale 16128
per gli stati negli angoli, 16128
per quelli sui
4
lati che non sono negli angoli, 16128 per quelli in mezzo.
5.28 a) La distribuzione invariante vale
La catena non è regolare. b) 14.
1
12
per gli stati 1, 5, 6, 7, 8, 9, 10 e
5
36
per gli altri.
5.29 a) pi,i+1 = (1 − p)(1 − Ni ), per 0 ≤ i ≤ N − 1, pi,i = p, pi,i−1 = (1 − p) Ni ,
per 1 ≤ i ≤ N, pij = 0 altrimenti. b) Irriducibile se p < 1, regolare se 0 < p < 1. c)
πi = 2−N Ni (come per il modello di Ehrenfest, Esercizio 5.12 e non dipende da p). Per n
grande l’urna è vuota con probabilità 2−N .
i
5.30 b1) qi = (1 − p) Ni , pi = p N−i
N , ri = p + N (1 − 2p). b2) la catena è irriducibile
N i
e regolare. b3) πi = i p (1 − p)N−i ; per n grande la proporzione di tempo in cui la l’urna è
stata composta di sole palline bianche (risp. rosse) è πN = pN (risp. π0 = (1 − p)N ). c)
5.31
a1)
0
1

P =3
0
0
1
0
0
2
3
0
1
0
2
3
0
0
1
3
0
NN
N!
.
120
Parte 2: risultati degli esercizi proposti
a2) Irriducibile ma non regolare. a3) v0 = 81 , v1 = 83 , v2 = 38 , v3 = 81 . b1)
1
2
1
6
1
2
1
2
1
3
0

0
0

1
1

3
P =
1
0
2
6
0 0 21 21
b2) Irriducibile e regolare. b3) v0 = 18 , v1 = 38 , v2 = 83 , v3 =
5.32
b) ( 31 , 13 , 13 ). c) ( 27 , 27 , 73 )
5.33
b) p2
1+q
1−qp .
c) Se p =
3
4
1
8
(la stessa che in a3)).
con le condizioni proposte in realtà B ci guadagna. d)
35
13
5.34 b) La distribuzione stazionaria è l’uniforme π = ( 31 , 13 , 13 ). La catena è reversibile.
4α
1
4α
c) 2 è assorbente, 1 e 3 sono transitori. d) π = ( 1+8α
, 1+8α
, 1+8α
), reversibile per ogni α,
1
1
0 ≤ α ≤ 2 ; π2 è minima per α = 2 . e) Se α > 0 limn→∞ P1 (Xn = 1) = π1 = 13 . Se α = 0
limn→∞ P1 (Xn = 1) = 0.
5.35
a) pN = p; la legge di Xn è data dal vettore a per ogni n ≥ 1. c) π = a d) Gli
stati transitori sono quelli tali che ai = 0. Gli altri sono ricorrenti e formano un classe chiusa
irriducibile.
5.37
a) Vero, b) falso, c) vero, d) falso, e) falso.