Esercizi sulle variabile aleatorie

ESERCIZI SULLE PROBABILITA’ E LE VARIABILI ALEATORIE
Esercizio N. 1
Calcolare:
- la probabilità di vincere la rendita ventennale (4000 euro al mese) al “Win for life”,
- la probabilità di fare il “6” o il “5 + 1” al Super Enalotto,
- la probabilità di fare 14 al Totocalcio.
In ognuno dei tre contesti si tratta, prima di tutto, di calcolare il numero di casi possibili.
Win for Life
Ricordiamo che per vincere la rendita ventennale occorre:
a) indovinare 10 numeri che saranno estratti da un pannello di 20 numeri,
b) indovinare il “numerone”, che a sua volta è compreso tra 1 e 20 e può coincidere o meno
con uno dei numeri estratti.
Il numero di casi a) è pari alle combinazioni semplici, senza ripetizioni, di 10 elementi, presi da un
insieme che ne contiene 20. La formula da applicare è dunque quella del coefficiente binomiale:
⎛n⎞
n!
NE = ⎜ ⎟ =
⎜ k ⎟ k !(n − k )!
⎝ ⎠
(1)
con n = 20 e k = 10. Sostituendo i valori numerici si trova:
N E = 184756
La probabilità di indovinare 10 numeri in una puntata casuale è allora:
Pa =
1
≈ 5.4 ⋅10−6
184756
(2)
La probabilità di vincere la rendita ventennale, però, non è ancora fornita dalla (2). Occorre infatti
tener conto del numerone, il quale aumenta il numero dei casi fino a:
N a +b = 184756 × 20 = 3695120
e riduce la probabilità di un fattore 20, portandola a:
Pa +b =
1
≈ 2.7 ⋅10−7 .
3695120
(3)
Visto che la giocata minima è di un euro, l’equità del gioco richiederebbe una vincita pari a
3695120 euro. In realtà, tenendo conto che con la vincita della rendita ventennale vengono assegnati
ulteriori 10000 euro (premio di categoria inferiore automaticamente assegnato) la vincita
complessiva è di 20×12×4000 + 10000 = 970000 euro, quindi oltre 3.8 volte minore. Per non
considerare il fatto che, nel caso di vincitori multipli, la rendita viene divisa tra essi.
E’ anche importante osservare che si può vincere la rendita ventennale anche non indovinando
alcun numero estratto, ed indovinando il numerone (la stessa simmetria vale anche per i premi
minori, qui non presi in esame). Ciò si giustifica immediatamente osservando che non indovinare
1
alcun numero è del tutto equivalente ad indovinare 10 numeri (quelli non estratti). Ne consegue che
la probabilità di fare “0” è uguale alla probabilità di fare “10”.
Super Enalotto
Per il Super Enalotto la sequenza dei 6 numeri vincenti (lasciando da parte il numero jolly) si
ottiene, casualmente, dall’insieme dei 90 numeri in gioco. Ricordiamo che il regolamento del gioco
prevede che i 6 numeri siano tutti diversi tra loro. Di conseguenza, il numero di casi possibili NE è
dato dal numero di combinazioni semplici, senza ripetizioni, di 6 elementi, presi da un insieme che
ne contiene 90. La formula da applicare è dunque ancora la (1) con n = 90 e k = 6. Sostituendo i
valori numerici si trova:
N E = 622614630
La probabilità di vittoria di una giocata singola (6 numeri) è allora pari all’inverso di NE e quindi a:
PE =
1
≈ 1.6 ⋅10−9
622614630
(4)
Da un diverso punto di vista, il valore di NE esprime ovviamente anche il numero di combinazioni
necessarie per avere la certezza di fare 6 punti 1 .
In questo caso, dunque, il gioco sarebbe equo se, a fronte di 1 euro giocato (costo della giocata
minima, che però corrisponde alla scelta di due combinazioni), si avesse la certezza di riceverne,
totalizzando 6 punti, 622614630. Il “giusto” premio, dunque, sarebbe di 311307315 euro. In realtà,
la vincita più alta ad oggi realizzata, il 22 agosto 2009, a Bagnone (MS), è stata di quasi 148 milioni
di euro.
Per quanto concerne il 5 + 1, la probabilità di vincita può essere calcolata come segue.
Sia:
abcdef
la sequenza di 6 numeri giocata dallo scommettitore e
ABCDEF
la sequenza estratta. Ipotizziamo che le due sequenze non coincidano e che dunque la giocata non
abbia prodotto un 6. Chiediamoci preliminarmente quale sia la probabilità del 5 2 .
1
A rigore questa affermazione non è completamente vera. Da regolamento del gioco, esiste infatti la possibilità che la
sestina non venga completata (e dunque premiata). Ciò avviene quando i 5 numeri estratti sulla sesta ruota (Roma) sono
identici a quelli già attribuiti alle ruote precedenti. La probabilità che ciò avvenga è ovviamente pari alla probabilità di
fare cinquina su una data ruota del gioco del lotto (N.B.: giocando 5 numeri) e dunque, ripetendo il ragionamento fatto
1
. Introducendo questa correzione (che tiene dunque conto della probabilità di completare la sestina), la
sopra, vale
90
5
( )
⎡
⎤
⎢
1 ⎥
⎢1 −
⎥ . La correzione non modifica in maniera
90 ⎥
⎢
5 ⎦⎥
⎣⎢
apprezzabile la PE ma, riducendo la probabilità di vincita, mette ulteriormente in evidenza la non equità del gioco in cui
il premio dipende dall’ammontare delle giocate, attuali e precedenti, fatte dagli scommettitori, e non tiene conto
dell’esiguità del valore di PE (come sarebbe invece necessario in un gioco equo).
1
(4) dovrebbe essere sostituita dall’espressione seguente: PE =
90
6
( ) ( )
2
Si realizza un 5 quando uno e uno solo dei numeri estratti assume uno degli 84 valori che non fanno
parte della giocata. D’altro canto, questo numero, che non è stato individuato, può essere uno
qualunque dei 6 estratti. In totale, quindi, si hanno 84×6 casi favorevoli a questo evento, sul totale
dei casi possibili. In definitiva, la probabilità di realizzare un 5 sarà allora:
84 × 6
⎛ 90 ⎞
⎜ ⎟
⎝6⎠
Una volta realizzato il 5, si realizza il 5 + 1 se il numero non uscito coincide con il numero jolly.
Sempre in virtù del regolamento del gioco, il numero jolly può assumere, per ogni estrazione, 84
valori (questo perché non può coincidere con alcuni dei numeri estratti) e dunque la probabilità di
indovinarlo (o, meglio, di averlo indovinato ove si consideri la specifica estrazione), sarà 1/84. Gli
eventi elementari sono ovviamente indipendenti e dunque le relative probabilità (di aver realizzato
un 5 e di indovinare il numero jolly) si moltiplicano.
In definitiva, la probabilità di realizzare un 5 + 1 sarà allora:
84 × 6 1
6
× =
⎛ 90 ⎞ 84 ⎛ 90 ⎞
⎜ ⎟
⎜ ⎟
⎝6⎠
⎝6⎠
sei volte maggiore della probabilità di realizzare un 6.
Totocalcio
In questo caso si hanno 14 risultati, ciascuno suscettibile di assumere 3 valori (1, X, 2). Il numero
dei casi possibili diventa allora
NT = 314 = 4782969
Come si vede, questo numero è circa 130 volte minore del valore di NE calcolato più sopra per il
Super Enalotto. Corrispondentemente, la probabilità di vittoria giocando una singola colonna vale:
PT =
1
≈ 2.09 ⋅10−7
4782969
(5)
ed è quindi più di due ordini di grandezza maggiore della (3). Vincere al Super Enalotto è dunque
assai più complicato che vincere al Totocalcio. In realtà poi, lo squilibrio tra le due situazioni si
accentua se si considera che mentre le sequenze del Super Enalotto sono effettivamente
equiprobabili (almeno dal punto di vista di chi gioca) nel caso del Totocalcio molte delle sequenze
teoricamente possibili vengono in realtà scartate dalla logica e dalle modalità con le quali si
“costruisce” il risultato: ad esempio, non si ha memoria storica, e non v’è motivo per ritenere che
potrà aversi in futuro, di una colonna Totocalcio costituita da tutti segni 2. Resta il fatto che anche
nel caso del Totocalcio il montepremi dipende dall’ammontare delle giocate. Trattandosi di un
gioco che è stato estremamente popolare in passato ma che attualmente è considerato “fuori moda”,
le vincite sono modeste: la più elevata è stata realizzata a Meda (MI) il 13 marzo 2005, ed ha
portato nelle tasche del vincitore 1963484 euro.
2
Anche qui, e in quanto seguirà, trascuriamo per semplicità la probabilità di non completare la sestina.
3
4
Esercizio N. 2
Si consideri l’esperimento che consiste nel lancio simultaneo di due dadi (non truccati). Si definisca
la variabile aleatoria discreta X come la somma dei numeri risultanti dal lancio. Si descrivano le
principali caratteristiche statistiche della variabile X.
Il primo passo consiste nella individuazione del numero e del valore dei possibili risultati
dell’esperimento aleatorio considerato. Visto che ogni dado può produrre 6 uscite diverse, i casi
possibili sono 6×6 = 36 e la variabile X assume valori compresi tra 2 (ambedue i dadi danno valore
1) e 12 (ambedue i dadi danno valore 6). Se, come si è ipotizzato, i dadi non sono truccati ogni
combinazione ha la stessa probabilità di verificarsi. D’altro canto, alcune combinazioni producono
lo stesso risultato; ad esempio, X = 3 si ottiene sia nel caso che il primo dado dia 1 e il secondo 2,
sia nel caso, simmetrico del precedente, che il primo dado dia 2 e il secondo 1. X = 4 può essere il
risultato di un lancio in cui ambedue i dadi assumono il valore 2, o di un lancio in cui il primo dado
fornisce 1 e il secondo 3, oppure ancora di un lancio in cui il primo dado fornisce 3 e il secondo 1.
Questi eventi si escludono vicendevolmente e quindi le loro probabilità possono essere sommate.
Estendendo il ragionamento iniziato più sopra ed indicando con P(i) la probabilità che X = i, si
trova:
1
36
2
P(3) = P(11) =
36
3
P(4) = P(10) =
36
4
P(5) = P(9) =
36
5
P(6) = P(8) =
36
6 1
=
P(7) =
36 6
P(2) = P(12) =
(6)
Si verifica immediatamente che
12
∑ P(i) = 1
(7)
i =2
così come è necessario per la condizione di normalizzazione.
A partire dalle (6), è possibile graficare l’andamento della funzione densità di probabilità fX(x) per
la variabile X. Trattandosi di una variabile discreta, fX(x) è costituita da una sequenza di impulsi
matematici allocati in corrispondenza dei valori possibili per X e di area pari alla corrispondente
probabilità. Il risultato è riportato in Figura 1, dove le delta di Dirac sono state rappresentate con
altezza diversa, proprio a tener conto “visivamente” della diversa area.
La funzione di ripartizione, o distribuzione di probabilità cumulativa, FX(x) rappresenta la
probabilità che X ≤ x. Nel caso, in esame, di variabile discreta si tratta di una funzione a gradini, in
quanto la probabilità si incrementa ogni volta che si incontra un valore possibile. L’andamento
grafico per il caso in esame è riportato in Figura 2.
5
fX(x)
2
3
4
5
6
7
8
9
10
11
12
x
Figura 1
FX(x)
1
0
2
3
4
5
6
7
8
9
10
11
12
x
Figura 2
A questo punto possiamo calcolare il valore medio della variabile X. Ricordando la definizione, si
ottiene direttamente:
12
m X = ∑ i ⋅ P(i ) = 7
(8)
i =2
Questo risultato poteva essere previsto anche semplicemente guardando all’andamento di fX(x), che
è appunto centrata su tale valore.
Infine, possiamo calcolare la varianza che, sempre ricordando la definizione generale, risulta:
12
σ X2 = ∑ ( i − m X ) ⋅ P(i ) = 5.833
2
(9)
i =2
La radice quadrata della (9) fornisce la deviazione standard (o scarto quadratico medio) σX, il cui
valore risulta allora pari a 2.415.
6
Esercizio N. 3
Un esempio significativo di applicazione della teoria delle variabili aleatorie di tipo discreto si
rinviene nel cosiddetto canale binario, di importanza fondamentale nell’ambito delle trasmissioni
numeriche.
Si consideri dunque il caso di una sorgente numerica binaria, che emette i simboli 0 e 1 con
probabilità P0 e P1 rispettivamente. Transitando lungo il canale di trasmissione, ove sono presenti
rumore e altre cause di disturbo, il simbolo trasmesso può essere distorto e, conseguentemente
equivocato in ricezione. Indichiamo con pij (i = 0, 1; j = 0, 1) la probabilità che, trasmesso il
simbolo “i”, in ricezione venga rivelato il simbolo “j”. In un canale ideale sarebbe, evidentemente,
p00 = p11 = 1 e p01 = p10 = 0. Nel canale reale, invece, le probabilità di transizione da un simbolo
all’altro sono in generale diverse da zero, e la situazione è illustrata in Figura 3.
p
‘
P0
00
P0
p 10
p
‘
P1
01
p
P1
11
Figura 3
I simboli 0 e 1 in ricezione sono caratterizzati da probabilità P0’ e P1’, ottenibili come:
P0 ' = P0 p00 + P1 p10
(10)
P1 ' = P0 p01 + P1 p11
In particolare compare, e la sua valutazione è estremamente importante in pratica, una probabilità di
errore
PE = P0 p01 + P1 p10
(11)
che appunto si verifica quando, avendo trasmesso un simbolo, si riceve il simbolo complementare.
Per un canale del tipo illustrato in Figura 3, si assuma: P0 = 0.8, P1 = 0.2, p00 = 0.9, p01 = 0.1, p11 =
0.3, e si determini la probabilità di errore.
Innanzitutto osserviamo che tra i dati assegnati manca il valore di p10, che invece è necessario per la
determinazione della PE. D’altro canto, questo valore può essere immediatamente determinato
utilizzando la condizione di normalizzazione: trasmesso il simbolo 1, in accordo con la Figura 3 non
vi sono alternative al fatto che in ricezione esso venga rivelato come tale o che venga sostituito dal
simbolo 0. Allora deve essere
p10 + p11 = 1
(12)
esattamente come P0 + P1 = 1, e quindi:
7
p10 = 1 − p11 = 0.7
(13)
Tenendo dunque conto dei valori di probabilità che caratterizzano il canale e sostituendo nella (11)
si ottiene:
PE = 0.22
(14)
Nell’esempio numerico, le probabilità a priori dei simboli 0 e 1 sono state assunte diverse tra loro,
come pure diverse erano le probabilità di transizione. Nondimeno, un caso particolare, frequente in
pratica, è costituito dal canale binario simmetrico (BSC = Binary Symmetric Channel). Per esso si
ha:
P0 = P1 = P0 ' = P1 ' =
1
2
p01 = p10 = p
(15)
p00 = p11 = 1 − p
Per questo canale si verifica immediatamente che risulta
PE = p
(16)
8
Esercizio N. 4
Una variabile aleatoria X è descritta da una densità di probabilità gaussiana con valor medio mX = 2
e varianza σX2 = 4. Si determinino:
Pr{X ≤ 6};
1)
Pr{X > 3};
2)
Pr{X ≤ –2};
3)
Pr{2 < X ≤ 3}.
4)
La densità di probabilità della variabile in oggetto è fornita dalla seguente espressione:
f X ( x) =
⎡ ( x − mX )2 ⎤
⎡ ( x − 2) 2 ⎤
1
1
exp ⎢ −
exp
=
⎥
⎢−
⎥
8 ⎥⎦
2πσ X
2σ X2 ⎥⎦ 2 2π
⎢⎣
⎢⎣
(17)
ed il suo andamento grafico è riportato in Figura 4.
0.2
0.15
fX(x)
0.1
0.05
0
-6
-4
-2
0
2
x
4
6
8
Figura 4
A partire dalla densità di probabilità, il calcolo della probabilità che la variabile sia contenuta entro
un dato intervallo (che può essere anche illimitato, superiormente o inferiormente) si riduce,
ovviamente, al calcolo di un integrale. In particolare:
b
b
a
a
Pr {a < X ≤ b} = ∫ f X ( x)dx = ∫
⎡ ( x − mX )2 ⎤
1
exp ⎢ −
⎥ dx
2πσ X
2σ X2 ⎦⎥
⎢⎣
(18)
Si noterà che, a rigore, l’integrale (18) fornisce la Pr{a ≤ X ≤ b}; d’altro canto, essendo X una
variabile aleatoria continua, si ha anche Pr{X = a} = 0 e dunque il fatto di includere nel calcolo
l’estremo inferiore di integrazione è del tutto irrilevante. Analoga osservazione varrà per gli
sviluppi successivi, e non sarà dunque ripetuta.
Ai fini del calcolo, è sempre conveniente introdurre il seguente cambiamento di variabile:
9
x − mX
= y ⇒ dx = 2σ X dy
2σ X
(19)
Con le posizioni (19), la (18) diventa:
b−mX
2σ X
Pr {a < X ≤ b} =
∫
a −mX
2σ X
( )
1
exp − y 2 dy
π
(20)
Si ricordi ora la definizione della funzione errore:
t
erf (t ) =
( )
2
exp − y 2 dy
∫
π0
(21)
che, sostituita nella (20), consente dunque di ricavare
P {a < X ≤ b} =
1 ⎡ ⎛ b − mX
⎢erf ⎜
2 ⎢⎣ ⎜⎝ 2σ X
⎞
⎛ a − mX
⎟⎟ − erf ⎜⎜
⎠
⎝ 2σ X
⎞⎤
⎟⎟ ⎥
⎠ ⎥⎦
(22)
Dalla definizione stessa di funzione errore, osserviamo che risulta:
erf (∞) = 1
erf (−t ) = −erf (t )
(23)
Particolarizzata all’esercizio in esame, la (22) fornisce:
Pr {a < X ≤ b} =
1 ⎡ ⎛b−2⎞
⎛ a − 2 ⎞⎤
− erf ⎜
⎢ erf ⎜
⎟
⎟⎥
2⎣ ⎝2 2 ⎠
⎝ 2 2 ⎠⎦
(24)
A questo punto, le probabilità incognite si determinano valutando numericamente la funzione
errore. In realtà, sono disponibili delle tabelle da cui è possibile leggere, con buona
approssimazione, il valore cercato. Tipicamente, in luogo della funzione errore, queste tabelle
forniscono la funzione errore complementare
erfc(t ) = 1 − erf (t )
(25)
Tabelle per la funzione erfc(⋅) sono state fornite in una dispensa a parte e verranno utilizzate di
seguito per risolvere la parte numerica dell’esercizio.
Scritta in termini di funzione errore complementare la (24) diventa:
Pr {a < X ≤ b} =
1⎡
⎛a−2⎞
⎛ b − 2 ⎞⎤
− erfc ⎜
⎢erfc ⎜
⎟
⎟⎥
2⎣
⎝2 2⎠
⎝ 2 2 ⎠⎦
Procediamo ora al calcolo per i diversi casi proposti:
10
(26)
1) qui si tratta di assumere:
a = –∞
b=6
Dunque
1
⎡erfc ( −∞ ) − erfc (1.41) ⎤⎦
2⎣
(27)
erfc(−∞) = 1 − erf (−∞) = 1 + erf (∞) = 2
(28)
Pr { X ≤ 6} =
Ora
mentre dalle tabelle leggiamo che
erfc(1.41) = 0.0461
(29)
Sostituendo:
Pr { X ≤ 6} = 0.97695
(30)
2) qui si deve porre:
a=3
b=∞
Dunque
Pr { X > 3} =
1
⎡erfc ( 0.35 ) − erfc ( ∞ ) ⎤⎦
2⎣
(31)
Ora
erfc(∞) = 1 − erf (∞) = 0
(32)
mentre dalle tabelle leggiamo che
erfc(0.35) = 0.621
(33)
Sostituendo:
Pr { X > 3} = 0.3105
(34)
3) qui si deve porre:
a = –∞
b = –2
Dunque
Pr { X ≤ −2} =
1
⎡ erfc ( −∞ ) − erfc ( −1.41) ⎤⎦
2⎣
(35)
11
Ora
erfc(−1.41) = 1 − erf (−1.41) = 1 + erf (1.41) = 1 + 1 − erfc(1.41) = 1.9539
ove si è utilizzata la (27).
Sostituendo:
(36)
(37)
Pr { X ≤ −2} = 0.02305
(38)
4) qui si deve porre:
a=2
b=3
Dunque
Pr {2 < X ≤ 3} =
1
⎡erfc ( 0 ) − erfc ( 0.35 ) ⎤⎦
2⎣
(39)
Considerando che
erfc(0) = 1
(40)
e utilizzando la (31) si ricava:
Pr {2 < X ≤ 3} = 0.1895
(41)
12
Esercizio N. 5
Si determinino valor medio e varianza delle variabili aleatorie seguenti tutte di notevole interesse
pratico:
1) gaussiana;
2) uniforme;
3) di Laplace;
4) esponenziale unilatera;
5) di Rayleigh;
6) binomiale;
7) di Poisson.
Le densità di probabilità e le distribuzioni di probabilità cumulativa relative a queste variabili sono
già state introdotte in una dispensa precedente. Per comodità, le densità di probabilità vengono
comunque ripetute di seguito.
1) Gaussiana:
⎡ ( x − μ )2 ⎤
1
exp ⎢ −
⎥
2πσ
2σ 2 ⎥⎦
⎢⎣
f X ( x) =
(42)
2) Uniforme:
⎧ 1
⎪
f X ( x) = ⎨ b − a
⎪0
⎩
a≤ x≤b
(43)
x < a, x > b
3) Di Laplace (o esponenziale bilatera):
f X ( x) =
a
exp ( −a x ) a > 0
2
(44)
4) Esponenziale unilatera:
⎧⎪a ⋅ exp(−ax)
f X ( x) = ⎨
⎪⎩0
x≥0
(45)
x<0
5) Di Rayleigh:
⎧ x
⎛ x2 ⎞
⎪⎪ 2 exp ⎜⎜ − 2 ⎟⎟
f X ( x) = ⎨σ
⎝ 2σ ⎠
⎪
⎪⎩0
x≥0
(46)
x<0
6) Binomiale:
f X ( x) =
⎛n⎞ k
∑ ⎜⎜ ⎟⎟ p (1 − p)n−k δ ( x − k )
k =0 ⎝ k ⎠
n
(47)
13
7) Di Poisson:
f X ( x) =
n
λk
k =0
k!
∑
exp(−λ )δ ( x − k )
(48)
Ciò premesso, il calcolo del valore medio mX e della varianza σX2 per le varie distribuzioni può
essere effettuato applicando direttamente le formule, e vale a dire:
+∞
mX =
∫
x ⋅ f X ( x)dx
(49)
−∞
σ X2
+∞
=
∫ ( x − mX )
2
f X ( x ) dx
(50)
−∞
Per quanto concerne la varianza, in particolare, può essere utile la nota relazione:
σ X2 = X 2 − m 2X
(51)
in cui
+∞
X2 =
∫
x 2 f X ( x)dx
(52)
−∞
è il valore quadratico medio (momento di ordine 2).
Ai fini del calcolo dei momenti, peraltro, e dunque di mX come pure di
X 2 , una procedura
alternativa consiste nell’utilizzo della funzione caratteristica CX(u) per il tramite della relazione:
M j = (−i ) j
d j C (u )
du j u =0
j = 1, 2, ….
(53)
dove Mj è il momento di ordine j.
I risultati sono riassunti in Tabella 1.
La convenienza (o meno) nell’uso della (53) in luogo del calcolo diretto è normalmente
conseguenza della struttura (più o meno complessa) della funzione densità di probabilità, e quindi
dell’integrale che il calcolo diretto chiede di risolvere. In effetti, le funzioni densità di probabilità
proposte dall’esercizio sono piuttosto semplici.
Così, ad esempio, il calcolo del valore medio per la variabile uniforme è immediato, avendosi:
b
m X = ∫ x ⋅ f X ( x)dx =
a
b
1
1 b2 − a 2 a + b
xdx
=
⋅
=
b − a ∫a
b−a
2
2
(54)
come riportato in tabella. Il calcolo basato sulla funzione caratteristica, se non più complicato è
certamente più lungo; ricordando che la funzione caratteristica nel caso di variabile uniforme vale:
14
C X (u ) =
1 exp(iub) − exp(iua )
b−a
iu
(55)
si ha infatti:
mX = (−i )
d ⎡ 1 exp(iub) − exp(iua) ⎤
1 d ⎡ exp(iub) − exp(iua) ⎤
=
=
⎢
⎥
⎢
⎥
du ⎣ b − a
iu
u
⎦ u =0 a − b du ⎣
⎦ u =0
1 ⎡ iub exp(iub) − iua exp(iua) − exp(iub) + exp(iua ) ⎤
=
⎥
a − b ⎢⎣
u2
⎦ u =0
(56)
Sostituendo u = 0, è chiaro che si tratta di una forma indeterminata, del tipo 0/0, risolubile
applicando la regola di L’Hopital. Derivando dunque numeratore e denominatore, la precedente
diventa:
mX =
1 ⎡ ib exp(iub) − b 2u exp(iub) − ia exp(iua) + a 2u exp(iua) − ib exp(iub) + ia exp(iua) ⎤
=
⎢
⎥
a −b ⎣
2u
⎦ u =0
1 ⎡ −b 2 exp(iub) + a 2 exp(iua) ⎤
1 a2 − b2 a + b
=
=
⋅
=
⎢
⎥
a−b ⎣
2
2
2
⎦ u =0 a − b
(57)
Risultato questo coincidente, come atteso, con la (54), ma ottenuto dopo molti più passaggi.
gaussiana
uniforme
di Laplace
esponenziale unilatera
di Rayleigh
binomiale
di Poisson
mX
σX2
μ
σ2
(a + b)/2
0
1/a
(b – a)2/12
2/a2
1/a2
(2 − π/2)σ2
np(1 – p)
σ π/2
np
λ
λ
Tabella 1
D’altro canto se si considera, ad esempio, la variabile binomiale, per il calcolo diretto del valore
medio è necessario un “artificio”. Il calcolo da sviluppare, infatti, è il seguente:
+∞
mX =
∫
−∞
+∞
x ⋅ f X ( x)dx =
∫
n
()
x ∑ n p k (1 − p) n−k δ ( x − k )dx =
k
−∞ k =0
∑ k ( kn ) p k (1 − p)n−k
n
(58)
k =0
avendo applicato, come al solito, la proprietà di campionamento della delta di Dirac. Si procede
come segue:
15
mX =
()
n
n
n!
n(n − 1)!
n p k (1 − p) n−k = k
k
n−k
(1
−
)
=
k
p
p
∑ k
∑ k !(n − k )!
∑ ( k − 1)!(n − k )! p k (1 − p)n−k =
n
k =0
k =1
k =1
( )
( )
n −1
(n − 1)!
p k −1 (1 − p)n −k = np ∑ n − 1 p k −1 (1 − p)n −k = np ∑ n − 1 p h (1 − p)( n−1)−h
k −1
h
k =1 ( k − 1) !( n − k )!
k =1
h =0
n
n
= np ∑
(59)
avendo effettuato, nell’ultimo passaggio, il cambio di variabile nella sommatoria: h = k – 1. In
precedenza, l’estremo inferiore della sommatoria era stato posto a 1 in considerazione del fatto che
il contributo alla somma per k = 0 è nullo.
A questo punto basta osservare che deve essere:
∑ ( n h− 1) p h (1 − p)(n−1)−h = 1 ,
n −1
(60)
h =0
in virtù della condizione di normalizzazione per un esperimento di Bernoulli su n – 1 prove.
Equivalentemente, si può anche ricordare l’espressione del coefficiente binomiale:
( a + b) m =
∑ ( mk )a k bm−k
m
(61)
k =0
che va qui applicato assumendo m = n – 1, a = p e b = 1 – p, ovviamente fornendo lo stesso
risultato. In definitiva si ha dunque, per la variabile binomiale:
m X = np
(62)
così come riportato in Tabella I.
Il calcolo basato sulla funzione caratteristica è molto più diretto. Quest’ultima, nel caso di variabile
binomiale, vale:
[1 − p + p exp(iu )]
n
(63)
e quindi, applicando la (53), si ottiene:
d [1 − p + p exp(iu ) ]
dC (u )
m X = ( −i )
= (−i )
du u =0
du
n
= (−i ) n [1 − p + p exp(iu ) ]
n −1
ip exp(iu )
u =0
=
u =0
= np
ovviamente coincidente con quanto ricavato in precedenza.
16
(64)
Esercizio N. 6
Una variabile aleatoria gaussiana X a valor medio nullo e varianza unitaria viene applicata ad un
circuito raddrizzatore a doppia semionda la cui caratteristica ingresso-uscita vale y = |x|/2.
Determinare la densità di probabilità della variabile aleatoria in uscita Y.
Ripetere il calcolo assumendo un raddrizzatore a semplice semionda in luogo di quello a doppia
semionda.
Si tratta di un tipico problema di trasformazione di variabile aleatoria.
La variabile aleatoria in ingresso X è caratterizzata da una densità di probabilità
f X ( x) =
⎛ x2 ⎞
1
exp ⎜ − ⎟
⎜ 2 ⎟
2π
⎝
⎠
(65)
Nel caso di raddrizzatore a doppia semionda la caratteristica ingresso-uscita è illustrata in Figura 5.
y
0
x
Figura 5
Le formule di trasformazione di variabile aleatoria, che sono note dalla teoria, devono essere
applicate “a tratti”, nelle zone in cui il legame funzionale tra x e y è monotono. Dalla Figura
osserviamo dunque che è necessario distinguere il caso x ≤ 0 e il caso x ≥ 0.
Per x ≤ 0 si ha:
y=−
x
dx
⇒ x = −2 y ⇒
= −2
dy
2
(66)
e quindi 3 :
fY ( y ) =
⎛ 4 y2 ⎞
dx
1
2
exp ⎜ −
exp −2 y 2
⋅ f X ( x) x =−2 y = 2
⎟⎟ =
⎜
dy
2
π
2π
⎝
⎠
(
)
(67)
Per x ≥ 0 si ha invece:
y=
x
dx
⇒ x = 2y ⇒
=2
dy
2
(68)
ma, come in precedenza,
3
In altra dispensa, anziché il prodotto per |dx/dy| si considerava la divisione per |dy/dx|; come accennato nella parte
relativa alle funzioni di n variabili aleatorie, le due procedure sono perfettamente equivalenti (fornendo infatti, come è
facile verificare, lo stesso risultato).
17
fY ( y ) =
⎛ 4 y2 ⎞
dx
1
2
exp ⎜ −
exp −2 y 2
⋅ f X ( x) x=2 y = 2
⎟⎟ =
⎜
dy
π
2π
⎝ 2 ⎠
(
)
(69)
identica alla (67).
Inoltre, visto che tanto i valori di x ≤ 0 quanto i valori di x ≥ 0 producono y ≥ 0, le (67) e (69)
devono essere sommate per ricavare la densità di probabilità risultante della variabile Y. In
definitiva si ha dunque:
⎧ 2
2
⎪
fY ( y ) = ⎨2 π exp −2 y
⎪⎩0
(
)
y≥0
(70)
y<0
La seconda riga della (70) è giustificata dal fatto che non si hanno valori di x che producono y < 0.
Nel caso di raddrizzatore a semplice semionda la caratteristica ingresso-uscita è illustrata in Figura
6.
y
0
x
Figura 6
Nulla cambia, rispetto al caso precedente, per i valori di x ≥ 0 (per i quali dunque continua a valere
la (69)) mentre tutti i valori di x < 0 vengono trasformati in y = 0. Ciò significa che ad y = 0 viene
ad essere associata una probabilità diversa da zero, e in particolare:
Pr {Y = 0} = Pr { X < 0} =
0
∫
0
f X ( x)dx =
−∞
∫
−∞
⎛ x2 ⎞
1
1
exp ⎜ − ⎟ dx =
⎜
⎟
2
2π
⎝ 2 ⎠
(71)
La variabile aleatoria Y in uscita dal raddrizzatore a semplice semionda è quindi una variabile
aleatoria mista, e la sua densità di probabilità si scrive
fY ( y ) =
(
)
2
1
exp −2 y 2 u ( y ) + δ ( y )
2
π
(72)
dove
⎧⎪1
u( y) = ⎨
⎪⎩0
y≥0
(73)
y<0
è la funzione gradino unitario.
18
Esercizio N. 7
Due variabili aleatorie X e Y, tra loro statisticamente indipendenti, sono descritte da due densità di
probabilità uniformi, fX(x) e fY(y), la prima tra 0 e a, la seconda tra –b e 0.
Posto Z = X + Y, si ipotizzi inizialmente che sia a = b, e si calcolino:
1)
la densità di probabilità di Z;
2)
il valore medio e la varianza di Z.
Si ripeta quindi il calcolo assumendo b > a.
Le densità di probabilità di X e Y sono mostrate in Figura 7.
f (x)
fY(y)
X
1/a
1/b
0
a
-b
x
0
y
Figura 7
Nel caso di variabili aleatorie statisticamente indipendenti, è noto che la densità di probabilità della
somma si ottiene come integrale di convoluzione delle densità di probabilità degli addendi; si ha
cioè:
+∞
fZ ( z) =
∫
f X ( z − y ) fY ( y )dy
(74)
−∞
Si tratta quindi di particolarizzare questo risultato all’esercizio in esame.
Nel caso a = b, le densità di probabilità di X e Y si riducono a due funzioni rettangolari di uguale
estensione, seppur diversamente allocate. Il risultato della convoluzione di due funzioni di questo
tipo è ben noto dalla teoria dei segnali, producendo infatti una funzione triangolare. Questa funzione
sarà allocata tra –a e +a, corrispondenti, rispettivamente, a valore minimo e valore massimo di Z, ed
avrà l’andamento illustrato in Figura 8.
Il valore medio e la varianza di Z possono essere determinati a partire dalla fZ(z); nondimeno, risulta
più agevole e significativo il calcolo diretto a partire dalla conoscenza degli indicatori statistici di X
e Y. Si ha infatti:
mZ = Z = X + Y = X + Y = m X + mY
σ Z2 =
( Z − mZ )2
= Z 2 − 2mZ Z + mZ2 = Z 2 − 2mZ Z + mZ2 = ( X + Y ) 2 − mZ2 =
(75)
= X 2 + Y 2 + 2 XY − mZ2
D’altro canto, essendo X e Y statisticamente indipendenti, si ha XY = X Y = m X mY , mentre
mZ2 = (m X + mY ) 2 = m X2 + mY2 + 2m X mY . Sostituendo nella seconda delle (75) otteniamo:
19
σ Z2 = X 2 + Y 2 + 2m X mY − m 2X − mY2 − 2m X mY = σ X2 + σ Y2
(76)
avendo anche utilizzato il risultato (51).
fZ(z)
1/a
-a
0
a
z
Figura 8
In definitiva: il valor medio della somma è uguale alla somma dei valori medi e la varianza della
somma è uguale alla somma delle varianze. Dalla Tabella 1 (dove a e b rappresentano gli estremi
dell’intervallo di definizione della singola densità di probabilità uniforme) ricaviamo
immediatamente (per il caso più generale):
mX =
a
b
, mY = −
2
2
(77)
σ X2 =
2
2
a
b
, σ Y2 =
12
12
per cui, sostituendo:
mZ =
a −b
2
(78)
σ Z2 =
a 2 + b2
12
Nel caso particolare di a = b le (78) forniscono:
mZ = 0
(79)
σ Z2 =
a2
6
Per b > a il risultato della convoluzione non è più un triangolo, ma diventa invece un trapezio così
come illustrato in Figura 9.
20
fZ(z)
1/b
0
-b
a
(a-b)
z
Figura 9
Il tratto costante, in particolare, corrisponde alla zona in cui, eseguendo la convoluzione, la funzione
fX(z – y) è tutta “contenuta” entro la funzione fY(y).
Per valor medio e varianza di Z valgono in questo caso le espressioni generali (78).
21
IL “PARADOSSO DEL COMPLEANNO”
Un risultato del calcolo probabilistico che sembra sorprendente ogni volta che viene enunciato è il
cosiddetto “paradosso del compleanno” (birthday paradox):
“In un insieme di 23 persone, assemblate senza seguire alcun criterio specifico, la probabilità che
almeno due di esse festeggino il compleanno nello stesso giorno è maggiore di 1/2.”
Come verificheremo immediatamente di seguito, questa affermazione può facilmente essere
dimostrata matematicamente. Nondimeno, essa è apparentemente sorprendente quando si considera
che la probabilità che due persone scelte a caso abbiano date di compleanno coincidenti è molto
bassa (1/365 ≈ 0.0027 → 0.27%). Ciò che però si è portati a trascurare è il fatto che, quando la
probabilità viene calcolata in un insieme di persone, il numero di possibilità favorevoli all’evento
cresce rapidamente e ciò incrementa, come ovvio, la probabilità: in un insieme di 23 persone vi
23! 23 ⋅ 22
=
= 253 possibili combinazioni di date e ciascuna di esse è una possibile
sono 23 =
2
21!2!
2
candidata a verificare l’evento di cui si sta stimando la probabilità. E 253 non è un numero
trascurabile.
( )
Come premesso, comunque, il paradosso del compleanno può essere verificato matematicamente.
Ai fini della verifica ipotizziamo che l’anno consti di 365 giorni (escludiamo cioè l’eventualità che
l’anno sia bisestile) ed assumiamo che tutte le date siano ugualmente probabili 4 . Inoltre, nello stesso
senso, escludiamo ovviamente situazioni contingenti particolari, quale la presenza, nel gruppo di
persone considerato, di gemelli.
Indichiamo con P1(p) la probabilità che in un gruppo di p persone ve ne siano almeno due con la
stessa data di compleanno. Il modo più semplice per calcolare P1(p) consiste, in realtà, nella
valutazione del suo complementare: 1 − P1(p) rappresenta la probabilità che, nello stesso gruppo di
p persone, le date di compleanno siano tutte diverse tra loro.
Prese dunque due persone, la probabilità che, indipendentemente dalla data del compleanno della
prima persona, ci sono 364 casi su 365 in cui la seconda compie gli anni in un giorno diverso;
considerata una terza persona, ancora indipendentemente dalla data ci sono 363 casi su 365 in cui
questa terza persona compie gli anni in un giorno diverso da entrambe le precedenti, e così via. La
probabilità che, nel gruppo di p persone, i compleanni cadano in date tutte diverse è quindi:
1 − P1 ( p ) =
364 363
366 − p
364!
365!
⋅
⋅… ⋅
=
=
1
p
−
365 365
365
(365 − p )!365
(365 − p )!365 p
(80)
Dalla (80) è allora immediato ricavare:
P1 ( p ) = 1 −
365!
(81)
(365 − p )!365 p
e calcolando questa espressione per p = 23 si trova:
P1 (23) = 1 −
365!
(365 − p )!365 p
= 0.507
(82)
4
Nella realtà, quest’ultima ipotesi è forse discutibile, nel senso che le statistiche dimostrano che taluni periodi
dell’anno, in funzione della nazione che si considera, sono caratterizzati da tassi di nascita maggiori. Analizzare
particolari distribuzioni, comunque, non aggiunge nulla alle considerazioni che stiamo svolgendo, mentre
complicherebbe la trattazione.
22
che, appunto, verifica la tesi.
Generalizzando il risultato, la Figura 10 riporta l’andamento di P1(p) al variare di p. Dal grafico si
vede, ad esempio, che la probabilità di avere almeno due compleanni coincidenti in un gruppo di p
= 30 persone è pari circa al 70.63%. Già per p = 57, peraltro, la probabilità è del 99%. Per p = 100,
è quasi certo che si troveranno due persone con compleanni coincidenti. Si deve anche osservare,
benché ovvio, che la (81) va applicata per p ≤ 365. Se p > 365, infatti, è certo che almeno 2 persone
avranno la stessa data di compleanno, e dunque P1(p) = 1. L’aspetto rilevante dell’analisi è che
P1(p) = 1 viene in realtà avvicinato per valori di p significativamente minori del massimo (così
come confermato dalla Fig. 10).
1.0
P1(p)
0.8
0.6
0.4
0.2
0.0
0
10
20
30
40
50
60
70
80
90
100
p
Figura 10
Il paradosso del compleanno può ovviamente essere esteso a contesti diversi e più generali, in
accordo con il seguente enunciato:
“Sia h: D → R una qualunque funzione. Se si scelgono R ≈ 1.17 D elementi a caso, la probabilità
che due di essi diano lo stesso valore della funzione è maggiore di 0.5.”
L’esempio del compleanno è chiaramente un caso particolare di questo enunciato, ove D = 365 è
l’insieme delle date possibili, R = p è l’insieme delle persone le cui date di compleanno vengono
confrontate tra loro, e la funzione h definisce la data di compleanno delle p persone scelte a caso.
Generalizzando la (80), si può ora scrivere:
1⎞ ⎛
2⎞
R −1⎞
⎛ D −1⎞ ⎛ D − 2 ⎞
⎛ D − R +1⎞ ⎛
⎛
1 − P1 ( R, D) = ⎜
⎟⋅⎜
⎟ ⋅… ⋅ ⎜
⎟ = ⎜1 − ⎟ ⋅ ⎜1 − ⎟ ⋅ … ⋅ ⎜1 −
⎟
D
D⎠ ⎝
D⎠
D ⎠
⎝ D ⎠ ⎝ D ⎠
⎝
⎠ ⎝
⎝
(83)
e quindi:
1⎞ ⎛
2⎞
R −1⎞
⎛
⎛
P1 ( R, D) = 1 − ⎜ 1 − ⎟ ⋅ ⎜1 − ⎟ ⋅ … ⋅ ⎜1 −
⎟
D⎠ ⎝
D⎠
D ⎠
⎝
⎝
(84)
Nell’ipotesi di D sufficientemente grande e di R << D la (84) può essere riscritta, utilizzando
l’approssimazione:
23
e− x ≈ 1 − x
(85)
come segue:
P1 ( R, D ) = 1 − e −1/ D ⋅ e −2 / D ⋅ … ⋅ e − ( R −1) / D = 1 − e − (1+ 2 +…+ ( R −1)) / D
(86)
Imponendo P1(R, D) > 0.5 si ha dunque:
e −(1+ 2+…+( R −1)) / D < 0.5 →
R ⋅ ( R − 1)
> ln 2
2D
(87)
e infine:
R > 2 D ln 2 ≈ 1.17 D
(88)
Il passaggio dalla (87) alla (88) ovviamente implica che sia R >> 1.
Il paradosso del compleanno ha significative applicazioni nell’ambito della crittografia e
dell’autenticazione 5 . Esiste anzi una tipologia di attacco da parte degli hacker che, proprio basata
sul paradosso, da esso prende il nome (birthday paradox attack). Da un diverso punto di vista, il
paradosso del compleanno viene ad esempio utilizzato nella criptanalisi per verificare la robustezza
di algoritmi hash per la generazione di firme digitali.
5
Ovviamente queste tematiche saranno oggetto di corsi successivi. Qui vengono solo accennate per ribadire
l’importanza dell’argomento in un contesto attuale e di notevole interesse.
24