Distribuzioni di uso comune

Capitolo 4
Distribuzioni di uso comune
4.1
Alcuni cenni sui processi stocastici
Deﬁnizione 4.1 Si dice processo stocastico una famiglia di variabili aleatorie {Xt : t ∈ T } discrete o
continue e deﬁnite sullo stesso spazio di probabilità (Ω, F, P ), dove t rappresenta un indice (o parametro)
e T l’insieme dei suoi possibili valori.
In generale si fa riferimento ad una famiglia di variabili aleatorie atte a descrivere diversi aspetti di un
fenomeno in esame (come ad esempio misurazioni eﬀettuate in tempi o luoghi diversi). Per questo motivo
tali variabili aleatorie sono supposte opportunamente legate da relazioni di dipendenza.
Quando T è costituito da un’inﬁnità numerbile di valori il processo è detto a parametro discreto,
viceversa se T è costituito da un insieme continuo di punti (come ad esempio un intervallo di numeri
reali) il processo stocastico è detto a parametro continuo. Sia St l’insieme di deﬁnizione della variabile
aleatoria Xt , si dice spazio degli stati di un processo stocastico l’insieme dei valori assumibili dalle variabili
aleatorie del processo dato da ST = ∪t∈T St . Si dice traiettoria una possibile realizzazione di un processo
stocastico, data dall’insieme dei valori osservati per le variabili: {xt : xt ∈ St , t ∈ T }. Così come il comportamento probabilistico di una variabile aleatoria viene completamente espresso tramite la sua funzione
di ripartizione, il comportamento probabilistico di un processo stocastico, ovvero la sua distribuzione di
probabilità sullo spazio delle sue traiettorie possibili, è determinato qualora siano note le distribuzioni congiunte di tutti i possibili sottoinsiemi degli elementi Xt della famiglia (non è dunque suﬃciente conoscere
le distribuzioni marginali delle singole variabili).
D’altra parte così come nel caso delle variabili aleatorie i momenti individuano valori caratteristici atti
a rappresentare la distribuzione, analogamente per un processo stocastico i valori attesi, le varianze e le
covarianze delle Xt ne sintetizzano il comportamento probabilistico al variare di t.
Deﬁnizione 4.2 Si dice valore atteso del processo stocastico {Xt : t ∈ T } la funzione µ(t) : T → R
deﬁnita da
µ(t) : E(Xt ),
t∈T
(4.1)
Deﬁnizione 4.3 Si dice varianza del processo stocastico {Xt : t ∈ T } la funzione σ 2 (t) : T → R+ deﬁnita
da
σ 2 (t) : Var (Xt ),
t∈T
(4.2)
Deﬁnizione 4.4 Si dice autocovarianza del processo stocastico {Xt : t ∈ T } la funzione γ(t1 , t2 ) : T ×T →
R deﬁnita da
γ(t1 , t2 ) : Cov (Xt1 , Xt2 ),
91
(t1 , t2 ) ∈ T × T
(4.3)
92
A. Pollice - Appunti di Probabilità
Deﬁnizione 4.5 Si dice autocorrelazione del processo stocastico {Xt : t ∈ T } la funzione ρ(t1 , t2 ) :
T × T → [−1, 1] deﬁnita da
ρ(t1 , t2 ) :
γ(t1 , t2 )
,
σ(t1 )σ(t2 )
(t1 , t2 ) ∈ T × T
(4.4)
Esempio 4.1 Un processo stocastico {Xt : t ∈ T } formato da variabili aleatorie stocasticamente indipendenti ed identicamente distribuite (i.i.d.) con media e varianza comuni pari rispettivamente a E(Xt ) = µ
e Var (Xt ) = σ 2 per t ∈ T è detto rumore bianco (white noise). Un tale processo stocastico risulta completamente determinato quando è nota la distribuzione comune a tutte le variabili aleatorie del processo
Xt . In tal caso infatti le distribuzioni congiunte dei possibili sottoinsiemi degli elementi del processo sono
ottenibili, grazie all’assunzione di indipendenza di questi, come prodotto delle distribuzioni marginali delle
Xt .
4.2
Processo bernoulliano
Si consideri un esperimento casuale i dicotomico, ovvero caratterizzato da due soli risultati detti rispettivamente successo e insuccesso ed indicati con si e si e sia la probabilità di successo pari a P (si ) = p. A tale
esperimento è possibile associare una variabile aleatoria Xi che vale 1 in caso di successo (con probabilità
p) e 0 in caso di insuccesso (con probabilità 1 − p). Tale variabile aleatoria è detta indicatore di successo
e la sua funzione di probabilità (detta bernoulliana) è data da
{
p
x=1
pXi (x) =
(4.5)
1−p
x=0
Si consideri ora il processo stocastico {Xi : i, . . . , n} costituito da una successione di n esperimenti
dicotomici mutuamente stocasticamente indipendenti e con probabilità di successo costante per tutte le
prove e pari a P (si ) = p per i = 1, . . . , n. Il modello di riferimento appena esposto è detto processo di
Bernoulli o delle prove ripetute (si noti come tale processo stocastico sia assimilabile ad una successione
di estrazioni con reinserimento da un’urna contenente palline di due colori). Il calcolo della media e della
varianza del processo stocastico {Xi : i, . . . , n} porta immediatamente a
µ(i) = E (Xi ) = 1 × p + 0 × (1 − p) = p
(4.6)
( )
σ 2 (i) = Var (Xi ) = E Xi2 − [E (Xi )]2 = 12 × p + 02 × (1 − p) − p2 = p (1 − p)
(4.7)
Si indichi con X la variabile aleatoria che restituisce il numero (ovvero la frequenza) dei successi nella
successione delle n prove ripetute in un processo bernoulliano. La variabile aleatoria X è evidentemente
discreta ed il suo insieme di deﬁnizione è dato da RX = {x ∈ R : x = 0, . . . , n}. Al ﬁne di determinare
la funzione di probabilità della X si noti innanzi tutto che le probabilità che nelle n prove ripetute si
veriﬁchino rispettivamente n successi ed n insuccessi sono date da pX (n) = pn e da pX (0) = (1 − p)n .
Inoltre la probabilità che si veriﬁchi un solo successo tra le n prove della successione (senza speciﬁcare quale)
può essere ottenuta come somma delle probabilità associate agli eventi (incompatibili) che si veriﬁcano
in corrispondenza dei successi di ciascuna prova, quando le altre n − 1 riportano un insuccesso. Infatti
indicando rispettivemente con si ed si il successo e l’insuccesso all’i-esima prova per i = 1, . . . , n, si ha
pX (1) = P [(s1 ∩ s2 ∩ · · · ∩ sn ) ∪ (s1 ∩ s2 ∩ · · · ∩ sn ) ∪ · · · ∪ (s1 ∩ s2 ∩ · · · ∩ sn )]
= p (1 − p)n−1 + p (1 − p)n−1 + · · · + p (1 − p)n−1 = np (1 − p)n−1
Cap.4: Distribuzioni di uso comune
93
Generalizzando, la probabilità che si veriﬁchino x successi tra gli n esperimenti è data dalla somma
delle probabilità delle possibili
( )sequenze in cui possono essere disposti x successi ed n − x insuccessi. Tali
sequenze sono in numero di nx (numero dei modi in cui si possono scegliere gli x successi dalle n prove)
e ciascuna di esse ha probabilità px (1 − p)n−x , pertanto
( )
n x
pX (x) =
p (1 − p)n−x x = 0, . . . , n
(4.8)
x
La funzione di probabilità appena determinata è detta binomiale di parametri ∑
n e p( a) causa del suo
n
n x n−x
collegamento con lo sviluppo in serie della potenza di un binomio [(a + b)n =
]. Tale
x=0 x a b
sviluppo permette di dimostrare immediatamente che l’espressione (4.8) è una funzione di probabilità,
infatti
n ( )
∑
n x
p (1 − p)n−x = (p + 1 − p)n = 1
(4.9)
x
x=0
Si noti che la frequenza di successi X in n prove bernoulliane può essere
∑n ottenuta come somma degli
indicatori di successo Xi associati alle prove, in altri termini vale X = i=1 Xi e di conseguenza
( n
)
n
∑
∑
E (X) = E
Xi =
E (Xi ) = np
(4.10)
i=1
(
Var (X) = Var
n
∑
i=1
)
Xi
=
i=1
n
∑
Var (Xi ) = np (1 − p)
(4.11)
i=1
La seconda espressione vale in virtù dell’indipendenza stocastica delle X1 , . . . , Xn .
Inﬁne è immediato ricavare la funzione caratteristica della distribuzione binomiale, infatti per lo
sviluppo in serie della potenza di un binomio si ha
(
iuX
ψX (u) = E e
)
=
n
∑
t=0
iut
e
( )
(
)n
n t
p (1 − p)n−t = peiu + 1 − p
t
(4.12)
Si consideri ora un numero inﬁnito di prove ripetute di un processo bernoulliano (n = ∞). Sia T(1) la
variabile casuale che indica il numero di prove necessarie aﬃché si veriﬁchi il primo successo (talvolta la
variabile aleatoria T(1) è denominata tempo di attesa del primo successo nel discreto, dove l’espressione
“tempo nel discreto” è da intendersi come numero di prove). T(1) è evidentemente una variabile aleatoria
discreta ed il suo insieme di deﬁnizione è dato da RT(1) = {x ∈ R : x = 1, 2, 3, . . .}. L’evento T(1) = x si
manifesta quando le prime x − 1 prove producono tutti insuccessi mentre l’x-esima produce un successo.
A causa dell’indipendenza delle prove tale probabilità, corrispondente alla funzione di probabilità di T(1) ,
è data semplicemente da
pT(1) (x) = (1 − p)x−1 p x = 1, 2, 3, . . .
(4.13)
La funzione di probabilità appena determinata è detta geometrica di parametro p. Per il calcolo dei
momenti della funzione di probabilità geometrica si noti che per la somma di inﬁniti termini di una
progressione geometrica vale:
∞
∑
(1 − p)t = (1 − p)
t=1
1
1−p
=
1 − (1 − p)
p
e derivando ambo i membri dell’uguaglianza rispetto a p si ottiene
∞
∑
t=1
(−1) t (1 − p)t−1 =
−p − (1 − p)
1
=− 2
2
p
p
(4.14)
94
A. Pollice - Appunti di Probabilità
dalla quale si ha che
(
)
E T(1) =
∞
∑
t (1 − p)t−1 p =
t=1
1
p
(4.15)
Inoltre derivando ulteriormente ambo membri della (4.14) si ha
∞
∑
t (t − 1) (1 − p)t−2 =
t=1
2
p3
dalla quale si ottiene
∞
(
) ∑
2 (1 − p)
2
2
E T(1)
− T(1) =
t (t − 1) (1 − p)t−1 p = 3 (1 − p) p =
p
p2
t=1
ovvero
ed inﬁne
(
)
(
)
(
) 2 (1 − p) 1
2−p
2
2
E T(1)
+ =
= E T(1)
− T(1) + E T(1) =
p2
p
p2
(
) [ (
(
)
)]2 2 − p
1
1−p
2
Var T(1) = E T(1)
− 2 =
− E T(1)
=
p2
p
p2
(4.16)
Per la funzione caratteristica della distribuzione geometrica si ha
∞
(
) ∑
ψT(1) (u) = E eiuT(1) =
eiut (1 − p)t−1 p =
t=1
=
∞
]t
p ∑ [ iu
e (1 − p)
1−p
t=1
p
− p)
=
,
iu
1 − p 1 − e (1 − p)
1 − eiu (1 − p)
eiu (1
peiu
eiu (1 − p) < 1
(4.17)
Una proprietà interessante della distribuzione geometrica è la cosiddetta mancanza di memoria. Se T(1)
è una variabile aleatoria avente funzione di probabilità geometrica di parametro p, allora si può dimostrare
che vale
(
)
(
)
PT1 |T1 T(1) ≤ x + t|T(1) > x = PT1 T(1) ≤ t
(4.18)
In altri termini se non si veriﬁca alcun successo nelle prime x prove allora la probabilità che se ne veriﬁchi
uno nelle successive t prove è uguale alla probabilità che si veriﬁchi un successo in t prove. L’informazione
data dal fatto che non si sono avuti successi nelle prime x prove viene trascurata.
In una situazione analoga alla precedente si consideri ora la variabile casuale T(r) che indica il tempo
di attesa dell’r-esimo successo nel discreto, ovvero il numero di prove necessarie aﬃnché si veriﬁchino r
successi in una successione bernoulliana di prove. T(r) è evidentemente una variabile aleatoria discreta
ed il suo insieme di deﬁnizione è dato da RT(r) = {x ∈ R : x = r, r + 1, r + 2, . . .}. L’evento T(r) = x si
manifesta quando l’ultima prova (la x-esima) è un successo e nelle x − 1 prove precedenti si sono veriﬁcati
r − 1 successi. A causa dell’indipendenza delle prove tale probabilità, corrispondente alla funzione di
probabilità di T(r) , è data semplicemente da
(
)
(
)
x − 1 r−1
x−1 r
x−r
pT(r) (x) = p
p
(1 − p)
=
p (1 − p)x−r
r−1
r−1
x = r, r + 1, r + 2, . . .
La funzione di probabilità appena determinata è detta binomiale negativa o di Pascal di parametri r
e p. Incidentalmente si noti che la (4.19) è una funzione di probabilità anche per valori reali di r non
necessariamente interi. Si può dimostrare che per il valore atteso e la varianza della variabile aleatoria
T(r) valgono le due espressioni seguenti
(
) r
E T(r) =
(4.19)
p
Cap.4: Distribuzioni di uso comune
95
(
) r (1 − p)
Var T(r) =
(4.20)
p2
Una generalizzazione del modello bernoulliano è ottenuta considerando una successione di n prove indipendenti in cui ciascuna prova sia un esperimento casuale con k possibili risultati. In altri termini ciascu(1)
(k)
na delle n prove
( possa
) avere come
∑k risultato uno di k eventi necessari e incompatibili s , . . . , s con proba(j)
bilità pari a P s
= pj con j=1 pj = 1. Si consideri il vettore aleatorio X = (X1 , . . . , Xk ) in cui Xj rappresenta il numero di volte che si presenta il j-esimo risultato nelle n prove indipendenti. Il vettore aleatorio
X contiene dunque le frequenze dei k possibili risultati
per-}
{ dell’esperimento riportabili in n prove ripetute,
∑k
k
tanto il suo insieme di deﬁnizione ha la forma RX = x ∈ R : xj = 0, . . . , n, j = 1, . . . , k,
j=1 xj = n .
∑k
Si voglia calcolare la funzione di probabilità di X. Per un certo argomento x = (x1 , . . . , xk ) con j=1 xj =
n questa è data da PX (x), ovvero dalla probabilità che le n prove ripetute diano luogo per x1 volte ad s(1) ,
per x2 volte ad s(2) e così via. A causa dell’indipendenza delle prove, la probabilità di una speciﬁca sequenza di n prove in cui s(1) si presenti x1 volte, s(2) si presenti x2 volte e così via è pari a px1 1 px2 2 · · · pxk k . Si noti
che le possibili sequenze di questo tipo distinte per l’ordine in cui si presentano i risultati s1 , . . . , sk sono in
n!
pertanto la funzione di probabilità associata al vettore aleatorio discreto k-dimensionale
numero di x1 !···x
k!
X è data dall’espressione seguente
n!
px1 px2 · · · pxk k x ∈ RX
(4.21)
x1 ! · · · xk ! 1 2
La funzione di probabilità appena determinata è detta multinomiale di parametri n, p1 , . . . , pk . La distribuzione marginale di ciascuna componente Xj del vettore aleatorio X è binomiale di parametri n e pj
e pertanto
E (Xj ) = npj
(4.22)
pX1 ,...,Xk (x1 , . . . , xk ) =
Var (Xj ) = npj (1 − pj )
(4.23)
Cov (Xj Xh ) = −npj ph
(4.24)
ed inoltre
Il segno negativo della covarianza deriva dall’ovvia considerazione che, essendo n preﬁssato, al crescere di
Xj la variabile aleatoria Xh tende a decrescere.
Si consideri ora uno schema di estrazioni simile a quello bernoulliano dato da una successione di n
esperimenti dicotomici corrispondenti a estrazioni senza reinserimento da un’urna contenente M palline
di cui m bianche. Trattandosi di estrazioni senza reinserimento gli esperimenti della successione non
risultano più stocasticamente indipendenti come nello schema bernoulliano. Tuttavia indicando con X
la variabile aleatoria discreta associata al numero di palline bianche ottenute nelle n estrazioni, è possibile calcolarne la funzione di probabilità con considerazioni analoghe a quelle che hanno portato alla
distribuzione binomiale. Si noti che l’insieme di deﬁnizione RX di questa variabile aleatoria ha la forma
RX = {x ∈ N : max [0, n − (M − m)] ≤ x ≤ min [n, m]}. Detto si l’evento corrispondente all’estrazione di
una pallina bianca all’i-esimo tentativo applicando i principî delle probabilità totali e delle probabilità
composte si ha
m
P (s1 ) =
M
m−1 m
m M −m
m
P (s2 ) = P (s2 |s1 ) P (s1 ) + P (s2 |s1 ) P (s1 ) =
+
=
M −1M
M −1 M
M
m
ed in generale P (si ) = M
. In tal caso dunque, analogamente a ciò che accade nello schema bernoulliano,
si ha a che fare con una successione di eventi dicotomici aventi tutti la stessa probabilità di successo, ma
questa volta eventi successivi non risultano indipendenti. Inoltre dato che le si non sono indipendenti la
probabilità che si veriﬁchi la sequenza s1 ∩ s2 ∩ . . . ∩ sx ∩ sx+1 ∩ sx+2 ∩ . . . ∩ sn è data per il principio delle
probabilità composte da
m m−1
m−x+1 M −mM −m−1
M −m−n+x+1
···
···
=
M M −1
M −x+1 M −x M −x−1
M −n+1
(M −m)!
m!
(m−x)! (M −m−n+x)!
M!
(M −n)!
96
A. Pollice - Appunti di Probabilità
Tale probabilità coincide con
(n)quella di un qualunque altro ordinamento che contenga esattamente x palline
bianche e poiché esistono x modi incompatibili di assegnare i posti alle x palline bianche si ha che
(M −m)!
( ) m!
n!
n (m−x)! (M −m−n+x)!
=
pX (x) =
M!
x
x!
(n
− x)!
(M −n)!
(M −m)!
m!
(m−x)! (M −m−n+x)!
M!
(M −n)!
(m)(M −m)
=
x
(Mn−x
)
x ∈ RX
(4.25)
n
La funzione di probabilità appena determinata è detta ipergeometrica di parametri n, M ed m. Media
e varianza
di una variabile aleatoria con distribuzione ipergeometrica sono ottenibili considerando che
∑
X = ni=1 Xi dove le Xi sono variabili aleatorie bernoulliane stocasticamente dipendenti e con probabilità
m
di successo costante pari a M
, pertanto
(
E (X) = E
n
∑
)
m
M
(4.26)
m) M −n
m(
1−
= ··· = n
M
M M −1
(4.27)
Xi
i=1
(
Var (X) = Var
n
∑
i=1
4.3
)
Xi
=n
Processo di Poisson
Si consideri una variabile aleatoria discreta Xn con distribuzione binomiale di parametri n e pn , dove pn
sia una funzione decrescente del parametro n tale che valgano le due condizioni seguenti
lim pn = 0
n→∞
npn = µ ∀n
In altri termini si assume che pn decresca al crescere di n in modo da lasciare invariato e pari al valore
costante µ il prodotto npn . In tal caso si ha che
( )
(
n 0
µ )n
pXn (0) =
pn (1 − pn )n = 1 −
0
n
Ed inoltre
(n) x
pn (1 − pn )n−x
µ − nµ (x − 1)
pXn (x)
n − x + 1 pn
(
= ( n )x x−1
=
=
µ)
n−x+1
pXn (x − 1)
x
(1
−
p
)
1
−
x
p
(1
−
p
)
n
n
n
n
x−1
x = 1, . . . , n
Si consideri ora la variabile aleatoria discreta X = limn→∞ Xn . Per n → ∞ il numero delle prove del
processo bernoulliano diverge e la probabilità di successo di ciascuna prova tende ad annullarsi. La variabile
aleatoria discreta X restituisce il numero di successi in una successione inﬁnita di eventi indipendenti la cui
probabilità di successo tende a 0: si parla in tal caso di eventi o fenomeni rari. Nella situazione suddetta,
posto che limn→∞ pXn = plimn→∞ Xn = pX e pX (x) /pX (x − 1) = limn→∞ [pXn (x) /pXn (x − 1)], si ha
(
µ )n
1−
= e−µ
n→∞
n
pX (0) = lim pXn (0) = lim
n→∞
µ − nµ (x − 1)
µ
pXn (x)
pX (x)
=
= lim
= lim (
µ)
n→∞
n→∞
pX (x − 1)
pXn (x − 1)
x
1− n x
x = 1, . . . , n
Cap.4: Distribuzioni di uso comune
97
e conseguentemente
pX (1) =
pX (2) =
pX (3) =
pX (1)
pX (0) = µe−µ
pX (0)
pX (2)
µ
µ2 −µ
pX (1) = µe−µ =
e
pX (1)
2
2
µ µ2 −µ µ3 −µ
pX (3)
pX (2) =
e =
e
pX (2)
3 2
6
ed in generale
µx −µ
e
x = 0, 1, 2, . . .
(4.28)
x!
La funzione di probabilità appena determinata è detta distribuzione di Poisson di parametro µ. Tale
funzione di probabilità appare dunque come un’approssimazione della distribuzione binomiale quando n
è molto grande e la probabilità di successo p è molto piccola. La speranza matematica di una variabile
aleatoria X avente distribuzione di Poisson di parametro µ è data dal parametro stesso, infatti
pX (x) =
E (X) =
∞
∞
∞
∑
∑
∑
µt
µt−1 −µ
µt
t e−µ = µ
e =µ
t e−µ =
t!
t!
(t − 1)!
t=0
t=1
t=1
∑∞
Nell’espressione precedente si è fatto uso del risultato x=0
della variabile aleatoria X coincide con il parametro µ, infatti
(
E X
2
)
=
∞
∑
t=0
=
∞
∑
t2
=
t=1
ax
x!
= ea . Si noti che anche la varianza
µt −µ
e
t!
(t − 1 + 1)
t=1
∞
∑
(4.29)
µt
e−µ
(t − 1)!
∞
∑ µt
µt
e−µ +
e−µ
(t − 1)
(t − 1)!
(t − 1)!
t=1
∞
∞
∑
∑
µt−2
µt−1
= µ2 e−µ
+ µe−µ
= µ2 + µ
(t − 2)!
(t − 1)!
t=2
e di conseguenza
t=1
( )
Var (X) = E X 2 − [E (X)]2 = µ
(4.30)
La funzione caratteristica di una variabile aleatoria distribuita con funzione di probabilità di Poisson
è data dall’espressione
∞ ( iu )t
∞
t
∑
∑
e µ
iu
iu
−µ
iut µ −µ
e =e
= e−µ ee µ = eµ(e −1)
(4.31)
ψX (u) =
e
t!
t!
t=0
t=0
Oltre che come approssimazione della binomiale la funzione di probabilità di Poisson può essere ricavata
come distribuzione esatta con riferimeno a un processo stocastico a parametro continuo detto processo di
Poisson. Detta Xt la variabile aleatoria che indica il numero di volte che l’evento in questione si veriﬁca
in un intervallo di tempo di lunghezza preﬁssata t, il processo di Poisson {Xt : t ∈ T } rappresenta il
veriﬁcarsi di un certo evento nel tempo posto che valgano le condizioni seguenti:
1. la probabilità che l’evento in questione si veriﬁchi una volta in un intervallo di tempo di lunghezza
t sia proporzionale all’ampiezza dell’intervallo:
PXt (Xt = 1) = λt + o (t)
98
A. Pollice - Appunti di Probabilità
2. la probabilità che l’evento in questione si veriﬁchi più di una volta in un intervallo di tempo di
lunghezza t sia trascurabile:
PXt (Xt > 1) = o (t)
3. variabili aleatorie associate al numero di eventi che si veriﬁcano in intervalli di tempo disgiunti sono
stocasticamente indipendenti.
Se valgono queste tre condizioni, allora la variabile aleatoria Xt ha distribuzione di Poisson di parametro
λt, in altri termini
(λt)x −λt
pXt (x) =
e
x = 0, 1, 2, . . .
(4.32)
x!
In tal caso λ indica il numero medio di arrivi in un intervallo di tempo di ampiezza unitaria.
La variabile aleatoria discreta Xx rappresenti il numero di volte che un certo evento si veriﬁca in un
intervallo di tempo di lunghezza x ed abbia funzione di probabilità di Poisson di parametro λx. Se con
T1 viene indicata una variabile aleatoria continua che rappresenta il tempo necessario aﬃnché l’evento in
questione si presenti per la prima volta (tempo di attesa del primo successo nel continuo), allora la sua
funzione di ripartizione è data dall’espressione
FT1 (x) = PT1 (T1 ≤ x) = 1 − PT1 (T1 > x) = 1 − PXx (Xx = 0) = 1 − e−λx
x≥0
(4.33)
La funzione di densità della variabile aleatoria T1 è data dunque da
fT1 (x) =
)
d (
dFT1 (x)
=
1 − e−λx = λe−λx
dx
dx
x≥0
(4.34)
La funzione di densità appena determinata è detta esponenziale di parametro λ. Dall’espressione della
funzione di densità si ricavano facilmente la media e la varianza della variabile aleatoria T1
∫
∞
tλe−λt dt
[ (
)
]∞ ∫ ∞ (
)
1
1
−λt
= tλ −
e
−
λ −
e−λt dt
λ
λ
0
0
[(
)
]∞
1
1
e−λt
= 0+ −
=
λ
λ
0
E (T1 ) =
0
E
(
T12
)
∫
(4.35)
∞
t2 λe−λt dt
)
]∞ ∫ ∞
(
)
[
(
1
1
−λt
2
e
−
2tλ −
e−λt dt
= t λ −
λ
λ
0
[ (
) 0 ]∞ ∫ ∞ (
)
1
1
−λt
= 0 + 2t −
e
−
2 −
e−λt dt
λ
λ
0
) 0 ]∞
[ (
2
1
= 2
= 0 + 0 + 2 − 2 e−λt
λ
λ
0
=
0
e di conseguenza
2
Var (T1 ) = 2 −
λ
( )2
1
1
= 2
λ
λ
(4.36)
(4.37)
Cap.4: Distribuzioni di uso comune
99
Per la funzione caratteristica, invece, si ricava l’espressione seguente
∫ ∞
ψT1 (u) =
eiut λe−λt dt
0
∫ ∞
=
λet(iu−λ) dt
[0
]∞
1
t(iu−λ)
e
= λ
iu − λ
0
λ
=
iu − λ < 0
λ − iu
(4.38)
Come la distribuzione geometrica anche la densità esponenziale gode della proprietà di mancanza di
memoria. Ciò signiﬁca che vale
PT1 |T2 (T1 ≤ x + t|T1 > x) =
=
PT1 (x < T1 ≤ x + t)
P (T1 > x)
FT1 (x + t) − FT1 (x)
1 − FT1 (x)
1 − e−λ(x+t) − 1 + e−λx
e−λx
= PT1 (T1 ≤ t)
=
(4.39)
In altri termini se non si veriﬁca alcun evento nell’intervallo [0, x] la probabilità che se ne veriﬁchi uno
nell’intervallo di tempo adiacente (x, x + t] di ampiezza t è uguale alla probabilità che si veriﬁchi un evento
nell’intervallo [0, t]. A causa di questa proprietà si può aﬀermare che una variabile aleatoria con densità
esponenziale può essere interpretata oltre che come il tempo di attesa del primo successo, come la durata
dell’intervallo di tempo Tj che separa la (j − 1)-esima e la j-esima manifestazione dell’evento in un processo
di Poisson, per j = 1, 2, . . ..
Da quanto appena detto si deduce che se ipotizziamo un processo di Poisson caratterizzato da un
numero medio di arrivi nell’intervallo di tempo unitario pari a λ, le lunghezze degli intervalli di tempo tra
arrivi successivi corrispondono ad altrettante variabili aleatorie T1 , T2 , . . . stocasticamente indipendenti
ed aventi tutte la medesima distribuzione fT = fT1 = fT2 = · · · esponenziale di parametro λ. Pertanto
la funzione di densità della variabile aleatoria Tr∗ associata
∑r al tempo di attesa dell’r-esimo successo nel
continuo è ricavata come densità della somma Tr∗ =
j=1 Tj di r variabili aleatorie indipendenti ed
equidistribuite con distribuzione esponenziale di parametro λ. Per r = 2 si ha, applicando le formule di
convoluzione
∫
∫ x
fT (x − t) fT (t) dt =
λe−λ(x−t) λe−λt dt = λ2 xe−λx x > 0
fT2∗ (x) =
R
0
Analogamente per r = 3 si ottiene
∫
∫
∗
∗
fT3 (x) =
fT (x − t) fT2 (t) dt =
R
x
λe−λ(x−t) λ2 te−λt dt =
0
λ3 2 −λx
x e
2
x>0
ed iterando il procedimento si ha che in generale
fTr∗ (x) =
λr
xr−1 e−λx
(r − 1)!
x>0
(4.40)
La funzione di densità appena determinata
è detta distribuzione di Erlang di indice r (intero) e parametro
∑
λ. Naturalmente essendo Tr∗ = rj=1 Tj ed essendo le Tj mutuamente stocasticamente indipendenti si ha
E
(Tt∗ )
=
r
∑
j=1
E (Tj ) =
r
λ
(4.41)
100
A. Pollice - Appunti di Probabilità
Var (Tt∗ ) =
r
∑
Var (Tj ) =
j=1
r
λ2
(4.42)
∫∞
Si consideri ora l’integrale 0 ta−1 e−t dt che esiste ﬁnito e positivo quando a è una costante reale e
positiva. In tal caso detto integrale prende il nome di funzione di Eulero o funzione gamma
∫ ∞
Γ (a) =
ta−1 e−t dt
(4.43)
0
Incidentalmente si noti che risolvendo per parti l’integrale precedente si ottiene la relazione Γ (a) =
(a − 1) Γ (a − 1) che nel caso particolare di a intero porta iterativamente a Γ (a) = (a − 1)!. Inoltre
considerando nell’integrale (4.43) la trasformazione della variabile d’integrazione t = λs si ottiene
∫ ∞
∫ ∞ a
λ
a−1 −λs
Γ (a) =
(λs)
e λds =⇒
sa−1 e−λs ds = 1
Γ (a)
0
0
Si noti come la parte variabile sa−1 e−λs della funzione integranda risulti identica a quella della disλa
tribuzione di Erlang, mentre la parte costante Γ(a)
dipenda dal parametro reale e positivo a. Ciò porta a
deﬁnire una funzione di densità simile alla (4.40), per la quale l’indice a è un numero reale
fX (x) =
λa a−1 −λx
x e
Γ (a)
x>0
(4.44)
La funzione di densità appena determinata è detta distribuzione gamma di indice (o parametro di forma)
a reale e parametro (di scala) λ. Evidentemente la (4.44) si riconduce alla (4.40) nel caso particolare in
cui l’indice a è un numero intero. Per una variabile aleatoria X con funzione di densità gamma si ha
∫ ∞
( )
λa a−1 −λs
k
s e ds
E X
=
sk
Γ (a)
0
∫
∞
λa
=
sa+k−1 e−λs ds
Γ (a) 0
λa Γ (a + k)
=
Γ (a) λk+a
(a + k − 1) · · · a
=
(4.45)
λk
e di conseguenza
E (X) =
a
λ
(a + 1) a ( a )2
a
−
= 2
λ2
λ
λ
Inoltre la forma della funzione caratteristica associata alla densità gamma è la seguente
∫ ∞
λa a−1 −λs
ψX (u) =
eius
s e ds
Γ (a)
0
∫ ∞
λa
sa−1 e−(λ−iu)s ds
=
Γ (a) 0
)a−1
∫ ∞(
λa
z
1
=
e−z
dz
Γ (a) 0
λ − iu
λ − iu
∫ ∞
λa
=
z a−1 e−z dz
Γ (a) (λ − iu)a 0
)a
(
λ
iu < λ
=
λ − iu
Var (X) =
(4.46)
(4.47)
(4.48)
Cap.4: Distribuzioni di uso comune
101
dove l’integrale precedente, che assume valore inﬁnito se λ−iu < 0, è stato risolto tramite la trasformazione
z = (λ − iu) s. Dalla forma della funzione caratteristica appena ricavata deriva l’importante proprietà
che riguarda la somma di variabili aleatorie indipendenti ed aventi funzione di densità gamma con lo
stesso parametro di scala λ (additività della densità gamma). Infatti se X1 , . . . , Xk sono mutuamente
indipendenti con Xj ∼Gamma[aj , λ] allora vale
ψ∑k
j=1
da cui discende che
Xj
∑k
j=1 Xj
(u) =
k
∏
ψXj (u) =
j=1
∼Gamma
k (
∏
j=1
[∑
k
j=1 aj , λ
λ
λ − iu
)aj
(
=
λ
λ − iu
)∑kj=1 aj
(4.49)
]
. Inﬁne oltre alle densità esponenziale e a quella di
Erlang si considera spesso un altro caso particolare della funzione di densità gamma in cui a = g2 e λ = 12 .
In tal caso si ottiene una funzione di densità detta chi-quadrato con g gradi di libertà (spesso indicata con
χ2g ). Si noti che in tal caso vale
( )
E χ2g = g
(4.50)
( 2)
Var χg = 2g
(4.51)
Si considerino due variabili aleatorie X e Y stocasticamente indipendenti ed aventi entrambe densità
gamma con parametro di scala pari a 1 e indici rispettivamente a e b, reali e positivi. In altri termini siano
X ∼Gamma[a, 1] e Y ∼Gamma[b, 1] indipendenti, la loro funzione di densità congiunta sia pertanto data
dal prodotto delle due densità
fX,Y (x, y) =
1
xa−1 y b−1 e−(x+y) ,
Γ (a) Γ (b)
x ∈ R+ , y ∈ R+
si voglia determinare la funzione di densità della variabile aleatoria continua U =
si consideri la trasformazione biunivoca
{
{
X
U
U = X+Y
X = V 1−U
=⇒
V =Y
Y =V
per la quale lo jacobiano vale
V
.
(1−U )2
X
X+Y
. A tale proposito
Si noti inoltre che
{
}
{
}
RX,Y = (x, y) ∈ R2 : x ∈ R+ , y ∈ R+ =⇒ RU,V = (u, v) ∈ R2 : u ∈ (0, 1) , v ∈ R+
La densità congiunta di U ed V è data dall’espressione
(
)a−1
u
1
u
v
fU,V (u, v) =
v
v b−1 e−(v 1−u +v)
Γ (a) Γ (b)
1−u
(1 − u)2
=
v
ua−1 v a+b−1 − 1−u
1
e
,
a+1
Γ (a) Γ (b) (1 − u)
0 < u < 1, v ∈ R+
pertanto la densità marginale della variabile aleatoria U è individuata dall’integrale seguente, dove la
funzione integranda ha la forma di una densità gamma di indice a + b e parametro (1 − u)−1 a meno della
costante di normalizzazione:
∫ ∞
[
]
1
ua−1
−1
a+b−1
fU (u) =
v
exp
−v
(1
−
u)
dv
Γ (a) Γ (b) (1 − u)a+1 0
Γ (a + b)
ua−1
1
=
a+1
Γ (a) Γ (b) (1 − u)
(1 − u)−(a+b)
Γ (a + b) a−1
u
(1 − u)b−1 ,
0<u<1
(4.52)
=
Γ (a) Γ (b)
102
A. Pollice - Appunti di Probabilità
La funzione (4.52) è detta densità beta di parametri (di forma) a e b.
Si noti che valgono
∫ 1
Γ (a + b)
Γ (a + b) Γ (a + 1) Γ (b)
a
E (U ) =
ua (1 − u)b−1 du =
=
Γ (a) Γ (b) 0
Γ (a) Γ (b) Γ (a + b + 1)
a+b
(
E U
2
)
Γ (a + b)
=
Γ (a) Γ (b)
e di conseguenza
∫
1
ua+1 (1 − u)b−1 du =
0
(4.53)
Γ (a + b) Γ (a + 2) Γ (b)
(a + 1) a
=
Γ (a) Γ (b) Γ (a + b + 2)
(a + b + 1) (a + b)
( )
Var (U ) = E U 2 − [E (U )]2 = · · · =
ab
(a + b + 1) (a + b)2
(4.54)
La forma della funzione di densità varia al variare di a e b. Infatti per a > 1 e b > 1 tale densità è di
forma campanulare, mentre per a < 1 e b < 1 è a forma di U, in particolare essa è simmetrica per a =
b. Per a = b = 1 la densità beta coincide con l’uniforme nell’intervallo (0, 1). Inﬁne tale densità è una
funzione monotona crescente o decrescente rispettivamente se b ≤ 1 ≤ a e a ≤ 1 ≤ b.
4.4
Funzione di densità gaussiana
Si consideri il seguente integrale improprio
∫
∞
(
z2
I=
exp −
2
−∞
)
(4.55)
dz
l’integrale precedente esiste sempre ﬁnito, infatti la funzione integranda è continua e positiva ed è maggiorata dalla funzione exp (− |z| + 1)
( 2)
z
< exp (− |z| + 1)
0 < exp −
2
essendo z 2 > 2 |z| − 2, inoltre la funzione maggiorante ha integrale ﬁnito
∫ ∞
exp (− |z| + 1) dz = 2e
−∞
Per risolvere l’integrale (4.55) ne considero il quadrato
( 2) ∫ ∞
( 2)
( 2
)
∫ ∞
∫∫
z
x
z + x2
2
I =
exp −
dz
exp −
dx =
exp −
dzdx
2
2
2
−∞
−∞
R2
( 2)
]
∫ 2π [∫ ∞
∫ 2π
√
r
=
exp −
r dr dθ =
dθ = 2π =⇒ I = 2π
2
0
0
0
{
x = r cos θ
Nella risoluzione dell’integrale doppio si è utilizzata la trasformazione a coordinate polari
z = r sin θ
per la quale si ha |J| = r ed inoltre si è considerato
( 2)
∫ ∞
∫ ∞
r
r dr =
exp (−k) dk = 1
exp −
2
0
0
Dalle considerazioni precedenti ricavo che la funzione
( 2)
z
1
fZ (z) = √ exp −
2
2π
z∈R
(4.56)
Cap.4: Distribuzioni di uso comune
103
è sempre positiva e il suo integrale esteso a tutto R è pari ad 1. La funzione (4.56) è detta funzione
di densità normale standardizzata e viene indicata con N (0, 1). Essendo la (4.56) una funzione pari, il
graﬁco della funzione fZ (z) è simmetrico rispetto all’asse delle ordinate, ed inoltre ha forma campanulare.
L’integrale che deﬁnisce la funzione di ripartizione FZ (z) della variabile aleatoria Z (detto integrale di
Laplace-Gauss) non ha soluzione esplicita ed i suoi valori calcolati tramite metodi numerici sono tabulati
al variare di z.
Invece la funzione generatrice dei momenti della variabile aleatoria Z con funzione di densità normale
standardizzata è data da
∫ ∞
∫ ∞
2
1 2
1
ut 1
− t2
ϕZ (u) =
e √ e
dt = √
e− 2 (t −2ut) dt
2π
2π −∞
−∞
( 2)
u2 ∫
u2 ∫
∞
∞
e2
u
e2
− 12 (t−u)2
− 12 k2
= √
e
e
dk = exp
(4.57)
dt = √
2
2π −∞
2π −∞
|
{z
}
√
2π
Se si considerano la traslazione e il cambiamento di scala della variabile aleatoria Z deﬁniti dalla trasformazione lineare
X = µX + ZσX
si ottiene la variabile aleatoria X la cui funzione di densità è
(
)
1
(x − µX )2
√ exp −
fX (x) =
2
2σX
σX 2π
z∈R
(4.58)
2
detta funzione di densità normale
di parametri (rispettivamente di posizione e scala) µX e σX
( o gaussiana
)
2
e generalmente indicata con N µX , σX . Lo studio analitico di tale funzione evidenzia che il suo graﬁco
ha forma campanulare simmetrica, è dotato di un solo punto di massimo nel punto x = µX e di due ﬂessi
nei punti x = µX ± σX . La funzione generatrice dei momenti della variabile aleatoria X con funzione di
2 è data da
densità normale di parametri µX e σX
)
(
2
u2 σX
1 2 2
uµX
uµX
(4.59)
ϕX (u) = e
ϕZ (uσX ) = e
e 2 = exp uµX + u σX
2
Dall’espressione precedente si ottengono i primi due momenti ordinari della variabile aleatoria X
(
)
dϕX (u) 2
E (X) =
= µX + uσX
ϕX (u)u=0 = µX
du
u=0
(
E X
2
da cui
)
(4.60)
(
)
d2 ϕX (u) 2
2 2
2
=
=
σ
ϕ
(u)
+
µ
+
uσ
ϕ
(u)
= σX
+ µ2X
X
X
X
X
X
2
du
u=0
u=0
( )
2
Var (X) = E X 2 − [E (X)]2 = σX
(4.61)
Incidentalmente si noti come nel caso della normale standardizzata la (4.60) e la (4.61) diano luogo a
E (Z) = 0 e Var (Z) = 1. Tramite la (4.59) si può dimostrare
(
) la proprietà di linearità della distribuzione
2
normale: se X è una variabile aleatoria con X ∼ N µX , σX ed a e b sono costanti,
(
)
(
)
1
2
ϕaX+b (u) = eub E euaX = eub ϕX (ua) = exp ub + uaµX + u2 a2 σX
2
da cui si deduce che
(
)
2
aX + b ∼ N aµX + b, a2 σX
(4.62)
104
A. Pollice - Appunti di Probabilità
In altri termini qualsiasi trasformazione lineare aX +b di una variabile aleatoria X distribuita normalmente
2 ha densità normale con media e varianza rispettivamente date da aµ + b e da
con parametri µX e σX
X
2
2
a σX .
Sempre tramite la (4.59) si può dimostrare la proprietà di additività
(
) della distribuzione normale: se
2
X1 , . . . , Xn sono variabili aleatorie indipendenti con Xj ∼ N µXj , σXj per j = 1, . . . , n ed a1 , . . . , an
costanti,
ϕ∑n
j=1
aj Xj
(u) =
=
n
∏
j=1
n
∏
j=1
ϕaj Xj (u) =
exp aj uµXj

n
∑
j=1
n
∑

aj Xj ∼ N 
j=1
n
∑
ϕXj (aj u)
j=1
(
= exp u
da cui si deduce che
n
∏
1
2
+ a2j u2 σX
j
2
1
aj µXj + u2
2
aj µXj ,
j=1
n
∑
n
∑
)

2 
a2j σX
j
j=1

2 
a2j σX
j
(4.63)
j=1
∑
In altri termini una combinazione lineare nj=1 aj Xj di n ≥ 2 variabili aleatorie stocasticamente indipen2 per j = 1, . . . , n, è una variabile aleatoria con
denti distribuite normalmente con parametri µXj e σX
j
∑
∑
2 .
densità normale con media e varianza rispettivamente date da nj=1 aj µXj e da nj=1 a2j σX
j
Si considerino due variabili aleatorie indipendenti X ed Y aventi entrambe densità normale standardizzata. La loro funzione di densità congiunta sia pertanto data dal prodotto delle due densità
y2
x2
1
1 − x2 +y2
1
2
e
,
fX,Y (x, y) = √ e− 2 √ e− 2 =
2π
2π
2π
x ∈ R, y ∈ R
si voglia determinare la funzione di densità della variabile aleatoria continua U =
consideri la trasformazione biunivoca
{
{
X = UA
U=X
Y
=⇒
Y =A
A=Y
X
Y .
A tale proposito si
per la quale lo jacobiano vale |A|. Si noti inoltre che
{
}
{
}
RX,Y = (x, y) ∈ R2 =⇒ RU,A = (u, a) ∈ R2
Pertanto la densità congiunta di U ed A è data dall’espressione
fU,A (u, a) =
2
1
2 u +1
|a| e−a 2 ,
2π
u ∈ R, a ∈ R
quindi la densità marginale della variabile aleatoria U è individuata dall’integrale seguente in cui, dopo
la trasformazione a2 = b, la funzione integranda prende la forma della parte variabile di una densità
esponenziale di parametro (u2 + 1)/2 a meno della costante di normalizzazione
∫ ∞
∫
2
1
1 ∞ −a2 u2 +1
−a2 u 2+1
2 da
fU (u) =
|a| e
ae
da =
2π −∞
π 0
∫ ∞
u2 +1
1
1
2
1 1
=
e−b 2 db =
=
,
u∈R
(4.64)
2
2π 0
2π u + 1
π u2 + 1
Cap.4: Distribuzioni di uso comune
105
La funzione di densità appena determinata, corrispondente al rapporto tra due variabili aleatorie indipendenti con densità normale standardizzata, è detta di Cauchy. Si noti che gli integrali che deﬁniscono i
momenti ordinari di una variabile aleatoria con densità di Cauchy non esistono ﬁniti, pertanto tale variabile aleatoria non risulta dotata dei momenti. Inoltre la forma della funzione di densità è simile a quella
della N (0, 1), con una maggiore dispersione attorno al valore medio. Si può dimostrare che la densità
di Cauchy è ottenibile anche applicando la trasformazione U = tan Z ad una variabile aleatoria Z con
distribuzione uniforme nell’intervallo (0, 2π).
Sia Z una variabile aleatoria continua con densità normale standardizzata. Per ricavare la funzione
di densità della trasformazione non biunivoca X = Z 2 si consideri la funzione di ripartizione FX (x) per
x ∈ R+
(
)
( √
√ )
FX (x) = PZ Z 2 ≤ x = PZ − x ≤ Z ≤ x
∫ √x
∫ √x
2
t2
1
2
− t2
= √
e
dt = √
e− 2 dt
√
2π − x
2π 0
∫ x
1
s
1
= √
s− 2 e− 2 ds
2π 0
da cui risulta che la funzione di densità della variabile aleatoria X ha la forma
1
x
1
fX (x) = √ x− 2 e− 2
2π
(4.65)
Si noti che l’espressione precedente è quella di una densità gamma di parametri 12 e 12 , ovvero quella di una
chi quadrato con g = 1 gradi di libertà. Quanto appena dimostrato, insieme all’additività della densità
gamma, consente di aﬀermare che la somma dei quadrati di g variabili aleatorie indipendenti e aventi
densità normale standardizzata ha a sua volta densità chi quadrato con g gradi di libertà.
Si considerino una variabile aleatoria X con densità N (0, 1) e una variabile aleatoria Y con densità χ2g
stocasticamente indipendenti. La loro funzione di densità congiunta sia pertanto data dal prodotto delle
due densità
( )g
1 − x2 12 2 g −1 − y
fX,Y (x, y) = √ e 2 ( g ) y 2 e 2 ,
x ∈ R, y ∈ R+
Γ 2
2π
si voglia determinare la funzione di densità della variabile aleatoria continua U =
si consideri la trasformazione biunivoca
{
U=
Y
g
=⇒
A=Y
√
per la quale lo jacobiano vale
A
g.
√
{
√X
X=U
√X
Y
g
. A tale proposito
A
g
Y =A
Si noti inoltre che
{
}
{
}
RX,Y = (x, y) ∈ R2 : x ∈ R, y ∈ R+ =⇒ RU,A = (u, a) ∈ R2 : u ∈ R, a ∈ R+
Pertanto la densità congiunta di U ed A è data dall’espressione
fU,A (u, a) =
=
( )g
√
1 − u2g2 a 12 2 g −1 − a a
(g)a2 e 2
√ e
g
Γ 2
2π
[
(
)]
g+1
1
a
u2
−1
2
exp −
1+
,
( ) ga
√
2
g
2πgΓ g2 2 2
u ∈ R, a ∈ R+
106
A. Pollice - Appunti di Probabilità
quindi la densità marginale della variabile aleatoria U è individuata dall’integrale
seguente,
dove la funzione
(
)
g+1
1
u2
integranda ha la forma di una densità gamma di indice 2 e parametro 2 1 + g a meno della costante
di normalizzazione, pertanto
fU (u) =
=
=
1
( ) g
√
2πgΓ g2 2 2
∫
∞
a
[
a
exp −
2
)
g+1
−1
2
0
(
g+1
Γ
2
1
(g) g [ (
√
)] g+1
2πgΓ 2 2 2 1
2
u2
1
+
2
g
)
(
Γ g+1
2
1
(g) (
u∈R
√
) g+1 ,
πgΓ 2
2
u2
1+ g
(
u2
1+
g
)]
da =
(4.66)
La funzione di densità appena determinata, corrispondente al rapporto tra una variabile aleatoria con
densità normale standardizzata e la radice quadrata di una variabile aleatoria indipendente dalla prima ed
avente distribuzione chi quadrato con g gradi di libertà, è detta t di Student con g gradi di libertà. Si noti
che valgono E (U ) = 0 e Var (U ) = g/ (g − 2) se g > 2. Inoltre la forma della funzione di densità è simile
a quella della N (0, 1) con una maggiore dispersione attorno al valore medio e tende ad essa all’aumentare
dei gradi di libertà. L’espressione della funzione di ripartizione della distribuzione t di Student non è nota
in forma esplicita ed i suoi valori calcolati tramite metodi numerici sono tabulati al variare dei gradi di
libertà g.
Si considerino una variabile aleatoria X con densità χ2g e una variabile aleatoria Y con densità χ2h
stocasticamente indipendenti. La loro funzione di densità congiunta sia pertanto data dal prodotto delle
due densità
fX,Y
(1)g
(1)h
g
x+y
h
2
2
y
h
x 2 −1 y 2 −1 e− 2
−1
−
2( ) g2 −1 − x2 2
( ) y 2 e 2 = ( ) ( ) g+h ,
x
e
(x, y) =
Γ g2
Γ h2
Γ g2 Γ h2 2 2
x ∈ R+ , y ∈ R+
si voglia determinare la funzione di densità della variabile aleatoria continua U =
consideri la trasformazione biunivoca
{
per la quale lo jacobiano vale
g
h A.
U = hX
gY
A=Y
{
=⇒
X
g
Y
h
. A tale proposito si
X = hg U A
Y =A
Si noti inoltre che
{
}
{
}
RX,Y = (x, y) ∈ R2 : x ∈ R+ , y ∈ R+ =⇒ RU,A = (u, a) ∈ R2 : u ∈ R+ , a ∈ R+
Pertanto la densità congiunta di U ed A è data dall’espressione
(g
fU,A (u, a) =
=
) g −1
a g
h
a 2 −1 e− 2 ( h u+1) g
a
( ) ( ) g+h
h
Γ g2 Γ h2 2 2
( g ) g g −1 g+h −1 − a ( g u+1)
2
e 2 h
u2 a 2
h
,
( g ) ( h ) g+h
Γ 2 Γ 2 2 2
h ua
2
u ∈ R+ , a ∈ R+
quindi la densità marginale della variabile aleatoria U è individuata dall’integrale
seguente,
dove la funzione
(
)
1 g
integranda ha la forma di una densità gamma di indice g+h
e
parametro
u
+
1
a
meno
della costante
2
2 h
Cap.4: Distribuzioni di uso comune
107
di normalizzazione, pertanto
(g )g
g
∫ ∞
g+h
u 2 −1
a g
a 2 −1 e− 2 ( h u+1) da =
( g ) ( h ) g+h
Γ 2 Γ 2 2 2 0
(
)
( g ) g g −1
g+h
Γ
2
u2
2
h
( g ) ( h ) g+h [ (
)] g+h
Γ 2 Γ 2 2 2 1 gu + 1 2
2 h
(
)
g
(g )g
Γ g+h
2
u 2 −1
2
( ) ( )
u ∈ R+
(g
) g+h ,
h
Γ g2 Γ h2
u+1 2
2
fU (u) =
=
=
h
(4.67)
h
La funzione di densità appena determinata, corrispondente al rapporto tra due variabili aleatorie indipendenti con densità chi quadrato rapportate ai propri gradi di libertà, è detta F di Fisher
con g ed h gradi di]
[ 2
] /[
libertà. Si noti che valgono E (U ) = h/ (h − 2) se h > 2 e Var (U ) = 2h (g + h − 2)
g (h − 2)2 (h − 4)
se h > 4. L’espressione della funzione di ripartizione della distribuzione F di Fisher non è nota in forma
esplicita ed i suoi valori calcolati tramite metodi numerici sono tabulati al variare dei gradi di libertà g ed
h. Si osservi che il quadrato di una variabile aleatoria avente densità t di Student con g gradi di libertà
ha densità F di Fisher con 1 e g gradi di libertà.
Siano Z1 , . . . , Zk variabili aleatorie mutuamente stocasticamente indipendenti aventi tutte densità
normale standardizzata. La funzione di densità congiunta del vettore aleatorio k-dimensionale Z =
(Z1 , . . . , Zk )T è pertanto data dall’espressione


k
k
∏
∑
1 T
2
1
1
1
1
√ e−zj /2 =
fZ1 ,...,Zk (z1 , . . . , zk ) =
zj2  =
z ∈ Rk
exp −
e− 2 z z ,
k/2
k/2
2
2π
(2π)
(2π)
j=1
j=1
dove z = (z1 , . . . , zk )T . Si consideri il vettore aleatorio k-dimensionale X deﬁnito dalla seguente trasformazione lineare tramite la matrice quadrata k × k di costanti C non singolare (ovvero invertibile) ed il
vettore k-dimensionale di costanti b
X = CZ + b =⇒ Z = C −1 (X − b)
per la quale lo jacobiano vale |C|−1 . Si noti inoltre che
{
}
{
}
RZ = z ∈ Rk =⇒ RX = x ∈ Rk
Pertanto per x = (x1 , . . . , xk ), la densità congiunta del vettore aleatorio X è data da
fX1 ,...,Xk (x1 , . . . , xk ) =
=
1
k/2
(2π)
e− 2 [C
1
|C|
−1 (x−b) T C −1 (x−b)
]
−1
1
(2π)k/2 |C|
T
1
T
e− 2 (x−b) (CC )
(x−b)
,
x ∈ Rk
(4.68)
Si noti inoltre che E (Z) = (E (Z1 ) , . . . , E (Zk ))T = (0, . . . , 0)T e che, data l’indipendenza delle componenti
del vettore Z, vale ΣZ = Var (Z) = Ik . Pertanto per il vettore aleatorio X si ha
µX = E (X) = E (CZ + b) = b
ΣX = Var (X) = Var (CZ + b) = CVar (Z) C T = CΣZ C T = CC T
In conclusione sostituendo le due espressioni precedenti nella (4.68) si ha
fX1 ,...,Xk (x1 , . . . , xk ) =
1
k/2
(2π)
e− 2 (x−µX )
1
1/2
|ΣX |
T
Σ−1
X (x−µX )
,
x ∈ Rk
(4.69)
108
A. Pollice - Appunti di Probabilità
La funzione di densità k-dimensionale appena determinata è detta normale k-dimensionale di parametri
µX e ΣX , rispettivamente vettore delle medie e matrice di varianze e covarianze del vettore aleatorio kdimensionale X. Generalmente con X ∼ Nk (µX , ΣX ) si indica che X ha densità normale k-dimensionale
di parametri µX e ΣX . Nel seguito vengono enunciate le principali proprietà della densità normale
multivariata.
1. Linearità. Qualsiasi trasformazione lineare di un vettore aleatorio avente densità normale multivariata ha a sua volta densità normale multivariata. In altri termini se A e a sono rispettivamente
una matrice h × k ed un vettore h-dimensionale di costanti, si ha
(
)
X ∼ Nk (µX , ΣX ) =⇒ AX + a ∼ Nh AµX + a, AΣX AT
(4.70)
2. Additività. Una combinazione lineare di n ≥ 2 vettori aleatori aventi densità normale multivariata
ha a sua volta densità normale multivariata. In altri termini se X1 , . . . , Xn sono
vettori
(
) aleatori
stocasticamente indipendenti con densità normale kj -dimensionale Xj ∼ Nkj µXj , ΣXj per j =
1, . . . , n ed A1 , . . . , An matrici di costanti di dimensioni h × kj per j = 1, . . . , n, si ha


n
n
∑
∑
A1 X1 + · · · + An Xn ∼ Nh 
Aj µXj ,
Aj ΣXj ATj 
j=1
j=1
3. Densità marginali. Le distribuzioni marginali degli elementi di un vettore aleatorio avente densità
normale multivariata hanno a loro volta densità normale univariata. In altri termini si ha
X = (X1 , . . . , Xk )T ∼ Nk (µX , ΣX ) =⇒ Xj ∼ N (µj , σj ) ,
j = 1, . . . , k
(4.71)
dove µj e σj2 sono rispettivamente il j-esimo elemento di µX e il j-esimo elemento della diagonale di
ΣX .
4. Incorrelazione e indipendenza. L’assenza di correlazione tra le componenti di un vettore aleatorio
con densità normale multidimensionale è condizione necessaria e suﬃciente per la loro indipendenza.
In altri termini, se X è un vettore aleatorio
avente)densità normale multivariata con matrice di vari(
anze e covarianze diagonale ΣX = diag σ12 , . . . , σk2 , allora le componenti di X sono stocasticamente
indipendenti e viceversa.
5. Densità condizionate. Le densità condizionate di sottoinsiemi degli elementi di un vettore aleatorio avente densità normale multivariata hanno a loro volte densità normale multivariata.