Funzione Caratteristica, Normale multivariata, convergenze

CAPITOLO 10
Funzione Caratteristica, Normale multivariata,
convergenze
152
10.1 Funzione caratteristica
153
10.1. Funzione caratteristica
La funzione caratteristica è uno strumento teorico utile sotto diversi aspetti
per studiare la distribuzione di probabilità di numeri aleatori discreti e continui.
Dato un numero aleatorio X, discreto o continuo, sia
Y = eitX = cos(tX) + isen(tX),
dove i è l’unità immaginaria e t è un fissato valore reale, e indichiamo con
φX (t) la previsione di Y , che risulta essere una funzione di t. La funzione
φX (t) si chiama funzione caratteristica di X.
Nel caso discreto, posto P (X = xh ) = ph , si ha
X
φX (t) =
ph eitxh ,
h
mentre nel caso continuo, indicando con f (x) la densità di X, si ha
Z +∞
φX (t) =
eitx f (x)dx
−∞
ovvero
Z
+∞
Z
+∞
sin(tx)f (x)dx .
cos(tx)f (x)dx + i
φX (t) =
−∞
−∞
Alcune proprietà:
R +∞
P
(1) φX (0) = 1 , ( h ph = 1 , −∞ f (x)dx = 1);
(2) |φX (t)| ≤ φX (0) = 1 , ∀ t ; Consideriamo il caso in cui X è un
numero aleatorio continuo.
Z
|φX (t)| = +∞
−∞
Z
+∞
=
−∞
√
=
|eitx |
| {z }
itx
e
Z +∞
f (x)dx ≤
|eitx f (x)|dx
−∞
Z +∞
f (x)dx =
f (x)dx = 1
−∞
cos2 (tX)+sin2 (tX)=1
(3) Se Y = aX + b, si ha
φY (t) = P(eitY ) = P(eit(aX+b) ) =
eibt P(eiatX ) = eibt φX (at);
(4) In particolare, se Y = −X, si ha:
φY (t) = φ−X (t) = P(e−itX ) = φX (−t) = φX (t),
dove il numero complesso α + iβ = α − iβ, ovvero il coniugato
di α + iβ. Infatti
φX (t) = P(cos(tX) + i sin(tX)) =
P(cos(tX)) + iP(sin(tX)) =
P(cos(tX)) − iP(sin(tX)) = φX (−t)
G.Sanfilippo
10.1 Funzione caratteristica
154
(5) Se φX (t) è una funzione reale, si ha
φX (−t) = φX (t).
Se φX (t) è una funzione reale, si ha φX (t) = φX (t). Allora
φ−X (t) = φX (−t) = φX (t) e quindi φX (t) è una funzione reale pari.
(6) Se X ha una densità simmetrica rispetto all’asse delle y, cioè
f (x) = f (−x), ∀x ∈ R,
allora X e −X hanno la stessa densità e pertanto si ha φ−X (t) =
φX (t), ovvero φX (t) è reale.
Esempi.
a) Dato un evento E di probabilità p, sia X = |E|. Si ha
φX (t) = φ|E| (t) = peit·1 + qeit·0 = peit + q .
b) Dati n eventi E1 , . . . , En , indipendenti ed equiprobabili di probabilità p,
consideriamo il n.a. X = |E1 | + · · · + |En |. Si ha X ∼ B(n, p); inoltre
φX (t) =
n
X
n X
n h n−h ith
p q
e
=
h
ith
P (X = h)e
h=0
h=0
· · · = (peit + q)n .
c) Sia dato un numero aleatorio X con distribuzione di Poisson di parametro λ. Indicando con pn = P (X = n), si ha
φX (t) =
+∞
X
pn e
itn
=
n=0
+∞ n
X
λ
n=0
n!
−λ itn
e
e
=e
−λ
+∞
X
(λeit )n
n!
n=0
= e−λ e
λeit
λ(eit −1)
=e
.
d) Sia dato un numero aleatorio X con distribuzione geometrica di parametro p, ovvero ph = pq h−1 per h ∈ N. Ricordando che per un numero
complesso |x| < 1 si ha (serie geometrica di ragione x)
∞
X
xh−1 =
h=1
1
,
1−x
otteniamo
φX (t) =
+∞
X
ith
ph e
h=1
= peit
pq h−1 eith =
h=1
+∞
X
h=1
G.Sanfilippo
=
+∞
X
(qeit )h−1 =
peit
.
1 − qeit
10.1 Funzione caratteristica
155
e) Se X ha una distribuzione normale standard, X ∼ N0,1 , si ha
Z +∞
x2
1
φX (t) =
eitx √ e− 2 dx .
2π
−∞
Poichè X ha una densità simmetrica rispetto all’asse y, per la proprietà (6),
si ha che φX (t) è una funzione reale, cioè
Z +∞
x2
1
cos(tx) √ e− 2 dx .
φX (t) =
2π
−∞
Consideriamo la derivata prima di φX (t) (come funzione in t). Si può
dimostrare che
2
− x2
R +∞
φ0X (t) = dtd −∞ cos(tX) √12π e
R +∞
x2
√1 e− 2 dx .
−x
sin(tx)
−∞
2π
dx =
R +∞
d[cos(tX) √1 e−
2π
−∞
x2
2
dt
]
dx =
Risolviamo il precedente integrale (nella variabile x) mediante integrazione
per parti. Poniamo
h(x) = sin(tx) →
d(g(x))
dx
d(h(x))
dx
= t cos(tx)
x2
= −x √12π e− 2 → g(x) =
R
x2
x √12π − e− 2 dx |{z}
=
R
− √12π e−y dy =
2
y= x2
Si ha
φ0X (t) = −
R +∞
−∞
x2
x sin(tx) √12π e− 2 dx =
x2
= [sin(tx) √12π e− 2 ]+∞
−∞ − t
R +∞
−∞
x2
cos(tx) √12π e− 2 dx =
= 0 − tφX (t) = −tφX (t) .
Quindi
φ0X (t)
d
=
log φX (t) = −t ,
φX (t)
dt
da cui segue
t2
log φX (t) = − + c ,
2
ed essendo φX (0) = 1, risulta c = 0.
t2
Quindi: φX (t) = e− 2 (funzione reale e pari).
f) Se X ha una distribuzione normale di parametri m, σ, il n.a. Y =
2
− t2
X−m
σ
ha una distribuzione normale standard e si ha φY (t) = e . Allora, osservando che X = σY + m, applicando la proprietà 3), con a = σ, b = m, si
G.Sanfilippo
2
x
√1 e− 2
2π
10.1 Funzione caratteristica
156
ottiene
σ 2 t2
φX (t) = eimt− 2 .
g) Se X ha una distribuzione esponenziale di parametro λ, si ha
+∞
Z
φX (t) =
eitx λe−λx dx =
0
Z +∞
λ
e−(λ−it)x dx =
=λ
·
λ − it
0
h) X ∼ Gc,λ . Si ha
φX (t) =
=
R +∞
0
c
λ
λ−it
c
λ
xc−1 e−λx dx =
eitx Γ(c)
= [φY (t)]c , (Y ∼ G1,λ = Exp(λ)) .
Calcolo dei momenti.
Per ogni fissato intero k = 1, 2, . . ., la previsione di X k , che indichiamo
con m(k) , si chiama momento di ordine k di X.
T EOREMA 10.1. Se, per un intero positivo k è P(|X|k ) < ∞, allora la
derivata k − esima di φX (t) esiste per ogni t, è continua, e si ha
Z +∞
(k)
(ix)k eitx f (x)dx .
φX (t) =
−∞
Cenno sulla dimostrazione. Ricordiamo che, dato un numero aleatorio
continuo X, con densità f (x), si ha
Z +∞
φX (t) =
eitx f (x)dx .
−∞
Nelle ipotesi del Teorema 10.1 derivando rispetto alla variabile t, si ha
Z +∞
0
φX (t) =
ixeitx f (x)dx ,
Z
−∞
+∞
φ00X (t) =
(ix)2 eitx f (x)dx ,
−∞
........................................
Z
+∞
(k)
φX (t) =
(ix)k eitx f (x)dx .
−∞
........................................
Allora, se esistono i vari momenti di X, si ha
Z +∞
0
φX (0) = i
xf (x)dx = im(1) ,
Z
−∞
+∞
φ00X (0) = i2
x2 f (x)dx = i2 m(2) ,
−∞
........................................
Z
(k)
+∞
φX (0) = ik
xk f (x)dx = ik m(k) .
−∞
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
157
........................................
φ
(k)
(0)
Pertanto, si ha m(k) = Xik . Un ragionamento analogo si può fare se X è
un n.a. discreto. In molti casi, dovendo calcolare m(k) , conviene sfruttare
tale formula anzichè applicare la definizione
Z +∞
(k)
m =
xk f (x)dx ,
−∞
nel caso continuo, oppure
m(k) =
X
pn xkn ,
n
nel caso discreto.
E SEMPIO 10.1. Sia X ∼ N0,1 , si ha
P(X r ) = 0,
r dispari
(2k)!
,
2k k!
r = 2k, k ∈ N.
P(X r ) = P(X 2k ) =
E SERCIZIO 10.1. Sia X un numero aleatorio con distribuzione uniforme in
[a, b], con a < b, verificare che
eitb −eita
, t 6= 0
it(b−a)
φX (t) =
1,
t=0
Sia Y = cX + d, con c > 0, verificare che Y ha distribuzione uniforme in
[ac + d, bc + d].
E SERCIZIO 10.2. Sia X un numero aleatorio con distribuzione uniforme in
[0, 1], verificare che
i
lim φ0X (t) = .
t→0
2
( Sfruttare il fatto che limt→0 φX (t) = 1 ).
E SERCIZIO 10.3. Sia X un numero aleatorio con distribuzione esponenziale di parametro λ > 0 e sia Y = aX, con a > 0, verificare che Y ha
distribuzione esponenziale di parametro λ/a.
10.2. Somma di numeri aleatori stocasticamente indipendenti
La proprietà più importante delle funzioni caratteristiche è la seguente:
dati n numeri aleatori X1 , . . . , Xn stocasticamente indipendenti e posto
Y = X1 + · · · + Xn , si ha
φY (t) = φX1 (t) · φX2 (t) · · · · φXn (t) .
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
158
Consideriamo il caso n = 2. Si ha
φX1 +X2 (t) = P(eit(X1 +X2 ) ) = P(eitX1 eitX2 ) =
P(eitX1 )P(eitX2 ) = φX1 (t)φX2 (t).
|
{z
}
X1 ⊥X2
Ad esempio, dati n eventi E1 , . . . , En , indipendenti ed equiprobabili di
probabilità p, e posto
X1 = |E1 | , . . . , Xn = |En | ,
si ha
φX1 (t) = · · · = φXn (t) = peit + q .
Quindi
φX1 +···+Xn (t) = φX1 (t) · · · · · φXn (t) = (peit + q)n .
Ritroviamo in questo modo la funzione caratteristica del numero aleatorio
|E1 | + · · · + |En |, che ha distribuzione binomiale di parametri n, p.
Altri due aspetti teorici importanti relativi alle funzioni caratteristiche sono:
1. La corrispondenza tra funzioni caratteristiche e distribuzioni di probabilità è biunivoca; quindi la funzione caratteristica φX (t) determina univocamente la distribuzione di probabilità di X.
E SEMPIO 10.2. Ricordando che ad una distribuzione normale di parameσ 2 t2
tri m, σ corrisponde la funzione caratteristica eimt− 2 e quindi, se X ∼
t2
N (x), si ha φX (t) = e− 2 . Allora, se Y = 2X + 3, si ha
2
φY (t) = · · · = e3it−2t ,
e quindi Y ∼ N3,2 .
Altro esempio: se X ∼ Nm1 ,σ1 e Y ∼ Nm2 ,σ2 , con X, Y stocasticamente
indipendenti, si ha
φX (t) = eim1 t−
2 t2
σ1
2
φY (t) = eim2 t−
,
2 t2
σ2
2
.
Inoltre, per il n.a. Z = aX + bY si ha
φZ (t) = · · · = eim3 t−
2 t2
σ3
2
,
con
m3 = am1 + bm2 ,
σ3 =
q
a2 σ12 + b2 σ22 .
Pertanto Z ∼ Nm3 ,σ3 . Si noti che, volendo evitare l’uso della funzione
caratteristica, il calcolo della di- stribuzione di Z richiederebbe un ragionamento pro- babilistico molto più complicato.
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
159
E SEMPIO 10.3. Siano X1 ∼ P(λ1 ) e X2 ∼ P(λ2 ) si ha
φX1 +2 (t) = φX1 (t)φX2 (t) = eλ1 (e
it −1)
it −1)
eλ2 (e
=
(λ1 +λ2 )(eit −1)
e
.
Pertanto X1 + X2 ∼ P(λ1 + λ2 )
E SEMPIO 10.4. La funzione caratteristica di un n.a. X con distribuzione
Gα,λ , cioè con densità,
Gα,λ (x) =
λα α−1 λx
x e , x > 0.
Γ(α)
è data da
φX (t) =
λ
λ − it
α
.
Pertanto dati 2 numeri aleatori X1 , X2 , rispettivamente, con distribuzione
Gα1 ,λ e Gα2 ,λ , si ha X1 + X2 ∼ Gα1 +α2 ,λ .
E SERCIZIO 10.4.
funzione caratteristica di un numero aleatorio discreto
P5 Laeikt
X è φX (t) = k=1 5 . Calcolare la previsione di X.
P(X) =
Soluzione.
Si ha
φ0X (t)
=
5
X
ikeikt
k=1
5
,
da cui segue
φ0X (o) =
5
X
ik
k=1
5
=
i(1 + 2 + 3 + 4 + 5)
= 3i = iP(X) .
5
Pertanto: P(X) = 3 .
E SERCIZIO 10.5. 2La funzione caratteristica di un numero aleatorio X è data
t
da φX (t) = e2it− 2 . Posto Y = X − 2, calcolare la probabilità p dell’evento
(|Y | ≤ 2).
Risp.: p =
Soluzione.
t2
φX (t) = e2it− 2 è la funzione caratteristica di una distribuzione normale di
parametri m = 2, σ = 1. Pertanto Y = X − 2 ha una distribuzione normale
standard. Allora:
p = P (|Y | ≤ 2) = 2Φ(2) − 1 ' 0.9545 .
E SERCIZIO 10.6. Le funzioni caratteristiche di due numeri aleatori X, Y
it
it
indipendenti sono rispettivamente φX (t) = e2(e −1) e φY (t) = e3(e −1) .
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
160
Posto Z = X + Y , calcolare la previsione m di Z.
Risp.: m =
Si ha:
it −1)
φZ (t) = φX (t)φY (t) = e2(e
da cui ricordando che
φ0Z (0)
e3(e
it −1)
it −1)
= e5(e
,
= imZ e osservando che
it −1)
φ0Z (t) = e5(e
it
5eit i,
φ0Z (0) = 5i,
segue: mZ = 5. In effetti, e5(e −1) è la funzione caratteristica di una
distribuzione di Poisson di parametro λ = 5.
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 161
10.3. Distribuzione normale multidimensionale - versione provvisoria
Un vettore aleatorio continuo (X, Y ) ha una distribuzione normale bidimensionale (o doppia) se ha la seguente densità di probabilità
f (x, y) =
1√
2πσ1 σ2 1−ρ2
·e
−
1
2(1−ρ2 )
x−µ1
σ1
2
−2ρ
x−µ1
σ1
y−µ2
σ2
2 y−µ
+ σ 2
2
,
per ogni (x, y) ∈ R2 , dove µ1 , µ2 , σ1 , σ2 , ρ, sono valori reali con σ1 >
0, σ2 > 0, |ρ| < 1.
http://www.unipa.it/sanfilippo/pub/sigad/approfondimenti/
Tale distribuzione gode delle seguenti proprietà:
• f1 (x) = Nµ1 ,σ1 (x) , f2 (y) = Nµ2 ,σ2 (y) , pertanto le previsioni e
gli scarti quadratici medi di X e Y sono rispettivamente µ1 , µ2 e
σ1 , σ2 ;
• f1 (x|y) = Nµ∗1 ,σ1∗ (x) , con
µ∗1 = µ1 + ρ
σ1
(y − µ2 ) ,
σ2
σ1∗ = σ1
p
1 − ρ2 ;
• f2 (y|x) = Nµ∗2 ,σ2∗ (y) , con
p
σ2
(x − µ1 ) , σ2∗ = σ2 1 − ρ2 ;
σ1
R +∞ R +∞
• P(XY ) = −∞ −∞ xyf (x, y)dxdy = · · · = µ1 µ2 + ρσ1 σ2 ,
pertanto ρ rappresenta il coefficiente di correlazione di X e Y ;
• se ρ = 0 risulta f (x, y) = f1 (x)f2 (y), pertanto se X e Y sono
incorrelati, segue che sono indipendenti;
• infine, se i parametri µ1 , µ2 , σ1 , σ2 sono fissati, al variare di ρ si ottengono infinite distribuzioni normali bidimensionali con le stesse marginali Nµ1 ,σ1 (x), Nµ2 ,σ2 (y); il che significa che date le distribuzioni marginali non è possibile determinare la distribuzione
congiunta.
µ∗2 = µ2 + ρ
10.3.1. Distribuzioni marginali. Si ha X ∼ Nµ1 ,σ1 e Y ∼ Nµ2 ,σ2.
1
Dimostriamo che X ∼ Nµ1 ,σ1 . Con la trasformazione lineare u = x−µ
σ1
2
e v = y−µ
, si ha dy = σ2 dv e limy→±∞ v = ±∞. Pertanto si ha,
σ2
Z
σ2
p
f1 (x) =
f (x, y)dy =
2πσ1
σ2 1 − ρ2
R
Z
e
−
1
[u2 −2ρuv+v 2 ]
2(1−ρ2 )
dv.
R
Osservando che
u2 − 2ρuv + v 2 = u2 − ρ2 u2 + (v − ρu)2 = u2 (1 − ρ2 ) + (v − ρu)2
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 162
f1 (x) si può scrivere come segue
Z
1
1
−
[u2 (1−ρ2 )+(v−ρu)2 ]
p
f1 (x) =
e 2(1−ρ2 )
dv.
2πσ1 1 − ρ2 R
2
1 2 Z
− 12 √v−ρu2
1
e− 2 [u ]
1−ρ
dv .
=√
e
√ p
2πσ1 R 2π 1 − ρ2
|
{z
}
=1
=√
1
e
2πσ1
− 12
x−µ1
σ1
2
.
Pertanto X ∼ Nµ1 ,σ1 . Procedendo in maniera analoga, ma scambiando x
con y, si ricava che
Z
y−µ2 2
1
− 12
σ
2
f2 (y) =
f (x, y)dy = √
e
2πσ2
R
ovvero Y ∼ Nµ2 ,σ2 . Quindi si ha che
µ1 = P(X), µ2 = P(Y ), σ12 = var(X), σ22 = var(Y ).
10.3.2. Distribuzioni marginali condizionate. Calcoliamo la densità
di probabilità di Y dato X = x.
f (x, y)
=
f2 (y|x) =
f1 (x)
√
=
1
√
2πσ2
=√
−
1√
2πσ1 σ2 1−ρ2
−
1−ρ2
·e
1
2(1−ρ2 )
·e
x−µ1
σ1
2 2
h
i2 x−µ
y−µ2
x−µ
− σ 1 ρ2 +
− σ 1 ρ
σ
1
1
2
x−µ1 2
− 12
σ1
e
h
i2 y−µ2
x−µ1
−
ρ
2
σ
σ
1
−
1
p
e 2(1−ρ
2πσ2 1 − ρ2
− 12

1
p
e
2πσ2 1 − ρ2
2
)
2
1
σ2
2 −ρ σ1 (x−µ1 )
σ2 (1−ρ2 )
#2 

.

Se poniamo µ∗2 = µ2 + ρ σσ12 (x − µ1 ) e σ2∗ = σ2
− 12
1
f2 (y|x) = √
e
2πσ2∗
y−µ∗
2
∗
σ2
1
=
=
p
(1 − ρ2 ) si ha
2
, ∀y ∈ R.
Pertanto, per ogni fissato x ∈ R, si ha f2 (y|x) = Nµ∗2 ,σ2∗ (y) , con
p
σ2
µ∗2 = µ2 + ρ (x − µ1 ) , σ2∗ = σ2 1 − ρ2 .
σ1
G.Sanfilippo
1
=
x−µ1 2
−1
σ1
√ 1 e 2
2πσ1
h
i2 x−µ1 2
y−µ2
x−µ1
2
(1−ρ
)+
−
ρ
σ
σ
σ
"
 y−µ
=√
1
2(1−ρ2 )
10.3 Distribuzione normale multidimensionale - versione provvisoria 163
In maniera analoga si dimostra che, per ogni fissato x ∈ R, si ha f1 (x|y) =
Nµ∗1 ,σ1∗ (x) , con
p
σ1
µ∗1 = µ1 + ρ (y − µ2 ) , σ1∗ = σ1 1 − ρ2 .
σ2
Concludendo si ha
µ∗1 = P(Y |x) = µy (x), µ∗2 = P(X|y) = µx (y)
cioè µ∗1 = µy (x) è proprio la funzione di regressione di X su Y e µ∗2 =
µx (y) è proprio la funzione di regressione di Y su X.
Poichè la curva di regressione di Y su X è una retta essa coincide con la
retta di regressione. Pertanto ρ coincide con il coefficiente di correlazione
lineare di X e Y (per la dimostrazione analitica vedi dall’Aglio pag 144).
In particolare, osserviamo che se ρ = 0 si ha
f2 (y|x) ≡ f2 (y), f1 (y|x) ≡ f1 (y).
Quindi, dato un vettore aleatorio (X, Y ) con distribuzione normale bidimensionale si ha
X, Y stocasticamente indipendenti ⇔ X, Y sono incorrelati
10.3.3. Matrice delle varianze e covarianze. Osserviamo che la matrice delle varianze-covarianze del vettore (X, Y ) è data da
2
ρσ1 σ2
σ11 σ12
σ1
Σ2 =
=
,
σ21 σ22
ρσ1 σ2 σ22
e si ha
detΣ2 = |Σ2 | = · · · = σ12 σ22 (1 − ρ2 ) ,
2
1
−ρσ1 σ2
σ2
−1
Σ2 =
.
detΣ2 −ρσ1 σ2 σ12
Allora, com’è possibile verificare, la densità congiunta si può rappresentare
nella forma matriciale seguente
f (x, y) =
1
1
p
e− 2 A(x−µ1 ,y−µ2 ) ,
2π |Σ2 |
dove
A(x − µ1 , y − µ2 ) = (x − µ1 , y − µ2 ) ·
Σ−1
2
·
x − µ1
y − µ2
.
In generale, dato un vettore aleatorio continuo X = (X1 , . . . , Xn ), sia Σn la
matrice delle varianze-covarianze di X. Si dice che X ha una distribuzione
normale n−dimensionale se la densità congiunta è data da
f (x1 , . . . , xn ) =
G.Sanfilippo
1
1
√
e− 2 A(x1 −µ1 ,...,xn −µn ) ,
(2π) detΣn
n
2
10.3 Distribuzione normale multidimensionale - versione provvisoria 164
dove
A(x1 − µ1 , . . . , xn − µn ) =


x1 − µ1

···  .
= (x1 − µ1 , . . . , xn − µn ) · Σ−1
n ·
xn − µn
In forma matriciale e vettoriale si ha
1
|Σn |− 2 − 1 (x−µ)·Σ−1
t
n ·(x−µ)
2
f (x1 , . . . , xn ) =
,
n e
2
(2π)
dove
x = (x1 , x2 . . . , xn ), µ = (µ1 , µ2 . . . , µn ).
La distribuzione normale n−dimensionale gode di proprietà simili a quella
bidimensionale; in particolare
Xi ∼ Nµi ,σi , i = 1, . . . , n .
Inoltre, se per ogni i 6= j si ha σij = 0, la matrice delle varianze-covarianze
diventa diagonale e la densità congiunta coincide con il prodotto delle densità marginali, ovvero i numeri aleatori X1 , . . . , Xn sono stocasticamente
indipendenti.
Costruzione di una variabile aleatoria normale multidimensionale.*
Dati n numeri aleatori X1 , X2 , . . . , Xn indipendenti e identicamente distribuiti con distribuzione normale standard (Xi ∼ N0,1 ) sia X = (X1 , X2 , . . . , Xn )
il vettore aleatorio congiunto. Ovviamente la densità di X è data da
fX (x1 , . . . , xn ) =
1
− 12 x·xt
.
n e
(2π) 2
In tal caso X ha una distribuzione normale multidimensionale con matrice
delle varianze e covarianze la matrice Identità n × n .
Consideriamo una trasformazione lineare di X. Sia
n×1
n×n
n×1
n×1
z}|{ z}|{ z}|{ z}|{
Y = A · X + µ
con A una matrice n × n con |A| =
6 0 e µ un vettore (colonna?). Si ha che
le componenti di Y sono
Y1 = a11 X1 + a12 X2 + . . . + a1n Xn + µ1 ;
..
.
Yi = ai1 X1 + ai2 X2 + . . . + ain Xn + µi ;
..
.
Yn = an1 X1 + an2 X2 + . . . + ann Xn + µn .
Inoltre, essendo A invertibile, si ha
X = (Y − µ)A−1 .
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 165
Poichè
Cov(Yi , Yj ) = Cov(a
i1 X1 + ai2 X2 + . . . + ain Xn , aj1 X1 + aj2 X2 + . . . + ajn Xn ) =
Pn P
n
=
h=1
k=1 aih ajk cov(Xh , Xk ) =
= ai1 aj1 + ai2 aj2 + . . . + ain ajn =
= ai · aj t
si ha che la matrice varianze-covarianze di Y è
ΣY = A · At .
Si dimostra che Y ha una distribuzione normale multivariata con densità
1
|ΣY |− 2 − 1 (y−µ)·Σ−1
t t
Y ·(y−µ) ) .
2
f (y1 , . . . , yn ) =
n e
(2π) 2
E SERCIZIO 10.7. Dati 2 numeri aleatori X1 , X2 indipendenti e identicamente distribuiti con distribuzione normale standard e definiti
Y1 = X1 + X2 + 1; Y2 = X1 − X2 − 1
determinare la densità Y1 e la densità di Y2 .
Poichè X1 , X2 sono stocasticamente indipendenti si ha
1 0
ΣX =
0 1
Inoltre sappiamo che (Y1 , Y2 ) ha una distribuzione normale bidimensionale.
Determiniamone la densità. Poichè
1 1
A=
1 −1
e |A| = −2 segue che la matrice varianze-covarianze di Y è
2 0
t
ΣY = A · A =
0 2
Quindi, Y1 , Y2 sono stocasticamente indipendenti con distribuzione, rispettivamente, Y1 ∼ N1,√2 e Y2 ∼ N−1,√2 .
G.Sanfilippo
10.4 Convergenze
166
10.4. Convergenze
10.4.1. Convergenza in legge o in distribuzione.
D EFINIZIONE 10.1 (Convergenza in legge o in distribuzione). Una successione di distribuzioni con funzioni di ripartizione F1 (x), F2 (x), . . . converge
ad una distribuzione se esiste una funzione di ripartizione, F (x), tale che
lim Fn (x) = F (x), in ogni punto di continuità di F (x)
n→∞
Se indichiamo con X1 , X2 , . . . la successione dei numeri aleatori con funzione di ripartizione F1 (x), F2 (x), . . . e con X un numero aleatorio con
funzione di ripartizione F (X), se Fn converge in distribuzione a F scriveremo
L
d
Xn → X, (Xn → X)
e diremo che Xn converge in legge (o debolmente) a X.
Tale tipo di convergenza si suole dire convergenza debole. Notare che viene
richiesta la convergenza delle funzioni distribuzioni soltanto nei punti di
continuità per F .
E SEMPIO 10.1. Consideriamo una successione di numeri aleatori X1 , X2 , . . . , Xn , . . .
con funzione di ripartizione del generico Xn definita da

(−1)n
 0 x< n ,
Fn (x) =
n

1 x ≥ (−1)
.
n
Sia X un numero aleatorio con funzione di ripartizione data da

 0 x < 0,
F (x) =
 1 x ≥ 0.
L
Verificare se Xn → X. Distinguiamo tre casi.
n
(1) Sia x < 0. Si ha F (x) = 0. Poichè limn→∞ (−1)
= 0 esiste un nx tale
n
che
(−1)n
x<
, ∀n > nx .
n
Allora si ha Fn (x) = 0 = F (x) per n > nx , cioè Fn (x) → F (x).
n
(2) Sia x > 0. Poichè limn→∞ (−1)
= 0 esiste un nx tale che
n
(−1)n
, ∀n > nx .
n
Allora si ha Fn (x) = 1 = F (x) per n > nx , cioè Fn (x) → F (x).
(3) Sia x = 0. In tal caso F2k (0) = 0, F2k+1 (0) = 1 pertanto Fn (0) non ha
limite. Osserviamo che però il punto x = 0 non è di continuità per F (x).
L
Quindi Fn (x) → F (x) in ogni punto di continuità per F (X), cioè Xn → X.
x>
G.Sanfilippo
10.4 Convergenze
167
T EOREMA 10.2. Indicando con ψ la funzione caratteristica corrispondente
ad F , la successione F1 , . . . , Fn , . . . converge in distribuzione ad F se e solo
se la corrispondente successione di funzioni caratteristiche ψ1 , . . . , ψn , . . .
converge a ψ. In breve
Fn (x) → F (x) ⇐⇒ ψn (t) → ψ(t)
Tale risultato teorico permette di dimostrare il Teorema centrale del limite.
10.4.2. Teorema centrale del limite. Data una successione di numeri
aleatori X1 , . . . , Xn , . . ., indipendenti ed ugualmente distribuiti, con P(Xi ) =
m, Var(Xi ) = σ 2 , si consideri la successione delle medie aritmetiche
X1 + X 2
X1 + · · · + Xn
Y1 = X1 , Y2 =
, Yn =
, ... ,
2
n
e quella delle medie aritmetiche ridotte Z1 , . . . , Zn . Ovviamente P(Yn ) =
2
√ . Indicando con Fi la funzione di
m, Var(Yn ) = σn e quindi Zn = Yσ/n −m
n
ripartizione di Zi , la successione F1 , . . . , Fn , . . . converge alla funzione di
ripartizione (di una distribuzione normale standard) Φ0,1 , ovvero si ha
lim Fn (z) = lim P (Zn ≤ z) = Φ(z) , ∀ z ∈ R .
n→+∞
n→+∞
Il risultato precedente si ottiene dimostrando che la successione ψ1 , . . . , ψn , . . .
(di funzioni caratteristiche dei numeri aleatori Z1 , . . . , Zn , . . .) converge alla
t2
funzione caratteristica (della distribuzione normale standard) ψ(t) = e− 2 .
T EOREMA 10.3 (Teorema centrale del limite). Data una successione di n.
a. X1 , . . . , Xn , . . ., indipendenti ed ugualmente distribuiti, con P(Xi ) = m,
Var(Xi ) = σ 2 < +∞, e posto
Y1 = X1 , Y 2 =
Z1 =
Y1 −m
σ
X1 +X2
2
, Z2 =
, . . . , Yn =
Y2 −m
√
σ/ 2
X1 +···+Xn
n
, . . . , Zn =
si ha
Z
,... ,
z
lim P (Zn ≤ z) = Φ(z) =
n→+∞
Yn −m
√
σ/ n
, ... ,
N (t)dt , ∀ z ∈ R ;
−∞
ovvero, la successione Z1 , . . . , Zn , . . . converge in legge ad un n. a. Z con
distribuzione normale standard.
D IMOSTRAZIONE . Dim.: si ha
X
n n
Yn − m
1 X Xh − m
U
√ =√
√h ,
Zn =
=
σ
σ/ n
n h=1
n
h=1
con P(Un ) = 0 , V ar(Un ) = 1 , ∀ n.
I n. a. standardizzati U1 , . . . , Un , . . . sono indipendenti ed ugualmente
distribuiti; indicando con ψ(t) la loro funzione caratteristica, si ha
ψ(t) = ψ(0) + ψ 0 (0) t +
G.Sanfilippo
ψ 00 (0) 2
t2
t + ··· = 1 − + ··· ;
2!
2
10.4 Convergenze
168
Uh it √
inoltre: ψ √Uh (t) = P e n = ψ √tn =
n
t2
t2
=1−
+ ··· = 1 −
+o
2n
2n
ψZn (t) = ψP
h
U
√h
n
1
,
n
(t) = Πnh=1 ψ √Uh (t) =
n
n n
t
t
= 1+ψ √
−1 ;
= ψ √
n
n
P
n+1 z n
ricordiamo che: log(1 + z) = ∞
=
n=1 (−1)
n
z2
+ · · · = z + o(z) ' z (z ' 0) ;
2
h
in
t
√
quindi: log ψZn (t) = log 1 + ψ n − 1 =
t
t
= n log 1 + ψ √
−1 'n ψ √
−1 =
n
n
1
t2
t2
=− +no
−→ − ;
2
n
2
allora:
=z−
t2
lim ψZn (t) = elimn→∞ log ψZn (t) = e− 2 .
n→∞
Osservazione. La variabile aleatoria Zn , cioè la media aritmetica di
X1 , X2 , . . . , Xn standardizzata, coincide con la somma Sn = X1 + X2 +
. . . + Xn standardizzata, ovvero
Zn =
X1 +X2 +...+Xn
−m
n
√σ
n
=
X1 +X2 +...+X
n −nm
√
σ n
Sn −P(Sn )
=√
.
V ar(Sn )
Pertanto, possiamo dire che la successione delle somme aleatorie standarSn −P(Sn )
dizzate √
converge in distribuzione ad una variabile aleatoria con
V ar(Sn )
distribuzione normale standard. In sintesi
Sn −P(Sn )
≤ z) −→
P (Zn ≤ z) = P ( √
V ar(Sn )
n→∞
Rz
−∞
1 2
√1 e− 2 x dx
2π
E SEMPIO 10.5 (Processo Bernoulliano). Consideriamo una successione di
eventi E1 , E2 , . . . , En , . . . indipendenti ed equiprobabili, con probabilità
P (En ) = p. Sia Xi = |Ei |, i ∈ N . Si ha P(Xi ) = p, σ 2 (Xi ) = p(q − p).
Per ogni n ∈ N poniamo
Sn = X1 + X2 + · · · Xn = |E1 | + |E2 | + · · · |En | .
G.Sanfilippo
10.4 Convergenze
169
Si ha che Sn ∼ Bin(n, p) e quindi P(Sn ) = np e σ 2 (Sn ) = np(1 − p). Per
il teorema centrale del limite possiamo concludere
!
Sn − np
P p
< x → Φ0,1 (x).
n→∞
np(1 − p)
Quindi, per n grande, la distribuzione del numero aleatorio (delle frequenze
ridotte)
S − np
p n
np(1 − p)
si può approssimare con una normale standard.
E SERCIZIO 10.8. Da un’urna contenente 1 pallina bianca e 19 nere si effettuano 200 estrazioni con restituzione. Sia Ei l’evento ”la i − esima pallina
estratta è bianca”, i ∈ {1, 2, . . . , 200}. Sia S200 il numero aleatorio di palline bianche estratte. Calcolare mediante un’opportuna approssimazione
P (5 ≤ S200 ≤ 15).
E SEMPIO 10.2. Sia X sin Bin(n, p), con n = 40, p = 21 . Calcolare,
mediante un’opportuna approssimazione, P (X = 20). Si ha
P (X = 20) = P (19.5 < X < 20.5) =
= P (−0.16 < Z < 0.16) ' 2Φ0,1 (0.16) − 1 = 0.1272 .
Osserviamo che
40 1
= 0.1253 .
P (X = 20) =
20 240
E SEMPIO 10.3. Siano X1 , X2 , . . . , Xn , . . . una successione di variabili aleatoriP
indipendenti e identicamente distribuiti con Xi ∼ U ([0, 1]). Calcolare
P ( 10
i=1 Xi > 7) mediante un’opportuna approssimazione.
1
Ricordiamo che P(Xi ) = 12 e V ar(Xi ) = 12
. Utilizzando il Teorema
centrale del limite si ha
P
10
P10
Xi −5
7−5
i=1
√ 10 > √ 10 ' 1 − Φ0,1 (2.19)
P ( i=1 Xi > 7) = P
12
G.Sanfilippo
12
10.4 Convergenze
170
10.4.3. Convergenza in Probabilità.
D EFINIZIONE 10.2. Data una successione X1 , X2 , . . . , Xn , . . . di numeri
aleatori e un numero aleatorio X diremo che Xn tende in probabilità a X e
scriveremo
P
Xn → X
(100)
se fissati comunque due numeri positivi , θ è possibile determinare un
intero n,θ , tale che per ogni n > n,θ risulti
P (|Xn − X| ≥ ) < θ
(101)
o, in altri termini, se
∀ > 0 lim P (|Xn − X| ≥ ) = 0
(102)
n→∞
Nel caso di vettori aleatori con dimensioni k maggiori di 1 la disuguaglianza
|Xn − X| vale componente per componente.
P
Significato geometrico per k = 1. Dire che Xn → X equivale a dire che la
probabilità della striscia |Xn − X| < qualunque sia l’ampiezza (2) tende
a 1 o equivalentemente che la probabilità della parte di piano |Xn − X| ≥ tende a 0.
10.4.4. Convergenza Quasi certa. Una successione di variabili aleatorie {Xn (ω)} rappresenta una successione di funzioni misurabili da (Ω, F)
in (R, B1 ). Per tale successione un’usuale convergenza matematica è quella
puntuale, cioè
Xn (ω) → X, ∀ω ∈ Ω
ovvero (se come distanza consideriamo quella euclidea)
∀ > 0, ∃m : |Xn (ω) − X(ω)| < per n > m.
Una convergenza del genere però è troppo forte per le variabili aleatorie,
visto che siamo interessati allo studio delle probabilità. Pertanto la convergenza sarà sufficiente anche se non si realizza in alcuni punti, purchè questi
formino un insieme di misura trascurabile.
D EFINIZIONE 10.3 (Convergenza quasi certa.). Data una successione di
v.a. {Xn } e una v.a. X, diremo che Xn converge quasi certamente a X se
l’evento Xn (ω) → X(ω) è quasi certo, ovvero se
P (Xn → X) = P ({ω ∈ Ω : Xn (ω) → X(ω)}) = 1
q.c.
In tal caso si scrive Xn → X, oppure che Xn tende a X con probabilità 1.
La convergenza q.c. di Xn ad una v.a. X significa prendere in considerazione in una “prova” (ipotetica) i valori assunti dalle infinite v.a. Xn e vedere
se questi convergono al valore assunto dalla v.a. X: tale evento deve avere
probabilità 1.
Caratterizzazione della convergenza quasi certa ,
G.Sanfilippo
10.4 Convergenze
171
q.c.
T EOREMA 10.1. Xn → X se e solo se
∞
\
∀ > 0, lim P ( |Xr − X| < ) = 1
n→∞
r=n
Pertanto una definizione alternativa di convergenza quasi certa potrebbe
essere la seguente .
D EFINIZIONE 10.4. Data una successione di v.a. {Xn } e una v.a. X, diremo che Xn converge quasi certamente a X se, fissati due numeri positivi
, θ, è possibile determinare un intero n,θ , tale che per ogni n > n,θ risulti
+∞
[
P
|Xr − X| ≥ < θ.
r=n
Fissati, in altri termini, arbitrariamente e θ debbonorisultare minori di θ,
per n > n,θ , non solo le probabilità, P |Xn −X| ≥ , che ciascuno singolarmente degli scarti sia non inferiore a (come richiesto dalla convergenza
in probabilità), ma anche le probabilità che anche uno solo su tutti gli scarti
|Xn − X| da n,θ in poi sia non inferiore a .
Si dimostra il seguente
q.c.
P
T EOREMA 10.2. Se Xn → X allora Xn → X.
Il viceversa non vale. Si possono costruire alcuni controesempi. In definitiva la relazione che sussiste, solo in un verso, tra le verie convergenze, è la
seguente.
q.c.
P
L
X n → X ⇒ Xn → X ⇒ Xn → X
10.4.5. Applicazione - Legge dei grandi numeri. Sia X1 , X2 , . . . , Xn , . . .
una successione di variabili aleatorie i.i.d, con P(Xn ) = µ e var(Xn ) = σ 2
finite.
Consideriamo la successione delle medie aritmetiche
n
X
Xn =
Xi /n.
i=1
2
Si ha P(X n ) = µ e var(X n ) = σ /n. Pertanto la media aritmetica avrà una
distribuzione centrata su µ che al tendere di n all’infinito avrà una varianza
infinitesima var(X n ) = σ 2 /n → 0, ovvero sempre più concentrata su µ.
Osserviamo che per trovare la distribuzione di X n bisognerebbe fare n − 1
convoluzioni.
Proviamo che
P
Xn → X ⇒
la successione X n converge in probabilità al numero aleatorio X = µ.
Per la disuguaglianza di Cebicev si ha
P (|X n − µ| > ) ≤
G.Sanfilippo
var(X n )
2
10.4 Convergenze
172
ma var(X n ) = σ 2 /n → 0 pertanto si ha
∀ > 0 lim P (|X n − µ| > ) = 0.
n→∞
Tale risultato prende il nome di Legge (debole) dei grandi numeri. Ad esempio è utile per stimare la vera misura di una lunghezza, dopo aver effettuato
diverse misure, si può considerare come vera misura la media aritmetica.
In particolare tale risultato prende anche il nome di Teorema di Bernoulli,
in quanto nella sua prima forma fu dimostrato da Bernoulli.
Sia X1 , X2 , . . . , Xn , . . . una successione di variabili aleatorie bernoulliane
i.i.d, con P(Xn ) = p e var(Xn ) = p(1 − p) finite. Ovvero
1, con P (Xn = 1) = p
Xn =
0, con P (Xn = 0) = 1 − p = q
In tal caso la successione delle medie aritmetiche diviene la frequenza relativa fn di successo su n prove e il teorema diviene
∀ > 0 lim P (|fn − p| > ) = 0.
n→∞
Cioè la frequenza relativa di successo converge in probabilità alla probabilità p di successo.
P
Un altro importante risultato dovuto a Bernoulli, indicando con Sn = ni=1 Xi
la frequenza assoluta, è il seguente
∀k > 0 lim P (|Sn − np| > k) = 1.
n→∞
Cioè il numero di Sn − np tende in probabilità all’infinito. Possiamo pertanto dire che, in riferimento al lancio di una moneta, se si fanno un numero elevati di lanci la frequenze relativa di T esta sarà, con probabilità alta,
vicina a 1/2, ma la frequenza assoluta, cioè il numero di T esta, sarà probabilmente lontano da n/2. Se ad ogni lancio si vince 1 se esce T esta e −1
se esce Croce, allora dopo un numero elevato di lanci la vincita (positiva o
negativa) sarà lontana da zero.
10.4.6. Convergenza in Legge e convergenza in Probabilità.
P
L
T EOREMA 10.3. Se Xn → X allora Xn → X. Inoltre se X = a con
L
P
probabilità 1 vale il viceversa, cioè se Xn → X allora Xn → X
Il precedente teorema dimostra che la convergenza in probabilità è più forte
della convergenza in legge, tranne per variabili degenere. In generale la
convergenza in legge non implica la convergenza in probabilità. Vediamo
un controesempio.
E SEMPIO 10.4. Sia X1 , X2 , . . . , Xn , . . . una successione di variabili aleatorie indipendenti e uniformemente distribuite in (0, 1) e sia X una variabile
G.Sanfilippo
10.4 Convergenze
173
aleatoria con distr. unif. sempre in (0, 1) Essendo tutte le variabili in gioco con stessa distribuzione tutte avranno come funzione di ripartizione la
funzione Fn = F definita come

 0, se x ≤ 0,
x, se 0 ≤ x < 1,
F (x) =

1, se x ≥ 1.
Quindi Xn converge in legge a X. Proviamo che non c’è convergenza in
probabilità. Osserviamo che la densità marginale f (xn , x) è
1, se (xn , x) ∈ Q1 ,
fn (xn , x) =
0, altrimenti
avendo indicato con Q1 il quadrato unitario, Q1 = {(x, y) : 0 ≤ x ≤ 1, 0 ≤
y ≤ 1}. Consideriamo l’evento |Xn − X| > si ha
P (|Xn − X| > ) = (1 − )2
cioè fissato la quantità P (|Xn − X| > ) rimane costante al crescere di n,
quindi
P
Xn 9 X.
E SERCIZIO 10.1. Sia {Xn ∼ U (0, 1/n), n ∈ N} una successione di variabili aleatorie ( delta di Dirac), provare che Xn converge sia in legge che in
probabilità a X = 0
10.4.7. Convergenza in Media. Dato un numero reale r > 0, diciamo
che Xn tende a X in media r − esima, e scriviamo
m.r.
Xn → X.
se
P(|Xn − X|r ) → 0.
Per r = 2 si parla di convergenza in media quadratica. Inoltre tale convergenza, poichè prende in considerazione i valori medi, richiede che essi
siano finiti.
Ricordiamo che la disuguaglianza di Cebicev (Markov). Per r > 0, > 0,
si ha
P(|X|r )
P (|X| > ) ≤
,
r
pertanto possiamo dimostrare che
T EOREMA 10.4.
m.r.
P
Xn → X ⇒ Xn → X,
infatti
∀, P (|Xn − X| > ) ≤
G.Sanfilippo
P(|Xn − X|r )
→0
r
10.4 Convergenze
174
E SEMPIO 10.5. Nell’inferenza statistica classica (oltre alla correttezza) si
dice che uno stimatore Yn è consistente se tende in probabilità alla grandezza η da stimare.
Se P(Yn ) = η, cioè lo stimatore è corretto, si ha
P((Yn − η)2 ) = P((Yn − P(Yn ))2 ) = var(Yn )
quindi se la var(Yn ) → 0 segue che
m.q.
Yn → η.
e per il Teorema 10.4 si ha
P
Yn → η
cioè lo stimatore è consistente.
Pertanto la media campionaria X n (per variabili con momenti di ordine 2
finiti) è uno stimatore corretto e consistente della media.
G.Sanfilippo