Funzione Caratteristica, Normale multivariata, convergenze

annuncio pubblicitario
CAPITOLO 10
Funzione Caratteristica, Normale multivariata,
convergenze
152
10.1 Funzione caratteristica
153
10.1. Funzione caratteristica
La funzione caratteristica è uno strumento teorico utile sotto diversi aspetti
per studiare la distribuzione di probabilità di numeri aleatori discreti e continui.
Dato un numero aleatorio X, discreto o continuo, sia
Y = eitX = cos(tX) + isen(tX),
dove i è l’unità immaginaria e t è un fissato valore reale, e indichiamo con
φX (t) la previsione di Y , che risulta essere una funzione di t. La funzione
φX (t) si chiama funzione caratteristica di X.
Nel caso discreto, posto P (X = xh ) = ph , si ha
X
φX (t) =
ph eitxh ,
h
mentre nel caso continuo, indicando con f (x) la densità di X, si ha
Z +∞
φX (t) =
eitx f (x)dx
−∞
ovvero
Z
+∞
Z
+∞
sin(tx)f (x)dx .
cos(tx)f (x)dx + i
φX (t) =
−∞
−∞
Alcune proprietà:
R +∞
P
(1) φX (0) = 1 , ( h ph = 1 , −∞ f (x)dx = 1);
(2) |φX (t)| ≤ φX (0) = 1 , ∀ t ; Consideriamo il caso in cui X è un
numero aleatorio continuo.
Z
|φX (t)| = +∞
−∞
Z
+∞
=
−∞
√
=
|eitx |
| {z }
itx
e
Z +∞
f (x)dx ≤
|eitx f (x)|dx
−∞
Z +∞
f (x)dx =
f (x)dx = 1
−∞
cos2 (tX)+sin2 (tX)=1
(3) Se Y = aX + b, si ha
φY (t) = P(eitY ) = P(eit(aX+b) ) =
eibt P(eiatX ) = eibt φX (at);
(4) In particolare, se Y = −X, si ha:
φY (t) = φ−X (t) = P(e−itX ) = φX (−t) = φX (t),
dove il numero complesso α + iβ = α − iβ, ovvero il coniugato
di α + iβ. Infatti
φX (t) = P(cos(tX) + i sin(tX)) =
P(cos(tX)) + iP(sin(tX)) =
P(cos(tX)) − iP(sin(tX)) = φX (−t)
G.Sanfilippo
10.1 Funzione caratteristica
154
(5) Se φX (t) è una funzione reale, si ha
φX (−t) = φX (t).
Se φX (t) è una funzione reale, si ha φX (t) = φX (t). Allora
φ−X (t) = φX (−t) = φX (t) e quindi φX (t) è una funzione reale pari.
(6) Se X ha una densità simmetrica rispetto all’asse delle y, cioè
f (x) = f (−x), ∀x ∈ R,
allora X e −X hanno la stessa densità e pertanto si ha φ−X (t) =
φX (t), ovvero φX (t) è reale.
Esempi.
a) Dato un evento E di probabilità p, sia X = |E|. Si ha
φX (t) = φ|E| (t) = peit·1 + qeit·0 = peit + q .
b) Dati n eventi E1 , . . . , En , indipendenti ed equiprobabili di probabilità p,
consideriamo il n.a. X = |E1 | + · · · + |En |. Si ha X ∼ B(n, p); inoltre
φX (t) =
n
X
n X
n h n−h ith
p q
e
=
h
ith
P (X = h)e
h=0
h=0
· · · = (peit + q)n .
c) Sia dato un numero aleatorio X con distribuzione di Poisson di parametro λ. Indicando con pn = P (X = n), si ha
φX (t) =
+∞
X
pn e
itn
=
n=0
+∞ n
X
λ
n=0
n!
−λ itn
e
e
=e
−λ
+∞
X
(λeit )n
n!
n=0
= e−λ e
λeit
λ(eit −1)
=e
.
d) Sia dato un numero aleatorio X con distribuzione geometrica di parametro p, ovvero ph = pq h−1 per h ∈ N. Ricordando che per un numero
complesso |x| < 1 si ha (serie geometrica di ragione x)
∞
X
xh−1 =
h=1
1
,
1−x
otteniamo
φX (t) =
+∞
X
ith
ph e
h=1
= peit
pq h−1 eith =
h=1
+∞
X
h=1
G.Sanfilippo
=
+∞
X
(qeit )h−1 =
peit
.
1 − qeit
10.1 Funzione caratteristica
155
e) Se X ha una distribuzione normale standard, X ∼ N0,1 , si ha
Z +∞
x2
1
φX (t) =
eitx √ e− 2 dx .
2π
−∞
Poichè X ha una densità simmetrica rispetto all’asse y, per la proprietà (6),
si ha che φX (t) è una funzione reale, cioè
Z +∞
x2
1
cos(tx) √ e− 2 dx .
φX (t) =
2π
−∞
Consideriamo la derivata prima di φX (t) (come funzione in t). Si può
dimostrare che
2
− x2
R +∞
φ0X (t) = dtd −∞ cos(tX) √12π e
R +∞
x2
√1 e− 2 dx .
−x
sin(tx)
−∞
2π
dx =
R +∞
d[cos(tX) √1 e−
2π
−∞
x2
2
dt
]
dx =
Risolviamo il precedente integrale (nella variabile x) mediante integrazione
per parti. Poniamo
h(x) = sin(tx) →
d(g(x))
dx
d(h(x))
dx
= t cos(tx)
x2
= −x √12π e− 2 → g(x) =
R
x2
x √12π − e− 2 dx |{z}
=
R
− √12π e−y dy =
2
y= x2
Si ha
φ0X (t) = −
R +∞
−∞
x2
x sin(tx) √12π e− 2 dx =
x2
= [sin(tx) √12π e− 2 ]+∞
−∞ − t
R +∞
−∞
x2
cos(tx) √12π e− 2 dx =
= 0 − tφX (t) = −tφX (t) .
Quindi
φ0X (t)
d
=
log φX (t) = −t ,
φX (t)
dt
da cui segue
t2
log φX (t) = − + c ,
2
ed essendo φX (0) = 1, risulta c = 0.
t2
Quindi: φX (t) = e− 2 (funzione reale e pari).
f) Se X ha una distribuzione normale di parametri m, σ, il n.a. Y =
2
− t2
X−m
σ
ha una distribuzione normale standard e si ha φY (t) = e . Allora, osservando che X = σY + m, applicando la proprietà 3), con a = σ, b = m, si
G.Sanfilippo
2
x
√1 e− 2
2π
10.1 Funzione caratteristica
156
ottiene
σ 2 t2
φX (t) = eimt− 2 .
g) Se X ha una distribuzione esponenziale di parametro λ, si ha
+∞
Z
φX (t) =
eitx λe−λx dx =
0
Z +∞
λ
e−(λ−it)x dx =
=λ
·
λ − it
0
h) X ∼ Gc,λ . Si ha
φX (t) =
=
R +∞
0
c
λ
λ−it
c
λ
xc−1 e−λx dx =
eitx Γ(c)
= [φY (t)]c , (Y ∼ G1,λ = Exp(λ)) .
Calcolo dei momenti.
Per ogni fissato intero k = 1, 2, . . ., la previsione di X k , che indichiamo
con m(k) , si chiama momento di ordine k di X.
T EOREMA 10.1. Se, per un intero positivo k è P(|X|k ) < ∞, allora la
derivata k − esima di φX (t) esiste per ogni t, è continua, e si ha
Z +∞
(k)
(ix)k eitx f (x)dx .
φX (t) =
−∞
Cenno sulla dimostrazione. Ricordiamo che, dato un numero aleatorio
continuo X, con densità f (x), si ha
Z +∞
φX (t) =
eitx f (x)dx .
−∞
Nelle ipotesi del Teorema 10.1 derivando rispetto alla variabile t, si ha
Z +∞
0
φX (t) =
ixeitx f (x)dx ,
Z
−∞
+∞
φ00X (t) =
(ix)2 eitx f (x)dx ,
−∞
........................................
Z
+∞
(k)
φX (t) =
(ix)k eitx f (x)dx .
−∞
........................................
Allora, se esistono i vari momenti di X, si ha
Z +∞
0
φX (0) = i
xf (x)dx = im(1) ,
Z
−∞
+∞
φ00X (0) = i2
x2 f (x)dx = i2 m(2) ,
−∞
........................................
Z
(k)
+∞
φX (0) = ik
xk f (x)dx = ik m(k) .
−∞
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
157
........................................
φ
(k)
(0)
Pertanto, si ha m(k) = Xik . Un ragionamento analogo si può fare se X è
un n.a. discreto. In molti casi, dovendo calcolare m(k) , conviene sfruttare
tale formula anzichè applicare la definizione
Z +∞
(k)
m =
xk f (x)dx ,
−∞
nel caso continuo, oppure
m(k) =
X
pn xkn ,
n
nel caso discreto.
E SEMPIO 10.1. Sia X ∼ N0,1 , si ha
P(X r ) = 0,
r dispari
(2k)!
,
2k k!
r = 2k, k ∈ N.
P(X r ) = P(X 2k ) =
E SERCIZIO 10.1. Sia X un numero aleatorio con distribuzione uniforme in
[a, b], con a < b, verificare che
eitb −eita
, t 6= 0
it(b−a)
φX (t) =
1,
t=0
Sia Y = cX + d, con c > 0, verificare che Y ha distribuzione uniforme in
[ac + d, bc + d].
E SERCIZIO 10.2. Sia X un numero aleatorio con distribuzione uniforme in
[0, 1], verificare che
i
lim φ0X (t) = .
t→0
2
( Sfruttare il fatto che limt→0 φX (t) = 1 ).
E SERCIZIO 10.3. Sia X un numero aleatorio con distribuzione esponenziale di parametro λ > 0 e sia Y = aX, con a > 0, verificare che Y ha
distribuzione esponenziale di parametro λ/a.
10.2. Somma di numeri aleatori stocasticamente indipendenti
La proprietà più importante delle funzioni caratteristiche è la seguente:
dati n numeri aleatori X1 , . . . , Xn stocasticamente indipendenti e posto
Y = X1 + · · · + Xn , si ha
φY (t) = φX1 (t) · φX2 (t) · · · · φXn (t) .
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
158
Consideriamo il caso n = 2. Si ha
φX1 +X2 (t) = P(eit(X1 +X2 ) ) = P(eitX1 eitX2 ) =
P(eitX1 )P(eitX2 ) = φX1 (t)φX2 (t).
|
{z
}
X1 ⊥X2
Ad esempio, dati n eventi E1 , . . . , En , indipendenti ed equiprobabili di
probabilità p, e posto
X1 = |E1 | , . . . , Xn = |En | ,
si ha
φX1 (t) = · · · = φXn (t) = peit + q .
Quindi
φX1 +···+Xn (t) = φX1 (t) · · · · · φXn (t) = (peit + q)n .
Ritroviamo in questo modo la funzione caratteristica del numero aleatorio
|E1 | + · · · + |En |, che ha distribuzione binomiale di parametri n, p.
Altri due aspetti teorici importanti relativi alle funzioni caratteristiche sono:
1. La corrispondenza tra funzioni caratteristiche e distribuzioni di probabilità è biunivoca; quindi la funzione caratteristica φX (t) determina univocamente la distribuzione di probabilità di X.
E SEMPIO 10.2. Ricordando che ad una distribuzione normale di parameσ 2 t2
tri m, σ corrisponde la funzione caratteristica eimt− 2 e quindi, se X ∼
t2
N (x), si ha φX (t) = e− 2 . Allora, se Y = 2X + 3, si ha
2
φY (t) = · · · = e3it−2t ,
e quindi Y ∼ N3,2 .
Altro esempio: se X ∼ Nm1 ,σ1 e Y ∼ Nm2 ,σ2 , con X, Y stocasticamente
indipendenti, si ha
φX (t) = eim1 t−
2 t2
σ1
2
φY (t) = eim2 t−
,
2 t2
σ2
2
.
Inoltre, per il n.a. Z = aX + bY si ha
φZ (t) = · · · = eim3 t−
2 t2
σ3
2
,
con
m3 = am1 + bm2 ,
σ3 =
q
a2 σ12 + b2 σ22 .
Pertanto Z ∼ Nm3 ,σ3 . Si noti che, volendo evitare l’uso della funzione
caratteristica, il calcolo della di- stribuzione di Z richiederebbe un ragionamento pro- babilistico molto più complicato.
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
159
E SEMPIO 10.3. Siano X1 ∼ P(λ1 ) e X2 ∼ P(λ2 ) si ha
φX1 +2 (t) = φX1 (t)φX2 (t) = eλ1 (e
it −1)
it −1)
eλ2 (e
=
(λ1 +λ2 )(eit −1)
e
.
Pertanto X1 + X2 ∼ P(λ1 + λ2 )
E SEMPIO 10.4. La funzione caratteristica di un n.a. X con distribuzione
Gα,λ , cioè con densità,
Gα,λ (x) =
λα α−1 λx
x e , x > 0.
Γ(α)
è data da
φX (t) =
λ
λ − it
α
.
Pertanto dati 2 numeri aleatori X1 , X2 , rispettivamente, con distribuzione
Gα1 ,λ e Gα2 ,λ , si ha X1 + X2 ∼ Gα1 +α2 ,λ .
E SERCIZIO 10.4.
funzione caratteristica di un numero aleatorio discreto
P5 Laeikt
X è φX (t) = k=1 5 . Calcolare la previsione di X.
P(X) =
Soluzione.
Si ha
φ0X (t)
=
5
X
ikeikt
k=1
5
,
da cui segue
φ0X (o) =
5
X
ik
k=1
5
=
i(1 + 2 + 3 + 4 + 5)
= 3i = iP(X) .
5
Pertanto: P(X) = 3 .
E SERCIZIO 10.5. 2La funzione caratteristica di un numero aleatorio X è data
t
da φX (t) = e2it− 2 . Posto Y = X − 2, calcolare la probabilità p dell’evento
(|Y | ≤ 2).
Risp.: p =
Soluzione.
t2
φX (t) = e2it− 2 è la funzione caratteristica di una distribuzione normale di
parametri m = 2, σ = 1. Pertanto Y = X − 2 ha una distribuzione normale
standard. Allora:
p = P (|Y | ≤ 2) = 2Φ(2) − 1 ' 0.9545 .
E SERCIZIO 10.6. Le funzioni caratteristiche di due numeri aleatori X, Y
it
it
indipendenti sono rispettivamente φX (t) = e2(e −1) e φY (t) = e3(e −1) .
G.Sanfilippo
10.2 Somma di numeri aleatori stocasticamente indipendenti
160
Posto Z = X + Y , calcolare la previsione m di Z.
Risp.: m =
Si ha:
it −1)
φZ (t) = φX (t)φY (t) = e2(e
da cui ricordando che
φ0Z (0)
e3(e
it −1)
it −1)
= e5(e
,
= imZ e osservando che
it −1)
φ0Z (t) = e5(e
it
5eit i,
φ0Z (0) = 5i,
segue: mZ = 5. In effetti, e5(e −1) è la funzione caratteristica di una
distribuzione di Poisson di parametro λ = 5.
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 161
10.3. Distribuzione normale multidimensionale - versione provvisoria
Un vettore aleatorio continuo (X, Y ) ha una distribuzione normale bidimensionale (o doppia) se ha la seguente densità di probabilità
f (x, y) =
1√
2πσ1 σ2 1−ρ2
·e
−
1
2(1−ρ2 )
x−µ1
σ1
2
−2ρ
x−µ1
σ1
y−µ2
σ2
2 y−µ
+ σ 2
2
,
per ogni (x, y) ∈ R2 , dove µ1 , µ2 , σ1 , σ2 , ρ, sono valori reali con σ1 >
0, σ2 > 0, |ρ| < 1.
http://www.unipa.it/sanfilippo/pub/sigad/approfondimenti/
Tale distribuzione gode delle seguenti proprietà:
• f1 (x) = Nµ1 ,σ1 (x) , f2 (y) = Nµ2 ,σ2 (y) , pertanto le previsioni e
gli scarti quadratici medi di X e Y sono rispettivamente µ1 , µ2 e
σ1 , σ2 ;
• f1 (x|y) = Nµ∗1 ,σ1∗ (x) , con
µ∗1 = µ1 + ρ
σ1
(y − µ2 ) ,
σ2
σ1∗ = σ1
p
1 − ρ2 ;
• f2 (y|x) = Nµ∗2 ,σ2∗ (y) , con
p
σ2
(x − µ1 ) , σ2∗ = σ2 1 − ρ2 ;
σ1
R +∞ R +∞
• P(XY ) = −∞ −∞ xyf (x, y)dxdy = · · · = µ1 µ2 + ρσ1 σ2 ,
pertanto ρ rappresenta il coefficiente di correlazione di X e Y ;
• se ρ = 0 risulta f (x, y) = f1 (x)f2 (y), pertanto se X e Y sono
incorrelati, segue che sono indipendenti;
• infine, se i parametri µ1 , µ2 , σ1 , σ2 sono fissati, al variare di ρ si ottengono infinite distribuzioni normali bidimensionali con le stesse marginali Nµ1 ,σ1 (x), Nµ2 ,σ2 (y); il che significa che date le distribuzioni marginali non è possibile determinare la distribuzione
congiunta.
µ∗2 = µ2 + ρ
10.3.1. Distribuzioni marginali. Si ha X ∼ Nµ1 ,σ1 e Y ∼ Nµ2 ,σ2.
1
Dimostriamo che X ∼ Nµ1 ,σ1 . Con la trasformazione lineare u = x−µ
σ1
2
e v = y−µ
, si ha dy = σ2 dv e limy→±∞ v = ±∞. Pertanto si ha,
σ2
Z
σ2
p
f1 (x) =
f (x, y)dy =
2πσ1
σ2 1 − ρ2
R
Z
e
−
1
[u2 −2ρuv+v 2 ]
2(1−ρ2 )
dv.
R
Osservando che
u2 − 2ρuv + v 2 = u2 − ρ2 u2 + (v − ρu)2 = u2 (1 − ρ2 ) + (v − ρu)2
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 162
f1 (x) si può scrivere come segue
Z
1
1
−
[u2 (1−ρ2 )+(v−ρu)2 ]
p
f1 (x) =
e 2(1−ρ2 )
dv.
2πσ1 1 − ρ2 R
2
1 2 Z
− 12 √v−ρu2
1
e− 2 [u ]
1−ρ
dv .
=√
e
√ p
2πσ1 R 2π 1 − ρ2
|
{z
}
=1
=√
1
e
2πσ1
− 12
x−µ1
σ1
2
.
Pertanto X ∼ Nµ1 ,σ1 . Procedendo in maniera analoga, ma scambiando x
con y, si ricava che
Z
y−µ2 2
1
− 12
σ
2
f2 (y) =
f (x, y)dy = √
e
2πσ2
R
ovvero Y ∼ Nµ2 ,σ2 . Quindi si ha che
µ1 = P(X), µ2 = P(Y ), σ12 = var(X), σ22 = var(Y ).
10.3.2. Distribuzioni marginali condizionate. Calcoliamo la densità
di probabilità di Y dato X = x.
f (x, y)
=
f2 (y|x) =
f1 (x)
√
=
1
√
2πσ2
=√
−
1√
2πσ1 σ2 1−ρ2
−
1−ρ2
·e
1
2(1−ρ2 )
·e
x−µ1
σ1
2 2
h
i2 x−µ
y−µ2
x−µ
− σ 1 ρ2 +
− σ 1 ρ
σ
1
1
2
x−µ1 2
− 12
σ1
e
h
i2 y−µ2
x−µ1
−
ρ
2
σ
σ
1
−
1
p
e 2(1−ρ
2πσ2 1 − ρ2
− 12

1
p
e
2πσ2 1 − ρ2
2
)
2
1
σ2
2 −ρ σ1 (x−µ1 )
σ2 (1−ρ2 )
#2 

.

Se poniamo µ∗2 = µ2 + ρ σσ12 (x − µ1 ) e σ2∗ = σ2
− 12
1
f2 (y|x) = √
e
2πσ2∗
y−µ∗
2
∗
σ2
1
=
=
p
(1 − ρ2 ) si ha
2
, ∀y ∈ R.
Pertanto, per ogni fissato x ∈ R, si ha f2 (y|x) = Nµ∗2 ,σ2∗ (y) , con
p
σ2
µ∗2 = µ2 + ρ (x − µ1 ) , σ2∗ = σ2 1 − ρ2 .
σ1
G.Sanfilippo
1
=
x−µ1 2
−1
σ1
√ 1 e 2
2πσ1
h
i2 x−µ1 2
y−µ2
x−µ1
2
(1−ρ
)+
−
ρ
σ
σ
σ
"
 y−µ
=√
1
2(1−ρ2 )
10.3 Distribuzione normale multidimensionale - versione provvisoria 163
In maniera analoga si dimostra che, per ogni fissato x ∈ R, si ha f1 (x|y) =
Nµ∗1 ,σ1∗ (x) , con
p
σ1
µ∗1 = µ1 + ρ (y − µ2 ) , σ1∗ = σ1 1 − ρ2 .
σ2
Concludendo si ha
µ∗1 = P(Y |x) = µy (x), µ∗2 = P(X|y) = µx (y)
cioè µ∗1 = µy (x) è proprio la funzione di regressione di X su Y e µ∗2 =
µx (y) è proprio la funzione di regressione di Y su X.
Poichè la curva di regressione di Y su X è una retta essa coincide con la
retta di regressione. Pertanto ρ coincide con il coefficiente di correlazione
lineare di X e Y (per la dimostrazione analitica vedi dall’Aglio pag 144).
In particolare, osserviamo che se ρ = 0 si ha
f2 (y|x) ≡ f2 (y), f1 (y|x) ≡ f1 (y).
Quindi, dato un vettore aleatorio (X, Y ) con distribuzione normale bidimensionale si ha
X, Y stocasticamente indipendenti ⇔ X, Y sono incorrelati
10.3.3. Matrice delle varianze e covarianze. Osserviamo che la matrice delle varianze-covarianze del vettore (X, Y ) è data da
2
ρσ1 σ2
σ11 σ12
σ1
Σ2 =
=
,
σ21 σ22
ρσ1 σ2 σ22
e si ha
detΣ2 = |Σ2 | = · · · = σ12 σ22 (1 − ρ2 ) ,
2
1
−ρσ1 σ2
σ2
−1
Σ2 =
.
detΣ2 −ρσ1 σ2 σ12
Allora, com’è possibile verificare, la densità congiunta si può rappresentare
nella forma matriciale seguente
f (x, y) =
1
1
p
e− 2 A(x−µ1 ,y−µ2 ) ,
2π |Σ2 |
dove
A(x − µ1 , y − µ2 ) = (x − µ1 , y − µ2 ) ·
Σ−1
2
·
x − µ1
y − µ2
.
In generale, dato un vettore aleatorio continuo X = (X1 , . . . , Xn ), sia Σn la
matrice delle varianze-covarianze di X. Si dice che X ha una distribuzione
normale n−dimensionale se la densità congiunta è data da
f (x1 , . . . , xn ) =
G.Sanfilippo
1
1
√
e− 2 A(x1 −µ1 ,...,xn −µn ) ,
(2π) detΣn
n
2
10.3 Distribuzione normale multidimensionale - versione provvisoria 164
dove
A(x1 − µ1 , . . . , xn − µn ) =


x1 − µ1

···  .
= (x1 − µ1 , . . . , xn − µn ) · Σ−1
n ·
xn − µn
In forma matriciale e vettoriale si ha
1
|Σn |− 2 − 1 (x−µ)·Σ−1
t
n ·(x−µ)
2
f (x1 , . . . , xn ) =
,
n e
2
(2π)
dove
x = (x1 , x2 . . . , xn ), µ = (µ1 , µ2 . . . , µn ).
La distribuzione normale n−dimensionale gode di proprietà simili a quella
bidimensionale; in particolare
Xi ∼ Nµi ,σi , i = 1, . . . , n .
Inoltre, se per ogni i 6= j si ha σij = 0, la matrice delle varianze-covarianze
diventa diagonale e la densità congiunta coincide con il prodotto delle densità marginali, ovvero i numeri aleatori X1 , . . . , Xn sono stocasticamente
indipendenti.
Costruzione di una variabile aleatoria normale multidimensionale.*
Dati n numeri aleatori X1 , X2 , . . . , Xn indipendenti e identicamente distribuiti con distribuzione normale standard (Xi ∼ N0,1 ) sia X = (X1 , X2 , . . . , Xn )
il vettore aleatorio congiunto. Ovviamente la densità di X è data da
fX (x1 , . . . , xn ) =
1
− 12 x·xt
.
n e
(2π) 2
In tal caso X ha una distribuzione normale multidimensionale con matrice
delle varianze e covarianze la matrice Identità n × n .
Consideriamo una trasformazione lineare di X. Sia
n×1
n×n
n×1
n×1
z}|{ z}|{ z}|{ z}|{
Y = A · X + µ
con A una matrice n × n con |A| =
6 0 e µ un vettore (colonna?). Si ha che
le componenti di Y sono
Y1 = a11 X1 + a12 X2 + . . . + a1n Xn + µ1 ;
..
.
Yi = ai1 X1 + ai2 X2 + . . . + ain Xn + µi ;
..
.
Yn = an1 X1 + an2 X2 + . . . + ann Xn + µn .
Inoltre, essendo A invertibile, si ha
X = (Y − µ)A−1 .
G.Sanfilippo
10.3 Distribuzione normale multidimensionale - versione provvisoria 165
Poichè
Cov(Yi , Yj ) = Cov(a
i1 X1 + ai2 X2 + . . . + ain Xn , aj1 X1 + aj2 X2 + . . . + ajn Xn ) =
Pn P
n
=
h=1
k=1 aih ajk cov(Xh , Xk ) =
= ai1 aj1 + ai2 aj2 + . . . + ain ajn =
= ai · aj t
si ha che la matrice varianze-covarianze di Y è
ΣY = A · At .
Si dimostra che Y ha una distribuzione normale multivariata con densità
1
|ΣY |− 2 − 1 (y−µ)·Σ−1
t t
Y ·(y−µ) ) .
2
f (y1 , . . . , yn ) =
n e
(2π) 2
E SERCIZIO 10.7. Dati 2 numeri aleatori X1 , X2 indipendenti e identicamente distribuiti con distribuzione normale standard e definiti
Y1 = X1 + X2 + 1; Y2 = X1 − X2 − 1
determinare la densità Y1 e la densità di Y2 .
Poichè X1 , X2 sono stocasticamente indipendenti si ha
1 0
ΣX =
0 1
Inoltre sappiamo che (Y1 , Y2 ) ha una distribuzione normale bidimensionale.
Determiniamone la densità. Poichè
1 1
A=
1 −1
e |A| = −2 segue che la matrice varianze-covarianze di Y è
2 0
t
ΣY = A · A =
0 2
Quindi, Y1 , Y2 sono stocasticamente indipendenti con distribuzione, rispettivamente, Y1 ∼ N1,√2 e Y2 ∼ N−1,√2 .
G.Sanfilippo
10.4 Convergenze
166
10.4. Convergenze
10.4.1. Convergenza in legge o in distribuzione.
D EFINIZIONE 10.1 (Convergenza in legge o in distribuzione). Una successione di distribuzioni con funzioni di ripartizione F1 (x), F2 (x), . . . converge
ad una distribuzione se esiste una funzione di ripartizione, F (x), tale che
lim Fn (x) = F (x), in ogni punto di continuità di F (x)
n→∞
Se indichiamo con X1 , X2 , . . . la successione dei numeri aleatori con funzione di ripartizione F1 (x), F2 (x), . . . e con X un numero aleatorio con
funzione di ripartizione F (X), se Fn converge in distribuzione a F scriveremo
L
d
Xn → X, (Xn → X)
e diremo che Xn converge in legge (o debolmente) a X.
Tale tipo di convergenza si suole dire convergenza debole. Notare che viene
richiesta la convergenza delle funzioni distribuzioni soltanto nei punti di
continuità per F .
E SEMPIO 10.1. Consideriamo una successione di numeri aleatori X1 , X2 , . . . , Xn , . . .
con funzione di ripartizione del generico Xn definita da

(−1)n
 0 x< n ,
Fn (x) =
n

1 x ≥ (−1)
.
n
Sia X un numero aleatorio con funzione di ripartizione data da

 0 x < 0,
F (x) =
 1 x ≥ 0.
L
Verificare se Xn → X. Distinguiamo tre casi.
n
(1) Sia x < 0. Si ha F (x) = 0. Poichè limn→∞ (−1)
= 0 esiste un nx tale
n
che
(−1)n
x<
, ∀n > nx .
n
Allora si ha Fn (x) = 0 = F (x) per n > nx , cioè Fn (x) → F (x).
n
(2) Sia x > 0. Poichè limn→∞ (−1)
= 0 esiste un nx tale che
n
(−1)n
, ∀n > nx .
n
Allora si ha Fn (x) = 1 = F (x) per n > nx , cioè Fn (x) → F (x).
(3) Sia x = 0. In tal caso F2k (0) = 0, F2k+1 (0) = 1 pertanto Fn (0) non ha
limite. Osserviamo che però il punto x = 0 non è di continuità per F (x).
L
Quindi Fn (x) → F (x) in ogni punto di continuità per F (X), cioè Xn → X.
x>
G.Sanfilippo
10.4 Convergenze
167
T EOREMA 10.2. Indicando con ψ la funzione caratteristica corrispondente
ad F , la successione F1 , . . . , Fn , . . . converge in distribuzione ad F se e solo
se la corrispondente successione di funzioni caratteristiche ψ1 , . . . , ψn , . . .
converge a ψ. In breve
Fn (x) → F (x) ⇐⇒ ψn (t) → ψ(t)
Tale risultato teorico permette di dimostrare il Teorema centrale del limite.
10.4.2. Teorema centrale del limite. Data una successione di numeri
aleatori X1 , . . . , Xn , . . ., indipendenti ed ugualmente distribuiti, con P(Xi ) =
m, Var(Xi ) = σ 2 , si consideri la successione delle medie aritmetiche
X1 + X 2
X1 + · · · + Xn
Y1 = X1 , Y2 =
, Yn =
, ... ,
2
n
e quella delle medie aritmetiche ridotte Z1 , . . . , Zn . Ovviamente P(Yn ) =
2
√ . Indicando con Fi la funzione di
m, Var(Yn ) = σn e quindi Zn = Yσ/n −m
n
ripartizione di Zi , la successione F1 , . . . , Fn , . . . converge alla funzione di
ripartizione (di una distribuzione normale standard) Φ0,1 , ovvero si ha
lim Fn (z) = lim P (Zn ≤ z) = Φ(z) , ∀ z ∈ R .
n→+∞
n→+∞
Il risultato precedente si ottiene dimostrando che la successione ψ1 , . . . , ψn , . . .
(di funzioni caratteristiche dei numeri aleatori Z1 , . . . , Zn , . . .) converge alla
t2
funzione caratteristica (della distribuzione normale standard) ψ(t) = e− 2 .
T EOREMA 10.3 (Teorema centrale del limite). Data una successione di n.
a. X1 , . . . , Xn , . . ., indipendenti ed ugualmente distribuiti, con P(Xi ) = m,
Var(Xi ) = σ 2 < +∞, e posto
Y1 = X1 , Y 2 =
Z1 =
Y1 −m
σ
X1 +X2
2
, Z2 =
, . . . , Yn =
Y2 −m
√
σ/ 2
X1 +···+Xn
n
, . . . , Zn =
si ha
Z
,... ,
z
lim P (Zn ≤ z) = Φ(z) =
n→+∞
Yn −m
√
σ/ n
, ... ,
N (t)dt , ∀ z ∈ R ;
−∞
ovvero, la successione Z1 , . . . , Zn , . . . converge in legge ad un n. a. Z con
distribuzione normale standard.
D IMOSTRAZIONE . Dim.: si ha
X
n n
Yn − m
1 X Xh − m
U
√ =√
√h ,
Zn =
=
σ
σ/ n
n h=1
n
h=1
con P(Un ) = 0 , V ar(Un ) = 1 , ∀ n.
I n. a. standardizzati U1 , . . . , Un , . . . sono indipendenti ed ugualmente
distribuiti; indicando con ψ(t) la loro funzione caratteristica, si ha
ψ(t) = ψ(0) + ψ 0 (0) t +
G.Sanfilippo
ψ 00 (0) 2
t2
t + ··· = 1 − + ··· ;
2!
2
10.4 Convergenze
168
Uh it √
inoltre: ψ √Uh (t) = P e n = ψ √tn =
n
t2
t2
=1−
+ ··· = 1 −
+o
2n
2n
ψZn (t) = ψP
h
U
√h
n
1
,
n
(t) = Πnh=1 ψ √Uh (t) =
n
n n
t
t
= 1+ψ √
−1 ;
= ψ √
n
n
P
n+1 z n
ricordiamo che: log(1 + z) = ∞
=
n=1 (−1)
n
z2
+ · · · = z + o(z) ' z (z ' 0) ;
2
h
in
t
√
quindi: log ψZn (t) = log 1 + ψ n − 1 =
t
t
= n log 1 + ψ √
−1 'n ψ √
−1 =
n
n
1
t2
t2
=− +no
−→ − ;
2
n
2
allora:
=z−
t2
lim ψZn (t) = elimn→∞ log ψZn (t) = e− 2 .
n→∞
Osservazione. La variabile aleatoria Zn , cioè la media aritmetica di
X1 , X2 , . . . , Xn standardizzata, coincide con la somma Sn = X1 + X2 +
. . . + Xn standardizzata, ovvero
Zn =
X1 +X2 +...+Xn
−m
n
√σ
n
=
X1 +X2 +...+X
n −nm
√
σ n
Sn −P(Sn )
=√
.
V ar(Sn )
Pertanto, possiamo dire che la successione delle somme aleatorie standarSn −P(Sn )
dizzate √
converge in distribuzione ad una variabile aleatoria con
V ar(Sn )
distribuzione normale standard. In sintesi
Sn −P(Sn )
≤ z) −→
P (Zn ≤ z) = P ( √
V ar(Sn )
n→∞
Rz
−∞
1 2
√1 e− 2 x dx
2π
E SEMPIO 10.5 (Processo Bernoulliano). Consideriamo una successione di
eventi E1 , E2 , . . . , En , . . . indipendenti ed equiprobabili, con probabilità
P (En ) = p. Sia Xi = |Ei |, i ∈ N . Si ha P(Xi ) = p, σ 2 (Xi ) = p(q − p).
Per ogni n ∈ N poniamo
Sn = X1 + X2 + · · · Xn = |E1 | + |E2 | + · · · |En | .
G.Sanfilippo
10.4 Convergenze
169
Si ha che Sn ∼ Bin(n, p) e quindi P(Sn ) = np e σ 2 (Sn ) = np(1 − p). Per
il teorema centrale del limite possiamo concludere
!
Sn − np
P p
< x → Φ0,1 (x).
n→∞
np(1 − p)
Quindi, per n grande, la distribuzione del numero aleatorio (delle frequenze
ridotte)
S − np
p n
np(1 − p)
si può approssimare con una normale standard.
E SERCIZIO 10.8. Da un’urna contenente 1 pallina bianca e 19 nere si effettuano 200 estrazioni con restituzione. Sia Ei l’evento ”la i − esima pallina
estratta è bianca”, i ∈ {1, 2, . . . , 200}. Sia S200 il numero aleatorio di palline bianche estratte. Calcolare mediante un’opportuna approssimazione
P (5 ≤ S200 ≤ 15).
E SEMPIO 10.2. Sia X sin Bin(n, p), con n = 40, p = 21 . Calcolare,
mediante un’opportuna approssimazione, P (X = 20). Si ha
P (X = 20) = P (19.5 < X < 20.5) =
= P (−0.16 < Z < 0.16) ' 2Φ0,1 (0.16) − 1 = 0.1272 .
Osserviamo che
40 1
= 0.1253 .
P (X = 20) =
20 240
E SEMPIO 10.3. Siano X1 , X2 , . . . , Xn , . . . una successione di variabili aleatoriP
indipendenti e identicamente distribuiti con Xi ∼ U ([0, 1]). Calcolare
P ( 10
i=1 Xi > 7) mediante un’opportuna approssimazione.
1
Ricordiamo che P(Xi ) = 12 e V ar(Xi ) = 12
. Utilizzando il Teorema
centrale del limite si ha
P
10
P10
Xi −5
7−5
i=1
√ 10 > √ 10 ' 1 − Φ0,1 (2.19)
P ( i=1 Xi > 7) = P
12
G.Sanfilippo
12
10.4 Convergenze
170
10.4.3. Convergenza in Probabilità.
D EFINIZIONE 10.2. Data una successione X1 , X2 , . . . , Xn , . . . di numeri
aleatori e un numero aleatorio X diremo che Xn tende in probabilità a X e
scriveremo
P
Xn → X
(100)
se fissati comunque due numeri positivi , θ è possibile determinare un
intero n,θ , tale che per ogni n > n,θ risulti
P (|Xn − X| ≥ ) < θ
(101)
o, in altri termini, se
∀ > 0 lim P (|Xn − X| ≥ ) = 0
(102)
n→∞
Nel caso di vettori aleatori con dimensioni k maggiori di 1 la disuguaglianza
|Xn − X| vale componente per componente.
P
Significato geometrico per k = 1. Dire che Xn → X equivale a dire che la
probabilità della striscia |Xn − X| < qualunque sia l’ampiezza (2) tende
a 1 o equivalentemente che la probabilità della parte di piano |Xn − X| ≥ tende a 0.
10.4.4. Convergenza Quasi certa. Una successione di variabili aleatorie {Xn (ω)} rappresenta una successione di funzioni misurabili da (Ω, F)
in (R, B1 ). Per tale successione un’usuale convergenza matematica è quella
puntuale, cioè
Xn (ω) → X, ∀ω ∈ Ω
ovvero (se come distanza consideriamo quella euclidea)
∀ > 0, ∃m : |Xn (ω) − X(ω)| < per n > m.
Una convergenza del genere però è troppo forte per le variabili aleatorie,
visto che siamo interessati allo studio delle probabilità. Pertanto la convergenza sarà sufficiente anche se non si realizza in alcuni punti, purchè questi
formino un insieme di misura trascurabile.
D EFINIZIONE 10.3 (Convergenza quasi certa.). Data una successione di
v.a. {Xn } e una v.a. X, diremo che Xn converge quasi certamente a X se
l’evento Xn (ω) → X(ω) è quasi certo, ovvero se
P (Xn → X) = P ({ω ∈ Ω : Xn (ω) → X(ω)}) = 1
q.c.
In tal caso si scrive Xn → X, oppure che Xn tende a X con probabilità 1.
La convergenza q.c. di Xn ad una v.a. X significa prendere in considerazione in una “prova” (ipotetica) i valori assunti dalle infinite v.a. Xn e vedere
se questi convergono al valore assunto dalla v.a. X: tale evento deve avere
probabilità 1.
Caratterizzazione della convergenza quasi certa ,
G.Sanfilippo
10.4 Convergenze
171
q.c.
T EOREMA 10.1. Xn → X se e solo se
∞
\
∀ > 0, lim P ( |Xr − X| < ) = 1
n→∞
r=n
Pertanto una definizione alternativa di convergenza quasi certa potrebbe
essere la seguente .
D EFINIZIONE 10.4. Data una successione di v.a. {Xn } e una v.a. X, diremo che Xn converge quasi certamente a X se, fissati due numeri positivi
, θ, è possibile determinare un intero n,θ , tale che per ogni n > n,θ risulti
+∞
[
P
|Xr − X| ≥ < θ.
r=n
Fissati, in altri termini, arbitrariamente e θ debbonorisultare minori di θ,
per n > n,θ , non solo le probabilità, P |Xn −X| ≥ , che ciascuno singolarmente degli scarti sia non inferiore a (come richiesto dalla convergenza
in probabilità), ma anche le probabilità che anche uno solo su tutti gli scarti
|Xn − X| da n,θ in poi sia non inferiore a .
Si dimostra il seguente
q.c.
P
T EOREMA 10.2. Se Xn → X allora Xn → X.
Il viceversa non vale. Si possono costruire alcuni controesempi. In definitiva la relazione che sussiste, solo in un verso, tra le verie convergenze, è la
seguente.
q.c.
P
L
X n → X ⇒ Xn → X ⇒ Xn → X
10.4.5. Applicazione - Legge dei grandi numeri. Sia X1 , X2 , . . . , Xn , . . .
una successione di variabili aleatorie i.i.d, con P(Xn ) = µ e var(Xn ) = σ 2
finite.
Consideriamo la successione delle medie aritmetiche
n
X
Xn =
Xi /n.
i=1
2
Si ha P(X n ) = µ e var(X n ) = σ /n. Pertanto la media aritmetica avrà una
distribuzione centrata su µ che al tendere di n all’infinito avrà una varianza
infinitesima var(X n ) = σ 2 /n → 0, ovvero sempre più concentrata su µ.
Osserviamo che per trovare la distribuzione di X n bisognerebbe fare n − 1
convoluzioni.
Proviamo che
P
Xn → X ⇒
la successione X n converge in probabilità al numero aleatorio X = µ.
Per la disuguaglianza di Cebicev si ha
P (|X n − µ| > ) ≤
G.Sanfilippo
var(X n )
2
10.4 Convergenze
172
ma var(X n ) = σ 2 /n → 0 pertanto si ha
∀ > 0 lim P (|X n − µ| > ) = 0.
n→∞
Tale risultato prende il nome di Legge (debole) dei grandi numeri. Ad esempio è utile per stimare la vera misura di una lunghezza, dopo aver effettuato
diverse misure, si può considerare come vera misura la media aritmetica.
In particolare tale risultato prende anche il nome di Teorema di Bernoulli,
in quanto nella sua prima forma fu dimostrato da Bernoulli.
Sia X1 , X2 , . . . , Xn , . . . una successione di variabili aleatorie bernoulliane
i.i.d, con P(Xn ) = p e var(Xn ) = p(1 − p) finite. Ovvero
1, con P (Xn = 1) = p
Xn =
0, con P (Xn = 0) = 1 − p = q
In tal caso la successione delle medie aritmetiche diviene la frequenza relativa fn di successo su n prove e il teorema diviene
∀ > 0 lim P (|fn − p| > ) = 0.
n→∞
Cioè la frequenza relativa di successo converge in probabilità alla probabilità p di successo.
P
Un altro importante risultato dovuto a Bernoulli, indicando con Sn = ni=1 Xi
la frequenza assoluta, è il seguente
∀k > 0 lim P (|Sn − np| > k) = 1.
n→∞
Cioè il numero di Sn − np tende in probabilità all’infinito. Possiamo pertanto dire che, in riferimento al lancio di una moneta, se si fanno un numero elevati di lanci la frequenze relativa di T esta sarà, con probabilità alta,
vicina a 1/2, ma la frequenza assoluta, cioè il numero di T esta, sarà probabilmente lontano da n/2. Se ad ogni lancio si vince 1 se esce T esta e −1
se esce Croce, allora dopo un numero elevato di lanci la vincita (positiva o
negativa) sarà lontana da zero.
10.4.6. Convergenza in Legge e convergenza in Probabilità.
P
L
T EOREMA 10.3. Se Xn → X allora Xn → X. Inoltre se X = a con
L
P
probabilità 1 vale il viceversa, cioè se Xn → X allora Xn → X
Il precedente teorema dimostra che la convergenza in probabilità è più forte
della convergenza in legge, tranne per variabili degenere. In generale la
convergenza in legge non implica la convergenza in probabilità. Vediamo
un controesempio.
E SEMPIO 10.4. Sia X1 , X2 , . . . , Xn , . . . una successione di variabili aleatorie indipendenti e uniformemente distribuite in (0, 1) e sia X una variabile
G.Sanfilippo
10.4 Convergenze
173
aleatoria con distr. unif. sempre in (0, 1) Essendo tutte le variabili in gioco con stessa distribuzione tutte avranno come funzione di ripartizione la
funzione Fn = F definita come

 0, se x ≤ 0,
x, se 0 ≤ x < 1,
F (x) =

1, se x ≥ 1.
Quindi Xn converge in legge a X. Proviamo che non c’è convergenza in
probabilità. Osserviamo che la densità marginale f (xn , x) è
1, se (xn , x) ∈ Q1 ,
fn (xn , x) =
0, altrimenti
avendo indicato con Q1 il quadrato unitario, Q1 = {(x, y) : 0 ≤ x ≤ 1, 0 ≤
y ≤ 1}. Consideriamo l’evento |Xn − X| > si ha
P (|Xn − X| > ) = (1 − )2
cioè fissato la quantità P (|Xn − X| > ) rimane costante al crescere di n,
quindi
P
Xn 9 X.
E SERCIZIO 10.1. Sia {Xn ∼ U (0, 1/n), n ∈ N} una successione di variabili aleatorie ( delta di Dirac), provare che Xn converge sia in legge che in
probabilità a X = 0
10.4.7. Convergenza in Media. Dato un numero reale r > 0, diciamo
che Xn tende a X in media r − esima, e scriviamo
m.r.
Xn → X.
se
P(|Xn − X|r ) → 0.
Per r = 2 si parla di convergenza in media quadratica. Inoltre tale convergenza, poichè prende in considerazione i valori medi, richiede che essi
siano finiti.
Ricordiamo che la disuguaglianza di Cebicev (Markov). Per r > 0, > 0,
si ha
P(|X|r )
P (|X| > ) ≤
,
r
pertanto possiamo dimostrare che
T EOREMA 10.4.
m.r.
P
Xn → X ⇒ Xn → X,
infatti
∀, P (|Xn − X| > ) ≤
G.Sanfilippo
P(|Xn − X|r )
→0
r
10.4 Convergenze
174
E SEMPIO 10.5. Nell’inferenza statistica classica (oltre alla correttezza) si
dice che uno stimatore Yn è consistente se tende in probabilità alla grandezza η da stimare.
Se P(Yn ) = η, cioè lo stimatore è corretto, si ha
P((Yn − η)2 ) = P((Yn − P(Yn ))2 ) = var(Yn )
quindi se la var(Yn ) → 0 segue che
m.q.
Yn → η.
e per il Teorema 10.4 si ha
P
Yn → η
cioè lo stimatore è consistente.
Pertanto la media campionaria X n (per variabili con momenti di ordine 2
finiti) è uno stimatore corretto e consistente della media.
G.Sanfilippo
Scarica