MEDIA CONDIZIONATA 1. Media condizionata da un evento

MEDIA CONDIZIONATA
E. DI NARDO
1. Media condizionata da un evento
Assumiamo di avere una informazione parziale circa l’esito ω di un esperimento
casuale. Questa informazione parziale potrebbe essere rappresentata da una variabile aleatoria Y (ω) oppure più semplicemente da un evento B cui ω appartiene.
Ad esempio nel lancio di due dadi distinguibili (rosso e bianco) sia ω = (3, 2). Immaginiamo di sapere che sul dado bianco si è verificato un punteggio pari e di voler
conoscere qual è la probabilità che si verifichi ω. A questo quesito si risponde in
genere usando la probabilità condizionata. Ossia se B è l’insieme di tutte le coppie
che sulla seconda coordinata hanno un punteggio pari, possiamo calcolare
P ({ω} ∩ B)
P ({ω}|B) =
P (B)
se il dado è onesto e quindi P (B) > 0. Ora definiamo la v.a. X che restituisce la
somma dei punteggi sui due dadi. Ancora una volta potremmo calcolare
P ({ω : X(ω) = 6} ∩ B)
P (X = 6|B) =
.
P (B)
Potremmo allora essere interessati a conoscere la media di X avvalendoci dell’informazione contenuta in B, ossia
P
X
E[1B X]
j jP [(X = j) ∩ B]
=
(1.1)
E[X|B] =
jP (X = j|B) =
P (B)
P (B)
j
dove la funzione 1B è detta funzione indicatrice dell’evento B ed è cosı̀ definita
1 ω∈B
1B (ω) =
0 ω ∈ Bc
Osserviamo che E[1B X] è la media di X fatta non su tutto R ma sull’immagine
di B attraverso la funzione X. L’espressione E[X|B] prende il nome di media condizionata e come vedremo più avanti è possibile definire tale funzione quando al
posto dell’evento B sostituiamo una σ−algebra. Trattandosi di una definizione abbastanza complessa, ci avviciniamo ad essa per passi successivi. Per ora osserviamo
che se E[X] < ∞ allora E[X|B] < ∞ poiché E[1B X] < E[X] < ∞.
Come caso particolare sia B = {ω ∈ Ω : Y (ω) = y}, dove Y è una seconda v.a.
definita su (Ω, F, P ).
Definizione 1.1. Si definisce media condizionata di X dato Y = y la quantità
P
R x xP (X = x|Y = y) se X e Y sono discrete
E[X|Y = y] =
xfX|Y (x|y)dx
se X e Y sono ass.continue
R
purchè esistano finiti l’integrale o la somma.
Ad integrazione della Lezione 13 - Calcolo delle Probabilità e Statistica Matematica II.
1
2
E. DI NARDO
Se X è un vettore casuale, si pone per definizione
E[X|Y = y] ≡ (E[X1 |Y = y], E[X2 |Y = y], . . . , E[Xn |Y = y]).
1.1. Proprietà. Il valor medio condizionato E[X|Y = y] gode di una serie di
proprietà che ora andremo ad illustrare. Dimostreremo queste proprietà nel caso
le v.a. sono assolutamente continue. In maniera analoga si può dimostrare che
valgono per v.a. discrete. Nel seguito faremo riferimento ad una funzione g : R → R
Borel-misurabile.
i) indipendenza Se X e Y sono indipendenti allora E[X|Y = y] = E[X].
Infatti
Z
Z
E[X|Y = y] =
xfX|Y (x|y)dx =
xfX (x)dx = E[X].
R
R
Se Z è indipendente da (X, Y ) allora E[ZX|Y = y] = E[Z]E[X|Y = y].
Infatti
E[ZX|Y = y] =
Z
Z
fXY Z (x, y, z)
dxdz
=
zxfZ,X|Y (z, x|y)dxdz =
zx
fY (y)
R2
R2
Z
Z
Z
fXY (x, y)fZ (z)
fXY (x, y)
=
zx
dxdz =
zfZ (z)dz x
dx
fY (y)
fY (y)
R2
R
R
Z
= E[Z] xfX|Y (x|y)dx
R
ii) stabilità E[g(Y ) X|Y = y] = g(y)E[X|Y = y].
Infatti
Z
Z
E[g(Y ) X|Y = y] =
g(y)xfX|Y (x|y)dx = g(y) xfX|Y (x|y)dx.
R
R
In particolare risulta E[g(Y )|Y = y] = g(y).
iii) costanti E[c|Y = y] = c, c ∈ R.
Infatti
Z
Z
E[c|Y = y] =
cfX|Y (x|y)dx = c fX|Y (x|y)dx = c.
R
R
iv) linearità E[cX + dZ|Y = y] = cE[X|Y = y] + dE[Z|Y = y] dove X, Y e
Z sono v.a. congiuntamente distribuite e c e d sono costanti reali.
=
=
=
=
E[cX + dZ|Y = y] =
Z
(cx + dz)fX,Z|Y (x, z|y)dxdz
R2
Z
Z
c
xfX,Z|Y (x, z|y)dxdz + d
zfX,Z|Y (x, z|y)dxdz
2
R2
ZR
Z
Z
Z
c xdx fX,Z|Y (x, z|y)dz + d zdz fX,Z|Y (x, z|y)dx
R
R
R
ZR
Z
c xfX|Y (x|y)dx + d zfZ|Y (z|y)dz
R
R
avendo fatto uso delle relazioni
Z
Z
fXY Z (x, y, z)
fY,Z (y, z)
dx =
= fZ|Y (z|y)
fX,Z|Y (x, z|y)dx =
f
(y)
fY (y)
Y
R
R
MEDIA CONDIZIONATA
Z
Z
fX,Z|Y (x, z|y)dz =
R
R
3
fXY Z (x, y, z)
fX,Y (x, y)
dz =
= fX|Y (x|y).
fY (y)
fY (y)
2. Media condizionata da una variabile aleatoria
Al variare di y nell’insieme dei valori assunti da Y, la media condizionata E[X|Y =
y] può essere riguardata come una funzione della v.a. Y. Quando ci si riferisce a
questo caso, si scrive E[X|Y ]. Per tale funzione sussiste il problema di capire se
è F−misurabile e di determinare le proprietà di cui gode. A questo scopo, introdurremo prima il concetto di media condizionata da una σ−algebra e poi faremo
vedere come E[X|Y ] possa essere ricondotta a questa nozione.
2.1. Media condizionata da una σ−algebra finitamente generata. Si consideri una partizione dello spazio campione Ω negli eventi B1 , B2 , . . . , Bn e sia G la
σ−algebra generata da tali eventi, ossia
G = {∪i∈I Bi : I ⊆ {1, 2, . . . , n}} .
Si ha G ⊆ F. Sia X una v.a. che possiede media finita. Definiamo una nuova v.a.
al seguente modo
(2.1)
E[X|G](ω) =
n
X
E[X|Bi ]1Bi (ω).
i=1
Per comprendere la formula precedente, pensiamo ad un punto campionario ω selezionato a caso in Ω in accordo alla misura di probabilità P. Lo sperimentatore
non conosce esattamente il valore di ω ma solo come è fatto l’insieme Bi nel quale ω
può cadere. Pertanto calcola il valore medio di X in accordo a questa informazione
parziale. Il punto fondamentale è che la v.a. E[X|G] gode della seguente proprietà:
E[1A X] = E[1A E[X|G]] ∀A ∈ G.
(2.2)
Non solo, ma E[X|G] è l’unica funzione G−misurabile che ha questa proprietà o
meglio, qualsiasi altra funzione che gode di questa proprietà, è q.c. uguale a E[X|G]
e viene chiamata versione della media condizionata. Per comprendere il significato
della (2.2), riscriviamola usando la proprietà di linearità dell’operatore media:
E[1A (X − E[X|G])] = 0 ∀A ∈ G;
se all’osservatore, in possesso delle informazioni contenute in Bi , è data l’opportunità
di scommettere sull’evento A, pagando una somma iniziale pari a E[X|G] e vincendo
una somma pari a d X, la proprietà dice che il gioco è equo. In realtà questa proprietà ha anche un altro significato in teoria della misura, ma lo vedremo più avanti,
quando complicheremo la struttura di G. Verifichiamo la (2.2),Possia mostriamo che
n
la v.a. costruita in (2.1) gode della proprietà (2.2). Sia Z = i=1 E[X|Bi ]1Bi (ω).
Z è G−misurabile (somma finita di funzioni misurabili). Se A ∈ G esiste k ≤ n e
j1 , j2 , . . . , jk ∈ {1, 2, . . . , n} tali che A = ∪kt=1 Bjt e quindi
" k
#
" k
#
X
X E[1Bj X]
t
1B j t
E[1A Z] = E
E[X|Bjt ]1Bjt = E
P (Bjt )
t=1
t=1
=
k
X
E[1Bjt X]
E[1Bjt ] = E[1A X]
P (Bjt )
t=1
4
E. DI NARDO
Pk
poiché E[1Bjt ] = 1P (Bjt ) + 0P (Bjct ) e t=1 1Bjt = 1A . Si assuma ora che Z 0 sia
una funzione G−misurabile tale che E[1A X] = E[1A Z 0 ]. Essendo G−misurabile
può assumere solo un numero finito di valori (se ne assumesse infiniti, l’unione
delle
a G che è finita), ossia Z 0 =
Pn controimmagini di tali valori non apparterrebbe
0
i=1 ci 1Bi . Scegliendo in E[1A X] = E[1A Z ] l’evento A = Bi segue che
E[1Bi X] = ci E[1Bi ] = ci P (Bi )
ma
E[1Bi Z] = E[X|Bi ]P (Bi )
da cui ci = E[X|Bi ] per ogni Bi e quindi P (Z = Z 0 ) = 1. L’ipotesi E[X] < ∞ è
evidentemente sufficiente affinchè E[X|G] < ∞ poichè se E[X] < ∞ allora E[X|Bi ],
come rapporto di due quantità finite, è finita.
Osservazione 2.1. Se G = {∅, Ω} allora E[X|G](ω) = E[X|Ω]1Ω (ω) = E[X].
Osservazione 2.2. Se F = G e X(ω) = xi per ω ∈ Bi allora per ω ∈ Bi
E[X|G](ω) = E[X|Bi ]1Bi (ω) =
E[1Bi X]
xi E[1Bi ]
=
= xi
P (Bi )
P (Bi )
q.c.
e dunque E[X|G] = X.
Teorema 2.3. Si ha E[E[X|G]] = E[X].
Proof. Infatti
E[E[X|G]] =
n
X
E[X|Bi ]E[1Bi (ω)] =
n
X
E[X1Bi ] = E[X1Ω ].
i=1
i=1
Questa proprietà viene anche detta proprietà della media.
Osservazione 2.4. Se scegliamo come v.a. X = 1A , dove A ∈ F, allora
E[1A |G](ω) =
n
X
E[1A 1Bi ]
1Bi (ω)
P (Bi )
i=1
ed essendo E[1A 1Bi ] = 1P (A ∩ Bi ) + 0P (A ∩ Bic ) segue che
(2.3)
E[1A |G](ω) =
n
X
P (A ∩ Bi )
i=1
P (Bi )
1Bi (ω) =
n
X
P (A|Bi )1Bi (ω)
i=1
dove l’ultima espressione viene detta probabilità condizionata dell’evento A dalla
σ−algebra G e indicata con il simbolo P (A|G). In particolare si ha
E[P (A|G)] = P (A)
una sorta di analogo del teorema delle probabilità totali, come mostrato nel seguito.
Basta infatti applicare l’operatore E al primo e secondo membro della (2.3)
E(P [A|G]) =
n
X
i=1
P (A|Bi )E[1Bi ] =
n
X
i=1
P (A|Bi )P (Bi ) = P (A).
MEDIA CONDIZIONATA
5
Osservazione
P 2.5. Assumiamo che Y sia una v.a. tale che Y (ω) = yi per ω ∈ Bi ,
ossia Y = i yi 1Bi . Consideriamo la σ−algebra generata da Y, ossia
σ(Y ) = {Y −1 (B) : B ∈ B(R)}.
In tal caso σ(Y ) = G, poichè le controimmagini di un borelliano sono tutte e sole
le unioni di elementi in B1 , . . . , Bn . In tal caso si scrive
E[X|G] = E[X|σ(Y )] = E[X|Y ].
Nel paragrafo successivo, complicheremo la struttura di G in modo che sia possibile dare significato a E[X|Y ] attraverso l’uso di E[X|σ(Y )], qualsiasi sia σ(Y ) e
quindi qualsiasi sia Y.
Osservazione 2.6. Analoghi risultati possono essere formulati quando la σ−algebra
è generata da una partizione numerabile di Ω. In termini di v.a., questo equivale
a considerare il caso in cui la v.a. Y assume una infinità numerabile di valori. Si
tratta di sostituire il simbolo di somma con quello di serie nella (2.1):
(2.4)
E[X|G](ω) =
∞
X
E[X|Bi ]1Bi (ω).
i=1
3. Media condizionata da una sigma-algebra generale
(Prima di leggere questo paragrafo, è necessario leggere l’appendice del capitolo
sul teorema di Radon-Nykodim). Per poter dare la definizione di media condizionata da una sigma-algebra qualsiasi, effettuiamo la seguente osservazione. Dallo
spazio di probabilità (Ω, F, P ), la σ−algebra G ⊂ F eredita una misura, la misura
P ristretta a G. Definiamo ora una nuova misura M su G al seguente modo:
Z
M(A) =
X dP = E[1A X].
A
Affinché valga la proprietà (2.2) anche quango G ha una struttura più generale di
quella vista nel paragrafo precedente, deve accadere che
Z
M(A) = E[1A X] =
E[X|G] dP = E[1A E[X|G]]
A
ossia M ammette derivata di Radon-Nikodym rispetto a P e tale derivata è proprio E[X|G]. Che M ammetta derivata di Radon-Nikodym rispetto a P è una
conseguenza del teorema di Radon-Nikodym poiché M è una misura di densità
X rispetto a P e quindi M P. Inoltre il teorema di Radon-Nikodym assicura
l’unicità di tale derivata a meno di insiemi di misura nulla rispetto a P.
Per semplicità indicheremo la misura M con il simbolo E[1• X].
Definizione 3.1. Sia X una v.a. a media finita sullo spazio di probabilità (Ω, F, P )
e sia G una σ−algebra contenuta in F. La media condizionata di X dato G, che
verrà indicata con E[X|G], è la derivata di Radon-Nykodym della misura di densità
X rispetto a P, ossia
dE[1• X]
.
dP
Tutto sommato, dal punto di vista simbolico, questa definizione non si discosta
molto da quella da cui siamo partiti (1.1).
(3.1)
E[X|G] =
6
E. DI NARDO
Osservazione 3.2. Viene da chiedersi quale sia la necessità di ricorrere ad uno strumento cosı̀ sofisticato come E[X|G] per avere informazioni sulla X: in fondo E[X|G]
restituisce il comportamento medio di X su G, ma se si conoscono le controimmagini
attraverso la X in F a maggior ragione si conoscono le controimmagini attraverso
la X in G. In realtà è proprio questo il punto delicato: in molti esperimenti casuali, può essere difficile caratterizzare la legge di probabilità della v.a. X, mentre
è molto più facile avere a disposizione delle informazioni parziali sull’esperimento,
rappresentabili mediante una sotto σ−algebra.
Se A ∈ F, la probabilità condizionata di A dato G è definita come
P (A|G) = E[1A |G]
in accordo a quanto si era già osservato nel paragrafo precedente. In particolare
scegliendo A = Ω dalla proprietà (2.2) segue
E[X] = E[E[X|G]]
e P (A) = E[P (A|G)], essendo
E[P (A|G)] = E {E[1A |G]} = E[1A ] = P (A).
Il seguente lemma è una riformulazione dell’esistenza ed unicità della derivata di
Radon-Nykodim.
Lemma 3.3. Sia X una v.a. a media finita e G una sotto σ-algebra di F. Se Z è
una v.a. che soddisfa le seguenti proprietà
(1) Z è G-misurabile;
(2) E[1A X] = E[1A Z] per ogni A ∈ G
q.c.
allora Z = E[X|G].
q.c.
Osservazione 3.4. Dal lemma 3.3 segue che se G = F allora E[X|F] = X.
È interessante osservare che nel caso in cui G sia finitamente generata, la definizione (3.1) coincide con
P (2.1). Nel paragrafo precedente abbiamo infatti dimostrato
che la v.a. Z =
i E[X|Bi ]1Bi è G-misurabile e verifica la (2) del lemma 3.3,
pertanto è una versione di E[X|G].
Osservazione 3.5. È ora possibile dare significato alla scrittura E[X|Y ] = E[X|σ(Y )]
qualsiasi sia la struttura di σ(Y ) e quindi qualsiasi sia la v.a. Y. Non resta che
chiarire il legame tra E[X|Y ] e E[X|Y = y]. Supponiamo che (X, Y ) ammetta
densità congiunta e scriviamo
cX (y) = E[X|Y = y].
Allora cX [Y (ω)] è una versione di E[X|Y ](ω) come si può facilmente dimostrare
usando il lemma 3.3. Basta infatti dimostrare che per la v.a. cX (Y ) valgono
le ipotesi del lemma. Preso in fatti A ∈ σ(Y ) esiste un borelliano U tale che
1A = 1U (Y ). Pertanto
Z
E[cX (Y )1A ] = E[cX (Y )1U (Y )] =
cX (y)1U (y)fY (y)dy
R
Z
Z
f (x, y)
fY (y)dy
=
1U (y)
x
fY (y)
ZR Z
=
x1U (y)f (x, y)dxdy = E[X1U (Y )] = E[X1A ].
MEDIA CONDIZIONATA
7
L’ipotesi che (X, Y ) ammette densità congiunta si può comunque indebolire.
Quella che segue è detta proprietà della torre della media condizionata 1.
Teorema 3.6. Sia X una v.a. a media finita e siano G ed A due sotto σ−algebre
tali che G ⊂ A. Allora E[E[X|A]|G] = E[X|G].
Proof. Sia B un evento arbitrario scelto in G. Poiché G è contenuto in A allora B appartiene anche ad A pertanto si ha E[1B E[X|A]] = E[1B X] ed anche
E[1B E[X|G]] = E[1B X], ossia
E[1B E[X|G]] = E[1B E[X|A]].
Allora E[X|G] soddisfa la condizione (2) del lemma 3.3, con X rimpiazzato da
E[X|A]. Poiché E[X|G] è G−misurabile, segue l’asserto.
Questa proprietà è molto utile quando A rappresenta un raffinamento di G.
Supponiamo infatti che G sia una σ−algebra generata da una partizione finita di
Ω ed A sia sia una σ−algebra generata da una partizione finita di Ω piú fine della
precedente. In tal caso E[X|G] viene calcolato effettuando una media sugli insiemi
della partizione che generano G. Poiché un insieme della partizione che genera G è
unione di insiemi della partizione che genera A, il teorema dice che calcolare E[X|A]
su un insieme della partizione che genera G equivale alla media di X effettuata su
questo insieme.
Proposizione 3.7. Risulta
q.c.
i) Se X = a con a ∈ R allora E[X|G] = a;
ii) E[aX + bY |G] = aE[X|G] + bE[Y |G];
iii) se G è indipendente da X allora E[X|G] = E[X].
Proof. La funzione identicamente uguale ad a soddisfa le condizioni (1) e (2) del
lemma 3.3 da cui l’asserto i). L’asserto ii) segue dalle proprietà di linearità dell’integrale di Stieltjies. L’ultimo asserto segue dalla osservazione che se X è indipendente
da G, per ogni A ∈ G si ha E[X1A ] = E[X]E[1A ] = E[1A E[X]]. Poiché E[X] è G
misurabile dal lemma 3.3 segue l’asserto.
4. Applicazioni
Le medie condizionnate sono molto importanti in analisi della regressione. Date
due v.a. X e Y la funzione cX (Y ) = E[X|Y ] è detta funzione di regressione di X
su Y. La funzione cX (Y ) è una stima di X usando le informazioni disponibili su Y.
Quanto buona è questa stima? Il teorema che segue (senza dim.) dice che E[X|Y ]
minimizza l’errore quadratico medio.
Teorema 4.1. Sia X una v.a. con varianza finita e sia G una sotto σ−algebra.
Allora
E (X − E[X|G])2 = inf E[(X − Z)2 ], Z v.a. a varianza finita su (Ω, F, P ) .
1Non daremo tutte le proprietà di cui gode la media condizionata perché le relative dimostrazioni necessitano di nozioni di Analisi V, che non avete inserito nel vostro piano di studi.
Chi fosse interessato ad approfondimenti può comunque consultare Probability and Measure di P.
Billinsley (1995).
8
E. DI NARDO
Altro campo di applicazione della media condizionata è la teoria delle martingale.
Sia X1 , X2 , . . . una successione di v.a. definite sullo stesso spazio di probabilità
a media finita. Sia F1 , F2 , . . . una successione di sotto σ−algebre di F tali che
Fn ⊂ Fn+1 (in tal caso si dice che la successione costituisce una filtrazione).
Definizione 4.2. La successione {Xn } si dice una martingala se Xn è Fn -misurabile
ed inoltre E[Xn+1 |Fn ] = Xn .
La teoria delle martingale ha una prima immediata applicazione nella teoria dei
giochi. Se Xn rappresenta il capitale in possesso del giocatore e Fn rappresenta
l’informazione in possesso del giocatore alla giocata n−esima, allora l’essere Xn
una martingala assicura che il gioco è equo. Un classico esempio di martingala è la
somma di v.a. indipendenti a media nulla.
5. Appendice: Teorema di Radon-Nikodym
Supponiamo di avere uno spazio di misura (Ω, F, µ) e una funzione f non negativa definita su tale spazio. Quando
P f è una funzione semplice non-negativa,
ossia può rappresentarsi come f = i ci 1Ei dove E1 , E2 , · · · , En costituisce una
partizione di Ω, allora
Z
X
def
f dµ =
ci µ(A ∩ Ei ).
A
i
In caso contrario, si pone
Z
Z
def
f dµ = sup
g∈G
A
g dµ
A
dove G = {g funzioni semplici e non negative tali che g ≤ f }. Si può dimostrare
che
Z
(5.1)
ν(A) =
f dµ, A ∈ F
A
definisce un’altra misura su F. Quando una misura è definita mediante la (5.1) si
usa dire che ν ha densità f rispetto a µ.
Dalla (5.1) segue che, per ogni A ∈ F per il quale risulta µ(A) = 0, si ha
ν(A) = 0. Ebbene il teorema di Radon-Nikodym prova che, se è vera questa ultima
condizione, allora ν ha una densità rispetto a µ, che viene denominata derivata di
Radon-Nikodym di ν rispetto a µ.
Più precisamente sia µ una misura positiva su uno spazio misurabile (Ω, F). Sia
ν una misura segnata, ossia una misura che assume valori reali più ∞ oppure −∞.
La misura ν si dice assolutamente continua rispetto a µ, e si scrive ν µ, se
ν(A) = 0 quando µ(A) = 0. Il teorema di Radon-Nikodym dice che tutte le misure
assolutamente continue rispetto a µ posseggono una densità rispetto a µ
Teorema 5.1 (Teorema di Radon-Nikodym). Sia µ una misura positiva su (Ω, F)
e σ−finita (ossia tale che esiste un ricoprimento numerabile di sottoinsiemi di Ω
appartenenti ad F, ciascuno di misura finita rispetto a µ.) Sia ν una misura assolutamente continua rispetto a µ. Allora esiste una funzione f (F−misurabile) tale
che
Z
ν(A) =
f dµ ∀A ∈ F.
A
Tale funzione è unica a meno di insiemi di misura nulla rispetto a µ, ossia ogni altra
funzione g, risultante densità di ν rispetto a µ, è tale che µ({ω : f (ω) = g(ω)}) = 0.