MEDIA CONDIZIONATA E. DI NARDO 1. Media condizionata da un evento Assumiamo di avere una informazione parziale circa l’esito ω di un esperimento casuale. Questa informazione parziale potrebbe essere rappresentata da una variabile aleatoria Y (ω) oppure più semplicemente da un evento B cui ω appartiene. Ad esempio nel lancio di due dadi distinguibili (rosso e bianco) sia ω = (3, 2). Immaginiamo di sapere che sul dado bianco si è verificato un punteggio pari e di voler conoscere qual è la probabilità che si verifichi ω. A questo quesito si risponde in genere usando la probabilità condizionata. Ossia se B è l’insieme di tutte le coppie che sulla seconda coordinata hanno un punteggio pari, possiamo calcolare P ({ω} ∩ B) P ({ω}|B) = P (B) se il dado è onesto e quindi P (B) > 0. Ora definiamo la v.a. X che restituisce la somma dei punteggi sui due dadi. Ancora una volta potremmo calcolare P ({ω : X(ω) = 6} ∩ B) P (X = 6|B) = . P (B) Potremmo allora essere interessati a conoscere la media di X avvalendoci dell’informazione contenuta in B, ossia P X E[1B X] j jP [(X = j) ∩ B] = (1.1) E[X|B] = jP (X = j|B) = P (B) P (B) j dove la funzione 1B è detta funzione indicatrice dell’evento B ed è cosı̀ definita 1 ω∈B 1B (ω) = 0 ω ∈ Bc Osserviamo che E[1B X] è la media di X fatta non su tutto R ma sull’immagine di B attraverso la funzione X. L’espressione E[X|B] prende il nome di media condizionata e come vedremo più avanti è possibile definire tale funzione quando al posto dell’evento B sostituiamo una σ−algebra. Trattandosi di una definizione abbastanza complessa, ci avviciniamo ad essa per passi successivi. Per ora osserviamo che se E[X] < ∞ allora E[X|B] < ∞ poiché E[1B X] < E[X] < ∞. Come caso particolare sia B = {ω ∈ Ω : Y (ω) = y}, dove Y è una seconda v.a. definita su (Ω, F, P ). Definizione 1.1. Si definisce media condizionata di X dato Y = y la quantità P R x xP (X = x|Y = y) se X e Y sono discrete E[X|Y = y] = xfX|Y (x|y)dx se X e Y sono ass.continue R purchè esistano finiti l’integrale o la somma. Ad integrazione della Lezione 13 - Calcolo delle Probabilità e Statistica Matematica II. 1 2 E. DI NARDO Se X è un vettore casuale, si pone per definizione E[X|Y = y] ≡ (E[X1 |Y = y], E[X2 |Y = y], . . . , E[Xn |Y = y]). 1.1. Proprietà. Il valor medio condizionato E[X|Y = y] gode di una serie di proprietà che ora andremo ad illustrare. Dimostreremo queste proprietà nel caso le v.a. sono assolutamente continue. In maniera analoga si può dimostrare che valgono per v.a. discrete. Nel seguito faremo riferimento ad una funzione g : R → R Borel-misurabile. i) indipendenza Se X e Y sono indipendenti allora E[X|Y = y] = E[X]. Infatti Z Z E[X|Y = y] = xfX|Y (x|y)dx = xfX (x)dx = E[X]. R R Se Z è indipendente da (X, Y ) allora E[ZX|Y = y] = E[Z]E[X|Y = y]. Infatti E[ZX|Y = y] = Z Z fXY Z (x, y, z) dxdz = zxfZ,X|Y (z, x|y)dxdz = zx fY (y) R2 R2 Z Z Z fXY (x, y)fZ (z) fXY (x, y) = zx dxdz = zfZ (z)dz x dx fY (y) fY (y) R2 R R Z = E[Z] xfX|Y (x|y)dx R ii) stabilità E[g(Y ) X|Y = y] = g(y)E[X|Y = y]. Infatti Z Z E[g(Y ) X|Y = y] = g(y)xfX|Y (x|y)dx = g(y) xfX|Y (x|y)dx. R R In particolare risulta E[g(Y )|Y = y] = g(y). iii) costanti E[c|Y = y] = c, c ∈ R. Infatti Z Z E[c|Y = y] = cfX|Y (x|y)dx = c fX|Y (x|y)dx = c. R R iv) linearità E[cX + dZ|Y = y] = cE[X|Y = y] + dE[Z|Y = y] dove X, Y e Z sono v.a. congiuntamente distribuite e c e d sono costanti reali. = = = = E[cX + dZ|Y = y] = Z (cx + dz)fX,Z|Y (x, z|y)dxdz R2 Z Z c xfX,Z|Y (x, z|y)dxdz + d zfX,Z|Y (x, z|y)dxdz 2 R2 ZR Z Z Z c xdx fX,Z|Y (x, z|y)dz + d zdz fX,Z|Y (x, z|y)dx R R R ZR Z c xfX|Y (x|y)dx + d zfZ|Y (z|y)dz R R avendo fatto uso delle relazioni Z Z fXY Z (x, y, z) fY,Z (y, z) dx = = fZ|Y (z|y) fX,Z|Y (x, z|y)dx = f (y) fY (y) Y R R MEDIA CONDIZIONATA Z Z fX,Z|Y (x, z|y)dz = R R 3 fXY Z (x, y, z) fX,Y (x, y) dz = = fX|Y (x|y). fY (y) fY (y) 2. Media condizionata da una variabile aleatoria Al variare di y nell’insieme dei valori assunti da Y, la media condizionata E[X|Y = y] può essere riguardata come una funzione della v.a. Y. Quando ci si riferisce a questo caso, si scrive E[X|Y ]. Per tale funzione sussiste il problema di capire se è F−misurabile e di determinare le proprietà di cui gode. A questo scopo, introdurremo prima il concetto di media condizionata da una σ−algebra e poi faremo vedere come E[X|Y ] possa essere ricondotta a questa nozione. 2.1. Media condizionata da una σ−algebra finitamente generata. Si consideri una partizione dello spazio campione Ω negli eventi B1 , B2 , . . . , Bn e sia G la σ−algebra generata da tali eventi, ossia G = {∪i∈I Bi : I ⊆ {1, 2, . . . , n}} . Si ha G ⊆ F. Sia X una v.a. che possiede media finita. Definiamo una nuova v.a. al seguente modo (2.1) E[X|G](ω) = n X E[X|Bi ]1Bi (ω). i=1 Per comprendere la formula precedente, pensiamo ad un punto campionario ω selezionato a caso in Ω in accordo alla misura di probabilità P. Lo sperimentatore non conosce esattamente il valore di ω ma solo come è fatto l’insieme Bi nel quale ω può cadere. Pertanto calcola il valore medio di X in accordo a questa informazione parziale. Il punto fondamentale è che la v.a. E[X|G] gode della seguente proprietà: E[1A X] = E[1A E[X|G]] ∀A ∈ G. (2.2) Non solo, ma E[X|G] è l’unica funzione G−misurabile che ha questa proprietà o meglio, qualsiasi altra funzione che gode di questa proprietà, è q.c. uguale a E[X|G] e viene chiamata versione della media condizionata. Per comprendere il significato della (2.2), riscriviamola usando la proprietà di linearità dell’operatore media: E[1A (X − E[X|G])] = 0 ∀A ∈ G; se all’osservatore, in possesso delle informazioni contenute in Bi , è data l’opportunità di scommettere sull’evento A, pagando una somma iniziale pari a E[X|G] e vincendo una somma pari a d X, la proprietà dice che il gioco è equo. In realtà questa proprietà ha anche un altro significato in teoria della misura, ma lo vedremo più avanti, quando complicheremo la struttura di G. Verifichiamo la (2.2),Possia mostriamo che n la v.a. costruita in (2.1) gode della proprietà (2.2). Sia Z = i=1 E[X|Bi ]1Bi (ω). Z è G−misurabile (somma finita di funzioni misurabili). Se A ∈ G esiste k ≤ n e j1 , j2 , . . . , jk ∈ {1, 2, . . . , n} tali che A = ∪kt=1 Bjt e quindi " k # " k # X X E[1Bj X] t 1B j t E[1A Z] = E E[X|Bjt ]1Bjt = E P (Bjt ) t=1 t=1 = k X E[1Bjt X] E[1Bjt ] = E[1A X] P (Bjt ) t=1 4 E. DI NARDO Pk poiché E[1Bjt ] = 1P (Bjt ) + 0P (Bjct ) e t=1 1Bjt = 1A . Si assuma ora che Z 0 sia una funzione G−misurabile tale che E[1A X] = E[1A Z 0 ]. Essendo G−misurabile può assumere solo un numero finito di valori (se ne assumesse infiniti, l’unione delle a G che è finita), ossia Z 0 = Pn controimmagini di tali valori non apparterrebbe 0 i=1 ci 1Bi . Scegliendo in E[1A X] = E[1A Z ] l’evento A = Bi segue che E[1Bi X] = ci E[1Bi ] = ci P (Bi ) ma E[1Bi Z] = E[X|Bi ]P (Bi ) da cui ci = E[X|Bi ] per ogni Bi e quindi P (Z = Z 0 ) = 1. L’ipotesi E[X] < ∞ è evidentemente sufficiente affinchè E[X|G] < ∞ poichè se E[X] < ∞ allora E[X|Bi ], come rapporto di due quantità finite, è finita. Osservazione 2.1. Se G = {∅, Ω} allora E[X|G](ω) = E[X|Ω]1Ω (ω) = E[X]. Osservazione 2.2. Se F = G e X(ω) = xi per ω ∈ Bi allora per ω ∈ Bi E[X|G](ω) = E[X|Bi ]1Bi (ω) = E[1Bi X] xi E[1Bi ] = = xi P (Bi ) P (Bi ) q.c. e dunque E[X|G] = X. Teorema 2.3. Si ha E[E[X|G]] = E[X]. Proof. Infatti E[E[X|G]] = n X E[X|Bi ]E[1Bi (ω)] = n X E[X1Bi ] = E[X1Ω ]. i=1 i=1 Questa proprietà viene anche detta proprietà della media. Osservazione 2.4. Se scegliamo come v.a. X = 1A , dove A ∈ F, allora E[1A |G](ω) = n X E[1A 1Bi ] 1Bi (ω) P (Bi ) i=1 ed essendo E[1A 1Bi ] = 1P (A ∩ Bi ) + 0P (A ∩ Bic ) segue che (2.3) E[1A |G](ω) = n X P (A ∩ Bi ) i=1 P (Bi ) 1Bi (ω) = n X P (A|Bi )1Bi (ω) i=1 dove l’ultima espressione viene detta probabilità condizionata dell’evento A dalla σ−algebra G e indicata con il simbolo P (A|G). In particolare si ha E[P (A|G)] = P (A) una sorta di analogo del teorema delle probabilità totali, come mostrato nel seguito. Basta infatti applicare l’operatore E al primo e secondo membro della (2.3) E(P [A|G]) = n X i=1 P (A|Bi )E[1Bi ] = n X i=1 P (A|Bi )P (Bi ) = P (A). MEDIA CONDIZIONATA 5 Osservazione P 2.5. Assumiamo che Y sia una v.a. tale che Y (ω) = yi per ω ∈ Bi , ossia Y = i yi 1Bi . Consideriamo la σ−algebra generata da Y, ossia σ(Y ) = {Y −1 (B) : B ∈ B(R)}. In tal caso σ(Y ) = G, poichè le controimmagini di un borelliano sono tutte e sole le unioni di elementi in B1 , . . . , Bn . In tal caso si scrive E[X|G] = E[X|σ(Y )] = E[X|Y ]. Nel paragrafo successivo, complicheremo la struttura di G in modo che sia possibile dare significato a E[X|Y ] attraverso l’uso di E[X|σ(Y )], qualsiasi sia σ(Y ) e quindi qualsiasi sia Y. Osservazione 2.6. Analoghi risultati possono essere formulati quando la σ−algebra è generata da una partizione numerabile di Ω. In termini di v.a., questo equivale a considerare il caso in cui la v.a. Y assume una infinità numerabile di valori. Si tratta di sostituire il simbolo di somma con quello di serie nella (2.1): (2.4) E[X|G](ω) = ∞ X E[X|Bi ]1Bi (ω). i=1 3. Media condizionata da una sigma-algebra generale (Prima di leggere questo paragrafo, è necessario leggere l’appendice del capitolo sul teorema di Radon-Nykodim). Per poter dare la definizione di media condizionata da una sigma-algebra qualsiasi, effettuiamo la seguente osservazione. Dallo spazio di probabilità (Ω, F, P ), la σ−algebra G ⊂ F eredita una misura, la misura P ristretta a G. Definiamo ora una nuova misura M su G al seguente modo: Z M(A) = X dP = E[1A X]. A Affinché valga la proprietà (2.2) anche quango G ha una struttura più generale di quella vista nel paragrafo precedente, deve accadere che Z M(A) = E[1A X] = E[X|G] dP = E[1A E[X|G]] A ossia M ammette derivata di Radon-Nikodym rispetto a P e tale derivata è proprio E[X|G]. Che M ammetta derivata di Radon-Nikodym rispetto a P è una conseguenza del teorema di Radon-Nikodym poiché M è una misura di densità X rispetto a P e quindi M P. Inoltre il teorema di Radon-Nikodym assicura l’unicità di tale derivata a meno di insiemi di misura nulla rispetto a P. Per semplicità indicheremo la misura M con il simbolo E[1• X]. Definizione 3.1. Sia X una v.a. a media finita sullo spazio di probabilità (Ω, F, P ) e sia G una σ−algebra contenuta in F. La media condizionata di X dato G, che verrà indicata con E[X|G], è la derivata di Radon-Nykodym della misura di densità X rispetto a P, ossia dE[1• X] . dP Tutto sommato, dal punto di vista simbolico, questa definizione non si discosta molto da quella da cui siamo partiti (1.1). (3.1) E[X|G] = 6 E. DI NARDO Osservazione 3.2. Viene da chiedersi quale sia la necessità di ricorrere ad uno strumento cosı̀ sofisticato come E[X|G] per avere informazioni sulla X: in fondo E[X|G] restituisce il comportamento medio di X su G, ma se si conoscono le controimmagini attraverso la X in F a maggior ragione si conoscono le controimmagini attraverso la X in G. In realtà è proprio questo il punto delicato: in molti esperimenti casuali, può essere difficile caratterizzare la legge di probabilità della v.a. X, mentre è molto più facile avere a disposizione delle informazioni parziali sull’esperimento, rappresentabili mediante una sotto σ−algebra. Se A ∈ F, la probabilità condizionata di A dato G è definita come P (A|G) = E[1A |G] in accordo a quanto si era già osservato nel paragrafo precedente. In particolare scegliendo A = Ω dalla proprietà (2.2) segue E[X] = E[E[X|G]] e P (A) = E[P (A|G)], essendo E[P (A|G)] = E {E[1A |G]} = E[1A ] = P (A). Il seguente lemma è una riformulazione dell’esistenza ed unicità della derivata di Radon-Nykodim. Lemma 3.3. Sia X una v.a. a media finita e G una sotto σ-algebra di F. Se Z è una v.a. che soddisfa le seguenti proprietà (1) Z è G-misurabile; (2) E[1A X] = E[1A Z] per ogni A ∈ G q.c. allora Z = E[X|G]. q.c. Osservazione 3.4. Dal lemma 3.3 segue che se G = F allora E[X|F] = X. È interessante osservare che nel caso in cui G sia finitamente generata, la definizione (3.1) coincide con P (2.1). Nel paragrafo precedente abbiamo infatti dimostrato che la v.a. Z = i E[X|Bi ]1Bi è G-misurabile e verifica la (2) del lemma 3.3, pertanto è una versione di E[X|G]. Osservazione 3.5. È ora possibile dare significato alla scrittura E[X|Y ] = E[X|σ(Y )] qualsiasi sia la struttura di σ(Y ) e quindi qualsiasi sia la v.a. Y. Non resta che chiarire il legame tra E[X|Y ] e E[X|Y = y]. Supponiamo che (X, Y ) ammetta densità congiunta e scriviamo cX (y) = E[X|Y = y]. Allora cX [Y (ω)] è una versione di E[X|Y ](ω) come si può facilmente dimostrare usando il lemma 3.3. Basta infatti dimostrare che per la v.a. cX (Y ) valgono le ipotesi del lemma. Preso in fatti A ∈ σ(Y ) esiste un borelliano U tale che 1A = 1U (Y ). Pertanto Z E[cX (Y )1A ] = E[cX (Y )1U (Y )] = cX (y)1U (y)fY (y)dy R Z Z f (x, y) fY (y)dy = 1U (y) x fY (y) ZR Z = x1U (y)f (x, y)dxdy = E[X1U (Y )] = E[X1A ]. MEDIA CONDIZIONATA 7 L’ipotesi che (X, Y ) ammette densità congiunta si può comunque indebolire. Quella che segue è detta proprietà della torre della media condizionata 1. Teorema 3.6. Sia X una v.a. a media finita e siano G ed A due sotto σ−algebre tali che G ⊂ A. Allora E[E[X|A]|G] = E[X|G]. Proof. Sia B un evento arbitrario scelto in G. Poiché G è contenuto in A allora B appartiene anche ad A pertanto si ha E[1B E[X|A]] = E[1B X] ed anche E[1B E[X|G]] = E[1B X], ossia E[1B E[X|G]] = E[1B E[X|A]]. Allora E[X|G] soddisfa la condizione (2) del lemma 3.3, con X rimpiazzato da E[X|A]. Poiché E[X|G] è G−misurabile, segue l’asserto. Questa proprietà è molto utile quando A rappresenta un raffinamento di G. Supponiamo infatti che G sia una σ−algebra generata da una partizione finita di Ω ed A sia sia una σ−algebra generata da una partizione finita di Ω piú fine della precedente. In tal caso E[X|G] viene calcolato effettuando una media sugli insiemi della partizione che generano G. Poiché un insieme della partizione che genera G è unione di insiemi della partizione che genera A, il teorema dice che calcolare E[X|A] su un insieme della partizione che genera G equivale alla media di X effettuata su questo insieme. Proposizione 3.7. Risulta q.c. i) Se X = a con a ∈ R allora E[X|G] = a; ii) E[aX + bY |G] = aE[X|G] + bE[Y |G]; iii) se G è indipendente da X allora E[X|G] = E[X]. Proof. La funzione identicamente uguale ad a soddisfa le condizioni (1) e (2) del lemma 3.3 da cui l’asserto i). L’asserto ii) segue dalle proprietà di linearità dell’integrale di Stieltjies. L’ultimo asserto segue dalla osservazione che se X è indipendente da G, per ogni A ∈ G si ha E[X1A ] = E[X]E[1A ] = E[1A E[X]]. Poiché E[X] è G misurabile dal lemma 3.3 segue l’asserto. 4. Applicazioni Le medie condizionnate sono molto importanti in analisi della regressione. Date due v.a. X e Y la funzione cX (Y ) = E[X|Y ] è detta funzione di regressione di X su Y. La funzione cX (Y ) è una stima di X usando le informazioni disponibili su Y. Quanto buona è questa stima? Il teorema che segue (senza dim.) dice che E[X|Y ] minimizza l’errore quadratico medio. Teorema 4.1. Sia X una v.a. con varianza finita e sia G una sotto σ−algebra. Allora E (X − E[X|G])2 = inf E[(X − Z)2 ], Z v.a. a varianza finita su (Ω, F, P ) . 1Non daremo tutte le proprietà di cui gode la media condizionata perché le relative dimostrazioni necessitano di nozioni di Analisi V, che non avete inserito nel vostro piano di studi. Chi fosse interessato ad approfondimenti può comunque consultare Probability and Measure di P. Billinsley (1995). 8 E. DI NARDO Altro campo di applicazione della media condizionata è la teoria delle martingale. Sia X1 , X2 , . . . una successione di v.a. definite sullo stesso spazio di probabilità a media finita. Sia F1 , F2 , . . . una successione di sotto σ−algebre di F tali che Fn ⊂ Fn+1 (in tal caso si dice che la successione costituisce una filtrazione). Definizione 4.2. La successione {Xn } si dice una martingala se Xn è Fn -misurabile ed inoltre E[Xn+1 |Fn ] = Xn . La teoria delle martingale ha una prima immediata applicazione nella teoria dei giochi. Se Xn rappresenta il capitale in possesso del giocatore e Fn rappresenta l’informazione in possesso del giocatore alla giocata n−esima, allora l’essere Xn una martingala assicura che il gioco è equo. Un classico esempio di martingala è la somma di v.a. indipendenti a media nulla. 5. Appendice: Teorema di Radon-Nikodym Supponiamo di avere uno spazio di misura (Ω, F, µ) e una funzione f non negativa definita su tale spazio. Quando P f è una funzione semplice non-negativa, ossia può rappresentarsi come f = i ci 1Ei dove E1 , E2 , · · · , En costituisce una partizione di Ω, allora Z X def f dµ = ci µ(A ∩ Ei ). A i In caso contrario, si pone Z Z def f dµ = sup g∈G A g dµ A dove G = {g funzioni semplici e non negative tali che g ≤ f }. Si può dimostrare che Z (5.1) ν(A) = f dµ, A ∈ F A definisce un’altra misura su F. Quando una misura è definita mediante la (5.1) si usa dire che ν ha densità f rispetto a µ. Dalla (5.1) segue che, per ogni A ∈ F per il quale risulta µ(A) = 0, si ha ν(A) = 0. Ebbene il teorema di Radon-Nikodym prova che, se è vera questa ultima condizione, allora ν ha una densità rispetto a µ, che viene denominata derivata di Radon-Nikodym di ν rispetto a µ. Più precisamente sia µ una misura positiva su uno spazio misurabile (Ω, F). Sia ν una misura segnata, ossia una misura che assume valori reali più ∞ oppure −∞. La misura ν si dice assolutamente continua rispetto a µ, e si scrive ν µ, se ν(A) = 0 quando µ(A) = 0. Il teorema di Radon-Nikodym dice che tutte le misure assolutamente continue rispetto a µ posseggono una densità rispetto a µ Teorema 5.1 (Teorema di Radon-Nikodym). Sia µ una misura positiva su (Ω, F) e σ−finita (ossia tale che esiste un ricoprimento numerabile di sottoinsiemi di Ω appartenenti ad F, ciascuno di misura finita rispetto a µ.) Sia ν una misura assolutamente continua rispetto a µ. Allora esiste una funzione f (F−misurabile) tale che Z ν(A) = f dµ ∀A ∈ F. A Tale funzione è unica a meno di insiemi di misura nulla rispetto a µ, ossia ogni altra funzione g, risultante densità di ν rispetto a µ, è tale che µ({ω : f (ω) = g(ω)}) = 0.