Capitolo 4 - Corsi di Laurea a Distanza

4 - TRASFORMAZIONI DI VARIABILI CASUALI
4.3
Trasformazioni di variabili casuali
Cominciamo da un esempio. Sia X la variabile casuale “lancio di un dado non truccato”:
2
3
4
5
6
 1
X 
1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6
e g(x) sia la corrispondenza:
x pari → y testa
x dispari → y croce.
Poiché g(2)=g(4)=g(6)=testa e g(1)=g(3)=g(5)=croce, si costruisce la nuova variabile
casuale:
testa
croce

Y 
1/ 6 + 1/ 6 + 1/ 6 = 1/ 2 1/ 6 + 1/ 6 + 1/ 6 = 1/ 2
Questo procedimento è generalizzabile al caso continuo. Si inizi dalla trasformazione della
funzione densità di probabilità ad una dimensione.
Si pone per definizione:
(4.1)
p(y ∈ A y ) = p(y ∈ A x )
dove Ax e Ay sono due insiemi che si corrispondono secondo la seguente legge di
trasformazione y=g(x), per cui :
Ay = g(Ax)
(4.2)
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
Si osservi la figura seguente e si ipotizzi la funzione di trasformazione monotona
crescente oltre che differenziabile:
Figura 1 – Trasformazione di densità di probabilità in conseguenza della trasformazione y=g(x) sulla v.c.
p(y ∈ dy) = p(x ∈ dx)
(4.3)
e quindi si ottiene:
f y ( y )dy = f x ( x )dx .
(4.4)
Per l’ipotesi di differenziabilità della funzione di trasformazione, si può scrivere:
dy = g' ( x )dx
(4.5)
e, conseguentemente, si ottiene:
f y ( y )g' ( x )dx = f x ( x )dx
fy (y) =
fx (x)
.
g' ( x )
(4.6)
Se la funzione è decrescente, la formula diventa:
fy (y) = fx (x)
dx
dy
(4.7)
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
Esempio 1
Sia data una variabile casuale con funzione densità di probabilità:
f (x) = e −x
( x ≥ 0)
Si cerca la funzione densità di probabilità f(y) di una nuova variabile casuale
y, ottenuta dalla precedente secondo la relazione y = x con y ≥ 0 .
Si applica la formula appena studiata:
fy (y) =
fx (x)
.
g' ( x )
2
Poiché se y = x , allora x = y2, la densità di probabilità f(x) diventa f ( x ) = e − y ,
mentre g' ( x ) =
1
2 x
diventa
1
, sicché:
2y
f y ( y ) = 2 y e −y
2
y ≥0.
Nella figura che segue si può osservare la rappresentazione grafica di f x ( x ) = e − x
e di f y ( y ) = 2 y e − y
2
.
73
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
4.3
Teorema della media
Si consideri la funzione di trasformazione e la relazione che definisce la trasformazione
delle funzioni di densità di probabilità, e si applichi la definizione di media:
b
d
a
c
y = E[y ]=∫ y f y ( y )dy = ∫ g( x )
fx ( x)
g' ( x ) dx = E[g( x )] ≠ g( x )
g' ( x )
(4.8)
Tale diseguaglianza è valida sempre eccetto che nel caso lineare.
Corollario1
L’operazione della media è un’operazione lineare.
Infatti se:
y = ax + b
(4.9)
allora:
d
b
y = ∫ yf y ( y )dy = ∫ (ax + b )
c
a
b
b
fx ( x)
a dx = a ∫ xf x ( x ) dx + b ∫ f x ( x )dx = ax + b.
a
a
a
(4.10)
Tale relazione dimostra che la media è un’operazione lineare, cioè la media della variabile
casuale trasformata y è pari alla funzione della media della variabile casuale originaria x.
Corollario 2
Sotto determinate ipotesi, si può linearizzare la funzione ed ottenere una formula
approssimata∗:
(4.11)
y ≅ g( x )
Infatti:
(4.12)
y = g( x ) + g' ( x )( x − x ) + θ( x )
d
b
c
a
y = ∫ yf y ( y )dy = ∫ (g( x ) + g' ( x )( x − x ))
b
b
fx (x)
g' ( x )dx =
g' ( x )
b
b
= ∫ g( x )f x ( x )dx + ∫ g' ( x )( x − x )f x ( x )dx = g( x ) ∫ f x ( x )dx +g' ( x ) ∫ ( x − x )f x ( x )dx = g( x )
a
a
a
a
(4.13)
b
b
in quanto ∫ f x ( x )dx = 1 (condizione di normalizzazione) e inoltre ∫ ( x − x )f x ( x )dx = 0 , poiché
a
a
la media degli scarti rispetto alla media vale zero.
Le ipotesi adottate sono che la funzione densità di probabilità sia concentrata in un
determinato intervallo, per esempio nell’intervallo a÷b intorno alla media, e che in quel
intervallo, la funzione g(x) abbia un andamento regolare.
∗
per ragioni di semplicità di scrittura la media viene qui indicata con y invece che con µ
y
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
4.3
Legge di propagazione della varianza
Si considerino le relazioni di trasformazione lineare e linearizzata:
y = ax + b
(4.14)
y = g( x ) + g' ( x )( x − x ) + θ( x )
(4.15)
Si utilizzi la relazione linearizzata:
d
b
b
fx ( x)
2
2
g' ( x )dx = [g' ( x )] ∫ ( x − x ) 2 f x ( x )dx = [g' ( x )] σ 2x
g' ( x )
c
a
a
(4.16)
Utilizzando l’espressione lineare si ottiene ovviamente:
σ 2y = ∫ ( y − y ) 2 f y ( y )dy = ∫ (g( x ) 2 + g' ( x )( x − x )) 2
σ2y=a2 σ2x.
(4.17)
Esempio 2
Data la variabile casuale discreta:
1
− 2 −1 0
X= 
1/ 6 1/ 6 1 3 1 3
e la nuova variabile casuale y = 1 − x 2 , si valuti se si può applicare la formula
approssimata per la media.
In primo luogo si costruisca la nuova variabile casuale y:
X
-2
-1
0
1
Y
-3
0
1
0
La nuova distribuzione di probabilità è:
0
1
− 3
Y= 
1/ 6 (1/ 6 + 1 3) 1 3
Si calcola ora la media di X:
µ x = −2 ⋅
1
1 1
1
− 1⋅ + = − .
6
6 3
6
75
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
Si calcola la media utilizzando la distribuzione di Y:
µy = −
3 1
1
+ =−
6 3
6
Si utilizzi il teorema dell media:
µ x = E x {g( x )} = (1 − 4) ⋅
1
1
1
1
1
+ (1 − 1) ⋅ + (1 − 0) ⋅ + (1 − 1) ⋅ = −
6
6
3
3
6
Il valore, come previsto dal teorema, corrisponde a quello esatto, ottenuto
dall’applicazione dell’operatore E alla funzione y, E(y).
Si calcola infine µ x con l’uso della formula approssimata:
µ y ≈ g(µ x ) = 1 − µ 2x = 1 −
1 35
=
36 36
Il valore, in questo caso, non corrisponde a quello calcolato in precedenza. Si
osserva infatti che la funzione g(x) non è variabile lentamente nell’intervallo di
definizione delle x, quindi non esistono neppure le condizioni per la
linearizzazione intorno a µ x .
4.4
Legge di propagazione della covarianza
Si opera una generalizzazione del risultato precedente, supponendo sia data una
trasformazione del tipo:
Y=G(X),
(4.18)
in cui G indica un vettore di trasformazioni ed Y un vettore di trasformate:
 y 1 = g1( x 1...x m )

 y 2 = g 2 ( x 1...x m )

Y= 
.....

.......

y m = gm ( x 1...x m )
(4.19)
e in cui, per ipotesi, la dimensione di X sia uguale a quella di Y e inoltre la trasformazione
sia tale che il determinante dello Jacobiano sia diverso da zero (trasformazione regolare).
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
Nel caso di trasformazioni regolari è definibile la trasformazione inversa X=G-1 (Y); inoltre
per il Teorema di Conservazione delle Probabilità Elementari:
f (y ) dVy = f (x ) dVx .
(4.20)
Si sa inoltre che, come nel caso monodimensionale, se y=g(x), allora dy = g' ( x )dx e cioè
a dx corrisponde un elemento infinitesimo dy=dy/dx dx, così nel caso a n dimensioni, a
dVy corrisponde il prodotto tra il determinante jacobiano e dVx, per noti teoremi di Analisi,
sicché:
dVy = det J(x ) dVx
f (y ) =
(4.21)
f (x )
.
det [J(x )]
Ci si chiede come sia distribuito il vettore Y, conoscendo la distribuzione del vettore X.
Sussiste il Teorema della Media per variabili causali a n dimensioni:
E[Y ] = E[G(X )].
(4.22)
Oltre alla media, si possono definire i momenti di una variabile casuale a n dimensioni, si
possono definire i momenti centrali, cioè quelli rispetto alla variabile scarto, e tra i vari
momenti sono importanti quelli del secondo ordine:
[(
)]
)(
c ik = E x i − µ xi x i − µ xi .
(4.23)
I coefficienti vengono detti coefficienti di covarianza. Ovviamente si può utilizzare
l’espressione matriciale:
{[(
)(
C xx = [c ik ] = E x i − µ xi x k − µ xk
)]} = E[(x − µ x )(x − µ x )T ]
(4.24)
in cui C è la cosiddetta matrice di varianza covarianza.
Si introduca il vettore dei residui:
Vy = Y − Y .
(4.25)
Si ipotizza che il sistema delle trasformazioni sia linearizzabile:
( ) ( ) (X − X) + θ(X) ≅ G(X) + J(X) (X − X)
VY = G(X ) + J(X ) (X − X ) − G(X ) = J(X ) (X − X )
Y =G X +J X
( )
in cui J X indica la matrice jacobiana calcolata con i valori medi del vettore X.
77
(4.26)
(4.27)
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
Applicando l’operatore E, ai singoli elementi del vettore residui, si può ottenere la matrice
di varianza covarianza:
[ ( ) (X − X) (X − X) J(X) ] =
= J(X ) E[(X − X ) (X − X ) ] J(X ) = J(X ) E[V V ] J(X )
[
]
T
C yy = E Vy VyT = E J X
T
T
T
X
( )
T
X
T
=
(4.28)
T
( )
= J X C XX J X
Se il sistema di trasformazione è lineare, si ottiene:
Y = AX + B
JX =A
( )
T
J(X ) = A T
C YY = AC XX A T
(4.29)
Si abbia, a titolo di esempio, la seguente trasformazione:
u = ax + by

v = cx + dy
che in forma matriciale corrisponde a:
u a b  x 
v  = c d  y  .
  
 
Risulta allora Y=AX, in cui:
 σ2
C XX =  x
σ xy
σ xy 
a b
a c 
A=
AT = 


2 
σ y 
c d
b d
e quindi:
2
a b  σ x
C yy = 


c d σ xy
σ xy 

σ 2y 
2
a c  a b aσ x + bσ xy
=

b d c d aσ + bσ 2

 
  xy
y

a 2 σ 2x + 2abσ xy + b 2 σ 2y
=
2
acσ xy + adσ xy + bcσ xy + bdσ y
cσ 2x + dσ xy 
=
cσ xy + dσ 2y 
acσ 2x + adσ xy + bcσ xy + bdσ 2y   σ u2
= 
c 2 σ 2x + 2cdσ xy + d2 σ 2y
 σ uv
σ uv 
.
σ 2v 
Ponendo a = 1 e b = ±1, e considerando solamente per esempio la varianza di u, si
ottiene la legge di propagazione per la somma e la differenza:
σ u2 = σ 2x ± 2σ xy + σ 2y .
(4.30)
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
Si osservi ora la covarianza tra le variabili u e v:
σ uv = acσ 2x + (ad + bc )σ xy + bdσ 2y .
(4.31)
La covarianza è diversa da zero, anche qualora la σ xy sia uguale a zero: ciò significa che
anche operando esperimenti indipendenti che forniscono x ed y, non è detto che i risultati
ottenuti da essi tramite certe leggi risultino indipendenti, a meno che non si utilizzino
trasformazioni ortogonali che conservino le indipendenze.
Spesso è importante propagare la varianza di una sola osservazione, determinata
indirettamente con svariate misure indirette: si tratta della cosiddetta Legge di
propagazione degli errori.
Esempio 3
Di un punto P sono misurate la distanza dall’origine d e l’anomalia θ.
y
P
d
θ
O
x
Le misure sono indipendenti e valgono:
d= 1km±1mm
θ=π/6±2.10-6 rad.
Si vogliono determinare la media e la matrice di varianza-covarianza delle
coordinate del punto P, x ed y.
Indichiamo con:
x
d
Y=
, X= .
y
θ
La matrice di varianza-covarianza delle misure è, per ipotesi:
C xx =
σ 2d
0
0
σ 2θ
=
79
1
0
.
0 4.10 −2
4 – Trasformazioni di variabili casuali
___________________________________________________________________________________________
La relazione tra X ed Y vale:
Y = G( X) =
d cos θ
.
d sin θ
Dato che la X è concentrata intorno alla media, si può usare il corollario del
Teorema della Media:
Y = G( X) =
d cos θ
d sin θ
=
866025 mm
500000 mm
.
Inoltre si calcoli lo Jacobiano di Y rispetto a X:
Ιµ =
cos θ − d sin θ 0,866 − 10 6 ⋅ 0,500
=
sin θ d cos θ
0,500 10 6 ⋅ 0,866
e si applichi la Legge di Propagazione della Covarianza:
C yy =
=
σ 2X
σ XY
0
0,866
0,500
σ XY 0,866 − 10 6 ⋅ 0,500 1
=
=
−12
6
2
6
− 10 ⋅ 0,500 10 6 ⋅ 0,866
σY
0,500 10 ⋅ 0,866 0 4.10
1,750 − 1,299
.
− 1,299 3,250
Si noti che la covarianza di d e θ è nulla, mentre la covarianza tra X ed Y è
diversa da zero: anche se per ipotesi le misure sono stocasticamente
indipendenti, ciò non è vero per le coordinate del punto P, come era facile da
immaginare.