Y - Università degli Studi di Roma "Tor Vergata"

Argomenti della Lezione
1)
Coppie di variabili aleatorie
2)
Canale discreto senza memoria
3)
Entropie condizionate, entropie congiunte ed informazione mutua
4)
Esempi di canali
1
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Coppie di variabili aleatorie
Fino ad ora è stata considerata una sola variabile aleatoria (o
processo aleatorio) che modellizza la sorgente.
Consideriamo una coppia variabili aleatorie discrete X e Y con
alfabeti rispettivamente:
A = {x1 , x2 ,..., xN X }
B = { y1 , y2 ,..., y NY }
con masse di probabilità rispettivamente:
P(Y = y j ) = P( y j )
P( X = xi ) = P( xi )
e con distribuzione congiunta e condizionata rispettivamente:
∆
P( X = xi , Y = y j ) = P( xi , y j )
∆
P( X = xi | Y = y j ) = P( xi | y j )
∆
P(Y = y j | X = xi ) = P( y j | xi )
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
2
Canale discreto senza memoria
Un canale discreto accetta ogni T secondi un simbolo appartenente
all'alfabeto discreto di ingresso e fornisce un simbolo
appartenente all'alfabeto discreto di uscita.
Supponiamo di trasmettere la sequenza di simboli x' x''... e di
ricevere la sequenza di simboli y' y''... Un canale discreto è detto
senza memoria (Discrete Memoryless Channel - DMC) se è
verificata la seguente proprietà:
P( y ' , y ' ' ,... | x' , x' ' ,...) = P( y ' | x' ) ⋅ P ( y ' ' | x' ' ) ⋅ ...
In generale l'alfabeto d'ingresso e di uscita hanno cardinalità
diversa.
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
3
Canale discreto senza memoria
Utilizziamo una coppia di variabili aleatorie discrete X e Y per
modellizzare rispettivamente l'ingresso e l'uscita di un canale
discreto senza memoria.
Un canale discreto senza memoria è definito completamente da:
1) l'alfabeto di ingresso:
A = {x1 , x2 ,..., xN X }
2) l'alfabeto di uscita:
B = { y1 , y2 ,..., y NY }
3) l'insieme completo delle probabilità condizionate:
∆
∆
P(Y = y j | X = xi ) = P( y j | xi ) = pi , j
Le probabilità condizionate pi,j sono dette probabilità di transizione
del canale
4
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale discreto senza memoria
Generalmente si organizzano le probabilità condizionate pij in una
matrice di canale P, di dimensioni NX x NY :
Per le probabilità condizionate pij valgono le relazioni:
1)
0 ≤ pij ≤ 1
NY
2)
∑p
ij
j =1
= 1, i = 1,2,..., N X
(la somma degli elementi di
ogni riga di P è unitaria)
5
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale discreto senza memoria
Freccia: transizione da un
simbolo di X a un simbolo di Y,
ovvero dalla trasmissione di un
simbolo di X alla ricezione di
uno di Y.
Ogni transizione è etichettata
con la relativa probabilità pi,j
la somma delle pi,j che
etichettano le frecce uscenti
dallo stesso simbolo di ingresso
è pari a 1
6
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
A partire dagli alfabeti X e Y e dai loro legami specificati dalla matrice di
canale P, sono definite 5 diverse entropie ed una informazione mutua
1) Entropia d’ingresso H(X) (contenuto informativo medio dell’alfabeto
d’ingresso):
 1 

H ( X ) = ∑ P ( xi ) log 
i =1
 P ( xi ) 
∆ NX
bit/simbol o
2) Entropia d’uscita H(Y) (contenuto informativo medio dell’alfabeto
d’uscita):
 1 

H (Y ) = ∑ P ( y j ) log
 P( y ) 
j =1
j 

∆ NY
bit / simbolo
7
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
3) Entropia congiunta H(X,Y) (contenuto informativo medio di una
coppia di simboli di ingresso e uscita):


1

H ( X , Y ) = ∑∑ P ( xi , y j ) log
 P( x , y ) 
i =1 j =1
i
j 

N X NY
bit /(coppia di simboli )
L’entropia congiunta H(X,Y) rappresenta l’incertezza media del
sistema di comunicazione formato dall’alfabeto d’ingresso, il canale
e l’alfabeto d’uscita.
8
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
4) Entropia condizionata H(Y|X) (incertezza media rimanente sul
simbolo di uscita y quando il simbolo d’ingresso x è noto):
∆ N X NY
H (Y | X ) = ∑∑
i =1 j =1


1


P (xi , y j )log
 P(y | x ) 
j
i 

bit/ simbolo
5) Entropia condizionata H(X|Y) (incertezza media rimanente sul
simbolo di ingresso x quando il simbolo di uscita y è noto):


1

H ( X | Y ) = ∑∑ P(xi , y j )log 
 P(x | y ) 
i =1 j =1
i
j 

∆ N X NY
bit / simbolo
9
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
6) Informazione mutua I(X;Y) (quantità di informazione media
condivisa tra l'ingresso X e l'uscita Y):
 P (xi , y j ) 

I ( X ; Y ) = ∑∑ P (xi , y j )log 
 P(x )⋅ P(y ) 
i =1 j =1
i
j 

∆ N X NY
bit/ simbolo
10
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
Proprietà:
Non negatività delle entropie condizionate:
H(X) ≥ H(X|Y) ≥ 0
H(Y) ≥ H(Y|X) ≥ 0
Non coincidenza, in generale, delle entropie condizionate:
H(X|Y) ≠ H(Y|X)
Calcolo della entropia congiunta:
H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) = H(Y,X)
11
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
Proprietà:
Minimo valore dell'entropia congiunta:
H(X,Y) ≥ max{H(X),H(Y)}
Massimo valore dell'entropia congiunta:
H(X,Y) ≤ H(X) + H(Y)
12
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
Proprietà:
Variabili aleatorie indipendenti:
H(X|Y) = H(X) e H(Y|X) = H(Y) se e solo se X ed Y sono indipendenti
Variabili aleatorie coincidenti:
H(X|X) = 0
Informazione mutua:
I(X;Y) ≤ H(X)
I(X;Y) ≤ H(Y)
13
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
Proprietà:
Non negatività dell'informazione mutua:
I(X;Y) ≥ 0
Calcolo dell'informazione mutua:
I(X;Y) = H(X) - H(X|Y) =
= H(Y) - H(Y|X) =
= H(X) + H(Y) - H(X,Y) = H(X,Y) - H(X|Y) - H(Y|X)
Simmetria dell'informazione mutua:
I(X;Y) = I(Y;X)
14
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
Analogia con un tubo di flusso:
L'entropia condizionata
H(X|Y) viene detta
equivocazione e rappresenta
la quantità media di
informazione su X persa nel
canale.
L'informazione mutua I(X;Y)
viene detta flusso di
informazione e rappresenta
la quantità media di
informazione su X che riesce
ad attraversare il canale.
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
Formule alternative per il calcolo delle entropie condizionate
Se definiamo l’entropia di X condizionata all’evento Y=yj come:
∆ NX
H ( X | Y = y j ) = ∑ P( X = xi | Y = y j ) log
i =1
1
P( X = xi | Y = y j )
L’entropia condizionata si può calcolare come:
NY
H ( X | Y ) = ∑ P( y j ) H ( X | Y = y j )
j =1
Simmetricamente, una formula analoga vale per H(Y|X)
16
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Entropie, entropie condizionate e entropie congiunte
Formule alternative per il calcolo delle entropie condizionate
Definiamo l’entropia di Y condizionata all’evento X=xi come:
∆ NY
H (Y | X = xi ) = ∑ P(Y = y j | X = xi ) log
j =1
1
P(Y = y j | X = xi )
L’entropia condizionata si può calcolare come:
NX
H (Y | X ) = ∑ P( xi ) H (Y | X = xi )
i =1
Poiché il calcolo di H(Y|X) richiede l’utilizzo delle probabilità di
transizione del canale, H(Y|X) è generalmente più semplice da
calcolare rispetto a H(X|Y) .
17
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale simmetrico e canale uniforme
Un canale discreto e senza memoria è detto uniforme se ogni riga
della matrice di canale è la permutazione di un'altra riga.
Un canale discreto e senza memoria è detto simmetrico se ogni
riga della matrice di canale è la permutazione di un'altra riga e se
ogni colonna della matrice di canale è la permutazione di un'altra
colonna.
Un canale simmetrico è anche uniforme, ma non è vero il
viceversa.
18
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale simmetrico e canale uniforme
Teorema: per un canale uniforme l'entropia condizionata H(Y|X) non
dipende dalla massa di probabilità di X e si può calcolare come:
1
H (Y | X ) = ∑ q j log
q
j =1
 j
∆ NY

 = H N (q1 , q2 ,..., q N )
Y
Y


bit / simbolo
in cui ogni riga della matrice di canale è una permutazione dello
stesso insieme di probabilità qj, j=1,...,NY.
Teorema: per un canale simmetrico, una distribuzione uniforme in
ingresso produce una distribuzione uniforme in uscita.
19
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canali in cascata
Teorema: si considerino tre variabili aleatorie discrete X, Y e Z con
stessa cardinalità. Sia X l'ingresso ad un primo blocco di
processamento e Y la sua uscita e sia Y l'ingresso ad un secondo
blocco di processamento e Z la sua uscita.
Si ha:
20
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale rumoroso
Per un canale discreto rumoroso si ha che NX=NY=N e:
pi ,i ≠ 1,
i = 1,2,..., N
21
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale non rumoroso
Per un canale non rumoroso si ha NX=NY=N e:
pi , j = 0 se i ≠ j , altrimenti pi ,i = 1
H(X|Y) = 0
H(Y|X) = 0
H(X,Y) = H(X) = H(Y)
22
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale inutile
Per un canale inutile si ha NX = NY = N ed i simboli d’uscita
sono indipendenti da quelli d’ingresso, ovvero:
P( y j | xi ) = P ( y j )
H(X|Y) = H(X)
H(Y|X) = H(Y)
H(X,Y) = H(X) + H(Y)
23
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale non rumoroso e canale inutile
I canali senza rumore e inutile rappresentano gli estremi del
possibile comportamento del canale:
nel primo i simboli d’uscita specificano univocamente
quelli d’ingresso
nel secondo il canale confonde completamente i
simboli di ingresso, ed i simboli d’uscita non danno
informazioni utili per decidere su quelli trasmessi
24
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale binario simmetrico (BSC)
Un canale binario simmetrico (Binary Symmetric Channel - BSC) è
un canale con NX=NY=2 e con la seguente matrice di probabilità di
transizione:
Per un canale binario simmetrico, la quantità r è detta probabilità di
inversione.
Si verifica facilmente che tale canale è simmetrico, da cui deriva il
suo nome.
25
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale binario simmetrico (BSC)
Essendo il canale BSC simmetrico e quindi uniforme per il teorema
sui canali uniformi:
 1
H (Y | X ) = ∑ q j log
q
j =1
 j
∆ NY

 = H N ( q1 , q2 ,..., q N )
Y
Y


bit / simbolo
nel caso del BSC si ha:
 1
H (Y | X ) = ∑ q j log  = H 2 ( r )
q 
j =1
 j
Ponendo P(x1) = q si può calcolare:
∆
2
bit / simbolo
P(y1) = q(1-r) + (1-q)r
P(y2) = (1-q)(1-r) + qr = 1 - P(y1)
H(Y) = H2(q(1-r) + (1-q)r)
I(X;Y) = H(Y) – H(Y|X) = H2(q(1-r) + (1-q)r) – H2(r)
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
26
Canale binario a cancellazione (BEC)
Un canale binario a cancellazione (Binary Erasure Channel - BEC)
ha due ingressi e tre uscite ed è caratterizzato dalla seguente
matrice delle probabilità di transizione:
Per un canale binario a cancellazione, la quantità r è detta
probabilità di cancellazione.
Tale canale è uniforme poichè la seconda riga di P è una
permutazione della prima riga.
27
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata
Canale binario a cancellazione (BEC)
Essendo il canale BEC uniforme, per il teorema sui canali uniformi:
 1
H (Y | X ) = ∑ q j log
q
j =1
 j
∆ NY

 = H N ( q1 , q2 ,..., q N )
Y
Y


bit / simbolo
nel caso del BEC si ha:
 1
H (Y | X ) = ∑ q j log
q
j =1
 j
∆
3

 = H 2 (r )


bit / simbolo
Ponendo P(x1) = q si può calcolare:
H(Y) = – [ r log r + (1 – r) log(1 – r) + q (1 – r) log q + (1 – q )(1 – r) log(1 – q) ]
= H2(r) + (1 – r)H2(q)
I(X;Y) = H(Y) – H(Y|X) = (1 – r)H2(q)
28
Mauro De Sanctis – corso di Informazione e Codifica – Università di Roma Tor Vergata