5 – canali senza rumore e canali deterministici

5 – TIPI DI CANALE
Studiamo ora tipi particolari di canale per i quali si possono ottenere espressioni notevoli.
Consideriamo la matrice di canale (4.1) per la quale abbiamo già visto che la somma degli
elementi di una riga deve valere 1 dal momento che un ingresso si deve certamente
tradurre in un’uscita.
Esaminando le colonne della matrice di canale arguiamo quindi che una colonna di tutti 0
(ossia corrispondente al fatto che un’uscita non si verifica mai qualunque sia l’ingresso) è
un evento impossibile.
Se invece in ciascuna colonna c’è un solo elemento diverso da zero, questo significa che
una data uscita corrisponde ad un solo ingresso: non è vero in generale il viceversa.
Definizione. Un canale rappresentato da una matrice con uno e un solo elemento non
zero in ogni colonna è detto canale senza rumore.
Questo perché l’effetto del rumore è proprio quello di far apparire un’uscita diversa dal
simbolo di ingresso
inviato. Quando l’uscita è legata univocamente ad un preciso
ingresso, questo non si può verificare.
Un esempio banale è quello del BSC con P=0 e P*=1, o viceversa P=1 e P*=0: si tratta di
canali senza rumore anche se la probabilità di errore è massima: è sufficiente infatti
decodificare in uscita nel simbolo opposto a quello ricevuto e si annullano gli effetti del
rumore.
In Figura 5.1 riportiamo un esempio di canale senza rumore.
1/ 2 1/ 2
P 0
0
0
0
0
0
0
0
3 / 5 3 / 10 1 / 10 0
0
0
0
1
Figura 5.1
Supponiamo viceversa di considerare una matrice di canale in cui sia presente un solo
elemento non zero per ogni riga: questo elemento non può che valere 1, ossia la somma
degli elementi di una riga.
Definizione. Un canale rappresentato da una matrice con uno ed un solo elemento non
zero (e quindi uguale ad 1) in ogni riga è chiamato canale deterministico.
In effetti, dato un ingresso si è certi di quale sarà l’uscita.
Un esempio si trova nella Figura 5.2.
1
1

0
P
0
0

0
0 0
0 0
1 0

1 0
1 0

0 1 
Figura 5.2
L’informazione mutua per questi tipi di canale può essere determinata agevolmente.
Infatti per il canale senza rumore si osserva che una qualunque uscita yj ci indica con
probabilità 1 quale ingresso è stato inviato, ossia quale xi è stato trasmesso.
Le probabilità condizionate inverse P(xi|yj) sono allora tutte o zero o uno.
Pertanto l’equivocazione di X rispetto ad Y è nulla, come si vede dall’espressione di
H(X|Y) da
I ( X ;Y )  H ( X )  H ( X | Y )
r
I ( X ; Y )   P( xi ) log(
i 1
1
)
P ( xi )

s
r
 P ( y ) P ( x
j 1
j
i 1
i


1

| y j )  log 
 P( x | y ) 
i
j 

in cui tutti gli addendi interni sono nulli, valendo 1 log 1 oppure 0  log( 1 / 0) .
In definitiva per un canale senza rumore vale
I ( X ;Y )  H ( X )
(5.1)
ossia l’informazione mutua coincide con l’entropia a priori.
Questo è un risultato ragionevole, visto che non può esserci guadagno di informazione
dalla conoscenza di un’uscita legata univocamente ad un certo ingresso. L’incertezza
sull’ingresso rimane inalterata anche conoscendo l’uscita e il numero medio di bit
necessari a rappresentare un ingresso conoscendo già l’uscita è zero.
Il numero medio di bit necessari a priori per specificare un ingresso rimane inalterato dpo
l’uscita.
Per un canale deterministico, invece, il simbolo di ingresso xi è sufficiente per determinare
il simbolo di uscita yj con probabilità 1, pertanto tutte le P(yj|xi) sono o 0 o 1 e quindi H(Y|X)
si annulla.
Si ottiene allora, essendo I ( X ; Y )  I (Y ; X )  H (Y )  H (Y | X ) (v. 4.10)
I ( X ; Y )  H (Y )
ossia per canali deterministici l’informazione mutua coincide con l’entropia dell’uscita, dal
momento che non può esistere equivocazione dell’uscita rispetto all’ingresso, essendo
l’uscita determinata con probabilità 1 dall’ingresso stesso. Non esiste quindi guadagno di
informazione in uscita dalla conoscenza dell’ingresso.
CANALI IN CASCATA
Consideriamo due o più canali in cascata, in cui l’uscita da un canale diviene l’ingresso di
un altro e così via, come in figura 5.3
Figura 5.3
Ammettiamo che il canale 1 abbia alfabeto di ingresso X con r simboli e alfabeto di uscita
Y con s simboli, e che Y sia alfabeto di ingresso per il canale 2, che avrà un alfabeto di
uscita Z con t simboli.
Vogliamo analizzare la perdita di informazione del secondo canale rispetto al primo.
Osserviamo che il simbolo zk dipende dal primo ingresso xi solo attraverso yj . Questo
significa che se conosciamo yj, l’uscita zk dipende solo da questo e non dal digit del primo
ingresso xi che lo ha prodotto. Vale cioè vale
P(zk|yj,xi)=P(zk|yj)
i=1,…,r;j=1,…,s;k=1,…,t
formula caratteristica dei canali in cascata.
D’altra parte vale anche
P(xi|yj,zk)=P(xi|yj)
i,j,k
dal momento che la coppia (xi,yj) è indipendente dall’uscita zk.
Sembra verosimile che in questo caso l’equivocazione debba aumentare, ossia che H(X|Z)
debba essere maggiore di H(X|Y).
In effetti sulla base delle definizioni precedenti e applicando la solita disuguaglianza
ln x  x  1 sarebbe possibile dimostrare che
H(X | Z)  H(X | Y)  0
ovvero che l’incertezza sul simbolo di ingresso nota l’uscita dal canale 2 è maggiore o al
più uguale all’incertezza sul simbolo di ingresso nota l’uscita dal canale 1. Questo significa
che, dalla definizione di informazione mutua di canale,
I ( X ;Y )  I ( X ; Z )
(5.2)
ossia si perde informazione mutua aggiungendo canali in cascata. Il segno di uguaglianza
vale se le probabilità condizionate dell’ingresso data la prima uscita sono uguali alle
probabilità condizionate dell’ingresso data la seconda uscita: è ovvio che in questo caso
non c’è perdita di informazione.
CANALI RIDOTTI E RIDUZIONI SUFFICIENTI
In molte situazioni pratiche la varietà delle uscite da un canale è sovrabbondante rispetto
alle necessità del ricevitore.
Si pensi ai dati trasmessi da un satellite. Supponiamo che l’antenna di terra sia in grado di
convogliare informazioni sotto forma di ampiezze di tensione che il ricevitore discrimina fra
0 ed 1 a seconda che siano maggiori o minore di una soglia. Possiamo immaginare due
tipi diversi di uscite da questo canale: un’uscita composta da tutte le ampiezze distinguibili
ed un’altra con due sole uscite come l’ingresso. Questo secondo tipo è una “riduzione” del
primo.
Definizione. Dato un canale con r ingressi ed s uscite, si chiama canale ridotto quello
ottenuto dal precedente considerando s-1 uscite ottenute addizionando due colonne del
canale originario.
Riscriviamo a questo scopo la matrice di canale (4.1) evidenziando opportunamente le
due colonne i-ma e i+1-ma :
P11
...
P1i
P1i 1
...
P21
..
P2i
P2i 1 ... P2 s
P  ...
...
...
...
...
...
...
...
...
...
...
...
Pr1
... Pri
Pri1
...
Prs
(5.3)
P1s
Il nuovo canale, detto riduzione elementare del canale dato o canale ridotto, avrà una
matrice di canale P’ ottenuta dalla (5.3) addizionando i-esima e i+1-esima colonna, quindi
avrà r ingressi e s-1 uscite:
P11
...
P1i

P1i 1
...
P21
..
P2i

P2i 1
... P2 s
P  ...
...
...
...
...
...
...
...
...
...
Pr1
... Pri
...
Prs

Pri1
P1s
Lo stesso processo può essere ripetuto con riduzioni successive fino ad ottenere un
prodotto finale detto riduzione del canale originario P.
Ad esempio, dalla matrice (4.2a) del canale (BSC)2
si può ottenere una riduzione
elementare addizionando la prima e la seconda colonna (semplicemente osservando che
P*=1-P e sommando gli elementi delle due colonne):
X 2  00,01,10,11
Y 2  00,01,10,11
P *2  (1  P)(1  P)  (1  2 P  P 2 )
P *2  P * P  1  2 P  P 2  (1  P) P  1  2 P  P 2  P  P 2  P *

P*
PP *
P2
P*
P2
PP *
P
P *2
P*P
P
P*P
P *2
e poi allo stesso modo la seconda e la terza colonna, fino ad ottenere la riduzione del
canale originale
' ' 
P*
P
P*
P
P
P*
P
P*
Consideriamo un canale deterministico in cascata con il canale da ridurre. Lo scopo del
canale deterministico, che ha righe con tutti zeri salvo un elemento che vale 1, è quello di
combinare opportunamente le uscite del canale originario, e quindi i simboli del suo
alfabeto di uscita, in un numero più piccolo di simboli di uscita.
Ad esempio nel canale ridotto di (BSC)2 appena visto, considerando che sempre si
intende P*=P(0|0)=P(1|1) e P=P(1|0)=P(0|1), la prima uscita (prima colonna) sintetizza le
uscite originarie 00 e 01, la seconda uscita sintetizza le uscite originarie 10 e 11.
Rappresentiamo la situazione nella Figura 5.4.
Figura 5.4
Se Z è l’alfabeto di uscita del canale deterministico, sappiamo che:
H(X | Z)  H(X | Y)
I ( X ;Y )  I ( X ; Z )
In altre parole, riducendo un canale l’informazione mutua degli alfabeti di ingresso e di
uscita in generale diminuisce, o al più rimane immutata. Dunque semplificare il canale
originario ha un costo in termini informativi.
Vogliamo vedere quando sia possibile semplificare il canale senza perdita di informazione.
Applicheremo riduzioni elementari procedendo poi per induzione.
Supponiamo senza perdita di generalità di combinare la prima e la seconda colonna:
supponiamo di ridurre ad una sola uscita z1 le prime due uscite intermedia y1 e y2.
Affinchè I(X;Z)=I(X;Y), come si è visto, è necessario che sia H(X|Z)=H(X|Y), ossia che
P(xi|yj)=P(xi|zk)
 i,j,k t.c. P(yj,zk)0
Questa condizione è evidentemente soddisfatta da tutti gli yj salvo quelli che vengono
combinati in 1, ossia per y1 e y2.
Per y1 e y2, invece, si ottiene specificatamente
(5.4)
P(xi|y1)= P(xi|z1)= P(xi|y2)
ovvero per tutti i simboli di X si deve verificare che le probabilità “inverse” rispetto a y1 e y2
devono essere uguali.
In questo caso il canale può essere ridotto senza perdere informazione mutua.
Ma vogliamo anche capire la condizione in cui la (5.4) può essere indipendente dal modo
in cui si utilizza il canale da ridurre, ossia dalla P(xi), che come sappiamo è in generale
legata alle probabilità inverse. Applicando la (4.3) e la (4.4) arriviamo immediatamente alla
seguente espressione:
r
P( y1 | xi )

P ( y 2 | xi )
 P( y
1
| xi ) P ( xi )
 P( y
2
| xi ) P ( xi )
i 1
r
i 1
In questa espressione il primo membro dipende solo dal canale e dalla sua matrice,
mentre il secondo dipende anche dal modo in cui viene utilizzato (ossia P(xi)).
Se vogliamo che l’espressione sia indipendente da P(xi) dovremo fare il modo che il
secondo membro non vari con P(xi), in modo che la costante si possa estrapolare.
In questo caso
P(y1|xi)=costP(y2|xi)
Si richiede cioè che le due prime colonne siano proporzionali.
Se questa condizione è soddisfatta potremo combinare queste due colonne e in questo
caso l’informazione mutua del canale ridotto sarà identica a quella del canale originario.
Il canale ridotto verrà allora chiamato riduzione sufficiente del canale originario.
Esempio:
P
Canale originario
1/ 6
1/ 3 1/ 2
0
1 / 12 1 / 6 1 / 4 1 / 2
Combino le prime due colonne e ottengo il
Canale ridotto
P'
1/ 2 1/ 2
0
1/ 4 1/ 4 1/ 2
Combino di nuovo le prime due colonne ed ottengo
Canale ridotto
P' ' 
1
0
1/ 2 1/ 2
che rappresenta la riduzione sufficiente.
ADDITIVITA’ DELL’INFORMAZIONE MUTUA
Nel caso in cui ad un ingresso possono corrispondere più simboli di uscita, ci si chiede se
esista un guadagno di informazione osservando più uscite in corrispondenza dello stesso
simbolo di ingreso.
Ad esempio negli anni 50, per supplire al rumore del canale, si utilizzavano codici a
ripetizione, che inviavano un simbolo un numero di volte convenuto fra trasmettitore e
ricevitore.
Oppure si può pensare ad un canale che risponde con più uscite ad un solo ingresso.
Ad esempio, pensiamo al caso in cui ad un simbolo di ingresso corrispondono due simboli
in uscita. Per induzione potremo apliare il ragionamento al caso con un ingresso ed n
simboli in uscita.
Sia dato un alfabeto di ingresso X e due alfabeti di uscita Y e Z. Se inviamo il simbolo xi
riceviamo due simboli di uscita yj e zk .
E’ facile allora constatare che, dalla (4.8)
I ( X ;Y )  H ( X )  H ( X | Y )
è l’informazione mutua fra ingresso e prima uscita, in cui le probabilità a posteriori P(xi|yj)
in cui le probabilità a priori P(xi) sono cambiate dopo l’osservazione della prima uscita.
Abbiamo inoltre
I ( X ;Y , Z )  H ( X )  H ( X | Y , Z )
(5.5)
Come informazione mutua fra ingresso e le due uscite fondata sulle probabilità
condizionali dopo l’osservazione delle due uscite successive, P(xi|yj,zk).
Riesce ovvio dare la definizione dell’informazione mutua fra X e Z dato Y come
I(X;Z | Y)  H(X | Y)  H(X | Y, Z)
(5.6)
ossia la differenza di entropia a posteriori dopo la prima uscita e quella a posteriori dopo le
due uscite.
Sommando membro a membro la (4.8) alla (5.6) tenendo conto della (5.5) si ottiene quindi
I ( X ;Y )  I ( X ; Z | Y )  I ( X ;Y , Z )
ossia l’informazione mutua fra l’ingresso e le due uscite è la somma di quella fra ingresso
e prima uscita e quella fra ingressso e seconda uscita data la prima uscita: si tratta della
proprietà di additività dell’informazione mutua.
L’ordine delle osservazioni non è rilevante e quindi è possibile scambiare Y con Z.
Con ragionamento induttivo, si può assicurare che è garantita anche l’additività
dell’informazione mutua relativa all’osservazione di n uscite corrispondenti ad un ingresso:
l’informazione mutua derivante da n osservazioni di uscita è la somma di quella derivante
dall’osservazione della prima uscita più quella data dall’osservazione della seconda uscita
data la prima, più…e così via n volte.
CAPACITA’ DI CANALE
Consideriamo un canale di informazione con alfabeto di ingresso X, alfabeto di uscita Y,
matrice di canale con elementi Pij. L’informazione mutua I(X;Y) può essere conosciuta solo
conoscendo le P(xi), probabilità dei simboli di ingresso. Dunque dipende non solo dal
canale ma anche dal modo con cui il canale è utilizzato, attraverso la conoscenza delle
P(xi).
Vogliamo quindi trovare il modo più conveniente per utilizzare il canale, studiando la
variazione dell’informazione mutua al variare delle probabilità degli ingressi.
Definizione. Si chiama capacità di canale C il valore massimo assunto da I(X;Y) al variare
delle probabilità di ingresso P(xi), ovvero il valore massimo ottenibile per l’informazione
mutua provando tutti i possibili modi di utilizzo del canale.
C  max I ( X ; Y )
(5.7)
P ( xi )
Consideriamo ad esempio il canale BSC per il quale (4.12) vale
I ( X ; Y ) BSC  H (P *  * P*)  H ( P)
Massimizziamo questa espressione al variare della probabilità di ingresso . Dal momento
che H(P) dipende solo dal canale,
C ( BSC)  1  H ( P)
Visto che 1 è il valor massimo della funzione entropia ottenuto per   1/ 2 , come dal
grafico in Figura 4.1 .
Il valore minimo dell’informazione mutua si ottiene per   0 , oppure   1, ossia quando
l’ingresso è noto all’uscita prima di riceverlo, per cui l’entropia dell’scita condizionata
dall’ingresso coincide con l’entropia dell’uscita.
D’altra parte il valor massimo (la capacità) è raggiunto per   1/ 2 , ossia quando è
massima l’incertezza sul simbolo di ingresso e quindi è massimo il guadagno di
informazione che deriva dalla conoscenza dell’uscita.
Analizziamo ora la capacità del canale al variare della probabilità P.
In Figura 5.5 si riporta la capacità del canale BSC al variare della probabilità P.
Osserviamo che è massima e pari ad 1 per P=0 oppure P=1, ossia per il BSC senza
rumore, il che è ragionevole.
La capacità risulta minima e pari a 0 per P=1/2, ossia quando si ricevono meta 0 e metà 1
a prescindere dal simbolo trasmesso.
Figura 5.5
In generale se il canale di informazione è diverso dal BSC il calcolo non è agevole.
Studiamo il caso particolare dei canali uniformi o simmetrici, anche non binari, in cui la
matrice è quadrata (r=s, tanti ingressi quante uscite), e tale per cui ogni riga e colonna
sono permutazioni della prima riga.
Dalla espressione dell’informazione mutua (4.8), il sottraendo può essere scritto (come
noto dalla (4.6) e per simmetria)


1

H (Y | X )   P( xi ) P( y j | xi ) log 
 P( y | x ) 
i 1
j 1
j
i 

r
s
in cui i termini dellaa seconda sommatoria risultano indipendenti dagli ingressi x i, in modo
che la prima sommatoria può essere estrapolata e vale 1.
Otteniamo così per la I(X;Y) l’espressione
s
I(X;Y)=H(Y) -
 P( y
j 1
j


1

| xi ) log 
 P( y | x ) 
j
i 

,
s=r
in cui l’ultimo termine è indipendente dalla distribuzione dei termini in ingresso.
Poiché il secondo termine non dipende direttamente da xi, la I(X;Y) è massimizzata
massimizzando H(Y). Pertanto l’espressione capacità di canale uniforme risulta
r
C  log r   P( y j | xi ) log P( y j | xi )
j 1
Come deriva direttamente dalla definizione di C e dalla (2.1a).
Ad esempio, consideriamo il canale uniforme a tre ingressi e tre uscite con matrice
1/ 4 1/ 4 1/ 2
P  1/ 2 1/ 4 1/ 4
1/ 4 1/ 2 1/ 4
ed ingressi equiprobabili P(xi)=1/3 per i=1,2,3.
Si ottiene allora
P( y1 ) 
11 11 11 1



43 23 43 3
e allo stesso modo per le probabilità delle altre uscite.
Il calcolo di C con questi numeri, con r=3, porta al risultato C=0.08 bit.
L’altro canale che verrà trattato diffusamente per la sua importanza sia teorica che pratica
è il WNGC (White Noise Gaussian Channel).