5 – TIPI DI CANALE Studiamo ora tipi particolari di canale per i quali si possono ottenere espressioni notevoli. Consideriamo la matrice di canale (4.1) per la quale abbiamo già visto che la somma degli elementi di una riga deve valere 1 dal momento che un ingresso si deve certamente tradurre in un’uscita. Esaminando le colonne della matrice di canale arguiamo quindi che una colonna di tutti 0 (ossia corrispondente al fatto che un’uscita non si verifica mai qualunque sia l’ingresso) è un evento impossibile. Se invece in ciascuna colonna c’è un solo elemento diverso da zero, questo significa che una data uscita corrisponde ad un solo ingresso: non è vero in generale il viceversa. Definizione. Un canale rappresentato da una matrice con uno e un solo elemento non zero in ogni colonna è detto canale senza rumore. Questo perché l’effetto del rumore è proprio quello di far apparire un’uscita diversa dal simbolo di ingresso inviato. Quando l’uscita è legata univocamente ad un preciso ingresso, questo non si può verificare. Un esempio banale è quello del BSC con P=0 e P*=1, o viceversa P=1 e P*=0: si tratta di canali senza rumore anche se la probabilità di errore è massima: è sufficiente infatti decodificare in uscita nel simbolo opposto a quello ricevuto e si annullano gli effetti del rumore. In Figura 5.1 riportiamo un esempio di canale senza rumore. 1/ 2 1/ 2 P 0 0 0 0 0 0 0 0 3 / 5 3 / 10 1 / 10 0 0 0 0 1 Figura 5.1 Supponiamo viceversa di considerare una matrice di canale in cui sia presente un solo elemento non zero per ogni riga: questo elemento non può che valere 1, ossia la somma degli elementi di una riga. Definizione. Un canale rappresentato da una matrice con uno ed un solo elemento non zero (e quindi uguale ad 1) in ogni riga è chiamato canale deterministico. In effetti, dato un ingresso si è certi di quale sarà l’uscita. Un esempio si trova nella Figura 5.2. 1 1 0 P 0 0 0 0 0 0 0 1 0 1 0 1 0 0 1 Figura 5.2 L’informazione mutua per questi tipi di canale può essere determinata agevolmente. Infatti per il canale senza rumore si osserva che una qualunque uscita yj ci indica con probabilità 1 quale ingresso è stato inviato, ossia quale xi è stato trasmesso. Le probabilità condizionate inverse P(xi|yj) sono allora tutte o zero o uno. Pertanto l’equivocazione di X rispetto ad Y è nulla, come si vede dall’espressione di H(X|Y) da I ( X ;Y ) H ( X ) H ( X | Y ) r I ( X ; Y ) P( xi ) log( i 1 1 ) P ( xi ) s r P ( y ) P ( x j 1 j i 1 i 1 | y j ) log P( x | y ) i j in cui tutti gli addendi interni sono nulli, valendo 1 log 1 oppure 0 log( 1 / 0) . In definitiva per un canale senza rumore vale I ( X ;Y ) H ( X ) (5.1) ossia l’informazione mutua coincide con l’entropia a priori. Questo è un risultato ragionevole, visto che non può esserci guadagno di informazione dalla conoscenza di un’uscita legata univocamente ad un certo ingresso. L’incertezza sull’ingresso rimane inalterata anche conoscendo l’uscita e il numero medio di bit necessari a rappresentare un ingresso conoscendo già l’uscita è zero. Il numero medio di bit necessari a priori per specificare un ingresso rimane inalterato dpo l’uscita. Per un canale deterministico, invece, il simbolo di ingresso xi è sufficiente per determinare il simbolo di uscita yj con probabilità 1, pertanto tutte le P(yj|xi) sono o 0 o 1 e quindi H(Y|X) si annulla. Si ottiene allora, essendo I ( X ; Y ) I (Y ; X ) H (Y ) H (Y | X ) (v. 4.10) I ( X ; Y ) H (Y ) ossia per canali deterministici l’informazione mutua coincide con l’entropia dell’uscita, dal momento che non può esistere equivocazione dell’uscita rispetto all’ingresso, essendo l’uscita determinata con probabilità 1 dall’ingresso stesso. Non esiste quindi guadagno di informazione in uscita dalla conoscenza dell’ingresso. CANALI IN CASCATA Consideriamo due o più canali in cascata, in cui l’uscita da un canale diviene l’ingresso di un altro e così via, come in figura 5.3 Figura 5.3 Ammettiamo che il canale 1 abbia alfabeto di ingresso X con r simboli e alfabeto di uscita Y con s simboli, e che Y sia alfabeto di ingresso per il canale 2, che avrà un alfabeto di uscita Z con t simboli. Vogliamo analizzare la perdita di informazione del secondo canale rispetto al primo. Osserviamo che il simbolo zk dipende dal primo ingresso xi solo attraverso yj . Questo significa che se conosciamo yj, l’uscita zk dipende solo da questo e non dal digit del primo ingresso xi che lo ha prodotto. Vale cioè vale P(zk|yj,xi)=P(zk|yj) i=1,…,r;j=1,…,s;k=1,…,t formula caratteristica dei canali in cascata. D’altra parte vale anche P(xi|yj,zk)=P(xi|yj) i,j,k dal momento che la coppia (xi,yj) è indipendente dall’uscita zk. Sembra verosimile che in questo caso l’equivocazione debba aumentare, ossia che H(X|Z) debba essere maggiore di H(X|Y). In effetti sulla base delle definizioni precedenti e applicando la solita disuguaglianza ln x x 1 sarebbe possibile dimostrare che H(X | Z) H(X | Y) 0 ovvero che l’incertezza sul simbolo di ingresso nota l’uscita dal canale 2 è maggiore o al più uguale all’incertezza sul simbolo di ingresso nota l’uscita dal canale 1. Questo significa che, dalla definizione di informazione mutua di canale, I ( X ;Y ) I ( X ; Z ) (5.2) ossia si perde informazione mutua aggiungendo canali in cascata. Il segno di uguaglianza vale se le probabilità condizionate dell’ingresso data la prima uscita sono uguali alle probabilità condizionate dell’ingresso data la seconda uscita: è ovvio che in questo caso non c’è perdita di informazione. CANALI RIDOTTI E RIDUZIONI SUFFICIENTI In molte situazioni pratiche la varietà delle uscite da un canale è sovrabbondante rispetto alle necessità del ricevitore. Si pensi ai dati trasmessi da un satellite. Supponiamo che l’antenna di terra sia in grado di convogliare informazioni sotto forma di ampiezze di tensione che il ricevitore discrimina fra 0 ed 1 a seconda che siano maggiori o minore di una soglia. Possiamo immaginare due tipi diversi di uscite da questo canale: un’uscita composta da tutte le ampiezze distinguibili ed un’altra con due sole uscite come l’ingresso. Questo secondo tipo è una “riduzione” del primo. Definizione. Dato un canale con r ingressi ed s uscite, si chiama canale ridotto quello ottenuto dal precedente considerando s-1 uscite ottenute addizionando due colonne del canale originario. Riscriviamo a questo scopo la matrice di canale (4.1) evidenziando opportunamente le due colonne i-ma e i+1-ma : P11 ... P1i P1i 1 ... P21 .. P2i P2i 1 ... P2 s P ... ... ... ... ... ... ... ... ... ... ... ... Pr1 ... Pri Pri1 ... Prs (5.3) P1s Il nuovo canale, detto riduzione elementare del canale dato o canale ridotto, avrà una matrice di canale P’ ottenuta dalla (5.3) addizionando i-esima e i+1-esima colonna, quindi avrà r ingressi e s-1 uscite: P11 ... P1i P1i 1 ... P21 .. P2i P2i 1 ... P2 s P ... ... ... ... ... ... ... ... ... ... Pr1 ... Pri ... Prs Pri1 P1s Lo stesso processo può essere ripetuto con riduzioni successive fino ad ottenere un prodotto finale detto riduzione del canale originario P. Ad esempio, dalla matrice (4.2a) del canale (BSC)2 si può ottenere una riduzione elementare addizionando la prima e la seconda colonna (semplicemente osservando che P*=1-P e sommando gli elementi delle due colonne): X 2 00,01,10,11 Y 2 00,01,10,11 P *2 (1 P)(1 P) (1 2 P P 2 ) P *2 P * P 1 2 P P 2 (1 P) P 1 2 P P 2 P P 2 P * P* PP * P2 P* P2 PP * P P *2 P*P P P*P P *2 e poi allo stesso modo la seconda e la terza colonna, fino ad ottenere la riduzione del canale originale ' ' P* P P* P P P* P P* Consideriamo un canale deterministico in cascata con il canale da ridurre. Lo scopo del canale deterministico, che ha righe con tutti zeri salvo un elemento che vale 1, è quello di combinare opportunamente le uscite del canale originario, e quindi i simboli del suo alfabeto di uscita, in un numero più piccolo di simboli di uscita. Ad esempio nel canale ridotto di (BSC)2 appena visto, considerando che sempre si intende P*=P(0|0)=P(1|1) e P=P(1|0)=P(0|1), la prima uscita (prima colonna) sintetizza le uscite originarie 00 e 01, la seconda uscita sintetizza le uscite originarie 10 e 11. Rappresentiamo la situazione nella Figura 5.4. Figura 5.4 Se Z è l’alfabeto di uscita del canale deterministico, sappiamo che: H(X | Z) H(X | Y) I ( X ;Y ) I ( X ; Z ) In altre parole, riducendo un canale l’informazione mutua degli alfabeti di ingresso e di uscita in generale diminuisce, o al più rimane immutata. Dunque semplificare il canale originario ha un costo in termini informativi. Vogliamo vedere quando sia possibile semplificare il canale senza perdita di informazione. Applicheremo riduzioni elementari procedendo poi per induzione. Supponiamo senza perdita di generalità di combinare la prima e la seconda colonna: supponiamo di ridurre ad una sola uscita z1 le prime due uscite intermedia y1 e y2. Affinchè I(X;Z)=I(X;Y), come si è visto, è necessario che sia H(X|Z)=H(X|Y), ossia che P(xi|yj)=P(xi|zk) i,j,k t.c. P(yj,zk)0 Questa condizione è evidentemente soddisfatta da tutti gli yj salvo quelli che vengono combinati in 1, ossia per y1 e y2. Per y1 e y2, invece, si ottiene specificatamente (5.4) P(xi|y1)= P(xi|z1)= P(xi|y2) ovvero per tutti i simboli di X si deve verificare che le probabilità “inverse” rispetto a y1 e y2 devono essere uguali. In questo caso il canale può essere ridotto senza perdere informazione mutua. Ma vogliamo anche capire la condizione in cui la (5.4) può essere indipendente dal modo in cui si utilizza il canale da ridurre, ossia dalla P(xi), che come sappiamo è in generale legata alle probabilità inverse. Applicando la (4.3) e la (4.4) arriviamo immediatamente alla seguente espressione: r P( y1 | xi ) P ( y 2 | xi ) P( y 1 | xi ) P ( xi ) P( y 2 | xi ) P ( xi ) i 1 r i 1 In questa espressione il primo membro dipende solo dal canale e dalla sua matrice, mentre il secondo dipende anche dal modo in cui viene utilizzato (ossia P(xi)). Se vogliamo che l’espressione sia indipendente da P(xi) dovremo fare il modo che il secondo membro non vari con P(xi), in modo che la costante si possa estrapolare. In questo caso P(y1|xi)=costP(y2|xi) Si richiede cioè che le due prime colonne siano proporzionali. Se questa condizione è soddisfatta potremo combinare queste due colonne e in questo caso l’informazione mutua del canale ridotto sarà identica a quella del canale originario. Il canale ridotto verrà allora chiamato riduzione sufficiente del canale originario. Esempio: P Canale originario 1/ 6 1/ 3 1/ 2 0 1 / 12 1 / 6 1 / 4 1 / 2 Combino le prime due colonne e ottengo il Canale ridotto P' 1/ 2 1/ 2 0 1/ 4 1/ 4 1/ 2 Combino di nuovo le prime due colonne ed ottengo Canale ridotto P' ' 1 0 1/ 2 1/ 2 che rappresenta la riduzione sufficiente. ADDITIVITA’ DELL’INFORMAZIONE MUTUA Nel caso in cui ad un ingresso possono corrispondere più simboli di uscita, ci si chiede se esista un guadagno di informazione osservando più uscite in corrispondenza dello stesso simbolo di ingreso. Ad esempio negli anni 50, per supplire al rumore del canale, si utilizzavano codici a ripetizione, che inviavano un simbolo un numero di volte convenuto fra trasmettitore e ricevitore. Oppure si può pensare ad un canale che risponde con più uscite ad un solo ingresso. Ad esempio, pensiamo al caso in cui ad un simbolo di ingresso corrispondono due simboli in uscita. Per induzione potremo apliare il ragionamento al caso con un ingresso ed n simboli in uscita. Sia dato un alfabeto di ingresso X e due alfabeti di uscita Y e Z. Se inviamo il simbolo xi riceviamo due simboli di uscita yj e zk . E’ facile allora constatare che, dalla (4.8) I ( X ;Y ) H ( X ) H ( X | Y ) è l’informazione mutua fra ingresso e prima uscita, in cui le probabilità a posteriori P(xi|yj) in cui le probabilità a priori P(xi) sono cambiate dopo l’osservazione della prima uscita. Abbiamo inoltre I ( X ;Y , Z ) H ( X ) H ( X | Y , Z ) (5.5) Come informazione mutua fra ingresso e le due uscite fondata sulle probabilità condizionali dopo l’osservazione delle due uscite successive, P(xi|yj,zk). Riesce ovvio dare la definizione dell’informazione mutua fra X e Z dato Y come I(X;Z | Y) H(X | Y) H(X | Y, Z) (5.6) ossia la differenza di entropia a posteriori dopo la prima uscita e quella a posteriori dopo le due uscite. Sommando membro a membro la (4.8) alla (5.6) tenendo conto della (5.5) si ottiene quindi I ( X ;Y ) I ( X ; Z | Y ) I ( X ;Y , Z ) ossia l’informazione mutua fra l’ingresso e le due uscite è la somma di quella fra ingresso e prima uscita e quella fra ingressso e seconda uscita data la prima uscita: si tratta della proprietà di additività dell’informazione mutua. L’ordine delle osservazioni non è rilevante e quindi è possibile scambiare Y con Z. Con ragionamento induttivo, si può assicurare che è garantita anche l’additività dell’informazione mutua relativa all’osservazione di n uscite corrispondenti ad un ingresso: l’informazione mutua derivante da n osservazioni di uscita è la somma di quella derivante dall’osservazione della prima uscita più quella data dall’osservazione della seconda uscita data la prima, più…e così via n volte. CAPACITA’ DI CANALE Consideriamo un canale di informazione con alfabeto di ingresso X, alfabeto di uscita Y, matrice di canale con elementi Pij. L’informazione mutua I(X;Y) può essere conosciuta solo conoscendo le P(xi), probabilità dei simboli di ingresso. Dunque dipende non solo dal canale ma anche dal modo con cui il canale è utilizzato, attraverso la conoscenza delle P(xi). Vogliamo quindi trovare il modo più conveniente per utilizzare il canale, studiando la variazione dell’informazione mutua al variare delle probabilità degli ingressi. Definizione. Si chiama capacità di canale C il valore massimo assunto da I(X;Y) al variare delle probabilità di ingresso P(xi), ovvero il valore massimo ottenibile per l’informazione mutua provando tutti i possibili modi di utilizzo del canale. C max I ( X ; Y ) (5.7) P ( xi ) Consideriamo ad esempio il canale BSC per il quale (4.12) vale I ( X ; Y ) BSC H (P * * P*) H ( P) Massimizziamo questa espressione al variare della probabilità di ingresso . Dal momento che H(P) dipende solo dal canale, C ( BSC) 1 H ( P) Visto che 1 è il valor massimo della funzione entropia ottenuto per 1/ 2 , come dal grafico in Figura 4.1 . Il valore minimo dell’informazione mutua si ottiene per 0 , oppure 1, ossia quando l’ingresso è noto all’uscita prima di riceverlo, per cui l’entropia dell’scita condizionata dall’ingresso coincide con l’entropia dell’uscita. D’altra parte il valor massimo (la capacità) è raggiunto per 1/ 2 , ossia quando è massima l’incertezza sul simbolo di ingresso e quindi è massimo il guadagno di informazione che deriva dalla conoscenza dell’uscita. Analizziamo ora la capacità del canale al variare della probabilità P. In Figura 5.5 si riporta la capacità del canale BSC al variare della probabilità P. Osserviamo che è massima e pari ad 1 per P=0 oppure P=1, ossia per il BSC senza rumore, il che è ragionevole. La capacità risulta minima e pari a 0 per P=1/2, ossia quando si ricevono meta 0 e metà 1 a prescindere dal simbolo trasmesso. Figura 5.5 In generale se il canale di informazione è diverso dal BSC il calcolo non è agevole. Studiamo il caso particolare dei canali uniformi o simmetrici, anche non binari, in cui la matrice è quadrata (r=s, tanti ingressi quante uscite), e tale per cui ogni riga e colonna sono permutazioni della prima riga. Dalla espressione dell’informazione mutua (4.8), il sottraendo può essere scritto (come noto dalla (4.6) e per simmetria) 1 H (Y | X ) P( xi ) P( y j | xi ) log P( y | x ) i 1 j 1 j i r s in cui i termini dellaa seconda sommatoria risultano indipendenti dagli ingressi x i, in modo che la prima sommatoria può essere estrapolata e vale 1. Otteniamo così per la I(X;Y) l’espressione s I(X;Y)=H(Y) - P( y j 1 j 1 | xi ) log P( y | x ) j i , s=r in cui l’ultimo termine è indipendente dalla distribuzione dei termini in ingresso. Poiché il secondo termine non dipende direttamente da xi, la I(X;Y) è massimizzata massimizzando H(Y). Pertanto l’espressione capacità di canale uniforme risulta r C log r P( y j | xi ) log P( y j | xi ) j 1 Come deriva direttamente dalla definizione di C e dalla (2.1a). Ad esempio, consideriamo il canale uniforme a tre ingressi e tre uscite con matrice 1/ 4 1/ 4 1/ 2 P 1/ 2 1/ 4 1/ 4 1/ 4 1/ 2 1/ 4 ed ingressi equiprobabili P(xi)=1/3 per i=1,2,3. Si ottiene allora P( y1 ) 11 11 11 1 43 23 43 3 e allo stesso modo per le probabilità delle altre uscite. Il calcolo di C con questi numeri, con r=3, porta al risultato C=0.08 bit. L’altro canale che verrà trattato diffusamente per la sua importanza sia teorica che pratica è il WNGC (White Noise Gaussian Channel).