TEORIA DELL’INFORMAZIONE I FONDAMENTI La teoria dell’informazione ha avuto origine dai problemi sorti con l’avvento dei sistemi di comunicazione. Di fatto consiste nello studio di una sorgente di messaggi che devono esser inviati attraverso un mezzo di trasmissione, il canale, e devono essere ricevuti da un utente. Il primo problema che si pone è di trovare una rappresentazione (codifica) dei messaggi in modo efficace ed economico. Anche in questo caso avremo a che fare con un alfabeto, e l’alfabeto più semplice dal punto di vista elettrico è l’alfabeto binario, costituito dai due simboli 1 e 0. La questione fondamentale che si pone è: qual è il numero medio di simboli necessario a rappresentare un messaggio senza perdere l’informazione che trasporta ? In altre parole, quanto può essere compressa la rappresentazione del messaggio senza che questo perda contenuto informativo ? La risposta a questo quesito fu data da C.E. Shannon a partire dal 1948. Scoprì che il numero medio minimo è rappresentato dall’entropia della sorgente misurata in unità r (r numero dei simboli dell’alfabeto). Un valore inferiore porta a perdita di informazione, superiore porta a ridondanza. L’altro problema è costituito dal fatto che il canale di trasmissione perfetto non esiste: il canale è sempre rumoroso, ed è necessario trovare tecniche per evitare che il rumore del canale corrompa l’informazione. Un metodo semplice è quello di ripetere tante volte le parole trasmesse per aumentare la probabilità di riceverle correttamente. Si tratta quindi di valutare quanto debba essere questa ridondanza per rendere la trasmissione affidabile. Shannon definì a tale scopo la grandezza capacità C che determina la ridondanza che può rendere piccolo a piacere l’errore di ricezione. CODIFICA DEI MESSAGGI Ogni sistema di trasmissione e ricezione di informazione è schematizzabile in questo modo: Fig.1.1 L’informazione veicolata può essere di qualsiasi genere: parole, dati, immagini, segnali. La comunicazione digitale consiste nella trasmissione codificata di informazione in linguaggio binario, ossia in una sequenza di zeri e di uni. Una sequenza binaria è una disposizione con ripetizione di due oggetti, 0 e 1. E’ noto che le disposizioni con ripetizione di n oggetti presi k alla volta sono Dn,kR = nk ossia, nel caso binario, 2k. Quindi per codificare coppie binarie avremo 4 alternative, 8 per terne binarie, e così via. Per codificare i numeri da 0 a 9 saranno allora necessarie delle quaterne: numero codice 0 0000 1 0001 2 0010 3 0011 4 0100 5 0110 6 0101 7 0111 8 1000 9 1001 Al di là dei simboli binari utilizzati (o binit, binary digit), bisogna considerare anche la probabilità di ricorrenza dei messaggi. Facciamo un esempio: Vogliamo comunicare il tempo a Roma utilizzando quattro stati (sereno, nuvoloso, piovoso, nebbioso). Poiché questi stati sono essenzialmente equiprobabili, potremo utilizzare il seguente codice: Codice1 stato Probabilità Messaggio binario Sereno ¼ 00 Nuvoloso ¼ 10 Piovoso ¼ 01 Nebbioso ¼ 11 Se vogliamo utilizzare gli stessi quattro messaggi per descrivere il tempo di Londra, dobbiamo però considerare che le probabilità sono diverse da stato a stato. Allora rappresenteremo i messaggi più frequenti con parole più corte, quelli meno frequenti con parol,e più lunghe. Inoltre facendo in modo che ciascun messaggio termini con 0, una concatenazione di messaggi sarà facilmente decodificabile (es. 1000110 sarà interpretato come piovoso, nebbioso,nebbioso, nuvoloso). Codice2 stato Probabilità Messaggio binario Sereno 1/8 1110 Nuvoloso 1/8 110 Piovoso ¼ 10 Nebbioso 1/2 0 Ci chiediamo se sia più conveniente il Codice 1 o il Codice 2. Per il Codice1 la lunghezza media è L = 2 binit/messaggio. Per il Codice2 la lunghezza media è L = 4 1/ 8 3 1/ 8 2 1/ 4 11/ 2 1.7 / 8 binit/messaggio . Pertanto Codice2 sembra più efficiente , anche perché utilizzando il codice1 nel caso di Londra si otterrebbe L = 2.5 binit/messaggio perché L= 4 1/ 4 3 1/ 4 2 1/ 4 11/ 4 2.5 Questo risultato intuitivo va formalizzato definendo una misura della quantità di informazione. Definizione. Dato un evento E che si verifichi con probabilità P(E), l’informazione che l’evento E si è verificato si definisce come I ( E ) log b 1 P( E ) Dove l’unità di misura è b>1, la base scelta per il logaritmo, e 0 P( E ) 1 . Se la base è 2, si avrà I ( E ) log 2 Se la base è e , I ( E ) log e Se la base è 10, 1 bit (binary unit) P( E ) 1 nat (natural unit) P( E ) I ( E ) log 10 Da ora in poi intenderemo log = log2 1 Hartley. P( E ) . Il passaggio da una unità di informazione all’altra avviene secondo la nota formula log a N 1 log b N . log b a L’unità di misura più usata è il bit. Dalla definizione segue, ponendo P(E)=1/2, questa importante deduzione: Si riceve 1 bit di informazione quando ci viene comunicata la realizzazione di un evento fra due possibili eventi ugualmente probabili, ovvero quando riceviamo uno di due messaggi equiprobabili. Infatti: lg 2 1 lg 2 2 1 1/ 2 Sono utilizzate anche altre unità di misura multiple del bit: 1 Byte = 8 bit 1 kiloByte (kB) = 1024 Byte (1024= 210) 1 MegaByte (MB) = 106Byte 1 GigaByte (GB) = 109 Byte. A prescindere dall’unità di misura, la quantità di informazione contenuta in un messaggio è legata all’inverso della probabilità che venga inviato, ossia all’incertezza a priori su quale messaggio verrà emesso. L’ informazione aumenta con l’improbabiiltà del verificarsi dell’evento da comunicare. Un messaggio è tanto più informativo quanto più è inaspettato, il che è intuitivo. Naturalmente si prescinde del tutto dall’aspetto semantico dei messaggi e dalla loro importanza soggettiva. Si osserva che l’introduzione del logaritmo nella definizione di informazione suggerisce che l’informazione cresce lentamente al diminuire della probabilità: se quest’ultima si dimezza, l’informazione cresce solo di un bit, se diventa un quarto l’informazione aumenta di due bit e così via. L’introduzione del logaritmo si può motivare in questo modo. Supponiamo che una sorgente emetta M messaggi equiprobabili, ciascuno con probabilità P=1/M . E’ ragionevole che se vengono emessi due, tre, …,n messaggi, questi contengano 2,3,..,n volte l’informazione di un messaggio. Poichè per la teoria delle probabilità la probabilità di una n-pla è P=(1/M)n , I(n messaggi)= log Mn = n log M = n I(1 messaggio) . Infatti: I lg 2 1 1 lg 2 M n n lg 2 M n lg 2 Pn 1/ M