TEORIA DELL’INFORMAZIONE
I FONDAMENTI
La teoria dell’informazione ha avuto origine dai problemi sorti con l’avvento dei
sistemi di comunicazione. Di fatto consiste nello studio di una sorgente di
messaggi che devono esser inviati attraverso un mezzo di trasmissione, il
canale, e devono essere ricevuti da un utente.
Il primo problema che si pone è di trovare una rappresentazione (codifica) dei
messaggi in modo efficace ed economico.
Anche in questo caso avremo a che fare con un alfabeto, e l’alfabeto più
semplice dal punto di vista elettrico è l’alfabeto binario, costituito dai due
simboli 1 e 0.
La questione fondamentale che si pone è:
qual è il numero medio di simboli necessario a rappresentare un messaggio
senza perdere l’informazione che trasporta ? In altre parole, quanto può essere
compressa la rappresentazione del messaggio senza che questo perda
contenuto informativo ?
La risposta a questo quesito fu data da C.E. Shannon a partire dal 1948. Scoprì
che il numero medio minimo è rappresentato dall’entropia della sorgente
misurata in unità r (r numero dei simboli dell’alfabeto). Un valore inferiore
porta a perdita di informazione, superiore porta a ridondanza.
L’altro problema è costituito dal fatto che il canale di trasmissione perfetto non
esiste: il canale è sempre rumoroso, ed è necessario trovare tecniche per
evitare che il rumore del canale corrompa l’informazione. Un metodo semplice
è quello di ripetere tante volte le parole trasmesse per aumentare la
probabilità di riceverle correttamente. Si tratta quindi di valutare quanto debba
essere questa ridondanza per rendere la trasmissione affidabile.
Shannon definì a tale scopo la grandezza capacità C che determina la
ridondanza che può rendere piccolo a piacere l’errore di ricezione.
CODIFICA DEI MESSAGGI
Ogni sistema di trasmissione e ricezione di informazione è schematizzabile in
questo modo:
Fig.1.1
L’informazione veicolata può essere di qualsiasi genere: parole, dati, immagini,
segnali.
La comunicazione digitale consiste nella trasmissione codificata di informazione
in linguaggio binario, ossia in una sequenza di zeri e di uni.
Una sequenza binaria è una disposizione con ripetizione di due oggetti, 0 e 1.
E’ noto che le disposizioni con ripetizione di n oggetti presi k alla volta sono
Dn,kR = nk
ossia, nel caso binario,
2k.
Quindi per codificare coppie binarie avremo 4 alternative, 8 per terne binarie, e
così via.
Per codificare i numeri da 0 a 9 saranno allora necessarie delle quaterne:
numero codice
0
0000
1
0001
2
0010
3
0011
4
0100
5
0110
6
0101
7
0111
8
1000
9
1001
Al di là dei simboli binari utilizzati (o binit, binary digit), bisogna considerare
anche la probabilità di ricorrenza dei messaggi. Facciamo un esempio:
Vogliamo comunicare il tempo a Roma utilizzando quattro stati (sereno,
nuvoloso,
piovoso,
nebbioso).
Poiché
questi
stati
sono
essenzialmente
equiprobabili, potremo utilizzare il seguente codice:
Codice1
stato
Probabilità
Messaggio binario
Sereno
¼
00
Nuvoloso
¼
10
Piovoso
¼
01
Nebbioso
¼
11
Se vogliamo utilizzare gli stessi quattro messaggi per descrivere il tempo di
Londra, dobbiamo però considerare che le probabilità sono diverse da stato a
stato. Allora rappresenteremo i messaggi più frequenti con parole più corte,
quelli meno frequenti con parol,e più lunghe.
Inoltre
facendo
in
modo
che
ciascun
messaggio
termini
con
0,
una
concatenazione di messaggi sarà facilmente decodificabile (es. 1000110 sarà
interpretato come piovoso, nebbioso,nebbioso, nuvoloso).
Codice2
stato
Probabilità
Messaggio binario
Sereno
1/8
1110
Nuvoloso
1/8
110
Piovoso
¼
10
Nebbioso
1/2
0
Ci chiediamo se sia più conveniente il Codice 1 o il Codice 2.
Per il Codice1 la lunghezza media è L = 2 binit/messaggio.
Per il Codice2 la lunghezza media è
L = 4 1/ 8  3 1/ 8  2 1/ 4  11/ 2  1.7 / 8
binit/messaggio .
Pertanto Codice2 sembra più efficiente , anche perché utilizzando il codice1
nel caso di Londra si otterrebbe L = 2.5 binit/messaggio perché
L= 4 1/ 4  3 1/ 4  2 1/ 4  11/ 4  2.5
Questo risultato intuitivo va formalizzato definendo una misura della quantità
di informazione.
Definizione.
Dato un evento E che si verifichi con probabilità P(E), l’informazione che
l’evento E si è verificato si definisce come
I ( E )  log b
1
P( E )
Dove l’unità di misura è b>1, la base scelta per il logaritmo, e 0  P( E )  1 .
Se la base è 2, si avrà
I ( E )  log 2
Se la base è e ,
I ( E )  log e
Se la base è 10,
1
bit (binary unit)
P( E )
1
nat (natural unit)
P( E )
I ( E )  log 10
Da ora in poi intenderemo log = log2
1
Hartley.
P( E )
.
Il passaggio da una unità di informazione all’altra avviene secondo la nota
formula
log a N 
1
log b N .
log b a
L’unità di misura più usata è il bit.
Dalla definizione segue, ponendo P(E)=1/2, questa importante deduzione:
Si riceve 1 bit di informazione quando ci viene comunicata la realizzazione di
un evento fra due possibili eventi ugualmente probabili, ovvero quando
riceviamo uno di due messaggi equiprobabili.
Infatti:
lg 2
1
 lg 2 2  1
1/ 2
Sono utilizzate anche altre unità di misura multiple del bit:
1 Byte = 8 bit
1 kiloByte (kB) = 1024 Byte
(1024= 210)
1 MegaByte (MB) = 106Byte
1 GigaByte (GB) = 109 Byte.
A prescindere dall’unità di misura, la quantità di informazione contenuta in un
messaggio è legata all’inverso della probabilità che venga inviato, ossia
all’incertezza a priori su quale messaggio verrà emesso. L’ informazione
aumenta con l’improbabiiltà
del verificarsi dell’evento da comunicare. Un
messaggio è tanto più informativo quanto più è inaspettato, il che è intuitivo.
Naturalmente si prescinde del tutto dall’aspetto
semantico dei messaggi e
dalla loro importanza soggettiva.
Si osserva che l’introduzione del logaritmo nella definizione di informazione
suggerisce che l’informazione cresce lentamente al diminuire della probabilità:
se quest’ultima si dimezza, l’informazione cresce solo di un bit, se diventa un
quarto l’informazione aumenta di due bit e così via.
L’introduzione del logaritmo si può motivare in questo modo.
Supponiamo che una sorgente emetta M messaggi equiprobabili, ciascuno con
probabilità P=1/M . E’ ragionevole che se vengono emessi due, tre, …,n
messaggi, questi contengano 2,3,..,n volte l’informazione di un messaggio.
Poichè per la teoria delle probabilità la probabilità di una n-pla è P=(1/M)n ,
I(n messaggi)= log Mn = n log M = n I(1 messaggio) .
Infatti:
I  lg 2
1
1
 lg 2 M n  n lg 2 M  n  lg 2
Pn
1/ M