TEORIA DELL’INFORMAZIONE ED ENTROPIA DI FEDERICO MARINI 1 OBIETTIVO DELLA TEORIA DELL’INFORMAZIONE Dato un messaggio prodotto da una sorgente, l’OBIETTIVO è capire come si deve rappresentare tale messaggio per ottenere una trasmissione efficiente ed affidabile dell’informazione in essa contenuta su un canale di comunicazione reale. 2 Il primo passo da analizzare è definire il tipo di sorgente: SORGENTE DISCRETA E’ un tipo di sorgente che emette simboli che appartengono ad un alfabeto finito X = { x1 , x2 ,....., xM } ciascuno caratterizzato da una probabilità Pi e autoinformazione I i . 3 Pertanto la teoria dell’ Informazione utilizza tre concetti base: Misura d’informazione di una sorgente Capacità d’informazione di un canale Codifica: mezzo per utilizzare la capacità di canale per trasferire informazione. 4 CODIFICA SORGENTE Governata dal I° teorema di Shannon. CANALE Governata dal II° teor. di Shannon 5 La misura dell’informazione è legata all’incertezza associata all’emissione di ciascun simbolo xi . Pertanto l’informazione associata ad un messaggio è legata alla sua probabilità. Shannon definisce la misura d’informazione, la seguente quantità: Dove I i rappresenta l’ autoinformazione del messaggio e b è la base del logaritmo. Se b=2 l’autoinformazione si misura in bit. 6 MISURA D’INFORMAZIONE – PROPRIETA’ per 0 ≤ Pi ≤ 1 I i → 0 per Pi → 1 I > I per Pi < Pj Iij =−logb P xi , xj =−logb PP i j =−logb Pi −logb Pj = Ii + I j Ii ≥ 0 i j ( ) ENTROPIA DI UNA SORGENTE Tale quantità si definisce Entropia della sorgente e rappresenta l’informazione media per simbolo che è data dalla media statistica delle autoinformazioni dei simboli della sorgente ( I1 , I 2 ,...., I M ). Per M=2, l’entropia vale: 8 ENTROPIA DI UNA SORGENTE M-ARIA Pi Nel caso di sorgente M-aria, l’entropia H(x) dipende dalla probabilità Pi dei simboli emessi dalla sorgente e dalla dimensione M dell’alfabeto con M numero di simboli. 9 ENTROPIA DI SORGENTE BINARIA Definite le due probabilità di emissione dei simboli P1 = p e P2 = 1 − p : 10 TEOREMA DELLA CODIFICA DI SORGENTE Sorgente discreta senza memoria Codificatore binario R = rH ( X ) rb ≥ R R = rb Ω ( p ) 11 I° TEOREMA DI SHANNON N Con N che rappresenta il valor medio delle lunghezze delle parole di codice che rappresentano i simboli emessi dalla sorgente e con H(X) l’entropia di una sorgente discreta senza memoria. 12 EFFICIENZA DI UN CODICE η= H ( x) N Un codice per cui vale assolutamente ottimo. ≤1 N = H ( x ) si dice Un codice per cui si ottiene il valore minimo possibile di N per una determinata sorgente si dice ottimo. Un codice con valore di N superiore a quello di un codice ottimo si dice sub-ottimo. CODICE DI HUFFMAN E’ un esempio di codice ottimo , in quanto si riesce ad ottenere il minimo N possibile per una determinata sorgente (ma non necessariamente assolutamente ottimo η =1). 14 CODIFICA DI CANALE L’obiettivo consiste nell’aumentare la resistenza di un sistema di telecomunicazione al rumore presente sul canale. 2) La codifica di canale “trasforma” la sequenza di dati in ingresso al canale in una nuova sequenza intrinsecamente più robusta agli effetti del rumore. 3) La decodifica di canale effettua l’operazione inversa in uscita dal canale per ricostruire la sequenza originale. 1) 15 Il canale è considerato come operatore stocastico che trasforma i simboli in ingresso in simboli in diversi in uscita in modo probabilistico. Il canale è descritto dalla matrice di canale i cui elementi sono le probabilità condizionate P ( yN / xM ) : { x1 , x2 ,....., xM } = X CANALE (RUMOROSO) { y1 , y2 ,....., yN } = Y 16 EQUIVOCAZIONE DI CANALE H ( X / Y ) = E X ,Y 1 log 2 P x / y ( ) X /Y L’Equivocazione di Canale rappresenta l’incertezza che rimane in media sul simbolo trasmesso, dopo l’osservazione del simbolo ricevuto. INFORMAZIONE MUTUA I = ( X ,Y ) = H ( X ) − H ( X / Y ) L’Informazione Mutua mi dice di quanto sia ridotta in media l’incertezza sul simbolo emesso dalla sorgente una volta osservato il simbolo ricevuto. 17 CAPACITA’ DI CANALE PER SIMBOLO Cs E’ il tasso d’informazione massimo consentito da un dato canale: Cs = max I ( X , Y ) [bit / simbolo ] {P( xi )} CAPACITA’ DI CANALE PER UNITA’ DI TEMPO C C = Cs ⋅ S Dove S mi indica la massima velocità dei simboli permessi dal canale. 18 CANALE DISCRETO SIMMETRICO Un canale discreto simmetrico è un canale in cui le probabilità di transizione sono tali per cui la probabilità di transire risulta uguale per tutti i simboli (quindi l’entropia condizionata H (Y / xi ) è indipendente dal simbolo xi ). 19 CAPACITA’ DI UN CANALE BINARIO SIMMETRICO I ( X ; Y ) = H (Y ) − H (Y / X ) = Ω (α + p − 2α p ) − Ω (α ) Ponendo p=0.5, ottengo: Cs = Ω (α + p − 2α p ) − Ω (α ) = 1 − Ω (α ) Quindi Cs dipende dalla probabilità di transizione α : Per α = 0, Cs = 1 e si ha un canale ideale (canale senza rumore). Per α → 0.5 , Cs = 0 e si ha un canale rumoroso. 21 II° TEOREMA DI SHANNON (CODIFICA DI CANALE) Si suppone di avere una sorgente discreta senza memoria con alfabeto X, entropia H(X) e symbol rate r. L’information rate vale R=rH(X) Si suppone di disporre un canale discreto senza memoria con capacità per unità di tempo pari a C [bit/sec]. 22 Se R ≤ C allora esiste un sistema di codifica tale da permettere la trasmissione dell’informazione emessa dalla sorgente sul canale con una probabilità di errore arbitrariamente piccola. Se R > C non è possibile trasmettere l’informazioni senza errori. 23 SORGENTE CONTINUA La sorgente può produrre un insieme di possibili segnali nel tempo x ( t ) che può essere visto come un processo aleatorio ergodico. La capacità del canale sarà espressa intermini di larghezza di banda e di rapporto segnale-rumore. Ad ogni istante di campionamento si ha una variabile aleatoria continua x descritta da una funzione di densità di probabilità px ( x ) . 24 ENTROPIA DI UNA SORGENTE CONTINUA H (X ) = ∞ ∫ p ( x ) ⋅ log x 1 2 −∞ px ( x ) dx CAPACITA’ DI UN CANALE CONTINUO Cs = max I ( X ; Y ) [bit / campione] {Px ( x )} CAPACITA’ DI UN CANALE CONTINUO A BANDA LIMITATA C = 2 B ⋅ Cs 25 LEGGE DI HARTLEY-SHANNON S C = B ⋅ log 2 1 + [bit / sec] N La legge di Hartley-Shannon descrive la capacità di un canale continuo che introduce un rumore additivo Gaussiano Bianco con banda limitata. 26