Informazione Comunicazione Codici IR Cos’è l’Informazione Giambattista Amati Università di Tor Vergata, Roma 20 marzo 2015 Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Sommario 1 Misura dell’informazione 2 Teoria della comunicazione 3 Shannon-Fano 4 L’informazione in Information retrieval Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Outline 1 Misura dell’informazione 2 Teoria della comunicazione 3 Shannon-Fano 4 L’informazione in Information retrieval Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Misura dell’informazione C.E. Shannon (A mathematical theory of Information, 1949) I messaggi hanno un significato che è irrilevante nel problema dell’ingegneria della comunicazione. Il messaggio è selezionato tra un insieme di possibili messaggi (scelta). Problema Quantificare l’incertezza associata al problema decisionale di selezione del messaggio ovvero misurare quanta “scelta” è richiesta per selezionare un evento. Risposta La funzione logaritmica log2 |S| dell’insieme (finito) S delle scelte quale misura di informazione. La base 2 è tale unità (binary digit o bit cfr J.W. Tukey). Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Misura dell’informazione C.E. Shannon (A mathematical theory of Information, 1949) I messaggi hanno un significato che è irrilevante nel problema dell’ingegneria della comunicazione. Il messaggio è selezionato tra un insieme di possibili messaggi (scelta). Problema Quantificare l’incertezza associata al problema decisionale di selezione del messaggio ovvero misurare quanta “scelta” è richiesta per selezionare un evento. Risposta La funzione logaritmica log2 |S| dell’insieme (finito) S delle scelte quale misura di informazione. La base 2 è tale unità (binary digit o bit cfr J.W. Tukey). Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Misura dell’informazione C.E. Shannon (A mathematical theory of Information, 1949) I messaggi hanno un significato che è irrilevante nel problema dell’ingegneria della comunicazione. Il messaggio è selezionato tra un insieme di possibili messaggi (scelta). Problema Quantificare l’incertezza associata al problema decisionale di selezione del messaggio ovvero misurare quanta “scelta” è richiesta per selezionare un evento. Risposta La funzione logaritmica log2 |S| dell’insieme (finito) S delle scelte quale misura di informazione. La base 2 è tale unità (binary digit o bit cfr J.W. Tukey). Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Outline 1 Misura dell’informazione 2 Teoria della comunicazione 3 Shannon-Fano 4 L’informazione in Information retrieval Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Teoria della comunicazione Supponiamo di avere n eventi possibili con probabilità p1 , . . . , pn Proviamo a definire la quantità H di informazione associata a questa configurazione. 1 Se gli eventi sono equiprobabili allora, la quantità di informazione prodotta è monotona rispetto agli eventi. (Più scelta ovvero più incertezza ovvero più informazione) H(p1 , . . . , pm ) ≤ H(q1 , . . . , qn ) se m ≤ n e pi = pj , qi = qj 2 3 L’informazione è invariante per scelte successive se la distribuzione finale delle probabilità sugli eventi è la stessa. Continuità. Variando di poco le probabilità degli eventi anche l’informazione varia di poco. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Teoria della comunicazione Supponiamo di avere n eventi possibili con probabilità p1 , . . . , pn Proviamo a definire la quantità H di informazione associata a questa configurazione. 1 Se gli eventi sono equiprobabili allora, la quantità di informazione prodotta è monotona rispetto agli eventi. (Più scelta ovvero più incertezza ovvero più informazione) H(p1 , . . . , pm ) ≤ H(q1 , . . . , qn ) se m ≤ n e pi = pj , qi = qj 2 3 L’informazione è invariante per scelte successive se la distribuzione finale delle probabilità sugli eventi è la stessa. Continuità. Variando di poco le probabilità degli eventi anche l’informazione varia di poco. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Teoria della comunicazione Supponiamo di avere n eventi possibili con probabilità p1 , . . . , pn Proviamo a definire la quantità H di informazione associata a questa configurazione. 1 Se gli eventi sono equiprobabili allora, la quantità di informazione prodotta è monotona rispetto agli eventi. (Più scelta ovvero più incertezza ovvero più informazione) H(p1 , . . . , pm ) ≤ H(q1 , . . . , qn ) se m ≤ n e pi = pj , qi = qj 2 3 L’informazione è invariante per scelte successive se la distribuzione finale delle probabilità sugli eventi è la stessa. Continuità. Variando di poco le probabilità degli eventi anche l’informazione varia di poco. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Entropia: Scelte successive Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Entropia: Scelte successive H(p1 . . . , pn ) = − n X pi log2 pi i=1 H(1/2, 1/3, 1/6) = H(1/2, 1/2) + 1/2H(2/3, 1/3) Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Entropia: Scelte successive H(1/2, 1/2) + 1/2H(2/3, 1/3) = = 1/2 log2 2 + 1/2 log2 2 + 1/2 (2/3 log2 3/2 + 1/3 log2 3) = = 1/2 log2 2 + 1/2 log2 2 + 1/3 log2 3 − 1/3 log2 2 + 1/6 log2 3 = = 1/2 log2 2 + 1/6 log2 2 + 1/3 log 3 + 1/6 log2 3 = 1/2 log2 2 + 1/6 log2 6 + 1/3 log2 3 = = H(1/2, 1/3, 1/6) Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Entropia L’unica funzione continua, monotona crescente sul numero di eventi equiprobabili e invariante per scelte successive è l’entropia n X H(p1 . . . , pn ) = − pi log2 pi i=1 Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Esercizi 1 Generalizzare l’esempio ad una distribuzione di probabilità arbitraria. Enunciare il principio di invarianza di una funzione H per scelte successive e verificarla. 2 Verificare la monotonicità rispetto al numero degli eventi equiprobabili. 3 Verificare che l’entropia è massima, nell’ipotesi che gli eventi siano equiprobabili. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Esercizi 1 Generalizzare l’esempio ad una distribuzione di probabilità arbitraria. Enunciare il principio di invarianza di una funzione H per scelte successive e verificarla. 2 Verificare la monotonicità rispetto al numero degli eventi equiprobabili. 3 Verificare che l’entropia è massima, nell’ipotesi che gli eventi siano equiprobabili. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Esercizi 1 Generalizzare l’esempio ad una distribuzione di probabilità arbitraria. Enunciare il principio di invarianza di una funzione H per scelte successive e verificarla. 2 Verificare la monotonicità rispetto al numero degli eventi equiprobabili. 3 Verificare che l’entropia è massima, nell’ipotesi che gli eventi siano equiprobabili. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Outline 1 Misura dell’informazione 2 Teoria della comunicazione 3 Shannon-Fano 4 L’informazione in Information retrieval Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Codifica dei messaggi (Shannon-Fano) Supponiamo ora di ordinare i messaggi in ordine decrescente delle loro probabilità. p1 ≥ . . . ≥ pn Sia Pi = i−1 X pj la probabilità cumulata fino all’i-esimo j=1 messaggio escluso. Codifichiamo l’i-esimo messaggio espandendo in binario Pi fino al posto ki del suo sviluppo binario, dove ki è dato da: − log2 pi ≤ ki < 1 − log2 pi I messaggi con maggiore probabilità hanno i codici più corti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Codifica dei messaggi (Shannon-Fano) Supponiamo ora di ordinare i messaggi in ordine decrescente delle loro probabilità. p1 ≥ . . . ≥ pn Sia Pi = i−1 X pj la probabilità cumulata fino all’i-esimo j=1 messaggio escluso. Codifichiamo l’i-esimo messaggio espandendo in binario Pi fino al posto ki del suo sviluppo binario, dove ki è dato da: − log2 pi ≤ ki < 1 − log2 pi I messaggi con maggiore probabilità hanno i codici più corti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Codifica dei messaggi (Shannon-Fano) Supponiamo ora di ordinare i messaggi in ordine decrescente delle loro probabilità. p1 ≥ . . . ≥ pn Sia Pi = i−1 X pj la probabilità cumulata fino all’i-esimo j=1 messaggio escluso. Codifichiamo l’i-esimo messaggio espandendo in binario Pi fino al posto ki del suo sviluppo binario, dove ki è dato da: − log2 pi ≤ ki < 1 − log2 pi I messaggi con maggiore probabilità hanno i codici più corti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Esercizio Verificare che 4 Il codice dell’i-esimo messaggio differisce da tutti i successivi in uno o più dei suoi ki posti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Esempio di codifica p= 0.4 0, 0.3 0, 0.2 0, 0.1 0, P= 0 0.4 0.7 0.9 Giambattista Amati Lezione II x2 0.8 0 0.6 0 0.4 0 0.2 0 x2 0.6 1 0.2 1 0.8 0 0.4 0 0 0 1 1 0 1 0 1 x2 x2 x2 x2 x2 x2 0.2 0.4 0.8 0.6 0.2 0.4 1 0 0 1 1 0 0.4 0.8 0.6 0.2 0.4 0.8 0 0 1 1 0 0 0.6 0.2 0.4 0.8 0.6 0.2 1 1 0 0 1 1 0.8 0.6 0.2 0.4 0.8 0.6 0 1 1 0 0 1 (cumulativa) Codifica in blu 0 0 0 0 0 0 1 0 0 1 1 0 1 1 0 0 1 1 1 0 0 1 1 0 x2 0.8 0 0.6 1 0.4 0 0.2 1 − log2 p 1.32 k 2 1.74 2 2.32 3 3.32 4 0 0 0 0 2 2 3 4 Università di Tor Vergata Informazione Comunicazione Codici IR Outline 1 Misura dell’informazione 2 Teoria della comunicazione 3 Shannon-Fano 4 L’informazione in Information retrieval Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR L’informazione in Information retrieval Data una collezione di documenti, la quantità di informazione di un termine è stata definita con la funzione Inverse Document Frequency (IDF) Inf(termine) = − log2 Numero di documenti contenenti il termine Numero totale dei documenti (Karen Sparck-Jones, 1972) Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR IDF come misura dell’informazione Inverse Document Frequency (IDF) Inf(termine) = − log2 Numero di documenti contenenti il termine Numero totale dei documenti + I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno un contenuto informativo nullo mediante l’IDF + È limitato superiormente da log N (N numero totale dei documenti) - Parole più rare ma non informative, come “mediante” o “davvero”, ricevono un contenuto informativo significativo mediante l’IDF. - Non si applica al singolo documento o a un insieme piccolo di documenti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR IDF come misura dell’informazione Inverse Document Frequency (IDF) Inf(termine) = − log2 Numero di documenti contenenti il termine Numero totale dei documenti + I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno un contenuto informativo nullo mediante l’IDF + È limitato superiormente da log N (N numero totale dei documenti) - Parole più rare ma non informative, come “mediante” o “davvero”, ricevono un contenuto informativo significativo mediante l’IDF. - Non si applica al singolo documento o a un insieme piccolo di documenti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR IDF come misura dell’informazione Inverse Document Frequency (IDF) Inf(termine) = − log2 Numero di documenti contenenti il termine Numero totale dei documenti + I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno un contenuto informativo nullo mediante l’IDF + È limitato superiormente da log N (N numero totale dei documenti) - Parole più rare ma non informative, come “mediante” o “davvero”, ricevono un contenuto informativo significativo mediante l’IDF. - Non si applica al singolo documento o a un insieme piccolo di documenti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR IDF come misura dell’informazione Inverse Document Frequency (IDF) Inf(termine) = − log2 Numero di documenti contenenti il termine Numero totale dei documenti + I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno un contenuto informativo nullo mediante l’IDF + È limitato superiormente da log N (N numero totale dei documenti) - Parole più rare ma non informative, come “mediante” o “davvero”, ricevono un contenuto informativo significativo mediante l’IDF. - Non si applica al singolo documento o a un insieme piccolo di documenti. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR la legge di Zipf La frequenza di una parola in un testo è inversamente proporzionale al suo posizionamento r nell’ordine decrescente indotto dalle frequenze stesse. p= C (r + B)α − log p = α log (r + B) + c0 La relazione tra i logaritmi del rango e delle frequenze relative è lineare. Giambattista Amati Lezione II Università di Tor Vergata Informazione Giambattista Amati Lezione II Comunicazione Codici IR Università di Tor Vergata Informazione Comunicazione Codici IR Soluzione Esercizi P 1. Sia ni=1 P pi = 1 una distribuzione di probabilità sui primi n eventi e sia m i=1 qi = 1 una seconda distribuzione di probabilità che decompone l’i-esimo evento di probabilità pj . Vogliamo dimostrare che H(p1 , . . . , pn ) + pj H(q1 , . . . , qm ) = = H(p1 , . . . , pj−1 , pj q1 , . . . , pj qm , pj+1 , . . . , pn ) È facile verificare che Pn i6=j pi + Pm i=1 pj qi = 1 e dunque p1 , . . . , pj−1 , pj q1 , . . . , pj qm , pj+1 , . . . , pn è una distribuzione di probabilità su n + m − 1 eventi. Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR Allora Pn H(p1 , . . . , pj−1 P,mpj q1 , . . . , pj qm , pj+1 , . . . , pn ) = − i6=j pi log2 pi − i=1 pj qi log2 pj qi = P P − ni6=j pi log2 pi − pj m i=1 qi log2 pj qi = Pn Pm − i6=j pi log2 pi − pj i=1 qi (log2 pj + log2 qi ) = P P P − ni6=j pi log2 pi − pj m qi log2 pj − pj m i=1 qi log2 qi = i=1 Pn Pm P − i6=j pi log2 pi − pj log2 pj ( i=1 qi ) − pj m i=1 qi log2 qi = Pn Pm − i6=j pi log2 pi − pj log2 pj − pj i=1 qi log2 qi = P P − ni=1 pi log2 pi − pj m i=1 qi log2 qi H(p1 , . . . , pn ) + pj H(q1 , . . . , qm ) Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR 2. H(p1 , . . . , pn ) = log2 n ≥ H(p1 , . . . , pm ) = log m se e solo se n≥m 3. La derivata di H(x, 1 − x) è 1−x = − log2 x − log2 e xx + log2 (1 − x) + − log2 e 1−x − log2 x + log2 (1 − x). È massima quando − log2 x + log2 (1 − x) = 0 cioè x = 1 − x ovvero per x = 21 . Giambattista Amati Lezione II Università di Tor Vergata Informazione Comunicazione Codici IR 4. Shannon Fano. Le ipotesi sono p1 ≥ . . . ≥ pn Pi = i X pj j=1 − log2 pi ≤ ki < 1 − log2 pi Da cui 2−ki ≤Ppi < 2−ki +1 −kr se r + 1 ≤ i ≤ n, allora P Poichè Pi = i−1 r j=1 pj ≥ Pr + 2 −k deve differire da Pi nelle prime kr posizioni (sommando 2 r allo sviluppo binario di Pr significa che la cifra 1 nella posizione kr dovrà essere sommata nello sviluppo binario della probabilità cumulativa e quindi almeno uno zero di Pr diventa 1 od un 1 diventa 0 in Pi ). (Nell’esempio precedentente il bit in rosso della riga i è stato aggiunto nella riga successiva i + 1 (in blu) dei valori cumulativi.) Giambattista Amati Lezione II Università di Tor Vergata