Informazione
Comunicazione
Codici
IR
Cos’è l’Informazione
Giambattista Amati
Università di Tor Vergata, Roma
20 marzo 2015
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Sommario
1
Misura dell’informazione
2
Teoria della comunicazione
3
Shannon-Fano
4
L’informazione in Information retrieval
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Outline
1
Misura dell’informazione
2
Teoria della comunicazione
3
Shannon-Fano
4
L’informazione in Information retrieval
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Misura dell’informazione
C.E. Shannon (A mathematical theory of Information, 1949)
I messaggi hanno un significato che è irrilevante nel
problema dell’ingegneria della comunicazione. Il
messaggio è selezionato tra un insieme di possibili
messaggi (scelta).
Problema Quantificare l’incertezza associata al
problema decisionale di selezione del messaggio ovvero
misurare quanta “scelta” è richiesta per selezionare un
evento.
Risposta La funzione logaritmica log2 |S| dell’insieme
(finito) S delle scelte quale misura di informazione.
La base 2 è tale unità (binary digit o bit cfr J.W. Tukey).
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Misura dell’informazione
C.E. Shannon (A mathematical theory of Information, 1949)
I messaggi hanno un significato che è irrilevante nel
problema dell’ingegneria della comunicazione. Il
messaggio è selezionato tra un insieme di possibili
messaggi (scelta).
Problema Quantificare l’incertezza associata al
problema decisionale di selezione del messaggio ovvero
misurare quanta “scelta” è richiesta per selezionare un
evento.
Risposta La funzione logaritmica log2 |S| dell’insieme
(finito) S delle scelte quale misura di informazione.
La base 2 è tale unità (binary digit o bit cfr J.W. Tukey).
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Misura dell’informazione
C.E. Shannon (A mathematical theory of Information, 1949)
I messaggi hanno un significato che è irrilevante nel
problema dell’ingegneria della comunicazione. Il
messaggio è selezionato tra un insieme di possibili
messaggi (scelta).
Problema Quantificare l’incertezza associata al
problema decisionale di selezione del messaggio ovvero
misurare quanta “scelta” è richiesta per selezionare un
evento.
Risposta La funzione logaritmica log2 |S| dell’insieme
(finito) S delle scelte quale misura di informazione.
La base 2 è tale unità (binary digit o bit cfr J.W. Tukey).
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Outline
1
Misura dell’informazione
2
Teoria della comunicazione
3
Shannon-Fano
4
L’informazione in Information retrieval
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Teoria della comunicazione
Supponiamo di avere n eventi possibili con probabilità
p1 , . . . , pn
Proviamo a definire la quantità H di informazione associata a
questa configurazione.
1
Se gli eventi sono equiprobabili allora, la quantità di
informazione prodotta è monotona rispetto agli eventi.
(Più scelta ovvero più incertezza ovvero più informazione)
H(p1 , . . . , pm ) ≤ H(q1 , . . . , qn ) se m ≤ n e pi = pj , qi = qj
2
3
L’informazione è invariante per scelte successive se la
distribuzione finale delle probabilità sugli eventi è la stessa.
Continuità. Variando di poco le probabilità degli eventi
anche l’informazione varia di poco.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Teoria della comunicazione
Supponiamo di avere n eventi possibili con probabilità
p1 , . . . , pn
Proviamo a definire la quantità H di informazione associata a
questa configurazione.
1
Se gli eventi sono equiprobabili allora, la quantità di
informazione prodotta è monotona rispetto agli eventi.
(Più scelta ovvero più incertezza ovvero più informazione)
H(p1 , . . . , pm ) ≤ H(q1 , . . . , qn ) se m ≤ n e pi = pj , qi = qj
2
3
L’informazione è invariante per scelte successive se la
distribuzione finale delle probabilità sugli eventi è la stessa.
Continuità. Variando di poco le probabilità degli eventi
anche l’informazione varia di poco.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Teoria della comunicazione
Supponiamo di avere n eventi possibili con probabilità
p1 , . . . , pn
Proviamo a definire la quantità H di informazione associata a
questa configurazione.
1
Se gli eventi sono equiprobabili allora, la quantità di
informazione prodotta è monotona rispetto agli eventi.
(Più scelta ovvero più incertezza ovvero più informazione)
H(p1 , . . . , pm ) ≤ H(q1 , . . . , qn ) se m ≤ n e pi = pj , qi = qj
2
3
L’informazione è invariante per scelte successive se la
distribuzione finale delle probabilità sugli eventi è la stessa.
Continuità. Variando di poco le probabilità degli eventi
anche l’informazione varia di poco.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Entropia: Scelte successive
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Entropia: Scelte successive
H(p1 . . . , pn ) = −
n
X
pi log2 pi
i=1
H(1/2, 1/3, 1/6) = H(1/2, 1/2) + 1/2H(2/3, 1/3)
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Entropia: Scelte successive
H(1/2, 1/2) + 1/2H(2/3, 1/3) =
= 1/2 log2 2 + 1/2 log2 2 + 1/2 (2/3 log2 3/2 + 1/3 log2 3) =
= 1/2 log2 2 + 1/2 log2 2 + 1/3 log2 3 − 1/3 log2 2 + 1/6 log2 3 =
= 1/2 log2 2 + 1/6 log2 2 + 1/3 log 3 + 1/6 log2 3
= 1/2 log2 2 + 1/6 log2 6 + 1/3 log2 3 =
= H(1/2, 1/3, 1/6)
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Entropia
L’unica funzione continua, monotona crescente sul numero di
eventi equiprobabili e invariante per scelte successive è
l’entropia
n
X
H(p1 . . . , pn ) = −
pi log2 pi
i=1
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Esercizi
1
Generalizzare l’esempio ad una distribuzione di probabilità
arbitraria. Enunciare il principio di invarianza di una
funzione H per scelte successive e verificarla.
2
Verificare la monotonicità rispetto al numero degli eventi
equiprobabili.
3
Verificare che l’entropia è massima, nell’ipotesi che gli
eventi siano equiprobabili.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Esercizi
1
Generalizzare l’esempio ad una distribuzione di probabilità
arbitraria. Enunciare il principio di invarianza di una
funzione H per scelte successive e verificarla.
2
Verificare la monotonicità rispetto al numero degli eventi
equiprobabili.
3
Verificare che l’entropia è massima, nell’ipotesi che gli
eventi siano equiprobabili.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Esercizi
1
Generalizzare l’esempio ad una distribuzione di probabilità
arbitraria. Enunciare il principio di invarianza di una
funzione H per scelte successive e verificarla.
2
Verificare la monotonicità rispetto al numero degli eventi
equiprobabili.
3
Verificare che l’entropia è massima, nell’ipotesi che gli
eventi siano equiprobabili.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Outline
1
Misura dell’informazione
2
Teoria della comunicazione
3
Shannon-Fano
4
L’informazione in Information retrieval
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Codifica dei messaggi (Shannon-Fano)
Supponiamo ora di ordinare i messaggi in ordine
decrescente delle loro probabilità.
p1 ≥ . . . ≥ pn
Sia Pi =
i−1
X
pj la probabilità cumulata fino all’i-esimo
j=1
messaggio escluso. Codifichiamo l’i-esimo messaggio
espandendo in binario Pi fino al posto ki del suo sviluppo
binario, dove ki è dato da:
− log2 pi ≤ ki < 1 − log2 pi
I messaggi con maggiore probabilità hanno i codici più
corti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Codifica dei messaggi (Shannon-Fano)
Supponiamo ora di ordinare i messaggi in ordine
decrescente delle loro probabilità.
p1 ≥ . . . ≥ pn
Sia Pi =
i−1
X
pj la probabilità cumulata fino all’i-esimo
j=1
messaggio escluso. Codifichiamo l’i-esimo messaggio
espandendo in binario Pi fino al posto ki del suo sviluppo
binario, dove ki è dato da:
− log2 pi ≤ ki < 1 − log2 pi
I messaggi con maggiore probabilità hanno i codici più
corti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Codifica dei messaggi (Shannon-Fano)
Supponiamo ora di ordinare i messaggi in ordine
decrescente delle loro probabilità.
p1 ≥ . . . ≥ pn
Sia Pi =
i−1
X
pj la probabilità cumulata fino all’i-esimo
j=1
messaggio escluso. Codifichiamo l’i-esimo messaggio
espandendo in binario Pi fino al posto ki del suo sviluppo
binario, dove ki è dato da:
− log2 pi ≤ ki < 1 − log2 pi
I messaggi con maggiore probabilità hanno i codici più
corti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Esercizio
Verificare che
4 Il codice dell’i-esimo messaggio differisce da tutti i
successivi in uno o più dei suoi ki posti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Esempio di codifica
p=
0.4
0,
0.3
0,
0.2
0,
0.1
0,
P=
0
0.4
0.7
0.9
Giambattista Amati
Lezione II
x2
0.8
0
0.6
0
0.4
0
0.2
0
x2
0.6
1
0.2
1
0.8
0
0.4
0
0
0
1
1
0
1
0
1
x2 x2 x2 x2 x2 x2
0.2 0.4 0.8 0.6 0.2 0.4
1
0
0
1
1
0
0.4 0.8 0.6 0.2 0.4 0.8
0
0
1
1
0
0
0.6 0.2 0.4 0.8 0.6 0.2
1
1
0
0
1
1
0.8 0.6 0.2 0.4 0.8 0.6
0
1
1
0
0
1
(cumulativa) Codifica in blu
0
0
0
0
0
0
1
0
0
1
1
0
1
1
0
0
1
1
1
0
0
1
1
0
x2
0.8
0
0.6
1
0.4
0
0.2
1
− log2 p
1.32
k
2
1.74
2
2.32
3
3.32
4
0
0
0
0
2
2
3
4
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Outline
1
Misura dell’informazione
2
Teoria della comunicazione
3
Shannon-Fano
4
L’informazione in Information retrieval
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
L’informazione in Information retrieval
Data una collezione di documenti, la quantità di informazione di
un termine è stata definita con la funzione Inverse Document
Frequency (IDF)
Inf(termine) = − log2
Numero di documenti contenenti il termine
Numero totale dei documenti
(Karen Sparck-Jones, 1972)
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
IDF come misura dell’informazione
Inverse Document Frequency (IDF)
Inf(termine) = − log2
Numero di documenti contenenti il termine
Numero totale dei documenti
+ I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno
un contenuto informativo nullo mediante l’IDF
+ È limitato superiormente da log N (N numero totale dei
documenti)
- Parole più rare ma non informative, come “mediante” o
“davvero”, ricevono un contenuto informativo significativo
mediante l’IDF.
- Non si applica al singolo documento o a un insieme
piccolo di documenti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
IDF come misura dell’informazione
Inverse Document Frequency (IDF)
Inf(termine) = − log2
Numero di documenti contenenti il termine
Numero totale dei documenti
+ I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno
un contenuto informativo nullo mediante l’IDF
+ È limitato superiormente da log N (N numero totale dei
documenti)
- Parole più rare ma non informative, come “mediante” o
“davvero”, ricevono un contenuto informativo significativo
mediante l’IDF.
- Non si applica al singolo documento o a un insieme
piccolo di documenti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
IDF come misura dell’informazione
Inverse Document Frequency (IDF)
Inf(termine) = − log2
Numero di documenti contenenti il termine
Numero totale dei documenti
+ I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno
un contenuto informativo nullo mediante l’IDF
+ È limitato superiormente da log N (N numero totale dei
documenti)
- Parole più rare ma non informative, come “mediante” o
“davvero”, ricevono un contenuto informativo significativo
mediante l’IDF.
- Non si applica al singolo documento o a un insieme
piccolo di documenti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
IDF come misura dell’informazione
Inverse Document Frequency (IDF)
Inf(termine) = − log2
Numero di documenti contenenti il termine
Numero totale dei documenti
+ I termini “i”, “il”, “la” , “è”, “un” probabilmente riceveranno
un contenuto informativo nullo mediante l’IDF
+ È limitato superiormente da log N (N numero totale dei
documenti)
- Parole più rare ma non informative, come “mediante” o
“davvero”, ricevono un contenuto informativo significativo
mediante l’IDF.
- Non si applica al singolo documento o a un insieme
piccolo di documenti.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
la legge di Zipf
La frequenza di una parola in un testo è inversamente
proporzionale al suo posizionamento r nell’ordine decrescente
indotto dalle frequenze stesse.
p=
C
(r + B)α
− log p = α log (r + B) + c0
La relazione tra i logaritmi del rango e delle frequenze relative è
lineare.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Giambattista Amati
Lezione II
Comunicazione
Codici
IR
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Soluzione Esercizi
P
1. Sia ni=1 P
pi = 1 una distribuzione di probabilità sui primi n
eventi e sia m
i=1 qi = 1 una seconda distribuzione di
probabilità che decompone l’i-esimo evento di probabilità pj .
Vogliamo dimostrare che
H(p1 , . . . , pn ) + pj H(q1 , . . . , qm ) =
= H(p1 , . . . , pj−1 , pj q1 , . . . , pj qm , pj+1 , . . . , pn )
È facile verificare che
Pn
i6=j
pi +
Pm
i=1 pj qi
= 1 e dunque
p1 , . . . , pj−1 , pj q1 , . . . , pj qm , pj+1 , . . . , pn
è una distribuzione di probabilità su n + m − 1 eventi.
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
Allora
Pn H(p1 , . . . , pj−1
P,mpj q1 , . . . , pj qm , pj+1 , . . . , pn ) =
− i6=j pi log2 pi − i=1 pj qi log2 pj qi =
P
P
− ni6=j pi log2 pi − pj m
i=1 qi log2 pj qi =
Pn
Pm
− i6=j pi log2 pi − pj i=1 qi (log2 pj + log2 qi ) =
P
P
P
− ni6=j pi log2 pi − pj m
qi log2 pj − pj m
i=1 qi log2 qi =
i=1
Pn
Pm
P
− i6=j pi log2 pi − pj log2 pj ( i=1 qi ) − pj m
i=1 qi log2 qi =
Pn
Pm
− i6=j pi log2 pi − pj log2 pj − pj i=1 qi log2 qi =
P
P
− ni=1 pi log2 pi − pj m
i=1 qi log2 qi
H(p1 , . . . , pn ) + pj H(q1 , . . . , qm )
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
2. H(p1 , . . . , pn ) = log2 n ≥ H(p1 , . . . , pm ) = log m se e solo se
n≥m
3. La derivata di H(x, 1 − x) è
1−x
=
− log2 x − log2 e xx + log2 (1 − x) + − log2 e 1−x
− log2 x + log2 (1 − x). È massima quando
− log2 x + log2 (1 − x) = 0 cioè x = 1 − x ovvero per x = 21 .
Giambattista Amati
Lezione II
Università di Tor Vergata
Informazione
Comunicazione
Codici
IR
4. Shannon Fano. Le ipotesi sono
p1 ≥ . . . ≥ pn
Pi =
i
X
pj
j=1
− log2 pi ≤ ki < 1 − log2 pi
Da cui 2−ki ≤Ppi < 2−ki +1
−kr se r + 1 ≤ i ≤ n, allora P
Poichè Pi = i−1
r
j=1 pj ≥ Pr + 2
−k
deve differire da Pi nelle prime kr posizioni (sommando 2 r
allo sviluppo binario di Pr significa che la cifra 1 nella posizione
kr dovrà essere sommata nello sviluppo binario della
probabilità cumulativa e quindi almeno uno zero di Pr diventa 1
od un 1 diventa 0 in Pi ). (Nell’esempio precedentente il bit in
rosso della riga i è stato aggiunto nella riga successiva i + 1 (in
blu) dei valori cumulativi.)
Giambattista Amati
Lezione II
Università di Tor Vergata