Linguistica Computazionale
15 novembre 2016
Incertezza e informazione
l
l
Le probabilità servono per modellare fenomeni e sistemi il cui
esito è incerto (fenomeni aleatori)
L’entropia è una misura dell’incertezza di un fenomeno (sistema)
l
l
misura quanto è difficile predire qual è l’esito del fenomeno
Da cosa dipende il grado di incertezza?
l
numero di esiti alternativi possibili
l
l
lancio di un dato = 6 esiti possibili
estrazione di una carta = 52 esiti possibili
§
l
l’estrazione di una carta ha un maggior grado di incertezza!!
distribuzione delle probabilità per ciascun esito
l
se gli esiti hanno probabilità uniforme è più difficile prevedere quello
giusto (a parità del loro numero)
§
cf. lancio di un dado non truccato vs. lancio di un dado in cui sappiamo che il 6
ha probabilità doppia di uscire degli altri numeri
2
Incertezza e informazione
l
L’informazione è la diminuzione dell’incertezza
l
l
l
se un evento aleatorio si verifica, abbiamo ottenuto
informazione
più un evento è raro, maggiore è l’informazione che
otteniamo sapendo che si è verificato
l cf. Oggi è sorto il sole vs. Oggi c’è stata un’eclisse di sole
L’entropia è la misura della quantità di informazione
portata dagli eventi prodotti da un processo o sistema
aleatorio (formalizzato come una variabile casuale)
3
Variabile casuale
l
Una variabile casuale (random variable) è una variabile ai cui
valori è associata una distribuzione di probabilità (che specifica
la probabilità di ogni valore)
l
l
probability mass function
Una variabile casuale rappresenta un processo o sistema
aleatorio
l
l
un processo o sistema aleatorio è descritto dall’insieme di stati che
esso può assumere e da una distribuzione di probabilità ad essi
associata
Possiamo rappresentare un testo o una lingua come una
variabile casuale (W)
l
es. un testo può essere immaginato come una sequenza di parole
generata secondo una certa distribuzione di probabilità
§
i valori di W sono parole, ciascuna con una probabilità associata (= la
probabilità di una parola di essere generata/osservata in una lingua)
4
Entropia puntuale
l
l
l
L’entropia è la misura della quantità di informazione o incertezza
di una variabile casuale
L’entropia è misurata in bits (cifre binarie)
Supponiamo che
l
ad ogni istante ti si debba trasmettere un messaggio per comunicare
in quale stato si trova il sistema in ti
l
l
l
es. “quale parola v è stata prodotta?”
che il messaggio debba essere in codice binario (una stringa di 0 e 1)
Entropia puntuale (informazione) di una parola
h(v) = −log 2 p(v)
l
corrisponde al numero di bits necessari per trasmettere (=
descrivere) che è stata estratta la parola v
5
€
Entropia puntuale
l
In generale, un numero binario di n cifre può codificare al massimo 2n
messaggi
l
es. un numero binario di 2 cifre può codificare 4 messaggi diversi
l
l
00, 01, 10, 11
Se W ha n stati possibili (tutti equiprobabili), il numero di bits necessari
per codificare ogni stato è log2n
l
l
l
h(s) = log2n
se gli stati del sistema sono equiprobabili, p(s) = 1/n e n = 1/p(s)
quindi, h(s) = log21/p(s) = - log2p(s)
l
l
l
se W ha 1 stato possibile, h(s) = 0 bits
se W ha 2 stati possibili, h(s) = 1 bits
se W ha 4 stati possibili, h(s) = 2 bits
6
Entropia
l
l
l
L’entropia di un variabile W è il numero medio di bits
necessari per codificare i suoi stati possibili
Nel caso del testo (linguaggio), possiamo assumere
che i valori (= stati) di W siano gli elementi del
vocabolario VC di un corpus C
L’entropia di W è la media dell’entropia dei suoi
possibili stati
∑ f (v ) ⋅ h(v )
i
H(W ) =
v i =Vc
C
i
H(W ) = −
∑ p(v )log
i
2
p(v i )
v i ∈VC
7
Entropia
H(W ) = −
∑ p(v )log
i
2
p(v i )
v i ∈VC
l
l
Se W ha n stati possibili equiprobabili l’entropia del
sistema è uguale all’entropia puntuale
W = 4 stati equiprobabili (p(s) = 1/4)
l
l
l
l
€
H(W) = - (1/4*log 1/4+1/4*log 1/4+1/4*log 1/4+1/4*log 1/4)
2
2
2
2
H(W) = - (1/4*(-2)+1/4*(-2)+1/4*(-2)+1/4*(-2))
H(W) = - (-1/2-1/2-1/2-1/2) = -(-2) = 2 bits (= log24)
L’entropia aumenta col crescere del numero degli stati
possibili
l
l
W = 8 stati equiprobabili
H(W) log28 = 3 bits
8
Entropia
l
W = produzione di una parola (esiti non equiprobabili!!)
l
V(W) = {il, cane, mangia, gatto}
l P(cane) = 1/4
P(il) = 1/2
P(gatto) = 1/8
§
§
§
l
P(mangia) = 1/8
H(W) = - (1/4*log21/4 + 1/2*log21/2 + 1/8*log21/8 + 1/8*log21/8)
H(W) = - (0,25*(-2) + 0,5 * (-1) + 0,125 * (-3) + 0,125 * (-3))
H(W) = - (-0,5 - 0,5 - 0,375 – 0,375) = 1,75 bits
L’entropia (media) del sistema è minore di quella che si
avrebbe se i suoi stati fossero equiprobabili
l
cf. H(W) con 4 stati equiprobabili = 2 bits
9
Entropia e codice ottimale
l
l
L’entropia permette di stabilire il codice ottimale per descrivere un
sistema aleatorio
Codice di Shannon-Fano
l
gli stati più probabili (più frequenti) sono descritti usando messaggi più
corti, gli stati meno probabili sono descritti usando messaggi più lunghi
l stati del sistema = {il, cane, mangia, gatto}
§
l
p(il) = 1/2 p(mangia) = 1/8
p(gatto) = 1/8
codifica ottimale in bits
§
§
§
§
l
p(cane) = 1/4
il = 0
cane = 10
gatto = 110
mangia = 111
l’entropia di un sistema che usa questo tipo di codifica per
trasmettere messaggi è di 1,75 bits
10
Entropia
A parità di numero di
esiti possibili,
meno uniforme è la
distribuzione di
probabilità e minore è
l’entropia
11
Entropia e organizzazione
l
L’entropia aumenta con l’aumentare degli stati possibili di un
sistema
A parità di stati possibili l’entropia diminuisce se aumenta la
“struttura” e l’”organizzazione” del sistema
l
aumenta la predicibilità delle dinamiche del sistema
entropia
l
• maggiore “ridondanza dell’informazione”
• regolarità nelle dinamiche del sistema
• esistenza di schemi e pattern ricorrenti
nella sequenza degli stati, ecc.
12