Informazione, incertezza ed entropia

annuncio pubblicitario
Informazione, Entropia e Probabilità
Alessandro Lenci
Università di Pisa, Dipartimento di Linguistica
Via Santa Maria, 36, 56100 Pisa, Italy
[email protected]
Linguaggio e comunicazione LO042
Cosa è un sistema?
Š Un sistema (dinamico) è un insieme di aspetti del
mondo che mutano nel tempo
„
„
lo stato di un sistema al tempo t1 è il modo in cui si
presentano al tempo t1 gli aspetti che lo compongono
l’insieme degli stati in cui può trovarsi il sistema è il suo
spazio degli stati (state space)
Š Il comportamento di un sistema è il cambiamento
nel tempo del suo stato
„
il comportamento di un sistema è una traiettoria nello
spazio degli stati
1
Lo spazio degli stati
Stati del sistema = {s1, s2, s3, s4, …}
s1
s4
s2
s3
Complessità e organizzazione
Collier & Hooker 1999
Š La complessità di un sistema dipende dalla
quantità di informazione necessaria per
descrivere i suoi stati e il suo comportamento
Š L’organizzazione di un sistema dipende dalle
interdipendenze e correlazioni tra le sue
componenti e dal loro grado di (non) linearità
2
Complessità e organizzazione
complessità
organizzazione
Sistemi semplici
e poco
organizzati
Sistemi semplici e
mediamente
organizzati
Sistemi
complessi e
poco organizzati
Sistemi complessi
e altamente
organizzati
gas
cristalli
esseri viventi
sistemi cognitivi
LINGUAGGIO
Complessità e informazione
Š Un oggetto complesso richiede più informazione per essere
descritto
Š La quantità di informazione necessaria per descrivere
un sistema dipende da:
„
„
la quantità dei suoi stati possibili
la regolarità (predicibilità) delle sue dinamiche
z
grado di “randomness” (casualità) del verificarsi dei suoi stati
3
Incertezza e informazione
Š L’informazione è la diminuzione dell’incertezza
„
„
se un evento aleatorio si verifica, abbiamo ottenuto dell’informazione
più un evento è incerto maggiore è l’informazione che otteniamo
sapendo che si è verificato
Š L’entropia è la misura della quantità di informazione o
incertezza di una variabile casuale
„
un sistema può essere descritto come una variabile casuale (W)
z
z
gli stati possibili del sistema sono i valori della variabile a cui è associata
una distribuzione di probabilità p
ad ogni istante ti, p fornisce la probabilità che il sistema si trovi in un certo
stato
La definizione di probabilità
Š Esperimento
„
il processo attraverso cui viene compiuta una certa osservazione
z
„
„
lanciare un dado e vedere l’esito che produce (il numero ottenuto)
un esperimento aleatorio è un esperimento il cui esito non può essere
previsto con certezza prima che venga eseguito
la teoria della probabilità si occupa di assegnare una probabilità al verificarsi
di un evento sulla base di una serie di esperimenti (osservazioni) ripetuti
Š Spazio campione (Ω)
„
l’insieme degli esiti (risultati) possibili di un esperimento
z
ciascun esito si chiama punto campione
esperimento: lancio di un dado
z
esperimento: lancio di una moneta
z
Š Ωd = {1, 2, 3, 4, 5, 6}
Š Ωm = {testa, croce}
4
La definizione di probabilità
Š Evento
„
un sottoinsieme A dello spazio campione Ω, i cui elementi si dicono i
risultati favorevoli all’evento A
z
z
l’insieme di tutti i possibili eventi di Ω si chiama spazio degli eventi (E)
i punti campione sono gli eventi elementari
Š Esperimento: lancio di un dado
„
Ωd = {1, 2, 3, 4, 5, 6}
z
evento A = {ottenere un numero pari}evento complesso
z
evento B = {ottenere un 6}
Š A = {2, 4, 6}
evento semplice
Š B = {6}
z
evento C = {ottenere un numero compreso tra 1 e 6}
Š C = {1, 2, 3, 4, 5, 6} = Ωd
ƒ un evento equivalente allo spazio campionario si dice evento certo
La definizione di probabilità
Š Dato uno spazio campione Ω, una funzione di probabilità P
(distribuzione di probabilità) assegna a ogni evento di Ω un
numero reale compreso tra 0 e 1 (P: E Æ [0, 1])
„
una funzione di probabilità definisce uno spazio probabilistico per Ω
Š Definizione classica di probabilità (a priori)
„
Dato un esperimento in cui Ω è finito e tutti i punti campione sono
egualmente verosimili e mutuamente esclusivi, per ogni evento A:
P ( A) =
A
Ω
5
Probabilità classica
Š Esperimento: lancio di un dado (non truccato)
„
Ωd = {1, 2, 3, 4, 5, 6}
z
|Ωd| = 6
A = {ottenere un 6}
Š A = {6}
|A| = 1
Š P(A) = |A|/|Ωd| = 1/6 = 0,16666666666666
z
B = {ottenere un numero pari}
Š B = {2, 4, 6}
|B| = 3
Š P(B) = |B|/|Ωd| = 3/6 = 1/2 = 0,5
z
D = {ottenere un numero maggiore di 6}
Š D={}
|D| = 0
Š P(D) = |C|/|Ωd| = 0/6 = 0 (evento impossibile)
Š La definizione classica non è appropriata se Ω è infinito o i
vari esiti non sono egualmente verosimili
Frequenza e probabilità
Š Legge dei Grandi Numeri
„
La frequenza relativa di un evento converge verso la sua vera probabilità
con l’aumentare del numero degli esperimenti
Š Definizione frequentista di probabilità (empirica o a posteriori)
„
la probabilità di un evento è interpretata come il limite a cui tende la sua
frequenza relativa in una serie di repliche dello stesso esperimento
P ( A) = lim
n →∞
„
f
n
A
Esperimento: lancio di un dado (truccato)
z
z
z
z
A = {ottenere un numero pari}
fA = numero di volte in cui è stato ottenuto 2, 4 o 6 come esito del lancio
n = numero di lanci
al crescere di n, P(A) ≈ fA/n
6
Incertezza e informazione
Š L’entropia è una misura dell’incertezza di un sistema
„
misura quanto è difficile predire qual è lo stato del sistema in un certo
istante ti
Š Da cosa dipende il grado di incertezza?
„
numero di stati alternativi possibili
z
z
lancio di un dato = 6 esiti possibili
estrazione di una carta = 52 esiti possibili
Š l’estrazione di una carta ha un maggior grado di incertezza!!
„
distribuzione delle probabilità per ciascun stato
z
se gli stati hanno probabilità uniforme è più difficile prevedere quale si
verificherà in un dato momento (a parità del loro numero)
Š cf. lancio di un dado non truccato vs. lancio di un dado in cui sappiamo che il
6 ha probabilità doppia di uscire degli altri numeri
Entropia puntuale
Š L’entropia è misurata in bits (cifre binarie)
Š Supponiamo che
„
„
ad ogni istante ti si debba trasmettere un messaggio per comunicare
in quale stato si trova il sistema in ti
che il messaggio debba essere in codice binario (una stringa di 0 e 1)
Š Entropia puntuale (informazione) di uno stato
„
numero di bits necessari per trasmettere (= descrivere) che il sistema
si trova nello stato s
H ( s ) = − log 2 p ( s)
7
Entropia
Š In generale, un numero binario di n cifre può codificare al
massimo 2n messaggi
„
un numero binario di 2 cifre può codificare 4 messaggi diversi
z
00, 01, 10, 11
Š Se W ha n stati possibili (tutti equiprobabili), il numero di
bits necessari per codificare uno stato è log2n
„
„
„
H(s) = log2n
se gli stati del sistema sono equiprobabili, p(s) = 1/n e n = 1/p(s)
quindi, H(s) = log21/p(s) = - log2p(s)
z
z
z
se W ha 1 stato possibile, H(s) = 0 bits
se W ha 2 stati possibili, H(s) = 1 bits
se W ha 4 stati possibili, H(s) = 2 bits
Entropia del sistema
H (W ) = −
∑ P(s) log P(s)
s∈V (W )
2
Š L’entropia di un variabile W è il numero medio di bits necessari per
codificare i suoi stati possibili
Š Se W ha n stati possibili equiprobabili l’entropia del sistema è uguale
all’entropia puntuale
Š W = 4 stati equiprobabili (p(s) = 1/4)
„
„
„
H(W) = - (1/4*log21/4+1/4*log21/4+1/4*log21/4+1/4*log21/4)
H(W) = - (1/4*(-2)+1/4*(-2)+1/4*(-2)+1/4*(-2))
H(W) = - (-1/2-1/2-1/2-1/2) = -(-2) = 2 bits (= log24)
Š L’entropia aumenta col crescere del numero degli stati possibili
„
„
W = 8 stati equiprobabili
H(W) log28 = 3 bits
8
Entropia
Š W = estrazione di una parola da un testo (esiti non equiprobabili!!)
„
„
„
„
„
V(W) = {il, cane, mangia, gatto}
p(cane) = 1/4
p(il) = 1/2
p(mangia) = 1/8 p(gatto) = 1/8
H(W) = - (1/4*log21/4 + 1/2*log21/2 + 1/8*log21/8 + 1/8*log21/8)
H(W) = - (0,25*(-2) + 0,5 * (-1) + 0,125 * (-3) + 0,125 * (-3))
H(W) = - (-0,5 - 0,5 - 0,375 – 0,375) = 1,75 bits
Š L’entropia è il numero medio di bits necessari per descrivere gli stati del
sistema
L’entropia permette di stabilire il codice ottimale per descrivere un sistema
gli stati più probabili (più frequenti) sono descritti usando messaggi più corti
gli stati meno probabili sono descritti usando messaggi più lunghi
Entropia e codice ottimale
Š Codice di Shannon-Fano
„
Stati del sistema = {il, cane, mangia, gatto}
z
„
p(il) = 1/2
p(mangia) = 1/8 p(gatto) = 1/8
Codifica ottimale in bits
z
z
z
z
„
p(cane) = 1/4
il = 0
cane = 10
gatto = 110
mangia = 111
L’entropia di un sistema che usasse questo tipo di codifica
per trasmettere messaggi sarebbe di 1,75 bits
9
Entropia
A parità di numero di
esiti possibili, meno è
uniforme la
distribuzione di
probabilità e minore è
l’entropia
Entropia e organizzazione
Š L’entropia aumenta con l’aumentare degli stati
possibili di un sistema
Š A parità di stati possibili l’entropia diminuisce se
aumenta la struttura e l’organizzazione del sistema
aumenta la predicibilità delle dinamiche del sistema
entropia
„
• Maggiore “ridondanza dell’informazione”
• Regolarità nelle dinamiche del sistema
• Esistenza di schemi e pattern ricorrenti nella
sequenza degli stati, ecc.
10
Probabilità congiunte
Š P(A∩B) oppure P(A,B)
„
probabilità del verificarsi congiunto di due eventi A e B
z
Esperimento: lancio di due dadi
Š
z
Probabilità di ottenere 6 in tutti e due dadi
Esperimento: estrazione di due parole da un testo
Š
Probabilità di ottenere un verbo e un aggettivo insieme
probabilità di eventi congiunti = prodotto di probabilità
Š Il calcolo del prodotto delle probabilità dipende dalla relazione tra i due
eventi
eventi indipendenti - il verificarsi dell’uno non condiziona il verificarsi dell’altro
eventi dipendenti - il verificarsi dell’uno condiziona il verificarsi dell’altro
„
„
Probabilità congiunte
eventi indipendenti
Š Due eventi A e B sono indipendenti se e solo se il verificarsi
di A non ha nessun effetto sulla possibilità per B di
verificarsi, e viceversa
„
„
Esperimento: lancio di due dadi
Qual è la probabilità di ottenere in un lancio 6 in entrambi i dadi?
z
z
z
evento A = {1° dado = 6} P(A) = 1/6
evento B = {2° dado = 6} P(B) = 1/6
la probabilità che lanciando i due dadi ottenga 6 in entrambi i casi è
dunque uguale a 1/6 di 1/6, ovvero 1/36
Š P(A,B) = 1/36 = 1/6 * 1/6 = P(A) * P(B)
Š Se due eventi A e B sono indipendenti, allora vale che:
P( A, B) = P( A) ∗ P( B)
11
Probabilità congiunte
eventi non indipendenti
Š Un esempio di eventi non indipendenti
„
estrarre 2 parole consecutive da un testo
z
z
bigramma = sequenza di 2 parole
n-gramma = sequenza di n parole
Š Qual è la probabilità di estrarre un una sequenza <Art, N>?
„
la probabilità di estrarre una parola v2 (consecutiva a v1) non è
indipendente dalla probabilità di estrarre v1
z
dipendenze sintattiche, semantiche, ecc. determinate dalla grammatica
Š es. gli articoli tendono a ricorrere davanti ai nomi
„
poiché Art e N non sono indipendenti
z
P(Art, N) ≠ P(Art) * P(N)
Probabilità condizionata
Š P(A|B)
„
probabilità che si verifichi A dato che sappiamo che è avvenuto B
z
„
esempio - 1
z
z
„
se A e B sono dipendenti, il fatto di sapere che B è avvenuto altera la probabilità da
assegnare ad A, ovvero P(A)≠P(A|B)
tuonare e piovere non sono eventi indipendenti (se tuona generalmente sta per
piovere, ovvero in genere al tuono segue la pioggia)
P(pioggia|tuono) > P(pioggia)
esempio – 2
z
la probabilità di estrare un nome da un testo sapendo che la parola che lo precede è
un articolo (P(nome|articolo)) è maggiore della probabilità semplice di estrarre un
nome
Š La probabilità condizionata permette di stimare la probabilità di sequenze
di eventi tra i quali esiste un rapporto di dipendenza:
P( A ∩ B) = P( B) ∗ P( A | B)
12
Entropia di sequenze di variabili
Š L’entropia di una sequenza di eventi è uguale
alla somna delle entropie degli eventi singoli:
„
H(W1, …, Wn) = H(W1) + … + H(Wn)
Š L’entropia di sequenze di variabili è massima
nel caso in cui le variabili siano tutte
statisticamente indipendenti
„
l’entropia della congiunzione delle variabili
diminuisce all’aumentare della “connessione”
statistica tra le variabili
13
Scarica