Informazione, Entropia e Probabilità Alessandro Lenci Università di Pisa, Dipartimento di Linguistica Via Santa Maria, 36, 56100 Pisa, Italy [email protected] Linguaggio e comunicazione LO042 Cosa è un sistema? Un sistema (dinamico) è un insieme di aspetti del mondo che mutano nel tempo lo stato di un sistema al tempo t1 è il modo in cui si presentano al tempo t1 gli aspetti che lo compongono l’insieme degli stati in cui può trovarsi il sistema è il suo spazio degli stati (state space) Il comportamento di un sistema è il cambiamento nel tempo del suo stato il comportamento di un sistema è una traiettoria nello spazio degli stati 1 Lo spazio degli stati Stati del sistema = {s1, s2, s3, s4, …} s1 s4 s2 s3 Complessità e organizzazione Collier & Hooker 1999 La complessità di un sistema dipende dalla quantità di informazione necessaria per descrivere i suoi stati e il suo comportamento L’organizzazione di un sistema dipende dalle interdipendenze e correlazioni tra le sue componenti e dal loro grado di (non) linearità 2 Complessità e organizzazione complessità organizzazione Sistemi semplici e poco organizzati Sistemi semplici e mediamente organizzati Sistemi complessi e poco organizzati Sistemi complessi e altamente organizzati gas cristalli esseri viventi sistemi cognitivi LINGUAGGIO Complessità e informazione Un oggetto complesso richiede più informazione per essere descritto La quantità di informazione necessaria per descrivere un sistema dipende da: la quantità dei suoi stati possibili la regolarità (predicibilità) delle sue dinamiche z grado di “randomness” (casualità) del verificarsi dei suoi stati 3 Incertezza e informazione L’informazione è la diminuzione dell’incertezza se un evento aleatorio si verifica, abbiamo ottenuto dell’informazione più un evento è incerto maggiore è l’informazione che otteniamo sapendo che si è verificato L’entropia è la misura della quantità di informazione o incertezza di una variabile casuale un sistema può essere descritto come una variabile casuale (W) z z gli stati possibili del sistema sono i valori della variabile a cui è associata una distribuzione di probabilità p ad ogni istante ti, p fornisce la probabilità che il sistema si trovi in un certo stato La definizione di probabilità Esperimento il processo attraverso cui viene compiuta una certa osservazione z lanciare un dado e vedere l’esito che produce (il numero ottenuto) un esperimento aleatorio è un esperimento il cui esito non può essere previsto con certezza prima che venga eseguito la teoria della probabilità si occupa di assegnare una probabilità al verificarsi di un evento sulla base di una serie di esperimenti (osservazioni) ripetuti Spazio campione (Ω) l’insieme degli esiti (risultati) possibili di un esperimento z ciascun esito si chiama punto campione esperimento: lancio di un dado z esperimento: lancio di una moneta z Ωd = {1, 2, 3, 4, 5, 6} Ωm = {testa, croce} 4 La definizione di probabilità Evento un sottoinsieme A dello spazio campione Ω, i cui elementi si dicono i risultati favorevoli all’evento A z z l’insieme di tutti i possibili eventi di Ω si chiama spazio degli eventi (E) i punti campione sono gli eventi elementari Esperimento: lancio di un dado Ωd = {1, 2, 3, 4, 5, 6} z evento A = {ottenere un numero pari}evento complesso z evento B = {ottenere un 6} A = {2, 4, 6} evento semplice B = {6} z evento C = {ottenere un numero compreso tra 1 e 6} C = {1, 2, 3, 4, 5, 6} = Ωd un evento equivalente allo spazio campionario si dice evento certo La definizione di probabilità Dato uno spazio campione Ω, una funzione di probabilità P (distribuzione di probabilità) assegna a ogni evento di Ω un numero reale compreso tra 0 e 1 (P: E Æ [0, 1]) una funzione di probabilità definisce uno spazio probabilistico per Ω Definizione classica di probabilità (a priori) Dato un esperimento in cui Ω è finito e tutti i punti campione sono egualmente verosimili e mutuamente esclusivi, per ogni evento A: P ( A) = A Ω 5 Probabilità classica Esperimento: lancio di un dado (non truccato) Ωd = {1, 2, 3, 4, 5, 6} z |Ωd| = 6 A = {ottenere un 6} A = {6} |A| = 1 P(A) = |A|/|Ωd| = 1/6 = 0,16666666666666 z B = {ottenere un numero pari} B = {2, 4, 6} |B| = 3 P(B) = |B|/|Ωd| = 3/6 = 1/2 = 0,5 z D = {ottenere un numero maggiore di 6} D={} |D| = 0 P(D) = |C|/|Ωd| = 0/6 = 0 (evento impossibile) La definizione classica non è appropriata se Ω è infinito o i vari esiti non sono egualmente verosimili Frequenza e probabilità Legge dei Grandi Numeri La frequenza relativa di un evento converge verso la sua vera probabilità con l’aumentare del numero degli esperimenti Definizione frequentista di probabilità (empirica o a posteriori) la probabilità di un evento è interpretata come il limite a cui tende la sua frequenza relativa in una serie di repliche dello stesso esperimento P ( A) = lim n →∞ f n A Esperimento: lancio di un dado (truccato) z z z z A = {ottenere un numero pari} fA = numero di volte in cui è stato ottenuto 2, 4 o 6 come esito del lancio n = numero di lanci al crescere di n, P(A) ≈ fA/n 6 Incertezza e informazione L’entropia è una misura dell’incertezza di un sistema misura quanto è difficile predire qual è lo stato del sistema in un certo istante ti Da cosa dipende il grado di incertezza? numero di stati alternativi possibili z z lancio di un dato = 6 esiti possibili estrazione di una carta = 52 esiti possibili l’estrazione di una carta ha un maggior grado di incertezza!! distribuzione delle probabilità per ciascun stato z se gli stati hanno probabilità uniforme è più difficile prevedere quale si verificherà in un dato momento (a parità del loro numero) cf. lancio di un dado non truccato vs. lancio di un dado in cui sappiamo che il 6 ha probabilità doppia di uscire degli altri numeri Entropia puntuale L’entropia è misurata in bits (cifre binarie) Supponiamo che ad ogni istante ti si debba trasmettere un messaggio per comunicare in quale stato si trova il sistema in ti che il messaggio debba essere in codice binario (una stringa di 0 e 1) Entropia puntuale (informazione) di uno stato numero di bits necessari per trasmettere (= descrivere) che il sistema si trova nello stato s H ( s ) = − log 2 p ( s) 7 Entropia In generale, un numero binario di n cifre può codificare al massimo 2n messaggi un numero binario di 2 cifre può codificare 4 messaggi diversi z 00, 01, 10, 11 Se W ha n stati possibili (tutti equiprobabili), il numero di bits necessari per codificare uno stato è log2n H(s) = log2n se gli stati del sistema sono equiprobabili, p(s) = 1/n e n = 1/p(s) quindi, H(s) = log21/p(s) = - log2p(s) z z z se W ha 1 stato possibile, H(s) = 0 bits se W ha 2 stati possibili, H(s) = 1 bits se W ha 4 stati possibili, H(s) = 2 bits Entropia del sistema H (W ) = − ∑ P(s) log P(s) s∈V (W ) 2 L’entropia di un variabile W è il numero medio di bits necessari per codificare i suoi stati possibili Se W ha n stati possibili equiprobabili l’entropia del sistema è uguale all’entropia puntuale W = 4 stati equiprobabili (p(s) = 1/4) H(W) = - (1/4*log21/4+1/4*log21/4+1/4*log21/4+1/4*log21/4) H(W) = - (1/4*(-2)+1/4*(-2)+1/4*(-2)+1/4*(-2)) H(W) = - (-1/2-1/2-1/2-1/2) = -(-2) = 2 bits (= log24) L’entropia aumenta col crescere del numero degli stati possibili W = 8 stati equiprobabili H(W) log28 = 3 bits 8 Entropia W = estrazione di una parola da un testo (esiti non equiprobabili!!) V(W) = {il, cane, mangia, gatto} p(cane) = 1/4 p(il) = 1/2 p(mangia) = 1/8 p(gatto) = 1/8 H(W) = - (1/4*log21/4 + 1/2*log21/2 + 1/8*log21/8 + 1/8*log21/8) H(W) = - (0,25*(-2) + 0,5 * (-1) + 0,125 * (-3) + 0,125 * (-3)) H(W) = - (-0,5 - 0,5 - 0,375 – 0,375) = 1,75 bits L’entropia è il numero medio di bits necessari per descrivere gli stati del sistema L’entropia permette di stabilire il codice ottimale per descrivere un sistema gli stati più probabili (più frequenti) sono descritti usando messaggi più corti gli stati meno probabili sono descritti usando messaggi più lunghi Entropia e codice ottimale Codice di Shannon-Fano Stati del sistema = {il, cane, mangia, gatto} z p(il) = 1/2 p(mangia) = 1/8 p(gatto) = 1/8 Codifica ottimale in bits z z z z p(cane) = 1/4 il = 0 cane = 10 gatto = 110 mangia = 111 L’entropia di un sistema che usasse questo tipo di codifica per trasmettere messaggi sarebbe di 1,75 bits 9 Entropia A parità di numero di esiti possibili, meno è uniforme la distribuzione di probabilità e minore è l’entropia Entropia e organizzazione L’entropia aumenta con l’aumentare degli stati possibili di un sistema A parità di stati possibili l’entropia diminuisce se aumenta la struttura e l’organizzazione del sistema aumenta la predicibilità delle dinamiche del sistema entropia • Maggiore “ridondanza dell’informazione” • Regolarità nelle dinamiche del sistema • Esistenza di schemi e pattern ricorrenti nella sequenza degli stati, ecc. 10 Probabilità congiunte P(A∩B) oppure P(A,B) probabilità del verificarsi congiunto di due eventi A e B z Esperimento: lancio di due dadi z Probabilità di ottenere 6 in tutti e due dadi Esperimento: estrazione di due parole da un testo Probabilità di ottenere un verbo e un aggettivo insieme probabilità di eventi congiunti = prodotto di probabilità Il calcolo del prodotto delle probabilità dipende dalla relazione tra i due eventi eventi indipendenti - il verificarsi dell’uno non condiziona il verificarsi dell’altro eventi dipendenti - il verificarsi dell’uno condiziona il verificarsi dell’altro Probabilità congiunte eventi indipendenti Due eventi A e B sono indipendenti se e solo se il verificarsi di A non ha nessun effetto sulla possibilità per B di verificarsi, e viceversa Esperimento: lancio di due dadi Qual è la probabilità di ottenere in un lancio 6 in entrambi i dadi? z z z evento A = {1° dado = 6} P(A) = 1/6 evento B = {2° dado = 6} P(B) = 1/6 la probabilità che lanciando i due dadi ottenga 6 in entrambi i casi è dunque uguale a 1/6 di 1/6, ovvero 1/36 P(A,B) = 1/36 = 1/6 * 1/6 = P(A) * P(B) Se due eventi A e B sono indipendenti, allora vale che: P( A, B) = P( A) ∗ P( B) 11 Probabilità congiunte eventi non indipendenti Un esempio di eventi non indipendenti estrarre 2 parole consecutive da un testo z z bigramma = sequenza di 2 parole n-gramma = sequenza di n parole Qual è la probabilità di estrarre un una sequenza <Art, N>? la probabilità di estrarre una parola v2 (consecutiva a v1) non è indipendente dalla probabilità di estrarre v1 z dipendenze sintattiche, semantiche, ecc. determinate dalla grammatica es. gli articoli tendono a ricorrere davanti ai nomi poiché Art e N non sono indipendenti z P(Art, N) ≠ P(Art) * P(N) Probabilità condizionata P(A|B) probabilità che si verifichi A dato che sappiamo che è avvenuto B z esempio - 1 z z se A e B sono dipendenti, il fatto di sapere che B è avvenuto altera la probabilità da assegnare ad A, ovvero P(A)≠P(A|B) tuonare e piovere non sono eventi indipendenti (se tuona generalmente sta per piovere, ovvero in genere al tuono segue la pioggia) P(pioggia|tuono) > P(pioggia) esempio – 2 z la probabilità di estrare un nome da un testo sapendo che la parola che lo precede è un articolo (P(nome|articolo)) è maggiore della probabilità semplice di estrarre un nome La probabilità condizionata permette di stimare la probabilità di sequenze di eventi tra i quali esiste un rapporto di dipendenza: P( A ∩ B) = P( B) ∗ P( A | B) 12 Entropia di sequenze di variabili L’entropia di una sequenza di eventi è uguale alla somna delle entropie degli eventi singoli: H(W1, …, Wn) = H(W1) + … + H(Wn) L’entropia di sequenze di variabili è massima nel caso in cui le variabili siano tutte statisticamente indipendenti l’entropia della congiunzione delle variabili diminuisce all’aumentare della “connessione” statistica tra le variabili 13