Linguistica Computazionale
Linguaggio e probabilità
20 ottobre 2014
Frequenza e probabilità
l 
Legge dei Grandi Numeri
l 
l 
la frequenza relativa di un evento converge verso la sua vera probabilità
con l’aumentare del numero degli esperimenti
Definizione frequentista di probabilità (empirica o a posteriori)
l 
l 
la probabilità di un evento è interpretata come la sua frequenza relativa in
una serie di repliche dello stesso esperimento (esperimento composto)
sia n il numero di volte in cui un esperimento viene ripetuto, e fA il numero
di volte in cui si osserva l’evento A nell’esperimento:
P ( A) = lim
n →∞
l 
f
n
A
Esperimento: lancio di un dado (truccato)
l 
l 
l 
A = {ottenere un numero pari}
fA = numero di volte in cui è stato ottenuto 2, 4 o 6 come esito del lancio
n = numero di lanci
§ 
al crescere di n, P(A) ≈ fA/n
2
Probabilità di una parola
definizione frequentista
l 
Esperimento aleatorio
l 
l 
l 
selezionare una parola a caso da un testo
qual è la probabilità di selezionare una parola v?
Stimiamo la probabilità di v a partire da un corpus C
l 
usiamo il corpus come oggetto di un esperimento composto di n
selezioni successive di parole
l 
l 
per ogni token t del corpus, si verifica se t è di tipo v oppure no
l 
l 
numero di esperimenti n = |C|
= calcoliamo la frequenza di v
La frequenza relativa di una parola v in C permette di stimare la sua
probabilità (ovvero la probabilità che venga estratta):
f
P (v ) ≈
|C |
v
3
Data sparseness e stima
frequentista della probabilità
l 
La stima frequentista della probabilità viene
anche chiamata Maximum Likelihood
Estimation dei parametri di un modello
probabilistico
l 
l 
se la frequenza relativa di una parola in un corpus è 0.8,
la probabilità della parola nel linguaggio è 0.8
La MLE è la funzione di assegnazione di
probabilità che assegna la probabilità più
alta agli eventi osservati nel training corpus
4
Data sparseness e stima
frequentista della probabilità
l 
Data sparseness
l 
l 
l 
i dati estratti da un corpus non sono sufficienti per creare
modelli probabilistici accurati del linguaggio
Ci sono molte parole rare per le quali la frequenza
relativa non fornisce una stima di probabilità affidabile
Poiché un corpus (comunque grande) non esaurisce
mai tutto il vocabolario, MLE sovrastima la probabilità
delle parole nel corpus, senza lasciare nessuna
porzione di probabilità alle parole non viste
l 
l 
l’intera massa di probabilità viene ripartita tra tutte le parole
tipo del corpus
l  la somma delle frequenze relative delle parole di un corpus è 1
se una parola tipo vi non appartiene al corpus, P(vi) = 0
5
Probabilità dell’unione di eventi
probabilità dell’unione di eventi = somma di probabilità
l 
Qual è la probabilità di selezionare un nome o un aggettivo?
l 
fnome = 10
faggettivo = 5
fnome+aggettivo = 15
P(nome ∪ aggettivo) = fnome+aggettivo/|C| = 15/38 = 0,394
P(nome ∪ aggettivo) = P(nome) + P(aggettivo) = 10/38 + 5/38 = 15/38 = 0,394
Regola della somma generalizzata
(per eventi mutuamente esclusivi)
n
P( A1 ∪ A2 ∪ … ∪ An ) = ∑ P( Ai )
i =1
6
Assiomi della probabilità
l 
Ogni funzione di probabilità P per essere tale deve soddisfare i
seguenti assiomi:
l 
P(A)≥0, per ogni A (positività)
l 
l 
la probabilità è sempre un numero positivo
l 
P(A∪B) = P(A) + P(B), se A∩B=∅ (Regola della somma o unione)
l 
P(Ω) = 1 (Certezza)
Gli assiomi stabiliscono soltanto i vincoli che una misura di
probabilità deve rispettare, ma non dicono come misurare la
probabilità di un evento elementare
l 
sia la definizione classica di probabilità che quella frequentista
deve rispettare gli assiomi della probabilità
7
Sommare probabilità
l 
Dalla regola della somma segue anche il postulato
della certezza:
l 
Esperimento: selezione di una parola da un corpus
l  Ω = {v1, v2, …, vn}
§ 
l 
P(Ω) = P({v1}∪{v2} ∪ …∪{vn})
§ 
l 
le parole tipo del corpus
le parole tipo rappresentano tutti eventi elementari mutuamente
disgiunti
P(Ω) = P({v1})+P({v2}+…+P({vn})
§ 
per la regola della somma
f
f
f
C
P (Ω) = + + … + = = 1
C C
C C
v1
v2
vn
8
Probabilità congiunte
probabilità di eventi congiunti = prodotto di probabilità
l 
P(A∩B) oppure P(A,B)
l 
probabilità del verificarsi congiunto di due eventi A e B
l 
esperimento: lancio di due dadi
§ 
l 
esperimento: estrazione di una carta da un mazzo
§ 
l 
probabilità di estrarre una regina nera
§ 
A = { estrarre una regina} B = {estrarre una carta nera}
esperimento: estrazione di due parole da un testo
§ 
l 
probabilità di ottenere 6 in tutti e due dadi
probabilità di ottenere un verbo e un aggettivo insieme
Il calcolo del prodotto delle probabilità dipende dalla relazione tra i
due eventi
l 
eventi indipendenti
l 
l 
il verificarsi dell’uno non condiziona il verificarsi dell’altro
eventi dipendenti
l 
il verificarsi dell’uno condiziona il verificarsi dell’altro
9
Probabilità congiunte
eventi indipendenti
l 
Due eventi A e B sono indipendenti se e solo se il verificarsi di
A non ha nessun effetto sulla probabilità per B di verificarsi, e
viceversa
l 
l 
esperimento: lancio di due dadi
Qual è la probabilità di ottenere in un lancio 6 in entrambi i dadi?
l 
l 
l 
evento A = {1o dado = 6} P(A) = 1/6
evento B = {2o dado = 6} P(B) = 1/6
la probabilità che lanciando i due dadi ottenga 6 in entrambi i casi
è dunque uguale a 1/6 di 1/6, ovvero 1/36
§ 
l 
P(A,B) = 1/36 = 1/6 * 1/6 = P(A) * P(B)
Se due eventi A e B sono indipendenti, in generale vale che:
P( A ∩ B) = P( A) ∗ P( B)
10
Probabilità congiunte
eventi indipendenti
l 
Esperimento
l 
l 
Qual è la probabilità che estragga insieme un nome e un articolo?
l 
l 
l 
l 
estrarre due parole v1 e v2 a caso da un testo
|C| = 50 fN = 10 fArt = 15
P(N, Art) = P(N) * P(Art) = fN/|C| * fArt/|C|
P(N, Art) = 10/50 * 15/50 = 0,2 * 0,3 = 0,06
ATTENZIONE !!! questo funziona solo assumendo che la probabilità
di estrarre un nome sia indipendente dalla probabilità di estrarre un
articolo
l 
modello dell’urna
l  consideriamo il testo come un insieme di parole indipendenti l’una
dall’altra (= il capitare dell’una in un corpus non dipende dalla
presenza di un’altra parola). Tutti i tokens vengono vengono messi in
un’urna, da cui si compiono le estrazioni
v 1, v 2
11
Probabilità congiunte
sequenze di parole
l 
Esperimento
l 
l 
estrarre 2 parole consecutive da un testo
l  bigramma = sequenza di 2 parole
l  n-gramma = sequenza di n parole
Qual è la probabilità di estrarre un bigramma <Art, N>?
l 
la probabilità di estrarre una parola v2 (consecutiva a v1) non è
indipendente dalla probabilità di estrarre v1
l  dipendenze sintattiche, semantiche, ecc. determinate dalla
grammatica
§ 
l 
es. gli articoli tendono a essere seguiti da nomi
poiché Art e N non sono indipendenti,
l  P(Art, N) ≠ P(Art) * P(N)
12
Calcolo dei bigrammi
il presidente ha dichiarato la sua indisponibilità ad ogni trattativa .
l 
Bigrammi nella frase
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
l 
il<>presidente
presidente<>ha
ha<>dichiarato
dichiarato<>la
la<>sua
sua<>indisponibilità
indisponibilità<>ad
ad<>ogni
ogni<>trattativa
trattativa<>.
.<>$
|C| = 11 tokens
bigrammi = 11
|bigrammi| = |C|
il numero di bigrammi è uguale al numero di
token, se aggiungiamo dopo l’ultimo token un
token “segnaposto” di fine testo
13
Probabilità congiunte
probabilità di bigrammi
l 
l 
Per stimare la probabilità di un bigramma <v1, v2> usiamo la frequenza
relativa del bigramma <v1, v2> in un testo
Ipotesi:
|C| = 100
fN = 20 fArt = 25 fV = 20
|bigrammi| = |C| = 100
fArt, N = 18
fArt, V = 3
l 
l 
gli articoli tendono a precedere i nomi, ma esistono anche alcuni infiniti
sostantivati
P(Art, N) ≈ fArt, N/|C| = 18/100 = 0,18
Dal momento che fV = fN, se valesse l’ipotesi di indipendenza, avremmo
anche che P(Art, N) = P(Art, V)
l 
l 
P(Art, N) = P(Art) * P(N) = fArt/|C| * fN/|C| = 25/100 * 20/100 = 0,25 * 0,2 = 0,05
P(Art, V) = P(Art) * P(V) = fArt/|C| * fV/|C| = 25/100 * 20/100 = 0,25 * 0,2 = 0,05
…ma questo è falso!!!… infatti vale che,
P(Art, V) ≈ fArt, V/|C| = 3/100 = 0,03
14