Linguistica Computazionale
Linguaggio e probabilità
14 ottobre 2014
Probabilità e cognizione
The argument for a probabilistic approach to cognition is that we live in a world
filled with uncertainty and incomplete information. To be able to interact successfully
with the world, we need to be able to deal with this type of information.
Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15
l 
Esempio
l 
l 
sto partendo per un viaggio e devo decidere se mettere in valigia un ombrello
oppure no
Per prendere questa decisione devo stimare la probabilità che piova,
integrando diversi tipi di informazione sulle condizioni atmosferiche
l 
temperatura, stagione, meta del viaggio, previsioni del tempo a destinazione,
ecc.
l 
l 
l 
se è autunno, è probabile che piova (perché spesso piove in autunno)
se è agosto e vado in Tunisia è molto poco probabile che piova (perché è raro
che in agosto piova in Tunisia)
se è agosto e vado in Scozia, è molto probabile che piova (perché le piogge2 in
estate in Scozia sono frequenti)
Probabilità e linguaggio
The cognitive processes used for language are identical or at least very similar to those used
for processing other forms of sensory input and other forms of knowledge. These processes
are best formalized as probabilistic processes or at least by means of some quantitative
framework that can handle uncertainty and incomplete information.
Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15
l 
Esempio
l 
decidere come segmentare una sequenza di suoni in parole discrete
l  lamacchinaeraparcheggiatadavantiallaporta
§ 
l 
decidere la categoria di morfosintattica (part of speech) di una
parola
l  la macchina la aspettava davanti alla porta
§ 
l 
stimare la probabilità che tra due suoni esista un confine di parola
stimare la probabilità che la sia un articolo o un pronome clitico
decidere come tradurre un’espressione linguistica
l  L’aquila ha perso una penna volando
§ 
stimare la probabilità che penna si traduca pen o feather in inglese
3
Probabilità e linguaggio
l 
Per stimare queste probabilità “linguistiche” devo integrare
informazioni sul modo in cui si distribuiscono le strutture del
linguaggio
l 
decidere come segmentare una sequenza di suoni in parole
discrete
l 
lamacchinaeraparcheggiatadavantiallaporta
§ 
l 
decidere la categoria di morfosintattica di una parola
l 
la macchina la aspettava davanti alla porta
§ 
§ 
l 
lamac non è un probabile confine di parola, perché ci sono poche parole che
finiscono per consonante, ecc.
se la ricorre davanti a un nome è probabile che sia un articolo (perché di
solito gli articoli precedono i nomi)
se la ricorre davanti a un verbo è probabile che sia un pronome clitico, ecc.
decidere come tradurre un’espressione linguistica
l 
L’aquila ha perso una penna volando
§ 
dal momento che l’aquila è un uccello, è molto probabile che penna vada 4
tradotto con feather (perché di solito gli uccelli hanno le penne/feather), ecc.
Linguaggio e probabilità
“The key characteristic of language used by the
learners in the construction of their individual
armamentaria is revealed at every level one cares to
consider. It is non-randomness, or DEPARTURE
FROM EQUIPROBABILITY, in the distribution of
symbols and symbol sequences (Harris, 1991, p:32)”
S. Edelman (2008), Computing the Mind: 247
Modelli statistici del linguaggio
l 
l 
Un modello statistico (probabilistico) di un evento è un
modello matematico che determina la probabilità del
verificarsi di quell’evento
Le statistiche estratte da un campione di dati su eventi
noti vengono usate per stimare la probabilità del loro
verificarsi e predire così nuovi eventi
l 
l 
un campione di dati sulle condizioni atmosferiche in agosto in
Scozia sono usate per costruire un modello che assegna una
probabilità all’evento “pioggia in agosto in Scozia”
un corpus di testi è usato per calcolare statistiche sulle
distribuzioni delle parole e costruire un modello che assegna
una probabilità a eventi linguistici
l  es. l’evento che la sia un articolo
6
Modelli statistici
definizione della struttura
del modello probabilistico
stima dei parametri del modello
(stima delle probabilità)
training corpus
modello
probabilistico
valutazione della capacità
predittiva del modello
test corpus
7
Modelli statistici del linguaggio
A Statistical NLP approach seeks to solve these problems by automatically learning
lexical and structural preferences from corpora
Manning & Schütze (1999: 19)
l 
Modelli statistici per NLP
l 
l 
l 
maggiore robustezza
l  “graceful degradation” in caso di errore
capacità di generalizzazione
approccio induttivo ed empirico
l  i parametri dei modelli vengono automaticamente stimati a
partire da corpora di addestramento
§ 
§ 
velocità di sviluppo
interessanti dal punto di vista cognitivo come modelli
dell’acquisiione del linguaggio
8
Che cosa è la probabilità?
l 
Eventi aleatori
l 
eventi incerti, che possono verificarsi oppure no
l 
l 
l 
l 
l 
l’evento di tirare un dado e ottenere 6
l’evento che domani piova
l’evento che venga estratto il numero 15 al lotto
l’evento che estraendo una parola a caso da un testo ottenga la
parola “uomo”
Probabilità
l 
un numero che attribuiamo ad un evento per quantificare il suo
grado di incertezza
l 
l 
l 
quanto è probabile che domani piova?
quanto è probabile che tirando un dado ottenga il numero 6?
le probabilità ci permettono di prendere decisioni in caso di
incertezza, per prevedere la possibilità del verificarsi di un
evento aleatorio
9
La definizione di probabilità
l 
Esperimento
l 
il processo attraverso cui viene compiuta una certa osservazione
l 
l 
l 
l 
un esperimento aleatorio è un esperimento il cui esito non può essere previsto
con certezza prima che venga eseguito
la teoria della probabilità si occupa di assegnare una probabilità al verificarsi di
un evento sulla base di una serie di esperimenti (osservazioni) ripetuti
Esperimento composto
l 
un insieme di n repliche di un esperimento (nelle stesse condizioni)
l 
l 
l 
lanciare un dado e vedere l’esito che produce (il numero ottenuto)
n lanci successivi di un dado
n successive osservazioni scientifiche dello stesso fenomeno
Spazio campione (Ω)
l 
l’insieme degli esiti (risultati) possibili di un esperimento
l 
l 
ciascun esito si chiama punto campione
esperimento: lancio di un dado
§ 
l 
Ωd = {1, 2, 3, 4, 5, 6}
esperimento: lancio di una moneta
§ 
Ωm = {testa, croce}
10
La definizione di probabilità
l 
Evento
l 
un sottoinsieme A dello spazio campione Ω, i cui elementi si dicono i
risultati favorevoli all’evento A
l 
l 
l 
l 
l’insieme di tutti i possibili eventi di Ω si chiama spazio degli eventi (E)
i punti campione sono gli eventi elementari
un evento formato da più di un punto campione si dice evento complesso
Esperimento: lancio di un dado
l 
Ωd = {1, 2, 3, 4, 5, 6}
l 
evento A = {ottenere un numero pari} evento complesso
§ 
l 
evento B = {ottenere un 6}
§ 
l 
evento elementare
B = {6}
evento C = {ottenere un numero compreso tra 1 e 6}
§ 
l 
A = {2, 4, 6}
C = {1, 2, 3, 4, 5, 6} = Ωd
§ 
un evento equivalente allo spazio campionario si dice evento certo
evento D = {ottenere un numero maggiore di 6}
§ 
D={}=∅
§ 
un evento equivalente all’insieme vuoto (∅) si dice evento impossibile
11
La definizione di probabilità
l 
Dato uno spazio campione Ω, una funzione di probabilità P
(distribuzione di probabilità) assegna a ogni evento di Ω un
numero reale compreso tra 0 e 1 (P: E à [0, 1])
l 
l 
una funzione di probabilità definisce uno spazio probabilistico per Ω
Definizione classica di probabilità (a priori)
l 
dato un esperimento in cui Ω è finito e tutti i punti campione sono
egualmente verosimili e mutuamente esclusivi, per ogni evento A:
P( A) =
A
Ω
12
Probabilità classica
l 
Esperimento: lancio di un dado (non truccato)
l 
Ωd = {1, 2, 3, 4, 5, 6}
l 
A = {ottenere un 6}
§ 
§ 
l 
§ 
§ 
C = {1, 2, 3, 4, 5, 6}
|C| = 6
P(C) = |C|/|Ωd| = 6/6 = 1 (evento certo, |C| = |Ω|)
D = {ottenere un numero maggiore di 6}
§ 
§ 
l 
B = {2, 4, 6}
|B| = 3
P(B) = |B|/|Ωd| = 3/6 = 1/2 = 0,5
C = {ottenere un numero compreso tra 1 e 6}
§ 
l 
A = {6}
|A| = 1
P(A) = |A|/|Ωd| = 1/6 = 0,16666666666666
B = {ottenere un numero pari}
§ 
l 
|Ωd| = 6
D={}
|D| = 0
P(D) = |C|/|Ωd| = 0/6 = 0 (evento impossibile)
La definizione classica non è appropriata se Ω è infinito o i vari
13
esiti non sono egualmente verosimili