Dinamiche del vocabolario e modelli probabilistici del linguaggio

Linguistica Computazionale
18 ottobre 2016
Intepretare la Legge di Zipf
l 
Secondo Zipf la distribuzione delle parole nei testi
riflette un principio di economia nella
comunicazione
l 
parlante e ascoltatore cercano entrambi di minimizzare i
loro sforzi
l 
l 
l 
lo sforzo del parlante è ridotto avendo un piccolo vocabolario di
parole molto comuni (= frequenti)
lo sforzo dell’ascoltatore è ridotto avendo un grande
vocabolario di parole più rare (e meno ambigue)
la Legge di Zipf rappresenterebbe il compromesso
migliore (= più economico) tra queste due opposte
tendenze
2
La Legge di Zips
le conseguenze per la linguistica computazionale
l 
Ci sono sempre poche parole molto frequenti
l 
l 
corrispondono solitamente a parole appartenenti a “classi chiuse” (articoli,
preposizioni, congiunzioni, ecc.)
Ci sono sempre moltissime parole a bassa frequenza e hapax
(LNRE, Large Number of Rare Events)
l 
l 
sono parole “piene” (nomi, verbi, ecc.), solitamente estremamente
informative sul contenuto di un documento
il vocabolario è aperto
l 
l 
nuovi temi e concetti portano a introdurre nuove parole
produttività lessicale
§ 
§ 
nuovi termini
derivati morfologici, ecc.
I dati linguistici sono rari (data sparseness)
3
La dinamica del vocabolario
l 
Studiamo l’andamento della crescita lessicale all’aumentare del
testo
l 
l 
come aumenta |VC| all’aumentare di |C|
Il testo come flusso di parole
l 
Il testo può essere visto come una sequenza v1, v2, …,vi, … v|C| di
parole indicizzate per posizione
l 
i può essere interpretato come associato a un dato istante
temporale,
§ 
l 
vi è la parola che troviamo leggendo sequenzialmente il testo all’istante i
VC(i) è il vocabolario delle prime i parole di C (i≤|C|)
l 
|VC(i)| è la grandezza del vocabolario usato nelle prime i parole del
testo
l 
fornisce il tasso di crescita del vocabolario all’aumentare del corpus
4
La dinamica del vocabolario
|VC(i)|
grandezza vocabolario
7000
6000
5000
La crescita del
vocabolario in
PInocchio
y = 3.2824x 0.6984
4000
3000
2000
1000
0
0
10000
20000
30000
40000
50000
60000
lunghezza testo
con punteggiatura
senza punteggiatura
Potenza (con punteggiatura)
3500
3000
2500
La crescita degli
hapax in Pinocchio
2000
numero di hapax
1500
1000
500
0
0
10000
20000
media hapax
30000
40000
50000
hapax osservati
5
La dinamica del vocabolario
l 
l 
Forte correlazione tra aumento della lunghezza del
corpus e aumento del vocabolario
Il vocabolario VC di un corpus cresce in maniera non
lineare rispetto a |C|
l 
|VC(i)| non cresce sempre, poiché esistono parole che devono
ripetersi più o meno regolarmente
§ 
§ 
§ 
l 
parole grammaticali,
principi di coerenza lessicale
andamento narrativo, ecc.
la curva di |VC(i)| non ha mai un asintoto orizzontale
l  il vocabolario non smette mai di crescere
§ 
aumenta sempre più lentamente rispetto al crescere delle dimensioni
6
del corpus
Indicatori di tendenza centrale
l 
l 
Media aritmetica
Mediana
l 
l 
x + x + ... + xn
x= 1 2
=
n
∑
n
x
i =1 i
n
la modalità di un’osservazione che divide la distribuzione in due
parti uguali
n +1
me(x) =
2
La media è un indicatore molto sensibile ai valori “estremi”
l  1,2,3,4,5 -->
€ media = 3; mediana =3
l  1,2,3,4,70 --> media = 16; mediana =3
7
Indicatori di dispersione
l 
Deviazione standard (σ, scarto quadratico medio)
l 
indice statistico di “dispersione” che misura la variabilità dei
dati di una distribuzione (quanto i singoli dati differiscono
rispetto alla media)
l  σ2 è la varianza della variabile
n
σ=
2
(
x
−
x
)
∑i =1 i
n
media
scarti
scarti
8
Distribuzione normale
valori
frequenza
freq. relativa
%
1.50-1.55
1
3.7
1.56-1.60
3
11.1
Misurazione dell’altezza di
un campione di 27 soggetti
1.61-1.65
6
22.2
media = 1.68
1.66-1.70
8
29.6
mediana = 1.68
1.71-1.75
5
18.5
1.76-1.80
3
11.1
1.81-1.85
1
3.7
Distribuzione normale
istogramma della
distribuzione
dell’altezza dei
soggetti
Distribuzione normale (Gaussiana)
l 
Famiglia di distribuzioni delle frequenze relative (probabilità) dei
valori di una variabile (continua)
l 
l 
x = valori della variabile
y = frequenza relativa (probabilità) di ciascun valore
11
Distribuzioni statistiche
distribuzione normale (Gaussiana)
l 
Distribuzioni simmetriche rispetto alla media e con forma a
campana
l 
ha il massimo in corrispondenza della media
l 
l 
ogni distribuzione è completamente definita da due parametri:
media e σ
l 
l 
l 
i valori della distribuzione si addensano intorno al valor medio
σ = definisce l’ampiezza della campana
l’area sottesa dalla curva è uguale a 1
Pochi valori “estremi”: la maggior parte dei valori tende a
raggrupparsi intorno al valor medio
l 
l 
l 
68% dei valori della variabile cade nell’intervallo µ±σ
95% dei valori della variabile cade nell’intervallo µ±2σ
99,7% dei valori della variabile cade nell’intervallo µ±3σ
12
Distribuzioni statistiche
distribuzione normale (Gaussiana)
l 
Distribuzione tipica di molti variabili relative a
fenomeni naturali e comportamentali (es. peso,
altezza, ecc.) e sociali
l 
l 
i valori si concentrano intorno alla media, mentre i
valori estremi sono estremamente improbabili
gli errori di misura (errori accidentali) si distribuiscono
normalmente
0,15
0,12
distribuzione
normale degli
errori di
misura
0,15
0,15
n=40
0,09
n=160
0,12
0,12
0,09
0,09
0,06
0,06
0,06
0,03
0,03
0,03
0
75
80
85
90
95
100
105
0
n=5120
0
75
80
85
90
95
100
105
75
80
85
90
95
100
105
13
Distribuzioni di parole
la frequenza media
l 
Frequenza media delle parole in C
_
f (| C |) =
l 
C
VC
deriva dalla definizione di media aritmetica
l  sommiamo la frequenza delle parole tipo e la dividiamo
per il numero di parole tipo
_
f =
l 
f v 1 + f v2 + ... + f vn
n
=
|C |
| VC |
indicatore “inverso” di ricchezza lessicale
14
Distribuzioni di parole
la frequenza media
l 
L’andamento tendenziale della frequenza media al crescere dei campioni di
testo è quello di una funzione non decrescente:
_
_
f (k ) ≤ f (k + 1)
l 
si possono registrare temporanee inversioni di tendenza, se si registra un
aumento del ritmo di crescita del vocabolario
l  segno di discontinuità nel contenuto del testo
frequenza media
10
1
0
10000
20000
30000
40000
50000
Crescita della
frequenza
media in
PInocchio
densità
rapporto tra il numero di
parole nuove introdotte in
ciascun capitolo e la
lunghezza del capitolo
densità
0,1
0,01
lunghezza testo
15
Distribuzioni di parole
alcune conclusioni
l 
La frequenza media di parola non è un valore convergente
l 
la frequenza media di parola tende ad avere un andamento
strettamente crescente (a differenza di quanto accade per la media
di altre variabili)
l 
l 
l 
Le frequenze degli eventi linguistici hanno una distribuzione
zipfiana
l 
l 
gran numero di parole rare (Large Number of Rare Events)
il numero delle parole tipo continua a crescere con l’aumentare del corpus
l 
l 
vari indicatori statistici (es. media, frequenze relative) sono sensibili
alla grandezza del corpus
la frequenza media di parola in un corpus (comunque grande) non
può essere usato per stimare la frequenza media reale
non finiamo mai di esplorare il vocabolario del linguaggio
In tutti i corpora ci sono molte parole “non viste”, ovvero che
rimangono fuori dal campione
16
Probabilità e cognizione
The argument for a probabilistic approach to cognition is that we live in a world
filled with uncertainty and incomplete information. To be able to interact successfully
with the world, we need to be able to deal with this type of information.
Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15
l 
Esempio
l 
l 
sto partendo per un viaggio e devo decidere se mettere in valigia un ombrello
oppure no
Per prendere questa decisione devo stimare la probabilità che piova,
integrando diversi tipi di informazione sulle condizioni atmosferiche
l 
temperatura, stagione, meta del viaggio, previsioni del tempo a destinazione,
ecc.
l 
l 
l 
se è autunno, è probabile che piova (perché spesso piove in autunno)
se è agosto e vado in Tunisia è molto poco probabile che piova (perché è raro
che in agosto piova in Tunisia)
se è agosto e vado in Scozia, è molto probabile che piova (perché le piogge
in
17
estate in Scozia sono frequenti)
Probabilità e linguaggio
The cognitive processes used for language are identical or at least very similar to those used
for processing other forms of sensory input and other forms of knowledge. These processes
are best formalized as probabilistic processes or at least by means of some quantitative
framework that can handle uncertainty and incomplete information.
Manning & Schütze (1999), Foundations of Statistical Natural Language Processing, MIT Press: 15
l 
Esempio
l 
decidere come segmentare una sequenza di suoni in parole discrete
l  lamacchinaeraparcheggiatadavantiallaporta
§ 
l 
decidere la categoria di morfosintattica (part of speech) di una
parola
l  la macchina la aspettava davanti alla porta
§ 
l 
stimare la probabilità che tra due suoni esista un confine di parola
stimare la probabilità che la sia un articolo o un pronome clitico
decidere come tradurre un’espressione linguistica
l  L’aquila ha perso una penna volando
§ 
stimare la probabilità che penna si traduca pen o feather in inglese
18