INFORMATICA UMANISTICA D:
LESSICOGRAFIA E COMPUTER
Corpora e contesti
Concordanze
Collocazioni
CITAZIONI
You taught me language, and my profit on’t
Is, I know not how to curse: the red plague rid you
For LEARNING me your language
Citazione da The Tempest in
Johnson’s Dictionary
Due usi di contesti nella
lessicografia

Per determinare conoscenze lessicali
nel senso discusso nelle due lezioni
precedenti



Classe grammaticale, accezioni
 CONCORDANZE
Per identificare aspetti ‘collocazionali’

 COLLOCAZIONI
CONCORDANZE


In Pinocchio, la forma BUONO occorre
11 volte.
Domande che si pone un lessicografo:




Quali parti del discorso?
Quali sensi?
Usati in quali contesti?
Soluzione: le CONCORDANZE
CONCORDANZE
CONCORDANZA = forma + contesto
1
2
3
4
5
6
7
1,
2,
5,
8,
12,
13,
15,
1
1
2
1
3
6
1
|
|
|
|
|
|
|
uomini, sono stati e sono o repubbliche o principati. È principati
indrieto el ragionare delle repubbliche, perché altra volta ne ragionai
assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore
dove si trattassi delle repubbliche. Questi sono quando, o per
vede a' principi soli e repubbliche armate fare progressi grandissimi,
Alessandro Magno, e come molte repubbliche e principi si sono armati
molti si sono immaginati repubbliche e principati che non si
STRUMENTI INFORMATICI PER
LA RICERCA DICONCORDANZE


Esistono oggi moltissimi strumenti che
permettono di eseguire il tipo di analisi
appena visto automaticamente
Esempi:



WORDSMITH distribuito da ICAME (a
pagamento)
TextSTAT (gratis)
WORDSKETCH (a pagamento)
TextSTAT



Sviluppato dal Dipartimento di Linguistica
Olandese della Freie Universitaet Berlin
Permette di estrarre FREQUENZE e
CONCORDANZE da ‘CORPORA’ che
includono testi in ASCII, HTML, e WORD
Si puo’ scaricare da:
http://www.niederlandistik.fuberlin.de/textstat/software-en.html
TextSTAT
CONCORDANZE: FORME
DIVERSE DI CONTESTO
e le colonne e i simulacri e l’ERME
ch’abbella agli occhi tuoi quest’ERMO lido,
Bruto per l’atra notte in ERMA sede,
ERMA terrena sede! Oh quanto affanno
Sempre caro mi fu quest’ERMO colle,
l’ERMA terra contemplo, e di fanciulla
de’ tuoi steli abbellir l’ERME contrade
ERME Torri, I 2
ERMO lido, IV 4
ERMA sede, VI 11
ERMA terrena sede, VIII 36
ERMO colle, XII 1
L’ERMA terra contemplo, XVI 63
ERME contrade, XXXIV 8
COMBINAZIONI DI PAROLE
E COLLOCAZIONI



“You can tell a word from the company
it keeps” (Firth, 1957)
La competenza lessicale non consiste
solo di conoscenza sintattica,
morfologica, e semantica
Ma anche di conoscenza in parte
arbitraria su quali parole si combinano
di preferenza
Restrizioni sulle combinazioni
di parole

Ordine


Restrizioni concettuali


*Il maglione che righe a indossi, *dormire il letto
?? Il letto e’ corso a casa
Restrizioni lessicali


Francese: crescere = grandir (persone), pousser
(piante)
Tedesco: mangiare = essen (persone), fressen
(animali)
Restrizioni lessicali


The tall boy (*the high boy)
Mantenere un segreto (? Conservare
un segreto)
COLLOCAZIONI

In lessicografia si distingue
tradizionalmente tra `normali’
restrizioni lessicali e COLLOCAZIONI
Collocazioni



Pioggia battente (?? Pioggia intensa)
Stendere un documento (? Scrivere un
documento)
Lanciare un messaggio
Intuizione:

In queste combinazioni di parole,
stendere, battente, lanciare (i
COLLOCATI) sono ‘scelti’ dalle BASI
(documento, pioggia, messaggio) per
esprimere un significato che non
hanno quando usati con altre parole

‘Meaning by collocation’, Firth 1957
Definizione di collocazione

Una collocazione e’una combinazione
di parole soggetta ad una restrizione
lessicale per la scelta di una parola (il
COLLOCATO) e’ condizionata da una
seconda parola (la BASE)
Importanza delle collocazioni

A livello avanzato di conoscenza della
lingua straniera, le collocazioni fanno
la differenza

Italiano lavarsi i denti =


Inglese brush one’s teeth (spazzolare)
= Tedesco sich Die Zaehne putzen (pulirsi)
VERBI SUPPORTO
(= WEAK VERBS)

Un caso particolare di collocazioni
della forma VERBO + NOME in cui la
base (il nome) determina il significato
del collocato (il verbo)


Prendere una decisione,
dare spiegazioni, fare una telefonata,
essere in dubbio, avere paura
Il verbo ha un significato generico e
spesso contribuisce solo il tempo
LOCUZIONI od
ESPRESSIONI IDIOMATICHE
alzare il gomito
tagliare la corda
vuotare il sacco
mosca bianca
Differenza fondamentale dalle costruzioni
precedenti: il significato non e’ costruito dai
costituenti
RICERCA AUTOMATICA DI
COLLOCAZIONI

Il termine ‘collocazione’ e’ usato in
linguistica computazionale in senso
piu’ lato per indicare tanto le restrizioni
lessicali quanto le collocazioni vere e
proprie quanto gli idiomi
Dalla definizione alla ricerca

Non e’ facile definire il termine ‘collocazione’
in modo da poterne automatizzare la
ricerca. Si trovano definizioni



Frequentista
Fraseologica
Criteri:


Definizione dev’essere UTILE dal punto di vista
lessicografico
Dev’essere FACILE da OPERAZIONALIZZARE
(e possibilmente, automatizzare)
Definizione frequentista

Una collocazione e’ ogni combinazione
di parole che occorre molto di
frequente


Piu’ precisamente: ogni combinazione
che occorre piu’ frequentemente di
quanto non ci si aspettasse per caso
Problema: pura frequenza non implica
interesse lessicografico

Ho mangiato, va’ a casa, cosa dire
COLLOCATI PIU’
FREQUENTI DI ATTENZIONE
Definizioni fraseologiche

Una collocazione e’ una co-occorrenza
di parole soggetta ad una regola di
restrizione (Melcuk & Wanner)

Troppo generale: esistono molti tipi di
restrizioni
ALLA RICERCA DI
COLLOCAZIONI NEI CORPORA

I metodi per la ricerca automatica di
collocazioni sfruttano una
combinazione di informazioni:

FREQUENZA



Da sola pero’ non e’ sufficiente
INFORMAZIONI FRASEOLOGICHE
INDICAZIONI DI ‘DISTINZIONE’
INFORMAZIONI
FRASEOLOGICHE


Si utilizzano corpora in cui i token sono
stati classificati grammaticalmente
Ci si concentra su alcune combinazioni
sintattiche:



VERBO NOME
NOME AGGETTIVO
AGGETTIVO NOME
Potenziali collocati di
documento
INDICAZIONI DI
‘IMPORTANZA’


Una volta identificate le costruzioni piu’
frequenti, si cerca di stimare quali
siano le costruzioni piu’
INTERESSANTI
Le costruzioni interessanti sono quelle
che sembrano occorrere con una
frequenza maggiore di quella che ci si
aspetterebbe
UN ESEMPIO DI INDICAZIONE
DI IMPORTANZA

La MUTUAL INFORMATION e’ una
misura che calcola il rapporto tra la
PROBABILITA’ di incontrare due
parole assieme con la probabilita’ di
incontrarle individualmente

Intuizione: se la frequenza di occorrenza
di due parole e’ piu’ alta di quel che ci si
aspetterebbe, e’ possibile che
costituiscano una collocazione
MUTUAL INFORMATION
ESEMPIO
LE PAROLE CON MI PIU’
ALTA NEL WEBBIT
Scelta tra potenziali candidati

Il passo successivo sarebbe identificare i
candidati che




Esprimono restrizioni lessicali interessanti
Esprimono vere e proprie collocazioni (= in cui il
collocato ha un significato inusuale)
Esprimono delle locuzioni (il significato non puo’
essere derivato dai componenti)
Questo passo dev’essere fatto a mano!
Collocazioni e lessicografia


Che differenza c’e’ tra morbido e
soffice?
Collocati di morbido:


panno, pelle, gomma, burro
Collocati di soffice:

erba, sabbia, treccia, superficie
Letture


Jezek, capitolo 6
Lenci Montemagni e Pirrelli, capitolo 7
Per saperne di piu’

Linguistica Applicata, Modulo B

(Da cui arrivano alcuni dei lucidi)