Concordanze Collocazioni Dizionari elettronici

INFORMATICA UMANISTICA D:
LESSICOGRAFIA E COMPUTER
Contesti e Concordanze
Collocazioni
Dizionari elettronici
CITAZIONI
You taught me language, and my profit on’t
Is, I know not how to curse: the red plague rid you
For LEARNING me your language
Citazione da The Tempest in
Johnson’s Dictionary
Due usi di contesti nella
lessicografia

Per determinare conoscenze lessicali
nel senso discusso nelle due lezioni
precedenti



Classe grammaticale, accezioni
 CONCORDANZE
Per identificare aspetti ‘collocazionali’

 COLLOCAZIONI
CONCORDANZE


In Pinocchio, la forma BUONO occorre
11 volte.
Domande che si pone un lessicografo:




Quali parti del discorso?
Quali sensi?
Usati in quali contesti?
Soluzione: le CONCORDANZE
CONCORDANZE
CONCORDANZA = forma + contesto
1
2
3
4
5
6
7
1,
2,
5,
8,
12,
13,
15,
1
1
2
1
3
6
1
|
|
|
|
|
|
|
uomini, sono stati e sono o repubbliche o principati. È principati
indrieto el ragionare delle repubbliche, perché altra volta ne ragionai
assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore
dove si trattassi delle repubbliche. Questi sono quando, o per
vede a' principi soli e repubbliche armate fare progressi grandissimi,
Alessandro Magno, e come molte repubbliche e principi si sono armati
molti si sono immaginati repubbliche e principati che non si
STRUMENTI INFORMATICI PER
LA RICERCA DICONCORDANZE


Esistono oggi moltissimi strumenti che
permettono di eseguire il tipo di analisi
appena visto automaticamente
Esempi:



WORDSMITH distribuito da ICAME (a
pagamento)
TextSTAT (gratis)
WORDSKETCH (a pagamento)
TextSTAT



Sviluppato dal Dipartimento di Linguistica
Olandese della Freie Universitaet Berlin
Permette di estrarre FREQUENZE e
CONCORDANZE da ‘CORPORA’ che
includono testi in ASCII, HTML, e WORD
Si puo’ scaricare da:
http://www.niederlandistik.fuberlin.de/textstat/software-en.html
TextSTAT
CONCORDANZE: FORME
DIVERSE DI CONTESTO
e le colonne e i simulacri e l’ERME
ch’abbella agli occhi tuoi quest’ERMO lido,
Bruto per l’atra notte in ERMA sede,
ERMA terrena sede! Oh quanto affanno
Sempre caro mi fu quest’ERMO colle,
l’ERMA terra contemplo, e di fanciulla
de’ tuoi steli abbellir l’ERME contrade
ERME Torri, I 2
ERMO lido, IV 4
ERMA sede, VI 11
ERMA terrena sede, VIII 36
ERMO colle, XII 1
L’ERMA terra contemplo, XVI 63
ERME contrade, XXXIV 8
COMBINAZIONI DI PAROLE
E COLLOCAZIONI



“You can tell a word from the company
it keeps” (Firth, 1957)
La competenza lessicale non consiste
solo di conoscenza sintattica,
morfologica, e semantica
Ma anche di conoscenza in parte
arbitraria su quali parole si combinano
di preferenza
Restrizioni sulle combinazioni
di parole

Ordine


Restrizioni concettuali


*Il maglione che righe a indossi, *dormire il letto
?? Il letto e’ corso a casa
Restrizioni lessicali


Francese: crescere = grandir (persone), pousser
(piante)
Tedesco: mangiare = essen (persone), fressen
(animali)
Restrizioni lessicali


The tall boy (*the high boy)
Mantenere un segreto (? Conservare
un segreto)
COLLOCAZIONI

In lessicografia si distingue
tradizionalmente tra `normali’
restrizioni lessicali e COLLOCAZIONI
Collocazioni



Pioggia battente (?? Pioggia intensa)
Stendere un documento (? Scrivere un
documento)
Lanciare un messaggio
Intuizione:

In queste combinazioni di parole,
stendere, battente, lanciare (i
COLLOCATI) sono ‘scelti’ dalle BASI
(documento, pioggia, messaggio) per
esprimere un significato che non
hanno quando usati con altre parole

‘Meaning by collocation’, Firth 1957
Definizione di collocazione

Una collocazione e’una combinazione
di parole soggetta ad una restrizione
lessicale per la scelta di una parola (il
COLLOCATO) che e’ condizionata da
una seconda parola (la BASE)
Importanza delle collocazioni

A livello avanzato di conoscenza della
lingua straniera, le collocazioni fanno
la differenza

Italiano lavarsi i denti =


Inglese brush one’s teeth (spazzolare)
= Tedesco sich Die Zaehne putzen (pulirsi)
VERBI SUPPORTO
(= WEAK VERBS)

Un caso particolare di collocazioni
della forma VERBO + NOME in cui la
base (il nome) determina il significato
del collocato (il verbo)


Prendere una decisione,
dare spiegazioni, fare una telefonata,
essere in dubbio, avere paura
Il verbo ha un significato generico e
spesso contribuisce solo il tempo
LOCUZIONI od
ESPRESSIONI IDIOMATICHE
alzare il gomito
tagliare la corda
vuotare il sacco
mosca bianca
Differenza fondamentale dalle costruzioni
precedenti: il significato non e’ costruito dai
costituenti
RICERCA AUTOMATICA DI
COLLOCAZIONI

Il termine ‘collocazione’ e’ usato in
linguistica computazionale in senso
piu’ lato per indicare tanto le restrizioni
lessicali quanto le collocazioni vere e
proprie quanto gli idiomi
Dalla definizione alla ricerca

Non e’ facile definire il termine ‘collocazione’
in modo da poterne automatizzare la
ricerca. Si trovano definizioni



Frequentista
Fraseologica
Criteri:


Definizione dev’essere UTILE dal punto di vista
lessicografico
Dev’essere FACILE da OPERAZIONALIZZARE
(e possibilmente, automatizzare)
Definizione frequentista

Una collocazione e’ ogni combinazione
di parole che occorre molto di
frequente


Piu’ precisamente: ogni combinazione
che occorre piu’ frequentemente di
quanto non ci si aspettasse per caso
Problema: pura frequenza non implica
interesse lessicografico

Ho mangiato, va’ a casa, cosa dire
COLLOCATI PIU’
FREQUENTI DI ATTENZIONE
Definizioni fraseologiche

Una collocazione e’ una co-occorrenza
di parole soggetta ad una regola di
restrizione (Melcuk & Wanner)

Troppo generale: esistono molti tipi di
restrizioni
ALLA RICERCA DI
COLLOCAZIONI NEI CORPORA

I metodi per la ricerca automatica di
collocazioni sfruttano una
combinazione di informazioni:

FREQUENZA



Da sola pero’ non e’ sufficiente
INFORMAZIONI FRASEOLOGICHE
INDICAZIONI DI ‘DISTINZIONE’
INFORMAZIONI
FRASEOLOGICHE


Si utilizzano corpora in cui i token sono
stati classificati grammaticalmente
Ci si concentra su alcune combinazioni
sintattiche:



VERBO NOME
NOME AGGETTIVO
AGGETTIVO NOME
Potenziali collocati di
documento
INDICAZIONI DI
‘IMPORTANZA’


Una volta identificate le costruzioni piu’
frequenti, si cerca di stimare quali
siano le costruzioni piu’
INTERESSANTI
Le costruzioni interessanti sono quelle
che sembrano occorrere con una
frequenza maggiore di quella che ci si
aspetterebbe
UN ESEMPIO DI INDICAZIONE
DI IMPORTANZA

La MUTUAL INFORMATION e’ una
misura che calcola il rapporto tra la
PROBABILITA’ di incontrare due
parole assieme con la probabilita’ di
incontrarle individualmente

Intuizione: se la frequenza di occorrenza
di due parole e’ piu’ alta di quel che ci si
aspetterebbe, e’ possibile che
costituiscano una collocazione
MUTUAL INFORMATION
ESEMPIO
LE PAROLE CON MI PIU’
ALTA NEL WEBBIT
Scelta tra potenziali candidati

Il passo successivo sarebbe identificare i
candidati che




Esprimono restrizioni lessicali interessanti
Esprimono vere e proprie collocazioni (= in cui il
collocato ha un significato inusuale)
Esprimono delle locuzioni (il significato non puo’
essere derivato dai componenti)
Questo passo dev’essere fatto a mano!
Collocazioni e lessicografia


Che differenza c’e’ tra morbido e
soffice?
Collocati di morbido:


panno, pelle, gomma, burro
Collocati di soffice:

erba, sabbia, treccia, superficie
Letture


Jezek, capitolo 6
Lenci Montemagni e Pirrelli, capitolo 7
DIZIONARI ELETTRONICI
Dizionari elettronici
Strumenti informatici usati non piu’ solo per realizzare dizionari
cartacei, ma per sviluppare nuovi tipi di dizionari che consentono
nuove forme di ricerca
Tre tipi di dizionari in formato
digitale

Versioni digitali di dizionari tradizionali


Machine Readable Dictionaries


Collins COBUILD, Devoto-Oli, Zingarelli
interattivo
ODE
Nuove forme di dizionario

WordNet
DIZIONARI PER L’INGLESE
IN FORMA ELETTRONICA




Oxford English Dictionary, seconda
edizione
Oxford Talking Dictionary
Concise Oxford Dictionary
Learner dictionaries:


Longman Dictionary of Contemporary
English (LDOCE)
Collins COBUILD English Dictionary
CONCISE OXFORD
DICTIONARY

RICERCA:




Headword search (con *)
Hypertext search
Full text search (also of phrases / groups)
FILTRI:

etymology, phrasal verbs, suffixes
COLLINS: COBUILD

Disponibile da:

http://www.biblio.unitn.it/BancheDati/Banche
Dati.asp
DIZIONARI ELETTRONICI
PER L’ITALIANO




Il VELI
Zanichelli: CD-ROM Multilingue,
Scaffale Elettronico
Devoto-Oli
Garzanti: IPA  `parla’
DEVOTO-OLI
ESEMPIO: DEVOTO-OLI

Ricerca normale







Forme di citazione (incrementale)
Hyperlinks
Definizione / declinazione
Sinonimi / contrari
Ricerca avanzata
No: pronuncia; citazioni?
Limitato: storico
DEVOTO-OLI: SINONIMI E
CONTRARI
ESEMPIO:
ZINGARELLI INTERATTIVO
MRDS

Distinzione importante:




Particolarmente utili: dizionari creati per
EFL:



Dizionari consultabili elettronicamente
Dizionari MACHINE READABLE
Dizionari MACHINE TRACTABLE
LDOCE
COBUILD
Progetto piu’ ambizioso: ODE in XML
ESEMPIO: STOCK in LDOCE












0100 a supply (of something) for use: a good stock of food
0200 goods for sale: Some of the stock is being taken without being paid
for
0300 the thick part of a tree trunk
0400 (a) a piece of wood used as a support or handle, as for a gun or
tool (b) the piece which goes across the top of an ANCHOR^1 (1) from
side to side
0500 (a) a plant from which CUTTINGs are grown (b) a stem onto which
another plant is GRAFTed
0600 a group of animals used for breeding
0700 farm animals usu. cattle; LIVESTOCK
0800 a family line, esp. of the stated character
0900 money lent to a government at a fixed rate of interest
1000 the money (CAPITAL) owned by a company, divided into SHAREs
1100 a type of garden flower with a sweet smell
1200 a liquid made from the juices of meat, bones, etc., used in cooking
…..
ESEMPIO: ODE su CD-ROM
(in XML)
Esempio di database lessicografico
in XML (= estremamente machine
tractable)
ODE IN XML:
OVERVIEW
ODE IN XML: FORMATO
DELLE ENTRIES
<se>
<cn>815750</cn>
<hg> <hw>stock</hw> </hg>
<s1>
<ps>noun</ps>
<s2 num="1">
<df>the goods or merchandise kept on the premises of a
shop or warehouse and available for sale or
distribution:</df>
<ex>the store has a very low turnover of stock</ex>
-
-
|
</S2>
<S2 num=“2”>
……
</S2>
</S1>
<s1>
<ps>adjective</ps>
…..
ODE IN XML:
INFORMAZIONI NLP
- <nlp>
-
+
</nlp>
<sup>merchandise</sup>
<ss>Commerce</ss>
<morph id="01">
<mu sy="NN">
<inf>stock</inf>
<ph>stQk</ph>
</mu>
<mu sy="NNS">
<ph>stQks</ph>
</mu>
</morph>
Due dizionari elettronici


ELDIT
WordNet
ELDIT


(Elektronisches Lern(er)wörterbuch
Deutsch-Italienisch – Dizionario
elettronico per apprendenti italianotedesco )
Un esempio di dizionario



Per apprendimento
Nato in forma elettronica
Lezione su ELDIT: il 9/5