La compilazione di dizionari

annuncio pubblicitario
INFORMATICA UMANISTICA D:
LESSICOGRAFIA E COMPUTER
La compilazione di un
dizionario
La compilazione di un
dizionario

Tre fasi:



Progettazione (30%)
Scrittura (60%)
Produzione (10%)
Tempistica / costi

Zgusta: “of the lexicographic projects I know,
not a single one was finished in the time and
for the money originally planned”


Problemi:




Oxford English Dictionary: 7 anni  90
Tempo richiesto per scrivere le voci
Cambiamenti di staff
Tempo per scrivere il software
Misura di tempo: “editor week”
Uso di corpora e strumenti
informatici





Corpora per la scelta di parole
Conto numero di caratteri
Database per la redattura delle voci
Controllo stilistico
Produzione
Progettazione




A chi si rivolge il dizionario?
Quante parole?
Macro & micro structure
Progettazione del database che verra’
usato per mantenere i dati
SAMUEL JOHNSON’s PLAN FOR A
DICTIONARY OF THE ENGLISH
LANGUAGE (1747)

Il Dizionario dev’essere UTILE

Macro structure: criteri di SELEZIONE
Micro structure:






ORTOGRAFIA e PRONUNCIA
ETIMOLOGIA
ANALOGY (inflessione) e SYNTAX
INTERPRETATION (= definizione)
CITAZIONI con AUTORE
Tipi di pubblico




Bambini
Studenti
Apprendimento lingua straniera
Esperti di un’area
Dimensioni

Concise


Desk-size



60,000-90,000 lemmi
Due volte tanto
College dictionary: quante piu’
possibile
Dizionari tecnici: piu’ aggiornamento
che numero
CRITERI DI SELEZIONE: Dr
JOHNSON


“The peculiar words of every
profession”
“Words still considered to be foreign”
CRITERI DI SELEZIONE




Tecnico: tutte le parole del dominio
Apprendimento lingua straniera: solo
parole fondamentali
Generale: anche parole tecniche
Altre scelte:


Espressioni dialettali?
Nomi di persona e localita’?

CED4: 18000
Macro structure



Ordine alfabetico
Nomi?
Parole derivate?
Micro structure


Che informazioni?
Pronuncia?




Che sistema di trascrizione?
Accenti?
Uso?
Etimologia?
Fonti di dati

Dizionari esistenti


Citazioni



Per esempio, Bailey per Johnson,
Johnson per Webster
In-house
Compilate da volontari
Corpora
CRITERI DI SCELTA DI
CITAZIONI NELL’OED
Make a quotation for EVERY word that strikes you as rare, obsolete, oldfashioned, new, peculiar, or used in a peculiar way. Take a special note of
passages which show or imply that a word is either new or tentative, or
needing explanation as obsolete or archaic, and which thus help fix the
date of its introduction or disuse.
Make AS MANY quotations as convenient to you for ordinary words,
when these are used significantly, and help by the context to explain their
meaning, or show their use.
James Murray
Corpora
Using a computer is even more humbling
than working from citations, because one
is constantly confronted with abundant
evidence of usages that are common but
one would never have thought of
Landau, p. 355
Inizi della linguistica dei
corpus



Primi corpora: anni ’30 (The Teacher
Word’s Book, 5M; A Basic Writing
Vocabulary)
Fino agli anni ’60 costi memoria troppo alti
Anni ’60: Brown Corpus (Francis & Kucera),
Lancaster / Oslo / Bergen (Leech), Survey
of English Usage (Quirk)
Primi usi di corpora in
lessicografia

Anni ’70: concordanza elettronica di Old English a
Toronto



’80: COBUILD (Collins / Birmingham University,
Sinclair)


Ma: costi ancora elevati
Resistenza da parte delle tipografie
Primo dizionario: ESL, Collins Cobuild ELD (all’epoca: 20
millioni di parole)
Longman Lancaster English Language Corpus
(Leech)

Primo dizionario: LDOCE (all’epoca: 80 M parole)
IL British National Corpus
(BNC)




Creato tra il 1991 ed il 1994 da un consorzio
diretto da Oxford University Press
Circa 100 milioni di parole
Classificazione grammaticale automatica
usando il classificatore CLAWS (parti
corrette a mano successivamente)
http://www.hcu.ox.ac.uk/BNC
FORMATO (SGML)
<div1 complete=y org=seq>
<head>
<s n=00040> <w NN2>TROUSERS <w VVB>SUIT
</head>
<caption>
<s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing
<w AJ0>masculine <w PRP>about <w DT0>these <w
AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w
PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w
NN2>pastels<c PUN>.
<s n=00042> <w NP0>Smart <w CJC>and <w
AJ0>acceptable <w PRP>for <w NN1>city <w NN1VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w
PRP>for <w AJ0>relaxed <w NN2>days
</caption>
Uso di corpora in lessicografia

Frequenze (per milione di parole)
aiutano la scelta delle parole da
includere


Ma: “kick the bucket” non appare mai
Problema: troppi esempi (di solito 200500, migliaia per parole comuni)

Usare solo esempi da corpora
(COBUILD?) od anche esempi inventati?
Esempio: SURGERY




Sia British che American English:
chirurgia
Solo British: clinica
Prima dell’uso di corpora: dovrebbe
apparire al plurale solo in BE
Non vero
Esempio: SIGNIFICANTLY


Definizione tradizionale: “importantly”
Corpus evidence: “by a large amount”

Our prison population has significantly
increased in the last ten years
Esempio: CRAZY

Nel corpus usato da Landau: solo
plurale

The crazies are out in force
Scelta delle parole





Da fare PRIMA di cominciare a
compilare il dizionario
Problema del bilanciamento
Assicurarsi che tutte le parole usate
nella definizione siano nel dizionario
Puo’ richiedere fino a 20% del tempo
per un nuovo dizionario
Da corpora
Bilanciamento


In Inglese: il numero di parole che
cominciano con ‘c’ e’ piu’ di due volte il
numero di parole che cominciano con
‘g’
Thorndyke: 105 ‘blocchi’ di dimensioni
uguali


C: 10 blocchi
G: 4 blocchi
Blocchi di Thorndyke










c-caq
car-cel
cem-chim
chin-cled
clee-col
com-conf
cong-coo
cop-cq
cra-culs
cult-cz




g-geq
ger-gord
gore-grouo
group-gz
Parole e lemmi

La decisione di quali parole trattare
come lemmi e quali some voci
subordinate sempre difficile



“listed building” (CED)
“Riemannian geometry”
In dizionario medico, tutti i tipi di
“agenesis” (= assenza di organo alla
nascita)?
Uso di strumenti informatici
per la scelta di parole


Dr Johnson, OED: lista di parole = una
scheda per ogni voce
Oggi: formato elettronico


Ordinamento alfabetico
Bilanciare il dizionario contando il numero
di caratteri di ogni sezione
Definizioni
“first of all, a good definer must be able
to write well and easily”
(Landau, p. 354)
Tipi di definizioni

Definizioni per dizionari di lingua
straniera:


Molti esempi
Usi idiomatici
Manuale di stile

Ogni dizionario ha un manuale di regole da
seguire per compilare le definizioni:






Stile
Tipi di definizioni
Abbreviazioni
Uso delle maiuscole
Che tipo di informazioni grammaticali fornire
Uso delle parentesi
Check automatico dello stile



Molti tentativi di scrivere del software
che permetta di fare controlli
automatici dello stile (aldila’ dei
controlli grammaticali tipo Word)
Metodo principale: “controlled
language”
Obiettivo ancora molto lontano
Database delle definizioni



Progettato inizialmente
Una delle decisioni chiave (Landau)
Funzioni base:



Ricerca di voci
Cross indexing (= controllare che le parole della
definizione siano tutte nel dizionario)
Generazione automatica delle pagine
(PRODUZIONE)
Tipi di database


Tradizionalmente: relazionali
Oggigiorno: XML

Facilita l’aspetto produzione
ODE IN XML
<se>
<cn>815750</cn>
<hg> <hw>stock</hw> </hg>
<s1>
<ps>noun</ps>
<s2 num="1">
<df>the goods or merchandise kept on the premises of a
shop or warehouse and available for sale or
distribution:</df>
<ex>the store has a very low turnover of stock</ex>
-
-
|
</S2>
<S2 num=“2”>
……
</S2>
</S1>
<s1>
<ps>adjective</ps>
…..
ELDIT EDITING TOOL
(EURAC)
TALES (IRST)
Uso dei computer in fase di
produzione


Uno dei contributi piu’ importanti
dell’informatica alla lessicografia
Generazione automatica di
impaginazioni diverse

Calcolo automatico del numero di
colonne richieste dato il numero di voci e
la larghezza delle colonne
Produzione


150 000 voci, 2 linee x voce = 300 000
linee = 1875 pagine (= 80 linee per
colonna, 2 colonne per pagina)
1.7 linee x voce: 1600 pagine
Gli strumenti informatici non
risolvono tutti i problemi


Le definizioni devono sempre essere
scritte
Landau: ora che e’ diventato cosi’
facile creare un nuovo dizionario, si
presta sempre meno attenzione alla
qualita’
Letture


Jackson, cap. 13
Landau – Dictionaries: The Art and
Craft of Lexicography – ch. 7
Scarica