Presentazione del corso di Informatica Umanistica D Dizionari

INFORMATICA UMANISTICA D:
LESSICOGRAFIA E COMPUTER
Cos’e’ un dizionario
Struttura di un dizionario
Storia dei dizionari
Introduzione al modulo D,
amministrazione
Cos’e’ la lessicografia


Informalmente: la disciplina che si
occupa della creazione di DIZIONARI
Formalmente: scienza e tecnica della
registrazione e della definizione
formale, funzionale e semantica dei
vocaboli e delle unità lessicali di una
lingua (De Mauro)
Cos’e’ un dizionario



Dizionari ed enciclopedie
Informazioni che si trovano in un
dizionario
Tipi di dizionari
Dizionari ed enciclopedie

“Dictionaries are about words”


“Encyclopedias are about knowledge”


La voce di un dizionario sulla parola ‘TOAD’ ne
da’ forma e pronuncia, etimologia, grammatica,
uso, e significati
Un articolo di enciclopedia su “TOAD” e’ un
riassunto piu’ o meno breve della conoscenza
sull’argomento
OVVIAMENTE CI SONO ASPETTI IN
COMUNE
UN ESEMPIO DI VOCE IN
DIZIONARIO
toad /təųd/ n.
1 any froglike amphibian of the family Bufonidae,
esp. of the genus Bufo, breeding in water but living
chiefly on land.
2 any of various similar tailless amphibians.
3 a repulsive or detestable person.
toadish adj.
[Old English tadige, tadde, tada, of unknown origin]
(COD 9)
UN ESEMPIO DI VOCE IN
ENCICLOPEDIA
TOAD
The true toads are amphibians in the Bufonidae family. A number of species
in other families of Amphibia are commonly referred to as toads. This is
because the characteristics that are popularly used to distinguish frogs from
toads are not quite the same as those used for scientific classification.
The type species of the family Bufonidae is the Common toad, Bufo bufo, and
around it cluster a large number of species of the same genus, and some
smaller genera. B. bufo is a tailless amphibian of stout build, with a warty skin,
and any animal that shares these characteristics is liable to be called a toad,
regardless of its location in formal taxonomy.
That the shape of the body is not a safe guide in judging of anuran groups is
shown by some true frogs (Rana), which have adapted to burrowing habits,
and are absolutely toad-like. The Bufonidae include terrestrial, burrowing,
thoroughly aquatic and arboreal types; Rhinophrynus, of Mexico, may be
described as an anteater.
Almost all toads have two lumps near the head, called the parotid glands.
These glands contain poison, which oozes out if the toad is angered. Some,
like cane toads, are more poisonous than others.
TERMINOLOGIA

PAROLA (Inglese: WORD)


Un’unita’ linguistica a cui sono associate una
funzione grammaticale ed un significato
(Marello)
FORME di parola

Varianti morfologiche di una parola con funzioni
grammaticali anche diverse:



BELLO, BELLISSIMO
DOTTORE, DOTTORI
MANGERO’, MANGIARE
TERMINOLOGIA (2)

VOCE di un dizionario (Inglese: ENTRY)


Le informazioni date da un dizionario su una
parola indicizzata da un certo LEMMA
LEMMA


La forma di parola ‘canonica’ usata per
rappresentare la parola nel dizionario (per
esempio, per deciderne la posizione alfabetica)
Per esempio,


DOTTORE per il sostantivo con forme DOTTORE,
DOTTORI
MANGIARE per il verbo con forme MANGIO /
MANGIERO’ / MANGIO’
TERMINOLOGIA (3)



VOCABOLARIO: elenco di parole
DIZIONARIO: elenco di parole CON
PRONUNCIA
Useremo il termine DIZIONARIO che
di questi tempi sembra piu’ corrente

Google: 2 M hits x vocabolario, 12M hits
per dizionario
COSA SI TROVA IN UNA
VOCE







Il LEMMA della parola
Le altre FORME (ortografia e pronuncia)
La loro STRUTTURA (da quali morfemi
sono composti)
Informazioni GRAMMATICALI
Esempi di USO
ETIMOLOGIA
Il SIGNIFICATO della parola (compresi
sinonimi)
FORME DI PAROLA

PRONUNCIA



Fonemi, oggigiorno solitamente IPA /təųd/
Prosodia (accento)
ORTOGRAFIA


Sillabe
Varianti
INFORMAZIONI
GRAMMATICALI

Morfologia


Verbi: inflessioni
Nomi: forma del plurale
dito  dita
Sintassi




Parte del discorso (con restrizioni: awake
predicative (the baby is awake) ma non
attributive (*the awake baby)
Verbi: transitivo / intransitivo, quali tipi di
preposizioni, etc.
DESCRIZIONE DELL’USO


Spesso in forma di citazioni (vedi
esempi successivi)
Espressioni comuni (collocazioni)
COLLOCAZIONI


Frasi fatte: Studente lavoratore, padre
padrone, governo ombra
Preferenze d’uso:

Il sostantivo ban tipicamente modificato
dagli aggettivi total o complete,
associato con il verbo impose, etc.
SIGNIFICATO


Una delle funzioni piu’ importanti di un
dizionario e’ caratterizzare le
ACCEZIONI di una parola attraverso
DEFINIZIONI
Probabilmente l’aspetto piu’ difficile
della lessicografia
SIGNIFICATO
Only those who have made the experiment
know the bewilderment with which an editor or
sub-editor, after he has apportioned the
quotations for such a word as above … among
20, 30 or 40 groups, and furnished each of these
with a provisional definition, spreads them out
on a table or on the floor where he can obtain a
general survey of the whole, and spends hour
after hour in shifting them about like the pieces
on a chess-board … (James A. H. Murray, citato
da S. Landau)
IL PROBLEMA DEL
SIGNIFICATO
Come possiamo caratterizzare
questo significato?
Come minimo, come trovare
un modo per caratterizzare
questo significato che ci
permetta di distinguere tra
queste accezioni diverse?
SIGNIFICATO IN UN
DIZIONARIO

RIFERIMENTO



RELAZIONI SEMANTICHE




Sinonimia
Antonimia
Iponimia
CONNOTAZIONE


OK: ‘bicicletta’ / `tromba’
Piu’ difficile: ‘deferenza’ / ‘ridicolo’
inspire vs. fundamentalist
COLLOCAZIONI
ESEMPI DI DEFINIZIONI
contascàtti: Dispositivo installato a richiesta presso
l’utente per la documentazione del traffico telefonico
(Zingarelli 1995)
maneggevole: Che si puo’ maneggiare facilmente || Fig.
trattabile, arrendevole || T. mar. del vento, quando permette
l’esecuzione di qualsiasi manovra
(Palazzi-Folena, 1992)
RELAZIONI SEMANTICHE

SINONIMIA: quando due lemmi distinti
hanno lo stesso significato


ANTONIMIA: quando due lemmi hanno
significati CONTRARI


Bello / brutto, amore / odio
IPERONIMIA:


Spesso essenziale per definizioni / traduzioni
(ETERONIMIA)
Garofano, rosa, margherita sono tutti iponimi di
FIORE
MERONIMIA
SINONIMIA

Origini:

Words from different strata:


Dialect difference


Biscuit / cookie; Lorry / truck
Non e’ mai perfetta:


Italiano: PAPA’ vs. PADRE / PEDALINO vs. CALZINO
Everything is illuminated:





Begin vs commence (Jackson p. 17)
`harmonize’ invece di ‘agree’
‘rigid’ invece di ‘hard’
‘disseminate’ invece di ‘spend’
“forgetful dogs.”
Vedi:
http://parole.alice.it/parole/sinonimi_e_contrari/
POLISEMIA ED OMONIMIA



La maggior parte delle forme di parola hanno piu’ di
un significato
Due tipi di distinzioni: POLISEMIA ed OMONIMIA
POLISEMIA: diverse accezioni di una stessa parola



‘VERDE’ come ‘avente un certo colore’ e come ‘ricco di
vegetazione’
Tipicamente risulta da estensioni / riduzioni
OMONIMIA: diverse parole


‘SCANNARE’ come ‘fare a pezzi’ / ‘italianizzazione di TO
SCAN’; GRU come uccello / macchina per sollevare pesi
Tipicamente indica etimologie diverse
PROBLEMI DI DEFINIZIONE


Evitare circolarita’
Putnam:



`faggio’ / `olmo’
`diamante’ / `zircone’
Jackson: happen vs occur vs befall vs
transpire
Differenze tra dizionari

Il contenuto delle voci cambia a
seconda de


Il TIPO di dizionario (monolingue /
bilingue, eta’ dell’utente, livello di
specializzazione)
La FUNZIONE (d’uso, di riferimento)
TIPI DI DIZIONARI

Dizionari `general purpose’





= `desk’ o ‘concise’
Dizionari ‘di riferimento’
Dizionari per learners
Dizionari specialistici
Dizionari BILINGUI
TOAD NELL’OED ONLINE
toad, n.
(td)
Forms: . 1 tádi e, tádie. . 1-5 tadde, (pl. 1 -an, 2-4 en, 3-7 -es). . ?3, 4-6
north. tade, 5- Sc. taid, 9 north. dial. teäde, tead, ted, tyed. . 4-7 tode, 5-6
toode, 6 tood, 6-7 toade, 7- toad. [OE. tádi e, of unknown origin and
unusual form, has no cognates in the other langs. (Da. and Norw. tudse are
not connected.) The relation of tadde to tádi e, tádie is not clear: Björkman
thinks it a hypocoristic form with shortened vowel and doubled cons.; it
survived in s.w. ME. tadde; cf. also tadpipe (see 7b), tadpole. The northern
tade, taid, teäde, ted and midl. tôde, tood, toad, with long vowel and single
cons., prob. represented tádi e, tádie, with its unusual ending reduced to -e.]
1. a. A tailless amphibian of the genus Bufo; primarily the common
European species Bufo vulgaris; thence extended to many foreign species of
the genus or of the family Bufonidæ. running toad, the natterjack.
c1000 ÆLFRIC Voc. in Wr.-Wülcker 122/11 Buffo, tadi e. a1100 Voc. ibid.
321/23 Rubeta, tadie.
COMPILARE UN DIZIONARIO

La compilazione di un dizionario
comporta tre aspetti:



Scelta delle voci
Identificazione dei testi
Scrittura delle voci
SCELTA DELLE VOCI

Tre fonti primarie:


Dizionari precedenti (non si parte da
zero)
Citation file (= archivio di citazioni della
casa editrice)


(Vedi sotto per quel che riguarda Dr.
Johnson’s / OED)
Nuovi testi
VOCI IN DUE DIZIONARI
D’USO
CED4
NODE
gl.
GLA
glabella
glabella
glabrescent
glabrous
glabrous
glacé
glacé
glacé icing
glacial
glacial
RESTRIZIONI

Costo



Della creazione (OED: tra il 1858 ed il
1928)
Del volume
Spazio
ORGANIZZAZIONE

Le voci in un dizionario possono
essere organizzate


In ordine ALFABETICO
In ordine TEMATICO
DIZIONARI ONOMASIOLOGICI/
TESAURI

Dizionario ONOMASIOLOGICO: voci
raggruppate per SOGGETTI invece che in
ordine alfabetico


I dizionari Italiani piu’ antichi sono in questa
forma (Alunno, 1548)
TESAURI: dizionari organizzati per
RELAZIONI LESSICALI e tipicamente
strutturati in modo CONCETTUALE

Peter Mark Roget, THESAURUS OF ENGLISH
WORDS AND PHRASES (1852)
ALTRI TIPI DI DIZIONARI

Dizionari ETIMOLOGICI




Concentra solamente su derivazione delle
parole
LEI Lessico Epistemologico Italiano (Max Pfister,
in completamento)
Pianigiani: http://www.etimo.it/
Dizionari dei SINONIMI e dei CONTRARI

Tommaseo, 1830
STORIA DEI DIZIONARI
INGLESI, 1: GLOSSARI

Primi `dizionari’: i GLOSSARI
medievali



raccolte di GLOSSE in Old English di
parole latine, tipicamente scritte da
monaci
Primi dizionari sono bilingui!
Uno dei piu’ noti: The London
Vocabulary di Ǽlfric (XI secolo)
STORIA DEI DIZIONARI
INGLESI, 2: `HARD WORDS’



Rinascimento: cominciano i ‘prestiti’ da altre
lingue (non solo Latino, ma anche
Francese, Greco, Italiano)
Nasce la necessita’ di aver spiegazioni su
`hard words’: neologismi introdotti di
recente, con cui un ‘uneducated reader’ puo’
non avere familiarita’
Esempio piu’ noto di risorsa di questo tipo:
Robert Cawdrey, A Table Alphabeticall, 1604

2500 parole
DA `A TABLE ALPHABETICALL’
DI CAWDREY
§ Abandon, cast away, or yeelde up, to leave, or
forsake
Abash, blush
abba, father
§ abbesse, abbatesse, Mistris of a Nunnerie,
comforters of others
§ abbettors, counsellors
….
Apocrypha (g), not of authoritie, a thing hidden,
whose originall is not knowne
DA ‘HARD WORDS’ A ‘ALL
WORDS’


John Bullokar, AN ENGLISH EXPOSITOR (1616)
Cockeram’s THE ENGLISH DICTIONARIE (1623)




Prime etimologie: Thomas Blount (1656), Stephen
Skinner (1671)
A NEW ENGLISH DICTIONARY, di `J.K.’ (1702)



Primo ad essere chiamato ‘DICTIONARY’
Anche `vulgar words’
primo tentativo di produrre un dizionario completo (28 000
lemmi)
Per artigiani e mercanti
Nathaniel Bailey, AN UNIVERSAL
ETYMOLOGICAL ENGLISH DICTIONARY

sia completezza (40000 parole prima edizione, poi
50000) che etimologia
CORREGGERE E `BLOCCARE’
(‘ASCERTAINING’) LA LINGUA


XVII secolo: molta preoccupazione che un numero
eccessivo di parole straniere venisse assorbito
nell’Inglese
Si guardo’ con favore al modello dell’ Académie
Francaise, fondata nel 1635, e che produsse tra il
1639 ed il 1694 il DICTIONNAIRE DE L’ACADEMIE
FRANCAISE con l’intenzione di ‘codificare’ e
`ripulire’ il linguaggio


Cfr. Dizionario degli Accademici della Crusca
Jonathan Swift: A PROPOSAL FOR
CORRECTING, IMPROVING AND ASCERTAINING
(= FIX) THE ENGLISH LANGUAGE (1712)
SAMUEL JOHNSON
(1709-1784)
When we see men grow old and die at a certain
time one after another, from century to century, we
laugh at the elixir that promises to prolong life to a
thousand years; and with equal justice may the
lexicographer be derided, who being able to
produce no example of a nation that has
preserved their words and phrases from mutability;
shall imagine that his dictionary can embalm the
language, and secure it from corruption and decay
… (Preface al Dictionary of the English Language,
1755)
THE DICTIONARY OF THE
ENGLISH LANGUAGE



Prodotto tra il 1746 ed il 1755 con 6
assistenti
42773 lemmi
Primo dizionario sviluppato secondo
metodi lessicografici moderni; la
creazione del dizionario sollevo’
problemi ancora attuali per la
lessicografia
SAMUEL JOHNSON: PLAN FOR A
DICTIONARY OF THE ENGLISH
LANGUAGE (1747)

Il lavoro comincio’ con lo sviluppo di
principi da seguire






Criteri di SELEZIONE
ORTOGRAFIA e PRONUNCIA
ETIMOLOGIA
ANALOGY (inflessione) e SYNTAX
INTERPRETATION (= definizione)
CITAZIONI con AUTORE
METODOLOGIA


Punto di partenza: dizionario di Bailey
Identificazione di nuove voci: lettura di autori
ammirati da Johnson




Ogni volta che trovava un uso ‘corretto’ di una
parola, sottolineava e marcava la citazione; un
assistente avrebbe creato uno SLIP
Gli slip con citazioni (114000 in tutto) poi ordinati
in modo alfabetico
A partire dal 1749, Johnson comincio’ ad
identificare i sensi e scrivere le definizioni
Primo volume 1753
RISULTATO
DEFINIZIONI FAMOSE
"Lexicographer: a writer of dictionaries, a
harmless drudge, that busies himself in tracing
the original, and detailing the signification of
words. “
"Oats: a grain which in England is generally
given to horses, but in Scotland supports the
people"
THE NEW ENGLISH
DICTIONARY


L’Oxford English Dictionary e’ quanto di piu’
vicino ci sia ad un ‘record ufficiale’
dell’Inglese (Britannico)
Obiettivo: creare un dizionario le cui
definizioni fossero basate sui criteri
‘scientifici’ sviluppati nella nuova scienza
della filologia


Sotto gli auspici della Philological Society
Prima edizione richiese 70 anni (tra il 1858
ed il 1928) e 5 ‘editors’

Editor chiave: JAMES MURRAY
THE NEW ENGLISH
DICTIONARY: METODO


Principio: “to furnish an adequate account of
the meaning, origin, and history of English
words now in general use, or known to have
been in general use at any time during the
last seven hundred years” (dalla prefazione
di Murray al volume I, 1888)
Basato sul lavoro di MIGLIAIA di volontari
(READERS) che produssero 5 millioni di
slips

Tra cui D. W. C. Minor, paziente schizofrenico
THE NEW ENGLISH DICTIONARY:
LA PRIMA EDIZIONE


10 volumi
252 000 voci, 414 000 definizioni
TRE TIPI DI PAROLE


Main words
Subordinate words



Afforse, obs. variant of AFFORCE
Afforst, obs. variant of ATHIRST
Composite
STRUTTURA DELLE VOCI

IDENTIFICATION




MORPHOLOGY



Spelling (con alternanze): Jowl, jole
`Citizenship in the language’: Kursaal
Pronunciation (non ancora IPA)
Form history of the word
SIGNIFICATION
ILLUSTRATIVE QUOTATIONS
ESEMPIO
(http://www.oed.com/cgi/display/wotd)
mowdie, n.
Sc., Irish English, and Eng. regional (north.).
Brit. / maudi/, / meudi/, U.S. / maudi/, / moudi/, Sc. / maudi/
Forms: Eng. regional (north.) 18- moudie, mowdie,
(Northumberland) moody; Sc. pre-17, 18- (east.) moodie, 17, 19(east.) moody, pre-17 17- moudie, 17- moudy, mowdy, 18
mouldy, 18- mowdie, 19- mouldie, mowdi; Irish English (north.)
19- moudie, moudy, mowdy. [Shortened < mowdiewarp, variant of
MOULDWARP n.]
SIGNIFICATION
I. Simple uses.
1. The Eurasian mole, Talpa europaea. Freq. attrib.
Recorded earliest in compounds (sense 3).
1656 Session Bk. Hutton Parish in Hist. Berwickshire Naturalists' Club (1873) 7 231 She did sie a moudie
hillock in her lint. 1789 D. DAVIDSON Thoughts Seasons 62 List'ning to the chirp O' wand'ring mouse, or
moudy's carkin hoke. 1810 R. H. CROMEK Remains Nithsdale & Galloway Song 105 Bessie's sleek as
ony mowdie. 1868 J. HAMILTON Poems & Ballads 302, I..thocht this maun hae been the wark O' Robin's
moudie huntin' tyke. a1869 C. SPENCE From Braes of Carse (1898) 186 There field mice and moudies
litter. 1885 F. GORDON Pyotshaw 50 It's the cataract that mak's me as blin 's a mowdie! 1895 P. H.
HUNTER James Inwick 130 No' like her enemies wha' worked below-grund like moudies. a1908 in M.
Traynor Eng. Dial. Donegal (1953) 191/1 A countryman told me he got 4/6 a lot for common Irish clay in
Scotland to keep off the mowdies. 1996 C. I. MACAFEE Conc. Ulster Dict. 229/2 Mowdy, moudy, moudie,
the mole.
2. A mole-catcher.
Sc. National Dict. (1965) s.v. mowdiewort, records this sense as still in use in central and southern
Scotland in 1963.
1828 W. CARR Dial. Craven (ed. 2), Moudy, a mole catcher. 1882 A. L. ORR Laigh Flichts 37 The moudie
clutched the candle up, Syne clapt it to his pipe. 1893 R. O. HESLOP Northumberland Words s.v. Moudy,
Tell Jack the moudy to come o' Monday.
II. Compounds.
3. mowdie-hill, a mole hill. mowdie hillock = mowdie-hill. mowdie-man = sense 2.
SVILUPPI SUCCESSIVI

Primo supplemento (4 volumi, 1955
1986)



OED2 (1984 1989)



Distinzione main / subordinate scompare
Molte subject labels aggiuntive
Versione elettronica su CD-ROM
20 volumi, 500000 definizioni,
OED3 (1993  2010): www.oed.com
STORIA DEI DIZIONARI
ITALIANI

VOCABOLARIO DEGLI ACCADEMICI DELLA
CRUSCA (1612  1729/38)




Francesco D’Alberti di Villanuova (1797-1805)


Primo dizionario storico in Europa
Obiettivo: ‘fissare’ la lingua
1612: 30000 voci
Primo dizionario a registrare termini tecnici
TOMMASEO-BELLINI (1865-1879)



Ultimo vocabolario storico disponibile
Collaboratori molto validi per voci specialistiche
Etimologie spesso fantasiose
GRANDE DIZIONARIO
DELLA LINGUA ITALIANA



Nato come aggiornamento del Tommaseo
Edito da Battaglia , poi Barberi Squarotti
Statistiche:



Tempi di realizzazione: 19612006
185 594 voci, 21 volumi, 22 000 pagine
Metodi:


Registra tutte le parole e le varianti
Citazioni da 14 000 autori
Informatica e dizionari

Uso di collezioni di testi (CORPORA)
in formato elettronico per identificare



LEMMI
COLLOCAZIONI
USI dei lemmi (CONCORDANZE)
Dizionari elettronici

Il passaggio dalla forma cartacea alla forma
elettronica ha rivoluzionato molti aspetti
della lessicografia e dell’uso dei dizionari



Molte limitazioni di spazio si sono ridotte
La ricerca di voci non piu’ ristretta all’ordine
alfabetico
Sono apparsi dizionari la cui organizzazione
riflette l’organizzazione del LESSICO MENTALE
(WordNet)
LETTURE PER OGGI



Jackson, cap. 3-6
Marello, cap. 1.1, 3 (appendice)
Per saperne di piu’:


Henry Hitchings, Dr. Johnson’s dictionary,
John Murray
Simon Winchester, The meaning of
everything, Oxford (Creazione dell’OED)
RISORSE ONLINE

OED online: http://dictionary.oed.com/



(Da account unitn)
Merriam-Webster online: http://www.mw.com/
Crusca online:
http://morpheus.micc.unifi.it:8080/crus
cle/
LESSICOGRAFIA E COMPUTER:
ARGOMENTI DEL CORSO






I dizionari e la loro storia
Parole e morfologia
Uso di corpora elettronici nella
lessicografia
Dizionari elettronici
Conoscenza lessicale
Lessici elettronici: WordNet
ESAME


Progetto da presentare all’esame (come per
il modulo C)
Obiettivo del progetto: creare un piccolo
dizionario elettronico



Usando corpora per trovare usi e significati di un
piccolo numero di parole (almeno un nome, un
verbo, un aggettivo, una preposizione, un
avverbio)
Rappresentando le voci in XML
Nessuna distinzione tra frequentanti / non
frequentanti
ORARI DEL MODULO D
LUN
MAR
MER
GIO
VEN
8-10
D
10-12
D
(non ogni
settimana)
12-14
14-16
Lab D
16-18
18-20
Lab D
(non ogni
settimana)
IL SITO WEB

Le informazioni sul modulo D si
possono trovare:


http://www.dit.unitn.it/~poesio/Teach/IU
Su DidatticaOnline (dalla settimana
prossima)
RICEVIMENTO
(MASSIMO POESIO)



Quando: Lunedi’ 16-18
Dove: ufficio a Povo (Facolta’ di
Scienze)
SOLO SU APPUNTAMENTO
MATERIALI PER IL CORSO


Trasparenze su sito / materiali distribuiti a lezione.
TESTO DI RIFERIMENTO:


Howard Jackson. Lexicography: an introduction.
Routledge, 2002
ALTRI TESTI UTILIZZATI




Elisabetta Jezek. Lessico. Il Mulino.
Lenci, Montemagni e Pirrelli. Testo e Computer. Carrocci.
Carla Marello, Le parole dell’Italiano, Zanichelli
Sydney Landau, The Art and Craft of Lexicograpy, 2nd ed,
Cambridge, 2001.