Treebank sintattico-semantica della lingua italiana

annuncio pubblicitario
SI-TAL
Rapporto Tecnico della Linea 1.2
Sviluppo Primo Prototipo
Capitolo 4
Treebank sintattico-semantica dell’italiano
**
Consorzio Pisa Ricerche - (CPR)
Consorzio Venezia Ricerche - (CVR)
Istituto Trentino di Cultura - Istituto per la Ricerca Scientifica e
Tecnologica - (ITC-irst)
Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni
Informatiche - (CERTIA)
Synthema
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Sommario
1 INTRODUZIONE ..........................................................................................................5
2 ARCHITETTURA DELLA TREEBANK DI SI-TAL.......................................................5
3 INPUT DELLA TREEBANK DI SI-TAL ........................................................................6
3.1 Corpus ................................................................................................................................................................. 6
3.2 Modulo con l'annotazione ortografica.............................................................................................................. 7
3.3 Modulo con l'annotazione morfo-sintattica...................................................................................................... 8
3.3.1 Annotazione di parole ortografiche morfologicamente complesse ............................................................. 8
3.3.2 Annotazione di espressioni polilessicali ..................................................................................................... 9
3.4 Conversione dei materiali in formato XML................................................................................................... 10
4 SVILUPPO DELLE RISORSE LINGUISTICHE .........................................................11
4.1 Annotazione sintattica...................................................................................................................................... 11
4.1.1 Annotazione a costituenti.......................................................................................................................... 11
4.1.1.1 Metodologia di Annotazione................................................................................................................ 11
4.1.1.1.1Attività di etichettatura ed allineamento per produrre i valori da associarsi a "sfeats" ................... 12
4.1.1.1.2Attività di annotazione per costituenti sintattici.............................................................................. 12
4.1.1.1.3Attività di costruzione di tools per la verifica della consistenza..................................................... 13
4.1.1.2 Risultati ................................................................................................................................................ 13
4.1.1.3 Revisione e integrazione delle specifiche di annotazione .................................................................... 14
4.1.1.3.1SQ - sintagma quantificato.............................................................................................................. 14
4.1.1.3.2DIRSP - discorso diretto ................................................................................................................. 15
4.1.1.3.3F3 - frase frammento....................................................................................................................... 15
4.1.1.3.4CP_INT - frase interrogativa con aggiunti in inizio frase............................................................... 16
4.1.1.3.5FC utilizzato anche per altre tipologie di frasi ................................................................................ 16
4.1.2 Annotazione funzionale ............................................................................................................................ 17
4.1.2.1 Metodologia di annotazione................................................................................................................. 17
4.1.2.1.1La scelta dell'annotazione manuale................................................................................................. 17
4.1.2.1.2Annotazione completa .................................................................................................................... 19
4.1.2.1.3Annotazione per nuclei argomentali ............................................................................................... 20
4.1.2.2 Risultati ................................................................................................................................................ 21
4.1.2.3 Revisione delle specifiche e dei criteri di annotazione......................................................................... 22
4.1.2.3.1Revisione ed integrazione delle specifiche di annotazione ............................................................. 22
4.1.2.3.1.1 ..........................................................................................Forme verbali con pronomi riflessivi
22
4.1.2.3.1.2 .............................................................................................. Costruzioni con verbi impersonali
25
4.1.2.3.1.3 .................................................................... Estensione del dominio dell'attributo DEFINITEZZA
25
4.1.2.3.1.4 .................................................................................................................... Strutture coordinate
26
4.1.2.3.2Estensione dei criteri di annotazione .............................................................................................. 26
4.1.2.3.2.1 ................................................................................ Annotazione di frasi interrogative indirette
26
4.1.2.3.2.2 .................................................................................................................Cardinalità complessa
27
4.1.2.3.2.3 ........................................................................................ Annotazione di nomi propri composti
28
D-2
Linea 1.2 - Treebank sintattico-semantica dell'italiano
4.1.2.3.2.4 ..........................................................................Identificazione della testa in composti stranieri
28
4.1.2.3.2.5 ................................................................... Annotazione di costruzioni appositive di vario tipo
28
4.1.2.3.2.6 ................................................................................... Particolari casi di costruzioni predicative
29
4.1.2.3.2.7 ..............................................................................Annotazione degli incisi in testa agli articoli
29
4.1.2.3.2.8 ...........................................................................................Un caso particolare di congiunzione
29
4.1.2.3.2.9 ..................................................................................................................Costruzioni causative
29
4.1.2.3.3Problemi aperti in corso di studio ................................................................................................... 30
4.2 Annotazione semantico-lessicale ..................................................................................................................... 30
4.2.1 Metodologia di annotazione...................................................................................................................... 30
4.2.2 Risultati..................................................................................................................................................... 31
4.2.3 Revisione e integrazione delle specifiche di annotazione ......................................................................... 31
4.2.3.1 Integrazioni all'insieme dei valori associati agli attributi ..................................................................... 32
4.2.3.2 Revisioni ed integrazioni dei criteri di annotazione ............................................................................. 33
4.2.4 Interazioni all'interno del gruppo Treebank e con il tema ItalWordNet.................................................... 35
4.2.4.1 Interazione tra i siti in carico dell'annotazione semantico-lessicale ..................................................... 35
4.2.4.2 Interazione tra annotatori della Treebank e lessicografi di IWN.......................................................... 36
5 SVILUPPO DI GESTALT ...........................................................................................36
5.1 Processo di sviluppo del software.................................................................................................................... 37
5.2 Architettura di GesTALt ................................................................................................................................. 40
5.3 Funzionalità di GesTALt ................................................................................................................................. 43
5.3.1 SinTAS ..................................................................................................................................................... 43
5.3.2 FunTAS..................................................................................................................................................... 45
5.3.3 SemTAS.................................................................................................................................................... 47
6 VALUTAZIONE ESTERNA ........................................................................................49
6.1 Modalità di raffinamento del sistema di traduzione...................................................................................... 49
6.2 Strumento per la valutazione della traduzione .............................................................................................. 50
6.2.1 Logica di funzionamento .......................................................................................................................... 50
6.2.2 Descrizione dettagliata dell'interfaccia ..................................................................................................... 51
RIFERIMENTI BIBLIOGRAFICI....................................................................................53
APPENDICI ...................................................................................................................54
ELENCO DELLE SFEATS............................................................................................55
TABELLA COMPARATIVA SFEATS-MFEATS ...........................................................58
DTD ORTOGRAFICA ...................................................................................................60
DTD MORFOLOGICA ...................................................................................................61
D-3
Linea 1.2 - Treebank sintattico-semantica dell'italiano
ESPRESSIONI POLILESSICALI DEL LIVELLO MORFOLOGICO..............................62
D-4
Linea 1.2 - Treebank sintattico-semantica dell'italiano
1 Introduzione
L'obiettivo della linea di ricerca 1.2 del tema “Treebank sintattico-semantica dell’italiano”
consiste nella creazione di un primo prototipo della Treebank, ed in modo particolare:
•
•
•
nello sviluppo di un primo nucleo della risorsa linguistica annotata ai livelli sintattici, a
costituenti e funzionale, e semantico-lessicale;
nello sviluppo di un prototipo del software GestTALt, ovvero del sistema di supporto
all'annotatore e al validatore della risorsa;
nello sviluppo di un primo prototipo del sistema di traduzione automatica finalizzato alla
valutazione della Treebank nei suoi diversi livelli, con predisposizione di strumenti per la
valutazione della risorsa.
Il raggiungimento degli obiettivi sopra menzionati ha richiesto la preparazione dell'input su cui
opera l'annotazione, in particolare:
•
la definizione delle modalità di rappresentazione in formato XML del corpus annotato morfosintatticamente con indicazione dell'organizzazione macrotestuale, e la messa a punto delle
relative DTDs;
•
lo sviluppo di procedure software per la conversione dei materiali di input secondo quanto
convenuto al punto precedente.
Inoltre, le attività di addestramento all'annotazione e di annotazione vera e propria hanno fornito
l'opportunità di validare le specifiche fornite per i singoli livelli di annotazione sviluppate nel corso
della linea di ricerca 1.1 "Specifiche Tecniche"; in particolare, la copertura delle Specifiche dei vari
livelli è stata estesa, sono state prese decisioni che erano rimaste aperte nella linea 1.1 ed i criteri di
annotazione sono stati integrati sulla base della casistica incontrata nel corso dell'annotazione.
In questo capitolo, il risultato della linea di ricerca 1.2 per quanto riguarda la Treebank sintatticosemantica della lingua italiana è illustrato in dettaglio. Nella sezione 2, l'architettura finale della
Treebank è descritta brevemente. Segue, nella sezione 3, una descrizione dettagliata dell'input della
Treebank. Nella sezione 4 è descritto lo sviluppo della risorsa linguistica, a sua volta articolato in
diverse sottosezioni, ciascuna dedicata ad un livello di annotazione specifico: l’annotazione
sintattica è descritta nella sezione 4.1 (l’annotazione a costituenti in 4.1.1 e l’annotazione funzionale
in 4.1.2), mentre l’annotazione semantica nella sezione 4.2. Seguono una descrizione dello sviluppo
del software di annotazione e browsing della Treebank (sezione 5) ed una descrizione delle
procedure di valutazione messe a punto nel corso della linea (sezione 6). E' infine acclusa una
sezione di Appendici, volta ad integrare le informazioni fornite nel documento: per quanto riguarda
l'input della Treebank verranno forniti l'inventario completo dei tratti morfo-sintattici ("sfeats") ed
una tabella di corrispondenze con i tratti morfologici, le DTDs relative ai moduli di annotazione
ortografico e morfologico e l'inventario delle espressioni polilessicali di base.
2 Architettura della Treebank di SI-TAL
Come ampiamente illustrato nel Deliverable 1.1 "Specifiche Tecniche", la Treebank di SI-TAL
ha una struttura a tre livelli che copre i livelli di descrizione linguistica sintattico e semantico.
L'annotazione sintattica è distribuita su due diversi livelli, indipendenti ma complementari: il livello
dell'annotazione a costituenti ed il livello dell'annotazione funzionale. Il terzo livello riguarda
D-5
Linea 1.2 - Treebank sintattico-semantica dell'italiano
l'annotazione semantico-lessicale realizzata nei termini di etichettatura di senso aumentata con altri
tipi di informazione semantica.
I tre livelli di annotazione sono indipendenti gli uni dagli altri, e fanno tutti riferimento allo
stesso input, ovvero al testo annotato morfo-sintatticamente: a questo livello l'annotazione include
l'identificazione delle parole morfologiche, con specificazione della relativa parte del discorso e
tratti morfo-sintattici associati, ed il trattamento di forme morfologicamente complesse (es. forme
verbali con clitico) e di espressioni polilessicali di base. Il testo con etichettatura morfo-sintattica fa
a sua volta riferimento ad un altro modulo di annotazione, il modulo di annotazione ortografica, che
include informazione relativa alle parole ortografiche e all'organizzazione macrotestuale (ovvero
strutturazione del testo in unità quali titolo, sottotitolo, didascalia, corpo dell'articolo, paragrafo,
etc.). L'architettura della Treebank di SI-TAL è schematizzata nella figura che segue:
INPUT
Annotazione ortografica
Annotazione
sintattica
Annotazione morfo-sintattica
Annotazione
a costituenti
Annotazione
semanticolessicale
Annotazione
funzionale
3 Input della Treebank di SI-TAL
3.1
Corpus
La composizione interna del corpus della Treebank di SI-TAL è illustrata nella tabella che segue:
Partizione
corpus
Finanziario
Il Sole-24 Ore
Bilanciato
La Repubblica
Bilanciato
Fonte
Origine
Tokens
Giornata del 25/5/1994
Articoli di vario
argomento usciti tra il
1985 e il 1988
89941
Giornata del 15/7/1995
77808
Il Corriere della Sera Giornata del 7/8/1995
D-6
59945
57938
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Partizione
corpus
Bilanciato
Fonte
Origine
Tokens
Periodici:
ƒ
Casaviva
ƒ
Centocose
ƒ
Epoca
Selezione di articoli usciti
ƒ
Espansione
nell’anno 1988
ƒ
Grazia
ƒ
Panorama
ƒ
Starbene
ƒ
Storia Illustrata
ƒ
Zerouno
19915
La porzione specialistica (finanziaria) del corpus della Treebank di SI-TAL è costituita dagli
articoli estratti da Il Sole-24 Ore, per un totale di 89.941 parole (“tokens”). La rimanente parte, per
un totale di 215.606 parole, costituisce il corpus “bilanciato”. In totale, la Treebank ha una
copertura di 305.547 parole. Si noti che tabelle e figure contenuti degli articoli sono stati
preventivamente esclusi dal corpus di riferimento, ad eccezione di tabelle contenenti materiale
testuale.
3.2
Modulo con l'annotazione ortografica
Il corpus della Treebank è organizzato in articoli. Per ogni articolo, il modulo di annotazione
ortografica riporta l'informazione relativa alle parole ortografiche che costituiscono il testo e
all'organizzazione macrotestuale.
L'informazione relativa alle parole ortografiche include indicazione della presenza di caratteri
maiuscoli/minuscoli con distinzione della seguente tipologia di casi:
•
•
•
•
tutto minuscole
tutto maiuscole
maiuscola iniziale
presenza sia di maiuscole sia di minuscole come in "OdG"
Non si dispone dell'informazione relativa al carattere tipografico (neretto, corsivo) in quanto non
era presente nella fonte.
Per ogni articolo, l'informazione macrotestuale consiste nella seguente tipologia di informazioni:
•
•
•
•
•
•
•
•
•
•
corpus di appartenenza, bilanciato o finanziario
fonte, ovvero titolo del giornale o del periodico in cui è apparso l'articolo
data
articolo
argomento
autore/firma
titolo principale
mezzo titolo
sottotitolo
sommario
D-7
Linea 1.2 - Treebank sintattico-semantica dell'italiano
•
•
•
•
corpo del testo
paragrafo
didascalia
tabella (solo quando contenente dati testuali)
In appendice è riportata la DTD relativa al modulo di annotazione ortografica.
3.3
Modulo con l'annotazione morfo-sintattica
Al livello morfo-sintattico, l'annotazione riguarda l'identificazione delle parole morfologiche del
testo costituente l'articolo, con specificazione della relativa parte del discorso e tratti morfologici e
morfo-sintattici associati. In questo caso, l'annotazione fa riferimento al modulo di annotazione del
livello precedente, ovvero ortografico.
Ogni parola morfologica viene descritta dai seguenti tratti:
•
parte del discorso ("pos"), la cui specificazione è obbligatoria;
•
tratti morfologici ("mfeats"), espressi tramite un codice sintetico che combina informazione
di persona, numero, tempo, modo, etc; tale specificazione è opzionale, essendo limitata ai
soli casi in cui è rilevante;
•
tratti morfo-sintattici ("sfeats") del tipo verbo transitivo, nome umano, etc. Si tratta di
etichette volte a integrare l'informazione morfologica delle "mfeats", che permettono una
annotazione in costituenti sintattici tale che ciascun costituente ha una propria identità
semantica chiara, e facilmente relazionabile alle annotazioni funzionali a teste introdotte nel
livello di analisi superiore. Questi tratti non erano presenti nella versione originaria dell'input
della Treebank: la procedura di generazione di questi tratti è illustrata nella sezione 4.1.1.1.1
che segue. Si noti che, come nel precedente caso, tale specificazione è opzionale, essendo
limitata ai soli casi in cui è rilevante;
•
lemma, la cui specificazione è obbligatoria.
In Appendice, sono riportati l'inventario dei valori delle "sfeats" con, associato ad ogni etichetta,
un commento esplicativo; i valori delle "mfeats" erano stati riportati in Appendice al Manuale delle
"Specifiche Tecniche". Inoltre, sempre in Appendice, è riportata la tabella di corrispondenze
"sfeats"-"mfeats": infatti, data la parziale sovrapposizione delle due classificazioni, era importante
poterne verificare la compatibilità. La tabella è stata utilizzata nella verifica della coerenza delle due
classificazioni in riferimento ai materiali annotati.
L'annotazione a questo livello include anche il trattamento di forme morfologicamente
complesse e di espressioni polilessicali di base, illustrato rispettivamente nelle sezioni 3.3.1 e 3.3.2.
3.3.1 Annotazione di parole ortografiche morfologicamente complesse
Nell'annotazione di parole ortografiche morfologicamente complesse (ad es. forme verbali con
clitico), la parola ortografica morfologicamente complessa è segmentata nei suoi elementi
costitutivi. Nel caso delle parole contenenti elementi clitici (es. mangiarlo) due o più parole
morfologiche (es. mangiare e lo) punteranno alla stessa forma ortografica.
D-8
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Si consideri l'esempio che segue, che riporta la rappresentazione XML al livello ortografico e
morfologico del segmento di frase pubblicandola a pagamento.
Livello ortografico
<w id="w_149" case="low"> pubblicandola </w>
<w id="w_150" case="low"> a </w>
<w id="w_151" case="low"> pagamento </w>
Livello morfologico
<mw id="mw_147" pos="V" mfeats="G" lemma="pubblicare"
href="sole.orth015#id(w_149)"/mw>
<mw id="mw_148" pos="PQ" mfeats="FS3" lemma="la"
href="sole.orth015#id(w_149)"/mw>
<mw id="mw_149" pos="E" lemma="a" href="sole.orth015#id(w_150)"/mw>
<mw id="mw_150" pos="S" mfeats="MS" lemma="pagamento"
href="sole.orth015#id(w_151)"/mw>
Come si può notare, la forma verbale con clitico pubblicandola del livello ortografico (w_149),
al livello morfologico è segmentata in due parole morfologiche (rispettivamente mw_147 e
mw_148) i cui lemmi sono rispettivamente "pubblicare" e "la" e che fanno riferimento entrambe
alla stessa unità ortografica, riportata come valore dell'attributo href (ovvero
"sole.orth015#id(w_149)").
3.3.2 Annotazione di espressioni polilessicali
Nell'annotazione di espressioni polilessicali, la sequenza di parole ortografiche che compongono
l'espressione polilessicale è annotata come un'unica parola morfologica.
Le espressioni polilessicali annotate a questo livello sono sempre costituite da sequenze continue
di parole ed includono:
•
espressioni del tipo ad_hoc, inter_nos, prima_facie, run_time, plug_and_play;
•
espressioni irregolari del tipo al_di_là, per_lo_più, alla_spicciolata, allo_scoperto,
all'_impazzata;
•
locuzioni preposizionali del tipo in_funzione_di, fino_a, intorno_a.
Le espressioni polilessicali di questo livello sono valide per tutti i livelli di annotazione della
Treebank. L'annotazione sintattica e semantico-lessicale fa riferimento alle multi-words del livello
base. Quindi fino_a sarà trattata e vista come preposizione e dunque come singola unità di
annotazione da tutti i livelli. Vi sono altri tipi di espressioni polilessicali, come ad esempio
avere_un'idea,
fare_soldi,
fare_esperienza,
avere_familiarità
così
come
consiglio_di_amministrazione che sono trattate come tali solo al livello semantico, ovvero la loro
identità di espressioni polilessicali è introdotta solo al livello dell'annotazione semantico-lessicale.
Segue un esempio di annotazione in formato XML di espressioni polilessicali. Si consideri la
locuzione preposizionale al_di_là_di nel segmento di articolo un ruolo preciso al di là di quelli
[…]:
D-9
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Livello ortografico
<w
<w
<w
<w
<w
<w
<w
<w
id="w_256"
id="w_257"
id="w_258"
id="w_259"
id="w_260"
id="w_261"
id="w_262"
id="w_263"
case="low">
case="low">
case="low">
case="low">
case="low">
case="low">
case="low">
case="low">
un </w>
ruolo </w>
preciso </w>
al </w>
di </w>
la' </w>
di </w>
quelli </w>
Livello morfologico
<mw id="mw_258" pos="RI" mfeats="MS" lemma="un"
href="sole.orth008#id(w_256)"/mw>
<mw id="mw_259" pos="S" mfeats="MS" lemma="ruolo"
href="sole.orth008#id(w_257)"/mw>
<mw id="mw_260" pos="A" mfeats="MS" lemma="preciso"
href="sole.orth008#id(w_258)"/mw>
<mw id="mw_261" pos="E" lemma="al_di_la'_di"
href="sole.orth008#id(w_259)..id(w_262)"/mw>
<mw id="mw_262" pos="PD" mfeats="MP" lemma="quello"
href="sole.orth008#id(w_263)"/mw>
All'intervallo di unità ortografiche w_259-w_262 corrisponde, al livello morfologico, un unico
elemento, la parola morfologica mw_261 il cui lemma è "al_di_la'_di" a cui è associata
l'interpretazione di preposizione (pos=E). La mw_261 fa riferimento, mediante l'attributo href,
all'intervallo di parole id(w_259)..id(w_262) della rappresentazione ortografica dello stesso
articolo.
In appendice è riportato l'elenco delle espressioni polilessicali marcate a questo livello di base.
3.4
Conversione dei materiali in formato XML
Nel rapporto "Specifiche Tecniche" (sezione 2.2) l'input della Treebank di SI-TAL veniva
descritto come segue:
La IL#RD@FS
Mondadori MONDADORI#SP@NN
ha AVERE#V@S3IP
annunciato ANNUNCIARE#V@MSPR
che CHE#CS@
il IL#RD@MS
prossimo PROSSIMO#A@MS
26 26# N@
ottobre OTTOBRE#S@MS
uscira’ USCIRE#V@S3IF
in IN#E@
contemporanea CONTEMPORANEO#S@FS
mondiale MONDIALE#A@NS
il IL#RD@MS
primo PRIMO#NO@MS
libro LIBRO#S@MS
scritto SCRIVERE#V@MSPR
dalla DA#E@FS
suora SUORA#S@FS
D-10
Linea 1.2 - Treebank sintattico-semantica dell'italiano
albanese ALBANESE#A@NS
. .# @
Per passare dall'input in formato proprietario dell'Istituto di Linguistica Computazionale
riportato, per convenienza del lettore, nel riquadro sopra al formato XML descritto nei precedenti
paragrafi sono state messe a punto una serie di procedure software finalizzate a:
1. l'inserimento all'interno del testo annotato morfo-sintatticamente degli indicatori
macrotestuali desunti dalla versione testuale degli stessi articoli;
2. l'identificazione all'interno del testo della tipologia di espressioni polilessicali rilevanti
per il livello morfologico della Treebank di SI-TAL;
3. la conversione del risultato dei due passaggi precedenti in due moduli di annotazione
separati – annotazione ortografica e annotazione morfologica - secondo il formato XML
concordato.
4 Sviluppo delle risorse linguistiche
4.1
Annotazione sintattica
4.1.1 Annotazione a costituenti
In questa sezione verrà illustrato il modulo di annotazione sintattica a costituenti. In particolare,
l'esposizione verrà articolata nei seguenti punti: metodologia di annotazione (sezione 4.1.1.1);
risultati raggiunti (sezione 4.1.1.2); revisione ed integrazione delle Specifiche di annotazione
(sezione 4.1.1.3).
4.1.1.1 Metodologia di Annotazione
L'annotazione a costituenti è stata effettuata in due fasi, prima una fase di pre-annotazione
automatica il cui risultato è stato oggetto di revisione e correzione manuale; le analisi riviste e
corrette sono state convertite in formato XML e caricate nella base di dati. Commentiamo qui di
seguito le operazioni svolte nel dettaglio.
Le attività svolte nei mesi che vanno dall'11 aprile, giorno in cui sono stati messi a disposizione i
files in formato XML del corpus da annotare, ad oggi - cioè circa 3 mesi - si possono suddividere in
tre attività principali:
- attività di etichettatura ed allineamento per produrre i valori da associare all'attributo "sfeats";
- attività di annotazione per costituenti sintattici;
- attività di costruzione di tools per la verifica della consistenza.
Le due attività si sono basate sull'utilizzo di tools software intermedi che hanno permesso di
procedere a continue revisioni e correzioni reciproche.
D-11
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Illustriamo separatamente le procedure adottate nello svolgimento delle tre attività nonché le
interazioni tra le stesse.
4.1.1.1.1
Attività di etichettatura ed allineamento per produrre i valori da associarsi a "sfeats"
Questa attività è iniziata effettivamente solo nel momento in cui sono stati messi a disposizione i
files morfologici in formato XML con le "mfeats". Il testo è stato annotato automaticamente con il
tagger IMMORTALE (Delmonte 1999, 2000).
Data la solo parziale coincidenza dell'inventario di espressioni polilessicali riconosciute da
IMMORTALE rispetto all'inventario concordato all'interno del progetto per il livello morfologico,
l'output del tagger è stato rivisto manualmente al fine di rendere la segmentazione in parole
morfologiche compatibile e allineata con quella dei files di input. L'allineamento completo di
ciascun file generato da IMMORTALE con l'input della Treebank è stato prodotto come segue:
- trasformare una sequenza di tokens separati in un'unica parola polilessicale ed assegnare il
sfeats corrispondente;
- aggiungere dei tokens nel caso di verbi cliticizzati ed assegnare il sfeats adeguato;
- spezzare le parole polilessicali identificate da IMMORTALE ma non conservate nel file XML
di input, ed assegnare gli sfeats corrispondenti.
Questa attività ha richiesto il lavoro di due persone per un mese di tempo.
La seconda attività si è mossa contemporaneamente all'inizio della produzione dei file allineati e
ha prodotto le prime strutture sintattiche a costituenti. Questo ha provocato nuove interazioni con i
files di tokens etichettati ad sfeats:
A. ha individuato etichette con sfeats sbagliati e ha permesso la loro correzione - gli errori
potevano essere sia di carattere sostanziale, (l'etichetta assegnata non era quella giusta per il token
in quel contesto), sia di carattere non sostanziale (errori manuali di scrittura dell'etichetta, sviste
nella forma assegnata al termine token-sfeats-albero elementare che è la struttura in cui sono
organizzati i files dell'annotazione a costituenti),
s(per-p-sp, 10).
s(la-art-sn, 1).
s(ricorrenza-nt-sn, 1).
s(del-partd-spd, 10).
B. ha individuato errori nella procedura di allineamento e ha permesso la loro correzione;
C. ha individuato errori nel testo originale e ha permesso la loro correzione.
4.1.1.1.2
Attività di annotazione per costituenti sintattici
Questa attività è iniziata subito dopo Pasqua, nel momento in cui si sono creati i primi files
allineati e corretti con gli sfeats. Le strutture in costituenti sono state prodotte da uno shallow parser
(Delmonte 1999, 2000) in files in formato testo, con una parentesizzazione preliminare e non
definitiva.
D-12
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Lo shallow parser prende in ingresso il testo verticalizzato in tokens/sfeats e restituisce una
struttura parentesizzata per ciascuna frase, o sequenza di tokens delimitata da punto, punto
interrogativo, punto esclamativo.
I files prodotti vengono poi ispezionati dagli annotatori sintattici, che provvedono a compiere
manualmente le operazioni di aggiustamento della struttura richieste da ciascuna frase.
Queste operazioni di aggiustamento all'inizio hanno permesso di mettere a punto lo shallow
parser e di arricchire conseguentemente le strutture in uscita. Inoltre hanno permesso di individuare
errori negli sfeats e nel testo.
Gli annotatori hanno lavorato utilizzando un editor che permette il bilanciamento delle parentesi,
e hanno poi creato un tool in Perl che permetta la visualizzazione in forma indentata e verticale
delle strutture sintattiche, nonché la loro correzione e memorizzazione in forma compatta.
La revisione dello shallow parser ha registrato continui aggiornamenti fino alla metà di giugno,
quando è risultata chiara quale fosse la tipologia di strutture che richiedeva un intervento manuale
specifico e non rientrassero nelle capacità del parser.
La correzione manuale di strutture sintattiche parentesizzate è risultata essere fonte di molti
errori, sostanziali e non. Questi errori hanno richiesto una revisione ulteriore di tutti i files
attraverso un nuovo tool, un visualizzatore di strutture ad albero, che prende in ingresso le strutture
parentesizzate e ne individua le eventuali malformazioni, sostanziali e non. Un ulteriore tool è stato
creato per controllare la lunghezza dei files contenenti le strutture parentesizzare e quindi
verificarne la consistenza, prima della loro traduzione in formato XML per il caricatore in
GESTALT.
4.1.1.1.3
Attività di costruzione di tools per la verifica della consistenza
Data la natura del compito - la costruzione di strutture sintattiche in costituenti, allo scopo di
eliminare al massimo l'arbitrarietà dell'annotatore umano nella produzione delle analisi e nella loro
corrispondente oggettivazione in strutture parentesizzate, è stato necessario costruire a parte tutti
quegli strumenti software che sono indispensabili per qualsiasi operazione di costruzione di
strutture dati, semplici o complesse, con procedimenti automatici, semi-automatici o manuali.
La verifica della consistenza degli sfeats ha richiesto la creazione di tools adeguati all'ambiente
XML in cui opera GESTALT, e nel cui formato sono stati formattati i files del Treebank. Abbiamo
quindi creato uno strumento che simulasse il caricamento degli sfeats e ne verificasse la consistenza
con gli mfeats. Lo strumento è stato costruito in JAVA e prende in ingresso i files XML con gli
mfeats, e i files corrispondenti contenenti gli sfeats e procede quindi alla verifica della consistenza.
Il risultato è un file di output.
Questi files di output sono serviti per ritornare nelle strutture a costituenti e nei files di tokens per
verificare la bontà delle scelte operate all'interno di programmi in PROLOG costruiti direttamente
nello shallow parser. Questo ha inoltre permesso un'ulteriore verifica dell'allineamento e ha
individuato ulteriori errori nel testo ortografico.
4.1.1.2 Risultati
L'annotazione nel corso della linea 1.2 ha riguardato una prima porzione del corpus finanziario.
A questo proposito dobbiamo segnalare una variazione rispetto a quanto dichiarato nel piano di
D-13
Linea 1.2 - Treebank sintattico-semantica dell'italiano
attuazione della linea 1.2 che specificava che l'annotazione a costituenti avrebbe riguardato sia una
porzione del corpus bilanciato sia di quello finanziario. In considerazione del fatto che la
valutazione della Treebank verrà condotta sul corpus finanziario, è stato deciso che sarà il corpus
finanziario nella sua interezza ad essere annotato a costituenti (per un totale di circa 90.000 parole).
In questo modo, la porzione di corpus oggetto di valutazione e validazione sarà completamente
annotata a 3 livelli, a costituenti, al livello funzionale e semantico-lessicale.
La situazione attuale è la seguente:
1. sono stati prodotti e completamente verificati gli SFEATS relativi ai primi 105 files (circa 60
mila tokens);
2. sono stati prodotte dagli SFEATS tutte le strutture sintattiche per tutti i 105 files;
3. sono quindi iniziate le attività di aggiustamento dei files che sono state seguite dalle attività di
verifica circolari. Queste attività attualmente sono concluse per i primi 60 files, cioè per circa 30
mila tokens. Si pensa di poter concludere le verifiche per i rimanenti 55 files in settembre;
4. tutti i files sono comunque caricabili nella base di dati e sono stati consegnati come risultato
della linea 1.2.
4.1.1.3 Revisione e integrazione delle specifiche di annotazione
Sono stati aggiunti i seguenti nomi di costituenti:
4.1.1.3.1
SQ - sintagma quantificato
Il sintagma quantificato può assumere diversi ruoli sintattici:
™ può essere uno specificatore del Sintagma Nominale (SN), Sintagmi Avverbiale (SAVV),
oppure del Sintagma Aggettivale (SA) come mostrato negli esempi in basso:
sn-[n-livelli, coord-[sa-[sq-[q-dello, num-0/6%], ag-superiori, sp-[p-a, sn[deit-quelli, spd-[partd-del, sn-[nt-bimestre, ag-precedente]]]]], cong-e,
sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccong-rispetto_all, sn-[aganalogo, nt-periodo, spd-[partd-del, sn-[num-1993]
sn-[sq-[q-una, qd-delle, in-più], ag-importanti, n-zone, sa-[ag-costiere],
fc-[ccom-del, sn-[n-Paese]]
sq-[q-uno, qd-dei, num-primi], n-temi]
sn-[sq-[ind-qualunque, q-altro], n-impiegato, sa-[ag-statale]
sn-[sq-[in-oltre, num-10, num-mila], n-spot, savv-[p-in, avv-più]]
savv-[savv-[avv-forse], sq-[art-un, in-pô], avv-prematuramente]
™ Il Sintagma Quantificato può essere un complemento di verbi che reggono SN quantificati come
mostrato nei seguenti esempi:
ibar-[ause-è, vppin-sceso], compin-[sp-[part-nel, sn-[nt-mese, sa-[agcorrente]]], sq-[q-dell, num-1/1%]]
D-14
Linea 1.2 - Treebank sintattico-semantica dell'italiano
ibar-[vc-risulta], compc-[sq-[q-del, num-3/7%]]]], fc-[cong-ed, f-[ibar[ause-è, vppc-stato], compc-[sq-[q-del, num-4%]], sp-[p-in, sn-[nt-aprile]
ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-2/1%]],
ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-13/5%]]
ibar-[vc-sono, avv-oggi], compc-[sq-[in-più, q-di, num-700]
ibar-[clit-si, vin-espande], compin-[sq-[q-del, sn-[num-15/8%]
ibar-[vc-risulta], compc-[sa-[ppas-aumentato, sq-[q-dell, num-1/9%]], fc[ccong-rispetto_ai, sn-[num-primi, num-tre, nt-mesi, num-1993]
ibar-[aueir-siano, ausep-stati, vppt-compressi], compt-[sq-[in-più, congdegli, q-altri]]
ibar-[vc-è], compc-[sq-[in-solo, art-un, num-terzo], fc-[ccong-rispetto_a,
™ Il SQ può essere un modificatore o aggiunto nelle strutture comparative come mostrato nei
seguenti esempi, in cui è strettamente in relazione al sintagma chiamato DegP in ambito
chomskiano, essendo quindi espressione di un sintagma di grado:
sn-[art-un, n-incremento, fp-[punt-,, sp-[p-in, sn-[n-termini, sa-[agreali]]], punt-,], sq-[q-del, num-5/6%]]
sq-[in-circa, num-15, num-mila, savv-[p-in, avv-più]]
sa-[ag-maggiore, spd-[pd-di, sq-[in-più, cong-di, num-un, num-quinto, fc[ccom-del, sn-[n-voto
ibar-[ause-è, vppin-aumentata], compin-[sq-[in-ben, cong-di, avv-più], fc[ccom-di, sn-[dim-quella, sa-[ag-teorica]
4.1.1.3.2
DIRSP - discorso diretto
Questo costituente serve per contenere due frasi separate dal segno di punteggiatura ":". Questo
segno è però ambiguo tra discorso diretto, discorso riportato, commento ecc., riportiamo qui un solo
esempio:
dirsp-[f-[sn-[art-il, n-traino, sa-[in-più, ag-consistente]], ibar-[vinviene], compin-[savv-[avv-sempre], spda-[partda-dalle, sn-[n-vendite, sp[part-all, sn-[n-estero]]]]]], dirs-:, f-[sn-[art-il, num-plus9/5%, ntendenziale, spd-[pd-di, sn-[nt-maggio]]], punt-,, sp-[p-contro, coord-[sn[art-il, num-6%, spd-[pd-di, sn-[nt-marzo]]], cong-e, sn-[art-il, num-7/4%,
spd-[pd-di, sn-[nt-aprile]]]]], punto-.]]
4.1.1.3.3
F3 - frase frammento
Questo costituente contiene frasi che non hanno un IBAR al loro interno, ovvero sono
semplicemente dei costituenti di tipo nominale, avverbiale, preposizionale ecc. privi completamente
di verbo. Casi tipi di strutture F3 sono i titoli. Includiamo alcuni esempi:
f3-[sn-[npro-intersind, sa-[ag-pronta, sp-[part-al, sn-[poss-suo, n-ingresso,
sp-[p-in, sn-[npro-confindustria]]]]]], punto-.]
D-15
Linea 1.2 - Treebank sintattico-semantica dell'italiano
f3-[congf-poi, sn-[art-l, n-approvazione, spd-[partd-del, sn-[n-programma,
sp-[p-d, sn-[n-attività]], sv3-[ppas-presentato, compt-[sp-[part-alla, sn-[ngiunta]], sn-[art-il, num-4, nt-giugno]]]]]], punto-.]
4.1.1.3.4
CP_INT - frase interrogativa con aggiunti in inizio frase
Questo costituente serve per marcare frasi interrogative che iniziano con aggiunti oppure
congiunzioni frasali subordinanti o coordinanti, o ancora frasi interrogative frammento.
cp_int-[sn-[n-Effetto, sn-[npro-Multiplex]], par-(-), fint-[sn-[int-Quali],
f-[ibar-[vc-sono], compc-[sn-[art-gli, n-effetti, spd-[pd-di, sn-[dim-questa,
n-concentrazione, sp-[p-tra, sn-[coord-[n-distribuzione, cong-ed, nesercizio]]]]]]]]], puntint-?]
cp_int-[fc-[congf-Ma, savv-[avv-oggi], punt-,, sp-[p-con, coord-[sn-[art-i,
n-cd_rom], cong-e, sn-[art-la, n-multimedialità]]], punt-,, f-[ibar-[vc-è],
compc-[sn-[in-davvero, art-lo, ag-stesso, n-mestiere, spd-[pd-di, sn-[num500, nt-anni, savv-[avvl-fa]]]]]], puntint-?]],
cp_int-[f3-[coord-[sn-[nt-fine, spd-[partd-delle, sn-[n-ambizioni]]], cong-o,
sn-[ag-ennesimo, n-voltafaccia]], sp-[p-su, sn-[art-una, n-vicenda, f2-[sp[part-sulla, rel-quale], f-[sn-[np-mosca], sp-[part-negli, sn-[ag-ultimi, ntmesi]], ibar-[neg-non, ausa-ha, vppt-cessato], compt-[coord-[sv2-[pt-di, vitcambiare, compt-[sn-[n-posizioni]]], punt-,, sv2-[pt-di, vit-dire, compt[coord-[sn-[qc-tutto], cong-e, sn-[art-il, n-contrario, spd-[pd-di, sn-[qctutto]]]]]]]]]]]]], puntint-?]
4.1.1.3.5
FC utilizzato anche per altre tipologie di frasi
Inoltre il costituente FC che prima serviva solo per le frasi coordinate ora include anche le
seguenti tipologie:
- frasi coordinate dalla punteggiatura come il punto e virgola;
- frasi o costituenti ellittici coordinati da congiunzione comparativa che esemplifichiamo qui in
basso.
sa-[ag-invariato], fc-[ccong-rispetto_a, sn-[nt-febbraio]
sa-[ag-superiore]], fc-[ccong-rispetto_a, sn-[art-un, nt-anno, savv-[avvlfa]]
sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccong-rispetto_all, sn-[aganalogo, nt-periodo, spd-[partd-del, sn-[num-1993]
fc-[ccong-come, f-[ibar-[vt-chiedono], compt-[sn-[art-gli, n-ospedalieri]
fc-[ccong-più, coord-[spda-[pda-da, sn-[n-nervosismo]], cong-e, spda-[partdadai, sn-[ag-normali, n-movimenti]]], cong-che, spda-[pda-da, sn-[art-un, ncambiamento, spd-[pd-di, sn-[n-vedute, sp-[part-sulle, sn-[n-prospettive,
spd-[partd-del, sn-[n-rischio_italia]
fc-[ccong-come, f-[ibar-[ausa-ha, vppt-spiegato], compt-[savv-[avv-ieri], sn[nh-mandela]
fc-[ccong-come, f-[ibar-[clit-si, vt-vede], compt-[spda-[partda-dalla, sn-[ntabella]
D-16
Linea 1.2 - Treebank sintattico-semantica dell'italiano
fc-[ccong-come, sv3-[ppas-detto]
fc-[ccong-rispetto_a, sn-[f2-[relq-quanto, f3-[sv3-[ppas-prodotto, compt-[sp[part-nella, ag-scorsa, sn-[nt-stagione]
fc-[ccong-come, f-[sn-[n-logica], ibar-[virt-porterebbe], compt-[sv2-[sp-[pta, vit-dedurre]
ibar-[ausa-ha, vppt-sottolineato], compt-[fc-[ccong-come, f-[sn-[art-il, nRegistro, spd-[partd-delle, sn-[n-imprese]]], ibar-[virt-marchi], compt-[sn[art-il,
4.1.2 Annotazione funzionale
In questa sezione è illustrato il modulo di annotazione sintattico funzionale. In particolare,
l'esposizione è articolata nei seguenti punti: metodologia di annotazione, descritta nella sezione
4.1.2.1; risultati raggiunti, illustrati nella sezione 4.1.2.2; revisione ed integrazione delle Specifiche
Tecniche, dettagliate nella sezione 4.1.2.3.
4.1.2.1 Metodologia di annotazione
A questo livello, l'annotazione è stata effettuata manualmente (sulle motivazioni a supporto di
questa scelta metodologica si veda la sezione 4.1.2.1.1). In particolare, due diverse strategie di
annotazione sono state messe a punto e realizzate:
a) annotazione completa (illustrata nella sezione 4.1.2.1.2);
b) annotazione per nuclei argomentali (illustrata nella sezione 4.1.2.1.3).
La decisione di sperimentare, nella fase di sviluppo del primo prototipo, diverse strategie di
annotazione risiede nel fatto che nell'ambito delle Specifiche era stato più volte ribadito che
rimanevano questioni aperte che avrebbero richiesto un'attenta valutazione nella prima fase di
annotazione, che si intendeva avrebbe anche condotto ad una prima verifica e convalida delle
Specifiche proposte. Ad esempio, tra le questioni rimaste aperte si annoverano:
1. la definizione, per ogni singolo tratto associato alla testa e/o al dipendente, di valori di
default;
2. la relazione tra l’annotazione morfo-sintattica (già inclusa al livello dell’input) e quella
funzionale per quanto riguarda i tratti definiti come rilevanti per il livello funzionale ma già
presenti nell’annotazione morfo-sintattica (ad esempio i tratti di genere e numero);
3. l’obbligatorietà/opzionalità della specificazione di ogni singolo tratto.
Una valutazione attenta di queste questioni poteva essere condotta soltanto comparativamente,
ovvero attuando diverse strategie di annotazione e valutandone i diversi risultati.
4.1.2.1.1
La scelta dell'annotazione manuale
A questo livello, l'annotazione è stata effettuata manualmente. Le motivazioni che hanno portato
ad escludere una pre-annotazione automatica del testo per questo livello sono state ampiamente
discusse nel rapporto "Specifiche Tecniche" (nella sezione 5.1). Ricapitoliamo qui di seguito le
D-17
Linea 1.2 - Treebank sintattico-semantica dell'italiano
argomentazioni principali, che riguardano sia il tipo di schema di annotazione adottato sia le
caratteristiche che sarebbero state richieste per il software di annotazione.
Tra i fattori riguardanti lo schema di annotazione adottato per la Treebank di SI-TAL, vanno
annoverati:
ƒ
le finalità di uso di una Treebank che impongono l'adozione di uno schema di annotazione che
deve essere compatibile con un ampio spettro di schemi di annotazione effettivamente usati
nell’ambito di sistemi di elaborazione del linguaggio. Questo requisito di compatibilità non è
necessariamente soddisfatto dall’output di uno specifico analizzatore sintattico, che è
inevitabilmente guidato da motivazioni di varia natura che vanno dall’architettura nella quale si
inserisce alle finalità per le quali è stato sviluppato ecc. Quindi, le revisioni manuali di un output
prodotto automaticamente non sarebbero state circoscritte alle analisi errate, ma avrebbero
riguardato anche analisi corrette al fine di rendere l’output dell’analizzatore conforme allo
schema di annotazione adottato;
ƒ
la difficoltà di gestire automaticamente certe distinzioni tra relazioni di dipendenza:
o si consideri, come esempio, la distinzione tra argomenti e modificatori: tale distinzione è
gestibile senza particolari difficoltà nell’ambito di analizzatori sintattici sulla base di un
lessico di riferimento contenente informazione sulla sottocategorizzazione dei predicati.
Questo non è altrettanto vero nel caso dell'annotazione di una Treebank; infatti, la
difficoltà di questo compito è ripetutamente segnalata nella letteratura sulle Treebank (si
veda, ad esempio, Marcus et al. 1994). Ciò deriva dal fatto che l’annotazione di una
Treebank non prevede necessariamente il ricorso ad un lessico di riferimento: dietro a
questa scelta stanno motivi di varia natura che vanno dalle risorse lessicali esistenti (che
sono insufficienti per applicazioni su scala reale per copertura del lessico sia a livello di
lemmi che di costruzioni sintattiche associate ad essi) al fatto che una Treebank è
tipicamente usata anche per acquisire informazione di questo tipo per cui una proiezione
preventiva delle interpretazioni possibili potrebbe interferire con i risultati attesi;
o altro tipo di distinzione di non sempre facile applicazione nell'ambito di un'analizzatore
sintattico dell'italiano è quella tra soggetto e oggetto: infatti, le caratteristiche
dell'italiano come lingua che permette l'ellissi del soggetto e che mostra un ordine libero
dei costituenti frasali rendono l'assegnazione delle relazioni di soggetto e oggetto un
compito spesso difficoltoso se condotto sulla base della sola informazione sintattica
(Montemagni 1995). In frasi del tipo la lettera che ha scritto la segretaria, non so chi
abbia incontrato Maria, oppure affondarono due navi, l'assegnazione delle relazioni di
soggetto e oggetto non può essere condotta solo sulla base di informazione sintattica,
ovvero le informazioni di accordo non sono sufficienti per una corretta identificazione
delle relazioni funzionali di soggetto e oggetto; in questi casi è necessaria informazione
semantica sulle restrizioni di selezione associate alle posizioni argomentali dei predicati
(nel primo caso) mentre nei successivi anche l'informazione semantica non è ancora
sufficiente e deve essere integrata con la conoscenza del contesto. Data la frequenza di
casi di questo tipo in testi reali, una pre-annotazione automatica avrebbe richiesto una
revisione massiccia dell'output ottenuto.
Inoltre, nella fase di elaborazione delle Specifiche, erano state anche valutate le difficoltà che
analisi multiple, sia espresse in termini di “packed shared forest” (prodotta utilizzando la tecnica di
“local ambiguity packing”) sia in termini di semplice lista di analisi alternative, avrebbero
introdotto al livello del software di annotazione. Infatti, il tool di annotazione avrebbe dovuto
essere in grado di gestire analisi ambigue (in termini di analisi multiple o compatte) sulle quali
D-18
Linea 1.2 - Treebank sintattico-semantica dell'italiano
l’annotatore avrebbe dovuto operare: i problemi derivanti dalla memorizzazione di analisi ambigue
sono ben noti nel campo dei database sintattici (si rinvia a Van Halteren 1997 per una rassegna dei
problemi e delle soluzioni proposte nella letteratura). Inoltre, nel caso di analisi multiple, si
sarebbero dovute stabilire strategie per selezionare la base di pre-annotazione: nel caso di analisi
alternative si sarebbero dovuti fornire criteri per l’identificazione dell’analisi più probabile; nel caso
di rappresentazioni compatte (espresse in termini di “packed shared forest”) si sarebbe dovuta
creare un’interfaccia per l’annotatore umano per la ricostruzione dell’analisi appropriata al contesto.
Si è ritenuto che tutti questi sforzi andavano al di là delle finalità specifiche del tema Treebank e per
questo motivo si è deciso di procedere ad un’annotazione completamente manuale.
4.1.2.1.2
Annotazione completa
Per annotazione completa si intende un'annotazione che applica in modo completo ed esaustivo
le Specifiche Tecniche fornite al termine della linea 1.1. La schermata che segue fornisce
un'esempio di annotazione completa:
La copertura dell'annotazione può essere verificata come segue: a parte elementi che sappiamo
che a priori non entrano in relazioni di dipendenza (cioè elementi grammaticali quali i
determinativi, gli ausiliari ed altri verbi in costruzioni perifrastiche quali i modali, i
complementatori, le preposizioni, etc. così come la punteggiatura), tutte le unità testuali entrano in
almeno una relazione di dipendenza, o come testa o come dipendente. A questo criterio di base,
vanno aggiunte relazioni riguardanti:
•
soggetti “impliciti” di completive infinitivali con funzione di complemento in costruzioni a
controllo e a sollevamento così come di infinitive, participiali e gerundive con funzione di
modificatore, come illustrato dagli esempi che seguono:
sogg (partire, Giovanni) Giovanni promise a Maria di partire
sogg (partire, Maria) Giovanni ordinò a Maria di partire
D-19
Linea 1.2 - Treebank sintattico-semantica dell'italiano
sogg (partire, Maria) Maria fu costretta a partire
sogg (arrivare, Giovanni) Giovanni sembra arrivare domani
sogg (finire, Giovanni) Finito il lavoro, Giovanni partì
sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro
•
•
soggetti “ellittici”, come nella frase ho mangiato due mele:
sogg(mangiare, .<pers=1,num=sing>)
altri casi di ellissi, ad esempio ellissi della testa verbale:
Carlo legge il libro e Maria il giornale
sogg(LEGGERE, Maria)
Si noti che l'informazione relativa agli elementi che non sono annotati al livello di relazioni di
dipendenza (ad esempio, determinativi e preposizioni) è riportata al livello dei tratti che descrivono
i singoli elementi della relazione. La figura che segue riporta la descrizione associata al dipendente
della relazione mod(annunciare, giorno) della frase annotata riportata sopra:
la finestra illustra il dipendente nei giorni specificandone la definitezza ("+"), la preposizione che lo
introduce (in) ed il ruolo semantico (temporale).
4.1.2.1.3
Annotazione per nuclei argomentali
La seconda strategia di annotazione sperimentata nella fase di messa a punto del primo prototipo
della Treebank di SI-TAL è la cosiddetta annotazione per nuclei argomentali. In questo caso,
l'annotazione è parziale nel senso che i tratti che possono essere ereditati dall'input dell'annotazione
o il cui valore coincide con quello di default non sono specificati. Inoltre, l'annotazione riguarda
solo i nuclei argomentali di predicati. Un esempio di questo tipo di annotazione è riportato nella
finestra che segue:
D-20
Linea 1.2 - Treebank sintattico-semantica dell'italiano
dove si può notare che le relazione di modificazione non sono state ancora annotate. Lo stesso vale
per alcuni tratti della descrizione della testa e del dipendente.
In questa fase di sviluppo della Treebank di SI-TAL l'annotazione per nuclei argomentali
presenta una serie di vantaggi, elencati sommariamente di seguito:
•
questa strategia di annotazione permette un controllo più rigoroso della qualità
dell'annotazione che verrà rivista ogni volta da almeno due annotatori: il primo annotatore
effettuerà la prima fase di annotazione parziale; il secondo la completerà per renderla
conforme a quanto illustrato nella precedente sezione e nel contempo rivedrà quanto annotato
nella fase precedente;
•
in questo modo si raggiunge in minor tempo una maggiore copertura di testo, mettendo così
in condizione di avviare il processo di validazione dei risultati acquisiti in tempi più brevi;
infatti, anche se l'informazione relativa ai vari tipi di modificatori rimane ovviamente
cruciale, buona parte della validazione riguarda l'annotazione dei nuclei argomentali (es.
tipologia di complementi selezionati da un dato predicato);
•
per quanto riguarda i tratti rimasti sottospecificati al livello di questa modalità di
annotazione, il completamento dell'annotazione manuale potrà essere effettuato con routines
di post-processing, per l'assegnazione automatica di valori di default, oppure per l'eredità di
informazione già codificata al livello morfo-sintattico.
4.1.2.2 Risultati
L'annotazione funzionale nel corso della linea 1.2 ha riguardato innanzitutto il corpus
finanziario, e si è poi estesa ad un sottoinsieme del corpus bilanciato, come dettagliato nella tabella
che segue:
D-21
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Partizione
corpus
Finanziario
Il Sole-24 Ore
Bilanciato
La Repubblica
Fonte
Origine
Giornata del 25/5/1994
Articoli di vario
argomento usciti tra il
1985 e il 1988
Tokens
annotati
89941
59945
per un totale di 149.886 parole ("tokens") annotate.
Mentre la porzione di corpus bilanciato è stata annotata solo al livello dei nuclei argomentali, il
corpus finanziario si ripartisce in due sottosezioni: una che è stata oggetto di annotazione completa
(per questa partizione sono stati selezionati articoli che erano stati segnalati come tematicamente
omogenei e dunque come prioritari ai fini della valutazione); l'altra che è stata oggetto di
annotazione per nuclei argomentali.
A questo proposito si segnala una variazione rispetto al piano di attuazione della linea 1.2 (e di
conseguenza a quello della linea 1.3): infatti, i piani di attuazione prevedevano che l'annotazione
funzionale del corpus finanziario sarebbe stata condotta nell'ambito della linea 1.3. Ciò presentava
l'inevitabile svantaggio che per quanto riguarda il livello funzionale il corpus finanziario sarebbe
stato disponibile solo alla fine della linea 1.3, ovvero quando la valutazione della Treebank - che
viene circoscritta al corpus finanziario - doveva aver già raggiunto uno stadio avanzato. Al fine di
rendere il corpus finanziario annotato ai tre livelli disponibile per la valutazione nel più breve tempo
possibile, si è deciso di ridefinire la distribuzione dell'annotazione sintattica per il livello funzionale
anticipando l'annotazione del corpus finanziario e posticipando di conseguenza l'annotazione del
corpus bilanciato.
4.1.2.3 Revisione delle specifiche e dei criteri di annotazione
Questa sezione raccoglie integrazioni e/o revisioni delle Specifiche di annotazione per il livello
funzionale che sono emerse come necessarie durante il lavoro di annotazione e nella fase
preparatoria di addestramento all'annotazione. L'esposizione è articolata in due parti: revisione delle
Specifiche (sezione 4.1.2.3.1) e estensione dei criteri di annotazione (sezione 4.1.2.3.2).
4.1.2.3.1
Revisione ed integrazione delle specifiche di annotazione
4.1.2.3.1.1
Forme verbali con pronomi riflessivi
Viene distinta la seguente tipologia di casi:
•
verbi riflessivi: il pronome riflessivo rappresenta un argomento del verbo con ruolo
proprio e viene dunque posto in relazione di ogg_d con il verbo: es.
Giovanni si guarda allo specchio
ogg_d(guardare.<+rifl>, si)
in questo caso la codifica dell'informazione avviene sia al livello della relazione di
dipendenza che viene a stabilirsi tra il verbo ed il pronome riflessivo sia al livello dei
tratti associati alla testa.
D-22
Linea 1.2 - Treebank sintattico-semantica dell'italiano
•
verbi intransitivi pronominali: il pronome riflessivo non rappresenta un argomento del
verbo ma appare obbligatoriamente insieme a certi verbi nei seguenti casi:
o variante intransitiva di una parte dei verbi ergativi (es. capovolgersi, rompersi): in
questo caso il pronome riflessivo è un semplice segnale dell'intransitività del
verbo rispetto alla variante transitiva:
La barca si è capovolta
sogg (capovolgersi.<+ipron>, barca)
o verbi inerentemente riflessivi, in cui il pronome riflessivo non convoglia nessun
significato particolare (es. pentirsi, avvalersi)
Giovanni si è pentito
sogg (pentirsi.<+ipron>, Giovanni)
o riflessivi apparenti, in cui il pronome riflessivo non convoglia nessun significato
particolare (es. Giovanni si lava le mani)
•
"si" impersonale: si tratta di un uso non lessicalizzato in cui il "si" marca l'uso
impersonale di un verbo che solitamente ammette un soggetto (es. si va, si pensa di
arrivare domani). E’ possibile solo la forma di III persona singolare:
Si va a casa
obl (andare.<+impers_si>, casa.<intro=a>)
Secondo alcune teorie, il "si" impersonale può essere considerato il soggetto vero e
proprio della proposizione in cui compare. La nostra strategia di annotazione delle
costruzioni impersonali consiste a) nello specificare l'uso impersonale del verbo (marcato
dal "si") al livello della testa verbale come esemplificato sopra e b) nell'omettere la
specificazione della relazione di soggetto (che rimane indefinito).
•
"si" passivante: si tratta di un uso non lessicalizzato in cui il "si" può essere visto come
una marca della passività del verbo nella costruzione specifica:
Si mangiano le mele / Le mele si mangiano
sogg (mangiare.<+passivo_si>, mela)
Quando nella costruzione con il "si" impersonale abbiamo un verbo transitivo con il suo
complemento oggetto (es. si mangia le mele), esiste una variante in cui il complemento
oggetto diventa soggetto del verbo (e quindi si accorda con esso). Il nuovo soggetto può
trovarsi prima o dopo il verbo (si veda sopra). Il "si" passivante è possibile solo se il
soggetto è di terza persona.
Il si impersonale e passivante è, dal punto di vista sintattico, una cosa diversa rispetto alle
costruzioni con pronome riflessivo. Le principali differenze sono le seguenti:
a) mentre coi verbi passivi non ci possono essere pronomi riflessivi o reciproci, il "si" impersonale
è possibile anche come soggetto di una frase passiva (es. si viene spesso dimenticati);
b) se il complemento oggetto di un verbo transitivo è rappresentato da un pronome clitico (es. lo),
questo precede il "si" impersonale (es. lo si spia da molto), ma segue il si riflessivo (se lo
immagina).
D-23
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Questa tipologia di informazioni richiederebbe l'inserimento di un nuovo tratto da associarsi alle
teste verbali nello schema di annotazione funzionale della Treebank di SI-TAL. Considerate le
difficoltà derivanti dall'inserimento di un nuovo tratto nella struttura dati in una fase in cui il
processo di annotazione è ormai avanzato, abbiamo optato per una codifica transitoria che sfrutta
tratti già presenti nella struttura dati. In particolare, alla lista iniziale dei valori di DIATESI sono stati
aggiunti, lungo il corso dell’annotazione, anche i seguenti valori che sono stati marcati con # per
indicarne la non diretta pertinenza rispetto all'attributo di cui costituiscono valore:
1. #rifl: questo valore marca i verbi riflessivi propri:
1. #rifl_app: questo valore marca i riflessivi apparenti;
2. #ipron: questo valore marca la variante intransitiva di una parte dei verbi ergativi ed i verbi
inerentemente riflessivi:
3. #impers_si: questo valore marca la costruzione con “si” impersonale;
4. #passivo_si: questo valore marca la costruzione con “si” passivante:
D-24
Linea 1.2 - Treebank sintattico-semantica dell'italiano
In una fase successiva si danno due soluzioni per questa tipologia di casi: a) trasferire i valori
preceduti da # come valori di un diverso attributo da introdurre nella struttura dati (soluzione più
costosa anche se forse auspicabile dal punto di vista linguistico; b) revisione della stessa etichetta
DIATESI, la quale potrebbe essere abbandonata per qualcosa di più ampio e meno specifico
(soluzione meno costosa).
4.1.2.3.1.2
Costruzioni con verbi impersonali
Le costruzioni con verbi impersonali (usati soltanto all'infinito e alla terza persona singolare)
sono annotate come segue:
Seguendo la strategia illustrata nella sezione precedente, all'attributo DIATESI viene associato il
valore #impers; inoltre, come si osserva nell'annotazione della frase riportata sopra, viene omessa
l'indicazione del soggetto in quanto non pertinente.
4.1.2.3.1.3
Estensione del dominio dell'attributo DEFINITEZZA
DEFINITEZZA costituisce un tratto dello schema di annotazione il cui dominio di applicazione è
troppo ristretto, in quanto è associato alla descrizione dei dipendenti nominali con parte del discorso
uguale a "S" o "SP". Sarebbe invece utile estenderlo anche a dipendenti di tipo pronominale (per
pronomi di tipo il quale, il cui etc.), numerale, aggettivale, e verbale (per trattare casi di
nominalizzazioni, il 1994_n il bello_agg oppure nel vedere_v); questo vale anche nel caso il
dipendente sia costituito da una abbreviazione. Ove possibile, questa informazione viene
transitoriamente codificata al livello del tratto INTRODUTTORE marcando il valore come non
appropriato (ovvero facendolo precedere da @), come illustrato nella figura che segue:
D-25
Linea 1.2 - Treebank sintattico-semantica dell'italiano
4.1.2.3.1.4
Strutture coordinate
Nel corso della linea 1.2 è stato dettagliato il trattamento della coordinazione per quanto riguarda
i casi più complessi come sia … sia, né … né, tanto …quanto, così come costruzioni con
congiunzioni avversative. La figura che segue illustra il trattamento di strutture coordinate
complesse:
Come nei casi precedentemente illustrati, l'informazione relativa alle congiunzioni coordinanti è
riportata – almeno in questa fase – come valore dell'attributo INTRODUTTORE (appositamente
marcato da @) associato al secondo elemento della struttura coordinata: nel caso entrambi gli
elementi della struttura coordinata siano introdotti da una congiunzione, entrambe le congiunzioni
sono riportate nella descrizione del secondo elemento separate da "_" come illustrato sopra.
4.1.2.3.2
Estensione dei criteri di annotazione
4.1.2.3.2.1
Annotazione di frasi interrogative indirette
D-26
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Le interrogative indirette sono un tipo di frase argomentale che presentano un introduttore di
subordinazione che non può mai essere omesso ed occupa la posizione iniziale: l'elemento
introduttore è un sintagma interrogativo, comprendente un pronome, aggettivo o avverbio della
serie interrogativa (chi, che cosa, come, quando, dove, perché, quale, quanto, etc.). La struttura a
dipendenze associata a queste frasi nello schema di annotazione funzionale di SI-TAL segue le
indicazioni della Word Grammar di Hudson (1984:84-85) ed è esemplificata negli esempi che
seguono:
Non so chi ha parlato
sogg (sapere, <pers=1, num=sing>)
arg (sapere, chi)
mod (sapere, non)
sogg (parlare, chi)
So quando è partito
sogg (sapere, <pers=1, num=sing>)
arg (sapere, quando)
sogg (partire, <pers=3, num=sing>)
mod (partire, quando)
come si può notare, l'elemento interrogativo è un dipendente condiviso da due teste, ovvero dal
predicato reggente (il verbo nei casi sopra) così come dalla testa verbale della frase interrogativa.
Mentre la seconda relazione di dipendenza appare scontata, la relazione tra il predicato reggente e
l'elemento interrogativo non lo è. A favore di questo tipo di analisi c'è il fatto che l'elemento
interrogativo può occorrere nella frase senza il resto della frase interrogativa: es. non so chi, non so
quando. In questi casi la parola interrogativa non può che dipendere da sapere. Un altro argomento
a favore di questo tipo di analisi sta nel fatto che il predicato reggente sottocategorizza per una frase
interrogativa all'interno della quale la marca di interrogatività è associata all'elemento interrogativo
che la introduce.
Nel caso in cui l'elemento interrogativo sia costituito da un aggettivo, l'annotazione sarà come
segue:
Non so quale treno abbia preso
sogg (sapere, <pers=1, num=sing>)
mod (sapere, non)
arg (sapere, treno)
mod (treno, quale)
sogg (prendere, <pers=3, num=sing>)
ogg_d (prendere, treno)
4.1.2.3.2.2
Cardinalità complessa
La maggior parte delle espressioni numeriche nell'uso reale del corpus non riportano la cifra
come una espressione unica ma sono spesso riportate nei termini di espressioni del tipo “20 mila
dollari”. Il problema di annotazione che si pone in questo caso riguarda il fatto se si dovesse fornire
un'analisi interna di "20 mila" in termini di testa e dipendente. Considerata la tipologia di usi di cui
D-27
Linea 1.2 - Treebank sintattico-semantica dell'italiano
vuole essere suscettibile la Treebank di SI-TAL, si è deciso di ricorrere alla soluzione di annotare
“dollari” con una cardinalità complessa di “20 mila”, come esemplificato dall'esempio che segue:
4.1.2.3.2.3
Annotazione di nomi propri composti
Nel caso di nomi propri composti, espressi in termini di nome e cognome qual è il caso di
“Lamberto Dini”, è stato stabilito che, per questioni inerenti il recupero di informazioni dalla base
dati, la testa debba essere il cognome della persona, mentre il nome costituisca un modificatore del
cognome stesso. Questo vale indipendentemente dall'ordine di apparizione di nome e cognome nel
testo.
4.1.2.3.2.4
Identificazione della testa in composti stranieri
Il caso di composti stranieri quali road show pone il problema di dover identificare la testa e il
dipendente: la soluzione che è stata adottata è quella di utilizzare la conoscenza della lingua
straniera che ha l’annotatore e stabilire che show è la testa e che road è il suo modificatore. Casi più
complessi di annotazione di espressioni in lingua straniera sono ancora in corso di studio (si veda la
sezione 4.1.2.3.3).
4.1.2.3.2.5
•
Annotazione di costruzioni appositive di vario tipo
Il neo ministro, Mario Rossi, ha deciso di dimettersi
sogg (decidere, ministro)
mod (ministro, neo)
mod (ministro, Rossi)
mod (Rossi, Mario)
arg (decidere, dimettersi)
•
Elenco di istanze in costruzioni del tipo i seguenti indici: incremento … aumento … La
strategia di annotazione che è stata decisa per il trattamento di questi casi consiste nel
marcare le singole istanze che seguono i due punti come modificatori della testa nominale
indici.
D-28
Linea 1.2 - Treebank sintattico-semantica dell'italiano
4.1.2.3.2.6
Particolari casi di costruzioni predicative
E' stato dettagliato il trattamento del verbo fare in costruzioni del tipo fare da autista a qualcuno
e fare come uno sconosciuto con qualcuno. In Renzi (1991, pagg. 195-6), a proposito dei
complementi predicativi viene messo in evidenza il fatto che “i verbi fungere, servire, fare possono
essere seguiti da un compl. predicativo costituito dalla preposizione da e da un nome non articolato
indicante una carica, una funzione”; si nota, inoltre, che al posto di da è possibile avere come. La
strategia di annotazione adottata per questi casi è quella di creare una relazione di predicazione
(pred) tra il verbo e il sostantivo che svolge il ruolo di predicato (fare e autista, fare e sconosciuto).
Anche Schwarze (1995, pag. 122), propone una simile analisi, dal momento che raggruppa il verbo
fare nella classe dei verbi copulativi e predicativi.
4.1.2.3.2.7
Annotazione degli incisi in testa agli articoli
Per quanto riguarda gli incisi che si trovano all’inizio di molti articoli e che sono solitamente
rappresentati da nomi di località o di città, è stato deciso che non vengono annotati, data la difficoltà
di stabilire la natura della loro relazione con la frase che segue: può trattarsi della locazione
dell'evento descritto nell'articolo, oppure del luogo della scrittura ma questo non può sempre essere
inferito dal testo.
4.1.2.3.2.8
Un caso particolare di congiunzione
Un caso particolare di congiunzione è quello che si osserva in espressioni del tipo 11 e 30, un
chilo e mezzo. In questo caso la congiunzione e non viene trattata come congiunzione coordinante
all'interno di una struttura coordinata; viene piuttosto annotata come l'introduttore di un
modificatore, che è costituito da 30 e da mezzo nei casi riportati sopra.
4.1.2.3.2.9
Costruzioni causative
Nello schema di annotazione funzionale di SI-TAL le costruzioni causative sono annotate come
segue:
Ho fatto applicare la legge
sogg (fare, <pers=1, num=sing>)
arg(fare, applicare)
ogg_d(applicare, legge)
Ho fatto fare qualche ricerca alla mia segretaria
sogg (fare1, <pers=1, num=sing>)
arg(fare1, fare2)
sogg(fare2, segretaria)
ogg_d(fare2, ricerca)
mod(segretaria, mio)
D-29
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Ho fatto partire la macchina
sogg (fare, <pers=1, num=sing>)
arg(fare, partire)
sogg(partire, macchina)
4.1.2.3.3
Problemi aperti in corso di studio
E' attualmente in corso di studio l'annotazione di:
4.2
•
espressioni complesse in lingua straniera, quali quali Massachussets Institute of Technology
o Bank of China, che pongono il problema - oltre dello stabilire quale sia la testa e quale il
dipendente - anche dell'annotazione della preposizione of. Analogo problema si pone per
l'annotazione dell'espressione Cagnotti and Partners, in particolare per quanto riguarda
l'annotazione della congiunzione straniera;
•
costruzioni ellittiche complesse: in una frase del tipo la RAI partiva da un volume di 30 mila
spot, la Fininvest di 127 mila l’ellissi non riguarda un singolo costituente bensì un segmento
di frase;
•
espressioni comparative del tipo questo conta più di quello, per le quali non è ancora stata
elaborata una strategia di annotazione dettagliata (infatti ad oggi i criteri di annotazione
coprono in modo sistematico ed esaustivo solo la comparazione aggettivale).
Annotazione semantico-lessicale
4.2.1 Metodologia di annotazione
A differenza dei livelli di annotazione sintattica, l’annotazione semantico-lessicale sia del corpus
bilanciato che di quello finanziario avviene per lemma. Si ricorda che la scelta di operare per lemma
anziché per frase è stata operata fondamentalmente per garantire una maggiore uniformità nel
trattamento dei singoli lemmi o delle espressioni semanticamente complesse e quindi con l’obiettivo
ultimo di una maggiore coerenza di annotazione.
L’annotazione ha preso avvio da una lista di lemmi comuni ad entrambi i corpus, concordata con
i codificatori di ItalWordNet (IWN), i quali per garantire una migliore stabilità della risorsa di
riferimento hanno ricontrollato i sensi dei lemmi in questione prima di darli in uso agli annotatori.
All’interno di questa lista la scelta dei lemmi è avvenuta principalmente seguendo un criterio di
frequenza dei lemmi stessi nei rispettivi corpora, ovvero a partire dai lemmi più frequenti in ognuno
dei due corpora, finanziario e bilanciato. L’annotazione viene realizzata attraverso le seguenti
operazioni (non rigorosamente in questo ordine):
• scelta del lemma da annotare tra quelli presentati dal tool di annotazione, con riferimento alla
lista dei lemmi comuni e sulla base della frequenza dei lemmi stessi;
• consultazione della risorsa linguistica IWN per lo specifico lemma e registrazione dei sensi in
essa previsti per quel lemma;
D-30
Linea 1.2 - Treebank sintattico-semantica dell'italiano
• consultazione del contesto in cui si trova il lemma da annotare per capire in quale senso è
usato nello specifico contesto. Tale fase prevede innanzitutto la lettura e l’analisi della frase in
cui il lemma in questione si trova, ma se necessario anche del paragrafo o addirittura
dell’intero articolo che includono quella frase;
• selezione della porzione di testo da annotare; può trattarsi del singolo lemma (ovvero di
un'unità semantica singola) ma anche di unità semantiche composte. Si ricorda che alcune
espressioni polilessicali sono già previste in input (es. ad hoc, di fronte a, personal computer,
etc.) e trattate come tali fin dall’inizio a tutti i livelli di annotazione. Altre invece che hanno
una valenza più strettamente semantico-lessicale (es. titoli di opere, programmi televisivi,
libri, oppure nomi propri di persone, istituzioni, organizzazioni) e vengono introdotte solo a
questo livello di annotazione;
• assegnazione del senso appropriato all’unità semantica in questione (sia essa semplice,
complessa o titolo) tra quelli previsti in IWN. Di fronte a lemmi o sensi mancanti in IWN è
prevista una discussione tra annotatori e, se ritenuto necessario, una segnalazione al gruppo
dei lessicografi di IWN. Nel caso in cui un lemma non figuri nella risorsa lessicale di
riferimento (né nella partizione generica né in quella specialistica) perché non ritenuto idoneo,
in corrispondenza del numero di senso si specifica il valore ‘no’.
4.2.2 Risultati
L’annotazione semantico-lessicale fin qui condotta ha riguardato principalmente unità
semantiche semplici indicanti nomi comuni ma anche nomi propri (soprattutto geografici) e in
misura minore titoli ed espressioni polilessicali, per un totale di occorrenze pari a quanto
sintetizzato nella seguente tabella:
Tipo di Corpus
Corpus bilanciato
Numero di occorrenze annotate
12.000
Corpus specializzato
(finanziario)
Totale
8.000
20.000
Si noti che tale versione della Treebank è allineata con la versione di IWN che è stata consegnata
agli annotatori all'inizio dell'annotazione.
4.2.3 Revisione e integrazione delle specifiche di annotazione
Le modifiche alle specifiche del Manuale Operativo per il livello semantico-lessicale di
annotazione hanno riguardato soprattutto due aspetti:
•
integrazione del set di valori specificati per alcuni attributi al fine di consentire l’annotazione di
fenomeni semantici non previsti inizialmente (es. nomi propri polilessicali);
D-31
Linea 1.2 - Treebank sintattico-semantica dell'italiano
•
revisione, sulla base di quanto riscontrato nei corpora, dei criteri di annotazione di alcuni
fenomeni sematico-lessicali ed integrazione dei punti lasciati in sospeso inizialmente.
4.2.3.1 Integrazioni all'insieme dei valori associati agli attributi
L'insieme di possibili valori associati all’attributo np (nome proprio) è stato integrato con
‘grup&luog’ (si veda tabella sotto) da assegnare ai nomi propri geografici (es. Francia) nei casi in
cui non sono semplicemente intesi come luogo ma anche come gruppo-organizzazione (es. adoro la
Francia, il sovrano d’Inghilterra).
I valori possibili per l’attributo tipousc sono stati arricchiti (si veda i valori in grassetto nella
tabella sotto) per consentire l’annotazione di nomi propri polilessicali (es. Nuova Zelanda, Stati
Uniti d’America, Giulio Andreotti, Real Madrid, ecc.). Va detto che tali valori non sono del tutto
appropriati all’attributo tipousc, tuttavia consentono l’annotazione di espressioni composte,
mantenendo inalterata la struttura attuale dei dati, e facilitano il reperimento dei nomi propri
composti. Il loro uso è previsto nel seguente modo:
• np_pers: per nomi propri polilessicali che si riferiscono a persona (es. Giulio Andreotti);
• np_grup: per nomi propri polilessicali che si riferiscono a istituzioni, organizzazioni o gruppo di
persone (es. Real Madrid, Cassa di Risparmio di Torino);
• np_man: per nomi propri polilessicali che si riferiscono a prodotto/manufatto (es. Fiat
Cinquecento, Windows 98);
• np_luog: per nomi propri polilessicali che si riferiscono a luogo (es. Nuova Zelanda; Stati Uniti
d’America);
• np_grup&luog: per nomi propri polilessicali ai quali non è possibile attribuire univocamente
luogo o gruppo (es. la posizione della Repubblica di S. Marino è preferibile);
• np: per nomi propri polilessicali che si riferiscono ad altri tipi di entità (es. Lotteria d’Italia,
Festa dei Lavoratori).
Nella seguente tabella, per ogni attributo sono riportate – marcate in grassetto - le integrazioni ai
possibili valori.
Tag Types
Reading Number
Tags/Features
US
ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no
Yes
D-32
USC
yes
UST
yes
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Tag Types
Tags/Features
US
Lexical-semantic
lem=LEMMA
yes
alter=dim, accr, dispr, vezz, sup, compar, other
yes
fig= metaf, meton, other
yes
np=pers, grup, luogo, man, grup&luogo, other
yes
Information
tipousc=idioma, comp, vsup, np, np_pers,
np_grup, np_luogo, np_man, np_grup&luogo,
other
USC
yes
nota=sn_indist, sn_inc
yes
yes
yes
yes
tipot=semiotico, spettacolo, other
Tagging
Information
UST
Yes
yes
comm= stringa di commento
4.2.3.2 Revisioni ed integrazioni dei criteri di annotazione
Relativamente ai punti del Manuale Operativo parzialmente specificati e/o lasciati in sospeso è
stato deciso quanto segue:
•
Nomi propri: tutti i nomi propri vengono annotati secondo il tratto relativo definito nel
Manuale Operativo e secondo le integrazioni ad esso riportate (vedi paragrafo precedente). Il
numero di senso viene specificato solo nel caso in cui il nome proprio figura nel lessico
generico o specialistico di IWN; negli altri casi viene assegnato il valore ‘no’. Per i nomi non
attestati nel lessico può essere fatta una proposta di inserimento al gruppo di IWN.
Più in particolare, relativamente all’annotazione dei nomi propri sono state prese le seguenti
decisioni:
-
i nomi propri che si riferiscono a regioni, nazioni, paesi, città in generale ricevono la
feature ‘np=luog’, se si tratta di unità semantiche semplici, o ‘tipousc=np_luog’, se si tratta
di unità semantiche composte; invece i nomi propri indicanti montagne, fiumi, laghi
ricevono un’etichetta più generica (‘np=np’ nel caso di unità semplici oppure ‘tipousc=np’
nel caso di unità complesse) giacché non indicano necessariamente un luogo (es. il Lago di
Garda è il lago più grande d’Ítalia)
-
nei casi del tipo «re/ sovrano di ‘nome proprio geografico’» (es.: regina d’Inghilterra) a
quest’ultimo è assegnata la feature ‘np=grup&luog’ o ‘tipousc=grup&luog’ perché
ragionevolmente indica il paese/nazione sia in senso di luogo che di organizzazione.
-
nei casi invece del tipo «via / piazza / palazzo + nome proprio» (es. via XXV aprile) si
adotta il seguente metodo: ‘via’ e ‘piazza’ sono annotati separatamente e il nome proprio
che segue è etichettato in modo generico con ‘np=np’ o ‘tipousc=np’. Per quanto riguarda
palazzo, si distinguono i casi in cui fa parte del nome proprio (es.: Palazzo di Giustizia,
D-33
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Palazzo Pitti, Palazzo Madama) da quelli in cui può essere annotato separatamente (es. il
palazzo del Quirinale)
•
Sigle e Acronimi: Il numero di senso viene specificato solo nel caso in cui la sigla o l’acronimo
figurano in IWN; in caso contrario viene assegnato il valore ‘no’ oppure l’annotazione viene
sospesa e formulata una proposta di inserimento al gruppo di lessicografi di IWN. Nel caso che
la sigla o l’acronimo siano già presenti in IWN, l’annotatore fornisce al gruppo di IWN
indicazioni di eventuali varianti ortografiche (es.: s.p.a., S.p.A., spa ecc.) non ancora incluse
all'interno del "synset".
•
Parole straniere: tutte le parole straniere sono marcate nel campo ‘commento’ con l’etichetta
‘PSTR’ (parola straniera) per renderle facilmente reperibili e fondamentalmente per comodità
dell’annotatore.
•
Titoli: vengono annotati come <ust la cui parte del discorso è SP e il cui tipo è ‘semiotico’. Il
valore assegnato al numero di senso della <ust è ovviamente ‘no’ poiché essi non sono fanno
parte della risorsa lessicale. Ricevono inoltre una doppia annotazione: una a livello dei singoli
componenti e un’altra a livello dell’intera unità <ust. Va inoltre detto che alcuni titoli sono già
previsti in input (es. La Repubblica, La Stampa) ma in fase di annotazione per uniformità di
trattamento vengono comunque trattati come <ust (in questo caso formate da un’unica unità).
•
Espressioni polilessicali: il lemma dell’espressione può contenere eventuali preposizioni,
articoli ecc. che fanno parte dell’espressione stessa (es. essere la chiave di volta). È stata anche
considerata opportuna l’inclusione nell’unità <usc di eventuali modificatori avverbiali o
aggettivali dei singoli componenti dell'espressione (es. gettare abbondantemente benzina sul
fuoco, mettere i loro puntini sulle i, ecc.). Nel caso di modificatori di tipo aggettivale, essendo
prevista la loro annotazione (si ricorda che l’annotazione semantico-lessicale riguarda nomi,
verbi e aggettivi), la <usc che li include ottiene una doppia annotazione: come unità semantica
complessa nella sua totalità e in corrispondenza dello specifico modificatore aggettivale.
•
Metonimia: per uniformità con il trattamento previsto per la metafora, anche nei casi di
metonimia lessicalizzata è stata considerata la possibilità dell'assegnazione del tratto
‘fig=meton’.
•
Locuzioni: è stato previsto il seguente trattamento:
•
-
locuzioni preposizionali del tipo per conto di: non si annotano semanticamente (né i singoli
componenti né l’intera sequenza) ma si segnalano periodicamente a tutto il gruppo
Treebank, secondo il protocollo di interscambio concordato;
-
locuzioni avverbiali del tipo in fretta e furia: non si annotano semanticamente (né i singoli
componenti né l’intera sequenza) ma si segnalano al gruppo IWN per il loro inserimento nel
lessico;
-
locuzioni aggettivali del tipo di gran conto: si segnalano al gruppo IWN e si annotano come
‘usc’ di tipo aggettivale.
Assegnazione di numero di senso: come riportato nel Manuale Operativo, nel caso in cui
risulti difficile o addirittura impossibile disambiguare tra due sensi di un lemma presenti nel
lessico generalmente si adotta la disgiunzione o la congiunzione dei sensi, realizzando una loro
combinazione attraverso un operatore logico. Tuttavia, per evitare l’uso frequente di tali
operatori, in alcuni casi si ritiene opportuno non combinare i sensi bensì fare riferimento al
D-34
Linea 1.2 - Treebank sintattico-semantica dell'italiano
senso più generico. È questo il caso, ad esempio, del lemma “russo”, al quale sono associati in
IWN 3 sensi distinti:
-
nativo della Russia
abitante della Russia
lingua
dove la distinzione tra il primo ed il secondo senso è piuttosto sottile e non facilmente
applicabile in casi del tipo “un operaio russo…”, di fronte ai quali è preferibile fare riferimento
al senso più generico (russo = nativo della Russia).
Più in generale, di fronte a casi di difficile interpretazione è preferibile che gli annotatori
definiscano una strategia comune di interpretazione ed applicazione dei sensi. A tale scopo
intensificano gli scambi di opinione e le discussioni tra di loro, fino a giungere ad un accordo o
al più lasciando in sospeso il caso in attesa di ulteriori confronti ed una decisione definitiva.
4.2.4 Interazioni all'interno del gruppo Treebank e con il tema ItalWordNet
Il lavoro fin qui svolto a livello di annotazione semantico-lessicale non si è limitato
all’annotazione vera e propria, ma ha previsto uno studio nella fase preliminare e una messa in
pratica durante la fase di annotazione delle seguenti operazioni:
•
•
•
organizzazione e messa a punto dei criteri di annotazione ai fini di:
-
convalidare e raffinare le strategie definite nel Manuale Operativo;
-
uniformare il più possibile le strategie di annotazione usate per i diversi corpora;
pianificazione delle interazioni con il gruppo IWN per quanto riguarda:
-
organizzazione dell'annotazione in relazione allo stato dello sviluppo della risorsa;
-
integrazione di IWN con sensi e/o lemmi attestati nel corpus ma non inclusi nella risorsa allo
stato attuale;
-
discussione di sensi dubbi relativi a lemmi previsti in IWN e riscontrati nei corpora;
valutazione delle funzionalità previste dal tool GesTALt per questo livello di annotazione.
4.2.4.1 Interazione tra i siti in carico dell'annotazione semantico-lessicale
L'annotazione semantico-lessicale è suddivisa come segue:
•
CPR: corpus bilanciato;
•
IRST: corpus finanziario.
Al fine di garantire coerenza di annotazione al livello semantico-lessicale tra annotatori diversi è
stato stabilito quanto segue:
-
interscambio frequente delle espressioni polilessicali (idiomatiche, composti e espressioni
con verbo supporto) individuate all’interno degli specifici corpora;
D-35
Linea 1.2 - Treebank sintattico-semantica dell'italiano
-
interscambio (con scadenze periodiche definite di volta in volta) delle proposte di variazione
della risorsa lessicale di riferimento, finalizzato alla definizione di una lista congiunta e
concordata di modifiche da proporre al gruppo di IWN;
-
definizione di una strategia di annotazione comune in relazione ai punti del Manuale
Operativo lasciati in sospeso (es. il trattamento della metonimia e delle parole straniere) o in
corrispondenza di casi dubbi o particolarmente difficili (es. espressioni polilessicali, nomi
propri composti, etc.).
4.2.4.2 Interazione tra annotatori della Treebank e lessicografi di IWN
L’interazione tra annotatori della Treebank e i lessicografi di IWN ha preso avvio dalla
definizione della lista di lemmi comuni alle due partizioni del corpus (finanziaria e bilanciata) .
Per la comunicazione agli annotatori di eventuali cambiamenti rilevanti dal punto di vista
dell’annotazione, apportati successivamente al sottoinsieme di lemmi concordati, è stato definito un
protocollo di comunicazione, secondo il quale vengono segnalati:
• cambi nella ripartizione di senso di un lemma (ulteriori suddivisioni o accorpamenti di
senso);
• eliminazione di un senso;
• cambio dell’iperonimo assegnato, quando questo comporti una diversa assegnazione di
senso.
Un protocollo di comunicazione è stato inoltre definito per la comunicazione da parte degli
annotatori di eventuali proposte di integrazioni o modifiche della risorsa lessicale. Fino ad oggi le
proposte degli annotatori hanno riguardato essenzialmente:
• nuovi lemmi, mancanti in IWN. Nella maggior parte dei casi si è trattato di espressioni
polilessicali e, in misura minore, di nomi propri;
• nuovi sensi per lemmi già presenti in IWN;
• modifiche alle distinzioni di senso (es. accorpamento di sensi ritenuti indistinguibili o iperspecificati) o integrazioni (es. aggiunta di esempi, precisazione della definizione, cambio
dell’iperonimo).
5 Sviluppo di GesTALt
GesTALt è un sistema di applicazioni software di supporto alla creazione e validazione della
risorsa Treebank progettato per supportare nelle loro attività quattro classi distinte di utenti: gli
annotatori della struttura sintattica a costituenti, gli annotatori della struttura sintattico-funzionale,
gli annotatori semantico-lessicali ed i validatori.
Compito degli annotatori è di creare la risorsa Treebank partendo da una base di documenti
(BDA) contenente l’insieme di testi di un corpus annotati morfo-sintatticamente, mentre quello dei
validatori è di controllare che la risorsa sia stata ben annotata.
D-36
Linea 1.2 - Treebank sintattico-semantica dell'italiano
In maggior dettaglio, gli annotatori sintattici a costituenti, sintattico-funzionali, e semanticolessicali svolgono le loro attività al fine di produrre, rispettivamente, annotazioni sintattiche a
costituenti, annotazioni sintattico-funzionali ed annotazioni semantico-lessicali dei testi di un
corpus.
GesTALt mette a disposizione di ogni tipologia di annotatori (sintattici a costituenti, sintatticofunzionali, e semantico-lessicali) una specifica applicazione di supporto (SinTAS, FunTAS e
SemTAS, rispettivamente) unitamente ad una visione parziale della BDA, in maniera tale che essi
possano svolgere le loro attività di annotazione ognuno, separatamente, al proprio livello. Ciò al
fine di rendere più agile l’annotazione e di evitare l’interferenza tra i vari livelli.
A supporto dei validatori, invece, GesTALt mette a disposizione l’applicazione ValTAS insieme
ad una visione globale della BDA che permetta loro di verificare sia le scelte fatte dagli annotatori
sia la congruenza tra i livelli di annotazione.
Inoltre, GesTALt comprende un insieme di applicazioni di utilità dedicate al caricamento della
BDA che saranno descritte in maggior dettaglio in §5.2.
Nel paragrafi seguenti si fornisce una descrizione del processo di sviluppo adottato durante la
linea di ricerca 1.2 del progetto, dell’architettura software di GesTALt ed, infine, delle principali
funzionalità offerte dalle applicazioni di supporto agli annotatori.
5.1
Processo di sviluppo del software
La produzione del sistema software per l’annotazione e la navigazione della Treebank SintatticoSemantica dell’Italiano GesTALt si basa su di un processo di sviluppo iterativo.
La strategia adottata per lo sviluppo incrementale del software si fonda sulla tecnica di
prototipazione evolutiva, ovverosia sulla produzione iniziale di un prototipo software le cui
funzionalità vengono incrementate ad ogni iterazione del processo di sviluppo fino ad ottenere il
prodotto finale.
La tecnica di prototipazione evolutiva è particolarmente efficace nello produzione di software i
cui requisiti siano non perfettamente noti o fortemente instabili e, pertanto, ben si adatta allo
sviluppo di GesTALt.
Le principali attività previste dal processo di sviluppo adottato sono le cinque brevemente
descritte qui di seguito:
A1. Definizione Requisiti Utente
Definizione di un primo insieme di requisiti utente relativo alle funzionalità di base da dover
includere in GesTALt. Tale attività comprende le seguenti sotto-attività:
A1.1 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione sintattica
a costituenti.
A1.2 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione sintatticofunzionale.
A1.3 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione semanticolessicale.
A1.4 Definizione dei requisiti utente per le funzionalità di supporto alla validazione della
Treebank di SI-TAL.
D-37
Linea 1.2 - Treebank sintattico-semantica dell'italiano
A2. Codifica
Codifica di un primo prototipo (di tipo evolutivo) di GesTALt sulla base dei requisiti utente
raccolti. In maggior dettaglio, tale attività può essere specializzata nelle seguenti sotto-attività:
A2.1 Codifica di SinTAS, ovverosia del sotto-sistema di supporto all’annotazione sintattica a
costituenti.
A2.2 Codifica di FunTAS, ovverosia del sotto-sistema di supporto all’annotazione sintatticofunzionale.
A2.3 Codifica di SemTAS, ovverosia del sotto-sistema di supporto all’annotazione semanticolessicale.
A2.4 Codifica di ValTAS, ovverosia del sotto-sistema di supporto alla validazione delle
annotazioni.
A3. Validazione di GesTALt
Validazione delle funzionalità incluse nel prototipo realizzato. Le sotto-attività in cui si può
suddividere l’attività in oggetto sono:
A3.1. Validazione di SinTAS.
A3.2. Validazione di FunTAS.
A3.3. Validazione di SemTAS.
A3.4. Validazione di ValTAS.
A4. Raffinamento dei Requisiti Utente
Raffinamento dei requisiti utente prodotti sulla base dei commenti forniti dagli utenti durante
l’attività di validazione del prototipo. L’attività in questione si compone delle seguenti sottoattività:
A4.1 Raffinamento dei requisiti utente per
sintattica a costituenti.
A4.2 Raffinamento dei requisiti utente per
sintattico-funzionale.
A4.3 Raffinamento dei requisiti utente per
semantico-lessicale.
A4.4 Raffinamento dei requisiti utente per le
Treebank di SI-TAL.
le funzionalità di supporto all’annotazione
le funzionalità di supporto all’annotazione
le funzionalità di supporto all’annotazione
funzionalità di supporto alla validazione della
A5. Raffinamento di GesTALt
Raffinamento del prototipo prodotto finalizzato a produrre una nuova versione di GesTALt che
sia conforme ai requisiti utente. In particolare, le sotto-attività in cui il raffinamento di GesTALt
può essere suddiviso sono:
A5.1
A5.2
A5.3
A5.4
Raffinamento di SinTAS.
Raffinamento di FunTAS.
Raffinamento di SemTAS.
Raffinamento di ValTAS.
Secondo quanto riportato nei piani di attuazione relativi alle linee di ricerca 1.2 ed 1.3 del
progetto, le attività ora introdotte devono essere eseguite in cascata. In maggior dettaglio, durante la
linea di ricerca 1.2, devono essere eseguite tutte le attività che vanno dalla prima definizione dei
requisiti utente (A1) fino alla al raffinamento degli stessi (A4), mentre il raffinamento di GesTALt
(A5) è compito da eseguirsi durante la linea di ricerca 1.3.
D-38
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Durante l’attuazione della linea di ricerca 1.2 è però stato necessario apportare alcune modifiche
alla sequenza di attività originariamente pianificata, anticipando lo svolgimento di alcune sottoattività previste per la linea 1.3 alla linea 1.2 e, di conseguenza, rimandando alcune sotto-attività
della linea 1.2 alla 1.3.
Vediamo dunque in dettaglio quali siano state le variazioni apportate al processo di sviluppo
pianificato per la produzione di GesTALt al momento della sua reale attuazione durante la linea 1.2
ed i motivi che hanno indotto dette variazioni.
Il reale processo di sviluppo ha avuto inizio, secondo quanto pianificato, con l’attività di
definizione dei requisiti utente (A1), ovverosia con la produzione di un primo insieme di requisiti
relativi alle funzionalità di base da dover includere in SinTAS, FunTAS, SemTAS e ValTAS
(attività A1.1, A1.2, A1.3 ed A1.4).
I requisiti prodotti hanno quindi permesso di iniziare l’attività di codifica del prototipo di
GesTALt (A2) che però non ha potuto essere svolta nel suo complesso. Infatti, mentre è stato
possibile codificare il prototipo di SinTAS, FunTAS e SemTAS (A2.1, A2.2 ed A2.3), l’eccessiva
genericità dei requisiti relativi a ValTAS ha reso impossibile la produzione di un prototipo
evolutivo di tale sistema.
A tal proposito, bisogna inoltre considerare che le funzionalità di ValTAS dipendono fortemente
da quelle dei vari sistemi di supporto all’annotazione, e pertanto la produzione di un suo prototipo
evolutivo che si basi su di un insieme di funzionalità prototipali dei sistemi di annotazione (la cui
stabilità, cioè, deve ancora essere comprovata) può comportare che l’evoluzione di SinTAS,
FunTAS o SemTAS generi la necessità di un ripensamento radicale delle funzionalità di ValTAS e,
conseguentemente, una ricodifica pressoché totale del relativo prototipo.
Una possibile alternativa alla codifica di un prototipo evolutivo per lo sviluppo di ValTAS, è la
produzione di un così detto prototipo rapido (throw-away prototype), ovvero di un prototipo da
utilizzarsi per soli scopi dimostrativi e che, rispetto ad un evolutivo, può essere prodotto in minor
tempo, ma è strutturato in modo tale da non poter essere riutilizzato per la produzione del sistema
finale.
Al momento di attuare l’attività di codifica di GesTALt, la possibilità di utilizzare un approccio
allo sviluppo di ValTAS mediante l’uso di una tecnica di prototipazione rapida è stata attentamente
vagliata e si è ritenuta troppo dispendiosa rispetto ai limiti di tempo e costo del progetto.
Pertanto, si è preferito rimandare la codifica e validazione del prototipo evolutivo di ValTAS
(A2.4 e A3.4) dopo la validazione delle funzionalità di SinTAS, FunTAS e SemTAS, e quindi alla
linea di ricerca 1.3.
Una volta codificati, i prototipi di SinTAS, FunTAS e SemTAS sono stati validati dagli utenti
che hanno provveduto a raffinare ed estendere l’insieme di funzionalità originariamente identificate.
Dal momento che la validazione di GesTALt ha coinciso con l’annotazione di parte della
Treebank di SI-TAL, si è reso necessario anticipare le attività di raffinamento dei sistemi di
annotazione (A5.1, A5.2 ed A5.3) previste per la linea 1.3 alla linea 1.2. Ciò fondamentalmente al
fine di diminuire quanto più possibile l’inevitabile impatto sulla produttività degli annotatori
generato dall’uso di strumenti prototipali a supporto della produzione della risorsa linguistica.
Pertanto la prima versione prototipale di GesTALt è stata sottoposta, già durante tutto il periodo
dedicato alla validazione, non solo ad attività di manutenzione correttiva, ma anche a quelle di
D-39
Linea 1.2 - Treebank sintattico-semantica dell'italiano
manutenzione perfettiva ed adattativa secondo le indicazioni degli utenti. Ciò ha comportato la
produzione costante di nuove versioni di GesTALt nonché la codifica ex novo di un insieme di
componenti software, la cui produzione non era stata prevista nella specifica iniziale.
La tabella sottostante, riassume la sequenza di attività di sviluppo di GesTALt nell’ordine in cui
è stata realmente attuata durante la linea di ricerca 1.2 ed indica, inoltre, l’ordine in cui attualmente
si prevede di eseguire le attività rimaste per la linea 1.3.
5.2
Ordine
Attività
Linea
attuazione
1
A1.1, A1.2, A1.3, A1.4
1.2
2
A2.1, A2.2, A2.3
1.2
3
A3.1, A3.2, A3.3, A4.1, A4.2, A4.3, A5.1, A5.2, A5.3
1.2
4
A2.4
1.3
5
A3.4
1.3
6
A4.4
1.3
7
A5.4
1.3
di
Architettura di GesTALt
Il sistema GesTALt può essere pensato come la composizione di quattro sotto-sistemi distinti,
denominati SinTAS, FunTAS, SemTAS e ValTAS dedicati, rispettivamente, al supporto delle
attività di annotazione sintattica a costituenti, di annotazione sintattico–funzionale, di annotazione
semantico–lesscicale e di validazione della Treebank di SI-TAL.
Ognuno di detti sotto-sistemi raggruppa un ben definito insieme di componenti software i quali
interagiscono l’uno con gli altri in modo tale da fornire le funzionalità richieste dagli utenti.
I componenti software possono essere classificati come componenti comuni, nel caso in cui essi
siano condivisi da due o più sotto-sistemi, o come componenti specializzati, se essi sono utilizzati
da un unico sotto-sistema.
L’architettura generale di GesTALt comprende dunque l’insieme dei componenti comuni nonché
di quelli specializzati relativi a tutti i sotto-sistemi definiti. Tale architettura è descritta in Figura 1,
dove i componenti software sono rappresentati come rettangoli, mentre le interazioni tra essi sono
indicate mediante l’uso di frecce.
D-40
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Corpus Analizzato
Morfo-Sintatticamente
(XML Files)
Correzioni al Corpus
Analizzato
Morfo-Sintatticamente
(XML Files)
FunTAS
SinTAS GUI
SinTAS
SemTAS
GUI
GUI
GUI
FunTAS
SinTAS
SemTAS
ValTAS
Manager
Manager
MAnager
Manager
XML Loader
(Wrapper-In)
Wrapper-Out
GesTALt
OODB
Update Loader
Tree Loader
CorpusAnnotato
(XML Files)
Annotazioni
Sintattiche a Costituenti
(XML Files)
Figura 1 – Architettura Software di GesTALt
In maggior dettaglio, i componenti comuni ai vari sotto-sistemi sono:
− GestTALt – OODB. È la base dati orientata agli oggetti (la DBA, cfr.5) utilizzata per
immagazzinare all’interno di GesTALt l’intera Treebank di SI-TAL. Trattandosi di una base dati
orientata agli oggetti, ogni entità linguistica è trattata come un oggetto software che incorpora
quindi sia la struttura dati necessaria ad immagazzinare detta entità, sia l’insieme delle
interrogazioni necessarie per reperire informazioni ad essa relative.
− XML Loader (Wrapper-in). È il componente che provvede al caricamento dell’insieme di testi
analizzati morfo-sintatticamente di un dato corpus nel GesTALt – OODB. Detto componente
prende in ingresso un file in formato XML per ogni testo da introdurre.
− Wrapper-out. È il componente che provvede a produrre una rappresentazione XML delle
annotazioni contenute nel GesTALt – OODB. L’uso del formalismo XML permette di rendere la
Treebank di SI-TAL pubblicamente accessibile. Di fatti, le informazioni contenute in essa
possono essere “navigate” indipendentemente dalla disponibilità del sistema GesTALt,
mediante un qualsiasi XML compliant internet browser.
− Update Loader. È il componente che permette di apportare eventuali correzioni all’annotazione
morfo-sintattica di un corpus caricato nel GesTALt – OODB. Come nel caso dell’XML Loader,
anche l’Update Loader prende in ingresso file in formato XML.
I componenti specializzati relativi ai vari sotto-sistemi sono:
− Le interfacce grafiche utilizzate per le attività di annotazione sintattica a costituenti, sintattico–
funzionale e semantico–lessicale, nonché per quella di validazione (in Figura 1 denominati
rispettivamente FunTAS GUI, SinTAS GUI, SemTAS GUI e ValTAS GUI). Si noti che la
SemTAS GUI incorpora in sé la FunTAS GUI, la SinTAS GUI e la SemTAS GUI estendendone
inoltre le funzionalità.
D-41
Linea 1.2 - Treebank sintattico-semantica dell'italiano
− I componenti software responsabili dell’accesso al GesTALt – OODB e dell’invocazione delle
adeguate funzionalità delle interfacce grafiche di FunTAS, SinTAS, SemTAS e ValTAS. Tali
componenti sono denominati in Figura 1 FunTAS Manager, SinTAS Manager, SemTAS
Manager and ValTAS Manager, rispetivamente.
− Il Tree Loader, ovverosia il componente che consente di caricare nel GesTALt – OODB
annotazioni sintattiche a costituenti prodotte mediante software dedicato e rappresentate
mediante formalismo XML.
Identificati i vari componenti software, è possibile definire per grandi linee l’architettura di
ognuno dei sotto-sistemi di GesTALt come combinazione di uno o più componenti comuni e dei
suoi componenti specializzati, come specificato nella tabella di seguito riportata.
Sotto-Sistema
Componenti Comuni
Componenti Specializzati
SinTAS
GesTALt OODB
XML Loader
Update Loader
Wrapper Out
SinTAS GUI
SinTAS Manager
Tree Loader
FunTAS
GesTALt OODB
XML Loader
Update Loader
Wrapper Out
FunTAS GUI
FunTAS Manager
SemTAS
GesTALt OODB
XML Loader
Update Loader
Wrapper Out
SemTAS GUI
SemTAS Manager
ValTAS
GesTALt OODB
Wrapper Out
ValTAS GUI
ValTAS Manager
La versione di GesTALt attualmente sviluppata (versione 2.0) non comprende ancora
l’implementazione di tutti i componenti software previsti per il sistema. In particolare, la
produzione dei componenti ValTAS GUI, ValTAS Manager e Wrapper Out sarà intrapresa durante
la linea di ricerca 1.3 per le ragioni discusse nel paragrafo precedente.
Di contro, la rimanente parte dei componenti sviluppati può essere considerato in versione
pressoché definitiva, ed include inoltre due componenti (Update Loader e Tree Loader) la cui
produzione non era prevista dalla specifica iniziale.
In conclusione mettiamo in evidenza che GesTALt si presenta all’utenza come un pacchetto di
applicazioni software (cfr. §5) formata dai tre tool di annotazione (SinTAS, FunTAS e SemTAS),
dal tool di supporto alla validazione (ValTAS) e dall’insieme dei caricatori (XML Loader, Update
Loader e Tree Loader).
Per utilizzare GesTALt le seguenti risorse hardware e software sono richieste:
D-42
Linea 1.2 - Treebank sintattico-semantica dell'italiano
− Personal Computer con:
− Processore tipo Intel PII (minimo) o Intel PIII (consigliato)
− RAM 64 MB (minimo)
− Sistema operativo Microsoft® Windows NT4.0 SP4 (fortemente consigliato) o Microsoft®
Windows 9x.
− ODI® PsePRO (object-oriented dbms)
5.3
Funzionalità di GesTALt
Nei paragrafi seguenti si fornisce una sintetica descrizione delle principali funzionalità di
SinTAS, FunTAS e SemTAS, così come si presentano nella versione 2.0 di GesTALt.
5.3.1 SinTAS
SinTAS è l’applicazione fornita dal pacchetto GesTALt a supporto dell’attività di annotazione
sintattica a costituenti.
Tale attività ha lo scopo di fornire una rappresentazione sintattica di ogni frase appartenente ad
un corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o espressioni polilessicali) sono
morfo-sintatticamente analizzate. L’annotazione procede per frase così come queste sono presenti
nel testo. In fase di annotazione, il contesto della frase analizzata è necessario per prendere
decisioni di annotazione.
D-43
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Figura 2 – Interfaccia grafica di SinTAS
SinTAS mette a disposizione degli annotatori della struttura sintattica a costituenti funzionalità
per:
− Visualizzare:
− L’insieme dei testi di un corpus.
− Le frasi di un testo (e relativa annotazione morfologica).
− Una rappresentazione grafica della gerarchia di costituenti associati ad ognuna delle frasi di
un dato testo.
− Definire e modificare:
− Lo stato di annotazione di una frase.
− Costituenti semplici e complessi di una data frase di un testo, operando direttamente sulla
relativa rappresentazione grafica
La procedura di annotazione sintattica per costituenti prevista da SinTAS richiede innanzi tutto
la definizione da parte dell’utente di un insieme consistente di costituenti. Per ogni frase da
annotare, SinTAS genera un costituente semplice associato ad ogni parola morfologica, nonché un
costituente radice della gerarchia dei costituenti. Gli annotatori posso dunque introdurre nuovi
costituenti (sia semplici, sia complessi) aggregando o separando costituenti preesistenti e
specificandone il tipo. Nel caso dei soli costituenti complessi, è inoltre possibile indicare se esso sia
o meno una testa.
D-44
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Una volta che tutti i costituenti necessari all’annotazione di una data frase siano stati introdotti e
specificati, è possibile marcare l’annotazione di tale frase come completata, registrando così la data
di fine annotazione nella base dati di GesTALt.
Anche qualora l’annotazione di una frase sia stata marcata come completata, è sempre possibile
modificarla andando innanzitutto a riportane lo stato ad annotazione parziale e procedendo quindi
ai cambiamenti desiderati.
In Figura 2 è mostrata l’interfaccia grafica di SinTAS. Il pannello inferiore di tale interfaccia
contiene la lista delle frasi che occorrono in uno specifico testo, mentre il pannello superiore mostra
la rappresentazione grafica dell’annotazione a costituenti relativa alla frase selezionata nella lista.
5.3.2 FunTAS
FunTAS è l’applicazione fornita dal pacchetto GesTALt a supporto dell’attività di annotazione
sintattico-funzionale.
Tale attività ha lo scopo di fornire una rappresentazione funzionale di ogni frase appartenente al
corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o espressioni polilessicali) sono
morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso utilizzato come
sorgente per la annotazione a costituenti. L’annotazione procede per frase così come queste sono
presenti nel testo. In fase di annotazione, il contesto della frase analizzata è necessario per prendere
decisioni di annotazione e quindi deve essere accessibile all’annotatore (cioè visualizzato in forma
esplicita).
D-45
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Figura 3 – Interfaccia grafica di FunTAS
FunTAS mette a disposizione degli annotatori della struttura sintattico-funzionale funzionalità
per:
− Visualizzare:
− L’insieme dei testi di un corpus.
− Le frasi di un testo (e relativa annotazione morfologica).
− Il grafo delle relazioni funzionali relativo ad ogni frase di un dato testo.
− Definire e modificare:
− Lo stato di annotazione di una frase.
− Partecipanti funzionali non legati a parole operando direttamente sulla rappresentazione
grafica dell’annotazione.
− Relazioni funzionali tra i partecipanti operando direttamente sulla rappresentazione grafica
dell’annotazione.
La procedura di annotazione funzionale mediante FunTAS consiste fondamentalmente nella
definizione e specializzazione di relazioni funzionali tra partecipanti. Ad ognuna delle parole
morfologiche di una data frase, FunTAS associa un partecipante (generico, verbale o nominale in
funzione del relativo POS), mentre il compito di introdurre eventuali partecipanti associati a parole
vuote è lasciato all’annotatore, così come quello di creare relazioni funzionali tra partecipanti.
Ogni volta che una relazione funzionale è creata dall’annotatore, FunTAS provvede a
specializzare i partecipanti coinvolti in testa e dipendente. Come conseguenza di ciò, si possono
generare teste verbali, teste nominali, dipendenti verbali, dipendenti nominali oltre, ovviamente, ai
D-46
Linea 1.2 - Treebank sintattico-semantica dell'italiano
partecipanti, teste e dipendenti generici. Ad ognuno di essi FunTAS associa un insieme di tratti
caratteristici che possono quindi essere specificati dall’annotatore.
Una volta che tutte le relazioni funzionali di una data frase siano state create e si sia specificato il
tipo per ognuna di esse, è possibile marcare l’annotazione della frase in oggetto come completata.
Le annotazioni effettuate possono essere modificate in qualsiasi momento operando nello stesso
modo indicato nel caso di SinTAS.
In Figura 2 è rappresentata l’interfaccia grafica di FunTAS. Il pannello inferiore di tale
interfaccia mostra la lista delle frasi che relative ad un dato testo, mentre il pannello superiore
contiene la rappresentazione grafica dell’annotazione funzionale relativa alla frase selezionata nella
lista.
5.3.3 SemTAS
SemTAS è l’applicazione fornita dal pacchetto GesTALt a supporto dell’attività di annotazione
semantica.
Tale attività ha lo scopo di fornire una rappresentazione semantica per ogni parola piena
appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o espressioni
polilessicali) sono morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso
utilizzato come sorgente per la annotazione sintattica e funzionale. L’annotazione procede per unità
semantico-lessicale (ovvero un lemma o un gruppo di lemmi e relativo POS). In fase di annotazione
di una unità semantico lessicale, il contesto dell'annotazione è rappresentato da tutte le frasi del
corpus contenenti occorrenze di tale unità. Si desidera procedere annotando tutte le occorrenze di
una unità semantico-lessicale. Nell’analisi di una unità semantica semplice (corrispondente ad un
lemma e relativo POS), l’annotatore può decidere di costruire una unità semantica complessa
(composta di più lemmi non necessariamente contigui e relativo POS).
D-47
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Figura 4 – Interfaccia grafica di SemTAS
SemTAS mette a disposizione degli annotatori semantico-lessicali funzionalità per:
− Visualizzare:
− L’insieme delle unita semantiche che occorrono in un corpus
− Le frasi dei testi di un corpus in cui occorre una data unità semantica (e relativa annotazione
morfologica)
− Una rappresentazione grafica di ogni frase di un corpus e delle unità semantiche (semplici,
complesse o titolo) che occorrono in essa.
− Definire e modificare:
− Lo stato di annotazione di una frase
− Unità semantiche semplici, complesse o titolo operando direttamente sulla rappresentazione
grafica delle frasi
La procedura di annotazione semantico-lessicale prevista dall’uso di SemTAS si basa sulla
specifica dei tratti associati alle unità semantiche (semplici, complesse o titolo).
Al momento di iniziare l’annotazione dei testi di un corpus, SemTAS provvede ad estrarre un
primo insieme di unità semantiche semplici in base all’occorrenza di parole con specifici POS.
Dato però che tale insieme di unità semantiche è tipicamente insufficiente per il completamento
dell’annotazione, l’utente è libero di definire nuove unità semantiche (semplici, complesse o titolo)
secondo necessità operando direttamente sulla rappresentazione grafica delle varie frasi.
D-48
Linea 1.2 - Treebank sintattico-semantica dell'italiano
SemTAS permette inoltre di cancellare unità semantiche preesistenti sia nel caso in cui esse
siano create dall’annotatore che nel caso in cui siano create dal tool stesso. Infine è possibile variare
lo stato di annotazione di ognuna delle occorrenze di una data unità semantica marcandolo come
annotazione completata.
In Figura 4 è mostrata l’interfaccia grafica di SemTAS. Il pannello inferiore contiene la lista
delle unità semantiche che occorrono in un dato corpus (raggruppate lessicograficamente in base
alla prima lettera del relativo lemma) e quella delle frasi in cui l’unità semantica seleziona occorre.
Il pannello superiore contiene invece la rappresentazione grafica dell’annotazione semantica
relativa alla frase correntemente selezionata.
6 Valutazione Esterna
Durante questa seconda linea, l'attività di validazione della risorsa a cura di Synthema si è
incentrata nello sviluppo del primo prototipo, inteso come raffinamento di un sistema di traduzione
esistente: PeTra®.
In questo senso, sono state apportate alcune modifiche al sistema, prevalentemente volte al
completamento della copertura lessicale dei testi analizzati, facenti parte della porzione di corpus
specialistico della Treebank, secondo le modalità illustrate più nel dettaglio nel paragrafo 6.1.
Un'altra attività riguardante la validazione della risorsa prevista per la linea 1.2 doveva essere lo
sviluppo di uno strumento per la conversione dei risultati della annotazione, nel formato richiesto
per il loro utilizzo nell'arricchimento del sistema di traduzione selezionato. In accordo con gli altri
partners, si è invece preferito procedere allo sviluppo dello strumento previsto nella linea 1.3 (il
software per la misurazione) da utilizzare per il confronto del testo tradotto con il testo sorgente.
Tale scambio di attività non pone problemi di tempificazione, in quanto le stime relative allo
sviluppo di entrambe sono analoghe, ma agevola il lavoro dello sviluppatore nella fase di tuning del
sistema di traduzione, come viene descritto nel paragrafo 6.2.
6.1
Modalità di raffinamento del sistema di traduzione
Il raffinamento del sistema di traduzione, in questa fase volto principalmente all'analisi e, quindi,
al miglioramento della copertura, ha seguito principalmente tre linee:
a. Inserimento delle parole sconosciute
Questa modifica è stata realizzata a livello di dizionario, attraverso l'analisi morfo-sintattica
della parola risultata sconosciuta al sistema. Un termine così individuato è stato ricercato
all'interno dei file di ingresso della Treebank, dove sono riportate le annotazioni relative alla
forma in esame. In base alla POS così individuata, la parola è stata inserita nel dizionario
ampliando la classificazione con le informazioni morfologiche e sintattiche indispensabili
all'utilizzo della parola da parte del sistema.
b. Analisi delle espressioni polilessicali provenienti dall'annotazione morfologica
Nell'input della Treebank sono presenti espressioni polilessicali annotate come unica parola
morfologica. Per tali forme, la classificazione delle singole componenti non porterebbe alla
corretta analisi dei componenti frasali.
D-49
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Le forme polilessicali così individuate sono state esaminate e, quando opportuno, sono state
inserite nel dizionario utilizzato dal sistema di traduzione. Questa attività di aggiunta di
termini composti al dizionario ha richiesto una prima fase di analisi dei termini stessi: deve
essere evitato il rischio di bloccare il riconoscimento di una sequenza di parole se questa
viene utilizzata in contesti diversi da quello in cui la MWE occorre, come già illustrato nel
documento della prima linea.
c. Analisi delle espressioni polilessicali provenienti dall'annotazione semantica
Seguendo i criteri descritti al punto precedente sono state analizzate le forme polilessicali
provenienti dall'annotazione semantica. Tra le forme plausibili a livello di costruzione, sono
state individuate quelle aventi una rilevanza ai fini della traduzione e quindi formalizzate
all'interno del sistema per il raggiungimento di una corretta analisi e una corretta traduzione.
6.2
Strumento per la valutazione della traduzione
Il supporto per il valutatore è stato concepito come una interfaccia per il confronto e la
valutazione agevole dei risultati della traduzione, in relazione alle modifiche apportate al prototipo.
Il valutatore avrà la possibilità, come descritto nel seguito, di tenere aperti due documenti
contenenti il testo sorgente e il testo tradotto, ed un terzo documento contenente una tabella nella
quale riportare i risultati del confronto.
6.2.1 Logica di funzionamento
Il valutatore realizza il suo lavoro in due tempi: prima, confrontando il testo sorgente con la
traduzione ottenuta con il sistema originale; poi, confrontando il testo sorgente con la traduzione
ottenuta con il sistema modificato.
In entrambe le situazioni avrà quindi due documenti da confrontare e un terzo in cui riportare i
risultati del confronto. Il terzo documento, che da qui in avanti sarà identificato con 'Confronto.txt',
contiene una tabella costruita automaticamente in base alle caratteristiche del testo, con le seguenti
informazioni:
-
numero totale dei paragrafi presenti nel documento sorgente
-
4 colonne per la descrizione dei risultati, comprendenti le frasi corrette, le frasi con ambiguità,
le frasi errate, le frasi non tradotte
-
ognuna delle colonne precedenti partizionata in due colonne, per la traduzione ottenuta nei due
momenti
-
una riga per ogni paragrafo, per l'inserimento delle informazioni individuate dalle colonne
L'utente avrà quindi la possibilità di riportare nell'opportuna casella il risultato del confronto
relativo ad ogni singolo paragrafo.
I paragrafi da confrontare saranno inoltre evidenziati con uno sfondo grigio in modo da
agevolare il ritrovamento di quelli corrispondenti nei due documenti.
Per proseguire l'esame del testo, basterà premere il pulsante opportuno che provvederà ad
aggiornare la porzione di testo evidenziata, spostando lo sfondo grigio al paragrafo successivo.
D-50
Linea 1.2 - Treebank sintattico-semantica dell'italiano
6.2.2 Descrizione dettagliata dell'interfaccia
Si è scelto di realizzare un'interfaccia grafica come estensione di MS Word per l'ampia
diffusione di questo programma, in modo da evitare l'impatto del valutatore con un ambiente
applicativo sconosciuto. Questi si troverà, infatti, a lavorare in un ambiente noto agli utilizzatori
Microsoft, avendo in più le funzionalità realizzate in questo task.
L'interfaccia grafica a finestre è stata realizzata in MS Visual Basic for Application,
implementando una nuova barra degli strumenti che, inclusa in un nuovo modello di Word, risulta
di facile esportazione oltre che di immediato utilizzo.
Con l'importazione del modello, la nuova barra degli strumenti viene aggiunta alle barre standard
di MS Word, mettendo a disposizione 4 pulsanti:
a ciascuno dei quali sono associate le funzionalità seguenti:
Con questo pulsante si ottiene l'apertura dei due documenti di testo (sorgente italiano e testo
tradotto) e del documento, relativo ai due file, contenente la tabella del confronto.
Come prima azione, l'utente dovrà selezionare, attraverso una finestra di dialogo, il percorso
della cartella di lavoro in cui sono presenti i file da esaminare. Si assume che il file sorgente,
i due file delle traduzioni (prima e dopo le modifiche) e il file con la relativa tabella, debbano
essere tutti nella stessa cartella.
Il valutatore dovrà quindi scegliere se esaminare il file tradotto prima o dopo le modifiche, e
digitare il numero identificativo del file, indispensabile per individuare sia il file sorgente,
che i due tradotti, che la tabella loro associata. Il nome di ciascun file contiene per
convenzione un numero, utilizzato da tutti i partner, per identificare univocamente quel
documento, sia come testo che nelle sue diverse annotazioni.
Vengono quindi aperti i tre file dei quali solo per 'Confronto.txt' è abilitata la scrittura. Gli
altri due, infatti, sono aperti in sola lettura e le eventuali modifiche non potranno essere
salvate.
Dopo aver seguito questi passi è possibile iniziare il lavoro di confronto.
Questo pulsante permette di avanzare di un paragrafo, evidenziando il paragrafo successivo a
quello attualmente in esame. Come già accennato, per agevolare l'individuazione dei
paragrafi corrispondenti nel testo originale e in quello tradotto, il loro sfondo viene posto in
grigio. Il passaggio al paragrafo successivo avviene in entrambi i documenti da confrontare,
facilitando l'individuazione di quelli corrispondenti.
Tale pulsante permette di svolgere l'operazione inversa alla precedente, riportando lo sfondo
grigio sul paragrafo precedente.
Quest'ultimo pulsante provoca la chiusura dei tre documenti.
Nel seguito viene mostrata la tabella generata in un file di valutazione. Osservando le colonne è
facile comprendere i criteri da utilizzare per le frasi: corrette, imprecise, errate, non tradotte. Ogni
colonna è suddivisa in prima e dopo le modifiche per permettere la valutazione delle due traduzioni
D-51
Linea 1.2 - Treebank sintattico-semantica dell'italiano
corrispondenti, e per ottenere l'immediato riscontro dell'eventuale miglioramento della traduzione.
Le righe sono tante quante i paragrafi individuati, il cui numero complessivo è riportato nella prima
cella in alto a sinistra.
L'uso di questo strumento era inizialmente previsto nella quarta linea per le valutazioni finali, ma
anche in fase di modifiche al sistema di traduzione il suo uso è rilevante per comprendere l'entità
del miglioramento ottenuto in relazione alle modifiche apportate, seppur parziali.
11 paragrafi n° frasi n° frasi corrette
prima
dopo
par.1
par.2
par.3
par.4
par.5
par.6
par.7
par.8
par.9
par.10
par.11
n° frasi imprecise
Prima
dopo
D-52
n° frasi errate
prima
dopo
frasi non trad.
prima
dopo
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Riferimenti bibliografici
Delmonte R. (1999), From Shallow Parsing to Functional Structure, in Atti del Workshop AI*IA
"Elaborazione del Linguaggio e Riconoscimento del Parlato", IRST Trento, pp.8-19.
Delmonte R. (2000), Shallow Parsing And Functional Structure In Italian Corpora, LREC-2000
Proceedings, Athens, June 2000.
Hudson R., 1984, Word Grammar, Basil Blackwell, Oxford.
Marcus M., G. Kim, M.A. Marcinkiewicz, R. McIntyre, R. Bies, A. Ferguson, M. Katz, K.
Schasberger, 1994, “The Penn Treebank: Annotating predicate argument structure”, in
Proceedings of the Human Language Technology Workshop, March 1994, Morgan Kaufman
Publishers Inc., San Francisco, CA.
Montemagni S., Subject and Object in Italian Sentence Processing, PhD Thesis, University of
Manchester Institute of Science and Technology (UK), Centre for Computational Linguistics,
Settembre 1995.
Renzi L., Salvi G. (ed.), 1991, Grande grammatica italiana di consultazione, vol. 2, Il Mulino,
Bologna.
Schwarze C., 1995, Grammatik der italienischen Sprache 2. verbesserte Auflage, Max Niemeyer
Verlag, Tubingen.
Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi.
D-53
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Appendici
1. Elenco delle "sfeats"
2. Tabella comparativa "sfeats"-"mfeats"
3. DTD Ortografica
4. DTD Morfologica
5. Espressioni polilessicali del livello morfologico
D-54
Linea 1.2 - Treebank sintattico-semantica dell'italiano
ELENCO DELLE SFEATS
Nome
abbr
ag
agn
art
auag
auair
aueg
aueir
ausa
ausai
ause
ausei
ausep
avv
avvl
ccom
ccong
clit
clitac
clitabl
clitdat
cong
congf
conjl
cosu
cosul
da_riempire
date
deit
dim
dirs
equal
escl
fw
in
ind
int
intj
n
nc
neg
nf
nh
nt
np
Descrizione
abbreviazione
aggettivo
aggettivo nominale predicativo
articolo definito/indefinito
ausiliare "avere" gerundio
ausiliare "avere" modo/tempo irreale
ausiliare "essere" gerundio
ausiliare "essere" modo/tempo irreale
ausiliare "avere" tempo definito
ausiliare "avere" infinito
ausiliare "essere" tempo definito
ausiliare "essere" infinito
ausiliare "essere" participio passato
avverbio
locuzione avverbiale
congiunzione comparativa a livello di costituente
congiunzione di coordinazione e/o di comparazione a livello frasale
pronome clitico generico
pronome clitico accusativo
pronome clitico ablativo
pronome clitico dativo
congiunzione
congiunzione frasale
congiunzione locuzione
congiunzione subordinante
congiunzione subordinante locuzione
segno di punteggiatura per sospensione "..."
numero di data
pronome deittico
aggettivo dimostrativo
segno di punteggiatura ( : )
segno di uguale
pronome esclamativo
parola straniera
"intensifier"
quantificatore indefinito
pronome interrogativo
interiezione
nome
nome di colore
negazione
nome fattivo
nome umano - nome propri
nome temporale
nomi propri principalmente geografici
D-55
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Nome
npro
num
p
par
part
partd
partda
pd
pda
php
pk
poss
ppas
ppre
pron
pt
punt
puntint
punto
q
qc
qd
rel
relin
relob
relq
sect
slash
vc
vci
vcir
vcg
vcl
vgin
vgprog
vgs
vgsf
vgt
viin
vin
virin
virt
vit
vppc
vppin
vppt
vprc
vprin
Descrizione
nomi propri per organizzazioni, società e altro
numeri, numerali, nomi quantificatori numerali
preposizione
segno di parentetica: - ( ) "
preposizione articolata
preposizione articolata "di"
preposizione articolata "da"
preposizione "di"
preposizione "da"
preposizione in locuzione
complementatore "che"
aggettivo e pronome possessivo
participio passato assoluto
participio presente assoluto
pronome
particella verbale (a, ad, di, da)
segno di virgola
segni di punteggiatura non dichiarativa ( ? ! )
segno di punto e punto e virgola (. ;)
quantificatore
quantificatore collectivo
quantificatore distributivo
pronome relativo - include anche il "che"
relativo indefinito
relativo obliquo
relativo quantificatore
lettera o numero indicatore di sezione
segno "/"
verbo copulativo tempo definito
verbo copulativo infinito
verbo copulativo modo/tempo irreale
verbo copulativo gerundio
verbo con enclitico
verbo intransitivo gerundio
verbo intransitivo progressivo gerundio
verbo modale gerundio
verbo "fare" a recostruzione gerundio
verbo transitivo gerundio
verbo intransitivo infinito
verbo intransitivo tempo definito
verbo intransitivo modo/tempo irreale
verbo transitivo modo/tempo irrealis
verbo transitivo infinito
verbo copulativo participio passato
verbo intransitivo participio passato
verbo transitivo participio passato
verbo copulativo participio presente
verbo intransitivo participio presente
D-56
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Nome
vprog
vprogir
vprt
vsf
vsup
vsupir
vt
Descrizione
verbo progressivo
verbo progressivo modo/tempo irreale
verbo transitivo participio presente
verbo "fare" reconstruction
verbo modale
verbo modale modo/tempo irreale
verbo transitivo tempo definito
D-57
Linea 1.2 - Treebank sintattico-semantica dell'italiano
TABELLA COMPARATIVA SFEATS-MFEATS
S
SP
SW
n, nt, nc, nf, clit
nh, np, npro, abbr
nw, fw
V
tutti i tag sottostanti per i verbi
V@G
auag, aueg, vcg, vgin, vgprog, vgs, vgsf, vgt
V@GY
vcl
V@F
ausei, ausai, vci, viin, vit
V@FY
vcl
V@__IF aueir, auair, vcir, virin, virt, vprogir, vsupir
V@__I_ ause, ausa, vc, vin, vsup, vt, vprog
V@__C_ aueir, auair, vcir, virin, virt, vprogir, vsupir
V@__C_Y vcl
V@__D_ aueir, auair, vcir, virin, virt, vprogir, vsupir
V@__M_ aueir, auair, vcir, virin, virt, vprogir, vsupir
V@__M_Y
vcl
V@__PP ausep, vppc, vppin, vppt, vsf, ppas
V@__PR vprc, vprin, vprt, vsf, ppre
V@__PRY vcl
A
A@__S
AL
AL@__S
AP
AW
ag, ppas, agn, ppre, dim, ind, poss
ag
avvl, conjl, php
ag
poss
fw
P
PD
PD@NN
PE
PI
PP
PQ
PR
PT
pron
dim/deit, ag, pron
clit, clitabl, clitac, clitdat
escl
ind, q, qc, qd, ag
poss
pron, clit, clitac, clitdat, clitabl, poss, cosu
rel, int, relin, relq, pk, escl, relob
int, relq, pk, relin
T
q, qd, qc
D
DD
DE
DI
DR
DT
Uno di quelli sottostanti
dim, deit
escl, int, pk, q
q, qd, ind, qc, ag, pron
rel, relq
relin, int
RD
RI
art
art
D-58
Linea 1.2 - Treebank sintattico-semantica dell'italiano
B
BL
avv, avvl, in, neg, intj
avvl
E@
E@__
EL
p, pd, pda, php, pt
part, partd, partda
php
C
CC
CS
CCL
CSL
pk
ccom, ccong, congf
cosu, congf
conjl
conjl
N
NO
NP
num
num
poss
I
intj
@@
(proprio)
punt, punto, puntint, par, dirs
SA
abbr
PU
punt,par,punto,puntint,dirs,sect,slash,equal
D-59
Linea 1.2 - Treebank sintattico-semantica dell'italiano
DTD ortografica
<!-- wordtal2.dtd -->
<!-- Questa e' la DTD per il file ortografico che costituisce il file di
riferimento per l'annotazione morfosintattica in Treebank-->
<!-- by ILC Pisa -->
<!-- ultima modifica: 24.02.2000 -->
<!-- ABBREVIATIONS -->
<!ENTITY % ecommerciale "&">
<!ENTITY % virgolette """>
<!ENTITY % maggioredi ">">
<!ENTITY % minoredi "<">
<!ENTITY % apostrofo "'">
<!ENTITY % nonbreakingspace " ">
<!ENTITY % softhyphen "­">
<!ENTITY % id.att 'id ID #REQUIRED'>
<!ELEMENT word_file ANY>
<!ATTLIST word_file %id.att;>
<!ELEMENT corp EMPTY>
<!ATTLIST corp corpus (bil | fin)
#REQUIRED>
<!ELEMENT fonte (#PCDATA)>
<!ELEMENT data (#PCDATA)>
<!ELEMENT aut (#PCDATA)>
<!ELEMENT arg (#PCDATA)>
<!ELEMENT Tit2 (w+)>
<!ELEMENT Tit (w+)>
<!ELEMENT Tit3 (w+)>
<!ELEMENT som (w+)>
<!ELEMENT By (w*)>
<!ELEMENT body ANY>
<!ELEMENT w (#PCDATA)>
<!ATTLIST w case (low | allcaps | cap | mixed)
#IMPLIED
%id.att;>
<!ELEMENT par (w+ | (tabella | didasc)*)>
<!ATTLIST par %id.att;>
<!ELEMENT Tabella (w+)>
<!ELEMENT Cl (w+)>
<!ELEMENT Firma (w+)>
<!ELEMENT FirmaL (w+)>
<!ELEMENT Firmaop (w+)>
<!ELEMENT TabT (w+)>
<!ELEMENT Titb (w+)>
<!ELEMENT Descr (w+ | body?)>
<!ELEMENT Box (w+)>
<!ELEMENT Titbox (w+)>
<!ELEMENT Didasc (w+ | body? | par+)>
D-60
Linea 1.2 - Treebank sintattico-semantica dell'italiano
DTD Morfologica
<!-- mwordriveduta.dtd -->
<!-- Questa _ la DTD per l'annotazione morfosintattica di base come input per
TAL -->
<!-- by ILC Pisa -->
<!-- last modification: 15.02.2000 -->
<!-- ABBREVIATIONS -->
<!ENTITY % id.att 'id ID #REQUIRED'>
<!ENTITY % pos.att 'pos
(PU|A|AP|AW|B||C|CC|CS|DD|DE|DI|DR|DT|E|EL|I|N|NO|PD|PE|PI|PP|PQ|PR|PT|RD|RI|S|S
A|SP|SW|T|V|X) #REQUIRED'>
<!ENTITY % mfeats.att 'mfeats
(F|FN|FN3|FP|FP3|FPPR|FPPRY|FPS|FS|FS3|FSPR|FSPRY|FSS|FY|G|GY|MN|MP|MP3|MPPR|MPP
RY|MPS|MS|MS3|MSPR|MSPRY|MSS|NN|NN3|NP|NP1|NP2|NP3|NPPP|NS|NS1|NS2|NS3|NSPP|P1CI
|PCP|P1CP|P1DP|P1IF|P1II|P1IP|P1IR|P2CI|P2CP|P2DP|P2IF|P2II|P2IP|P2IR|P2MP|P2MPY
|P3CI|P3CP|P3DP|P3IF|P3II|P3IP|P3IR|S|S1CI|S1CP|S1DP|S1IF|S1II|S1IP|S1IR|S2CI|S2
CP|S2DP|S2IF|S2II|S2IP|S2IR|S2MP|S2MPY|S3CI|S3CP|S3CPY|S3DP|S3IF|S3II|S3IP|S3IR)
#IMPLIED'>
<!ENTITY % sfeats.att 'sfeats CDATA #IMPLIED'>
<!ENTITY % href.att 'href CDATA #IMPLIED'>
<!ENTITY % ecommerciale "&">
<!ENTITY % virgolette """>
<!ENTITY % maggioredi ">">
<!ENTITY % minoredi "<">
<!ENTITY % apostrofo "'">
<!ENTITY % nonbreakingspace " ">
<!ENTITY % softhyphen "­">
<!-- MORPHOLOGICAL WORD FILE LABEL -->
<!ELEMENT mword_file (mw+)>
<!ATTLIST mword_file %id.att;>
<!-- BASIC UNIT LABEL -->
<!ELEMENT mw (#PCDATA)>
<!ATTLIST mw lemma
CDATA
#REQUIRED
%id.att; %pos.att; %mfeats.att; %sfeats.att; %href.att;>
D-61
Linea 1.2 - Treebank sintattico-semantica dell'italiano
Espressioni polilessicali del livello morfologico
AL_PIU'_PRESTO#B@
AL_PIU'_TARDI#B@
AL_POSTO_DI#E@
AL_PUNTO_CHE#C@
AL_PUNTO_DA#E@
AL_PUNTO_DI#E@
AL_RIGUARDO#B@
AL_SICURO#B@
AMERICAN_BAR#S@
AMERICA_LATINA#SP@
AMNESTY_INTERNATIONAL#S@
ANCHE_SE#C@
ANCHOR_MAN#S@
ANCHOR_WOMAN#S@
ANGINA_PECTORIS#S@
ANTE_LITTERAM#A@
ANTE_REM#A@
ARBITER_ELEGANTIARUM#S@
AREA_CELSI#S@
AREA_MANAGER#S@
AREA_TEST#S@
ARS_DICTANDI#S@
ART_DIRECTOR#S@
ART_NOUVEAU#S@
ASSIEME_A#E@
ATTORNO_A#E@
AUT_AUT#S@
AVANTI_A#E@
A_BADA#B@
A_CASO#B@
A_CAUSA_DI#E@
A_CONDIZIONE_CHE#C@
A_DIROTTO#B@
A_DISAGIO#B@
A_DISMISURA#B@
A_DISPETTO#B@
A_DISPETTO_DEL_FATTO_CHE#C@
A_DISPETTO_DI#E@
A_DISPOSIZIONE#B@
A_DISPOSIZIONE_DI#E@
A_DIVINIS#A@
A_FATICA#B@
A_FAVORE_DI#E@
A_FERRO_E_FUOCO#B@
A_FIANCO#B@
A_FIANCO_DI#E@
A_FONDO_DI#E@
A_FORFAIT#B@
A_FORTIORI#A@
A_FRONTE_DI#E@
A_GALLA#B@
A_GATTONI#B@
A_GENIO#B@
A_GIOVAMENTO_DI#E@
A_LATO_DI#E@
A_MALAPENA#B@
A_MALE#B@
A'_LA_BELLE_ETOILE#A@
A'_LA_COQUE#A@
A'_LA_PAGE#A@
ACCANTO_A#E@
ACCOUNT_EXECUTIVE#S@
ACID_MUSIC#S@
ADDOSSO_A#E@
AD_ECCEZIONE_DI#E@
AD_ESCLUSIONE_DI#E@
AD_HOC#A@
AD_HONOREM#A@
AD_ONTA_DI#E@
AD_PERSONAM#A@
AD_QUEM#A@
AD_USUM_DELPHINI#A@
AD_VALOREM#A@
AGLI_SGOCCIOLI#B@
AGNUS_DEI#S@
AIR_TERMINAL#S@
AI_PIEDI_DI#E@
ALL'_INFUORI_DI#E@
ALL'_INTERNO_DI#E@
ALLA_CHETICHELLA#B@
ALLA_CIECA#B@
ALLA_FIN_FINE#B@
ALLA_LARGA#B@
ALLA_LARGA_DA#E@
ALLA_LEGGERA#B@
ALLA_LUNGA#B@
ALLA_PARI#B@
ALLEANZA_NAZIONALE#SP@
ALLE_CALENDE_GRECHE#B@
ALLE_SPALLE_DI#E@
ALLE_STRETTE#B@
ALLO_SCOPO_DI#E@
ALTER_EGO#S@
ALTO_ADIGE#SP@
AL_CHE#C@
AL_CONTEMPO#B@
AL_CONTRARIO#B@
AL_CONTRARIO_DI#E@
AL_COPERTO#B@
AL_CORRENTE#B@
AL_CORRENTE_DI#E@
AL_COSPETTO_DI#E@
AL_DISOPRA_DI#E@
AL_DI_FUORI#B@
AL_DI_FUORI_DI#E@
AL_DI_LA'#B@
AL_DI_LA'_DI#E@
AL_DI_SOPRA#B@
AL_DI_SOPRA_DI#E@
AL_DI_SOTTO#B@
AL_DI_SOTTO_DI#E@
AL_FINE_DI#E@
AL_LUMICINO#B@
AL_MEGLIO#B@
D-62
Linea 1.2 - Treebank sintattico-semantica dell'italiano
BABY_SITTER#S@
BALLON_DESSAI#S@
BAL_TABARIN#S@
BANANA_REPUBLIC#S@
BANANA_SPLIT#S@
BASE_LINE#S@
BASIC_ENGLISH#S@
BASTIAN_CONTRARIO#S@
BATCH_PROCESSING#S@
BEACH_VOLLEY#S@
BELLE_ARTI#S@
BELLE_EPOQUE#S@
BEST_SELLER#S@
BIG_BANG#S@
BIG_MATCH#S@
BLACK_POWER#S@
BLOCK_NOTES#S@
BLOUSON_NOIR#S@
BLUE_CHIPS#S@
BLUE_MOVIE#S@
BOAT_PEOPLE#S@
BODY_ART#S@
BODY_BUILDING#S@
BODY_COPY#S@
BONHEUR_DU_JOUR#S@
BONUS_MALUS#S@
BON_MOT#S@
BON_TON#S@
BOSSA_NOVA#S@
BOUNTY_KILLER#S@
BOW_WINDOW#S@
BOX_OFFICE#S@
BOY_SCOUT#S@
BRAIN_TRUST#S@
BRAND_IMAGE#S@
BRAND_MANAGER#S@
BREAKING_POINT#S@
BREAK_DANCE#S@
BREAK_EVEN_VOLUME#S@
BROWN_SUGAR#S@
BUEN_RETIRO#S@
BUILDING_AUTOMATION#S@
BUONI_UFFICI#S@
BUSINESS_CLASS#S@
BUSINESS_GAME#S@
BY_NIGHT#A@
CALL_GIRL#S@
CANDID_CAMERA#S@
CAN_CAN#S@
CAPITAL_GAIN#S@
CAPITE_CENSUS#S@
CAREER_GIRL#S@
CAREER_WOMAN#S@
CARPE_DIEM#S@
CASH_FLOW#S@
CASO_MAI#B@
CASUS_BELLI#S@
CEMENT_GUN#S@
CESSATE_IL_FUOCO#S@
CHECK_PANEL#S@
CHEMIN_DE_FER#S@
A_MALPARTITO#B@
A_MAL_PARTITO#B@
A_MENO_CHE#C@
A_MENO_DI#E@
A_MEZZ'_ASTA#B@
A_NOLO#B@
A_NORD_DI#E@
A_NORMA_DI#E@
A_OCCHIO#B@
A_OCCHIO_E_CROCE#B@
A_OLTRANZA#B@
A_PALLINO#B@
A_PARERE_DI#E@
A_PATATA#B@
A_PATTO_CHE#C@
A_PICCO#B@
A_PORTATA_DI_MANO#B@
A_POSTERIORI#B@
A_PRIORI#B@
A_PROPOSITO#B@
A_PROPOSITO_DI#E@
A_RAGGIERA#B@
A_RAGION_VEDUTA#B@
A_RAMENGO#B@
A_RAMPINO#B@
A_RAMPONE#B@
A_REMENGO#B@
A_RIDOSSO#B@
A_RIDOSSO_DI#E@
A_RILENTO#B@
A_ROTOLI#B@
A_ROTTA_DI_COLLO#B@
A_ROVESCIO#B@
A_SBAFO#B@
A_SECONDA_CHE#C@
A_SECONDA_DI#E@
A_SENSO#B@
A_SOQQUADRO#B@
A_SORPRESA#B@
A_SPANNE#B@
A_SPASSO#B@
A_SPECCHIO#B@
A_SPRON_BATTUTO#B@
A_STELLA#B@
A_STENTO#B@
A_SUD_DI#E@
A_SUFFICIENZA#B@
A_TASTONI#B@
A_TENTONI#B@
A_TENUTA#B@
A_TENUTA_STAGNA#B@
A_TERGO#B@
A_TERMINE#B@
A_TITOLO_DI#E@
A_TUTT'_OGGI#B@
A_UFO#B@
A_UN_DIPRESSO#B@
A_ZONZO#B@
BABY_BOOM#S@
BABY_DOLL#S@
BABY_MARKET#S@
D-63
Linea 1.2 - Treebank sintattico-semantica dell'italiano
DIETRO_MOTORI#A@
DISCO_MUSIC#S@
DISC_JOCKEY#S@
DI_CLICHE'#B@
DI_FIANCO_A#E@
DI_FILATO#B@
DI_FRONTE#B@
DI_FRONTE_A#E@
DI_LA'_DI#E@
DI_LATO#B@
DI_LATO_A#E@
DI_PRIMO_ACCHITO#B@
DI_QUANDO_IN_QUANDO#B@
DI_RADO#B@
DI_RIGUARDO#B@
DI_ROUTINE#B@
DI_SBIECO#B@
DI_SGHIMBESCIO#B@
DI_SICURO#B@
DI_SOLITO#B@
DI_SOPPIATTO#B@
DI_SOPRA#B@
DI_SOTTO#B@
DI_TRAVERSO#B@
DI_VOLATA#B@
DI_ZECCA#B@
DOLBY_SYSTEM#S@
DOPO_CHE#C@
DOPO_DI_CHE#C@
DOUBLE_EVENT#S@
DO_UT_DES#S@
DROP_SHOT#S@
DUNE_BUGGY#S@
DUTY_FREE_SHOP#S@
EDITIO_PRINCEPS#S@
ELAN_VITAL#S@
ENFANT_GATE'#S@
ENFANT_PRODIGE#S@
ENFANT_TERRIBLE#S@
EN_PLEIN#S@
EN_PLEIN_AIR#B@
ERGA_OMNES#A@
ESTREMO_ORIENTE#SP@
EST_EST_EST#S@
EXTENDED_PLAY#S@
EXTRA_COMUNITARIO#A@
EX_AEQUO#A@
EX_AEQUO#B@
EX_CATHEDRA#B@
EX_LIBRIS#S@
FACCIA_A_FACCIA#S@
FACCIA_LEI#S@
FAIRE_SUIVRE#S@
FAIR_PLAY#S@
FAI_DA_TE#S@
FAR_EAST#S@
FAR_WEST#S@
FAST_FOOD#S@
FATELO_DA_VOI#S@
FIBER_GLASS#S@
FILM_LOOP#S@
CHERRY_BRANDY#S@
CHEWING_GUM#S@
CHOW_CHOW#S@
CINEMA_DESSAI#S@
CIN_CIN#S@
CIO'_NONOSTANTE#B@
COLD_CREAM#S@
COLD_TYPE#S@
COME_SE#C@
COMMERCIAL_BILL#S@
COMMERCIAL_PAPER#S@
COMMON_LAW#S@
COMPACT_DISC#S@
COMPOS_SUI#A@
COMPUTER_ART#S@
COMPUTER_GRAPHICS#S@
COMPUTER_MUSIC#S@
COMUNITA'_EUROPEA#SP@
COMUNITA'_EUROPEE#S@
CONSECUTIO_TEMPORUM#S@
CONSUMER_BENEFIT#S@
CONTRO_DI#E@
COOL_JAZZ#S@
CORDON_BLEU#S@
CORPORATE_IMAGE#S@
CORPUS_DOMINI#S@
COSTA_D'_AVORIO#SP@
COSTA_RICA#SP@
COTTON_FIOC#S@
COUP_DE_FOUDRE#S@
COVER_GIRL#S@
COVER_STORY#S@
COW_BOY#S@
CREATIVE_WRITING#S@
CREME_CARAMEL#S@
CUBA_LIBRE#S@
CUI_PRODEST#S@
CULT_MOVIE#S@
CULT_OBJECT#S@
CURSUS_HONORUM#S@
CURTAIN_WALL#S@
D'_ACCHITO#B@
D'_IMPROVVISO#B@
DALAI_LAMA#S@
DAL_MOMENTO_CHE#C@
DARK_LADY#S@
DATA_BASE#S@
DAVANTI_A#E@
DAY_AFTER#S@
DAY_BOAT#S@
DAY_HOSPITAL#S@
DA_CHE_MONDO_E'_MONDO#B@
DEAD_HEAT#S@
DEFICIT_SPENDING#S@
DELIRIUM_TREMENS#S@
DEL_PARI#B@
DERNIER_CRI#S@
DESPATCH_MONEY#S@
DE_CUIUS#S@
DE_PROFUNDIS#S@
DIETRO_A#E@
D-64
Linea 1.2 - Treebank sintattico-semantica dell'italiano
GREEN_PEACE#SP@
GUEST_STAR#S@
HABEAS_CORPUS#S@
HAIR_STYLIST#S@
HAPPY_END#S@
HARD_BOP#S@
HARD_COPY#S@
HARD_ROCK#S@
HARD_TOP#S@
HARRIS_TWEED#S@
HEAVY_METAL#S@
HIC_ET_NUNC#B@
HIGH_FASHION#S@
HIGH_FIDELITY#A@
HIGH_LIFE#S@
HIGH_PERFORMANCE_COMPUTING#S@
HIGH_SCHOOL#S@
HIGH_SOCIETY#S@
HIGH_TECH#S@
HIT_PARADE#S@
HOME_BANKING#S@
HOME_BASE#S@
HOME_COMPUTER#S@
HOME_VIDEO#S@
HOMO_FABER#S@
HOMO_HABILIS#S@
HOMO_LUDENS#S@
HOMO_NOVUS#S@
HOMO_OECONOMICUS#S@
HOMO_SAPIENS#S@
HONG_KONG#SP@
HOTEL_GARNI#S@
HOTEL_MEUBLE'#S@
HOT_DOG#S@
HOT_JAZZ#S@
HOT_MONEY#S@
HOT_PANTS#S@
HOUSE_OF_LORDS#SP@
HULLY_GULLY#S@
HUMAN_RELATIONS#S@
HUNG_PARLIAMENT#S@
HURDLE_RACE#S@
HYSTERON_PROTERON#S@
ICE_FIELD#S@
ICE_YACHTING#S@
IL_SOLE_24_ORE#SP@
IMAGE_MAKER#S@
INCLUSIVE_TOUR#S@
INDUSTRIAL_DESIGN#S@
INDUSTRIAL_DESIGNER#S@
INNE_ONNE#S@
INSIDER_TRADING#S@
INSIEME_A#E@
INSIEME_CON#E@
INSTANT_BOOK#S@
INSTANT_FILM#S@
INSTANT_MOVIE#S@
INTELLIGENT_MANUFACTURING_SYSTEMS#S
@
INTERNAL_AUDITING#S@
INTERNAL_AUDITOR#S@
FINANCIAL_PAPER#S@
FINANCIAL_TIMES#SP@
FINE_SETTIMANA#S@
FINO_A#E@
FINO_A_CHE#C@
FINO_DA#E@
FINO_IN_FONDO#B@
FIN_DE_SIECLE#A@
FIOR_DI_PESCO#S@
FIRST_LADY#S@
FISCAL_DRAG#S@
FLIGHT_RECORDER#S@
FLOPPY_DISK#S@
FLOW_CHART#S@
FLYING_DUTCHMAN#S@
FLYING_JUNIOR#S@
FLY_AND_DRIVE#A@
FOLK_SINGER#S@
FOLK_SONG#S@
FORCE_DE_FRAPPE#S@
FORMA_MENTIS#S@
FORZA_ITALIA#SP@
FOX_TERRIER#S@
FREE_CLIMBER#S@
FREE_CLIMBING#S@
FREE_JAZZ#S@
FREE_LANCE#S@
FREE_RIDER#S@
FREE_SHOP#S@
FRINGE_BENEFIT#S@
FUGGI_FUGGI#S@
FUORI_DA#E@
FUORI_DI#E@
FUORI_PORTA#A@
FUOR_DA#E@
GAME_BALL#S@
GARDEN_PARTY#S@
GENERAL_MANAGER#S@
GENTLEMAN_DRIVER#S@
GENTLEMAN_RIDER#S@
GENTLEMENS_AGREEMENT#S@
GIN_FIZZ#S@
GIN_TONIC#S@
GIRL_FRIEND#S@
GIRO_VITA#S@
GIU'_DI_CORDA#A@
GIU'_DI_GIRI#A@
GIU'_DI_MORALE#A@
GIU'_DI_TONO#A@
GLOBAL_ENVIRONMENT_FACILITY#S@
GLOBE_TROTTER#S@
GOLD-EXCHANGE_STANDARD#S@
GOLDEN_DELICIOUS#S@
GOLD_CARD#S@
GOLD_STANDARD#S@
GRANDE_UNITA'#S@
GRAND_COMMIS#S@
GRAND_PRIX#S@
GRAN_BRETAGNA#SP@
GRAPHIC_DESIGN#S@
GRAZIE_A#E@
D-65
Linea 1.2 - Treebank sintattico-semantica dell'italiano
IN_VISIBILIO#B@
IN_VISTA#B@
IN_VISTA_DI#E@
IN_VOGA#B@
IPSE_DIXIT#S@
IRISH_COFFEE#S@
JAM_SESSION#S@
JET_LAG#S@
JET_POCKET#S@
JET_SET#S@
JET_SOCIETY#S@
JEUNESSE_DOREE#S@
JOINT_VENTURE#S@
JUMBO_JET#S@
JUMBO_TRAM#S@
JUNK_BOND#S@
KINGS_ENGLISH#S@
KNOW_HOW#S@
LAISSEZ_FAIRE#S@
LAMBS_WOOL#S@
LAME_DUCK#S@
LAND_ROVER#S@
LATIN_LOVER#S@
LAYOUT_MAN#S@
LA_REPUBBLICA#SP@
LEIT_MOTIV#S@
LEMME_LEMME#B@
LESA_MAESTA'#S@
LETTRE_DE_CACHET#S@
LEVERAGED_BUYOUT#S@
LIE_DETECTOR#S@
LIGHT_PEN#S@
LIVING_THEATRE#S@
LIVRE_DE_CHEVET#S@
LONGA_MANUS#S@
LONG_DRINK#S@
LONG_PLAY#A@
LONG_PLAYING#S@
LONG_SELLER#S@
LONTANO_DA#E@
LOVE_STORY#S@
LUNA_PARK#S@
LUNDA_DAI_CIUFFI#S@
MADE_IN_ITALY#S@
MAH_JONG#S@
MAIL_ORDER#S@
MAIN_MISE#S@
MAI_PIU'#B@
MAKE_UP#S@
MALA_CREANZA#S@
MALA_PARATA#S@
MANGIA_E_BEVI#S@
MAN_MANO_CHE#C@
MARE_MAGNUM#S@
MARRON_GLACE'#S@
MASS_MEDIA#S@
MATCH_BALL#S@
MATCH_POINT#S@
MATCH_WINNER#S@
MEDIA_EVENT#S@
MELTING_POT#S@
INTERNATIONAL_HERALD_TRIBUNE#SP@
INTER_VIVOS#A@
INTORNO_A#E@
INVECE_DI#E@
INVESTMENT_TRUST#S@
IN_AIUTO_DI#E@
IN_ALTERNATIVA_A#E@
IN_APPOGGIO_A#E@
IN_AUGE#B@
IN_AVANTI#B@
IN_BALLO#B@
IN_BASE_A#E@
IN_BILICO#B@
IN_BONACCIA#B@
IN_BRACCIO#B@
IN_BREVE#B@
IN_CASO_CHE#C@
IN_CIMA_A#E@
IN_CONFORMITA'_A#E@
IN_CONFRONTO_A#E@
IN_DIFESA_DI#E@
IN_DIPENDENZA_DI#E@
IN_DIREZIONE_DI#E@
IN_DISUSO#B@
IN_EFFETTI#B@
IN_ESSERE#B@
IN_EXTENSO#B@
IN_EXTREMIS#B@
IN_FIERI#B@
IN_FOGLIO#A@
IN_FOLIO#A@
IN_FORSE#B@
IN_FRETTA#B@
IN_GENERE#B@
IN_GIULEBBE#B@
IN_GRADO#B@
IN_GRADO_DI#E@
IN_LA'#B@
IN_LUOGO_DI#E@
IN_MERITO#B@
IN_MERITO_A#E@
IN_MEZZO_A#E@
IN_MODO_CHE#C@
IN_NUCE#B@
IN_PARAGONE_A#E@
IN_PARTICOLARE#B@
IN_PRIMIS#B@
IN_PROGRESS#A@
IN_QUANTO#C@
IN_RAPPORTO_A#E@
IN_RELAZIONE_A#E@
IN_RISALTO#B@
IN_SALVO#B@
IN_SEGUITO#B@
IN_SEGUITO_A#E@
IN_SOLLUCCHERO#B@
IN_SYLLABAM#A@
IN_TERMINI_DI#E@
IN_TESTA_A#E@
IN_TILT#B@
IN_TRANCE#B@
D-66
Linea 1.2 - Treebank sintattico-semantica dell'italiano
NON_PLUS_ULTRA#S@
NON_POSSUMUS#S@
NON_STOP#B@
NOUVEAUX_PHILOSOPHES#S@
NOUVEAU_ROMAN#S@
NOUVELLE_CRITIQUE#S@
NOUVELLE_CUISINE#S@
NOUVELLE_VAGUE#S@
NO_COMMENT#S@
NO_CONTEST#S@
NO_FROST#S@
NUCLEAR_CONTROL_INSTITUTE#S@
NUDE_LOOK#S@
NULLA_OSTA#S@
NUMERUS_CLAUSUS#S@
NUOVI_FILOSOFI#S@
OFFICE_AUTOMATION#S@
OLLA_PODRIDA#S@
OLTRE_A#E@
OLTRE_CHE#C@
OLTRE_CONFINE#A@
OLTRE_FRONTIERA#A@
OLTRE_MISURA#B@
OPEN_SPACE#S@
OPINION_LEADER#S@
OPINION_MAKER#S@
OPTICAL_ART#S@
OP_ART#S@
ORA_COME_ORA#B@
OR_ORA#B@
PAESI_BASSI#SP@
PARTITO_POPOLARE#SP@
PAR_CONDICIO#S@
PASO_DOBLE#S@
PATER_FAMILIAS#S@
PAY_BACK#S@
PERSONAL_COMPUTER#S@
PER_ADESSO#B@
PER_ARIA#B@
PER_BENE#B@
PER_CASO#B@
PER_CENTO#B@
PER_CERTO#B@
PER_DI_PIU'#B@
PER_ESEMPIO#B@
PER_INCISO#B@
PER_INTANTO#B@
PER_INTERO#B@
PER_L'_APPUNTO#B@
PER_LO_MENO#B@
PER_LO_PIU'#B@
PER_MEZZO_DI#E@
PER_QUANTO_CONCERNE#E@
PER_QUANTO_RIGUARDA#E@
PER_SEMPRE#B@
PER_TRAVERSO#B@
PHOTO_FINISH#S@
PHYSIQUE_DU_ROLE#S@
PIDGIN_ENGLISH#S@
PIED_A'_TERRE#S@
PITCH_PINE#S@
MERCHANT_BANK#S@
METTEUR_EN_DANCE#S@
METTEUR_EN_SCENE#S@
MINE_DETECTOR#S@
MINIMAL_ART#S@
MINIMAL_MUSIC#S@
MINUS_HABENS#S@
MODERN_DANCE#S@
MODERN_STYLE#S@
MODUS_OPERANDI#S@
MODUS_VIVENDI#S@
MOON_BOOT#S@
MORAL_HAZARD#S@
MOTOR_OIL#S@
MOUNTAIN_BIKE#S@
MULTILATERAL_STEEL_AGREEMENT#S@
MULTILATERAL_TRADE_ORGANIZATION#S@
MUSIC_HALL#S@
NATIONAL_ACADEMIC_RECOGNITION_INFOR
MATION_CENTRE#SP@
NATIONAL_RESEARCH_AND_EDUCATION_NE
TWORK#S@
NAZIONI_UNITE#SP@
NEI_CONFRONTI_DI#E@
NEI_DINTORNI#B@
NEI_DINTORNI_DI#E@
NEI_PARAGGI#B@
NEI_PARAGGI_DI#E@
NEI_PRESSI#B@
NEI_PRESSI_DI#E@
NEI_RIGUARDI_DI#E@
NELL'_ARCO_DI#E@
NELLE_PESTE#B@
NELLE_VICINANZE#B@
NELLE_VICINANZE_DI#E@
NEL_CASO_CHE#C@
NEL_CONTEMPO#B@
NEL_CORSO_DI#E@
NEL_FRATTEMPO#B@
NEL_QUADRO_DI#E@
NEL_RISPETTO_DI#E@
NEL_SENSO_CHE#C@
NEW_DEAL#SP@
NEW_ENTRY#S@
NEW_LOOK#S@
NEW_STYLE#S@
NEW_WAVE#SP@
NEW_YORK#SP@
NEW_YORK_TIMES#SP@
NEW_YORK_TIT#SP@
NIENTEMENO_CHE#C@
NIENTE_DI_MENO#B@
NIENTE_DI_MENO_CHE#C@
NIGHT_CLUB#S@
NIGHT_LINE#S@
NIHIL_OBSTAT#S@
NINNA_NANNA#S@
NOM_DE_PLUME#S@
NONOSTANTE_CHE#C@
NONOSTANTE_IL_FATTO_CHE#C@
NON_EXPEDIT#S@
D-67
Linea 1.2 - Treebank sintattico-semantica dell'italiano
SALES_MANAGER#S@
SALES_PROMOTION#S@
SALVO_CHE#C@
SANCTA_SANCTORUM#S@
SANTO_DOMINGO#SP@
SAN_VITTORE#SP@
SAVOIR_FAIRE#S@
SCHOLA_CANTORUM#S@
SCIENCE_FICTION#S@
SCIENCE_WRITER#S@
SELF-MADE_MAN#S@
SELF_CONTROL#S@
SELF_SERVICE#S@
SERBO_BOSNIACO#A@
SETTE_OTTAVI#S@
SET_BALL#S@
SET_POINT#S@
SEXY_STAR#S@
SEX_APPEAL#S@
SEX_SHOP#S@
SEX_SYMBOL#S@
SE_MAI#C@
SE_NO#C@
SE_NON_ALTRO#C@
SHOPPING_CENTER#S@
SHOW_BUSINESS#S@
SHOW_ROOM#S@
SINE_DIE#B@
SINE_QUA_NON#B@
SINKING_FUND#S@
SINO_A#E@
SITUATION_COMEDY#S@
SKI_STOPPER#S@
SLEEPING_CAR#S@
SLOT_MACHINE#S@
SNACK_BAR#S@
SOAP_OPERA#S@
SOFT_COPY#S@
SOFT_LANDING#S@
SOPRA_A#E@
SOTTO_A#E@
SOTTO_FORMA_DI#E@
SOUL_JAZZ#S@
SOUL_MUSIC#S@
SPACE_SHUTTLE#S@
SPARRING_PARTNER#S@
SPORT_FISHERMAN#S@
STANTE_CHE#C@
STAR_SYSTEM#S@
STATION_WAGON#S@
STATI_UNITI#SP@
STATUS_QUO#S@
STATUS_SYMBOL#S@
STATU_QUO#S@
STOCK_CAR#S@
SUI_GENERIS#A@
SUNCUS_ETRUSCUS#S@
SUNDAY_TIMES#S@
SUO_MALGRADO#B@
SUPERCOMPUTING_NETWORK_NEARER#S@
SURF_CASTING#S@
PIU'_IN_ALTO_DI#E@
PIU'_IN_LA'_DI#E@
PIU'_IN_SU_DI#E@
PIUTTOSTO_CHE#C@
PLUM_CAKE#S@
PLURALIS_MAIESTATIS#S@
POCKET_BOOK#S@
POCKET_COMPUTER#S@
POLE_POSITION#S@
PONY_EXPRESS#S@
POP_ART#S@
POP_MUSIC#S@
POP_SINGER#S@
POP_STAR#S@
POST_COURIER#S@
POST_MORTEM#B@
POST_SCRIPTUM#S@
POT_POURRI#S@
POWER_REACTOR_AND_NUCLEAR_FUEL_DEV
ELOPMENT_CORPORATION#SP@
PREPARATORY_SCHOOL#S@
PRESS_AGENT#S@
PRIMA_CHE#C@
PRIMA_DI#E@
PRIME_RATE#S@
PRIME_TIME#S@
PRIMUS_INTER_PARES#S@
PRODUCT_MANAGER#S@
PROJECT_MANAGER#S@
PRO_CAPITE#B@
PRO_TEMPORE#B@
PSICO_FISICAMENTE#B@
PUBLIC_RELATIONS#S@
PUBLIC_RELATIONS_MAN#S@
PUNCHING_BAG#S@
PUNCHING_BALL#S@
PUNCTUM_DOLENS#S@
PUR_SEMPRE#B@
PUR_TUTTAVIA#B@
QUANTO_A#E@
QUI_PRO_QUO#S@
RACING_TEAM#S@
RADICAL_CHIC#A@
RARA_AVIS#S@
RAT_MUSQUE'#S@
RAZ_DE_MAREE#S@
RC_AUTO#S@
REDDE_RATIONEM#S@
REFUGIUM_PECCATORUM#S@
REGNO_UNITO#SP@
RETOUR_MATCH#S@
RHYTHM_AND_BLUES#S@
RIGOR_MORTIS#S@
RISPETTO_A#E@
ROAD_MOVIE#S@
ROAST_BEEF#S@
ROCK_AND_ROLL#S@
ROCK_JAZZ#S@
ROLL_BAR#S@
ROOF_GARDEN#S@
SALES_ANALYSIS#S@
D-68
Linea 1.2 - Treebank sintattico-semantica dell'italiano
VALE_A_DIRE#B@
VALE_A_DIRE_CHE#C@
VAL_D'_AOSTA#SP@
VENTURE_CAPITAL#S@
VENTURE_CAPITALIST#S@
VIA_CRUCIS#S@
VICE_VERSA#B@
VICINO_A#E@
VIDEO_ART#S@
VISITING_PROFESSOR#S@
WALL_STREET#SP@
WALL_STREET_JOURNAL#SP@
WALT_DISNEY#SP@
WAR_GAME#S@
WATCH_LIST#S@
WATER_CLOSET#S@
WATER_POLO#S@
WAY_OF_LIFE#S@
WAY_TO_DO#S@
WEEK_END#SW@
WEST_GLOUCESTERSHIRE#S@
WEST_MIDLANDS#S@
WIND_SHEAR#S@
WORD_PROCESSING#S@
WORD_PROCESSOR#S@
WORK_IN_PROGRESS#S@
WORLD_TRADE_CENTER#S@
YORKSHIRE_TERRIER#S@
SUSSEX_RESEARCH_ASSOCIATES_LIMITED#S
@
SU_DI_GIRI#A@
TALENT_SCOUT#S@
TALK_SHOW#SW@
TAM_TAM#S@
TANTO_CHE#C@
TANTO_E'_VERO_CHE#C@
TANTO_VALE#C@
TAPE_MONITOR#S@
TAPE_RECORDER#S@
TAPIS_ROULANT#S@
TAP_DANCE#S@
TASK_FORCE#S@
TAXI_GIRL#S@
TE'TE_A'_TE'TE#S@
TEACHING_MACHINE#S@
TEAM_TEACHING#S@
TEDDY_BOY#S@
TEEN_AGER#S@
TEL_AVIV#SP@
THE_ECONOMIST#SP@
THE_TIMES#S@
THE_WEEKLY_MAIL#S@
TIE_BREAK#S@
TOMBEUR_DE_FEMMES#S@
TOP_CLASS#S@
TOP_MANAGEMENT#S@
TOP_MANAGER#S@
TOP_MODEL#S@
TOP_RATE#S@
TOP_SECRET#A@
TOP_SPIN#S@
TOP_TEN#S@
TOUR_DE_FORCE#S@
TOUR_LEADER#S@
TOUR_OPERATOR#S@
TOUT_COURT#B@
TOUT_LE_MEME#S@
TRADE_CENTER#S@
TRADE_MANAGER#S@
TRADE_UNION#S@
TRADING_COMPANY#S@
TRAIT_D'_UNION#S@
TRAIT_DUNION#S@
TRAN_TRAN#S@
TRENTINO_ALTO_ADIGE#SP@
TROBAR_CLUS#S@
TURN_OVER#S@
TUTT'_AL_PIU'#B@
TWIN_SET#S@
UNA_TANTUM#S@
UNIONE_EUROPEA#SP@
UNIONE_SOVIETICA#SP@
UNITED_KINGDOM#SP@
UNIVERSITY_OF_EAST_ANGLIA#SP@
UN_CHE#S@
UN_NON_SO_CHE#S@
UN_QUID#S@
UN_TANTO#S@
UP_TO_DATE#A@
D-69
Scarica