SI-TAL Rapporto Tecnico della Linea 1.2 Sviluppo Primo Prototipo Capitolo 4 Treebank sintattico-semantica dell’italiano ** Consorzio Pisa Ricerche - (CPR) Consorzio Venezia Ricerche - (CVR) Istituto Trentino di Cultura - Istituto per la Ricerca Scientifica e Tecnologica - (ITC-irst) Centro per la Ricerca, Sviluppo, Formazione nelle Tecnologie ed Applicazioni Informatiche - (CERTIA) Synthema Linea 1.2 - Treebank sintattico-semantica dell'italiano Sommario 1 INTRODUZIONE ..........................................................................................................5 2 ARCHITETTURA DELLA TREEBANK DI SI-TAL.......................................................5 3 INPUT DELLA TREEBANK DI SI-TAL ........................................................................6 3.1 Corpus ................................................................................................................................................................. 6 3.2 Modulo con l'annotazione ortografica.............................................................................................................. 7 3.3 Modulo con l'annotazione morfo-sintattica...................................................................................................... 8 3.3.1 Annotazione di parole ortografiche morfologicamente complesse ............................................................. 8 3.3.2 Annotazione di espressioni polilessicali ..................................................................................................... 9 3.4 Conversione dei materiali in formato XML................................................................................................... 10 4 SVILUPPO DELLE RISORSE LINGUISTICHE .........................................................11 4.1 Annotazione sintattica...................................................................................................................................... 11 4.1.1 Annotazione a costituenti.......................................................................................................................... 11 4.1.1.1 Metodologia di Annotazione................................................................................................................ 11 4.1.1.1.1Attività di etichettatura ed allineamento per produrre i valori da associarsi a "sfeats" ................... 12 4.1.1.1.2Attività di annotazione per costituenti sintattici.............................................................................. 12 4.1.1.1.3Attività di costruzione di tools per la verifica della consistenza..................................................... 13 4.1.1.2 Risultati ................................................................................................................................................ 13 4.1.1.3 Revisione e integrazione delle specifiche di annotazione .................................................................... 14 4.1.1.3.1SQ - sintagma quantificato.............................................................................................................. 14 4.1.1.3.2DIRSP - discorso diretto ................................................................................................................. 15 4.1.1.3.3F3 - frase frammento....................................................................................................................... 15 4.1.1.3.4CP_INT - frase interrogativa con aggiunti in inizio frase............................................................... 16 4.1.1.3.5FC utilizzato anche per altre tipologie di frasi ................................................................................ 16 4.1.2 Annotazione funzionale ............................................................................................................................ 17 4.1.2.1 Metodologia di annotazione................................................................................................................. 17 4.1.2.1.1La scelta dell'annotazione manuale................................................................................................. 17 4.1.2.1.2Annotazione completa .................................................................................................................... 19 4.1.2.1.3Annotazione per nuclei argomentali ............................................................................................... 20 4.1.2.2 Risultati ................................................................................................................................................ 21 4.1.2.3 Revisione delle specifiche e dei criteri di annotazione......................................................................... 22 4.1.2.3.1Revisione ed integrazione delle specifiche di annotazione ............................................................. 22 4.1.2.3.1.1 ..........................................................................................Forme verbali con pronomi riflessivi 22 4.1.2.3.1.2 .............................................................................................. Costruzioni con verbi impersonali 25 4.1.2.3.1.3 .................................................................... Estensione del dominio dell'attributo DEFINITEZZA 25 4.1.2.3.1.4 .................................................................................................................... Strutture coordinate 26 4.1.2.3.2Estensione dei criteri di annotazione .............................................................................................. 26 4.1.2.3.2.1 ................................................................................ Annotazione di frasi interrogative indirette 26 4.1.2.3.2.2 .................................................................................................................Cardinalità complessa 27 4.1.2.3.2.3 ........................................................................................ Annotazione di nomi propri composti 28 D-2 Linea 1.2 - Treebank sintattico-semantica dell'italiano 4.1.2.3.2.4 ..........................................................................Identificazione della testa in composti stranieri 28 4.1.2.3.2.5 ................................................................... Annotazione di costruzioni appositive di vario tipo 28 4.1.2.3.2.6 ................................................................................... Particolari casi di costruzioni predicative 29 4.1.2.3.2.7 ..............................................................................Annotazione degli incisi in testa agli articoli 29 4.1.2.3.2.8 ...........................................................................................Un caso particolare di congiunzione 29 4.1.2.3.2.9 ..................................................................................................................Costruzioni causative 29 4.1.2.3.3Problemi aperti in corso di studio ................................................................................................... 30 4.2 Annotazione semantico-lessicale ..................................................................................................................... 30 4.2.1 Metodologia di annotazione...................................................................................................................... 30 4.2.2 Risultati..................................................................................................................................................... 31 4.2.3 Revisione e integrazione delle specifiche di annotazione ......................................................................... 31 4.2.3.1 Integrazioni all'insieme dei valori associati agli attributi ..................................................................... 32 4.2.3.2 Revisioni ed integrazioni dei criteri di annotazione ............................................................................. 33 4.2.4 Interazioni all'interno del gruppo Treebank e con il tema ItalWordNet.................................................... 35 4.2.4.1 Interazione tra i siti in carico dell'annotazione semantico-lessicale ..................................................... 35 4.2.4.2 Interazione tra annotatori della Treebank e lessicografi di IWN.......................................................... 36 5 SVILUPPO DI GESTALT ...........................................................................................36 5.1 Processo di sviluppo del software.................................................................................................................... 37 5.2 Architettura di GesTALt ................................................................................................................................. 40 5.3 Funzionalità di GesTALt ................................................................................................................................. 43 5.3.1 SinTAS ..................................................................................................................................................... 43 5.3.2 FunTAS..................................................................................................................................................... 45 5.3.3 SemTAS.................................................................................................................................................... 47 6 VALUTAZIONE ESTERNA ........................................................................................49 6.1 Modalità di raffinamento del sistema di traduzione...................................................................................... 49 6.2 Strumento per la valutazione della traduzione .............................................................................................. 50 6.2.1 Logica di funzionamento .......................................................................................................................... 50 6.2.2 Descrizione dettagliata dell'interfaccia ..................................................................................................... 51 RIFERIMENTI BIBLIOGRAFICI....................................................................................53 APPENDICI ...................................................................................................................54 ELENCO DELLE SFEATS............................................................................................55 TABELLA COMPARATIVA SFEATS-MFEATS ...........................................................58 DTD ORTOGRAFICA ...................................................................................................60 DTD MORFOLOGICA ...................................................................................................61 D-3 Linea 1.2 - Treebank sintattico-semantica dell'italiano ESPRESSIONI POLILESSICALI DEL LIVELLO MORFOLOGICO..............................62 D-4 Linea 1.2 - Treebank sintattico-semantica dell'italiano 1 Introduzione L'obiettivo della linea di ricerca 1.2 del tema “Treebank sintattico-semantica dell’italiano” consiste nella creazione di un primo prototipo della Treebank, ed in modo particolare: • • • nello sviluppo di un primo nucleo della risorsa linguistica annotata ai livelli sintattici, a costituenti e funzionale, e semantico-lessicale; nello sviluppo di un prototipo del software GestTALt, ovvero del sistema di supporto all'annotatore e al validatore della risorsa; nello sviluppo di un primo prototipo del sistema di traduzione automatica finalizzato alla valutazione della Treebank nei suoi diversi livelli, con predisposizione di strumenti per la valutazione della risorsa. Il raggiungimento degli obiettivi sopra menzionati ha richiesto la preparazione dell'input su cui opera l'annotazione, in particolare: • la definizione delle modalità di rappresentazione in formato XML del corpus annotato morfosintatticamente con indicazione dell'organizzazione macrotestuale, e la messa a punto delle relative DTDs; • lo sviluppo di procedure software per la conversione dei materiali di input secondo quanto convenuto al punto precedente. Inoltre, le attività di addestramento all'annotazione e di annotazione vera e propria hanno fornito l'opportunità di validare le specifiche fornite per i singoli livelli di annotazione sviluppate nel corso della linea di ricerca 1.1 "Specifiche Tecniche"; in particolare, la copertura delle Specifiche dei vari livelli è stata estesa, sono state prese decisioni che erano rimaste aperte nella linea 1.1 ed i criteri di annotazione sono stati integrati sulla base della casistica incontrata nel corso dell'annotazione. In questo capitolo, il risultato della linea di ricerca 1.2 per quanto riguarda la Treebank sintatticosemantica della lingua italiana è illustrato in dettaglio. Nella sezione 2, l'architettura finale della Treebank è descritta brevemente. Segue, nella sezione 3, una descrizione dettagliata dell'input della Treebank. Nella sezione 4 è descritto lo sviluppo della risorsa linguistica, a sua volta articolato in diverse sottosezioni, ciascuna dedicata ad un livello di annotazione specifico: l’annotazione sintattica è descritta nella sezione 4.1 (l’annotazione a costituenti in 4.1.1 e l’annotazione funzionale in 4.1.2), mentre l’annotazione semantica nella sezione 4.2. Seguono una descrizione dello sviluppo del software di annotazione e browsing della Treebank (sezione 5) ed una descrizione delle procedure di valutazione messe a punto nel corso della linea (sezione 6). E' infine acclusa una sezione di Appendici, volta ad integrare le informazioni fornite nel documento: per quanto riguarda l'input della Treebank verranno forniti l'inventario completo dei tratti morfo-sintattici ("sfeats") ed una tabella di corrispondenze con i tratti morfologici, le DTDs relative ai moduli di annotazione ortografico e morfologico e l'inventario delle espressioni polilessicali di base. 2 Architettura della Treebank di SI-TAL Come ampiamente illustrato nel Deliverable 1.1 "Specifiche Tecniche", la Treebank di SI-TAL ha una struttura a tre livelli che copre i livelli di descrizione linguistica sintattico e semantico. L'annotazione sintattica è distribuita su due diversi livelli, indipendenti ma complementari: il livello dell'annotazione a costituenti ed il livello dell'annotazione funzionale. Il terzo livello riguarda D-5 Linea 1.2 - Treebank sintattico-semantica dell'italiano l'annotazione semantico-lessicale realizzata nei termini di etichettatura di senso aumentata con altri tipi di informazione semantica. I tre livelli di annotazione sono indipendenti gli uni dagli altri, e fanno tutti riferimento allo stesso input, ovvero al testo annotato morfo-sintatticamente: a questo livello l'annotazione include l'identificazione delle parole morfologiche, con specificazione della relativa parte del discorso e tratti morfo-sintattici associati, ed il trattamento di forme morfologicamente complesse (es. forme verbali con clitico) e di espressioni polilessicali di base. Il testo con etichettatura morfo-sintattica fa a sua volta riferimento ad un altro modulo di annotazione, il modulo di annotazione ortografica, che include informazione relativa alle parole ortografiche e all'organizzazione macrotestuale (ovvero strutturazione del testo in unità quali titolo, sottotitolo, didascalia, corpo dell'articolo, paragrafo, etc.). L'architettura della Treebank di SI-TAL è schematizzata nella figura che segue: INPUT Annotazione ortografica Annotazione sintattica Annotazione morfo-sintattica Annotazione a costituenti Annotazione semanticolessicale Annotazione funzionale 3 Input della Treebank di SI-TAL 3.1 Corpus La composizione interna del corpus della Treebank di SI-TAL è illustrata nella tabella che segue: Partizione corpus Finanziario Il Sole-24 Ore Bilanciato La Repubblica Bilanciato Fonte Origine Tokens Giornata del 25/5/1994 Articoli di vario argomento usciti tra il 1985 e il 1988 89941 Giornata del 15/7/1995 77808 Il Corriere della Sera Giornata del 7/8/1995 D-6 59945 57938 Linea 1.2 - Treebank sintattico-semantica dell'italiano Partizione corpus Bilanciato Fonte Origine Tokens Periodici: Casaviva Centocose Epoca Selezione di articoli usciti Espansione nell’anno 1988 Grazia Panorama Starbene Storia Illustrata Zerouno 19915 La porzione specialistica (finanziaria) del corpus della Treebank di SI-TAL è costituita dagli articoli estratti da Il Sole-24 Ore, per un totale di 89.941 parole (“tokens”). La rimanente parte, per un totale di 215.606 parole, costituisce il corpus “bilanciato”. In totale, la Treebank ha una copertura di 305.547 parole. Si noti che tabelle e figure contenuti degli articoli sono stati preventivamente esclusi dal corpus di riferimento, ad eccezione di tabelle contenenti materiale testuale. 3.2 Modulo con l'annotazione ortografica Il corpus della Treebank è organizzato in articoli. Per ogni articolo, il modulo di annotazione ortografica riporta l'informazione relativa alle parole ortografiche che costituiscono il testo e all'organizzazione macrotestuale. L'informazione relativa alle parole ortografiche include indicazione della presenza di caratteri maiuscoli/minuscoli con distinzione della seguente tipologia di casi: • • • • tutto minuscole tutto maiuscole maiuscola iniziale presenza sia di maiuscole sia di minuscole come in "OdG" Non si dispone dell'informazione relativa al carattere tipografico (neretto, corsivo) in quanto non era presente nella fonte. Per ogni articolo, l'informazione macrotestuale consiste nella seguente tipologia di informazioni: • • • • • • • • • • corpus di appartenenza, bilanciato o finanziario fonte, ovvero titolo del giornale o del periodico in cui è apparso l'articolo data articolo argomento autore/firma titolo principale mezzo titolo sottotitolo sommario D-7 Linea 1.2 - Treebank sintattico-semantica dell'italiano • • • • corpo del testo paragrafo didascalia tabella (solo quando contenente dati testuali) In appendice è riportata la DTD relativa al modulo di annotazione ortografica. 3.3 Modulo con l'annotazione morfo-sintattica Al livello morfo-sintattico, l'annotazione riguarda l'identificazione delle parole morfologiche del testo costituente l'articolo, con specificazione della relativa parte del discorso e tratti morfologici e morfo-sintattici associati. In questo caso, l'annotazione fa riferimento al modulo di annotazione del livello precedente, ovvero ortografico. Ogni parola morfologica viene descritta dai seguenti tratti: • parte del discorso ("pos"), la cui specificazione è obbligatoria; • tratti morfologici ("mfeats"), espressi tramite un codice sintetico che combina informazione di persona, numero, tempo, modo, etc; tale specificazione è opzionale, essendo limitata ai soli casi in cui è rilevante; • tratti morfo-sintattici ("sfeats") del tipo verbo transitivo, nome umano, etc. Si tratta di etichette volte a integrare l'informazione morfologica delle "mfeats", che permettono una annotazione in costituenti sintattici tale che ciascun costituente ha una propria identità semantica chiara, e facilmente relazionabile alle annotazioni funzionali a teste introdotte nel livello di analisi superiore. Questi tratti non erano presenti nella versione originaria dell'input della Treebank: la procedura di generazione di questi tratti è illustrata nella sezione 4.1.1.1.1 che segue. Si noti che, come nel precedente caso, tale specificazione è opzionale, essendo limitata ai soli casi in cui è rilevante; • lemma, la cui specificazione è obbligatoria. In Appendice, sono riportati l'inventario dei valori delle "sfeats" con, associato ad ogni etichetta, un commento esplicativo; i valori delle "mfeats" erano stati riportati in Appendice al Manuale delle "Specifiche Tecniche". Inoltre, sempre in Appendice, è riportata la tabella di corrispondenze "sfeats"-"mfeats": infatti, data la parziale sovrapposizione delle due classificazioni, era importante poterne verificare la compatibilità. La tabella è stata utilizzata nella verifica della coerenza delle due classificazioni in riferimento ai materiali annotati. L'annotazione a questo livello include anche il trattamento di forme morfologicamente complesse e di espressioni polilessicali di base, illustrato rispettivamente nelle sezioni 3.3.1 e 3.3.2. 3.3.1 Annotazione di parole ortografiche morfologicamente complesse Nell'annotazione di parole ortografiche morfologicamente complesse (ad es. forme verbali con clitico), la parola ortografica morfologicamente complessa è segmentata nei suoi elementi costitutivi. Nel caso delle parole contenenti elementi clitici (es. mangiarlo) due o più parole morfologiche (es. mangiare e lo) punteranno alla stessa forma ortografica. D-8 Linea 1.2 - Treebank sintattico-semantica dell'italiano Si consideri l'esempio che segue, che riporta la rappresentazione XML al livello ortografico e morfologico del segmento di frase pubblicandola a pagamento. Livello ortografico <w id="w_149" case="low"> pubblicandola </w> <w id="w_150" case="low"> a </w> <w id="w_151" case="low"> pagamento </w> Livello morfologico <mw id="mw_147" pos="V" mfeats="G" lemma="pubblicare" href="sole.orth015#id(w_149)"/mw> <mw id="mw_148" pos="PQ" mfeats="FS3" lemma="la" href="sole.orth015#id(w_149)"/mw> <mw id="mw_149" pos="E" lemma="a" href="sole.orth015#id(w_150)"/mw> <mw id="mw_150" pos="S" mfeats="MS" lemma="pagamento" href="sole.orth015#id(w_151)"/mw> Come si può notare, la forma verbale con clitico pubblicandola del livello ortografico (w_149), al livello morfologico è segmentata in due parole morfologiche (rispettivamente mw_147 e mw_148) i cui lemmi sono rispettivamente "pubblicare" e "la" e che fanno riferimento entrambe alla stessa unità ortografica, riportata come valore dell'attributo href (ovvero "sole.orth015#id(w_149)"). 3.3.2 Annotazione di espressioni polilessicali Nell'annotazione di espressioni polilessicali, la sequenza di parole ortografiche che compongono l'espressione polilessicale è annotata come un'unica parola morfologica. Le espressioni polilessicali annotate a questo livello sono sempre costituite da sequenze continue di parole ed includono: • espressioni del tipo ad_hoc, inter_nos, prima_facie, run_time, plug_and_play; • espressioni irregolari del tipo al_di_là, per_lo_più, alla_spicciolata, allo_scoperto, all'_impazzata; • locuzioni preposizionali del tipo in_funzione_di, fino_a, intorno_a. Le espressioni polilessicali di questo livello sono valide per tutti i livelli di annotazione della Treebank. L'annotazione sintattica e semantico-lessicale fa riferimento alle multi-words del livello base. Quindi fino_a sarà trattata e vista come preposizione e dunque come singola unità di annotazione da tutti i livelli. Vi sono altri tipi di espressioni polilessicali, come ad esempio avere_un'idea, fare_soldi, fare_esperienza, avere_familiarità così come consiglio_di_amministrazione che sono trattate come tali solo al livello semantico, ovvero la loro identità di espressioni polilessicali è introdotta solo al livello dell'annotazione semantico-lessicale. Segue un esempio di annotazione in formato XML di espressioni polilessicali. Si consideri la locuzione preposizionale al_di_là_di nel segmento di articolo un ruolo preciso al di là di quelli […]: D-9 Linea 1.2 - Treebank sintattico-semantica dell'italiano Livello ortografico <w <w <w <w <w <w <w <w id="w_256" id="w_257" id="w_258" id="w_259" id="w_260" id="w_261" id="w_262" id="w_263" case="low"> case="low"> case="low"> case="low"> case="low"> case="low"> case="low"> case="low"> un </w> ruolo </w> preciso </w> al </w> di </w> la' </w> di </w> quelli </w> Livello morfologico <mw id="mw_258" pos="RI" mfeats="MS" lemma="un" href="sole.orth008#id(w_256)"/mw> <mw id="mw_259" pos="S" mfeats="MS" lemma="ruolo" href="sole.orth008#id(w_257)"/mw> <mw id="mw_260" pos="A" mfeats="MS" lemma="preciso" href="sole.orth008#id(w_258)"/mw> <mw id="mw_261" pos="E" lemma="al_di_la'_di" href="sole.orth008#id(w_259)..id(w_262)"/mw> <mw id="mw_262" pos="PD" mfeats="MP" lemma="quello" href="sole.orth008#id(w_263)"/mw> All'intervallo di unità ortografiche w_259-w_262 corrisponde, al livello morfologico, un unico elemento, la parola morfologica mw_261 il cui lemma è "al_di_la'_di" a cui è associata l'interpretazione di preposizione (pos=E). La mw_261 fa riferimento, mediante l'attributo href, all'intervallo di parole id(w_259)..id(w_262) della rappresentazione ortografica dello stesso articolo. In appendice è riportato l'elenco delle espressioni polilessicali marcate a questo livello di base. 3.4 Conversione dei materiali in formato XML Nel rapporto "Specifiche Tecniche" (sezione 2.2) l'input della Treebank di SI-TAL veniva descritto come segue: La IL#RD@FS Mondadori MONDADORI#SP@NN ha AVERE#V@S3IP annunciato ANNUNCIARE#V@MSPR che CHE#CS@ il IL#RD@MS prossimo PROSSIMO#A@MS 26 26# N@ ottobre OTTOBRE#S@MS uscira’ USCIRE#V@S3IF in IN#E@ contemporanea CONTEMPORANEO#S@FS mondiale MONDIALE#A@NS il IL#RD@MS primo PRIMO#NO@MS libro LIBRO#S@MS scritto SCRIVERE#V@MSPR dalla DA#E@FS suora SUORA#S@FS D-10 Linea 1.2 - Treebank sintattico-semantica dell'italiano albanese ALBANESE#A@NS . .# @ Per passare dall'input in formato proprietario dell'Istituto di Linguistica Computazionale riportato, per convenienza del lettore, nel riquadro sopra al formato XML descritto nei precedenti paragrafi sono state messe a punto una serie di procedure software finalizzate a: 1. l'inserimento all'interno del testo annotato morfo-sintatticamente degli indicatori macrotestuali desunti dalla versione testuale degli stessi articoli; 2. l'identificazione all'interno del testo della tipologia di espressioni polilessicali rilevanti per il livello morfologico della Treebank di SI-TAL; 3. la conversione del risultato dei due passaggi precedenti in due moduli di annotazione separati – annotazione ortografica e annotazione morfologica - secondo il formato XML concordato. 4 Sviluppo delle risorse linguistiche 4.1 Annotazione sintattica 4.1.1 Annotazione a costituenti In questa sezione verrà illustrato il modulo di annotazione sintattica a costituenti. In particolare, l'esposizione verrà articolata nei seguenti punti: metodologia di annotazione (sezione 4.1.1.1); risultati raggiunti (sezione 4.1.1.2); revisione ed integrazione delle Specifiche di annotazione (sezione 4.1.1.3). 4.1.1.1 Metodologia di Annotazione L'annotazione a costituenti è stata effettuata in due fasi, prima una fase di pre-annotazione automatica il cui risultato è stato oggetto di revisione e correzione manuale; le analisi riviste e corrette sono state convertite in formato XML e caricate nella base di dati. Commentiamo qui di seguito le operazioni svolte nel dettaglio. Le attività svolte nei mesi che vanno dall'11 aprile, giorno in cui sono stati messi a disposizione i files in formato XML del corpus da annotare, ad oggi - cioè circa 3 mesi - si possono suddividere in tre attività principali: - attività di etichettatura ed allineamento per produrre i valori da associare all'attributo "sfeats"; - attività di annotazione per costituenti sintattici; - attività di costruzione di tools per la verifica della consistenza. Le due attività si sono basate sull'utilizzo di tools software intermedi che hanno permesso di procedere a continue revisioni e correzioni reciproche. D-11 Linea 1.2 - Treebank sintattico-semantica dell'italiano Illustriamo separatamente le procedure adottate nello svolgimento delle tre attività nonché le interazioni tra le stesse. 4.1.1.1.1 Attività di etichettatura ed allineamento per produrre i valori da associarsi a "sfeats" Questa attività è iniziata effettivamente solo nel momento in cui sono stati messi a disposizione i files morfologici in formato XML con le "mfeats". Il testo è stato annotato automaticamente con il tagger IMMORTALE (Delmonte 1999, 2000). Data la solo parziale coincidenza dell'inventario di espressioni polilessicali riconosciute da IMMORTALE rispetto all'inventario concordato all'interno del progetto per il livello morfologico, l'output del tagger è stato rivisto manualmente al fine di rendere la segmentazione in parole morfologiche compatibile e allineata con quella dei files di input. L'allineamento completo di ciascun file generato da IMMORTALE con l'input della Treebank è stato prodotto come segue: - trasformare una sequenza di tokens separati in un'unica parola polilessicale ed assegnare il sfeats corrispondente; - aggiungere dei tokens nel caso di verbi cliticizzati ed assegnare il sfeats adeguato; - spezzare le parole polilessicali identificate da IMMORTALE ma non conservate nel file XML di input, ed assegnare gli sfeats corrispondenti. Questa attività ha richiesto il lavoro di due persone per un mese di tempo. La seconda attività si è mossa contemporaneamente all'inizio della produzione dei file allineati e ha prodotto le prime strutture sintattiche a costituenti. Questo ha provocato nuove interazioni con i files di tokens etichettati ad sfeats: A. ha individuato etichette con sfeats sbagliati e ha permesso la loro correzione - gli errori potevano essere sia di carattere sostanziale, (l'etichetta assegnata non era quella giusta per il token in quel contesto), sia di carattere non sostanziale (errori manuali di scrittura dell'etichetta, sviste nella forma assegnata al termine token-sfeats-albero elementare che è la struttura in cui sono organizzati i files dell'annotazione a costituenti), s(per-p-sp, 10). s(la-art-sn, 1). s(ricorrenza-nt-sn, 1). s(del-partd-spd, 10). B. ha individuato errori nella procedura di allineamento e ha permesso la loro correzione; C. ha individuato errori nel testo originale e ha permesso la loro correzione. 4.1.1.1.2 Attività di annotazione per costituenti sintattici Questa attività è iniziata subito dopo Pasqua, nel momento in cui si sono creati i primi files allineati e corretti con gli sfeats. Le strutture in costituenti sono state prodotte da uno shallow parser (Delmonte 1999, 2000) in files in formato testo, con una parentesizzazione preliminare e non definitiva. D-12 Linea 1.2 - Treebank sintattico-semantica dell'italiano Lo shallow parser prende in ingresso il testo verticalizzato in tokens/sfeats e restituisce una struttura parentesizzata per ciascuna frase, o sequenza di tokens delimitata da punto, punto interrogativo, punto esclamativo. I files prodotti vengono poi ispezionati dagli annotatori sintattici, che provvedono a compiere manualmente le operazioni di aggiustamento della struttura richieste da ciascuna frase. Queste operazioni di aggiustamento all'inizio hanno permesso di mettere a punto lo shallow parser e di arricchire conseguentemente le strutture in uscita. Inoltre hanno permesso di individuare errori negli sfeats e nel testo. Gli annotatori hanno lavorato utilizzando un editor che permette il bilanciamento delle parentesi, e hanno poi creato un tool in Perl che permetta la visualizzazione in forma indentata e verticale delle strutture sintattiche, nonché la loro correzione e memorizzazione in forma compatta. La revisione dello shallow parser ha registrato continui aggiornamenti fino alla metà di giugno, quando è risultata chiara quale fosse la tipologia di strutture che richiedeva un intervento manuale specifico e non rientrassero nelle capacità del parser. La correzione manuale di strutture sintattiche parentesizzate è risultata essere fonte di molti errori, sostanziali e non. Questi errori hanno richiesto una revisione ulteriore di tutti i files attraverso un nuovo tool, un visualizzatore di strutture ad albero, che prende in ingresso le strutture parentesizzate e ne individua le eventuali malformazioni, sostanziali e non. Un ulteriore tool è stato creato per controllare la lunghezza dei files contenenti le strutture parentesizzare e quindi verificarne la consistenza, prima della loro traduzione in formato XML per il caricatore in GESTALT. 4.1.1.1.3 Attività di costruzione di tools per la verifica della consistenza Data la natura del compito - la costruzione di strutture sintattiche in costituenti, allo scopo di eliminare al massimo l'arbitrarietà dell'annotatore umano nella produzione delle analisi e nella loro corrispondente oggettivazione in strutture parentesizzate, è stato necessario costruire a parte tutti quegli strumenti software che sono indispensabili per qualsiasi operazione di costruzione di strutture dati, semplici o complesse, con procedimenti automatici, semi-automatici o manuali. La verifica della consistenza degli sfeats ha richiesto la creazione di tools adeguati all'ambiente XML in cui opera GESTALT, e nel cui formato sono stati formattati i files del Treebank. Abbiamo quindi creato uno strumento che simulasse il caricamento degli sfeats e ne verificasse la consistenza con gli mfeats. Lo strumento è stato costruito in JAVA e prende in ingresso i files XML con gli mfeats, e i files corrispondenti contenenti gli sfeats e procede quindi alla verifica della consistenza. Il risultato è un file di output. Questi files di output sono serviti per ritornare nelle strutture a costituenti e nei files di tokens per verificare la bontà delle scelte operate all'interno di programmi in PROLOG costruiti direttamente nello shallow parser. Questo ha inoltre permesso un'ulteriore verifica dell'allineamento e ha individuato ulteriori errori nel testo ortografico. 4.1.1.2 Risultati L'annotazione nel corso della linea 1.2 ha riguardato una prima porzione del corpus finanziario. A questo proposito dobbiamo segnalare una variazione rispetto a quanto dichiarato nel piano di D-13 Linea 1.2 - Treebank sintattico-semantica dell'italiano attuazione della linea 1.2 che specificava che l'annotazione a costituenti avrebbe riguardato sia una porzione del corpus bilanciato sia di quello finanziario. In considerazione del fatto che la valutazione della Treebank verrà condotta sul corpus finanziario, è stato deciso che sarà il corpus finanziario nella sua interezza ad essere annotato a costituenti (per un totale di circa 90.000 parole). In questo modo, la porzione di corpus oggetto di valutazione e validazione sarà completamente annotata a 3 livelli, a costituenti, al livello funzionale e semantico-lessicale. La situazione attuale è la seguente: 1. sono stati prodotti e completamente verificati gli SFEATS relativi ai primi 105 files (circa 60 mila tokens); 2. sono stati prodotte dagli SFEATS tutte le strutture sintattiche per tutti i 105 files; 3. sono quindi iniziate le attività di aggiustamento dei files che sono state seguite dalle attività di verifica circolari. Queste attività attualmente sono concluse per i primi 60 files, cioè per circa 30 mila tokens. Si pensa di poter concludere le verifiche per i rimanenti 55 files in settembre; 4. tutti i files sono comunque caricabili nella base di dati e sono stati consegnati come risultato della linea 1.2. 4.1.1.3 Revisione e integrazione delle specifiche di annotazione Sono stati aggiunti i seguenti nomi di costituenti: 4.1.1.3.1 SQ - sintagma quantificato Il sintagma quantificato può assumere diversi ruoli sintattici: può essere uno specificatore del Sintagma Nominale (SN), Sintagmi Avverbiale (SAVV), oppure del Sintagma Aggettivale (SA) come mostrato negli esempi in basso: sn-[n-livelli, coord-[sa-[sq-[q-dello, num-0/6%], ag-superiori, sp-[p-a, sn[deit-quelli, spd-[partd-del, sn-[nt-bimestre, ag-precedente]]]]], cong-e, sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccong-rispetto_all, sn-[aganalogo, nt-periodo, spd-[partd-del, sn-[num-1993] sn-[sq-[q-una, qd-delle, in-più], ag-importanti, n-zone, sa-[ag-costiere], fc-[ccom-del, sn-[n-Paese]] sq-[q-uno, qd-dei, num-primi], n-temi] sn-[sq-[ind-qualunque, q-altro], n-impiegato, sa-[ag-statale] sn-[sq-[in-oltre, num-10, num-mila], n-spot, savv-[p-in, avv-più]] savv-[savv-[avv-forse], sq-[art-un, in-pô], avv-prematuramente] Il Sintagma Quantificato può essere un complemento di verbi che reggono SN quantificati come mostrato nei seguenti esempi: ibar-[ause-è, vppin-sceso], compin-[sp-[part-nel, sn-[nt-mese, sa-[agcorrente]]], sq-[q-dell, num-1/1%]] D-14 Linea 1.2 - Treebank sintattico-semantica dell'italiano ibar-[vc-risulta], compc-[sq-[q-del, num-3/7%]]]], fc-[cong-ed, f-[ibar[ause-è, vppc-stato], compc-[sq-[q-del, num-4%]], sp-[p-in, sn-[nt-aprile] ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-2/1%]], ibar-[ause-sono, vppc-cresciute], compc-[sq-[q-del, sn-[num-13/5%]] ibar-[vc-sono, avv-oggi], compc-[sq-[in-più, q-di, num-700] ibar-[clit-si, vin-espande], compin-[sq-[q-del, sn-[num-15/8%] ibar-[vc-risulta], compc-[sa-[ppas-aumentato, sq-[q-dell, num-1/9%]], fc[ccong-rispetto_ai, sn-[num-primi, num-tre, nt-mesi, num-1993] ibar-[aueir-siano, ausep-stati, vppt-compressi], compt-[sq-[in-più, congdegli, q-altri]] ibar-[vc-è], compc-[sq-[in-solo, art-un, num-terzo], fc-[ccong-rispetto_a, Il SQ può essere un modificatore o aggiunto nelle strutture comparative come mostrato nei seguenti esempi, in cui è strettamente in relazione al sintagma chiamato DegP in ambito chomskiano, essendo quindi espressione di un sintagma di grado: sn-[art-un, n-incremento, fp-[punt-,, sp-[p-in, sn-[n-termini, sa-[agreali]]], punt-,], sq-[q-del, num-5/6%]] sq-[in-circa, num-15, num-mila, savv-[p-in, avv-più]] sa-[ag-maggiore, spd-[pd-di, sq-[in-più, cong-di, num-un, num-quinto, fc[ccom-del, sn-[n-voto ibar-[ause-è, vppin-aumentata], compin-[sq-[in-ben, cong-di, avv-più], fc[ccom-di, sn-[dim-quella, sa-[ag-teorica] 4.1.1.3.2 DIRSP - discorso diretto Questo costituente serve per contenere due frasi separate dal segno di punteggiatura ":". Questo segno è però ambiguo tra discorso diretto, discorso riportato, commento ecc., riportiamo qui un solo esempio: dirsp-[f-[sn-[art-il, n-traino, sa-[in-più, ag-consistente]], ibar-[vinviene], compin-[savv-[avv-sempre], spda-[partda-dalle, sn-[n-vendite, sp[part-all, sn-[n-estero]]]]]], dirs-:, f-[sn-[art-il, num-plus9/5%, ntendenziale, spd-[pd-di, sn-[nt-maggio]]], punt-,, sp-[p-contro, coord-[sn[art-il, num-6%, spd-[pd-di, sn-[nt-marzo]]], cong-e, sn-[art-il, num-7/4%, spd-[pd-di, sn-[nt-aprile]]]]], punto-.]] 4.1.1.3.3 F3 - frase frammento Questo costituente contiene frasi che non hanno un IBAR al loro interno, ovvero sono semplicemente dei costituenti di tipo nominale, avverbiale, preposizionale ecc. privi completamente di verbo. Casi tipi di strutture F3 sono i titoli. Includiamo alcuni esempi: f3-[sn-[npro-intersind, sa-[ag-pronta, sp-[part-al, sn-[poss-suo, n-ingresso, sp-[p-in, sn-[npro-confindustria]]]]]], punto-.] D-15 Linea 1.2 - Treebank sintattico-semantica dell'italiano f3-[congf-poi, sn-[art-l, n-approvazione, spd-[partd-del, sn-[n-programma, sp-[p-d, sn-[n-attività]], sv3-[ppas-presentato, compt-[sp-[part-alla, sn-[ngiunta]], sn-[art-il, num-4, nt-giugno]]]]]], punto-.] 4.1.1.3.4 CP_INT - frase interrogativa con aggiunti in inizio frase Questo costituente serve per marcare frasi interrogative che iniziano con aggiunti oppure congiunzioni frasali subordinanti o coordinanti, o ancora frasi interrogative frammento. cp_int-[sn-[n-Effetto, sn-[npro-Multiplex]], par-(-), fint-[sn-[int-Quali], f-[ibar-[vc-sono], compc-[sn-[art-gli, n-effetti, spd-[pd-di, sn-[dim-questa, n-concentrazione, sp-[p-tra, sn-[coord-[n-distribuzione, cong-ed, nesercizio]]]]]]]]], puntint-?] cp_int-[fc-[congf-Ma, savv-[avv-oggi], punt-,, sp-[p-con, coord-[sn-[art-i, n-cd_rom], cong-e, sn-[art-la, n-multimedialità]]], punt-,, f-[ibar-[vc-è], compc-[sn-[in-davvero, art-lo, ag-stesso, n-mestiere, spd-[pd-di, sn-[num500, nt-anni, savv-[avvl-fa]]]]]], puntint-?]], cp_int-[f3-[coord-[sn-[nt-fine, spd-[partd-delle, sn-[n-ambizioni]]], cong-o, sn-[ag-ennesimo, n-voltafaccia]], sp-[p-su, sn-[art-una, n-vicenda, f2-[sp[part-sulla, rel-quale], f-[sn-[np-mosca], sp-[part-negli, sn-[ag-ultimi, ntmesi]], ibar-[neg-non, ausa-ha, vppt-cessato], compt-[coord-[sv2-[pt-di, vitcambiare, compt-[sn-[n-posizioni]]], punt-,, sv2-[pt-di, vit-dire, compt[coord-[sn-[qc-tutto], cong-e, sn-[art-il, n-contrario, spd-[pd-di, sn-[qctutto]]]]]]]]]]]]], puntint-?] 4.1.1.3.5 FC utilizzato anche per altre tipologie di frasi Inoltre il costituente FC che prima serviva solo per le frasi coordinate ora include anche le seguenti tipologie: - frasi coordinate dalla punteggiatura come il punto e virgola; - frasi o costituenti ellittici coordinati da congiunzione comparativa che esemplifichiamo qui in basso. sa-[ag-invariato], fc-[ccong-rispetto_a, sn-[nt-febbraio] sa-[ag-superiore]], fc-[ccong-rispetto_a, sn-[art-un, nt-anno, savv-[avvlfa]] sa-[sq-[q-dell, num-1/1%, in-più], ag-alti, fc-[ccong-rispetto_all, sn-[aganalogo, nt-periodo, spd-[partd-del, sn-[num-1993] fc-[ccong-come, f-[ibar-[vt-chiedono], compt-[sn-[art-gli, n-ospedalieri] fc-[ccong-più, coord-[spda-[pda-da, sn-[n-nervosismo]], cong-e, spda-[partdadai, sn-[ag-normali, n-movimenti]]], cong-che, spda-[pda-da, sn-[art-un, ncambiamento, spd-[pd-di, sn-[n-vedute, sp-[part-sulle, sn-[n-prospettive, spd-[partd-del, sn-[n-rischio_italia] fc-[ccong-come, f-[ibar-[ausa-ha, vppt-spiegato], compt-[savv-[avv-ieri], sn[nh-mandela] fc-[ccong-come, f-[ibar-[clit-si, vt-vede], compt-[spda-[partda-dalla, sn-[ntabella] D-16 Linea 1.2 - Treebank sintattico-semantica dell'italiano fc-[ccong-come, sv3-[ppas-detto] fc-[ccong-rispetto_a, sn-[f2-[relq-quanto, f3-[sv3-[ppas-prodotto, compt-[sp[part-nella, ag-scorsa, sn-[nt-stagione] fc-[ccong-come, f-[sn-[n-logica], ibar-[virt-porterebbe], compt-[sv2-[sp-[pta, vit-dedurre] ibar-[ausa-ha, vppt-sottolineato], compt-[fc-[ccong-come, f-[sn-[art-il, nRegistro, spd-[partd-delle, sn-[n-imprese]]], ibar-[virt-marchi], compt-[sn[art-il, 4.1.2 Annotazione funzionale In questa sezione è illustrato il modulo di annotazione sintattico funzionale. In particolare, l'esposizione è articolata nei seguenti punti: metodologia di annotazione, descritta nella sezione 4.1.2.1; risultati raggiunti, illustrati nella sezione 4.1.2.2; revisione ed integrazione delle Specifiche Tecniche, dettagliate nella sezione 4.1.2.3. 4.1.2.1 Metodologia di annotazione A questo livello, l'annotazione è stata effettuata manualmente (sulle motivazioni a supporto di questa scelta metodologica si veda la sezione 4.1.2.1.1). In particolare, due diverse strategie di annotazione sono state messe a punto e realizzate: a) annotazione completa (illustrata nella sezione 4.1.2.1.2); b) annotazione per nuclei argomentali (illustrata nella sezione 4.1.2.1.3). La decisione di sperimentare, nella fase di sviluppo del primo prototipo, diverse strategie di annotazione risiede nel fatto che nell'ambito delle Specifiche era stato più volte ribadito che rimanevano questioni aperte che avrebbero richiesto un'attenta valutazione nella prima fase di annotazione, che si intendeva avrebbe anche condotto ad una prima verifica e convalida delle Specifiche proposte. Ad esempio, tra le questioni rimaste aperte si annoverano: 1. la definizione, per ogni singolo tratto associato alla testa e/o al dipendente, di valori di default; 2. la relazione tra l’annotazione morfo-sintattica (già inclusa al livello dell’input) e quella funzionale per quanto riguarda i tratti definiti come rilevanti per il livello funzionale ma già presenti nell’annotazione morfo-sintattica (ad esempio i tratti di genere e numero); 3. l’obbligatorietà/opzionalità della specificazione di ogni singolo tratto. Una valutazione attenta di queste questioni poteva essere condotta soltanto comparativamente, ovvero attuando diverse strategie di annotazione e valutandone i diversi risultati. 4.1.2.1.1 La scelta dell'annotazione manuale A questo livello, l'annotazione è stata effettuata manualmente. Le motivazioni che hanno portato ad escludere una pre-annotazione automatica del testo per questo livello sono state ampiamente discusse nel rapporto "Specifiche Tecniche" (nella sezione 5.1). Ricapitoliamo qui di seguito le D-17 Linea 1.2 - Treebank sintattico-semantica dell'italiano argomentazioni principali, che riguardano sia il tipo di schema di annotazione adottato sia le caratteristiche che sarebbero state richieste per il software di annotazione. Tra i fattori riguardanti lo schema di annotazione adottato per la Treebank di SI-TAL, vanno annoverati: le finalità di uso di una Treebank che impongono l'adozione di uno schema di annotazione che deve essere compatibile con un ampio spettro di schemi di annotazione effettivamente usati nell’ambito di sistemi di elaborazione del linguaggio. Questo requisito di compatibilità non è necessariamente soddisfatto dall’output di uno specifico analizzatore sintattico, che è inevitabilmente guidato da motivazioni di varia natura che vanno dall’architettura nella quale si inserisce alle finalità per le quali è stato sviluppato ecc. Quindi, le revisioni manuali di un output prodotto automaticamente non sarebbero state circoscritte alle analisi errate, ma avrebbero riguardato anche analisi corrette al fine di rendere l’output dell’analizzatore conforme allo schema di annotazione adottato; la difficoltà di gestire automaticamente certe distinzioni tra relazioni di dipendenza: o si consideri, come esempio, la distinzione tra argomenti e modificatori: tale distinzione è gestibile senza particolari difficoltà nell’ambito di analizzatori sintattici sulla base di un lessico di riferimento contenente informazione sulla sottocategorizzazione dei predicati. Questo non è altrettanto vero nel caso dell'annotazione di una Treebank; infatti, la difficoltà di questo compito è ripetutamente segnalata nella letteratura sulle Treebank (si veda, ad esempio, Marcus et al. 1994). Ciò deriva dal fatto che l’annotazione di una Treebank non prevede necessariamente il ricorso ad un lessico di riferimento: dietro a questa scelta stanno motivi di varia natura che vanno dalle risorse lessicali esistenti (che sono insufficienti per applicazioni su scala reale per copertura del lessico sia a livello di lemmi che di costruzioni sintattiche associate ad essi) al fatto che una Treebank è tipicamente usata anche per acquisire informazione di questo tipo per cui una proiezione preventiva delle interpretazioni possibili potrebbe interferire con i risultati attesi; o altro tipo di distinzione di non sempre facile applicazione nell'ambito di un'analizzatore sintattico dell'italiano è quella tra soggetto e oggetto: infatti, le caratteristiche dell'italiano come lingua che permette l'ellissi del soggetto e che mostra un ordine libero dei costituenti frasali rendono l'assegnazione delle relazioni di soggetto e oggetto un compito spesso difficoltoso se condotto sulla base della sola informazione sintattica (Montemagni 1995). In frasi del tipo la lettera che ha scritto la segretaria, non so chi abbia incontrato Maria, oppure affondarono due navi, l'assegnazione delle relazioni di soggetto e oggetto non può essere condotta solo sulla base di informazione sintattica, ovvero le informazioni di accordo non sono sufficienti per una corretta identificazione delle relazioni funzionali di soggetto e oggetto; in questi casi è necessaria informazione semantica sulle restrizioni di selezione associate alle posizioni argomentali dei predicati (nel primo caso) mentre nei successivi anche l'informazione semantica non è ancora sufficiente e deve essere integrata con la conoscenza del contesto. Data la frequenza di casi di questo tipo in testi reali, una pre-annotazione automatica avrebbe richiesto una revisione massiccia dell'output ottenuto. Inoltre, nella fase di elaborazione delle Specifiche, erano state anche valutate le difficoltà che analisi multiple, sia espresse in termini di “packed shared forest” (prodotta utilizzando la tecnica di “local ambiguity packing”) sia in termini di semplice lista di analisi alternative, avrebbero introdotto al livello del software di annotazione. Infatti, il tool di annotazione avrebbe dovuto essere in grado di gestire analisi ambigue (in termini di analisi multiple o compatte) sulle quali D-18 Linea 1.2 - Treebank sintattico-semantica dell'italiano l’annotatore avrebbe dovuto operare: i problemi derivanti dalla memorizzazione di analisi ambigue sono ben noti nel campo dei database sintattici (si rinvia a Van Halteren 1997 per una rassegna dei problemi e delle soluzioni proposte nella letteratura). Inoltre, nel caso di analisi multiple, si sarebbero dovute stabilire strategie per selezionare la base di pre-annotazione: nel caso di analisi alternative si sarebbero dovuti fornire criteri per l’identificazione dell’analisi più probabile; nel caso di rappresentazioni compatte (espresse in termini di “packed shared forest”) si sarebbe dovuta creare un’interfaccia per l’annotatore umano per la ricostruzione dell’analisi appropriata al contesto. Si è ritenuto che tutti questi sforzi andavano al di là delle finalità specifiche del tema Treebank e per questo motivo si è deciso di procedere ad un’annotazione completamente manuale. 4.1.2.1.2 Annotazione completa Per annotazione completa si intende un'annotazione che applica in modo completo ed esaustivo le Specifiche Tecniche fornite al termine della linea 1.1. La schermata che segue fornisce un'esempio di annotazione completa: La copertura dell'annotazione può essere verificata come segue: a parte elementi che sappiamo che a priori non entrano in relazioni di dipendenza (cioè elementi grammaticali quali i determinativi, gli ausiliari ed altri verbi in costruzioni perifrastiche quali i modali, i complementatori, le preposizioni, etc. così come la punteggiatura), tutte le unità testuali entrano in almeno una relazione di dipendenza, o come testa o come dipendente. A questo criterio di base, vanno aggiunte relazioni riguardanti: • soggetti “impliciti” di completive infinitivali con funzione di complemento in costruzioni a controllo e a sollevamento così come di infinitive, participiali e gerundive con funzione di modificatore, come illustrato dagli esempi che seguono: sogg (partire, Giovanni) Giovanni promise a Maria di partire sogg (partire, Maria) Giovanni ordinò a Maria di partire D-19 Linea 1.2 - Treebank sintattico-semantica dell'italiano sogg (partire, Maria) Maria fu costretta a partire sogg (arrivare, Giovanni) Giovanni sembra arrivare domani sogg (finire, Giovanni) Finito il lavoro, Giovanni partì sogg (finire, Giovanni) Giovanni partì presto per finire il lavoro • • soggetti “ellittici”, come nella frase ho mangiato due mele: sogg(mangiare, .<pers=1,num=sing>) altri casi di ellissi, ad esempio ellissi della testa verbale: Carlo legge il libro e Maria il giornale sogg(LEGGERE, Maria) Si noti che l'informazione relativa agli elementi che non sono annotati al livello di relazioni di dipendenza (ad esempio, determinativi e preposizioni) è riportata al livello dei tratti che descrivono i singoli elementi della relazione. La figura che segue riporta la descrizione associata al dipendente della relazione mod(annunciare, giorno) della frase annotata riportata sopra: la finestra illustra il dipendente nei giorni specificandone la definitezza ("+"), la preposizione che lo introduce (in) ed il ruolo semantico (temporale). 4.1.2.1.3 Annotazione per nuclei argomentali La seconda strategia di annotazione sperimentata nella fase di messa a punto del primo prototipo della Treebank di SI-TAL è la cosiddetta annotazione per nuclei argomentali. In questo caso, l'annotazione è parziale nel senso che i tratti che possono essere ereditati dall'input dell'annotazione o il cui valore coincide con quello di default non sono specificati. Inoltre, l'annotazione riguarda solo i nuclei argomentali di predicati. Un esempio di questo tipo di annotazione è riportato nella finestra che segue: D-20 Linea 1.2 - Treebank sintattico-semantica dell'italiano dove si può notare che le relazione di modificazione non sono state ancora annotate. Lo stesso vale per alcuni tratti della descrizione della testa e del dipendente. In questa fase di sviluppo della Treebank di SI-TAL l'annotazione per nuclei argomentali presenta una serie di vantaggi, elencati sommariamente di seguito: • questa strategia di annotazione permette un controllo più rigoroso della qualità dell'annotazione che verrà rivista ogni volta da almeno due annotatori: il primo annotatore effettuerà la prima fase di annotazione parziale; il secondo la completerà per renderla conforme a quanto illustrato nella precedente sezione e nel contempo rivedrà quanto annotato nella fase precedente; • in questo modo si raggiunge in minor tempo una maggiore copertura di testo, mettendo così in condizione di avviare il processo di validazione dei risultati acquisiti in tempi più brevi; infatti, anche se l'informazione relativa ai vari tipi di modificatori rimane ovviamente cruciale, buona parte della validazione riguarda l'annotazione dei nuclei argomentali (es. tipologia di complementi selezionati da un dato predicato); • per quanto riguarda i tratti rimasti sottospecificati al livello di questa modalità di annotazione, il completamento dell'annotazione manuale potrà essere effettuato con routines di post-processing, per l'assegnazione automatica di valori di default, oppure per l'eredità di informazione già codificata al livello morfo-sintattico. 4.1.2.2 Risultati L'annotazione funzionale nel corso della linea 1.2 ha riguardato innanzitutto il corpus finanziario, e si è poi estesa ad un sottoinsieme del corpus bilanciato, come dettagliato nella tabella che segue: D-21 Linea 1.2 - Treebank sintattico-semantica dell'italiano Partizione corpus Finanziario Il Sole-24 Ore Bilanciato La Repubblica Fonte Origine Giornata del 25/5/1994 Articoli di vario argomento usciti tra il 1985 e il 1988 Tokens annotati 89941 59945 per un totale di 149.886 parole ("tokens") annotate. Mentre la porzione di corpus bilanciato è stata annotata solo al livello dei nuclei argomentali, il corpus finanziario si ripartisce in due sottosezioni: una che è stata oggetto di annotazione completa (per questa partizione sono stati selezionati articoli che erano stati segnalati come tematicamente omogenei e dunque come prioritari ai fini della valutazione); l'altra che è stata oggetto di annotazione per nuclei argomentali. A questo proposito si segnala una variazione rispetto al piano di attuazione della linea 1.2 (e di conseguenza a quello della linea 1.3): infatti, i piani di attuazione prevedevano che l'annotazione funzionale del corpus finanziario sarebbe stata condotta nell'ambito della linea 1.3. Ciò presentava l'inevitabile svantaggio che per quanto riguarda il livello funzionale il corpus finanziario sarebbe stato disponibile solo alla fine della linea 1.3, ovvero quando la valutazione della Treebank - che viene circoscritta al corpus finanziario - doveva aver già raggiunto uno stadio avanzato. Al fine di rendere il corpus finanziario annotato ai tre livelli disponibile per la valutazione nel più breve tempo possibile, si è deciso di ridefinire la distribuzione dell'annotazione sintattica per il livello funzionale anticipando l'annotazione del corpus finanziario e posticipando di conseguenza l'annotazione del corpus bilanciato. 4.1.2.3 Revisione delle specifiche e dei criteri di annotazione Questa sezione raccoglie integrazioni e/o revisioni delle Specifiche di annotazione per il livello funzionale che sono emerse come necessarie durante il lavoro di annotazione e nella fase preparatoria di addestramento all'annotazione. L'esposizione è articolata in due parti: revisione delle Specifiche (sezione 4.1.2.3.1) e estensione dei criteri di annotazione (sezione 4.1.2.3.2). 4.1.2.3.1 Revisione ed integrazione delle specifiche di annotazione 4.1.2.3.1.1 Forme verbali con pronomi riflessivi Viene distinta la seguente tipologia di casi: • verbi riflessivi: il pronome riflessivo rappresenta un argomento del verbo con ruolo proprio e viene dunque posto in relazione di ogg_d con il verbo: es. Giovanni si guarda allo specchio ogg_d(guardare.<+rifl>, si) in questo caso la codifica dell'informazione avviene sia al livello della relazione di dipendenza che viene a stabilirsi tra il verbo ed il pronome riflessivo sia al livello dei tratti associati alla testa. D-22 Linea 1.2 - Treebank sintattico-semantica dell'italiano • verbi intransitivi pronominali: il pronome riflessivo non rappresenta un argomento del verbo ma appare obbligatoriamente insieme a certi verbi nei seguenti casi: o variante intransitiva di una parte dei verbi ergativi (es. capovolgersi, rompersi): in questo caso il pronome riflessivo è un semplice segnale dell'intransitività del verbo rispetto alla variante transitiva: La barca si è capovolta sogg (capovolgersi.<+ipron>, barca) o verbi inerentemente riflessivi, in cui il pronome riflessivo non convoglia nessun significato particolare (es. pentirsi, avvalersi) Giovanni si è pentito sogg (pentirsi.<+ipron>, Giovanni) o riflessivi apparenti, in cui il pronome riflessivo non convoglia nessun significato particolare (es. Giovanni si lava le mani) • "si" impersonale: si tratta di un uso non lessicalizzato in cui il "si" marca l'uso impersonale di un verbo che solitamente ammette un soggetto (es. si va, si pensa di arrivare domani). E’ possibile solo la forma di III persona singolare: Si va a casa obl (andare.<+impers_si>, casa.<intro=a>) Secondo alcune teorie, il "si" impersonale può essere considerato il soggetto vero e proprio della proposizione in cui compare. La nostra strategia di annotazione delle costruzioni impersonali consiste a) nello specificare l'uso impersonale del verbo (marcato dal "si") al livello della testa verbale come esemplificato sopra e b) nell'omettere la specificazione della relazione di soggetto (che rimane indefinito). • "si" passivante: si tratta di un uso non lessicalizzato in cui il "si" può essere visto come una marca della passività del verbo nella costruzione specifica: Si mangiano le mele / Le mele si mangiano sogg (mangiare.<+passivo_si>, mela) Quando nella costruzione con il "si" impersonale abbiamo un verbo transitivo con il suo complemento oggetto (es. si mangia le mele), esiste una variante in cui il complemento oggetto diventa soggetto del verbo (e quindi si accorda con esso). Il nuovo soggetto può trovarsi prima o dopo il verbo (si veda sopra). Il "si" passivante è possibile solo se il soggetto è di terza persona. Il si impersonale e passivante è, dal punto di vista sintattico, una cosa diversa rispetto alle costruzioni con pronome riflessivo. Le principali differenze sono le seguenti: a) mentre coi verbi passivi non ci possono essere pronomi riflessivi o reciproci, il "si" impersonale è possibile anche come soggetto di una frase passiva (es. si viene spesso dimenticati); b) se il complemento oggetto di un verbo transitivo è rappresentato da un pronome clitico (es. lo), questo precede il "si" impersonale (es. lo si spia da molto), ma segue il si riflessivo (se lo immagina). D-23 Linea 1.2 - Treebank sintattico-semantica dell'italiano Questa tipologia di informazioni richiederebbe l'inserimento di un nuovo tratto da associarsi alle teste verbali nello schema di annotazione funzionale della Treebank di SI-TAL. Considerate le difficoltà derivanti dall'inserimento di un nuovo tratto nella struttura dati in una fase in cui il processo di annotazione è ormai avanzato, abbiamo optato per una codifica transitoria che sfrutta tratti già presenti nella struttura dati. In particolare, alla lista iniziale dei valori di DIATESI sono stati aggiunti, lungo il corso dell’annotazione, anche i seguenti valori che sono stati marcati con # per indicarne la non diretta pertinenza rispetto all'attributo di cui costituiscono valore: 1. #rifl: questo valore marca i verbi riflessivi propri: 1. #rifl_app: questo valore marca i riflessivi apparenti; 2. #ipron: questo valore marca la variante intransitiva di una parte dei verbi ergativi ed i verbi inerentemente riflessivi: 3. #impers_si: questo valore marca la costruzione con “si” impersonale; 4. #passivo_si: questo valore marca la costruzione con “si” passivante: D-24 Linea 1.2 - Treebank sintattico-semantica dell'italiano In una fase successiva si danno due soluzioni per questa tipologia di casi: a) trasferire i valori preceduti da # come valori di un diverso attributo da introdurre nella struttura dati (soluzione più costosa anche se forse auspicabile dal punto di vista linguistico; b) revisione della stessa etichetta DIATESI, la quale potrebbe essere abbandonata per qualcosa di più ampio e meno specifico (soluzione meno costosa). 4.1.2.3.1.2 Costruzioni con verbi impersonali Le costruzioni con verbi impersonali (usati soltanto all'infinito e alla terza persona singolare) sono annotate come segue: Seguendo la strategia illustrata nella sezione precedente, all'attributo DIATESI viene associato il valore #impers; inoltre, come si osserva nell'annotazione della frase riportata sopra, viene omessa l'indicazione del soggetto in quanto non pertinente. 4.1.2.3.1.3 Estensione del dominio dell'attributo DEFINITEZZA DEFINITEZZA costituisce un tratto dello schema di annotazione il cui dominio di applicazione è troppo ristretto, in quanto è associato alla descrizione dei dipendenti nominali con parte del discorso uguale a "S" o "SP". Sarebbe invece utile estenderlo anche a dipendenti di tipo pronominale (per pronomi di tipo il quale, il cui etc.), numerale, aggettivale, e verbale (per trattare casi di nominalizzazioni, il 1994_n il bello_agg oppure nel vedere_v); questo vale anche nel caso il dipendente sia costituito da una abbreviazione. Ove possibile, questa informazione viene transitoriamente codificata al livello del tratto INTRODUTTORE marcando il valore come non appropriato (ovvero facendolo precedere da @), come illustrato nella figura che segue: D-25 Linea 1.2 - Treebank sintattico-semantica dell'italiano 4.1.2.3.1.4 Strutture coordinate Nel corso della linea 1.2 è stato dettagliato il trattamento della coordinazione per quanto riguarda i casi più complessi come sia … sia, né … né, tanto …quanto, così come costruzioni con congiunzioni avversative. La figura che segue illustra il trattamento di strutture coordinate complesse: Come nei casi precedentemente illustrati, l'informazione relativa alle congiunzioni coordinanti è riportata – almeno in questa fase – come valore dell'attributo INTRODUTTORE (appositamente marcato da @) associato al secondo elemento della struttura coordinata: nel caso entrambi gli elementi della struttura coordinata siano introdotti da una congiunzione, entrambe le congiunzioni sono riportate nella descrizione del secondo elemento separate da "_" come illustrato sopra. 4.1.2.3.2 Estensione dei criteri di annotazione 4.1.2.3.2.1 Annotazione di frasi interrogative indirette D-26 Linea 1.2 - Treebank sintattico-semantica dell'italiano Le interrogative indirette sono un tipo di frase argomentale che presentano un introduttore di subordinazione che non può mai essere omesso ed occupa la posizione iniziale: l'elemento introduttore è un sintagma interrogativo, comprendente un pronome, aggettivo o avverbio della serie interrogativa (chi, che cosa, come, quando, dove, perché, quale, quanto, etc.). La struttura a dipendenze associata a queste frasi nello schema di annotazione funzionale di SI-TAL segue le indicazioni della Word Grammar di Hudson (1984:84-85) ed è esemplificata negli esempi che seguono: Non so chi ha parlato sogg (sapere, <pers=1, num=sing>) arg (sapere, chi) mod (sapere, non) sogg (parlare, chi) So quando è partito sogg (sapere, <pers=1, num=sing>) arg (sapere, quando) sogg (partire, <pers=3, num=sing>) mod (partire, quando) come si può notare, l'elemento interrogativo è un dipendente condiviso da due teste, ovvero dal predicato reggente (il verbo nei casi sopra) così come dalla testa verbale della frase interrogativa. Mentre la seconda relazione di dipendenza appare scontata, la relazione tra il predicato reggente e l'elemento interrogativo non lo è. A favore di questo tipo di analisi c'è il fatto che l'elemento interrogativo può occorrere nella frase senza il resto della frase interrogativa: es. non so chi, non so quando. In questi casi la parola interrogativa non può che dipendere da sapere. Un altro argomento a favore di questo tipo di analisi sta nel fatto che il predicato reggente sottocategorizza per una frase interrogativa all'interno della quale la marca di interrogatività è associata all'elemento interrogativo che la introduce. Nel caso in cui l'elemento interrogativo sia costituito da un aggettivo, l'annotazione sarà come segue: Non so quale treno abbia preso sogg (sapere, <pers=1, num=sing>) mod (sapere, non) arg (sapere, treno) mod (treno, quale) sogg (prendere, <pers=3, num=sing>) ogg_d (prendere, treno) 4.1.2.3.2.2 Cardinalità complessa La maggior parte delle espressioni numeriche nell'uso reale del corpus non riportano la cifra come una espressione unica ma sono spesso riportate nei termini di espressioni del tipo “20 mila dollari”. Il problema di annotazione che si pone in questo caso riguarda il fatto se si dovesse fornire un'analisi interna di "20 mila" in termini di testa e dipendente. Considerata la tipologia di usi di cui D-27 Linea 1.2 - Treebank sintattico-semantica dell'italiano vuole essere suscettibile la Treebank di SI-TAL, si è deciso di ricorrere alla soluzione di annotare “dollari” con una cardinalità complessa di “20 mila”, come esemplificato dall'esempio che segue: 4.1.2.3.2.3 Annotazione di nomi propri composti Nel caso di nomi propri composti, espressi in termini di nome e cognome qual è il caso di “Lamberto Dini”, è stato stabilito che, per questioni inerenti il recupero di informazioni dalla base dati, la testa debba essere il cognome della persona, mentre il nome costituisca un modificatore del cognome stesso. Questo vale indipendentemente dall'ordine di apparizione di nome e cognome nel testo. 4.1.2.3.2.4 Identificazione della testa in composti stranieri Il caso di composti stranieri quali road show pone il problema di dover identificare la testa e il dipendente: la soluzione che è stata adottata è quella di utilizzare la conoscenza della lingua straniera che ha l’annotatore e stabilire che show è la testa e che road è il suo modificatore. Casi più complessi di annotazione di espressioni in lingua straniera sono ancora in corso di studio (si veda la sezione 4.1.2.3.3). 4.1.2.3.2.5 • Annotazione di costruzioni appositive di vario tipo Il neo ministro, Mario Rossi, ha deciso di dimettersi sogg (decidere, ministro) mod (ministro, neo) mod (ministro, Rossi) mod (Rossi, Mario) arg (decidere, dimettersi) • Elenco di istanze in costruzioni del tipo i seguenti indici: incremento … aumento … La strategia di annotazione che è stata decisa per il trattamento di questi casi consiste nel marcare le singole istanze che seguono i due punti come modificatori della testa nominale indici. D-28 Linea 1.2 - Treebank sintattico-semantica dell'italiano 4.1.2.3.2.6 Particolari casi di costruzioni predicative E' stato dettagliato il trattamento del verbo fare in costruzioni del tipo fare da autista a qualcuno e fare come uno sconosciuto con qualcuno. In Renzi (1991, pagg. 195-6), a proposito dei complementi predicativi viene messo in evidenza il fatto che “i verbi fungere, servire, fare possono essere seguiti da un compl. predicativo costituito dalla preposizione da e da un nome non articolato indicante una carica, una funzione”; si nota, inoltre, che al posto di da è possibile avere come. La strategia di annotazione adottata per questi casi è quella di creare una relazione di predicazione (pred) tra il verbo e il sostantivo che svolge il ruolo di predicato (fare e autista, fare e sconosciuto). Anche Schwarze (1995, pag. 122), propone una simile analisi, dal momento che raggruppa il verbo fare nella classe dei verbi copulativi e predicativi. 4.1.2.3.2.7 Annotazione degli incisi in testa agli articoli Per quanto riguarda gli incisi che si trovano all’inizio di molti articoli e che sono solitamente rappresentati da nomi di località o di città, è stato deciso che non vengono annotati, data la difficoltà di stabilire la natura della loro relazione con la frase che segue: può trattarsi della locazione dell'evento descritto nell'articolo, oppure del luogo della scrittura ma questo non può sempre essere inferito dal testo. 4.1.2.3.2.8 Un caso particolare di congiunzione Un caso particolare di congiunzione è quello che si osserva in espressioni del tipo 11 e 30, un chilo e mezzo. In questo caso la congiunzione e non viene trattata come congiunzione coordinante all'interno di una struttura coordinata; viene piuttosto annotata come l'introduttore di un modificatore, che è costituito da 30 e da mezzo nei casi riportati sopra. 4.1.2.3.2.9 Costruzioni causative Nello schema di annotazione funzionale di SI-TAL le costruzioni causative sono annotate come segue: Ho fatto applicare la legge sogg (fare, <pers=1, num=sing>) arg(fare, applicare) ogg_d(applicare, legge) Ho fatto fare qualche ricerca alla mia segretaria sogg (fare1, <pers=1, num=sing>) arg(fare1, fare2) sogg(fare2, segretaria) ogg_d(fare2, ricerca) mod(segretaria, mio) D-29 Linea 1.2 - Treebank sintattico-semantica dell'italiano Ho fatto partire la macchina sogg (fare, <pers=1, num=sing>) arg(fare, partire) sogg(partire, macchina) 4.1.2.3.3 Problemi aperti in corso di studio E' attualmente in corso di studio l'annotazione di: 4.2 • espressioni complesse in lingua straniera, quali quali Massachussets Institute of Technology o Bank of China, che pongono il problema - oltre dello stabilire quale sia la testa e quale il dipendente - anche dell'annotazione della preposizione of. Analogo problema si pone per l'annotazione dell'espressione Cagnotti and Partners, in particolare per quanto riguarda l'annotazione della congiunzione straniera; • costruzioni ellittiche complesse: in una frase del tipo la RAI partiva da un volume di 30 mila spot, la Fininvest di 127 mila l’ellissi non riguarda un singolo costituente bensì un segmento di frase; • espressioni comparative del tipo questo conta più di quello, per le quali non è ancora stata elaborata una strategia di annotazione dettagliata (infatti ad oggi i criteri di annotazione coprono in modo sistematico ed esaustivo solo la comparazione aggettivale). Annotazione semantico-lessicale 4.2.1 Metodologia di annotazione A differenza dei livelli di annotazione sintattica, l’annotazione semantico-lessicale sia del corpus bilanciato che di quello finanziario avviene per lemma. Si ricorda che la scelta di operare per lemma anziché per frase è stata operata fondamentalmente per garantire una maggiore uniformità nel trattamento dei singoli lemmi o delle espressioni semanticamente complesse e quindi con l’obiettivo ultimo di una maggiore coerenza di annotazione. L’annotazione ha preso avvio da una lista di lemmi comuni ad entrambi i corpus, concordata con i codificatori di ItalWordNet (IWN), i quali per garantire una migliore stabilità della risorsa di riferimento hanno ricontrollato i sensi dei lemmi in questione prima di darli in uso agli annotatori. All’interno di questa lista la scelta dei lemmi è avvenuta principalmente seguendo un criterio di frequenza dei lemmi stessi nei rispettivi corpora, ovvero a partire dai lemmi più frequenti in ognuno dei due corpora, finanziario e bilanciato. L’annotazione viene realizzata attraverso le seguenti operazioni (non rigorosamente in questo ordine): • scelta del lemma da annotare tra quelli presentati dal tool di annotazione, con riferimento alla lista dei lemmi comuni e sulla base della frequenza dei lemmi stessi; • consultazione della risorsa linguistica IWN per lo specifico lemma e registrazione dei sensi in essa previsti per quel lemma; D-30 Linea 1.2 - Treebank sintattico-semantica dell'italiano • consultazione del contesto in cui si trova il lemma da annotare per capire in quale senso è usato nello specifico contesto. Tale fase prevede innanzitutto la lettura e l’analisi della frase in cui il lemma in questione si trova, ma se necessario anche del paragrafo o addirittura dell’intero articolo che includono quella frase; • selezione della porzione di testo da annotare; può trattarsi del singolo lemma (ovvero di un'unità semantica singola) ma anche di unità semantiche composte. Si ricorda che alcune espressioni polilessicali sono già previste in input (es. ad hoc, di fronte a, personal computer, etc.) e trattate come tali fin dall’inizio a tutti i livelli di annotazione. Altre invece che hanno una valenza più strettamente semantico-lessicale (es. titoli di opere, programmi televisivi, libri, oppure nomi propri di persone, istituzioni, organizzazioni) e vengono introdotte solo a questo livello di annotazione; • assegnazione del senso appropriato all’unità semantica in questione (sia essa semplice, complessa o titolo) tra quelli previsti in IWN. Di fronte a lemmi o sensi mancanti in IWN è prevista una discussione tra annotatori e, se ritenuto necessario, una segnalazione al gruppo dei lessicografi di IWN. Nel caso in cui un lemma non figuri nella risorsa lessicale di riferimento (né nella partizione generica né in quella specialistica) perché non ritenuto idoneo, in corrispondenza del numero di senso si specifica il valore ‘no’. 4.2.2 Risultati L’annotazione semantico-lessicale fin qui condotta ha riguardato principalmente unità semantiche semplici indicanti nomi comuni ma anche nomi propri (soprattutto geografici) e in misura minore titoli ed espressioni polilessicali, per un totale di occorrenze pari a quanto sintetizzato nella seguente tabella: Tipo di Corpus Corpus bilanciato Numero di occorrenze annotate 12.000 Corpus specializzato (finanziario) Totale 8.000 20.000 Si noti che tale versione della Treebank è allineata con la versione di IWN che è stata consegnata agli annotatori all'inizio dell'annotazione. 4.2.3 Revisione e integrazione delle specifiche di annotazione Le modifiche alle specifiche del Manuale Operativo per il livello semantico-lessicale di annotazione hanno riguardato soprattutto due aspetti: • integrazione del set di valori specificati per alcuni attributi al fine di consentire l’annotazione di fenomeni semantici non previsti inizialmente (es. nomi propri polilessicali); D-31 Linea 1.2 - Treebank sintattico-semantica dell'italiano • revisione, sulla base di quanto riscontrato nei corpora, dei criteri di annotazione di alcuni fenomeni sematico-lessicali ed integrazione dei punti lasciati in sospeso inizialmente. 4.2.3.1 Integrazioni all'insieme dei valori associati agli attributi L'insieme di possibili valori associati all’attributo np (nome proprio) è stato integrato con ‘grup&luog’ (si veda tabella sotto) da assegnare ai nomi propri geografici (es. Francia) nei casi in cui non sono semplicemente intesi come luogo ma anche come gruppo-organizzazione (es. adoro la Francia, il sovrano d’Inghilterra). I valori possibili per l’attributo tipousc sono stati arricchiti (si veda i valori in grassetto nella tabella sotto) per consentire l’annotazione di nomi propri polilessicali (es. Nuova Zelanda, Stati Uniti d’America, Giulio Andreotti, Real Madrid, ecc.). Va detto che tali valori non sono del tutto appropriati all’attributo tipousc, tuttavia consentono l’annotazione di espressioni composte, mantenendo inalterata la struttura attuale dei dati, e facilitano il reperimento dei nomi propri composti. Il loro uso è previsto nel seguente modo: • np_pers: per nomi propri polilessicali che si riferiscono a persona (es. Giulio Andreotti); • np_grup: per nomi propri polilessicali che si riferiscono a istituzioni, organizzazioni o gruppo di persone (es. Real Madrid, Cassa di Risparmio di Torino); • np_man: per nomi propri polilessicali che si riferiscono a prodotto/manufatto (es. Fiat Cinquecento, Windows 98); • np_luog: per nomi propri polilessicali che si riferiscono a luogo (es. Nuova Zelanda; Stati Uniti d’America); • np_grup&luog: per nomi propri polilessicali ai quali non è possibile attribuire univocamente luogo o gruppo (es. la posizione della Repubblica di S. Marino è preferibile); • np: per nomi propri polilessicali che si riferiscono ad altri tipi di entità (es. Lotteria d’Italia, Festa dei Lavoratori). Nella seguente tabella, per ogni attributo sono riportate – marcate in grassetto - le integrazioni ai possibili valori. Tag Types Reading Number Tags/Features US ns=Sn, S1&S2, S1|S2, no_senso, no_lemma, no Yes D-32 USC yes UST yes Linea 1.2 - Treebank sintattico-semantica dell'italiano Tag Types Tags/Features US Lexical-semantic lem=LEMMA yes alter=dim, accr, dispr, vezz, sup, compar, other yes fig= metaf, meton, other yes np=pers, grup, luogo, man, grup&luogo, other yes Information tipousc=idioma, comp, vsup, np, np_pers, np_grup, np_luogo, np_man, np_grup&luogo, other USC yes nota=sn_indist, sn_inc yes yes yes yes tipot=semiotico, spettacolo, other Tagging Information UST Yes yes comm= stringa di commento 4.2.3.2 Revisioni ed integrazioni dei criteri di annotazione Relativamente ai punti del Manuale Operativo parzialmente specificati e/o lasciati in sospeso è stato deciso quanto segue: • Nomi propri: tutti i nomi propri vengono annotati secondo il tratto relativo definito nel Manuale Operativo e secondo le integrazioni ad esso riportate (vedi paragrafo precedente). Il numero di senso viene specificato solo nel caso in cui il nome proprio figura nel lessico generico o specialistico di IWN; negli altri casi viene assegnato il valore ‘no’. Per i nomi non attestati nel lessico può essere fatta una proposta di inserimento al gruppo di IWN. Più in particolare, relativamente all’annotazione dei nomi propri sono state prese le seguenti decisioni: - i nomi propri che si riferiscono a regioni, nazioni, paesi, città in generale ricevono la feature ‘np=luog’, se si tratta di unità semantiche semplici, o ‘tipousc=np_luog’, se si tratta di unità semantiche composte; invece i nomi propri indicanti montagne, fiumi, laghi ricevono un’etichetta più generica (‘np=np’ nel caso di unità semplici oppure ‘tipousc=np’ nel caso di unità complesse) giacché non indicano necessariamente un luogo (es. il Lago di Garda è il lago più grande d’Ítalia) - nei casi del tipo «re/ sovrano di ‘nome proprio geografico’» (es.: regina d’Inghilterra) a quest’ultimo è assegnata la feature ‘np=grup&luog’ o ‘tipousc=grup&luog’ perché ragionevolmente indica il paese/nazione sia in senso di luogo che di organizzazione. - nei casi invece del tipo «via / piazza / palazzo + nome proprio» (es. via XXV aprile) si adotta il seguente metodo: ‘via’ e ‘piazza’ sono annotati separatamente e il nome proprio che segue è etichettato in modo generico con ‘np=np’ o ‘tipousc=np’. Per quanto riguarda palazzo, si distinguono i casi in cui fa parte del nome proprio (es.: Palazzo di Giustizia, D-33 Linea 1.2 - Treebank sintattico-semantica dell'italiano Palazzo Pitti, Palazzo Madama) da quelli in cui può essere annotato separatamente (es. il palazzo del Quirinale) • Sigle e Acronimi: Il numero di senso viene specificato solo nel caso in cui la sigla o l’acronimo figurano in IWN; in caso contrario viene assegnato il valore ‘no’ oppure l’annotazione viene sospesa e formulata una proposta di inserimento al gruppo di lessicografi di IWN. Nel caso che la sigla o l’acronimo siano già presenti in IWN, l’annotatore fornisce al gruppo di IWN indicazioni di eventuali varianti ortografiche (es.: s.p.a., S.p.A., spa ecc.) non ancora incluse all'interno del "synset". • Parole straniere: tutte le parole straniere sono marcate nel campo ‘commento’ con l’etichetta ‘PSTR’ (parola straniera) per renderle facilmente reperibili e fondamentalmente per comodità dell’annotatore. • Titoli: vengono annotati come <ust la cui parte del discorso è SP e il cui tipo è ‘semiotico’. Il valore assegnato al numero di senso della <ust è ovviamente ‘no’ poiché essi non sono fanno parte della risorsa lessicale. Ricevono inoltre una doppia annotazione: una a livello dei singoli componenti e un’altra a livello dell’intera unità <ust. Va inoltre detto che alcuni titoli sono già previsti in input (es. La Repubblica, La Stampa) ma in fase di annotazione per uniformità di trattamento vengono comunque trattati come <ust (in questo caso formate da un’unica unità). • Espressioni polilessicali: il lemma dell’espressione può contenere eventuali preposizioni, articoli ecc. che fanno parte dell’espressione stessa (es. essere la chiave di volta). È stata anche considerata opportuna l’inclusione nell’unità <usc di eventuali modificatori avverbiali o aggettivali dei singoli componenti dell'espressione (es. gettare abbondantemente benzina sul fuoco, mettere i loro puntini sulle i, ecc.). Nel caso di modificatori di tipo aggettivale, essendo prevista la loro annotazione (si ricorda che l’annotazione semantico-lessicale riguarda nomi, verbi e aggettivi), la <usc che li include ottiene una doppia annotazione: come unità semantica complessa nella sua totalità e in corrispondenza dello specifico modificatore aggettivale. • Metonimia: per uniformità con il trattamento previsto per la metafora, anche nei casi di metonimia lessicalizzata è stata considerata la possibilità dell'assegnazione del tratto ‘fig=meton’. • Locuzioni: è stato previsto il seguente trattamento: • - locuzioni preposizionali del tipo per conto di: non si annotano semanticamente (né i singoli componenti né l’intera sequenza) ma si segnalano periodicamente a tutto il gruppo Treebank, secondo il protocollo di interscambio concordato; - locuzioni avverbiali del tipo in fretta e furia: non si annotano semanticamente (né i singoli componenti né l’intera sequenza) ma si segnalano al gruppo IWN per il loro inserimento nel lessico; - locuzioni aggettivali del tipo di gran conto: si segnalano al gruppo IWN e si annotano come ‘usc’ di tipo aggettivale. Assegnazione di numero di senso: come riportato nel Manuale Operativo, nel caso in cui risulti difficile o addirittura impossibile disambiguare tra due sensi di un lemma presenti nel lessico generalmente si adotta la disgiunzione o la congiunzione dei sensi, realizzando una loro combinazione attraverso un operatore logico. Tuttavia, per evitare l’uso frequente di tali operatori, in alcuni casi si ritiene opportuno non combinare i sensi bensì fare riferimento al D-34 Linea 1.2 - Treebank sintattico-semantica dell'italiano senso più generico. È questo il caso, ad esempio, del lemma “russo”, al quale sono associati in IWN 3 sensi distinti: - nativo della Russia abitante della Russia lingua dove la distinzione tra il primo ed il secondo senso è piuttosto sottile e non facilmente applicabile in casi del tipo “un operaio russo…”, di fronte ai quali è preferibile fare riferimento al senso più generico (russo = nativo della Russia). Più in generale, di fronte a casi di difficile interpretazione è preferibile che gli annotatori definiscano una strategia comune di interpretazione ed applicazione dei sensi. A tale scopo intensificano gli scambi di opinione e le discussioni tra di loro, fino a giungere ad un accordo o al più lasciando in sospeso il caso in attesa di ulteriori confronti ed una decisione definitiva. 4.2.4 Interazioni all'interno del gruppo Treebank e con il tema ItalWordNet Il lavoro fin qui svolto a livello di annotazione semantico-lessicale non si è limitato all’annotazione vera e propria, ma ha previsto uno studio nella fase preliminare e una messa in pratica durante la fase di annotazione delle seguenti operazioni: • • • organizzazione e messa a punto dei criteri di annotazione ai fini di: - convalidare e raffinare le strategie definite nel Manuale Operativo; - uniformare il più possibile le strategie di annotazione usate per i diversi corpora; pianificazione delle interazioni con il gruppo IWN per quanto riguarda: - organizzazione dell'annotazione in relazione allo stato dello sviluppo della risorsa; - integrazione di IWN con sensi e/o lemmi attestati nel corpus ma non inclusi nella risorsa allo stato attuale; - discussione di sensi dubbi relativi a lemmi previsti in IWN e riscontrati nei corpora; valutazione delle funzionalità previste dal tool GesTALt per questo livello di annotazione. 4.2.4.1 Interazione tra i siti in carico dell'annotazione semantico-lessicale L'annotazione semantico-lessicale è suddivisa come segue: • CPR: corpus bilanciato; • IRST: corpus finanziario. Al fine di garantire coerenza di annotazione al livello semantico-lessicale tra annotatori diversi è stato stabilito quanto segue: - interscambio frequente delle espressioni polilessicali (idiomatiche, composti e espressioni con verbo supporto) individuate all’interno degli specifici corpora; D-35 Linea 1.2 - Treebank sintattico-semantica dell'italiano - interscambio (con scadenze periodiche definite di volta in volta) delle proposte di variazione della risorsa lessicale di riferimento, finalizzato alla definizione di una lista congiunta e concordata di modifiche da proporre al gruppo di IWN; - definizione di una strategia di annotazione comune in relazione ai punti del Manuale Operativo lasciati in sospeso (es. il trattamento della metonimia e delle parole straniere) o in corrispondenza di casi dubbi o particolarmente difficili (es. espressioni polilessicali, nomi propri composti, etc.). 4.2.4.2 Interazione tra annotatori della Treebank e lessicografi di IWN L’interazione tra annotatori della Treebank e i lessicografi di IWN ha preso avvio dalla definizione della lista di lemmi comuni alle due partizioni del corpus (finanziaria e bilanciata) . Per la comunicazione agli annotatori di eventuali cambiamenti rilevanti dal punto di vista dell’annotazione, apportati successivamente al sottoinsieme di lemmi concordati, è stato definito un protocollo di comunicazione, secondo il quale vengono segnalati: • cambi nella ripartizione di senso di un lemma (ulteriori suddivisioni o accorpamenti di senso); • eliminazione di un senso; • cambio dell’iperonimo assegnato, quando questo comporti una diversa assegnazione di senso. Un protocollo di comunicazione è stato inoltre definito per la comunicazione da parte degli annotatori di eventuali proposte di integrazioni o modifiche della risorsa lessicale. Fino ad oggi le proposte degli annotatori hanno riguardato essenzialmente: • nuovi lemmi, mancanti in IWN. Nella maggior parte dei casi si è trattato di espressioni polilessicali e, in misura minore, di nomi propri; • nuovi sensi per lemmi già presenti in IWN; • modifiche alle distinzioni di senso (es. accorpamento di sensi ritenuti indistinguibili o iperspecificati) o integrazioni (es. aggiunta di esempi, precisazione della definizione, cambio dell’iperonimo). 5 Sviluppo di GesTALt GesTALt è un sistema di applicazioni software di supporto alla creazione e validazione della risorsa Treebank progettato per supportare nelle loro attività quattro classi distinte di utenti: gli annotatori della struttura sintattica a costituenti, gli annotatori della struttura sintattico-funzionale, gli annotatori semantico-lessicali ed i validatori. Compito degli annotatori è di creare la risorsa Treebank partendo da una base di documenti (BDA) contenente l’insieme di testi di un corpus annotati morfo-sintatticamente, mentre quello dei validatori è di controllare che la risorsa sia stata ben annotata. D-36 Linea 1.2 - Treebank sintattico-semantica dell'italiano In maggior dettaglio, gli annotatori sintattici a costituenti, sintattico-funzionali, e semanticolessicali svolgono le loro attività al fine di produrre, rispettivamente, annotazioni sintattiche a costituenti, annotazioni sintattico-funzionali ed annotazioni semantico-lessicali dei testi di un corpus. GesTALt mette a disposizione di ogni tipologia di annotatori (sintattici a costituenti, sintatticofunzionali, e semantico-lessicali) una specifica applicazione di supporto (SinTAS, FunTAS e SemTAS, rispettivamente) unitamente ad una visione parziale della BDA, in maniera tale che essi possano svolgere le loro attività di annotazione ognuno, separatamente, al proprio livello. Ciò al fine di rendere più agile l’annotazione e di evitare l’interferenza tra i vari livelli. A supporto dei validatori, invece, GesTALt mette a disposizione l’applicazione ValTAS insieme ad una visione globale della BDA che permetta loro di verificare sia le scelte fatte dagli annotatori sia la congruenza tra i livelli di annotazione. Inoltre, GesTALt comprende un insieme di applicazioni di utilità dedicate al caricamento della BDA che saranno descritte in maggior dettaglio in §5.2. Nel paragrafi seguenti si fornisce una descrizione del processo di sviluppo adottato durante la linea di ricerca 1.2 del progetto, dell’architettura software di GesTALt ed, infine, delle principali funzionalità offerte dalle applicazioni di supporto agli annotatori. 5.1 Processo di sviluppo del software La produzione del sistema software per l’annotazione e la navigazione della Treebank SintatticoSemantica dell’Italiano GesTALt si basa su di un processo di sviluppo iterativo. La strategia adottata per lo sviluppo incrementale del software si fonda sulla tecnica di prototipazione evolutiva, ovverosia sulla produzione iniziale di un prototipo software le cui funzionalità vengono incrementate ad ogni iterazione del processo di sviluppo fino ad ottenere il prodotto finale. La tecnica di prototipazione evolutiva è particolarmente efficace nello produzione di software i cui requisiti siano non perfettamente noti o fortemente instabili e, pertanto, ben si adatta allo sviluppo di GesTALt. Le principali attività previste dal processo di sviluppo adottato sono le cinque brevemente descritte qui di seguito: A1. Definizione Requisiti Utente Definizione di un primo insieme di requisiti utente relativo alle funzionalità di base da dover includere in GesTALt. Tale attività comprende le seguenti sotto-attività: A1.1 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione sintattica a costituenti. A1.2 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione sintatticofunzionale. A1.3 Definizione dei requisiti utente per le funzionalità di supporto all’annotazione semanticolessicale. A1.4 Definizione dei requisiti utente per le funzionalità di supporto alla validazione della Treebank di SI-TAL. D-37 Linea 1.2 - Treebank sintattico-semantica dell'italiano A2. Codifica Codifica di un primo prototipo (di tipo evolutivo) di GesTALt sulla base dei requisiti utente raccolti. In maggior dettaglio, tale attività può essere specializzata nelle seguenti sotto-attività: A2.1 Codifica di SinTAS, ovverosia del sotto-sistema di supporto all’annotazione sintattica a costituenti. A2.2 Codifica di FunTAS, ovverosia del sotto-sistema di supporto all’annotazione sintatticofunzionale. A2.3 Codifica di SemTAS, ovverosia del sotto-sistema di supporto all’annotazione semanticolessicale. A2.4 Codifica di ValTAS, ovverosia del sotto-sistema di supporto alla validazione delle annotazioni. A3. Validazione di GesTALt Validazione delle funzionalità incluse nel prototipo realizzato. Le sotto-attività in cui si può suddividere l’attività in oggetto sono: A3.1. Validazione di SinTAS. A3.2. Validazione di FunTAS. A3.3. Validazione di SemTAS. A3.4. Validazione di ValTAS. A4. Raffinamento dei Requisiti Utente Raffinamento dei requisiti utente prodotti sulla base dei commenti forniti dagli utenti durante l’attività di validazione del prototipo. L’attività in questione si compone delle seguenti sottoattività: A4.1 Raffinamento dei requisiti utente per sintattica a costituenti. A4.2 Raffinamento dei requisiti utente per sintattico-funzionale. A4.3 Raffinamento dei requisiti utente per semantico-lessicale. A4.4 Raffinamento dei requisiti utente per le Treebank di SI-TAL. le funzionalità di supporto all’annotazione le funzionalità di supporto all’annotazione le funzionalità di supporto all’annotazione funzionalità di supporto alla validazione della A5. Raffinamento di GesTALt Raffinamento del prototipo prodotto finalizzato a produrre una nuova versione di GesTALt che sia conforme ai requisiti utente. In particolare, le sotto-attività in cui il raffinamento di GesTALt può essere suddiviso sono: A5.1 A5.2 A5.3 A5.4 Raffinamento di SinTAS. Raffinamento di FunTAS. Raffinamento di SemTAS. Raffinamento di ValTAS. Secondo quanto riportato nei piani di attuazione relativi alle linee di ricerca 1.2 ed 1.3 del progetto, le attività ora introdotte devono essere eseguite in cascata. In maggior dettaglio, durante la linea di ricerca 1.2, devono essere eseguite tutte le attività che vanno dalla prima definizione dei requisiti utente (A1) fino alla al raffinamento degli stessi (A4), mentre il raffinamento di GesTALt (A5) è compito da eseguirsi durante la linea di ricerca 1.3. D-38 Linea 1.2 - Treebank sintattico-semantica dell'italiano Durante l’attuazione della linea di ricerca 1.2 è però stato necessario apportare alcune modifiche alla sequenza di attività originariamente pianificata, anticipando lo svolgimento di alcune sottoattività previste per la linea 1.3 alla linea 1.2 e, di conseguenza, rimandando alcune sotto-attività della linea 1.2 alla 1.3. Vediamo dunque in dettaglio quali siano state le variazioni apportate al processo di sviluppo pianificato per la produzione di GesTALt al momento della sua reale attuazione durante la linea 1.2 ed i motivi che hanno indotto dette variazioni. Il reale processo di sviluppo ha avuto inizio, secondo quanto pianificato, con l’attività di definizione dei requisiti utente (A1), ovverosia con la produzione di un primo insieme di requisiti relativi alle funzionalità di base da dover includere in SinTAS, FunTAS, SemTAS e ValTAS (attività A1.1, A1.2, A1.3 ed A1.4). I requisiti prodotti hanno quindi permesso di iniziare l’attività di codifica del prototipo di GesTALt (A2) che però non ha potuto essere svolta nel suo complesso. Infatti, mentre è stato possibile codificare il prototipo di SinTAS, FunTAS e SemTAS (A2.1, A2.2 ed A2.3), l’eccessiva genericità dei requisiti relativi a ValTAS ha reso impossibile la produzione di un prototipo evolutivo di tale sistema. A tal proposito, bisogna inoltre considerare che le funzionalità di ValTAS dipendono fortemente da quelle dei vari sistemi di supporto all’annotazione, e pertanto la produzione di un suo prototipo evolutivo che si basi su di un insieme di funzionalità prototipali dei sistemi di annotazione (la cui stabilità, cioè, deve ancora essere comprovata) può comportare che l’evoluzione di SinTAS, FunTAS o SemTAS generi la necessità di un ripensamento radicale delle funzionalità di ValTAS e, conseguentemente, una ricodifica pressoché totale del relativo prototipo. Una possibile alternativa alla codifica di un prototipo evolutivo per lo sviluppo di ValTAS, è la produzione di un così detto prototipo rapido (throw-away prototype), ovvero di un prototipo da utilizzarsi per soli scopi dimostrativi e che, rispetto ad un evolutivo, può essere prodotto in minor tempo, ma è strutturato in modo tale da non poter essere riutilizzato per la produzione del sistema finale. Al momento di attuare l’attività di codifica di GesTALt, la possibilità di utilizzare un approccio allo sviluppo di ValTAS mediante l’uso di una tecnica di prototipazione rapida è stata attentamente vagliata e si è ritenuta troppo dispendiosa rispetto ai limiti di tempo e costo del progetto. Pertanto, si è preferito rimandare la codifica e validazione del prototipo evolutivo di ValTAS (A2.4 e A3.4) dopo la validazione delle funzionalità di SinTAS, FunTAS e SemTAS, e quindi alla linea di ricerca 1.3. Una volta codificati, i prototipi di SinTAS, FunTAS e SemTAS sono stati validati dagli utenti che hanno provveduto a raffinare ed estendere l’insieme di funzionalità originariamente identificate. Dal momento che la validazione di GesTALt ha coinciso con l’annotazione di parte della Treebank di SI-TAL, si è reso necessario anticipare le attività di raffinamento dei sistemi di annotazione (A5.1, A5.2 ed A5.3) previste per la linea 1.3 alla linea 1.2. Ciò fondamentalmente al fine di diminuire quanto più possibile l’inevitabile impatto sulla produttività degli annotatori generato dall’uso di strumenti prototipali a supporto della produzione della risorsa linguistica. Pertanto la prima versione prototipale di GesTALt è stata sottoposta, già durante tutto il periodo dedicato alla validazione, non solo ad attività di manutenzione correttiva, ma anche a quelle di D-39 Linea 1.2 - Treebank sintattico-semantica dell'italiano manutenzione perfettiva ed adattativa secondo le indicazioni degli utenti. Ciò ha comportato la produzione costante di nuove versioni di GesTALt nonché la codifica ex novo di un insieme di componenti software, la cui produzione non era stata prevista nella specifica iniziale. La tabella sottostante, riassume la sequenza di attività di sviluppo di GesTALt nell’ordine in cui è stata realmente attuata durante la linea di ricerca 1.2 ed indica, inoltre, l’ordine in cui attualmente si prevede di eseguire le attività rimaste per la linea 1.3. 5.2 Ordine Attività Linea attuazione 1 A1.1, A1.2, A1.3, A1.4 1.2 2 A2.1, A2.2, A2.3 1.2 3 A3.1, A3.2, A3.3, A4.1, A4.2, A4.3, A5.1, A5.2, A5.3 1.2 4 A2.4 1.3 5 A3.4 1.3 6 A4.4 1.3 7 A5.4 1.3 di Architettura di GesTALt Il sistema GesTALt può essere pensato come la composizione di quattro sotto-sistemi distinti, denominati SinTAS, FunTAS, SemTAS e ValTAS dedicati, rispettivamente, al supporto delle attività di annotazione sintattica a costituenti, di annotazione sintattico–funzionale, di annotazione semantico–lesscicale e di validazione della Treebank di SI-TAL. Ognuno di detti sotto-sistemi raggruppa un ben definito insieme di componenti software i quali interagiscono l’uno con gli altri in modo tale da fornire le funzionalità richieste dagli utenti. I componenti software possono essere classificati come componenti comuni, nel caso in cui essi siano condivisi da due o più sotto-sistemi, o come componenti specializzati, se essi sono utilizzati da un unico sotto-sistema. L’architettura generale di GesTALt comprende dunque l’insieme dei componenti comuni nonché di quelli specializzati relativi a tutti i sotto-sistemi definiti. Tale architettura è descritta in Figura 1, dove i componenti software sono rappresentati come rettangoli, mentre le interazioni tra essi sono indicate mediante l’uso di frecce. D-40 Linea 1.2 - Treebank sintattico-semantica dell'italiano Corpus Analizzato Morfo-Sintatticamente (XML Files) Correzioni al Corpus Analizzato Morfo-Sintatticamente (XML Files) FunTAS SinTAS GUI SinTAS SemTAS GUI GUI GUI FunTAS SinTAS SemTAS ValTAS Manager Manager MAnager Manager XML Loader (Wrapper-In) Wrapper-Out GesTALt OODB Update Loader Tree Loader CorpusAnnotato (XML Files) Annotazioni Sintattiche a Costituenti (XML Files) Figura 1 – Architettura Software di GesTALt In maggior dettaglio, i componenti comuni ai vari sotto-sistemi sono: − GestTALt – OODB. È la base dati orientata agli oggetti (la DBA, cfr.5) utilizzata per immagazzinare all’interno di GesTALt l’intera Treebank di SI-TAL. Trattandosi di una base dati orientata agli oggetti, ogni entità linguistica è trattata come un oggetto software che incorpora quindi sia la struttura dati necessaria ad immagazzinare detta entità, sia l’insieme delle interrogazioni necessarie per reperire informazioni ad essa relative. − XML Loader (Wrapper-in). È il componente che provvede al caricamento dell’insieme di testi analizzati morfo-sintatticamente di un dato corpus nel GesTALt – OODB. Detto componente prende in ingresso un file in formato XML per ogni testo da introdurre. − Wrapper-out. È il componente che provvede a produrre una rappresentazione XML delle annotazioni contenute nel GesTALt – OODB. L’uso del formalismo XML permette di rendere la Treebank di SI-TAL pubblicamente accessibile. Di fatti, le informazioni contenute in essa possono essere “navigate” indipendentemente dalla disponibilità del sistema GesTALt, mediante un qualsiasi XML compliant internet browser. − Update Loader. È il componente che permette di apportare eventuali correzioni all’annotazione morfo-sintattica di un corpus caricato nel GesTALt – OODB. Come nel caso dell’XML Loader, anche l’Update Loader prende in ingresso file in formato XML. I componenti specializzati relativi ai vari sotto-sistemi sono: − Le interfacce grafiche utilizzate per le attività di annotazione sintattica a costituenti, sintattico– funzionale e semantico–lessicale, nonché per quella di validazione (in Figura 1 denominati rispettivamente FunTAS GUI, SinTAS GUI, SemTAS GUI e ValTAS GUI). Si noti che la SemTAS GUI incorpora in sé la FunTAS GUI, la SinTAS GUI e la SemTAS GUI estendendone inoltre le funzionalità. D-41 Linea 1.2 - Treebank sintattico-semantica dell'italiano − I componenti software responsabili dell’accesso al GesTALt – OODB e dell’invocazione delle adeguate funzionalità delle interfacce grafiche di FunTAS, SinTAS, SemTAS e ValTAS. Tali componenti sono denominati in Figura 1 FunTAS Manager, SinTAS Manager, SemTAS Manager and ValTAS Manager, rispetivamente. − Il Tree Loader, ovverosia il componente che consente di caricare nel GesTALt – OODB annotazioni sintattiche a costituenti prodotte mediante software dedicato e rappresentate mediante formalismo XML. Identificati i vari componenti software, è possibile definire per grandi linee l’architettura di ognuno dei sotto-sistemi di GesTALt come combinazione di uno o più componenti comuni e dei suoi componenti specializzati, come specificato nella tabella di seguito riportata. Sotto-Sistema Componenti Comuni Componenti Specializzati SinTAS GesTALt OODB XML Loader Update Loader Wrapper Out SinTAS GUI SinTAS Manager Tree Loader FunTAS GesTALt OODB XML Loader Update Loader Wrapper Out FunTAS GUI FunTAS Manager SemTAS GesTALt OODB XML Loader Update Loader Wrapper Out SemTAS GUI SemTAS Manager ValTAS GesTALt OODB Wrapper Out ValTAS GUI ValTAS Manager La versione di GesTALt attualmente sviluppata (versione 2.0) non comprende ancora l’implementazione di tutti i componenti software previsti per il sistema. In particolare, la produzione dei componenti ValTAS GUI, ValTAS Manager e Wrapper Out sarà intrapresa durante la linea di ricerca 1.3 per le ragioni discusse nel paragrafo precedente. Di contro, la rimanente parte dei componenti sviluppati può essere considerato in versione pressoché definitiva, ed include inoltre due componenti (Update Loader e Tree Loader) la cui produzione non era prevista dalla specifica iniziale. In conclusione mettiamo in evidenza che GesTALt si presenta all’utenza come un pacchetto di applicazioni software (cfr. §5) formata dai tre tool di annotazione (SinTAS, FunTAS e SemTAS), dal tool di supporto alla validazione (ValTAS) e dall’insieme dei caricatori (XML Loader, Update Loader e Tree Loader). Per utilizzare GesTALt le seguenti risorse hardware e software sono richieste: D-42 Linea 1.2 - Treebank sintattico-semantica dell'italiano − Personal Computer con: − Processore tipo Intel PII (minimo) o Intel PIII (consigliato) − RAM 64 MB (minimo) − Sistema operativo Microsoft® Windows NT4.0 SP4 (fortemente consigliato) o Microsoft® Windows 9x. − ODI® PsePRO (object-oriented dbms) 5.3 Funzionalità di GesTALt Nei paragrafi seguenti si fornisce una sintetica descrizione delle principali funzionalità di SinTAS, FunTAS e SemTAS, così come si presentano nella versione 2.0 di GesTALt. 5.3.1 SinTAS SinTAS è l’applicazione fornita dal pacchetto GesTALt a supporto dell’attività di annotazione sintattica a costituenti. Tale attività ha lo scopo di fornire una rappresentazione sintattica di ogni frase appartenente ad un corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o espressioni polilessicali) sono morfo-sintatticamente analizzate. L’annotazione procede per frase così come queste sono presenti nel testo. In fase di annotazione, il contesto della frase analizzata è necessario per prendere decisioni di annotazione. D-43 Linea 1.2 - Treebank sintattico-semantica dell'italiano Figura 2 – Interfaccia grafica di SinTAS SinTAS mette a disposizione degli annotatori della struttura sintattica a costituenti funzionalità per: − Visualizzare: − L’insieme dei testi di un corpus. − Le frasi di un testo (e relativa annotazione morfologica). − Una rappresentazione grafica della gerarchia di costituenti associati ad ognuna delle frasi di un dato testo. − Definire e modificare: − Lo stato di annotazione di una frase. − Costituenti semplici e complessi di una data frase di un testo, operando direttamente sulla relativa rappresentazione grafica La procedura di annotazione sintattica per costituenti prevista da SinTAS richiede innanzi tutto la definizione da parte dell’utente di un insieme consistente di costituenti. Per ogni frase da annotare, SinTAS genera un costituente semplice associato ad ogni parola morfologica, nonché un costituente radice della gerarchia dei costituenti. Gli annotatori posso dunque introdurre nuovi costituenti (sia semplici, sia complessi) aggregando o separando costituenti preesistenti e specificandone il tipo. Nel caso dei soli costituenti complessi, è inoltre possibile indicare se esso sia o meno una testa. D-44 Linea 1.2 - Treebank sintattico-semantica dell'italiano Una volta che tutti i costituenti necessari all’annotazione di una data frase siano stati introdotti e specificati, è possibile marcare l’annotazione di tale frase come completata, registrando così la data di fine annotazione nella base dati di GesTALt. Anche qualora l’annotazione di una frase sia stata marcata come completata, è sempre possibile modificarla andando innanzitutto a riportane lo stato ad annotazione parziale e procedendo quindi ai cambiamenti desiderati. In Figura 2 è mostrata l’interfaccia grafica di SinTAS. Il pannello inferiore di tale interfaccia contiene la lista delle frasi che occorrono in uno specifico testo, mentre il pannello superiore mostra la rappresentazione grafica dell’annotazione a costituenti relativa alla frase selezionata nella lista. 5.3.2 FunTAS FunTAS è l’applicazione fornita dal pacchetto GesTALt a supporto dell’attività di annotazione sintattico-funzionale. Tale attività ha lo scopo di fornire una rappresentazione funzionale di ogni frase appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o espressioni polilessicali) sono morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso utilizzato come sorgente per la annotazione a costituenti. L’annotazione procede per frase così come queste sono presenti nel testo. In fase di annotazione, il contesto della frase analizzata è necessario per prendere decisioni di annotazione e quindi deve essere accessibile all’annotatore (cioè visualizzato in forma esplicita). D-45 Linea 1.2 - Treebank sintattico-semantica dell'italiano Figura 3 – Interfaccia grafica di FunTAS FunTAS mette a disposizione degli annotatori della struttura sintattico-funzionale funzionalità per: − Visualizzare: − L’insieme dei testi di un corpus. − Le frasi di un testo (e relativa annotazione morfologica). − Il grafo delle relazioni funzionali relativo ad ogni frase di un dato testo. − Definire e modificare: − Lo stato di annotazione di una frase. − Partecipanti funzionali non legati a parole operando direttamente sulla rappresentazione grafica dell’annotazione. − Relazioni funzionali tra i partecipanti operando direttamente sulla rappresentazione grafica dell’annotazione. La procedura di annotazione funzionale mediante FunTAS consiste fondamentalmente nella definizione e specializzazione di relazioni funzionali tra partecipanti. Ad ognuna delle parole morfologiche di una data frase, FunTAS associa un partecipante (generico, verbale o nominale in funzione del relativo POS), mentre il compito di introdurre eventuali partecipanti associati a parole vuote è lasciato all’annotatore, così come quello di creare relazioni funzionali tra partecipanti. Ogni volta che una relazione funzionale è creata dall’annotatore, FunTAS provvede a specializzare i partecipanti coinvolti in testa e dipendente. Come conseguenza di ciò, si possono generare teste verbali, teste nominali, dipendenti verbali, dipendenti nominali oltre, ovviamente, ai D-46 Linea 1.2 - Treebank sintattico-semantica dell'italiano partecipanti, teste e dipendenti generici. Ad ognuno di essi FunTAS associa un insieme di tratti caratteristici che possono quindi essere specificati dall’annotatore. Una volta che tutte le relazioni funzionali di una data frase siano state create e si sia specificato il tipo per ognuna di esse, è possibile marcare l’annotazione della frase in oggetto come completata. Le annotazioni effettuate possono essere modificate in qualsiasi momento operando nello stesso modo indicato nel caso di SinTAS. In Figura 2 è rappresentata l’interfaccia grafica di FunTAS. Il pannello inferiore di tale interfaccia mostra la lista delle frasi che relative ad un dato testo, mentre il pannello superiore contiene la rappresentazione grafica dell’annotazione funzionale relativa alla frase selezionata nella lista. 5.3.3 SemTAS SemTAS è l’applicazione fornita dal pacchetto GesTALt a supporto dell’attività di annotazione semantica. Tale attività ha lo scopo di fornire una rappresentazione semantica per ogni parola piena appartenente al corpus. Il punto di partenza è il corpus in cui tutte le parole (e/o espressioni polilessicali) sono morfo-sintatticamente analizzate: questo insieme di informazioni è lo stesso utilizzato come sorgente per la annotazione sintattica e funzionale. L’annotazione procede per unità semantico-lessicale (ovvero un lemma o un gruppo di lemmi e relativo POS). In fase di annotazione di una unità semantico lessicale, il contesto dell'annotazione è rappresentato da tutte le frasi del corpus contenenti occorrenze di tale unità. Si desidera procedere annotando tutte le occorrenze di una unità semantico-lessicale. Nell’analisi di una unità semantica semplice (corrispondente ad un lemma e relativo POS), l’annotatore può decidere di costruire una unità semantica complessa (composta di più lemmi non necessariamente contigui e relativo POS). D-47 Linea 1.2 - Treebank sintattico-semantica dell'italiano Figura 4 – Interfaccia grafica di SemTAS SemTAS mette a disposizione degli annotatori semantico-lessicali funzionalità per: − Visualizzare: − L’insieme delle unita semantiche che occorrono in un corpus − Le frasi dei testi di un corpus in cui occorre una data unità semantica (e relativa annotazione morfologica) − Una rappresentazione grafica di ogni frase di un corpus e delle unità semantiche (semplici, complesse o titolo) che occorrono in essa. − Definire e modificare: − Lo stato di annotazione di una frase − Unità semantiche semplici, complesse o titolo operando direttamente sulla rappresentazione grafica delle frasi La procedura di annotazione semantico-lessicale prevista dall’uso di SemTAS si basa sulla specifica dei tratti associati alle unità semantiche (semplici, complesse o titolo). Al momento di iniziare l’annotazione dei testi di un corpus, SemTAS provvede ad estrarre un primo insieme di unità semantiche semplici in base all’occorrenza di parole con specifici POS. Dato però che tale insieme di unità semantiche è tipicamente insufficiente per il completamento dell’annotazione, l’utente è libero di definire nuove unità semantiche (semplici, complesse o titolo) secondo necessità operando direttamente sulla rappresentazione grafica delle varie frasi. D-48 Linea 1.2 - Treebank sintattico-semantica dell'italiano SemTAS permette inoltre di cancellare unità semantiche preesistenti sia nel caso in cui esse siano create dall’annotatore che nel caso in cui siano create dal tool stesso. Infine è possibile variare lo stato di annotazione di ognuna delle occorrenze di una data unità semantica marcandolo come annotazione completata. In Figura 4 è mostrata l’interfaccia grafica di SemTAS. Il pannello inferiore contiene la lista delle unità semantiche che occorrono in un dato corpus (raggruppate lessicograficamente in base alla prima lettera del relativo lemma) e quella delle frasi in cui l’unità semantica seleziona occorre. Il pannello superiore contiene invece la rappresentazione grafica dell’annotazione semantica relativa alla frase correntemente selezionata. 6 Valutazione Esterna Durante questa seconda linea, l'attività di validazione della risorsa a cura di Synthema si è incentrata nello sviluppo del primo prototipo, inteso come raffinamento di un sistema di traduzione esistente: PeTra®. In questo senso, sono state apportate alcune modifiche al sistema, prevalentemente volte al completamento della copertura lessicale dei testi analizzati, facenti parte della porzione di corpus specialistico della Treebank, secondo le modalità illustrate più nel dettaglio nel paragrafo 6.1. Un'altra attività riguardante la validazione della risorsa prevista per la linea 1.2 doveva essere lo sviluppo di uno strumento per la conversione dei risultati della annotazione, nel formato richiesto per il loro utilizzo nell'arricchimento del sistema di traduzione selezionato. In accordo con gli altri partners, si è invece preferito procedere allo sviluppo dello strumento previsto nella linea 1.3 (il software per la misurazione) da utilizzare per il confronto del testo tradotto con il testo sorgente. Tale scambio di attività non pone problemi di tempificazione, in quanto le stime relative allo sviluppo di entrambe sono analoghe, ma agevola il lavoro dello sviluppatore nella fase di tuning del sistema di traduzione, come viene descritto nel paragrafo 6.2. 6.1 Modalità di raffinamento del sistema di traduzione Il raffinamento del sistema di traduzione, in questa fase volto principalmente all'analisi e, quindi, al miglioramento della copertura, ha seguito principalmente tre linee: a. Inserimento delle parole sconosciute Questa modifica è stata realizzata a livello di dizionario, attraverso l'analisi morfo-sintattica della parola risultata sconosciuta al sistema. Un termine così individuato è stato ricercato all'interno dei file di ingresso della Treebank, dove sono riportate le annotazioni relative alla forma in esame. In base alla POS così individuata, la parola è stata inserita nel dizionario ampliando la classificazione con le informazioni morfologiche e sintattiche indispensabili all'utilizzo della parola da parte del sistema. b. Analisi delle espressioni polilessicali provenienti dall'annotazione morfologica Nell'input della Treebank sono presenti espressioni polilessicali annotate come unica parola morfologica. Per tali forme, la classificazione delle singole componenti non porterebbe alla corretta analisi dei componenti frasali. D-49 Linea 1.2 - Treebank sintattico-semantica dell'italiano Le forme polilessicali così individuate sono state esaminate e, quando opportuno, sono state inserite nel dizionario utilizzato dal sistema di traduzione. Questa attività di aggiunta di termini composti al dizionario ha richiesto una prima fase di analisi dei termini stessi: deve essere evitato il rischio di bloccare il riconoscimento di una sequenza di parole se questa viene utilizzata in contesti diversi da quello in cui la MWE occorre, come già illustrato nel documento della prima linea. c. Analisi delle espressioni polilessicali provenienti dall'annotazione semantica Seguendo i criteri descritti al punto precedente sono state analizzate le forme polilessicali provenienti dall'annotazione semantica. Tra le forme plausibili a livello di costruzione, sono state individuate quelle aventi una rilevanza ai fini della traduzione e quindi formalizzate all'interno del sistema per il raggiungimento di una corretta analisi e una corretta traduzione. 6.2 Strumento per la valutazione della traduzione Il supporto per il valutatore è stato concepito come una interfaccia per il confronto e la valutazione agevole dei risultati della traduzione, in relazione alle modifiche apportate al prototipo. Il valutatore avrà la possibilità, come descritto nel seguito, di tenere aperti due documenti contenenti il testo sorgente e il testo tradotto, ed un terzo documento contenente una tabella nella quale riportare i risultati del confronto. 6.2.1 Logica di funzionamento Il valutatore realizza il suo lavoro in due tempi: prima, confrontando il testo sorgente con la traduzione ottenuta con il sistema originale; poi, confrontando il testo sorgente con la traduzione ottenuta con il sistema modificato. In entrambe le situazioni avrà quindi due documenti da confrontare e un terzo in cui riportare i risultati del confronto. Il terzo documento, che da qui in avanti sarà identificato con 'Confronto.txt', contiene una tabella costruita automaticamente in base alle caratteristiche del testo, con le seguenti informazioni: - numero totale dei paragrafi presenti nel documento sorgente - 4 colonne per la descrizione dei risultati, comprendenti le frasi corrette, le frasi con ambiguità, le frasi errate, le frasi non tradotte - ognuna delle colonne precedenti partizionata in due colonne, per la traduzione ottenuta nei due momenti - una riga per ogni paragrafo, per l'inserimento delle informazioni individuate dalle colonne L'utente avrà quindi la possibilità di riportare nell'opportuna casella il risultato del confronto relativo ad ogni singolo paragrafo. I paragrafi da confrontare saranno inoltre evidenziati con uno sfondo grigio in modo da agevolare il ritrovamento di quelli corrispondenti nei due documenti. Per proseguire l'esame del testo, basterà premere il pulsante opportuno che provvederà ad aggiornare la porzione di testo evidenziata, spostando lo sfondo grigio al paragrafo successivo. D-50 Linea 1.2 - Treebank sintattico-semantica dell'italiano 6.2.2 Descrizione dettagliata dell'interfaccia Si è scelto di realizzare un'interfaccia grafica come estensione di MS Word per l'ampia diffusione di questo programma, in modo da evitare l'impatto del valutatore con un ambiente applicativo sconosciuto. Questi si troverà, infatti, a lavorare in un ambiente noto agli utilizzatori Microsoft, avendo in più le funzionalità realizzate in questo task. L'interfaccia grafica a finestre è stata realizzata in MS Visual Basic for Application, implementando una nuova barra degli strumenti che, inclusa in un nuovo modello di Word, risulta di facile esportazione oltre che di immediato utilizzo. Con l'importazione del modello, la nuova barra degli strumenti viene aggiunta alle barre standard di MS Word, mettendo a disposizione 4 pulsanti: a ciascuno dei quali sono associate le funzionalità seguenti: Con questo pulsante si ottiene l'apertura dei due documenti di testo (sorgente italiano e testo tradotto) e del documento, relativo ai due file, contenente la tabella del confronto. Come prima azione, l'utente dovrà selezionare, attraverso una finestra di dialogo, il percorso della cartella di lavoro in cui sono presenti i file da esaminare. Si assume che il file sorgente, i due file delle traduzioni (prima e dopo le modifiche) e il file con la relativa tabella, debbano essere tutti nella stessa cartella. Il valutatore dovrà quindi scegliere se esaminare il file tradotto prima o dopo le modifiche, e digitare il numero identificativo del file, indispensabile per individuare sia il file sorgente, che i due tradotti, che la tabella loro associata. Il nome di ciascun file contiene per convenzione un numero, utilizzato da tutti i partner, per identificare univocamente quel documento, sia come testo che nelle sue diverse annotazioni. Vengono quindi aperti i tre file dei quali solo per 'Confronto.txt' è abilitata la scrittura. Gli altri due, infatti, sono aperti in sola lettura e le eventuali modifiche non potranno essere salvate. Dopo aver seguito questi passi è possibile iniziare il lavoro di confronto. Questo pulsante permette di avanzare di un paragrafo, evidenziando il paragrafo successivo a quello attualmente in esame. Come già accennato, per agevolare l'individuazione dei paragrafi corrispondenti nel testo originale e in quello tradotto, il loro sfondo viene posto in grigio. Il passaggio al paragrafo successivo avviene in entrambi i documenti da confrontare, facilitando l'individuazione di quelli corrispondenti. Tale pulsante permette di svolgere l'operazione inversa alla precedente, riportando lo sfondo grigio sul paragrafo precedente. Quest'ultimo pulsante provoca la chiusura dei tre documenti. Nel seguito viene mostrata la tabella generata in un file di valutazione. Osservando le colonne è facile comprendere i criteri da utilizzare per le frasi: corrette, imprecise, errate, non tradotte. Ogni colonna è suddivisa in prima e dopo le modifiche per permettere la valutazione delle due traduzioni D-51 Linea 1.2 - Treebank sintattico-semantica dell'italiano corrispondenti, e per ottenere l'immediato riscontro dell'eventuale miglioramento della traduzione. Le righe sono tante quante i paragrafi individuati, il cui numero complessivo è riportato nella prima cella in alto a sinistra. L'uso di questo strumento era inizialmente previsto nella quarta linea per le valutazioni finali, ma anche in fase di modifiche al sistema di traduzione il suo uso è rilevante per comprendere l'entità del miglioramento ottenuto in relazione alle modifiche apportate, seppur parziali. 11 paragrafi n° frasi n° frasi corrette prima dopo par.1 par.2 par.3 par.4 par.5 par.6 par.7 par.8 par.9 par.10 par.11 n° frasi imprecise Prima dopo D-52 n° frasi errate prima dopo frasi non trad. prima dopo Linea 1.2 - Treebank sintattico-semantica dell'italiano Riferimenti bibliografici Delmonte R. (1999), From Shallow Parsing to Functional Structure, in Atti del Workshop AI*IA "Elaborazione del Linguaggio e Riconoscimento del Parlato", IRST Trento, pp.8-19. Delmonte R. (2000), Shallow Parsing And Functional Structure In Italian Corpora, LREC-2000 Proceedings, Athens, June 2000. Hudson R., 1984, Word Grammar, Basil Blackwell, Oxford. Marcus M., G. Kim, M.A. Marcinkiewicz, R. McIntyre, R. Bies, A. Ferguson, M. Katz, K. Schasberger, 1994, “The Penn Treebank: Annotating predicate argument structure”, in Proceedings of the Human Language Technology Workshop, March 1994, Morgan Kaufman Publishers Inc., San Francisco, CA. Montemagni S., Subject and Object in Italian Sentence Processing, PhD Thesis, University of Manchester Institute of Science and Technology (UK), Centre for Computational Linguistics, Settembre 1995. Renzi L., Salvi G. (ed.), 1991, Grande grammatica italiana di consultazione, vol. 2, Il Mulino, Bologna. Schwarze C., 1995, Grammatik der italienischen Sprache 2. verbesserte Auflage, Max Niemeyer Verlag, Tubingen. Van Halteren H., 1997. Excursions into syntactic databases, Amsterdam, Rodopi. D-53 Linea 1.2 - Treebank sintattico-semantica dell'italiano Appendici 1. Elenco delle "sfeats" 2. Tabella comparativa "sfeats"-"mfeats" 3. DTD Ortografica 4. DTD Morfologica 5. Espressioni polilessicali del livello morfologico D-54 Linea 1.2 - Treebank sintattico-semantica dell'italiano ELENCO DELLE SFEATS Nome abbr ag agn art auag auair aueg aueir ausa ausai ause ausei ausep avv avvl ccom ccong clit clitac clitabl clitdat cong congf conjl cosu cosul da_riempire date deit dim dirs equal escl fw in ind int intj n nc neg nf nh nt np Descrizione abbreviazione aggettivo aggettivo nominale predicativo articolo definito/indefinito ausiliare "avere" gerundio ausiliare "avere" modo/tempo irreale ausiliare "essere" gerundio ausiliare "essere" modo/tempo irreale ausiliare "avere" tempo definito ausiliare "avere" infinito ausiliare "essere" tempo definito ausiliare "essere" infinito ausiliare "essere" participio passato avverbio locuzione avverbiale congiunzione comparativa a livello di costituente congiunzione di coordinazione e/o di comparazione a livello frasale pronome clitico generico pronome clitico accusativo pronome clitico ablativo pronome clitico dativo congiunzione congiunzione frasale congiunzione locuzione congiunzione subordinante congiunzione subordinante locuzione segno di punteggiatura per sospensione "..." numero di data pronome deittico aggettivo dimostrativo segno di punteggiatura ( : ) segno di uguale pronome esclamativo parola straniera "intensifier" quantificatore indefinito pronome interrogativo interiezione nome nome di colore negazione nome fattivo nome umano - nome propri nome temporale nomi propri principalmente geografici D-55 Linea 1.2 - Treebank sintattico-semantica dell'italiano Nome npro num p par part partd partda pd pda php pk poss ppas ppre pron pt punt puntint punto q qc qd rel relin relob relq sect slash vc vci vcir vcg vcl vgin vgprog vgs vgsf vgt viin vin virin virt vit vppc vppin vppt vprc vprin Descrizione nomi propri per organizzazioni, società e altro numeri, numerali, nomi quantificatori numerali preposizione segno di parentetica: - ( ) " preposizione articolata preposizione articolata "di" preposizione articolata "da" preposizione "di" preposizione "da" preposizione in locuzione complementatore "che" aggettivo e pronome possessivo participio passato assoluto participio presente assoluto pronome particella verbale (a, ad, di, da) segno di virgola segni di punteggiatura non dichiarativa ( ? ! ) segno di punto e punto e virgola (. ;) quantificatore quantificatore collectivo quantificatore distributivo pronome relativo - include anche il "che" relativo indefinito relativo obliquo relativo quantificatore lettera o numero indicatore di sezione segno "/" verbo copulativo tempo definito verbo copulativo infinito verbo copulativo modo/tempo irreale verbo copulativo gerundio verbo con enclitico verbo intransitivo gerundio verbo intransitivo progressivo gerundio verbo modale gerundio verbo "fare" a recostruzione gerundio verbo transitivo gerundio verbo intransitivo infinito verbo intransitivo tempo definito verbo intransitivo modo/tempo irreale verbo transitivo modo/tempo irrealis verbo transitivo infinito verbo copulativo participio passato verbo intransitivo participio passato verbo transitivo participio passato verbo copulativo participio presente verbo intransitivo participio presente D-56 Linea 1.2 - Treebank sintattico-semantica dell'italiano Nome vprog vprogir vprt vsf vsup vsupir vt Descrizione verbo progressivo verbo progressivo modo/tempo irreale verbo transitivo participio presente verbo "fare" reconstruction verbo modale verbo modale modo/tempo irreale verbo transitivo tempo definito D-57 Linea 1.2 - Treebank sintattico-semantica dell'italiano TABELLA COMPARATIVA SFEATS-MFEATS S SP SW n, nt, nc, nf, clit nh, np, npro, abbr nw, fw V tutti i tag sottostanti per i verbi V@G auag, aueg, vcg, vgin, vgprog, vgs, vgsf, vgt V@GY vcl V@F ausei, ausai, vci, viin, vit V@FY vcl V@__IF aueir, auair, vcir, virin, virt, vprogir, vsupir V@__I_ ause, ausa, vc, vin, vsup, vt, vprog V@__C_ aueir, auair, vcir, virin, virt, vprogir, vsupir V@__C_Y vcl V@__D_ aueir, auair, vcir, virin, virt, vprogir, vsupir V@__M_ aueir, auair, vcir, virin, virt, vprogir, vsupir V@__M_Y vcl V@__PP ausep, vppc, vppin, vppt, vsf, ppas V@__PR vprc, vprin, vprt, vsf, ppre V@__PRY vcl A A@__S AL AL@__S AP AW ag, ppas, agn, ppre, dim, ind, poss ag avvl, conjl, php ag poss fw P PD PD@NN PE PI PP PQ PR PT pron dim/deit, ag, pron clit, clitabl, clitac, clitdat escl ind, q, qc, qd, ag poss pron, clit, clitac, clitdat, clitabl, poss, cosu rel, int, relin, relq, pk, escl, relob int, relq, pk, relin T q, qd, qc D DD DE DI DR DT Uno di quelli sottostanti dim, deit escl, int, pk, q q, qd, ind, qc, ag, pron rel, relq relin, int RD RI art art D-58 Linea 1.2 - Treebank sintattico-semantica dell'italiano B BL avv, avvl, in, neg, intj avvl E@ E@__ EL p, pd, pda, php, pt part, partd, partda php C CC CS CCL CSL pk ccom, ccong, congf cosu, congf conjl conjl N NO NP num num poss I intj @@ (proprio) punt, punto, puntint, par, dirs SA abbr PU punt,par,punto,puntint,dirs,sect,slash,equal D-59 Linea 1.2 - Treebank sintattico-semantica dell'italiano DTD ortografica <!-- wordtal2.dtd --> <!-- Questa e' la DTD per il file ortografico che costituisce il file di riferimento per l'annotazione morfosintattica in Treebank--> <!-- by ILC Pisa --> <!-- ultima modifica: 24.02.2000 --> <!-- ABBREVIATIONS --> <!ENTITY % ecommerciale "&amp;"> <!ENTITY % virgolette "&quot;"> <!ENTITY % maggioredi "&gt;"> <!ENTITY % minoredi "&lt;"> <!ENTITY % apostrofo "&apos;"> <!ENTITY % nonbreakingspace "&nbsp;"> <!ENTITY % softhyphen "&#173;"> <!ENTITY % id.att 'id ID #REQUIRED'> <!ELEMENT word_file ANY> <!ATTLIST word_file %id.att;> <!ELEMENT corp EMPTY> <!ATTLIST corp corpus (bil | fin) #REQUIRED> <!ELEMENT fonte (#PCDATA)> <!ELEMENT data (#PCDATA)> <!ELEMENT aut (#PCDATA)> <!ELEMENT arg (#PCDATA)> <!ELEMENT Tit2 (w+)> <!ELEMENT Tit (w+)> <!ELEMENT Tit3 (w+)> <!ELEMENT som (w+)> <!ELEMENT By (w*)> <!ELEMENT body ANY> <!ELEMENT w (#PCDATA)> <!ATTLIST w case (low | allcaps | cap | mixed) #IMPLIED %id.att;> <!ELEMENT par (w+ | (tabella | didasc)*)> <!ATTLIST par %id.att;> <!ELEMENT Tabella (w+)> <!ELEMENT Cl (w+)> <!ELEMENT Firma (w+)> <!ELEMENT FirmaL (w+)> <!ELEMENT Firmaop (w+)> <!ELEMENT TabT (w+)> <!ELEMENT Titb (w+)> <!ELEMENT Descr (w+ | body?)> <!ELEMENT Box (w+)> <!ELEMENT Titbox (w+)> <!ELEMENT Didasc (w+ | body? | par+)> D-60 Linea 1.2 - Treebank sintattico-semantica dell'italiano DTD Morfologica <!-- mwordriveduta.dtd --> <!-- Questa _ la DTD per l'annotazione morfosintattica di base come input per TAL --> <!-- by ILC Pisa --> <!-- last modification: 15.02.2000 --> <!-- ABBREVIATIONS --> <!ENTITY % id.att 'id ID #REQUIRED'> <!ENTITY % pos.att 'pos (PU|A|AP|AW|B||C|CC|CS|DD|DE|DI|DR|DT|E|EL|I|N|NO|PD|PE|PI|PP|PQ|PR|PT|RD|RI|S|S A|SP|SW|T|V|X) #REQUIRED'> <!ENTITY % mfeats.att 'mfeats (F|FN|FN3|FP|FP3|FPPR|FPPRY|FPS|FS|FS3|FSPR|FSPRY|FSS|FY|G|GY|MN|MP|MP3|MPPR|MPP RY|MPS|MS|MS3|MSPR|MSPRY|MSS|NN|NN3|NP|NP1|NP2|NP3|NPPP|NS|NS1|NS2|NS3|NSPP|P1CI |PCP|P1CP|P1DP|P1IF|P1II|P1IP|P1IR|P2CI|P2CP|P2DP|P2IF|P2II|P2IP|P2IR|P2MP|P2MPY |P3CI|P3CP|P3DP|P3IF|P3II|P3IP|P3IR|S|S1CI|S1CP|S1DP|S1IF|S1II|S1IP|S1IR|S2CI|S2 CP|S2DP|S2IF|S2II|S2IP|S2IR|S2MP|S2MPY|S3CI|S3CP|S3CPY|S3DP|S3IF|S3II|S3IP|S3IR) #IMPLIED'> <!ENTITY % sfeats.att 'sfeats CDATA #IMPLIED'> <!ENTITY % href.att 'href CDATA #IMPLIED'> <!ENTITY % ecommerciale "&amp;"> <!ENTITY % virgolette "&quot;"> <!ENTITY % maggioredi "&gt;"> <!ENTITY % minoredi "&lt;"> <!ENTITY % apostrofo "&apos;"> <!ENTITY % nonbreakingspace "&nbsp;"> <!ENTITY % softhyphen "&#173;"> <!-- MORPHOLOGICAL WORD FILE LABEL --> <!ELEMENT mword_file (mw+)> <!ATTLIST mword_file %id.att;> <!-- BASIC UNIT LABEL --> <!ELEMENT mw (#PCDATA)> <!ATTLIST mw lemma CDATA #REQUIRED %id.att; %pos.att; %mfeats.att; %sfeats.att; %href.att;> D-61 Linea 1.2 - Treebank sintattico-semantica dell'italiano Espressioni polilessicali del livello morfologico AL_PIU'_PRESTO#B@ AL_PIU'_TARDI#B@ AL_POSTO_DI#E@ AL_PUNTO_CHE#C@ AL_PUNTO_DA#E@ AL_PUNTO_DI#E@ AL_RIGUARDO#B@ AL_SICURO#B@ AMERICAN_BAR#S@ AMERICA_LATINA#SP@ AMNESTY_INTERNATIONAL#S@ ANCHE_SE#C@ ANCHOR_MAN#S@ ANCHOR_WOMAN#S@ ANGINA_PECTORIS#S@ ANTE_LITTERAM#A@ ANTE_REM#A@ ARBITER_ELEGANTIARUM#S@ AREA_CELSI#S@ AREA_MANAGER#S@ AREA_TEST#S@ ARS_DICTANDI#S@ ART_DIRECTOR#S@ ART_NOUVEAU#S@ ASSIEME_A#E@ ATTORNO_A#E@ AUT_AUT#S@ AVANTI_A#E@ A_BADA#B@ A_CASO#B@ A_CAUSA_DI#E@ A_CONDIZIONE_CHE#C@ A_DIROTTO#B@ A_DISAGIO#B@ A_DISMISURA#B@ A_DISPETTO#B@ A_DISPETTO_DEL_FATTO_CHE#C@ A_DISPETTO_DI#E@ A_DISPOSIZIONE#B@ A_DISPOSIZIONE_DI#E@ A_DIVINIS#A@ A_FATICA#B@ A_FAVORE_DI#E@ A_FERRO_E_FUOCO#B@ A_FIANCO#B@ A_FIANCO_DI#E@ A_FONDO_DI#E@ A_FORFAIT#B@ A_FORTIORI#A@ A_FRONTE_DI#E@ A_GALLA#B@ A_GATTONI#B@ A_GENIO#B@ A_GIOVAMENTO_DI#E@ A_LATO_DI#E@ A_MALAPENA#B@ A_MALE#B@ A'_LA_BELLE_ETOILE#A@ A'_LA_COQUE#A@ A'_LA_PAGE#A@ ACCANTO_A#E@ ACCOUNT_EXECUTIVE#S@ ACID_MUSIC#S@ ADDOSSO_A#E@ AD_ECCEZIONE_DI#E@ AD_ESCLUSIONE_DI#E@ AD_HOC#A@ AD_HONOREM#A@ AD_ONTA_DI#E@ AD_PERSONAM#A@ AD_QUEM#A@ AD_USUM_DELPHINI#A@ AD_VALOREM#A@ AGLI_SGOCCIOLI#B@ AGNUS_DEI#S@ AIR_TERMINAL#S@ AI_PIEDI_DI#E@ ALL'_INFUORI_DI#E@ ALL'_INTERNO_DI#E@ ALLA_CHETICHELLA#B@ ALLA_CIECA#B@ ALLA_FIN_FINE#B@ ALLA_LARGA#B@ ALLA_LARGA_DA#E@ ALLA_LEGGERA#B@ ALLA_LUNGA#B@ ALLA_PARI#B@ ALLEANZA_NAZIONALE#SP@ ALLE_CALENDE_GRECHE#B@ ALLE_SPALLE_DI#E@ ALLE_STRETTE#B@ ALLO_SCOPO_DI#E@ ALTER_EGO#S@ ALTO_ADIGE#SP@ AL_CHE#C@ AL_CONTEMPO#B@ AL_CONTRARIO#B@ AL_CONTRARIO_DI#E@ AL_COPERTO#B@ AL_CORRENTE#B@ AL_CORRENTE_DI#E@ AL_COSPETTO_DI#E@ AL_DISOPRA_DI#E@ AL_DI_FUORI#B@ AL_DI_FUORI_DI#E@ AL_DI_LA'#B@ AL_DI_LA'_DI#E@ AL_DI_SOPRA#B@ AL_DI_SOPRA_DI#E@ AL_DI_SOTTO#B@ AL_DI_SOTTO_DI#E@ AL_FINE_DI#E@ AL_LUMICINO#B@ AL_MEGLIO#B@ D-62 Linea 1.2 - Treebank sintattico-semantica dell'italiano BABY_SITTER#S@ BALLON_DESSAI#S@ BAL_TABARIN#S@ BANANA_REPUBLIC#S@ BANANA_SPLIT#S@ BASE_LINE#S@ BASIC_ENGLISH#S@ BASTIAN_CONTRARIO#S@ BATCH_PROCESSING#S@ BEACH_VOLLEY#S@ BELLE_ARTI#S@ BELLE_EPOQUE#S@ BEST_SELLER#S@ BIG_BANG#S@ BIG_MATCH#S@ BLACK_POWER#S@ BLOCK_NOTES#S@ BLOUSON_NOIR#S@ BLUE_CHIPS#S@ BLUE_MOVIE#S@ BOAT_PEOPLE#S@ BODY_ART#S@ BODY_BUILDING#S@ BODY_COPY#S@ BONHEUR_DU_JOUR#S@ BONUS_MALUS#S@ BON_MOT#S@ BON_TON#S@ BOSSA_NOVA#S@ BOUNTY_KILLER#S@ BOW_WINDOW#S@ BOX_OFFICE#S@ BOY_SCOUT#S@ BRAIN_TRUST#S@ BRAND_IMAGE#S@ BRAND_MANAGER#S@ BREAKING_POINT#S@ BREAK_DANCE#S@ BREAK_EVEN_VOLUME#S@ BROWN_SUGAR#S@ BUEN_RETIRO#S@ BUILDING_AUTOMATION#S@ BUONI_UFFICI#S@ BUSINESS_CLASS#S@ BUSINESS_GAME#S@ BY_NIGHT#A@ CALL_GIRL#S@ CANDID_CAMERA#S@ CAN_CAN#S@ CAPITAL_GAIN#S@ CAPITE_CENSUS#S@ CAREER_GIRL#S@ CAREER_WOMAN#S@ CARPE_DIEM#S@ CASH_FLOW#S@ CASO_MAI#B@ CASUS_BELLI#S@ CEMENT_GUN#S@ CESSATE_IL_FUOCO#S@ CHECK_PANEL#S@ CHEMIN_DE_FER#S@ A_MALPARTITO#B@ A_MAL_PARTITO#B@ A_MENO_CHE#C@ A_MENO_DI#E@ A_MEZZ'_ASTA#B@ A_NOLO#B@ A_NORD_DI#E@ A_NORMA_DI#E@ A_OCCHIO#B@ A_OCCHIO_E_CROCE#B@ A_OLTRANZA#B@ A_PALLINO#B@ A_PARERE_DI#E@ A_PATATA#B@ A_PATTO_CHE#C@ A_PICCO#B@ A_PORTATA_DI_MANO#B@ A_POSTERIORI#B@ A_PRIORI#B@ A_PROPOSITO#B@ A_PROPOSITO_DI#E@ A_RAGGIERA#B@ A_RAGION_VEDUTA#B@ A_RAMENGO#B@ A_RAMPINO#B@ A_RAMPONE#B@ A_REMENGO#B@ A_RIDOSSO#B@ A_RIDOSSO_DI#E@ A_RILENTO#B@ A_ROTOLI#B@ A_ROTTA_DI_COLLO#B@ A_ROVESCIO#B@ A_SBAFO#B@ A_SECONDA_CHE#C@ A_SECONDA_DI#E@ A_SENSO#B@ A_SOQQUADRO#B@ A_SORPRESA#B@ A_SPANNE#B@ A_SPASSO#B@ A_SPECCHIO#B@ A_SPRON_BATTUTO#B@ A_STELLA#B@ A_STENTO#B@ A_SUD_DI#E@ A_SUFFICIENZA#B@ A_TASTONI#B@ A_TENTONI#B@ A_TENUTA#B@ A_TENUTA_STAGNA#B@ A_TERGO#B@ A_TERMINE#B@ A_TITOLO_DI#E@ A_TUTT'_OGGI#B@ A_UFO#B@ A_UN_DIPRESSO#B@ A_ZONZO#B@ BABY_BOOM#S@ BABY_DOLL#S@ BABY_MARKET#S@ D-63 Linea 1.2 - Treebank sintattico-semantica dell'italiano DIETRO_MOTORI#A@ DISCO_MUSIC#S@ DISC_JOCKEY#S@ DI_CLICHE'#B@ DI_FIANCO_A#E@ DI_FILATO#B@ DI_FRONTE#B@ DI_FRONTE_A#E@ DI_LA'_DI#E@ DI_LATO#B@ DI_LATO_A#E@ DI_PRIMO_ACCHITO#B@ DI_QUANDO_IN_QUANDO#B@ DI_RADO#B@ DI_RIGUARDO#B@ DI_ROUTINE#B@ DI_SBIECO#B@ DI_SGHIMBESCIO#B@ DI_SICURO#B@ DI_SOLITO#B@ DI_SOPPIATTO#B@ DI_SOPRA#B@ DI_SOTTO#B@ DI_TRAVERSO#B@ DI_VOLATA#B@ DI_ZECCA#B@ DOLBY_SYSTEM#S@ DOPO_CHE#C@ DOPO_DI_CHE#C@ DOUBLE_EVENT#S@ DO_UT_DES#S@ DROP_SHOT#S@ DUNE_BUGGY#S@ DUTY_FREE_SHOP#S@ EDITIO_PRINCEPS#S@ ELAN_VITAL#S@ ENFANT_GATE'#S@ ENFANT_PRODIGE#S@ ENFANT_TERRIBLE#S@ EN_PLEIN#S@ EN_PLEIN_AIR#B@ ERGA_OMNES#A@ ESTREMO_ORIENTE#SP@ EST_EST_EST#S@ EXTENDED_PLAY#S@ EXTRA_COMUNITARIO#A@ EX_AEQUO#A@ EX_AEQUO#B@ EX_CATHEDRA#B@ EX_LIBRIS#S@ FACCIA_A_FACCIA#S@ FACCIA_LEI#S@ FAIRE_SUIVRE#S@ FAIR_PLAY#S@ FAI_DA_TE#S@ FAR_EAST#S@ FAR_WEST#S@ FAST_FOOD#S@ FATELO_DA_VOI#S@ FIBER_GLASS#S@ FILM_LOOP#S@ CHERRY_BRANDY#S@ CHEWING_GUM#S@ CHOW_CHOW#S@ CINEMA_DESSAI#S@ CIN_CIN#S@ CIO'_NONOSTANTE#B@ COLD_CREAM#S@ COLD_TYPE#S@ COME_SE#C@ COMMERCIAL_BILL#S@ COMMERCIAL_PAPER#S@ COMMON_LAW#S@ COMPACT_DISC#S@ COMPOS_SUI#A@ COMPUTER_ART#S@ COMPUTER_GRAPHICS#S@ COMPUTER_MUSIC#S@ COMUNITA'_EUROPEA#SP@ COMUNITA'_EUROPEE#S@ CONSECUTIO_TEMPORUM#S@ CONSUMER_BENEFIT#S@ CONTRO_DI#E@ COOL_JAZZ#S@ CORDON_BLEU#S@ CORPORATE_IMAGE#S@ CORPUS_DOMINI#S@ COSTA_D'_AVORIO#SP@ COSTA_RICA#SP@ COTTON_FIOC#S@ COUP_DE_FOUDRE#S@ COVER_GIRL#S@ COVER_STORY#S@ COW_BOY#S@ CREATIVE_WRITING#S@ CREME_CARAMEL#S@ CUBA_LIBRE#S@ CUI_PRODEST#S@ CULT_MOVIE#S@ CULT_OBJECT#S@ CURSUS_HONORUM#S@ CURTAIN_WALL#S@ D'_ACCHITO#B@ D'_IMPROVVISO#B@ DALAI_LAMA#S@ DAL_MOMENTO_CHE#C@ DARK_LADY#S@ DATA_BASE#S@ DAVANTI_A#E@ DAY_AFTER#S@ DAY_BOAT#S@ DAY_HOSPITAL#S@ DA_CHE_MONDO_E'_MONDO#B@ DEAD_HEAT#S@ DEFICIT_SPENDING#S@ DELIRIUM_TREMENS#S@ DEL_PARI#B@ DERNIER_CRI#S@ DESPATCH_MONEY#S@ DE_CUIUS#S@ DE_PROFUNDIS#S@ DIETRO_A#E@ D-64 Linea 1.2 - Treebank sintattico-semantica dell'italiano GREEN_PEACE#SP@ GUEST_STAR#S@ HABEAS_CORPUS#S@ HAIR_STYLIST#S@ HAPPY_END#S@ HARD_BOP#S@ HARD_COPY#S@ HARD_ROCK#S@ HARD_TOP#S@ HARRIS_TWEED#S@ HEAVY_METAL#S@ HIC_ET_NUNC#B@ HIGH_FASHION#S@ HIGH_FIDELITY#A@ HIGH_LIFE#S@ HIGH_PERFORMANCE_COMPUTING#S@ HIGH_SCHOOL#S@ HIGH_SOCIETY#S@ HIGH_TECH#S@ HIT_PARADE#S@ HOME_BANKING#S@ HOME_BASE#S@ HOME_COMPUTER#S@ HOME_VIDEO#S@ HOMO_FABER#S@ HOMO_HABILIS#S@ HOMO_LUDENS#S@ HOMO_NOVUS#S@ HOMO_OECONOMICUS#S@ HOMO_SAPIENS#S@ HONG_KONG#SP@ HOTEL_GARNI#S@ HOTEL_MEUBLE'#S@ HOT_DOG#S@ HOT_JAZZ#S@ HOT_MONEY#S@ HOT_PANTS#S@ HOUSE_OF_LORDS#SP@ HULLY_GULLY#S@ HUMAN_RELATIONS#S@ HUNG_PARLIAMENT#S@ HURDLE_RACE#S@ HYSTERON_PROTERON#S@ ICE_FIELD#S@ ICE_YACHTING#S@ IL_SOLE_24_ORE#SP@ IMAGE_MAKER#S@ INCLUSIVE_TOUR#S@ INDUSTRIAL_DESIGN#S@ INDUSTRIAL_DESIGNER#S@ INNE_ONNE#S@ INSIDER_TRADING#S@ INSIEME_A#E@ INSIEME_CON#E@ INSTANT_BOOK#S@ INSTANT_FILM#S@ INSTANT_MOVIE#S@ INTELLIGENT_MANUFACTURING_SYSTEMS#S @ INTERNAL_AUDITING#S@ INTERNAL_AUDITOR#S@ FINANCIAL_PAPER#S@ FINANCIAL_TIMES#SP@ FINE_SETTIMANA#S@ FINO_A#E@ FINO_A_CHE#C@ FINO_DA#E@ FINO_IN_FONDO#B@ FIN_DE_SIECLE#A@ FIOR_DI_PESCO#S@ FIRST_LADY#S@ FISCAL_DRAG#S@ FLIGHT_RECORDER#S@ FLOPPY_DISK#S@ FLOW_CHART#S@ FLYING_DUTCHMAN#S@ FLYING_JUNIOR#S@ FLY_AND_DRIVE#A@ FOLK_SINGER#S@ FOLK_SONG#S@ FORCE_DE_FRAPPE#S@ FORMA_MENTIS#S@ FORZA_ITALIA#SP@ FOX_TERRIER#S@ FREE_CLIMBER#S@ FREE_CLIMBING#S@ FREE_JAZZ#S@ FREE_LANCE#S@ FREE_RIDER#S@ FREE_SHOP#S@ FRINGE_BENEFIT#S@ FUGGI_FUGGI#S@ FUORI_DA#E@ FUORI_DI#E@ FUORI_PORTA#A@ FUOR_DA#E@ GAME_BALL#S@ GARDEN_PARTY#S@ GENERAL_MANAGER#S@ GENTLEMAN_DRIVER#S@ GENTLEMAN_RIDER#S@ GENTLEMENS_AGREEMENT#S@ GIN_FIZZ#S@ GIN_TONIC#S@ GIRL_FRIEND#S@ GIRO_VITA#S@ GIU'_DI_CORDA#A@ GIU'_DI_GIRI#A@ GIU'_DI_MORALE#A@ GIU'_DI_TONO#A@ GLOBAL_ENVIRONMENT_FACILITY#S@ GLOBE_TROTTER#S@ GOLD-EXCHANGE_STANDARD#S@ GOLDEN_DELICIOUS#S@ GOLD_CARD#S@ GOLD_STANDARD#S@ GRANDE_UNITA'#S@ GRAND_COMMIS#S@ GRAND_PRIX#S@ GRAN_BRETAGNA#SP@ GRAPHIC_DESIGN#S@ GRAZIE_A#E@ D-65 Linea 1.2 - Treebank sintattico-semantica dell'italiano IN_VISIBILIO#B@ IN_VISTA#B@ IN_VISTA_DI#E@ IN_VOGA#B@ IPSE_DIXIT#S@ IRISH_COFFEE#S@ JAM_SESSION#S@ JET_LAG#S@ JET_POCKET#S@ JET_SET#S@ JET_SOCIETY#S@ JEUNESSE_DOREE#S@ JOINT_VENTURE#S@ JUMBO_JET#S@ JUMBO_TRAM#S@ JUNK_BOND#S@ KINGS_ENGLISH#S@ KNOW_HOW#S@ LAISSEZ_FAIRE#S@ LAMBS_WOOL#S@ LAME_DUCK#S@ LAND_ROVER#S@ LATIN_LOVER#S@ LAYOUT_MAN#S@ LA_REPUBBLICA#SP@ LEIT_MOTIV#S@ LEMME_LEMME#B@ LESA_MAESTA'#S@ LETTRE_DE_CACHET#S@ LEVERAGED_BUYOUT#S@ LIE_DETECTOR#S@ LIGHT_PEN#S@ LIVING_THEATRE#S@ LIVRE_DE_CHEVET#S@ LONGA_MANUS#S@ LONG_DRINK#S@ LONG_PLAY#A@ LONG_PLAYING#S@ LONG_SELLER#S@ LONTANO_DA#E@ LOVE_STORY#S@ LUNA_PARK#S@ LUNDA_DAI_CIUFFI#S@ MADE_IN_ITALY#S@ MAH_JONG#S@ MAIL_ORDER#S@ MAIN_MISE#S@ MAI_PIU'#B@ MAKE_UP#S@ MALA_CREANZA#S@ MALA_PARATA#S@ MANGIA_E_BEVI#S@ MAN_MANO_CHE#C@ MARE_MAGNUM#S@ MARRON_GLACE'#S@ MASS_MEDIA#S@ MATCH_BALL#S@ MATCH_POINT#S@ MATCH_WINNER#S@ MEDIA_EVENT#S@ MELTING_POT#S@ INTERNATIONAL_HERALD_TRIBUNE#SP@ INTER_VIVOS#A@ INTORNO_A#E@ INVECE_DI#E@ INVESTMENT_TRUST#S@ IN_AIUTO_DI#E@ IN_ALTERNATIVA_A#E@ IN_APPOGGIO_A#E@ IN_AUGE#B@ IN_AVANTI#B@ IN_BALLO#B@ IN_BASE_A#E@ IN_BILICO#B@ IN_BONACCIA#B@ IN_BRACCIO#B@ IN_BREVE#B@ IN_CASO_CHE#C@ IN_CIMA_A#E@ IN_CONFORMITA'_A#E@ IN_CONFRONTO_A#E@ IN_DIFESA_DI#E@ IN_DIPENDENZA_DI#E@ IN_DIREZIONE_DI#E@ IN_DISUSO#B@ IN_EFFETTI#B@ IN_ESSERE#B@ IN_EXTENSO#B@ IN_EXTREMIS#B@ IN_FIERI#B@ IN_FOGLIO#A@ IN_FOLIO#A@ IN_FORSE#B@ IN_FRETTA#B@ IN_GENERE#B@ IN_GIULEBBE#B@ IN_GRADO#B@ IN_GRADO_DI#E@ IN_LA'#B@ IN_LUOGO_DI#E@ IN_MERITO#B@ IN_MERITO_A#E@ IN_MEZZO_A#E@ IN_MODO_CHE#C@ IN_NUCE#B@ IN_PARAGONE_A#E@ IN_PARTICOLARE#B@ IN_PRIMIS#B@ IN_PROGRESS#A@ IN_QUANTO#C@ IN_RAPPORTO_A#E@ IN_RELAZIONE_A#E@ IN_RISALTO#B@ IN_SALVO#B@ IN_SEGUITO#B@ IN_SEGUITO_A#E@ IN_SOLLUCCHERO#B@ IN_SYLLABAM#A@ IN_TERMINI_DI#E@ IN_TESTA_A#E@ IN_TILT#B@ IN_TRANCE#B@ D-66 Linea 1.2 - Treebank sintattico-semantica dell'italiano NON_PLUS_ULTRA#S@ NON_POSSUMUS#S@ NON_STOP#B@ NOUVEAUX_PHILOSOPHES#S@ NOUVEAU_ROMAN#S@ NOUVELLE_CRITIQUE#S@ NOUVELLE_CUISINE#S@ NOUVELLE_VAGUE#S@ NO_COMMENT#S@ NO_CONTEST#S@ NO_FROST#S@ NUCLEAR_CONTROL_INSTITUTE#S@ NUDE_LOOK#S@ NULLA_OSTA#S@ NUMERUS_CLAUSUS#S@ NUOVI_FILOSOFI#S@ OFFICE_AUTOMATION#S@ OLLA_PODRIDA#S@ OLTRE_A#E@ OLTRE_CHE#C@ OLTRE_CONFINE#A@ OLTRE_FRONTIERA#A@ OLTRE_MISURA#B@ OPEN_SPACE#S@ OPINION_LEADER#S@ OPINION_MAKER#S@ OPTICAL_ART#S@ OP_ART#S@ ORA_COME_ORA#B@ OR_ORA#B@ PAESI_BASSI#SP@ PARTITO_POPOLARE#SP@ PAR_CONDICIO#S@ PASO_DOBLE#S@ PATER_FAMILIAS#S@ PAY_BACK#S@ PERSONAL_COMPUTER#S@ PER_ADESSO#B@ PER_ARIA#B@ PER_BENE#B@ PER_CASO#B@ PER_CENTO#B@ PER_CERTO#B@ PER_DI_PIU'#B@ PER_ESEMPIO#B@ PER_INCISO#B@ PER_INTANTO#B@ PER_INTERO#B@ PER_L'_APPUNTO#B@ PER_LO_MENO#B@ PER_LO_PIU'#B@ PER_MEZZO_DI#E@ PER_QUANTO_CONCERNE#E@ PER_QUANTO_RIGUARDA#E@ PER_SEMPRE#B@ PER_TRAVERSO#B@ PHOTO_FINISH#S@ PHYSIQUE_DU_ROLE#S@ PIDGIN_ENGLISH#S@ PIED_A'_TERRE#S@ PITCH_PINE#S@ MERCHANT_BANK#S@ METTEUR_EN_DANCE#S@ METTEUR_EN_SCENE#S@ MINE_DETECTOR#S@ MINIMAL_ART#S@ MINIMAL_MUSIC#S@ MINUS_HABENS#S@ MODERN_DANCE#S@ MODERN_STYLE#S@ MODUS_OPERANDI#S@ MODUS_VIVENDI#S@ MOON_BOOT#S@ MORAL_HAZARD#S@ MOTOR_OIL#S@ MOUNTAIN_BIKE#S@ MULTILATERAL_STEEL_AGREEMENT#S@ MULTILATERAL_TRADE_ORGANIZATION#S@ MUSIC_HALL#S@ NATIONAL_ACADEMIC_RECOGNITION_INFOR MATION_CENTRE#SP@ NATIONAL_RESEARCH_AND_EDUCATION_NE TWORK#S@ NAZIONI_UNITE#SP@ NEI_CONFRONTI_DI#E@ NEI_DINTORNI#B@ NEI_DINTORNI_DI#E@ NEI_PARAGGI#B@ NEI_PARAGGI_DI#E@ NEI_PRESSI#B@ NEI_PRESSI_DI#E@ NEI_RIGUARDI_DI#E@ NELL'_ARCO_DI#E@ NELLE_PESTE#B@ NELLE_VICINANZE#B@ NELLE_VICINANZE_DI#E@ NEL_CASO_CHE#C@ NEL_CONTEMPO#B@ NEL_CORSO_DI#E@ NEL_FRATTEMPO#B@ NEL_QUADRO_DI#E@ NEL_RISPETTO_DI#E@ NEL_SENSO_CHE#C@ NEW_DEAL#SP@ NEW_ENTRY#S@ NEW_LOOK#S@ NEW_STYLE#S@ NEW_WAVE#SP@ NEW_YORK#SP@ NEW_YORK_TIMES#SP@ NEW_YORK_TIT#SP@ NIENTEMENO_CHE#C@ NIENTE_DI_MENO#B@ NIENTE_DI_MENO_CHE#C@ NIGHT_CLUB#S@ NIGHT_LINE#S@ NIHIL_OBSTAT#S@ NINNA_NANNA#S@ NOM_DE_PLUME#S@ NONOSTANTE_CHE#C@ NONOSTANTE_IL_FATTO_CHE#C@ NON_EXPEDIT#S@ D-67 Linea 1.2 - Treebank sintattico-semantica dell'italiano SALES_MANAGER#S@ SALES_PROMOTION#S@ SALVO_CHE#C@ SANCTA_SANCTORUM#S@ SANTO_DOMINGO#SP@ SAN_VITTORE#SP@ SAVOIR_FAIRE#S@ SCHOLA_CANTORUM#S@ SCIENCE_FICTION#S@ SCIENCE_WRITER#S@ SELF-MADE_MAN#S@ SELF_CONTROL#S@ SELF_SERVICE#S@ SERBO_BOSNIACO#A@ SETTE_OTTAVI#S@ SET_BALL#S@ SET_POINT#S@ SEXY_STAR#S@ SEX_APPEAL#S@ SEX_SHOP#S@ SEX_SYMBOL#S@ SE_MAI#C@ SE_NO#C@ SE_NON_ALTRO#C@ SHOPPING_CENTER#S@ SHOW_BUSINESS#S@ SHOW_ROOM#S@ SINE_DIE#B@ SINE_QUA_NON#B@ SINKING_FUND#S@ SINO_A#E@ SITUATION_COMEDY#S@ SKI_STOPPER#S@ SLEEPING_CAR#S@ SLOT_MACHINE#S@ SNACK_BAR#S@ SOAP_OPERA#S@ SOFT_COPY#S@ SOFT_LANDING#S@ SOPRA_A#E@ SOTTO_A#E@ SOTTO_FORMA_DI#E@ SOUL_JAZZ#S@ SOUL_MUSIC#S@ SPACE_SHUTTLE#S@ SPARRING_PARTNER#S@ SPORT_FISHERMAN#S@ STANTE_CHE#C@ STAR_SYSTEM#S@ STATION_WAGON#S@ STATI_UNITI#SP@ STATUS_QUO#S@ STATUS_SYMBOL#S@ STATU_QUO#S@ STOCK_CAR#S@ SUI_GENERIS#A@ SUNCUS_ETRUSCUS#S@ SUNDAY_TIMES#S@ SUO_MALGRADO#B@ SUPERCOMPUTING_NETWORK_NEARER#S@ SURF_CASTING#S@ PIU'_IN_ALTO_DI#E@ PIU'_IN_LA'_DI#E@ PIU'_IN_SU_DI#E@ PIUTTOSTO_CHE#C@ PLUM_CAKE#S@ PLURALIS_MAIESTATIS#S@ POCKET_BOOK#S@ POCKET_COMPUTER#S@ POLE_POSITION#S@ PONY_EXPRESS#S@ POP_ART#S@ POP_MUSIC#S@ POP_SINGER#S@ POP_STAR#S@ POST_COURIER#S@ POST_MORTEM#B@ POST_SCRIPTUM#S@ POT_POURRI#S@ POWER_REACTOR_AND_NUCLEAR_FUEL_DEV ELOPMENT_CORPORATION#SP@ PREPARATORY_SCHOOL#S@ PRESS_AGENT#S@ PRIMA_CHE#C@ PRIMA_DI#E@ PRIME_RATE#S@ PRIME_TIME#S@ PRIMUS_INTER_PARES#S@ PRODUCT_MANAGER#S@ PROJECT_MANAGER#S@ PRO_CAPITE#B@ PRO_TEMPORE#B@ PSICO_FISICAMENTE#B@ PUBLIC_RELATIONS#S@ PUBLIC_RELATIONS_MAN#S@ PUNCHING_BAG#S@ PUNCHING_BALL#S@ PUNCTUM_DOLENS#S@ PUR_SEMPRE#B@ PUR_TUTTAVIA#B@ QUANTO_A#E@ QUI_PRO_QUO#S@ RACING_TEAM#S@ RADICAL_CHIC#A@ RARA_AVIS#S@ RAT_MUSQUE'#S@ RAZ_DE_MAREE#S@ RC_AUTO#S@ REDDE_RATIONEM#S@ REFUGIUM_PECCATORUM#S@ REGNO_UNITO#SP@ RETOUR_MATCH#S@ RHYTHM_AND_BLUES#S@ RIGOR_MORTIS#S@ RISPETTO_A#E@ ROAD_MOVIE#S@ ROAST_BEEF#S@ ROCK_AND_ROLL#S@ ROCK_JAZZ#S@ ROLL_BAR#S@ ROOF_GARDEN#S@ SALES_ANALYSIS#S@ D-68 Linea 1.2 - Treebank sintattico-semantica dell'italiano VALE_A_DIRE#B@ VALE_A_DIRE_CHE#C@ VAL_D'_AOSTA#SP@ VENTURE_CAPITAL#S@ VENTURE_CAPITALIST#S@ VIA_CRUCIS#S@ VICE_VERSA#B@ VICINO_A#E@ VIDEO_ART#S@ VISITING_PROFESSOR#S@ WALL_STREET#SP@ WALL_STREET_JOURNAL#SP@ WALT_DISNEY#SP@ WAR_GAME#S@ WATCH_LIST#S@ WATER_CLOSET#S@ WATER_POLO#S@ WAY_OF_LIFE#S@ WAY_TO_DO#S@ WEEK_END#SW@ WEST_GLOUCESTERSHIRE#S@ WEST_MIDLANDS#S@ WIND_SHEAR#S@ WORD_PROCESSING#S@ WORD_PROCESSOR#S@ WORK_IN_PROGRESS#S@ WORLD_TRADE_CENTER#S@ YORKSHIRE_TERRIER#S@ SUSSEX_RESEARCH_ASSOCIATES_LIMITED#S @ SU_DI_GIRI#A@ TALENT_SCOUT#S@ TALK_SHOW#SW@ TAM_TAM#S@ TANTO_CHE#C@ TANTO_E'_VERO_CHE#C@ TANTO_VALE#C@ TAPE_MONITOR#S@ TAPE_RECORDER#S@ TAPIS_ROULANT#S@ TAP_DANCE#S@ TASK_FORCE#S@ TAXI_GIRL#S@ TE'TE_A'_TE'TE#S@ TEACHING_MACHINE#S@ TEAM_TEACHING#S@ TEDDY_BOY#S@ TEEN_AGER#S@ TEL_AVIV#SP@ THE_ECONOMIST#SP@ THE_TIMES#S@ THE_WEEKLY_MAIL#S@ TIE_BREAK#S@ TOMBEUR_DE_FEMMES#S@ TOP_CLASS#S@ TOP_MANAGEMENT#S@ TOP_MANAGER#S@ TOP_MODEL#S@ TOP_RATE#S@ TOP_SECRET#A@ TOP_SPIN#S@ TOP_TEN#S@ TOUR_DE_FORCE#S@ TOUR_LEADER#S@ TOUR_OPERATOR#S@ TOUT_COURT#B@ TOUT_LE_MEME#S@ TRADE_CENTER#S@ TRADE_MANAGER#S@ TRADE_UNION#S@ TRADING_COMPANY#S@ TRAIT_D'_UNION#S@ TRAIT_DUNION#S@ TRAN_TRAN#S@ TRENTINO_ALTO_ADIGE#SP@ TROBAR_CLUS#S@ TURN_OVER#S@ TUTT'_AL_PIU'#B@ TWIN_SET#S@ UNA_TANTUM#S@ UNIONE_EUROPEA#SP@ UNIONE_SOVIETICA#SP@ UNITED_KINGDOM#SP@ UNIVERSITY_OF_EAST_ANGLIA#SP@ UN_CHE#S@ UN_NON_SO_CHE#S@ UN_QUID#S@ UN_TANTO#S@ UP_TO_DATE#A@ D-69