Giulia Venturi Rassegna comparativa degli schemi di annotazione morfosintattica per la lingua italiana TRIPLE - RTT/1 Rapporto Tecnico 23 febbraio 2009 Tavolo di Ricerca sulla Parola e il Lessico Dipartimento di Linguistica Università Roma Tre Indice 1 2 3 4 5 6 Introduzione ............................................................................................................................3 Rassegna degli schemi di annotazione morfosintattica .............................................................5 2.1 Schemi di annotazione morfosintattica per l’italiano scritto..............................................6 2.2 Schemi di annotazione morfosintattica per l’italiano parlato...........................................19 Analisi comparativa degli schemi di annotazione per categoria morfosintattica......................25 3.1 Aggettivi........................................................................................................................26 3.2 Avverbi..........................................................................................................................32 3.3 Congiunzioni .................................................................................................................37 3.4 Articoli e determinanti (determinatori) ...........................................................................43 3.5 Interiezioni.....................................................................................................................48 3.6 Numerali........................................................................................................................50 3.7 Preposizioni ...................................................................................................................54 3.8 Pronomi .........................................................................................................................59 3.9 Nomi..............................................................................................................................65 3.10 Verbi..............................................................................................................................72 3.11 Punteggiatura .................................................................................................................80 3.12 Categorie residue ...........................................................................................................82 Analisi delle dimensioni di criticità degli schemi di annotazione............................................85 Sviluppi futuri: verso l’annotazione sintattica ........................................................................94 Bibliografia ...........................................................................................................................96 2 1 Introduzione Il presente Rapporto Tecnico contiene un’analisi comparativa degli schemi di annotazione morfosintattica esistenti per la lingua italiana scritta e parlata. Tale confronto prende le mosse dai precedenti riportati in Monachini et alii, 1992 e in Barbera et alii, 2007 differenziandosi innanzitutto negli obiettivi. Lo scopo del presente confronto è triplice e finalizzato a: a) fornire una rassegna degli schemi di annotazione esistenti per la lingua italiana impiegati nell’annotazione di corpora scritti e parlati; b) individuare le dimensioni di variazione più significative e informative relative alla codifica delle categorie morfosintattiche associate ad una singola parola; c) mettere in luce alcuni aspetti particolarmente problematici del lavoro di codifica dell’informazione morfosintattica, nonché alcune zone d’ombra definite in modo non chiaro dagli schemi esaminati. Un tale approccio ha l’obiettivo da un lato di fare il punto sullo stato dell’arte in materia di definizione di schemi di annotazione per la lingua italiana; dall’altro di contribuire a mettere in luce quali tra gli aspetti di codifica dell’informazione linguistica a livello morfosintattico non sono trattati in modo uniforme dagli schemi di annotazione esistenti. L’analisi di una serie di aspetti problematici sia da un punto di vista linguistico-teorico sia da un punto di vista computazionaleapplicativo è tra gli obiettivi di questo Rapporto Tecnico, piuttosto che la definizione del contenuto di un nuovo schema di annotazione. La metodologia di confronto interlinguistico risulta inoltre essere un’altra caratteristica specifica della presente analisi. Il lavoro svolto non mira infatti a mettere in rapporto diretto gli schemi ad oggi esistenti per l’italiano con quelli sviluppati per altre lingue europee. Le scelte operate in ambito di codifica della lingua inglese, in particolare, sono tenute in considerazione piuttosto per realizzare un confronto con quelle operate per l’italiano rispetto a quelle zone più problematiche che sono state individuate. La rassegna comparativa tra gli schemi di annotazione sintattica esistenti per la lingua italiana è infine tra i possibili sviluppi futuri del presente Rapporto. Dal momento che livelli diversi di annotazione linguistica del testo pongono problemi specifici di rappresentazione dell’informazione linguistica, in questo contesto si è deciso di limitarsi alla descrizione dell’approccio metodologico che si intenderà seguire. Verranno pertanto delineate le maggiori dimensioni di variazione che potranno essere seguite in una futura indagine sugli schemi di annotazione sintattica esistenti per la lingua italiana e impiegati nell’annotazione di corpora scritti e parlati. Il presente Rapporto è organizzato nel modo seguente: la Sezione 2 fornisce una descrizione degli schemi di annotazione morfosintattica esistenti per la lingua italiana scritta e parlata oggetto dell’analisi comparativa condotta. Il confronto tra gli schemi selezionati rispetto alle singole categorie morfosintattiche e ad una serie di parametri di variazione connessi alla codifica dell’informazione linguistica è sviluppato nella Sezione 3 e seguenti. La Sezione 4 riporta alcune dimensioni generali di criticità individuate durante il confronto, nonché alcuni aspetti problematici specifici. Infine, alcune motivazioni che giustificano la necessità di affrontare in modo dettagliato e a sé stante un confronto tra schemi di annotazione del livello sintattico di informazione linguistica sono esposte nella Sezione 5. 3 Il presente Rapporto Tecnico nasce nell’ambito delle attività di ricerca del laboratorio TRIPLE (Tavolo di Ricerca sulla Parola e il Lessico), attivo presso il Dipartimento di Linguistica dell’Università di Roma Tre. Desidero pertanto ringraziare il professor Raffaele Simone e la dottoressa Francesca Masini per i loro consigli e le loro attente revisioni del lavoro da me svolto. Tale Rapporto è stato realizzato nell’ambito della mia attività di ricerca presso l’Istituto di Linguistica Computazionale del CNR di Pisa. Desidero pertanto ringraziare i membri del gruppo di ricerca di cui faccio parte e in particolare Simonetta Montemagni e Alessandro Lenci per la cura costante con cui mi hanno seguita nella redazione di questo Rapporto Tecnico. 4 2 Rassegna degli schemi di annotazione morfosintattica Lo scopo di questa sezione è quello di fornire la descrizione degli schemi di annotazione morfosintattica esistenti per la lingua italiana scritta e parlata rispetto ai quali è stato condotto un confronto comparativo. Sono stati considerati i seguenti 12 schemi: • lo schema definito nell’ambito del progetto europeo EAGLES (Expert Advisory Group for Language Engineering Standards), • lo schema utilizzato nell’annotazione del corpus LaRepubblica, • lo schema utilizzato a livello di annotazione morfosintattica della Turin University Treebank (TUT), • lo schema distribuzionale, sintatticamente orientato, utilizzato nell’annotazione del corpus CORIS/CODIS, • lo schema utilizzato nell’annotazione di CoLFIS (Corpus e Lessico di Frequenza dell’Italiano Scritto), • i due schemi progettati esplicitamente per il sistema di annotazione a regole (tagger) TreeTagger di Schmid, quello con i parametri sviluppati da Achim Stein e quello con i parametri sviluppati da Marco Baroni, • lo schema utilizzato nell’annotazione del Corpus Taurinense (CT), • lo schema utilizzato a livello di annotazione morfosintattica della Venice Italian Treebank (VIT), • lo schema utilizzato nell’annotazione del corpus AVIP/API, • lo schema definito nell’ambito del progetto “Dialoghi Annotati”, • lo schema utilizzato nell’annotazione della famiglia dei corpora LABLITA. Nella rassegna descrittiva che segue è stata innanzitutto operata una distinzione tra gli schemi impiegati per la codifica dell’informazione contenuta in testi di lingua scritta o parlata. Ne è emerso che la maggior parte degli schemi (9 su 12) sono stati appositamente progettati e sviluppati per la lingua scritta. Uno tra questi, lo schema VIT, è utilizzato indifferentemente per l’annotazione sia di un corpus di lingua scritta sia di uno di lingua parlata. Lo schema sviluppato per il TreeTagger di Schmid, con i parametri di Marco Baroni, e progettato per l’annotazione di lingua scritta è usato, senza modifiche, per l’annotazione del “Corpus di Italiano Televisivo” (CiT). I 3 schemi usati per l’annotazione di corpora di lingua parlata, sono estensioni di schemi pensati per la lingua scritta e adattati per il trattamento di alcune specificità del parlato. Nella rassegna che segue la descrizione dei singoli schemi tiene in considerazione i seguenti aspetti: a) il numero di categorie morfosintattiche previste, b) il tipo di etichette morfosintattiche previste (categoriali o funzionali), c) la presenza di tratti morfologici e/o di altra natura (sintattica o semantica), d) la descrizione del corpus di riferimento (se presente), e) la modalità di annotazione seguita nell’utilizzo dello schema (manuale o automatica), f) la presenza di criteri di annotazione (se disponibili), g) all’interno delle modalità di applicazione dello schema, il trattamento della dimensione polirematica (quando disponibile). 5 2.1 Schemi di annotazione morfosintattica per l’italiano scritto Schema di annotazione previsto dallo standard EAGLES 1) Descrizione dello schema di annotazione Lo schema prevede complessivamente l’utilizzo di 12 categorie morfosintattiche, alle quali sono associate le rispettive sottocategorie classificatorie e i tratti morfologici relativi, come illustrato nella seguente tabella riassuntiva: Categorie morfosintattiche Sottocategoria classificatoria associata Aggettivo + Articolo + Avverbio Congiunzione + Determinatore + Interiezione Adposizione + Nome + Numerale + Verbo + Pronome + Residuo Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene • etichette morfosintattiche categoriali (la maggior parte), • etichette funzionali, cioè la categoria “Determinatore”. 2) Descrizione del corpus di riferimento Tale schema si configura come una serie di raccomandazioni per l’uniformità nell’annotazione morfosintattica di corpora di italiano scritto (Monachini 1996). La possibilità di raggiungere uno standard comune europeo è stata realizzata nell’ambito del progetto europeo EAGLES (Expert Advisory Group for Language Engineering Standards) . 3) Criteri di annotazione In questo caso, piuttosto che di criteri di annotazione, è più preciso parlare di criteri di definizione dello schema, la descrizione cioè del contenuto dello schema, più che le modalità di associazione dell’informazione linguistica al dato testuale. Tali criteri sono disponibili alla pagina http://www.ilc.cnr.it/EAGLES/elm_it/elm_it.html 3.1) Trattamento della dimensione polirematica Le raccomandazioni EAGLES non prevedono l’annotazione delle unità polirematiche. 6 Schema di annotazione utilizzato per l’annotazione del Corpus La Repubblica1 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 19 categorie morfosintattiche, con rispettive sottocategorie classificatorie, come illustrato nella seguente tabella riassuntiva: Categorie morfosintattiche Sottocategoria classificatoria associata Aggettivo Articolo + Ausiliare + Avverbio + Che Clitico Congiunzione Determinante + Elemento non linguistico Negazione Nome Nome proprio Numero Preposizione Pronome + Punteggiatura di fine frase Punteggiatura non di fine frase Verbo + Wh Non è prevista l’annotazione di tratti morfologici. Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene • etichette morfosintattiche categoriali (la maggior parte), • etichette funzionali, cioè la categoria “Determinante”, • etichette che non hanno una definizione morfologica specifica, cioè la categoria “Clitico”, “Che”, “Wh”. 2) Descrizione del corpus di riferimento Il corpus di riferimento usato per l’applicazione di questo schema di annotazione è il corpus La Repubblica, costituito da testi tratti dal quotidiano nazionale del periodo 1985-2000 per un totale di circa 380 milioni di parole. Tutti i testi del corpus sono stati segmentati in unità-parola (tokens), annotati a livello morfosintattico, lemmatizzati (con l’aggiunta di informazione morfologica relativa) e classificati rispetto al genere (i.e. notizie, commenti) e all’argomento. Il corpus è liberamente interrogabile al sito http://dev.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica 3) Modalità di annotazione seguita nell’utilizzo dello schema Il corpus La Repubblica è stato annotato a livello morfosintattico in modo automatico utilizzando il TreeTagger2 (Schmid 1994) come annotatore (tagger) stocastico, addestrato con risorse ad hoc. 1 La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento a Baroni et alii, 2004. 2 Cfr. http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html 7 Sono stati inoltre condotti una serie di esperimenti di annotazione automatica per verificare la prestazione di singoli annotatori (tagger) e di una combinazione di più annotatori, rispetto allo schema di annotazione definito (per una descrizione dettagliata dei risultati cfr. Baroni et alii, 2004). 4) Criteri di annotazione Non sono disponibili criteri di annotazione. 4.1) Trattamento della dimensione polirematica Anche in merito al trattamento della dimensione polirematica, non sono disponibili espliciti criteri. Ricerche condotte direttamente sul corpus hanno rivelato che • i clitici in enclisi non sono stati considerati un elemento a sé stante, ma un’unità parola unica con il verbo a cui sono legati; • le categorie morfosintattiche sono state assegnate ad ogni singola unità-parola; pertanto non sono state considerate locuzioni di alcun tipo. Schema di annotazione utilizzato per l’annotazione della Turin University Treebank (TUT)3 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 16 categorie morfosintattiche, con rispettive sottocategorie classificatorie, e relative etichette di sottocategorizzazione morfologica, sintattica e semantica, come illustrato nella seguente tabella riassuntiva: Categorie morfosintattiche Sottocategoria classificatoria associata Aggettivo + Articolo + Avverbio + Congiunzione + Data Interiezione Marker Nome + Numero Frasale Predeterminante Preposizione + Pronome + Punteggiatura Speciale Verbo + Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene 3 La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento ai documenti disponibili alla pagina http://www.di.unito.it/~tutreeb/ 8 • • etichette morfosintattiche categoriali (la maggior parte), etichette funzionali, cioè la categoria “Predeterminante” e “Frasale”. 2) Descrizione del corpus di riferimento Il corpus di riferimento usato per l’applicazione di questo schema di annotazione include due sottocorpus: • un corpus di testi giuridici, costituito da 1.100 frasi parte del Codice Civile italiano; • un corpus di articoli giornalistici per un totale di 1.100 frasi, di cui o 400 frasi estratte da La Stampa e La Repubblica, o 600 frasi da quotidiani e riviste sull’Albania, o 100 frasi estratte da testi accademici e romanzi. Il corpus è liberamente interrogabile al sito http://www.di.unito.it/~tutreeb/ 3) Modalità di annotazione seguita nell’utilizzo dello schema Il corpus di riferimento è stato annotato • a livello morfosintattico in modo automatico, utilizzando un annotatore (tagger) a regole sviluppate manualmente [Boella e Lesmo, 1998]; • a livello sintattico in modo automatico, utilizzando un annotare (parser) a regole sviluppate manualmente [Lesmo et alii, 2002], con la finalità di fornire una rappresentazione sintattica a dipendenze del corpus di riferimento. 4) Criteri di annotazione Non sono disponibili espliciti criteri di annotazione. 4.1) Trattamento della dimensione polirematica Lo schema prevede il riconoscimento di due tipi di locuzioni: • locuzioni fisse, sequenza invariabile di unità-parola (tokens), la cui struttura interna è incompatibile con le regole standard della grammatica, non è soggetta a fenomeni di variabilità morfologica e a inserzioni di parole extra (es. a_pezzo_a_pezzo/*a_piccolo_pezzo_a_piccolo_pezzo); tale tipologia di locuzione viene trattata innanzitutto a livello di annotazione morfosintattica; • locuzioni flessibili, sequenza di unità-parola (tokens), la cui struttura interna è compatibile con le regole standard della grammatica, è soggetta a fenomeni di variabilità morfologica e a inserzioni di parole extra (es. aver_bisogno/aver_tanto_bisogno); tale tipologia viene trattata esclusivamente a livello di annotazione sintattica. Nel caso di locuzioni fisse, l’annotazione implica che in fase di segmentazione (tokenizzazione) del testo in unità-parola le locuzioni sono state considerate un elemento unico a cui viene attribuita un’unica categoria a livello di annotazione morfosintattica e a cui viene aggiunta l’etichetta LOCUTION. Tale etichetta viene aggiunta alle seguenti categorie: aggettivi, avverbi, congiunzioni, preposizioni, nomi. È poi al livello di annotazione sintattica che viene specificato il tipo di locuzione con l’etichetta CONTIN+LOCUT. 9 Schema di annotazione distribuzionale, sintatticamente orientato 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 12 categorie morfosintattiche, con rispettive sottocategorie classificatorie, come illustrato nella seguente tabella riassuntiva: Aggettivo Avverbio Verbo Nome Entities Relative Subordinator Coordinator Argument-Operator Prepositional Punctuation mark Simbolo Categorie morfosintattiche Sottocategoria classificatoria associata + + + - Non è prevista l’annotazione di tratti morfologici. Come è possibile valutare dalla lista delle categorie previste, lo schema contiene • etichette morfosintattiche categoriali (“Aggettivo”, “Avverbio”, “Nome”, “Verbo”, “Preposizione”, “Coordinator”), • categorie che non hanno una definizione morfologica, ma che tengono conto di relazioni sintattiche fondamentali e di informazione distribuzionale, cioè o la categoria “Entities”, che contiene pronomi o parole che si comportano come pronomi; o la categoria “Relative”, che contiene sia pronomi sia avverbi quando si comportano sintatticamente nello stesso modo; o la categoria “Subordinator”, che contiene parole che collegano un sintagma principale e uno subordinato; in questo caso, anche le sottocategorie classificatorie riflettono il comportamento sintattico-distristribuzionale delle parole a cui sono associate, comprendendo sia elementi testa di una frase subordinata che modifica una principale (es. “… si applicano quando si tratta di togliere un ingombro …”) sia elementi testa di una frase che dipende da una testa verbale (es. “… salvo che esigenze tecniche impongano di costruirlo …”); o la categoria “Argument-Operator”, che comprende sia determinanti (cioè articoli, pronomi) sia preposizioni che svolgono una funzione di testa in strutture argomentali che dipendono da un verbo. Tale tipo di schema è il risultato di un processo di induzione automatica realizzato con un algoritmo illustrato in Berardi et alii, 2006. Le categorie che non hanno una definizione morfologica sono state definite in base alla distribuzione sintattica delle parole all’interno della Turin University Treebank. L’obiettivo era quello di creare una classificazione di categorie non decisa a priori, ma fondata empiricamente. 2) Descrizione del corpus di riferimento Tale schema di annotazione è stato sviluppato per due finalità: 10 • • l’annotazione del CORIS/CODIS (Rossini Favretti et alii, 2002), un corpus di 100 milioni di parole costituito da testi giornalistici e di narrativa rappresentativi dell’italiano attuale4; l’annotazione di un corpus di 133.756 unità-parole (tokens) utilizzato in fase di addestramento dei sistemi di annotazione automatica (tagger) nell’ambito della competizione EVALITA 20075 3) Modalità di annotazione seguita nell’utilizzo dello schema Lo schema è stato utilizzato in EVALITA 2007 per la valutazione dei sistemi esistenti per l’annotazione automatica (tagger) di parti del discorso per la lingua italiana. 4) Criteri di annotazione La descrizione non tanto dei criteri di annotazione, quanto delle categorie distribuzionali parte dello schema, è disponibile alla pagina http://evalita.fbk.eu/2007/tasks/Guidelines_evalita07_POSTag.pdf 4.1) Trattamento della dimensione polirematica Lo schema non prevede il trattamento della dimensione polirematica. Schema di annotazione utilizzato per l’annotazione di CoLFIS (Corpus e Lessico di Frequenza dell’Italiano Scritto)6 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 14 categorie morfosintattiche, alle quali in un caso è associata una rispettiva sottocategoria classificatoria, come illustrato nella seguente tabella riassuntiva: Categorie morfosintattiche Sottocategoria classificatoria associata Articolo Aggettivo Avverbio Congiunzione Interiezione Nome proprio Numerale Preposizione Pronome Punteggiatura Sostantivo Verbo + Parola sconosciuta Simbolo 4 Maggiori informazioni sul corpus, nonché la possibilità di accedere al corpus stesso, sono disponibili alla pagina http://corpora.dslo.unibo.it/coris_ita.html 5 Gli atti di EVALITA 2007 sono disponibili alla pagina http://evalita.fbk.eu/2007/proceedings.html 6 La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento alla pagina http://alphalinguistica.sns.it/CoLFIS/CoLFIS_Presentazione.htm 11 Non è prevista l’annotazione di tratti morfologici. Come è possibile valutare dalla lista delle categorie previste, lo schema contiene unicamente etichette morfosintattiche categoriali. Lo schema è stato definito in seguito ad un processo semi-automatico di lemmatizzazione del corpus di riferimento. La lemmatizzazione è stata realizzata, in prima battuta, in modo automatico con un lemmatizzatore messo a disposizione dalla IBM Italia, attraverso la persona dell’Ingegner Federico Mancini. Si tratta dello stesso lemmatizzatore che è stato utilizzato per la lemmatizzazione del corpus di parlato LIP (De Mauro et alii, 1993). Sulla base di decisioni prese all’interno del gruppo di ricerca, sono stati apportati, in seconda battuta, una serie di cambiamenti con procedure che hanno agito automaticamente o manualmente sull’output del lemmatizzatore7. 2) Descrizione del corpus di riferimento Il corpus CoLFIS usato per l’applicazione di questo schema di annotazione è costituito da testi tratti da quotidiani del periodo 1992-1994 (La Repubblica, La Stampa, Il Corriere della Sera), periodici e libri (tra i quali anche libri letti per motivi scolastici o professionali), per un totale di 3.798.275 ricorrenze lessicali, così ripartite: • quotidiani: 1.836.119 • periodici: 1.306653 • libri: 655.503 Per una descrizione più dettagliata del corpus si veda Laudanna et alii, 1995. 3) Modalità di annotazione seguita nell’utilizzo dello schema A ciascuna forma e a ciascun lemma ricorrente nel corpus è stato associato in modo manuale un’etichetta corrispondente ad una delle categorie morfosintattiche dello schema. 4) Criteri di annotazione È importante sottolineare che i criteri seguiti in fase di annotazione morfologica di CoLFIS sono stati per lo più influenzati da quelli seguiti durante i processi di lemmatizzazione e di revisione dell’output automatico della prima fase di lemmatizzazione. I criteri di lemmatizzazione sono disponibili alla pagina http://alphalinguistica.sns.it/CoLFIS/CriteridiLemmatizzazione.htm 4.1) Trattamento della dimensione polirematica I criteri di annotazione prevedono che le parole sintagmatiche siano contrassegnate dal simbolo @. In questo caso, il simbolo @ può trovarsi: • in combinazione con una categoria grammaticale, come nel caso del sintagma avverbiale qua_e_là, al quale è stata associata la categoria B@, ad indicare che si tratta di una “parola sintagmatica avverbiale”; • in una combinazione di categorie grammaticali, come nel caso in cui all’avverbio qua sia stata associata la combinazione di categorie grammaticali B IN B@, ad indicare che tale avverbio (B) occorre come avverbio in una “parola sintagmatica avverbiale” (IN B@). 7 Per una rassegna dettagliata di tali cambiamenti http://alphalinguistica.sns.it/CoLFIS/CriteridiLemmatizzazione.htm 12 Schema di annotazione sviluppato da Achim Stein per il TreeTagger 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 15 categorie morfosintattiche, alle quali sono associate le rispettiva sottocategorie classificatorie, come illustrato nella seguente tabella riassuntiva: Abbreviazione Aggettivo Avverbio Congiunzione Determinante Interiezione Nome Nome proprio Numerale Punteggiatura Preposizione Pronome Sentence marker Simbolo Verbo Categorie morfosintattiche Sottocategoria classificatoria associata + + + + Non è prevista l’annotazione di tratti morfologici. Come è possibile valutare dalla lista delle categorie previste, lo schema contiene unicamente etichette morfosintattiche categoriali. La categoria “Determinante”, a dispetto dell’etichetta funzionale utilizzata, è in realtà associata unicamente alla categoria ‘articolo’. 2) Descrizione del corpus di riferimento Tale schema è usato da una serie di corpora sviluppati dal gruppo di ricerca di Carla Marello e Manuel Barbera presso il Dipartimento di Scienze Letterarie e Filologiche dell’università di Torino (cfr. Barbera et alii, 2007). I corpora sono liberamente disponibili e interrogabili alla pagina http://www.bmanuel.org/projects/index.html Nel confronto tra schemi di annotazione è stato scelto il NUNC (Newsgroups UseNet Corpora) come corpus di riferimento di tale schema (Corino 2007). 3) Modalità di annotazione seguita nell’utilizzo dello schema Lo schema è stato disegnato esplicitamente per il sistema di annotazione a regole (tagger) TreeTagger8 di Schmid (1994) con i parametri sviluppati da Achim Stein. 4) Criteri di annotazione Non sono disponibili espliciti criteri di annotazione. Pertanto, le informazioni relative ai criteri piuttosto che alla semplice analisi dello schema di annotazione sono state reperite da ricerche condotte direttamente sul corpus di riferimento scelto, cioè il NUNC. 8 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html 13 4.1) Trattamento della dimensione polirematica Lo schema non prevede il trattamento della dimensione polirematica. Schema di annotazione sviluppato da Marco Baroni per il TreeTagger 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 12 categorie morfosintattiche, alle quali sono associate le rispettiva sottocategorie classificatorie, come illustrato nella seguente tabella riassuntiva: Abbreviazione Aggettivo Avverbio Clitico Congiunzione Determinante Interiezione Sostantivo Nome proprio Preposizione Pronome Verbo Categorie morfosintattiche Sottocategoria classificatoria associata + + + + + + + Non è prevista l’annotazione di tratti morfologici. Come è possibile valutare dalla lista delle categorie previste, lo schema contiene unicamente etichette morfosintattiche categoriali. La categoria “Determinante”, a dispetto dell’etichetta funzionale utilizzata, è in realtà associata unicamente alla categoria ‘articolo’. Lo schema prevede inoltre anche un’etichetta che non ha una definizione morfologica specifica, cioè la categoria “Clitico”. 2) Descrizione del corpus di riferimento Lo schema è stato utilizzato per l’annotazione grammaticale del “Corpus di Italiano Televisivo” (CiT)9, una raccolta di testi trascritti in formato elettronico per un totale di 250.000 parole estratte da trasmissioni televisive (Spina 2000). La trascrizione ortografica delle trasmissioni, con l’esclusione dei segni di punteggiatura, è stata considerata il punto di partenza per la fase di annotazione grammaticale. 3) Modalità di annotazione seguita nell’utilizzo dello schema Lo schema è stato disegnato esplicitamente per il sistema di annotazione a regole (tagger) TreeTagger10 di Schmid (1994) con i parametri sviluppati da Marco Baroni. L’annotazione ha previsto una prima fase automatica in cui ciascuna parola è associata ad una categoria grammaticale 9 Cfr. http://www.sspina.it/cit/cit.htm http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html 10 14 tramite il software dell'Università di Stoccarda, e una seconda manuale, in cui sono stati corretti gli errori e lo schema di annotazione previsto dal sistema è stato ampliato e adattato al CiT. 4) Criteri di annotazione Non sono disponibili criteri di annotazione. 4.1) Trattamento della dimensione polirematica Lo schema prevede che le parole polirematiche abbiano una marca specifica, tuttavia non sono forniti espliciti criteri relativi al trattamento della dimensione polirematica. Schema di annotazione utilizzato per l’annotazione del Corpus Taurinense11 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 12 categorie morfosintattiche, con rispettive sottocategorie classificatorie, e i tratti morfologici relativi, come illustrato nella seguente tabella riassuntiva: Categorie morfosintattiche Sottocategoria classificatoria associata Adposizione + Aggettivo + Articolo + Avverbio + Congiunzione + Interiezione Nome + Numerale + Pronome+ determinante Punteggiatura + Residuo + Verbo + Lo schema segue sostanzialmente le specifiche proposte dallo standard EAGLES, adattando tuttavia il sistema di etichette ad alcune specificità del corpus di riferimento. Ad esempio, per rendere conto di elementi come meco, teco, seco, presenti in testi di italiano scritto antico, è stata introdotta la sottocategoria classificatoria “postposizione”, associata alla categoria morfosintattica “Adposizione”, quando invece lo standard EAGLES prevedeva la sottocategoria unica “preposizione”. Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene • etichette morfosintattiche categoriali (la maggior parte), • etichette funzionali, cioè la categoria “pronome-determinante”, assegnata sia a pronomi sia a parole che svolgono una funzione di ‘determinante’. «Si tratta, in pratica, di una classe 11 La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento a Barbera et alii, 2007. 15 arbitraria a definizione morfologica», risultato delle riflessioni svolte in Barbera e Marello, 2003. È importante sottolineare che i tratti ‘tempo’ e ‘modo’ associati alla categoria “Verbo” in tale schema sono stati considerati sottocategorie piuttosto che tratti associati. 2) Descrizione del corpus di riferimento Il “Corpus Taurinense” è il corpus di riferimento usato per l’applicazione di questo schema di annotazione. È una collezione di testi fiorentini del XIII secolo, che raccoglie un totale di 259.299 unità-parola (tokens), sottoparte del TLIO (Tesoro della Lingua Italiana delle Origini). I documenti sono stati lemmatizzati, annotati a livello morfosintattico e arricchiti con informazioni relative alla struttura testuale, al genere letterario e alla forma filologica. Per maggiori dettagli, le caratteristiche del corpus, nonché il corpus stesso, sono liberamente interrogabili al sito http://www.bmanuel.org/projects/ct-HOME.html 3) Modalità di annotazione seguita nell’utilizzo dello schema Il Corpus Taurinense «è stato etichettato semi-manualmente e disambiguato con microregole». 4) Criteri di annotazione Secondo quanto affermato in Barbera et alii, 2007, in fase di annotazione le etichette morfosintattiche sono state assegnate «ad ogni singola parola», pertanto • in fase di segmentazione del testo in unità-parola (tokenizzazione) gli elementi «grafoclitici», cioè i clitici in enclisi, gli articoli delle preposizioni articolate, le preposizioni in posizione postposta (“postposizioni”), sono stati considerati un elemento unico a cui è stata attribuita la rispettiva categoria morfosintattica; • non è stato possibile assegnare etichette «compatte» ai passivi e ai tempi composti; • le locuzioni sono state considerate come un tratto di sottocategorizzazione morfologica. 4.1) Trattamento della dimensione polirematica I criteri di annotazione della dimensione polirematica si basano sulla concezione che le locuzioni siano trattabili come forma di sottocategorizzazione «perché, comunque, si distribuiscono su più categorie morfosintattiche». Tale approccio prevede che le parole polirematiche siano annotate con l’etichetta di sottocategorizzazione morfologica “loc” (locuzione). Sono previste locuzioni costituite da due a nove costituenti. In aggiunta, il valore “const” (costituente) «è attribuito alle singole parti costituenti la polirematica». Tale valore viene attribuito in associazione • ad un lemma che può avere una serie predefinita di categorie morfosintattiche, nel caso che almeno una sua forma sia attestata anche al di fuori della polirematica, • ad una categoria morfosintattica ‘zero’, nel caso di costituenti che ricorrano esclusivamente nella polirematica in esame e che non possano essere attribuiti ad una categoria specifica. In dettaglio, l’etichetta “loc” viene attribuita alle seguenti categorie morfosintattiche: • nome, • verbo, • avverbio, • congiunzione, • adposizione, • interiezione, • residuo. 16 Schema di annotazione utilizzato per l’annotazione della Venice Italian Treebank (VIT)12 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 14 categorie morfosintattiche con rispettive sottocategorie classificatorie, nonché la descrizione in tratti delle caratteristiche morfologiche (MFEATS), sintattiche (SFEATS) e semantiche (SEMS) della parola analizzata, come illustrato nella seguente tabella riassuntiva13: Categorie morfosintattiche Sottocategoria classificatoria associata Aggettivo + Articolo + Avverbio + Congiunzione + Congiunzione frasale + Congiunzione subordinante + Interiezione Locuzione + Nome + Nome + aggettivo predicativo + Nome + aggettivo participio presente + Preposizione + Pronome + Verbo + Tale schema ha la caratteristica di utilizzare una etichettatura di tipo fine, includendo al proprio interno tipi sintattici e semantici per un totale di 100 etichette diverse. Il motivo di questa scelta è legato principalmente alla necessità di utilizzare poi l’etichettatura ottenuta per un livello di analisi sintattica per il quale sono indispensabili certi tipi di informazioni sintattiche e semantiche allo scopo di ottenere una strutturazione più vicina possibile ad una interpretazione semanticofunzionale del testo di riferimento. 2) Descrizione del corpus di riferimento Lo schema VIT è stato utilizzato per l’annotazione morfosintattica in due contesti diversi: • nell’ambito del progetto AVI/AVIP, nato con lo scopo di costituire un corpus di dialoghi spontanei per lo studio linguistico in generale e soprattutto fonetico della lingua italiana parlata e delle sue varietà (Delmonte et alii, 2004)14; • nell’ambito della creazione della Venice Italian Treebank (VIT) costruita su di un corpus di 320.000 parole di italiano contemporaneo, organizzato in un subcorpus di 260.000 parole estratte da testi di italiano scritto e in uno di 60.000 parole estratte da dialoghi spontanei (Delmonte et alii, 2007). 12 La descrizione dello schema di annotazione fa riferimento alla relazione conclusiva del progetto AVIP/API relativa all’annotazione morfosintattica disponibile alla pagina http://www.parlaritaliano.it/api/documenti/Annotazione%20morfosintattica.pdf 13 Per la descrizione dettagliata delle sottocategorie associate e dei rispettivi tratti morfologici, sintattici e semantici si rimanda al documento disponibile alla pagina sopra indicata. 14 Cfr. http://www.parlaritaliano.it/parlare/ 17 3) Modalità di annotazione seguita nell’utilizzo dello schema I corpora di riferimento sono stati annotati in modo semi-automatico utilizzando il sistema di annotazione a regole VEST (Venice Symbolic Tagger) (Delmonte et alii, 1996). 4) Criteri di annotazione Non sono disponibili criteri di annotazione. 4.1) Trattamento della dimensione polirematica Il sistema di annotazione automatica (VEST tagger) è fornito di una lista di forme polirematiche comuni che vengono applicate nella fase preliminare di segmentazione (tokenizzazione) del testo in unità-parola. Ciò permette di accorpare due o più unità-parole (tokens) in un unico elemento, un’unica parola polirematica dunque, a cui viene assegnata la categoria “Locuzione” di tipo congiuntivo, preposizionale e avverbiale. Per contro, il sistema (tagger) è in grado di decomporre forme amalgamate come i verbi cliticizzati in due o più componenti individuali, allo scopo di permetterne la successiva analisi sintattica. 18 2.2 Schemi di annotazione morfosintattica per l’italiano parlato Schema di annotazione utilizzato per l’annotazione del corpus AVIP/API 1) Descrizione dello schema di annotazione Lo schema di annotazione prevede complessivamente l’utilizzo di 14 categorie morfosintattiche, alle quali in un caso è associata una rispettiva sottocategoria classificatoria, come illustrato nella seguente tabella riassuntiva: Categorie morfosinttatiche Sottocategoria classificatoria associata Nome Verbo Aggettivo pronome/determinatore Articolo Avverbio Adposizione + Congiunzione Numerale Interiezione “discourse marker” Filler Unico Residuo Lo schema rielabora quello sviluppato nell’ambito del progetto MATE15, che a sua volta rappresenta un’estensione delle raccomandazioni di EAGLES. A differenza dello schema MATE, tuttavia, tale schema non comprende la possibilità di apporre etichette di sottocategorizzazione morfologica. È inoltre stata eliminata la categoria “Punteggiatura” per l’annotazione dei segni di punteggiatura, dal momento che è stato deciso che tutti i segni di punteggiatura venissero rimossi nella fase preliminare di trascrizione. 2) Descrizione del corpus di riferimento Lo schema è stato utilizzato per la fase di annotazione morfosintattica nell’ambito del progetto AVIP/AVI16. 3) Modalità di annotazione seguita nell’utilizzo dello schema L’annotazione è stata condotta in modo unicamente manuale. 4) Criteri di annotazione 15 Cfr. http://mate.nis.sdu.dk/ Per i dettagli si vedano i documenti di G. Ferrari, C. Soria, E. Milos, Annotazione morfosintattica e testualepragmatica, nel file “Annotazione pragmatica AVIP.pdf”, disponibile alla pagina ftp://ftp.cirass.unina.it/cirass/avip/doc_app/text_anl.PDF , nonché il sito http://www.parlaritaliano.it/parlare/ 16 19 Sono disponibili i criteri generali di annotazione che riguardano per lo più la fase di trascrizione del corpus di riferimento, ovvero la rappresentazione in forma testuale dello scambio vocale. Essa si conforma tradizionalmente ad alcuni standard di rappresentazione suoi propri, che tuttavia possono creare dei problemi durante l’annotazione. Per questo motivo, nel passaggio dalla fase di trascrizione a quella di annotazione il corpus è stato rivisto tenendo in considerazione una serie di criteri di annotazione. Gli interventi di revisione hanno riguardato in particolare la definizione dei criteri di identificazione dell’elemento ‘parola’ secondo i seguenti principi: • tutte le ‘unità grafiche’ sono state considerate ‘parole’; • sono state considerate ‘parole’ le ‘parole interrotte’ e le ‘false partenze’, eliminando segni di interruzione come + o /. Inoltre, sono stati rimossi tutti i segni di interpunzione, inclusi punti interrogativi ed esclamativi, che sono stati considerati come sostituti provvisori di una più accurata annotazione intonativa. Per quanto riguarda il trattamento degli ‘enunciati interrotti’, sono state individuate due tipologie fondamentali: a) il caso in cui l’interruzione occorra nel corpo di una parola, b) il caso in cui l’interruzione lasci in ultima posizione una parola chiaramente categorizzabile in un modo se la frase fosse stata terminata, ma classificabile in un modo diverso in posizione finale ‘assoluta’. Nel caso a) è stato stabilito di assegnare l’etichetta R (“residual”) a quei frammenti che risultano troppo ridotti per poter essere classificati in modo sicuro e di attribuire una categoria ‘piena’ ai frammenti facilmente identificabili. Nel caso b) è stato stabilito di assegnare alla parola l’etichetta ‘intesa’, che sarebbe cioè stata assegnata nel caso in cui l’enunciato non fosse stato interrotto, prevedendo dunque un probabile completamento dell’enunciato. Ad esempio, a parole come “sopra”, “sotto”, “avverbi” in posizione ‘assoluta’ (in isolamento), è stata attribuita la categoria “adposizione” se appoggiate ad un sostantivo caduto con l’interruzione. 4.1) Trattamento della dimensione polirematica Le parole che formano locuzioni sono state considerate ‘unità distinte’, come nel caso ad esempio di “va bé”, che è un unico “discourse marker”, ma che è stato trattato come due parole separate e pertanto ciascun elemento è stato annotato con la propria etichetta (DM); o come nel caso di locuzioni preposizionali quali “sopra a”, “sotto a” i cui singoli elementi costitutivi sono stati marcati come “adposizione” (AP). Schema di annotazione sviluppato nell’ambito del progetto “Dialoghi Annotati” 1) Descrizione dello schema di annotazione Lo schema utilizzato nel progetto “Dialoghi Annotati” svolto nell’ambito del progetto nazionale SITAL (“Sistema Integrato per il trattamento Automatico del Linguaggio”) è quello EAGLES opportunamente esteso e modificato allo scopo di meglio rappresentare i fenomeni tipici del parlato17. La scelta deriva dal fatto che lo schema EAGLES per le particolari caratteristiche di formato si presta ad essere modificato e adattato per rappresentare i fenomeni del parlato, che ovviamente non sono adeguatamente trattati nella versione originaria dello schema. E’ importante notare tuttavia come le modifiche apportate consistano essenzialmente in ampliamenti dello schema mediante l’introduzione di categorie aggiuntive o sottocategorie di categorie già esistenti; in tal modo infatti è assicurata la sostanziale uniformità dello schema con la sua controparte ‘scritta’, e lo 17 Cfr. http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.1_SpecificheTecniche.pdf 20 stesso schema di annotazione può essere applicato indifferentemente alla lingua parlata o alla lingua scritta, con vantaggi evidenti per la portabilità dello schema e per gli usi successivi. Lo schema prevede complessivamente l’utilizzo di 15 categorie morfosintattiche, alle quali sono associate le rispettive sottocategorie classificatorie e i tratti morfologici relativi, come illustrato nella seguente tabella riassuntiva: Categorie morfosintattiche Sottocategoria classificatoria associata Aggettivo + Articolo + Avverbio Congiunzione + Determinatore + Interiezione + Abbreviazione Nome + Numerale + Verbo Predeterminatore Preposizione + Pronome + Punteggiatura Residuo Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene • etichette morfosintattiche categoriali (la maggior parte), • etichette funzionali, cioè la categoria “Predeterminatore” e “Determinatore”. 2) Descrizione del corpus di riferimento La descrizione del progetto “Dialoghi Annotati” è disponibile alla pagina http://www.ilc.cnr.it/viewpage.php/sez=ricerca/id=56/vers=ita 3) Modalità di annotazione seguita nell’utilizzo dello schema L’annotazione del corpus è stata realizzata in modo semi-automatico con revisione manuale18. 4) Criteri di annotazione I criteri di annotazione sono disponibili nel documento disponibile alla pagina http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.2_SviluppoPrimoProtot ipo.pdf. In tale documento è messa in luce la necessità di affiancare alla definizione del contenuto dello schema di annotazione le modalità della sua applicazione. Mentre infatti in fase di definizione generale delle specifiche di annotazione erano stati definiti scopi e caratteristiche dell’annotazione a prescindere dal dominio applicativo, in fase di applicazione sono state apportate una serie di modifiche relative ad aspetti del dominio trattato. Le principali modifiche effettuate sono le seguenti: • modifiche di formato, relative alla modalità di rappresentazione dell’informazione morfosintattica; 18 Cfr. le “Specifiche tecniche” per la descrizione dettagliata del software di annotazione. 21 modifiche relative all’inventario delle etichette di categoria morfosintattica, relative al numero e al tipo di etichette. • modifiche relative all’inventario delle etichette che specificano i tratti morfosintattici, relative al numero e al tipo di etichette; • modifiche relative al trattamento delle espressioni polilessicali e dei clitici. Ai fini della definizione di uno schema di annotazione specifico per la codifica della lingua parlata, è significativo qui di seguito riportare in particolare l’estensione operata rispetto allo schema EAGLES di riferimento. Tale schema sviluppato per l’annotazione della lingua scritta è stato rivisto ed esteso per consentire un’adeguata codifica dei seguenti fenomeni propri del parlato: a) le parole incomplete b) le forme non standard c) le vocalizzazioni quasi lessicali d) avverbi, interiezioni, marcatori del discorso, particelle pragmatiche. • a) Per quanto riguarda il trattamento delle ‘parole incomplete’, sono stati previsti i seguenti casi: • nel caso in cui nel processo di trascrizione sia stato possibile fornire un completamento, la parola è stata etichettata normalmente; • nel caso in cui invece sia stato possibile trascrivere soltanto la porzione riconoscibile della parola incompleta, è stata utilizzata l’etichetta prevista per la classe residua (X). b) Il trattamento del fenomeno di ‘forme non standard’ ha riguardato: • i casi in cui l’uso di una forma lessicale da parte di un parlante fosse regolare dal punto di vista della sua variante regionale o sociale, anche se deviante rispetto alla varietà standard della lingua; • i casi in cui un parlante abbia prodotto una forma mal formata anche dal suo punto di vista, come nel caso degli ‘errori di esecuzione’. Nel primo caso, non si è intervenuti con interventi di normalizzazione e le forme sono state classificate nello stesso modo in cui sarebbero state annotate le forme standard corrispondenti. Per segnalare che si tratta di una forma non standard, è stato inserito un simbolo V (per “variante”) dopo l’etichetta della categoria morfosintattica assegnata. Nel caso di veri e propri ‘errori di esecuzione’, sia che già in sede di trascrizione si sia provveduto a normalizzare la forma trascrivendo la corrispondente forma-target (se questa è ricostruibile con sufficiente sicurezza), sia che si sia intervenuti normalizzando la forma a livello di trascrizione emendata, alla forma in questione è stata assegnata un’etichetta corrispondente a quella della forma target. Ovviamente, nel caso in cui non sia stato possibile recuperare una forma di riferimento, alla parola verrà assegnata la categoria prevista per la classe residua (X). c) Le ‘vocalizzazioni quasi lessicali’ includono: • i riempitivi di pause o esitazioni, cioè suoni come um, uh-huh, ooh, ah, mhm, eh?, • le vocalizzazioni di “prompting” che si distinguono dalle pause piene per occorrere in posizione iniziale o finale di turno e per avere la funzione di assecondare un turno precedente o sollecitare un turno successivo da parte di un altro parlante. Entrambi i fenomeni sono stati classificati sotto la categorie delle “interiezioni”. Alla classe delle interiezioni sono stati associate le seguenti tipologie di parole: • forme di saluto (es. ciao, buongiorno, arrivederci, …), • elicitatori di risposta (es. eh?, huh?, ok?), • esclamazioni (es. oh, ah, ooh), • forme di risposta (es. ok, hu-huh, …), • forme di cortesia (es. grazie, prego). 22 d) Per quanto riguarda l’annotazione di ‘marcatori del discorso’ e di ‘particelle pragmatiche’, l’approccio seguito consiste nello specificare criteri precisi di attribuzione delle diverse forme alle categorie già esistenti delle interiezioni, delle “Congiunzioni” e degli “Avverbi”. Le diverse classi possono poi essere ulteriormente specificate, ma la classificazione è fatta esclusivamente su base distribuzionale, evitando di usare categorie determinate su base pragmatica in quanto questo tipo di classificazione è rimandata al livello pragmatico. Una nuova sottocategoria “MD” (“Marcatore del Discorso”) viene associata alle categorie degli avverbi e delle congiunzioni, quando occorrono in contesti particolari, per esempio isolatamente in un turno o in posizione iniziale o finale di turno. Alcuni esempi sono riportati di seguito: • tra gli avverbi, possono essere ulteriormente classificati mediante la sottocategoria MD o gli elicitatori di risposta (es. “sì poi?”), o le forme di risposta (es. sì); • le congiunzioni, sia coordinative sia subordinative, quando si trovano all’inizio o alla fine di turno o di enunciazione possono essere sottospecificate (es. “allora stammi a sentire”). 4.1) Trattamento della dimensione polirematica In base ai criteri di annotazione le espressioni polilessicali sono state considerate come parole morfologiche uniche, in cui i singoli costituenti non sono più identificati separatamente ma l’intera espressione riceve una categoria morfosintattica unica. Una lista di parole polirematiche è disponibile nell’Appendice del documento relativo ai criteri di annotazione. Schema di annotazione utilizzato per l’annotazione dei corpora LABLITA 1) Descrizione dello schema di annotazione Lo schema utilizzato per l’annotazione dei corpora di italiano parlato LABLITA prevede l’utilizzo di categorie morfosintattiche già parte di schemi creati per l’annotazione di testi di italiano scritto. I due seguenti schemi sono stati adattati ai requisiti di corpora di italiano parlato: • lo schema di 12 categorie morfosintattiche, con rispettive sottocategorie classificatorie e tratti morfologici associati, proposte dallo standard EAGLES; • lo schema di 15 categorie morfosintattiche, con rispettive sottocategorie classificatorie, ma senza tratti morfologici associati, disegnato esplicitamente per il sistema di annotazione a regole (tagger) TreeTagger19 di Schmid (1994) con i parametri sviluppati da Achim Stein. In particolare, lo schema EAGLES è stato ampliato (Panunzi et alii, 2004) con una serie di etichette esplicitamente aggiunte per l’annotazione sia di elementi linguistici non standard (es. onomatopee, nuove formazioni) sia di elementi non linguistici paralinguistici (es. riempitivi, frammenti di parole) e extralinguistici (es. colpi di tosse). Lo schema sviluppato da Achim Stein per il TreeTagger è stato arricchito con un’etichetta appositamente aggiunta allo schema originale per l’annotazione di elementi paralinguistici20. 2) Descrizione del corpus di riferimento Una descrizione completa dei corpora LABLITA è disponibile alla pagina http://lablita.dit.unifi.it/corpora/ 19 20 http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html http://lablita.dit.unifi.it/corpora/confronto/trattamento.html#tagset 23 3) Modalità di annotazione seguita nell’utilizzo dello schema Lo schema EAGLES è stato utilizzato dal sistema di annotazione stocastico (tagger) descritto in Picchi 1994. L’annotazione morfosintattica è stata altrimenti realizzata utilizzando il sistema di annotazione a regole (tagger) TreeTagger di Schmid (1994) nella sua versione per l’italiano. 4) Criteri di annotazione Non sono disponibili criteri di annotazione 4.1) Trattamento della dimensione polirematica Non sono disponibili espliciti criteri relativi al trattamento della dimensione polirematica. 24 3 Analisi comparativa degli schemi di annotazione per categoria morfosintattica Lo scopo generale di questa sezione è quello di fornire un confronto tra gli schemi di annotazione illustrati nelle sezioni 2.1. e 2.2 tenendo conto delle variazioni relative alla codifica delle categorie morfosintattiche specificate. In particolare, gli schemi sono stati confrontati rispetto ai seguenti parametri di variazione connessi alla codifica dell’informazione linguistica: a) la presenza di sottocategorie classificatorie, b) la presenza di tratti morfologici, c) la presenza di altri tratti classificatori oltre ai tratti relativi alla codifica dell’informazione di sottocategorizzazione e morfologica, d) la presenza di categorie non tradizionali impiegate per la classificazione di informazione linguistica, e) il trattamento della dimensione polirematica. In un singolo caso, inoltre, data l’alta variazione tra gli schemi nella codifica degli elementi che esprimono ‘determinazione’, è stato scelto di confrontare le scelte di codifica non relativamente ad una singola categoria morfosintattica, ma rispetto ad una serie di categorie (vedi sezione 3.4). In ognuna delle sezioni che seguono è riportata una tabella sinottica introduttiva (Tabella 1), che introduce, per ogni singolo schema di annotazione, i parametri di variazione considerati e ne associa il valore positivo o negativo (+/-). Segue una seconda tabella (Tabella 2), che riporta le sottocategorie classificatorie associate ad ogni categoria morfosintattica presa in esame. È infine proposta la descrizione ragionata dei parametri di variazione tra schemi. È importante sottolineare il fatto che quanto presentato in questa sezione fa riferimento al contenuto degli schemi di annotazione considerati e non alle modalità della sua applicazione sul testo. Ciò implica che il confronto è stato condotto sulla definizione dello schema di annotazione, piuttosto che sui criteri di annotazione. Si è deciso di condurre il lavoro in questo modo data la diffusa difficoltà nel reperire chiare e esaustive descrizioni delle metodologie di applicazione sul testo degli schemi esistenti. Tale approccio ha contribuito a mettere in luce alcuni aspetti particolarmente problematici del lavoro di codifica dell’informazione morfosintattica, nonché alcune zone d’ombra definite in modo non chiaro dagli schemi esaminati. Conseguentemente, riteniamo che la raccolta e l’esame dei rispettivi criteri di annotazione come parte integrante del lavoro di specifica di uno schema di annotazione (Lenci et alii, 2005) potrà rappresentare il punto di partenza per un ulteriore confronto ragionato. 25 3.1 Aggettivi Presenza di sottocategorie classificatorie Grado Presenza di tratti morfologici Dimensione polirematica Altro EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API + + + - + + + - - + - + - + - - VIT + - - - Dialoghi_Annotati CiT + + + - + - + - Schema di annotazione Tabella 1 26 Categoria sottospecificata “aggettivo/nome” - Schema di annotazione EAGLES LaRep. TUT - Deittico Dimostrativo Esclamativo Indefinito Interrogativo Ordinale Possessivo Qualificativo Qualificativo Sottocategorie classificatorie C./C. CoLFIS NUNC distribuz. - - Tabella 2 * Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste. 27 CT - Lablita - A./A. - VIT * D.A. CiT Qualificativo Dimostrativo Possessivo Esclamativo Straniero Indefinito Interrogativo Possessivo In EAGLES alla categoria “aggettivo” è associata come unica sottocategoria classificatoria quella di “aggettivo, qualificativo”. È inoltre prevista la possibilità di annotare il ‘grado’ dell’aggettivo e i rispettivi tratti morfologici, secondo lo schema illustrato nella seguente tabella: Grado Positivo Comparativo Superlativo Tratti morfologici Genere Numero m, f, c sg, pl, n c sg, pl m, f sg, pl Lo schema dello standard non prevede l’annotazione della dimensione polirematica. In LaRepubblica alla categoria “aggettivo” non è associata alcuna sottocategoria classificatoria né alcun tratto morfologico. In TUT la categoria “aggettivo” sussume le seguenti sottocategorie classificatorie: Tipo di sottocategoria Deittico Dimostrativo Esclamativo Indefinito Interrogativo Ordinale Possessivo Qualificativo Esempi Altro, fa, prossimo, scorso Questo, quello Che Nessun, alcuni, molti Che, quale, quanto Primo, ventesimo, ultimo Altrui, mio, nostri Bello, grande, italiano A ciascuna sottocategoria sono inoltre associati i rispettivi tratti morfologici relativi al ‘genere’ e al ‘numero’. Inoltre, in TUT è prevista l’annotazione di parole polirematiche aggettivali, articolata su due livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti dal corpus di testi giornalistici, si può vedere che espressioni aggettivali come in_corso, da_capogiro, in_via_di_sviluppo sono etichettate come un unico elemento LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION segue le etichette della categoria morfosintattica “aggettivo” (ADJ) e dei tratti di sottocategorizzazione classificatoria e morfologica associati. Come specificato nei criteri di annotazione relativi al trattamento della dimensione polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di locuzione. Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di locuzioni fisse. e' (ESSERE VERB MAIN IND PRES INTRANS 3 SING) [36;VERB-RMOD+RELCL] in (IN_CORSO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [38;VERB-PREDCOMPL+SUBJ] corso (IN_CORSO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [39;CONTIN+LOCUT] interesse (INTERESSE NOUN COMMON M SING) [41;PREP-ARG] da (DA_CAPOGIRO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [40;ADJC+QUALIF-RMOD] capogiro (DA_CAPOGIRO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [43;CONTIN+LOCUT] paesi (PAESE NOUN COMMON M PL) [6.1;DET+DEF-ARG] in (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [7;ADJC+QUALIF-RMOD] via (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [8;CONTIN+LOCUT] di (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [9;CONTIN+LOCUT] sviluppo (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION)[10;CONTIN+LOCUT] 28 Per la classificazione degli aggettivi CORIS/CODIS_distribuzionale non prevede alcuna modifica di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita descrizione dello schema in merito. In CoLFIS è prevista un’unica etichetta di classificazione degli aggettivi, senza nessun tratto morfologico associato. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che alle “parole sintagmatiche aggettivali”, come ad esempio sud est, quatta quatta, a vuoto, ad hoc, papale papale21 sia associata l’etichetta G@. In CT è prevista, secondo lo standard EAGLES, un’unica categoria “aggettivo” che comprende come unica sottocategoria classificatoria quella di “aggettivo, qualificativo”. Inoltre, all’aggettivo sono associati il ‘grado’ e i tratti morfologici relativi al ‘genere’, ‘numero’. In NUNC e in Lablita per italiano parlato è prevista un’unica categoria “aggettivo”, senza alcuna sottocategoria classificatoria. Nessun tratto morfologico corrispondente è associato. In AVIP/API per l’italiano parlato è prevista la categoria “aggettivo” senza alcuna sottocategoria classificatoria. Come stabilito nei criteri di annotazione, non sono previste etichette di sottocategorizzazione morfologica né è tenuta in considerazione la possibilità di annotare la dimensione polirematica. In VIT la categoria “aggettivo” prevede le seguenti sottocategorie: Etichetta agg:a agg:alt agg:co agg:c agg:comp agg:dim agg:e agg:escl agg:go agg:ico agg:ind agg:ind:min agg:ind:sup agg:int agg:io agg:num:car agg:num:ord agg:num:ord:ind agg:o agg:ore agg:poss agg:rel agg:sup agg:z 21 classe "other" classe colore comparativo dimostrativo classe esclamativo classe classe Indefinito Indefinito indefinito interrogativo classe numerale numerale numerale classe classe possessivo relativo superlativo invarariato Descrizione -a -co -e -go -ico minoranza superlativo -io cardinale ordinale ordinale -o -ore Gli esempi sono stati estratti direttamente dal corpus annotato. 29 Indefinito Esempio focaia altro antico giallo miglior quello temibile quale sacrilego sarcastico troppo pochino pochissimo quanto refrattario dodici ventesimo ennesimo bello fotorecettore mio quale ottimo video Etichetta agg:z:def agg:z:min agg:z:neg agg:z:qd agg:z:rel:ind aggpp:o aggpr:e definito minoranza negativo distributivo relativo participio participio Descrizione quantificatore Esempio tutto minor nessun ogni qualsiasi moderato mortificante quantificatore indefinito passato presente Dalla precedente tabella riassuntiva si può notare che lo schema prevede • l’annotazione del ‘grado’ dell’aggettivo come sottocategoria classificatoria, • una serie di sottocategorie specifiche per l’annotazione o dei numeri con funzione aggettivale (vedi la parte relativa ai numerali) o dei participi con funzione aggettivale. Lo schema prevede inoltre una categoria sottospecificata “aggettivo/nome”, che comprende le sottocategorie riportate nella seguente tabella: Etichetta an:comp an:e an:ico an:ind an:io an:min an:num:car an:num:ord an:o an:sup an:sup:min an:sup:ord an:sup:t an:z adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome adj+nome Descrizione maggioranza classe classe indef classe minoranza numerale numerale classe superlativo superlativo superlativo superlativo invar -e -ico -io cardinale ordinale -o minoranza ordinale temporale Esempio maggiore folle generico diverso medio minore novanta novantesimo novello massimo minimo ultimo postumo pop Come descritto in dettaglio nella parte relativa ai nomi, lo schema prevede inoltre una serie di sottocategorie per l’annotazione di nomi che svolgono la funzione di ‘aggettivi predicativi’ aggettivi participi presenti’. Lo schema prevede inoltre l’assegnazione di tratti morfologici (MFEATS) secondo la classificazione di tali tratti proposta in generale. In Dialoghi_Annotati per l’italiano parlato la categoria “aggettivo”, assegnata per la classificazione di aggettivi ‘qualificativi’, comprende le tre seguenti sottocategorie: • aggettivo “possessivo”, • aggettivo “straniero”. Il simbolo L è assegnato per annotare la presenza di un aggettivo ‘qualificativo’ (AL@) o ‘straniero’ (AWL@) in locuzione. In tutti i casi, il simbolo @ è seguito da tratti di sottocategorizzazione morfologica e, nel caso dell’aggettivo qualificativo, dall’indicazione esplicita del ‘grado’. In CiT per l’italiano parlato televisivo la categoria “aggettivo” comprende le seguenti sottocategorie: 30 ADJ ADJ:demo ADJ:escl ADJ:indef ADJ:inter ADJ:poss Sottocategoria classificatoria aggettivo aggettivo dimostrativo aggettivo esclamativo aggettivo indefinito aggettivo interrogativo aggettivo possessivo Esempio libero, europeo, due questo, quello che (in "che fame!") alcuni, altri, molti, tutti che, quale mio, tuo Non sono previsti tratti morfologici associati nè l’indicazione esplicita del ‘grado’ dell’aggettivo. 31 3.2 Avverbi Presenza di sottocategorie classificatorie Grado Dimensione polirematica EAGLES - + - LaRepubblica + - - TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita + - + + - + - + + - AVIP/API - - - VIT Dialoghi_Annotati CiT + + - + + - Schema di annotazione Altro categoria “NEG” categoria “WH” categoria “frasale” categoria “RELATIVE” Tabella 1 32 categoria “unico” categoria “discourse marker” - Schema di annotazione EAGLES LaRep. -mente TUT C./C. CoLFIS NUNC distribuz. Affermativo Sottocategorie classificatorie - Altri tratti classificatori - - - Lablita A./A. VIT D.A. Frasale Particella clitica - - - - - - Tabella 2 * Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste. 33 - CiT Avverbio + clitico Interrogativo Generale Avversativo Comparativo Dubitativo Interrogativo Di limitazione Di luogo Di modo Di negazione Di quantificazione Di motivazione Di intensità Superlativo Di tempo CT - - * - - - - “marcatore del discorso” - In EAGLES con la categoria “avverbio” sono classificati tutti i tipi di avverbi. Lo schema prevede anche una classificazione del ‘grado’ dell’avverbio articolata nelle seguenti sottocategorie: • avverbio positivo (es. bene, fortemente), • avverbio comparativo (es. meglio), • avverbio superlativo (es. benissimo, fortissimamente). In LaRepubblica è prevista • un’etichetta generale ADV (“avverbio”) per l’annotazione degli avverbi, • un’etichetta di sottocategorizzazione classificatoria “ADV:mente” per l’annotazione degli avverbi che terminano in –mente. È da tenere in considerazione, inoltre, il fatto che tale schema di annotazione prevede l’esistenza di una categoria “WH”, assegnata a tutte le occorrenze di parole per lo più interrogative, relative, indefinite, comparative, il cui equivalente in lingua inglese presenta il grafema wh, a prescindere dalla categoria morfosintattica della parola. È inoltre da tenere in considerazione il fatto che lo schema di annotazione prevede la categoria “negazione” (NEG) per la classificazione della parola non. In TUT la categoria “avverbio” (ADV) comprende le seguenti sottocategorie classificatorie: Tipo di sottocategoria Affermativo Avversativo Comparativo Dubitativo Interrogativo Di limitazione Di luogo Di modo Di negazione Di quantificazione Di motivazione Di intensità Superlativo Di tempo Esempi Certo Anzi, però Più, meglio, peggio, così Forse Come, dove, perché Solo, soltanto Sopra, intorno, lassù, sottoterra Così, volentieri, -mente Non, senza, nemmeno, neanche Meno, circa, assai, troppo Infatti, quindi Persino, perfino, anche Benissimo Poi, prima, ormai, spesso Lo schema di annotazione prevede inoltre la categoria “frasale” per la classificazione di profrasi del tipo sì, no. Inoltre, in TUT è prevista l’annotazione di parole polirematiche aggettivali, articolata su due livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti dal corpus di testi giornalistici, si può vedere che espressioni polirematiche avverbiali come d’_ora_innanzi, in_sostanza, un_po’ sono etichettate come un unico elemento LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION segue le etichette della categoria morfosintattica “avverbio” (ADV) e di quelle di sottocategorizzazione classificatoria corrispondenti. Come specificato nei criteri di annotazione relativi al trattamento della dimensione polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di locuzione. Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di locuzioni fisse. d' (d'ora_innanzi ADV TIME LOCUTION) [27;ADVB-RMOD-TIME] ora (d'ora_innanzi ADV TIME LOCUTION) [23;CONTIN+LOCUT] 34 innanzi (d'ora_innanzi ADV TIME LOCUTION) [24;CONTIN+LOCUT] In (IN_SOSTANZA ADV MANNER LOCUTION) [8;ADVB-RMOD-CONJTEXT] sostanza (IN_SOSTANZA ADV MANNER LOCUTION) [1;CONTIN+LOCUT] un (un_po' ADV QUANT LOCUTION) [15;ADVB+QUANTIF-RMOD] po' (un_po' ADV QUANT LOCUTION) [13;CONTIN+LOCUT] Per la classificazione degli avverbi in CORIS/CODIS_distribuzionale non è prevista alcuna modifica di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita descrizione dello schema in merito. Tuttavia, lo schema comprende anche la categoria RELATIVE per la classificazione di pronomi e avverbi che introducono frasi relative ad un livello di analisi sintattica del testo (vedi la parte relativa ai pronomi), come ad esempio dove nella seguente frase, … vicino all’università dove nel ’90 scoppiò la rivolta … In CoLFIS è prevista un’unica etichetta di classificazione degli avverbi. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo avverbiale”, come ad esempio qua e là, quanto al, può darsi, a furor di popolo, a più non posso, in auge22 sia associata l’etichetta B@. In NUNC l’etichetta ADV (“avverbio”) è assegnata a tutti i tipi di avverbio. Non è prevista pertanto alcuna etichetta di sottocategorizzazione classificatoria. In CT la categoria “avverbio” comprende le seguenti sottocategorie: • “ADV.gn” per la classificazione degli avverbi che modificano un’unità lessicale predicativa in generale; • “ADV.pp” per la classificazione degli avverbi ‘frasali’, che hanno una funzione simile a quella delle congiunzioni fungendo da elementi connettivi tra frasi; • “ADV.pc”, per la classificazione di particelle clitiche con funzione avverbiale, anche in posizione enclitica (vedi la parte generale relativa al trattamento degli elementi «grafoclitici» in CT). Per i criteri di annotazione delle espressioni polirematiche avverbiali previste dallo schema di annotazione vedi la parte generale relativa. Lo schema Lablita per l’italiano parlato coincide con NUNC per l’italiano scritto. Pertanto, è previsto che venga assegnata l’etichetta ADV (“avverbio”) a tutti i tipi di avverbio senza nessuna sottocategoria. In AVIP/API per l’italiano parlato l’etichetta unica AV è assegnata agli avverbi, senza alcuna etichetta di sottocategorizzazione classificatoria. È inoltre previsto che sia assegnata la categoria “discourse marker” (DM) a quelle parole che, pur classificabili come “avverbi”, tuttavia svolgono una funzione diversa nella lingua parlata, rispetto a quella scritta, segnando passaggi all’interno di un discorso (vedi la parte relativa alle congiunzioni e alle interiezioni). Lo schema comprende, infine, la categoria “unico” per la classificazione delle occorrenze di “ci/ce” esistenziale. Tale categoria è assegnata a classi di parole molto ridotte e specializzate come le parole sì, non, non. 22 Gli esempi sono stati estratti direttamente dal corpus annotato. 35 Come stabilito nei criteri di annotazione, non è prevista la possibilità di annotare la dimensione polirematica. In VIT la categoria “avverbio” comprende le seguenti sottocategorie: Etichetta avv:l avv:mn avv:neg avv:q avv:r avv:mn:min avv:mn:sup avv:t avv:t:min avv:t:sup avv:td avv:ti Descrizione locativo maniera negativo quantificato relazionale maniera maniera temporale temporale temporale temporale temporale Esempio minoranza superlativo minoranza superlativo deittico iterativo Qua piano affatto Poco simile adagino adagissimo presto prestino prestissimo stanotte spesso È da sottolineare che in questo tipo di classificazione il ‘grado’ dell’avverbio è classificato come una sottocategoria. Per l’annotazione delle locuzioni di tipo avverbiale è inoltre previsto l’uso di una serie di etichette di sottocategorizzazione classificatoria, sottocategorie di una categoria morfosintattica generale “locuzione” (LOC) dedicata all’annotazione anche di espressioni polirematiche di tipo congiuntivo e preposizionale (vedi 3.3 e 3.7). Per quanto riguarda la classificazione delle espressioni polirematiche avverbiali, la categoria “locuzione” comprende le seguenti sottocategorie: Etichetta loc:avv loc:avv:P Descrizione avverbio avverbio Esempio inintermediari insaputa (all) Inoltre, tra i tratti di sottocategorizzazione classificatoria (SFEATS) generali descritti nello schema di annotazione è prevista un’etichetta per l’annotazione di locuzioni avverbiali (“avvl”). In Dialoghi_Annotati per l’italiano parlato la categoria “avverbio” non prevede alcuna sottocategoria classificatoria. È inoltre prevista la classificazione di espressioni formate da più di una parola, come ad esempio “di qua”, “di sopra”, come un elemento unico annotato con l’etichetta BL@ (“avverbio in locuzione”). Come per la categoria delle congiunzioni e interiezioni, anche nel caso di avverbi che occorrono in contesti particolari, specifici dell’italiano parlato, per esempio isolatamente in un turno o in posizione iniziale o finale di turno, viene assegnata l’etichetta MD (“marcatore del discorso”) dopo il simbolo @. In CiT per l’italiano parlato televisivo la categoria degli avverbi comprende le seguenti etichette di sottocategorizzazione classificatoria: • “ADV”, assegnata a tutti i tipi di avverbi, • “ADV:cli”, assegnata ai nessi ‘avverbio + clitico’ in enclisi (es. eccoci), • “ADV:inter”, assegnata agli avverbi interrogativi (es. perché). 36 3.3 Congiunzioni Presenza di sottocategorie classificatorie Dimensione polirematica Altro EAGLES + - - LaRepubblica - - TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT + + - - + + + + + + + + - Schema di annotazione Tabella 1 37 categoria “CHE” categoria “WH” categoria “coordinatore” categoria “subordinatore” categoria “discorse marker” - Schema di annotazione EAGLES Sottocategorie classificatorie Altri tratti classificatori LaRep. Coordinante Subordinante - - - TUT Coordinativa Subordinativa Comparativa Tipo semantico della congiunzione C./C. CoLFIS NUNC distribuz. CT - - - Coordinante Subordinante - - - - Tabella 2 * Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste. 38 Lablita A./A. VIT - - * - - - D.A. CiT Coordinativa Coordinante Subordinativa Subordinante “marcatore del discorso” - In EAGLES la categoria “congiunzione” comprende le due seguenti sottocategorie: • “coordinante”, • “subordinante”. In LaRepubblica è prevista un’unica etichetta di classificazione delle congiunzioni (CON). Sono inoltre previste altre due categorie assegnabili a parole che possono appartenere a questa categoria morfosintattica: • la categoria “CHE” assegnata a tutte le occorrenze della parola che a prescindere dalla categoria morfosintattica, come nel caso di Dico subito che, quello che si è detto, più ancora che scottante, tanto vale che, è che23; • la categoria “WH” assegnata a tutte le occorrenze di parole per lo più interrogative, relative, indefinite, comparative, il cui equivalente in lingua inglese presentano il grafema wh. È importante sottolineare che anche in questo caso tale etichetta è assegnata a prescindere dalla categoria morfosintattica della parola. In TUT la categoria “congiunzione” comprende le seguenti sottocategorie classificatorie: • “congiunzione coordinativa”, • “congiunzione subordinativa”, • “congiunzione comparativa”, per la classificazione di congiunzioni in contesti del tipo piuttosto che, non più di cinque, ecc… Inoltre per ogni congiunzione è annotato anche il ‘tipo semantico’, secondo la seguente lista predefinita di tipi: Tipo semantico Caus Manner + time Tempo Loc Conc Reason Caus + reason Advers Caus Cond Fin Neutral Esempio poiché come dopo dove nonostante per perché ma poiché se sicchè che Inoltre, in TUT è prevista l’annotazione di parole polirematiche di tipo congiuntivo, articolata su due livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti dal corpus di testi giornalistici, si può vedere che espressioni polirematiche di tipo congiuntivo subordinante come in_modo_da, dato_che sono etichettate come un unico elemento LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION segue le etichette della categoria morfosintattica (CONJ), del tratto di sottocategorizzazione classificatoria (SUBORD) e del tipo semantico (REASON, CAUS). Come specificato nei criteri di annotazione relativi al trattamento della dimensione polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di locuzione. Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di locuzioni fisse. 23 Gli esempi sono stati estratti direttamente dal corpus annotato. 39 in (IN_MODO_DA CONJ SUBORD REASON LOCUTION) [24;PREP-RMOD-MEANSMANNER] modo (IN_MODO_DA CONJ SUBORD REASON LOCUTION) [36;CONTIN+LOCUT] da (IN_MODO_DA CONJ SUBORD REASON LOCUTION) [37;CONTIN+LOCUT] dato (DATO_CHE CONJ SUBORD CAUS LOCUTION) [10;VERB+INF-RMOD-REASONCAUSE] che (DATO_CHE CONJ SUBORD CAUS LOCUTION) [17;CONTIN+LOCUT] CORIS/CODIS_distribuzionale non prevede una categoria “congiunzione”, ma piuttosto due categorie distinte: • una categoria “coordinatore”, assegnata alle parole che uniscono due o più strutture connesse in modo non gerarchico tra loro, come ad esempio nel caso di e, o, ma, ecc…; • una seconda categoria “subordinatore”, assegnata a parole che uniscono due frasi connesse in modo gerarchico tra loro; questa categoria prevede due sottocategorie classificate con le seguenti etichette: o l’etichetta SUB_ADJ (“subordinator adjunct”), assegnata a parole che svolgono una funzione subordinante in generale, come nel caso di quando, perché, ecc…, o l’etichetta SUB_ARG (“subordinator argument”), assegnata a parole che introducono una frase subordinata dipendente da un verbo, come nel caso ad esempio quando nella frase … si applicano anche quando si tratta di togliere un ingombro …; è importante sottolineare che tale etichetta viene assegnata anche a parole che, pur svolgendo una funzione subordinante di complemento del verbo, non appartengono solo alla categoria morfosintattica delle congiunzioni (vedi parte sulle “preposizioni”). CoLFIS prevede un’unica etichetta di classificazione delle congiunzioni. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo congiuntivo”, come ad esempio tanto più che, una volta che, anche se, in modo tale che24 sia associata l’etichetta C@. In NUNC viene assegnata l’etichetta CON (“congiunzione”) a tutti i tipi di congiunzioni. Non è prevista pertanto alcuna etichetta di sottocategorizzazione classificatoria né sono disponibili criteri di annotazione delle espressioni polirematiche. In CT la categoria “congiunzione” comprende le due seguenti sottocategorie: • congiunzione “coordinante”, • congiunzione “subordinante”. Per i criteri di annotazione delle espressioni polirematiche previsti dallo schema vedi la parte generale relativa. Lablita per l’italiano parlato coincide con NUNC per l’italiano scritto. Pertanto, viene assegnata l’etichetta CON (“congiunzione”) a tutti i tipi di congiunzioni senza alcuna etichetta di sottocategorizzazione classificatoria. In AVIP/API_a per l’italiano parlato è previsto che venga assegnata l’etichetta unica C alle congiunzioni, senza alcuna etichetta di sottocategorizzazione classificatoria. È inoltre previsto che venga assegnata la categoria “discourse marker” (DM) a quelle parole che, pur classificabili come “congiunzioni”, tuttavia svolgono una funzione diversa nella lingua parlata, rispetto a quella scritta, segnando passaggi all’interno di un discorso (vedi la parte relativa agli avverbi). 24 Gli esempi sono stati estratti direttamente dal corpus annotato. 40 Come stabilito nei criteri di annotazione, non è prevista la possibilità di annotare la dimensione polirematica. In AVIP/API_b per l’italiano parlato le congiunzioni sono classificate nel modo seguente: • la categoria “congiunzione”, • la categoria “congiunzione frasale”, • la categoria “congiunzione subordinante”. Ciascuna delle precedenti categorie prevede un sistema di etichette di sottocategorizzazione classificatoria. In particolare, la categoria “congiunzione” comprende le seguenti sottocategorie: Etichetta cong:av cong:caus cong:comp cong:conc cong:dis cong:ecc cong:exp cong:l cong:neg cong:ott cong:par cong:pk cong:pri cong:qt cong:sum cong:t cong:tdur cong:ts cong:tt Descrizione avversativa causale comparativa concessiva disgiuntiva eccettuativa esplicativa locativa negativa ottativa parallela k privativa quantificata sommativa temporale temporale temporale temporale Temporale Durativa Successione Telica Esempio Bensì Perché Come Comunque o fuorché ossia dove nemmeno almeno mentre che senza ogniqualvolta oltreché finché sinché dopodiché appena La categoria “congiunzione frasale” comprende le seguenti sottocategorie: Etichetta congf:av congf:caus congf:conc congf:cons congf:ecc congf:exp congf:ott congf:par congf:pres congf:ra congf:sum congf:t congf:tp congf:ts Descrizione avversativa causale concessiva consecutiva eccettuativa esplicativa ottativa parallela presentativa finale sommativa temporale temporale temporale precedenza successione 41 Esempio viceversa stanteché tuttavia così tranneché infatti magari intanto ecco perciò inoltre frattanto prima poi La categoria “congiunzione subordinante” comprende le seguenti sottocategorie: Etichetta cosu:av cosu:caus cosu:conc cosu:cond cosu:par cosu:ra subord subord subord subord subord subord Descrizione avversativa causale concessiva condizionale parallela finale Esempio anziché perché sebbene se allorquando poiché Per l’annotazione delle locuzioni di tipo congiuntivo è inoltre previsto l’uso di una serie di etichette di sottocategorizzazione classificatoria, sottospecificazioni di una categoria morfosintattica generale “locuzione” (LOC) dedicata all’annotazione anche di espressioni polirematiche di tipo avverbiale e preposizionale (vedi la parte relativa agli avverbi e alle preposizioni). Per quanto riguarda la classificazione delle espressioni polirematiche di tipo congiuntivo, la categoria “locuzione” comprende le seguenti sottocategorie: Etichetta loc:cong:av loc:cong:caus loc:cong:cond loc:cong:cons loc:cong:ecc loc:cong:par loc:cong:pres loc:cong:pri loc:cong:sum loc:cong:t loc:cong:tdur loc:cong:tp loc:cong:ts loc:cosu:pre Descrizione avversativa causale condizionale consecutiva eccettuativa parallela presentativa privativa summativa temporale temporale temporale temporale subord Esempio piuttosto che supposto che patto (a patto che) tale che tranne che intanto che ecco che senza che pur che fintanto che durativa sintanto che precedenza prima che successione dopo che precondizione ammesso che In Dialoghi_Annotati per l’italiano parlato la classe morfosintattica delle congiunzioni è contraddistinta dal simbolo C seguito dalle etichette di sottocategorizzazione classificatoria • CC@ (“congiunzione subordinativa”) • CS@ (“congiunzione subordinativa”). In entrambi i casi, un ulteriore simbolo L è assegnato per annotare la presenza di una congiunzione coordinativa in locuzione (CCL@) o di una congiunzione subordinativa in locuzione (CSL@). Come per la categoria degli avverbi e delle interiezioni, anche nel caso di congiunzioni che occorrono in contesti particolari, specifici dell’italiano parlato, per esempio isolatamente in un turno o in posizione iniziale o finale di turno, viene assegnata l’etichetta MD (“marcatore del discorso”) dopo il simbolo @. In CiT per l’italiano parlato televisivo la categoria “congiunzione” comprende le seguenti sottocategorie: • congiunzione “coordinante”, • congiunzione “subordinante”. 42 3.4 Schema di annotazione EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT Articoli e determinanti (determinatori) Categorie specifiche per l’annotazione di elementi che esprimono determinazione Categoria: ‘determinante’ Categoria: ‘articolo’ Categoria: ‘predeterminante’ Presenza di sottocategorie classificatorie Presenza di sottocategorie classificatorie Presenza di sottocategorie classificatorie Presenza di tratti morfologici + + - + + - + + + + + + + - + + - - - - - - - + * + * + + + + + + + + + + + + - + + + - + - - + + + - Tabella 1 43 Schema di annotazione EAGLES Possessivo Dimostrativo Sottocategorie Interrogativo classificatorie Relativo Indefinito LaRep. TUT Possessivo Dimostrativo Indefinito Numerale wh C./C. CoLFIS distribuz. NUNC CT Definito Indefinito - - - Lablita A./A. VIT Definito Indefinito - - - D.A. CiT Dimostrativo Definito Interrogativo Indefinito Relativo Indefinito Esclamativo Tabella 2: Sottocategorie della categoria ‘determinante’ Schema di annotazione EAGLES Sottocategorie classificatorie LaRep. TUT Preposizione Definito + articolo Indefinito Indefinito Definito C./C. CoLFIS NUNC distribuz. - - - CT Determinativo Indeterminativo Tabella 3: Sottocategorie della categoria ‘articolo’ 44 Lablita A./A. - - VIT Definito D.A. Definito Indefinito Indefinito CiT - In EAGLES coesistono due categorie morfosintattiche rispetto alle quali vengono classificati le parole che esprimono determinazione: la categoria “determinante” e la categoria “articolo”. Entrambe comprendono una serie di etichette di sottocategorizzazione classificatoria. Alla categoria “determinante” sono associate le seguenti sottocategorie: • “possessivo” (es. mio, tuo, nostro, ecc…); • “dimostrativo” (es. questo, codesto, quello); • “indefinito”; • “interrogativo” (es. che, quale); • “relativo” (es. cui, quanto, ecc…); • “esclamativo” (es. che, quale, quanto, ecc..). La categoria “articolo” sussume le seguenti sottocategorie: • “definito” (es. il, lo, gli, ecc..), • “indefinito” (es. un, uno, ecc..). A ciascuna sottocategoria sono associati rispettivi tratti di sottocategorizzazione morfologica relativi al ‘genere’ e alla ‘persona’. Anche in LaRepubblica coesistono le due categorie morfosintattiche “determinante” e “articolo”. Tuttavia, sono sottocategorizzate in modo differente rispetto allo standard EAGLES. In particolare, la categoria “determinante” comprende le seguenti sottocategorie: • “dimostrativo”, • “indefinito”, • “numerale”, • “possessivo”, • “wh”, sottocategoria classificatoria assegnata a parole determinanti il cui equivalente in lingua inglese presenta il grafema wh, del tipo quanta, qualunque, quante, ecc… La categoria “articolo” è associata agli articoli sia determinativi sia indeterminativi e comprende la sottocategoria “preposizione + articolo”. Non sono previsti tratti di sottocategorizzazione morfologica. In TUT le categorie previste per l’annotazione di elementi che esprimono determinazione sono: • la categoria “articolo”, che comprende le sottocategorie o “definito”, o “indefinito”; • la categoria “predeterminante”, assegnata a parole che svolgono la funzione di modificatori ‘quantitativi’ di un determinante, come ad esempio in tutte le stazioni, ambedue i suoi argomenti, ecc.. Ad entrambe le categorie sono attribuiti tratti di sottocategorizzazione morfologica. Per quanto riguarda l’annotazione degli elementi che esprimono determinazione, CORIS/CODIS_distribuzionale non prevede una classificazione in categorie morfosintattiche direttamente confrontabili con gli altri schemi di annotazione presi in considerazione. Tuttavia, nello schema è inclusa la categoria “argument-operator” (ARG), che include tutte quelle parole che svolgono dal punto di vista distribuzionale una funzione simile a quella di determinanti, introducendo strutture argomentali dipendenti per lo più da verbi. Tale categoria comprende le seguenti sottocategorie: • “argument-operator_determiner” (ARG_DET), che include parole propriamente ‘determinanti’ come ad esempio nel caso di il e mio nelle seguenti frasi, … il comportamento dei pm …, l’unica volta che mio padre mi portò al cinema … • “argument-operator_preposition” (ARG_PREP) (vedi la parte relativa alle preposizioni). Non sono in nessun caso previsti tratti di sottocategorizzazione morfologica. 45 In CoLFIS è prevista un’unica etichetta di classificazione per la categoria “articolo”, senza alcuna sottocategoria classificatoria né alcun tratto morfologico associato. NUNC prevede che l’unica categoria associata a elementi che esprimono determinazione sia quella di “determinante” sottocategorizzata in: • “definito”, • “indefinito”. Tale categoria include soltanto articoli determinativi e indeterminativi ai quali non sono associati tratti morfologici. In CT a elementi che esprimono determinazione sono associate le due seguenti categorie: • la categoria “articolo”, che comprende le due seguenti sottocategorie o “determinativo”, o “indeterminativo”; • la categoria “pronome-determinante” (vedi la parte relativa ai pronomi) attribuita sia a pronomi sia a ‘determinanti’. Lo schema prevede tratti morfologici associati alla categoria “articolo” relativi al ‘genere’ e del ‘numero’ dell’articolo corrispondente. Lo schema Lablita per l’italiano parlato coincide con quello NUNC per l’italiano scritto. Pertanto, gli elementi che esprimono determinazione sono classificati nello stesso modo. In AVIP/API per l’italiano parlato gli elementi che esprimono determinazione sono classificati rispetto a due categorie: • la categoria “pronome/determinatore”, attribuita a parole del tipo te, questo, lo, ecc..; • la categoria “articolo”, attribuita ad articoli sia determinativi sia indeterminativi. Come stabilito nei criteri di annotazione, non sono state assegnate etichette di sottocategorizzazione morfologica In VIT è prevista un’unica categoria “articolo”, che sussume le due seguenti sottocategorie: • “definito”, • “indefinito”. Lo schema prevede inoltre l’assegnazione di tratti morfologici (MFEATS) secondo la classificazione di tali tratti proposta in generale. In Dialoghi_Annotati per l’italiano parlato gli elementi che esprimono determinazione sono classificati rispetto a due categorie: • la categoria “determinante”, che comprende le seguenti sottocategorie: o dimostrativo, o interrogativo, o relativo, o indefinito, o esclamativo; • la categoria “articolo”, che comprende le due seguenti sottocategorie: o determinativo, o indeterminativo. A ciascuna sottocategoria sono attribuiti tratti morfologici specifici. Come in NUNC per l’italiano scritto e in Lablita per l’italiano parlato, anche in CiT per l’italiano parlato televisivo l’unica categoria associata a elementi che esprimono determinazione è quella di “determinante” che comprende le due seguenti sottocategorie: 46 • “definito”, • “indefinito”. Anche secondo questo schema, tale categoria include soltanto articoli determinativi e indeterminativi ai quali non sono associati tratti morfologici. 47 3.5 Interiezioni Categoria: ‘interiezione’ EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT Dimensione polirematica Presenza di sottocategorie classificatorie Atri tratti classificatori + + - - - - - - - + + + + + + - Schema di annotazione + - + Tabella 1 48 ‘pausa piena a componente nasale’ ‘pausa piena a componente vocale’ ‘vocalizzazione di prompting’ ‘marcatore del discorso’ - + + - In EAGLES è previsto che alla categoria “interiezione” non sia associata alcuna sottocategoria classificatoria. In LaRepubblica non è prevista alcuna categoria per la classificazione di parole con valore interiettivo (vedi la parte relativa ai criteri di annotazione delle categorie residue). In TUT alla categoria “interiezione” non sono associate sottocategorie classificatorie, né sono previsti casi di annotazione di espressioni polirematiche di tipo interiettivo. Per quanto riguarda l’annotazione di parole con valore interiettivo, CORIS/CODIS_distribuzionale non prevede alcuna categoria morfosintattica per la classificazione di questo tipo di parole. In CoLFIS è prevista un’unica etichetta di classificazione delle interiezioni. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo interiettivo”, come ad esempio Mamma mia, oh bella, in bocca al lupo25 sia associata l’etichetta I@. In NUNC e in CT la categoria “interiezione” non prevede alcuna sottocategoria. A differenza di NUNC, CT prevede l’annotazione di espressioni interiettive polirematiche (vedi la parte generale relativa ai criteri di annotazione adottati da tale schema). Lo schema Lablita per l’italiano parlato segue quanto previsto da NUNC per la classificazione di parole con valore interiettivo. Sia in AVIP/API sia in VIT è previsto che le parole con valore interiettivo siano classificate con la categoria “interiezione”. Dialoghi_Annotati per l’italiano parlato prevede che la categoria “interiezione” comprenda tre tratti classificatori, come illustrato nella seguente tabella: Etichetta Descrizione Esempio I@PN pausa piena a componente nasale mm, ehm, ecc. I@PV pausa piena a componente vocale aah, eeh, ooh, ecc. I@VP vocalizzazione di prompting mh, eh?, ah!, ecc. Come anche nel caso delle “congiunzioni” e degli “avverbi” (vedi le parti relative), anche alla categoria “interiezioni” lo schema prevede la possibilità di associare il tratto classificatore “marcatore del discorso”, per marcare quando le parole appartenenti a tali categorie occorrono in contesti particolari, per esempio isolatamente in un turno o in posizione iniziale o finale di turno. CiT per l’italiano parlato televisivo prevede che le interiezioni siano classificate rispetto all’unica categoria “interiezione”. 25 Gli esempi sono stati estratti direttamente dal corpus annotato. 49 3.6 Schema di annotazione EAGLES LaRepubblica TUT CORIS/ CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT Numerali Categorie specifiche per l’annotazione di numeri Categoria: ‘numerale’ Categoria: ‘numero’ Presenza di sottocategorie classificatorie Presenza di sottocategorie classificatorie Altra categoria Presenza di tratti morfologici Dimensione polirematica + - + - + + - “Data” + - - + + + + + + - + - - - - + + - - Tabella 1 50 Schema di annotazione EAGLES Sottocategorie classificatorie LaRep. C./C. TUT CoLFIS distribuz. Cardinale Ordinale NUNC CT Lablita A./A. - Cardinale Ordinale - - - VIT D.A. CiT Cardinale Ordinale Tabella 2: Sottocategorie della categoria ‘numerale’ Schema di annotazione EAGLES Sottocategorie classificatorie LaRep. TUT - - C./C. CoLFIS distribuz. NUNC CT Lablita Tabella 2: Sottocategorie della categoria ‘numero’ 51 A./A. VIT D.A. CiT In EAGLES alla categoria “numerale” sono associate le due seguenti sottocategorie: • numerale “cardinale”, • numerale “ordinale”. È previsto che vengano assegnati tratti di morfologici relativi al ‘genere’ e al ’numero’ del numerale. LaRepubblica prevede la categoria “numero”. Per l’annotazione di elementi numerali vedi anche la parte relativa agli “articoli” e “determinanti” e quella relativa ai “pronomi”. TUT prevede la categoria “numero”. Per l’annotazione dei numeri ordinali vedi la parte relativa agli aggettivi. Lo schema prevede inoltre che le date, quando riconosciute in fase di segmentazione (tokenizzazione) del testo in unità-parola, siano annotate come un unico elemento con l’etichetta DATE (“data”). Ad esempio, 10/5/98 è riconosciuto come un unico elemento, mentre alla data 10 maggio 1998 sono assegnate tre etichette distinte, cioè “numero”, “nome” e “numero”. Per quanto riguarda l’annotazione dei numeri, lo schema di annotazione distribuzionale con il quale è stato annotato il corpus CORIS/CODIS non fornisce sufficienti indizi di analisi dal momento che non include una classificazione in categorie morfosintattiche direttamente confrontabili con gli altri schemi di annotazione presi in considerazione. CoLFIS prevede la categoria “numerale”, senza alcuna etichetta di sottocategorizzazione né classificatoria né morfologica. In NUNC alla categoria “numerale” non sono associate etichette di sottocategorizzazione classificatoria né morfologica. In CT la categoria “numerale” comprende le due seguenti sottocategorie: • numerale “cardinale”, • numerale “ordinale”. Sono previste etichette di sottocategorizzazione morfologica relative al ‘genere’ e al ‘numero’ del numerale. Lo schema di annotazione Lablita per l’italiano parlato prevede la categoria “numerale” senza alcuna etichetta di sottocategorizzazione classificatoria né morfologica. Lo schema AVIP/API per l’italiano parlato prevede che ai numerali sia associata la categoria “numerale”, senza alcun tratto morfologico relativo. Lo schema VIT non prevede una categoria morfologica specifica per l’annotazione dei numerali. Per l’annotazione di tale informazione vedi le parti relative agli “aggettivi” e ai “pronomi”. Inoltre, tra le sottocategorie classificatorie generali (SFEATS) descritte nello schema di annotazione è prevista un’etichetta di sottocategorizzazione classificatoria per l’annotazione di • date (“date”), • numeri indicatori di sezioni (“sect”). In Dialoghi_Annotati per l’italiano parlato i numerali sono classificati con la categoria “numerale” che comprende le due seguenti sottocategorie: • numerale “cardinale”, • numerale “ordinale”. 52 È inoltre previsto che vengano assegnati tratti di morfologici relativi al ‘genere’ e al ’numero’ del numerale. In CiT per l’italiano parlato televisivo non è prevista alcuna etichetta di classificazione dei numerali. 53 3.7 Schema di annotazione EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT Preposizioni Presenza di sottocategorie classificatorie + + Presenza di tratti morfologici + - Dimensione polirematica + + - - + + + + - + + - + + + + - Tabella 1 54 Altro Categoria “Subordinator” Categoria “Argument-operator” - Schema di annotazione C./C. EAGLES LaRep. TUT CoLFIS distribuz. Semplice Monosillabica Polisillabica Complemento Sottocategorie Articolata Polisillabica del nome classificatorie Complemento del verbo NUNC Sottocategorie classificatorie CT Schema di annotazione Lablita A./A. VIT Articolata Preposizione Posposizione D.A. Articolata Articolata - Tabella 2 55 - CiT Preposizione + articolo In EAGLES la categoria morfosintattica delle “preposizioni” rientra nella macro-categoria delle “adposizioni”. In base ai criteri di classificazione è previsto che la categoria comprenda le due seguenti sottocategorie: • preposizioni semplici (“simple”), • preposizioni articolate (“fused”). Nel caso della sottocategoria classificatoria “preposizione articolata” sono inoltre previste etichette di sottocategoria morfologica relative al ‘genere’ e al ‘numero’. In LaRepubblica è prevista un’unica categoria “preposizione” per la classificazione delle preposizioni. Per l’annotazione delle preposizioni articolate vedi la parte relativa all’annotazione di articoli e determinanti. In TUT la categoria “preposizione”comprende le due seguenti sottocategorie: • “preposizione monosillabica”, assegnata alle preposizioni semplici del tipo di, a, da, ecc…, • “preposizione polisillabica”, assegnata alle preposizioni del tipo attorno, accanto, prima, ecc.. Inoltre, in TUT è prevista l’annotazione di parole polirematiche di tipo preposizionale, articolata su due livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti dal corpus di testi giornalistici, si può vedere che espressioni polirematiche di tipo preposizionale come nei_confronti_di, in_linea_con sono etichettate come un unico elemento LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION segue le etichette della categoria morfosintattica “preposizione” (PREP) e dei tratti di sottocategorizzazione classificatoria; nel caso delle espressioni polirematiche viene sempre assegnata l’etichetta PREP POLI (“preposizione polisillabica”). Come specificato nei criteri di annotazione relativi al trattamento della dimensione polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di locuzione. Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di locuzioni fisse. nei (NEI_CONFRONTI_DI PREP POLI LOCUTION) [21;ADVB-RMOD] confronti (NEI_CONFRONTI_DI PREP POLI LOCUTION) [25;CONTIN+LOCUT] di (NEI_CONFRONTI_DI PREP POLI LOCUTION) [26;CONTIN+LOCUT] in (IN_LINEA_CON PREP POLI LOCUTION) [9;ADJC-RMOD] linea (IN_LINEA_CON PREP POLI LOCUTION) [11;CONTIN+LOCUT] con (IN_LINEA_CON PREP POLI LOCUTION) [12;CONTIN+LOCUT] Tale trattamento della dimensione polirematica implica che in fase di segmentazione (tokenizzazione) del testo in unità-parola le locuzioni preposizionali siano state considerate un elemento unico a cui viene attribuita un’unica categoria classificatoria a livello di annotazione morfosintattica. In CORIS/CODIS_distribuzionale la categoria “preposizione” comprende le seguenti sottocategorie: • le preposizioni, per lo più polisillabiche, alle quali è assegnata l’etichetta PREP_POLI, che introducono determinanti o oltre strutture preposizionali e svolgono la funzione di complementi verbali, come ad esempio contro nella seguente frase, … protestare contro il Governo …; • le preposizioni alle quali è assegnata l’etichetta PREP_NA, che introducono nomi e svolgono la funzione di complementi del nome, come ad esempio del nella seguente frase, … proporzione del vantaggio …; • le preposizioni alle quali è assegnata l’etichetta PREP_VA, che introducono nomi e svolgono la funzione di complementi del verbo, come ad esempio … provvedere in tempo … 56 Lo schema prevede inoltre che le preposizioni vengano classificate rispetto ad altre due categorie morfosintattiche, alle quali è associata una rispettiva sottocategoria: • la categoria “subordinator” (etichetta “SUB”), sottocategorizzata in SUB_ARG, assegnata a parole che introducono frasi argomento di una testa di tipo verbale, come nel caso ad esempio di nella seguente frase, … salvo che esigenze tecniche impongano di costruirlo …; è importante sottolineare che tale categoria è assegnata non solo a preposizioni, ma anche ad esempio a congiunzioni (vedi la parte relativa alle congiunzioni); • la categoria “argument-operator” (etichetta ARG), sottocategorizzata in ARG_PREP, assegnata alle preposizioni che svolgono dal punto di vista distribuzionale una funzione simile a quella di determinanti, dal momento che introducono strutture argomentali dipendenti per lo più da verbi, come ad esempio a nella seguente frase, … spetta a Massimo D’Alema dire se … In CoLFIS è prevista un’unica etichetta di classificazione delle preposizioni. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che alle “parole sintagmatiche preposizionali”, come ad esempio su iniziativa di, invece di, unitamente a, sulla base di, prima di, quanto a, al di là di, in caso di26 sia associata l’etichetta P@. In NUNC alle preposizioni viene assegnata • l’etichetta PRE (“preposizione”) per la classificazione di tutti i tipi di preposizioni, • l’etichetta PRE:det (“preposizione + articolo”) alle preposizioni articolate. Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica. In CT le preposizioni sono classificate con la categoria “adposizioni”, che comprende le due seguenti sottocategorie: • “adposition.preposition” (etichetta ADP.PRE), assegnata a tutti i tipi di preposizioni, • “adposition.postposition” (etichetta ADP.POST), assegnata per annotare una particolarità dei testi fiorentini del XIII secolo che costituiscono il corpus annotato di riferimento, la posizione cioè postposta di alcune preposizioni semplici rispetto al pronome personale, in formazioni del tipo teco, seco, meco. Per i criteri di annotazione delle espressioni polirematiche previsti dallo schema di annotazione vedi la parte generale relativa. In Lablita per l’italiano parlato, come in NUNC per l’italiano scritto, tutti i tipi di preposizioni vengono classificati con la categoria unica “preposizione”, alla quale non vengono associate etichette di sottocategorizzazione classificatoria. In AVIP/API per l’italiano parlato è previsto che l’etichetta AP per l’annotazione delle preposizioni semplici comprenda l’etichetta di sottocategorizzazione AP/AT per l’annotazione delle preposizioni articolate. Come stabilito nei criteri di annotazione, non sono state assegnate etichette di sottocategorizzazione morfologica. In VIT è previsto che l’etichetta PRE per l’annotazione delle preposizioni semplici comprenda l’etichetta di sottocategorizzazione PRE:ART per l’annotazione delle preposizioni articolate. Per l’annotazione delle locuzioni preposizionali è inoltre previsto l’uso di una serie di etichette di sottocategorizzazione classificatoria, sottocategorie di una categoria morfosintattica generale “locuzione” (LOC) dedicata all’annotazione anche di espressioni polirematiche di tipo congiuntivo 26 Gli esempi sono stati estratti direttamente dal corpus annotato. 57 e avverbiale (vedi la parte relativa alle congiunzioni e agli avverbi). Per quanto riguarda la classificazione delle espressioni polirematiche preposizionali la categoria “locuzione” comprende la seguente sottocategoria: Etichetta loc Prep Descrizione preposizione Esempio attorno (a) Tra la lista degli altri tratti di sottocategorizzazione classificatoria (SFEATS) è inoltre prevista l’assegnazione di una etichetta (“php”) per l’annotazione di locuzioni preposizionali. Lo schema prevede l’annotazione di tratti morfologici (MFEATS) secondo la classificazione di tali tratti proposta in generale. In Dialoghi_Annotati per l’italiano parlato è prevista un’unica categoria “preposizione” (E@). È inoltre previsto che preposizioni articolate formate da più di una parola vengano classificate come un elemento unico, annotato con l’etichetta EL@ (“preposizione articolata in locuzione”). In entrambi i casi, il simbolo @ è seguito da tratti di sottocategorizzazione morfologica. In CiT per l’italiano parlato televisivo è previsto che l’etichetta PRE per l’annotazione delle preposizioni semplici comprenda l’etichetta di sottocategorizzazione PRE:det per l’annotazione delle preposizioni articolate. Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica. 58 3.8 Schema di annotazione EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT Presenza di sottocategorie classificatorie + + + Pronomi Presenza di tratti morfologici Persona + + Genere + + Numero + + Caso Atono/tonico + + + - Altro Categoria “Clitico” - + + + + + + + + + - + + + - + + + - Tabella 1 59 + + - + - Categoria “Clitico” Schema di annotazione C./C. EAGLES LaRep. TUT CoLFIS NUNC distribuz. Personale Personale Personale Personale Possessivo Possessivo Possessivo Possessivo Dimostrativo Dimostrativo Dimostrativo Dimostrativo Indefinito Indefinito Indefinito Indefinito Sottocategorie Interrogativo Numerale Interrogativo Relativo classificatorie Relativo Relativo Riflessivo Esclamativo Esclamativo Locativo Riflessivoimpersonale Schema di annotazione CT Lablita A./A. VIT D.A. Personale Personale Personale Possessivo Possessivo Possessivo Dimostrativo Dimostrativo Dimostrativo Indefinito Indefinito Indefinito Sottocategorie * Interrogativo Interrogativo Relativo classificatorie Relativo Riflessivo Relativo Esclamativo Esclamativo Tabella 2 * Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste. 60 CiT Personale Possessivo Dimostrativo Indefinito Relativo Riflessivo pronome ci In EAGLES la categoria “pronome” comprende le seguenti sottocategorie: • personale, • possessivo, • dimostrativo, • indefinito, • interrogativo, • relativo, • esclamativo. Ad ogni sottocategoria sono associati i rispettivi tratti morfologici relativi alla ‘persona’, al ‘genere’ e al ‘numero’. In particolare, ai pronomi personali sono associati i tratti • ‘tonico/atono’, • ‘caso’ o obliquo per i pronomi personali atoni, o nominativo o obliquo per i pronomi personali tonici. In LaRepubblica la categoria “pronome” comprende le seguenti sottocategorie: • personale, • possessivo, • dimostrativo, • indefinito, • numerale. Non sono previsti dallo schema tratti morfologici associati. Lo schema prevede inoltre la categoria “clitico” specifica per l’annotazione di particelle clitiche. In TUT la categoria “pronome” comprende le seguenti sottocategorie: • personale, • possessivo, • dimostrativo, • indefinito, • interrogativo, • relativo, • esclamativo. • locativo (es. ne, ci, vi), • riflessivo-impersonale (es. ci, vi, si, ne). È da notare che le ultime due sottocategorie sono dedicate in particolare all’annotazione dei clitici. Lo schema prevede inoltre che, oltre ai tratti morfologici relativi alla ‘persona’, al ‘genere’ e al ‘numero’, siano associati alla categoria “pronome”, già a livello di annotazione morfosintattica, anche le relazioni grammaticali di • soggetto, • oggetto, • oggetto indiretto. Per quanto riguarda l’annotazione dei pronomi, lo schema CORIS/CODIS_distribuzionale non fornisce sufficienti indizi di analisi dal momento che non include una classificazione in categorie morfosintattiche direttamente confrontabili con gli altri schemi di annotazione presi in considerazione. In base all’approccio distribuzionale tenuto in considerazione nella definizione dello schema di annotazione, i pronomi sono classificati come elementi parte • della categoria “ENTITY” che comprende entità pronominali che svolgono un ruolo di testa di un complemento parte della struttura argomentale di un verbo, come ad esempio coloro nella seguente frase … tutti coloro che offrono aiuto sono i benvenuti …; 61 • della categoria “RELATIVE” che comprende pronomi e avverbi che introducono frasi relative ad un livello di analisi sintattica del testo (vedi la parte relativa agli avverbi), come ad esempio cui nella seguente frase … ai terreni su cui esistevano diritti …. In CoLFIS è prevista un’unica categoria per la classificazione dei pronomi e nessun tratto morfologico associato. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo pronominale”, come ad esempio che cosa, il quale27 sia associata l’etichetta N@. In NUNC la categoria “pronome” comprende le seguenti sottocategorie: • personale, • possessivo, • dimostrativo, • indefinito, • relativo, • riflessivo. Non è prevista l’annotazione di tratti morfologici. CT prevede l’esistenza di un’unica categoria “pronome-determinante” per la classificazione sia di pronomi sia di ‘determinanti’ (vedi la parte relativa all’annotazione di elementi che esprimono determinazione). Tale categoria sussume le medesime sottocategorie classificatorie associate alla categoria “pronome” previste dallo standard EAGLES. Lo schema prevede che i tratti morfologici associati siano informativi della ‘persona’, del ‘genere’, del ‘numero’ e del ‘caso’ del pronome-determinante corrispondente. Inoltre, prevede che vengano associati i tratti • ‘atono/tonico’ (nello schema etichettato come “strong/weak”), associati al o “pronome-determinante personale”, o “pronome-determinante dimostrativo” o “pronome-determinante possessivo”, • ‘caso’ o obliquo, o nominativo. Come è stato possibile verificare in altri casi, lo schema di annotazione Lablita per l’italiano parlato coincide con lo schema NUNC per l’italiano scritto. Pertanto, la classificazione dei pronomi segue il medesimo schema descritto sopra. In AVIP/API per l’italiano parlato, come in CT per l’italiano scritto, è prevista una categoria unica “pronome/determinatore” per l’annotazione dei pronomi, senza alcuna sottocategoria associata. Come stabilito nei criteri di annotazione, non sono previste etichette di sottocategorizzazione morfologica. In VIT la categoria “pronome” comprende le seguenti sottocategorie: Etichetta pron:an pron:alt 27 pron pron Descrizione anaforico "other" Gli esempi sono stati estratti direttamente dal corpus annotato. 62 Esempio stesso altro Etichetta pron:cl pron:dim pron:escl pron:ind pron:int pron:loc:cong pron:neg pron:pers pron:poss pron:qd pron:qp pron:rel pron:z:an pron:z:def pron:z:ind pron:z:int pron:z:escl pron:z:min pron:z:num pron:z:qd pron:z:qp pron:z:rel:ind pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron pron Descrizione clitico dimostrativo esclamativo indefinito interrogativo locuzione negazione personale possessivo quantificatore quantificatore relativo invariato invariato invariato invariato invariato invariato invariato quantificatore quantificatore relativo Esempio congiunzione distributivo partitive anaforico definito indefinito interrogativo esclamativo minoranza numerale distributivo partitivo indefinito li quegli quanto troppo quale cui nessuno io tuo ciascuno molto quale sé tutto chicchessia chi che minore entrambi ognuno molto qualunque È da sottolineare il fatto che l’insieme di sottocategorie associate alla categoria “pronome” contiene una sottocategoria specifica per l’annotazione di pronomi clitici. A tale sottocategoria sono associati i seguenti tratti di sottocategorizzazione (SFEATS) generali relativi al ‘caso’: • “pronome”, clitico, ablativo (locativo), • “pronome”, clitico, accusativo, • “pronome”, clitico, dativo. Per alcune sottocategorie, lo schema prevede già l’associazione del tratto morfologico corrispondente, nonché alcuni tratti di sottocategorizzazione (SFEATS) generali (es. “minoranza”, “partitivo”, ecc…). Lo schema prevede l’annotazione di tratti morfologici (MFEATS) secondo la classificazione di tali tratti proposta in generale. Dialoghi_Annotati per l’italiano parlato prevede le medesime sottocategorie di EAGLES associate alla categoria “pronome”. Sono inoltre previsti tratti morfologici relativi alla ‘persona’, al ‘genere’ e al ‘numero’. CiT per l’italiano parlato televisivo prevede che la categoria “pronome” comprenda le seguenti sottocategorie: • personale, • possessivo, • dimostrativo, • indefinito, • relativo, • riflessivo, • “pronome ci”, associata alle occorrenza del nesso ‘ci + verbo essere’. 63 Come LaRepubblica, lo schema prevede inoltre la categoria “clitico”, per la classificazione dei pronomi clitici e dei nessi clitici del tipo glielo. Lo schema non prevede l’assegnazione di etichette di sottocategorizzazione morfologica. 64 3.9 Nomi Presenza di sottocategorie classificatorie Presenza di tratti morfologici Dimensione polirematica EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API + + + + + Categoria “Nome proprio” - + - + - + + - VIT + + - Dialoghi_Annotati CiT + - + - + - Categoria “Nome proprio” Categoria “Nome proprio” Categoria sottospecificata “nome/aggettivo_predicativo” Categoria sottospecificata “nome/aggettivo_participio_presente” Categoria “Nome proprio” Schema di annotazione Tabella 1 65 Altro Schema di annotazione EAGLES LaRep. Sottocategorie classificatorie Comune Proprio - Altri tratti classificatori - - TUT Comune Proprio Nome deverbale C./C. CoLFIS NUNC distribuz. CT Lablita A./A. - - Comune Proprio - - - - - - - Tabella 2 * Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste. 66 VIT * Classe di flessione * D.A. Proprio Straniero - CiT - In EAGLES la categoria “nome” comprende le due seguenti sottocategorie: • nome comune, • nome proprio. E’ inoltre prevista l’assegnazione di tratti di sottocategorizzazione morfologica relativi al ‘genere’ e al ‘numero’. In LaRepubblica è prevista • un’unica categoria “nome” per la classificazione dei nomi, senza nessuna sottocategoria, • una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”. Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica. In TUT la categoria “nome” comprende le due seguenti sottocategorie: • nome comune, • nome proprio. Oltre ai tratti morfologici corrispondenti associati, è assegnato un ulteriore tratto classificatorio ‘deverbale’, al quale è associata l’informazione relativa al verbo da cui deriva il nome deverbale e al tipo di verbo transitivo o intransitivo di derivazione. In questo caso previsto dallo schema, come si può vedere nell’estratto dal corpus giornalistico, l’annotazione è realizzata nel modo seguente: fallimenti (FALLIMENTO NOUN COMMON M PL FALLIRE INTRANS) Alla forma fallimenti è assegnata la categoria morfosintattica (NOUN), i tratti morfologici corrispondenti (maschile, plurale) e il verbo da cui deriva (FALLIRE); viene inoltre specificato che si tratta di un verbo intransitivo. Questa informazione è importante per il successivo livello di annotazione sintattica, in particolare per il modulo di assegnazione automatica della relazione grammaticale soggetto/oggetto. Nel caso ad esempio del sintagma la caduta di Marco, l’annotazione del fatto che il nome caduta derivi dal verbo cadere, intransitivo, è il presupposto per l’annotazione della relazione “soggetto” tra il nome caduta e la preposizione di. Inoltre, in TUT è prevista l’annotazione di parole polirematiche di tipo nominale, articolata su due livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti dal corpus di testi giornalistici, si può vedere che espressioni polirematiche di tipo nominale come conferenza_stampa, arma_da_fuoco, punti_di_vista sono etichettate come un unico elemento LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION segue le etichette della categoria morfosintattica (NOUN), dei tratti di sottocategorizzazione classificatoria e morfologici. Come specificato nei criteri di annotazione relativi al trattamento della dimensione polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di locuzione. Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di locuzioni fisse. conferenza (CONFERENZA_STAMPA NOUN COMMON F SING LOCUTION) [11.1;DET+DEF-ARG] stampa (CONFERENZA_STAMPA NOUN COMMON LOCUTION) [13;CONTIN+LOCUT] arma (ARMA_DA_FUOCO NOUN COMMON F SING LOCUTION) [15;PREP-ARG] da (ARMA_DA_FUOCO NOUN COMMON F SING LOCUTION) [16;CONTIN+LOCUT] fuoco (ARMA_DA_FUOCO NOUN COMMON F SING LOCUTION) [17;CONTIN+LOCUT] punto (PUNTO_DI_VISTA NOUN COMMON M SING LOCUTION) [6.1;DET+DEF-ARG] di (PUNTO_DI_VISTA NOUN COMMON LOCUTION) [7;CONTIN+LOCUT] vista (PUNTO_DI_VISTA NOUN COMMON LOCUTION) [8;CONTIN+LOCUT] 67 Tale trattamento della dimensione polirematica implica che in fase di segmentazione (tokenizzazione) del testo in unità-parola le locuzioni di tipo nominale siano state considerate un elemento unico a cui viene attribuita un’unica categoria classificatoria a livello di annotazione morfosintattica. Per quanto riguarda l’annotazione dei nomi, lo schema CORIS/CODIS_distribuzionale non prevede alcuna modifica di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita descrizione dello schema in merito. In CoLFIS è prevista • una categoria “sostantivo” (S) per l’annotazione dei nomi comuni, • una categoria “nome proprio” (E). Per entrambe non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che • alle “parole sintagmatiche di tipo sostantivale”, come ad esempio fai da te, alter ego, messa in scena, tutto esaurito, week-end, top model 28 sia associata l’etichetta S@; • alle “parole sintagmatiche di tipo nominale proprio”, come ad esempio Teatro Carignano, Stretto dei Dardanelli, Sri Lanka, via Georgofili, Il Mulino sia associata l’etichetta E@. Come in LaRepubblica, anche in NUNC è prevista • un’unica categoria “nome” per la classificazione dei nomi, senza nessuna sottocategoria, • una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”. Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica. In CT la categoria “nome” comprende le due seguenti sottocategorie: • nome “comune”, • nome “proprio”. Lo schema prevede che i tratti morfologici associati siano relativi al ‘genere’ e del ‘numero’ del nome corrispondente. Per i criteri di annotazione delle espressioni polirematiche previsti dallo schema vedi la parte generale relativa. Come in LaRepubblica e NUNC, anche in Lablita per l’italiano parlato è prevista • un’unica categoria per classificazione dei nomi senza nessuna sottocategoria, • una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”. Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica. In AVIP/API per l’italiano parlato è assegnata una categoria unica (N) ai nomi sia comuni sia propri. Come stabilito nei criteri di annotazione, non sono stati annotati i tratti morfologici. In VIT la categoria “nome” prevede una numerosa serie di sottocategorie, come riportato nella seguente tabella: Etichetta n:a2:f n:a:f n:a:m 28 fem fem masc classe classe classe Descrizione -a2 -a -a Gli esempi sono stati estratti direttamente dal corpus annotato. 68 Esempio ala alabarda automa Etichetta n:a:m:f n:ca:f n:ca:m n:co:m n:e:f n:e:m n:e:m:f n:ga:f n:ga:m:f n:go:m n:ia:f n:ie:f n:io:m n:o:m n:ore:m n:c:f n:c:m n:geo:f n:geo:f:pl n:geo:f:sg n:geo:m n:p:f n:p:m n:p:m:pl n:ab:f n:ab:m n:tg:f:pl n:tg:f:sg n:tg:m n:tg:m:pl n:tg:m:sg n:tm:m n:ts:f:pl n:ts:f:sg n:ts:m:pl n:ts:m:sg n:z:f n:z:f.pl n:z:f:sg n:z:m n:z:m:f n:z:m:f:pl n:z:m:f:sg n:z:m:pl n:z:m:sg masc fem masc masc fem masc masc fem masc masc fem fem masc masc masc fem masc fem fem fem masc fem masc masc fem masc fem fem masc masc masc masc fem fem masc masc fem fem fem masc masc masc masc masc masc fem classe classe classe classe classe fem classe fem classe classe classe classe classe classe classe classe classe plurale plurale classe classe classe plurale classe classe plurale singol classe plurale singol classe plurale singol plurale singol invar plurale singolare invar fem fem fem plurale singol Descrizione classe -ca -ca -co -e -e classe -ga classe -go -ia -ie -io -o -ore c(olore) c(olore) geo(grafico) classe classe geo(grafico) p(ropio) p(ropio) classe abbreviazione abbreviazione classe classe t(empo)-giorno classe classe t(empo)-mese classe classe classe classe -a -e -ga geo(grafico) geo(grafico) p(ropio) t(empo)-giorno t(empo)-giorno t(empo)-giorno t(empo)-giorno t(empo)- stagione t(empo)-stagione t(empo)- stagione t(empo)- stagione invar invar invar plurale singol invar invar invar invar Esempio borsista amica arciduca mammalucco bronchite clone commediante carlinga collega castigo coscia moglie monopolio monoplano motocoltivatore ambra arancio carrara alpi murgia nord raffaella poseidone dioscuri agip centotredici ceneri pasqua capodanno sabati ferragosto dicembre estati estate autunni autunno estraneità fauci atrazina Yogurt, iter groviera idi capobanda convenevoli fiele È da sottolineare che in questo tipo di classificazione sono già associati i rispettivi tratti di sottocategorizzazione morfologica relativi al ‘genere’, al ‘numero’ e alla ‘classe di flessione’ del nome. 69 Nello schema sono inoltre previste due categorie sottospecificate: una categoria “nome/aggettivo_predicativo” (NA), che comprende le seguenti sottocategorie: Etichetta na:a:f na:a:m na:a:m:f na:ca:f na:co:m na:e:f na:e:m na:e:m:f na:ga:f na:ga:m:f na:go:m na:go:m:sg na:ia:f na:io:m na:io:m:sg na:o:m na:o:m:sg na:ore na:z:m na:z:m:f nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj nome+adj Descrizione fem classe masc classe masc/fem classe fem classe masc classe fem classe masc classe masc fem fem classe masc fem masc classe masc solo/sing fem classe masc classe masc solo/sing masc classe masc solo/sing classe -ore masc invariato masc fem -a -a -a -ca -co -e -e -ga classe -go classe -ia -io classe -o classe -ga -go -io -o invariato Esempio femmina erbicida estremista scarica sciocco sciupone plantare possidente centrifuga belga coprofago gallego greggia grigio romancio guasto ridicolo roditore standard snob una categoria “nome/aggettivo_participio_presente” (NAPR), che comprende le seguenti sottocategorie: Etichetta napr:e:f napr:e:m napr:e:m:f nome+adj nome+adj nome+adj Descrizione fem classe masc classe masc fem -e -e classe -e Esempio stimolante spiovente richiedente Anche in questo caso, ad ogni sottocategoria classificatoria, sono già associati i rispettivi tratti di sottocategorizzazione morfologica. È inoltre prevista l’assegnazione di una serie di tratti di sottocategorizzazione classificatoria generale (SFEATS): Etichetta Nc Nf Nh Np Npro Nt Descrizione Nome di colore Nome fattivo Nome umano Nome proprio geografico o di istituzione Nome proprio per casi di parole non presenti nel vocabolario Nome di tempo Per la descrizione di “aggettivi” che svolgono la funzione di “nomi” vedi la parte relativa agli “aggettivi”. 70 In Dialoghi_Annotati per l’italiano parlato la categoria “sostantivo”, assegnata per la classificazione di nomi ‘comuni’, comprende le due seguenti sottocategorie: nome “proprio”, nome “straniero”. Il simbolo L è assegnato per annotare la presenza di un sostantivo sia comune, sia “proprio” sia “straniero” in locuzione. In tutti i casi, alla categoria sono associati tratti di sottocategorizzazione morfologica relativi al ‘genere’ e al ‘numero’. Come in LaRepubblica, in NUNC e in Lablita, anche in CiT per l’italiano parlato televisivo è prevista • un’unica categoria per classificazione dei nomi senza nessuna sottocategoria, • una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”. Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica. 71 3.10 Verbi Presenza di sottocategorie classificatorie Modo Tempo Presenza di tratti morfologici Presenza di tratti sintattici Presenza di tratti semantici EAGLES + + + + - - LaRepubblica + + + - - - TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT + + + + + + + + + + + + + + + + + + + + + + + + - + + - Schema di annotazione Tabella 1 72 Altro Dimensione polirematica - - Categoria “ausiliare” - + + - - + + - - Schema di annotazione EAGLES Pieno Sottocategorie classificatorie Altri tratti LaRep. Modale/ causale Ausiliare - C./C. distribuz. TUT Pieno CoLFIS NUNC Ausiliare - Lablita A./A. Pieno - Ausiliare Modale Presenza del clitico in enclisi CT - D.A. Ausiliare Ausiliare Modale Modo finito/non finito - VIT - - - Copulativo Modale Costruzione perifrastica CiT Ausiliare - - - - - A./A. VIT D.A. CiT - Transitivo Intransitivo Riflessivo - - Tabella 2: Sottocategorie della categoria “verbo” Schema di annotazione EAGLES Tratti sintattici - LaRep. TUT - Transitivo Intransitivo Riflessivo C./C. CoLFIS distribuz. - NUNC - CT - Lablita - Tabella 3: Tratti sintattici associati alla categoria “verbo” Schema di annotazione Tratti semantici EAGLES LaRep. TUT - - - C./C. CoLFIS distribuz. - NUNC CT Lablita A./A. VIT D.A. CiT - - - - Ergativo Incoativo Copulativo - - Tabella 4: Tratti semantici associati alla categoria “verbo” 73 In EAGLES la categoria “verbo” comprende le due seguenti sottocategorie: • “verbo, pieno”, • “verbo, ausiliare”. Ad entrambe queste due sottocategorie sono associati il rispettivo ‘modo’ e ‘tempo’ e i tratti morfologici corrispondenti secondo lo schema seguente: Modo indicativo congiuntivo condizionale imperativo infinito gerundio participio Tempo presente presente presente presente presente presente presente imperfetto futuro imperfetto passato passato Tratti morfologici Persona Numero Genere 1, 2, 3 sg, pl 1, 2, 3 sg, pl 1, 2, 3 sg, pl 2 sg, pl sg, pl c sg, pl m, f EAGLES non prevede il trattamento della dimensione polirematica verbale. Nello schema LaRepubblica sono previste due categorie per la classificazione dei verbi: • la categoria “verbo”, che comprende la sottocategoria verbo “modale/causale”, • la categoria “ausiliare”. I tratti associati ad entrambe queste due categorie sono relativi all’annotazione • del ‘modo’, • della presenza di un clitico in posizione enclitica. I tratti associati alla categoria “verbo” sono i seguenti: Modo Tempo Finito Gerundio Infinito Participio Presente Passato Presenza di un clitico in posizione enclitica + + + + I tratti associati alla categoria “verbo”, con sottocategoria “modale/causale” sono i seguenti: Modo Tempo Finito Gerundio Infinito Participio Presente Passato Presenza di un clitico in posizione enclitica + + + - I tratti associati alla categoria “ausiliare” sono i seguenti: Modo Finito Tempo 74 Presenza di un clitico in posizione enclitica + Modo Tempo Gerundio Infinito Participio Presente Passato Presenza di un clitico in posizione enclitica + + - In nessun caso lo schema LaRepubblica prevede l’annotazione di tratti morfologici. In TUT la categoria “verbo” comprende le tre seguenti sottocategorie: • “verbo, pieno”, sottocategoria associata anche a verbi copulativi; • “verbo, ausiliare”; • “verbo, modale”. A ciascuna di queste sottocategorie sono associati il ‘modo’, il ‘tempo’, i rispettivi tratti morfologici. Lo schema prevede inoltre l’annotazione della ‘transitività’, classificata rispetto ai seguenti tratti: • “transitivo”, • “intransitivo”, • “riflessivo”. Secondo quanto previsto dai criteri di annotazione, la dimensione polirematica verbale è annotata a livello sintattico, più che morfosintattico. Per quanto riguarda l’annotazione dei verbi, lo schema CORIS/CODIS_distribuzionale non prevede alcuna modifica di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita descrizione dello schema in merito. In CoLFIS la categoria “verbo” comprende come unica sottocategoria “ausiliare”. Lo schema non prevede l’annotazione né del ‘modo’, né del ‘tempo’, né di tratti morfologici associati. Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale relativa), CoLFIS prevede che l’etichetta V@, per l’annotazione di “parole sintagmatiche di tipo verbale”, venga assegnata in caso di presenza di clitici sia in posizione proclitica sia enclitica. In NUNC è prevista un’unica categoria “verbo” alla quale sono associati i rispettivi ‘modo’ e ‘tempo’, secondo schema seguente: Etichetta Modo Tempo VER:cimp congiuntivo imperfetto VER:cond condizionale VER:cpre congiuntivo presente VER:futu futuro VER:geru gerundio VER:impe imperativo VER:impf imperfetto VER:infi infinito VER:pper participio passato VER:ppre participio presente VER:pres presente VER:refl:infi riflessivo, infinito VER:remo passato remoto Non sono previsti dallo schema tratti di sottocategorizzazione morfologica. 75 Lo schema CT prevede che la categoria “verbo” comprenda le tre seguenti sottocategorie: • verbo “pieno”, • verbo “ausiliare”, • verbo “modale”. A tutte e tre le sottocategorie sono associati i rispettivi ‘modo’, ‘tempo’, l’indicazione se si tratta di un modo di tipo ‘finito’ o ‘non-finito’ e i tratti morfologici. Per i criteri di annotazione delle espressioni polirematiche verbali previsti vedi la parte generale relativa. Come è stato possibile verificare in altri casi, lo schema Lablita per l’italiano parlato coincide con quello NUNC per l’italiano scritto. Pertanto, la classificazione dei verbi segue lo schema illustrato sopra. Lo schema AVIP/API per l’italiano parlato prevede un’unica categoria “verbo”. Come specificato nei criteri di annotazione, tutte le unità grafiche sono state considerate ‘parole’ e come tali dotate di una categoria morfosintattica corrispondente. Di conseguenza la dimensione polirematica non è stata considerata. Così come lo schema non prevede l’annotazione dei tratti morfologici. Nello schema VIT la categoria “verbo” comprende una serie di etichette associate al verbo rispetto • a tratti sintattici, • alla coniugazione, • a tratti che rendono esplicita parte della natura semantica del verbo. Tali etichette sono organizzate secondo lo schema riassunto nella seguente tabella: Etichetta v:1:cop v:1:intr v:1:intr:imp v:1:intr:pron v:1:rifl v:1:rifl:rec v:1:tr v:1:tr:erg v:2:intr v:2:intr:imp v:2:intr:pron v:2:rifl v:2:rifl:rec v:2:tr v:2:tr:erg v:3:intr v:3:intr:pron v:3:rifl v:3:rifl:rec v:3:tr v:3:tr:erg v:a3:intr v:a3:intr:imp v:a3:intr:pron v:a3:rifl v:a3:rifl:rec Descrizione dei tratti di sottocategorizzazione copulativo 1. intrans. 1. intrans. impersonale 1. intrans. pronominale 1. riflessivo 1. riflessivo reciproco 1. trans. 1. trans. ergativo 1. intrans. 2. intrans. impersonale 2. intrans. pronominale 2. riflessivo 2. riflessivo reciproco 2. trans. 2. trans. ergativo 2. intrans. 3. intrans. pronominale 3. riflessivo 3. riflessivo reciproco 3. trans. 3. trans. ergativo 3. intrans. 3. incoativo intrans. impers. 3. incoat. intrans. pronom. 3. incoat. riflessivo 3. incoat. riflessivo recipr. 3. incoativo 76 Esempio sembrare serpeggiare sgelare sgolare slacciare somigliare somministrare ammosciare ripetere calere compiere credere sfottere spremere scotere applaudire scucire sentire susseguire vestire adempire avvizzire imbrunire avvilire istruire riunire Etichetta v:a3:tr v:a3:tr:erg v:i-v:1:cop v:i-v:1:intr v:i-v:1:intr: v:i-v:1:intr: v:i-v:1:rifl v:i-v:1:tr v:i-v:2:aux v:i-v:2:cop v:i-v:2:intr v:iv:2:intr:imp v:iv:2:intr:pron v:i-v:2:rifl v:i-v:2:rifl:rec v:i-v:2:tr v:i-v:3:cop v:i-v:3:intr v:iv:3:intr:imp v:iv:3:intr:pron v:i-v:3:rifl v:i-v:3:rifl:rec v:i-v:3:tr v:i-v:a3:intr v:iv:a3:intr:pron v:i-v:a3:rifl v:i-v:a3:tr Descrizione dei tratti di sottocategorizzazione trans. 3. incoativo trans. ergativo 3. incoat. copulative 1. irreg. intrans. 1. irreg. imp intrans. impers. 1. irreg. pron intrans. pronom. 1. irreg. riflessivo 1. irreg. trans. 1. irreg. ausiliare 2. irreg. copulativo 2. irreg. intrans. 2. irreg. intrans. impers. 2. irreg. Esempio riverire aggrinzire stare andare dare liquefare disfare contraffare essere corrispondere compiacere parere intrans. pronom. 2. perdere riflessivo riflessivo trans. copulativo intrans. intrans. 2. recipr 2. 2. 2. impers irreg. 2. irreg. irreg. irreg. 2. intrans. pronom. 2. riflessivo riflessivo trans. intrans. intr 3. reciproco 2. 3. pronom. irreg. 2. irreg. incoat. 3. riflessivo trans. 3. 3. incoat. incoat. irreg. irreg. ritrarre reggere rendere apparire aprire convenire irreg. imbiondire irreg. irreg. irreg. incoat. irreg. irreg. irreg. rioffrire contraddire dire impallidire inacidire profferire inaridire Alla categoria “verbo” sono inoltre associati il ‘modo’ e il ‘tempo’, nonché i rispettivi tratti morfologici (MFEATS) secondo la classificazione di tali tratti proposta in generale. Lo schema prevede inoltre una serie di etichette di sottocategorizzazione generale (SFEATS) per l’annotazione di: • ausiliari, a sua volta classificati nel modo seguente: Etichetta auag aueg ausa ausai ause ausei ausep • ausiliare ausiliare ausiliare ausiliare ausiliare ausiliare ausiliare "avere" "essere" "avere" "avere" "essere" "essere" "essere" Descrizione gerundio gerundio tensed infinito tensed infinito participio passato verbi copulativi, classificati nel modo illustrato dalla seguente tabella: 77 Etichetta vc vci vgc • Descrizione verbo verbo verbo infinito gerundio verbi modali, classificati nel modo illustrato dalla seguente tabella: Etichetta vsup • copulativo copulativo copulativo Descrizione verbo modale costruzioni perifrastiche del verbo fare: Etichetta Descrizione vsf verbo "fare" perifrastico Lo schema Dialoghi_Annotati per l’italiano parlato prevede per la categoria “verbo, pieno” la medesima classificazione dello schema EAGLES riportato, con i rispettivi tratti morfologici. Tuttavia, non prevede sottocategorie classificatorie associate. Lo schema CiT per l’italiano parlato televisivo prevede che la categoria “verbo” comprenda un’unica sottocategoria “ausiliare”. I tratti associati sia alla categoria “verbo” sia alla sottocategoria verbo “ausiliare” sono relativi all’annotazione • del ‘modo’, • del ‘tempo’, • della presenza di un clitico in posizione enclitica. I tratti associati alla categoria “verbo” sono i seguenti: Modo Tempo congiuntivo condizionale congiuntivo gerundio imperativo indicativo infinito participio participio indicativo - imperfetto presente futuro imperfetto passato presente presente passato remoto Presenza di un clitico in posizione enclitica + + + - I tratti associati alla sottocategoria verbo “ausiliare” sono i seguenti: Modo congiuntivo condizionale congiuntivo futuro Presenza di un clitico in posizione enclitica - Tempo imperfetto presente 78 Modo gerundio imperfetto infinito participio presente passato passivo Presenza di un clitico in posizione enclitica + + - Tempo indicativo passato indicativo remoto - Nello schema non sono previsti tratti morfologici associati. 79 3.11 Punteggiatura Schema di annotazione Presenza della categoria Presenza di sottocategorie classificatorie - - EAGLES - - Categoria “punteggiatura di fine frase” Categoria “punteggiatura non di fine frase” Categoria “marker” + - - + + + + + + - + - - LaRepubblica - TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT Altro Tabella 1 Schema di annotazione EAGLES LaRep. Sottocategorie classificatorie - TUT - C./C. CoLFIS NUNC distribuz. - - Tabella 2 80 CT Lablita Finale Non finale - A./A. VIT D.A. * - CiT In EAGLES non è prevista la classificazione dei segni di punteggiatura. In LaRepubblica sono previste le seguenti due categorie per la classificazione della punteggiatura: • “punteggiatura di fine frase” (SENT), • “punteggiatura non di fine frase” (PUN). In TUT è prevista la categoria “punteggiatura” per l’annotazione di tutti i segni di punteggiatura. Lo schema prevede inoltre la categoria “Marker” associata ai ‘segni di formattazione’, cioè le parentesi uncinate < > che racchiudono l’indicazione del tipo di testo (es. <Titolo>, <Notizia>, ecc..). CORIS/CODIS_distribuzionale prevede la categoria “PUNCTUATION MARK” per classificazione di tutti i segni di punteggiatura. la In CoLFIS è prevista un’unica categoria “punteggiatura” per la classificazione dei segni di punteggiatura. Sia NUNC per l’italiano scritto sia Lablita per l’italiano parlato prevedono un’unica categoria “punteggiatura” per la classificazione di qualsiasi tipo di segno di punteggiatura. Lo schema CT prevede che la categoria “punteggiatura” comprenda le due seguenti sottocategorie classificatorie: • punteggiatura finale, • punteggiatura non-finale. In AVIP/API per l’italiano parlato non è prevista alcuna categoria per l’annotazione dei segni di punteggiatura. Lo schema prevede infatti che tali segni siano rimossi in fase di trascrizione di un testo da annotare, perché considerati parte di un livello di annotazione intonativa. In VIT è previsto che alla categoria “punteggiatura” vengano associati i seguenti tratti di sottocategorizzazione classificatoria (SFEATS): Etichetta da_riemp dirs cue equal par punt puntint punto slash sect titl Descrizione puntini di sospensione discorso diretto/indiretto segno di uguale parentetiche punteggiatura interna punteggiatura non dichiarativa punteggiatura di fine frase Esempio … ": = ‘’’’ ,-=§ ?! .; / lettera o numero indicatore di sezione titolo Lo schema Dialoghi_Annotati per l’italiano parlato prevede che i tutti i tipi di segni di punteggiatura, se presenti nella trascrizione di un testo da annotare, siano etichettati con il doppio simbolo @@. Nello schema CiT per l’italiano parlato televisivo non è prevista una categoria “punteggiatura” specifica per l’annotazione di segni punteggiatura. 81 3.12 Categorie residue Schema di annotazione EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS NUNC CT Lablita AVIP/API VIT Dialoghi_Annotati CiT Presenza di sottocategorie classificatorie Presenza di tratti associati Residuo Elemento non linguistico Speciale Simbolo - + - - - - - - Simbolo Abbreviazione Sentence marker Simbolo Residuo Abbreviazione Sentence marker Simbolo Elemento paralinguistico Marcatore del discorso Filler Residuo Abbreviazione Residuo Abbreviazione - - - - + - - - - - - - - - - - Categorie Tabella 1 82 In EAGLES è prevista una categoria “residuo” per la classificazione di • parole straniere, • abbreviazioni. A questa categoria sono associati • tratti morfologici relativi al ‘genere’ e al ‘numero’ della parola classificata; • la funzione che queste parole ricoprono in quanto o nome comune, o nome proprio, o aggettivo. Lo schema LaRepubblica prevede una categoria “Elemento non linguistico”. Ricerche condotte direttamente sul corpus hanno rivelato che tale categoria viene impiegata per l’annotazione di simboli e interiezioni. In TUT è prevista la categoria “Speciale” assegnata a simboli del tipo $ # & %. CORIS/CODIS_distribuzionale prevede la categoria “Symbol”. Tuttavia, la mancanza di espliciti criteri di annotazione e del corpus di riferimento annotato non permette di verificare se e in che modo è prevista l’assegnazione di tale categoria. Lo schema CoLFIS prevede la categoria “simbolo” per la classificazione di simboli come $, £, %, e in generale tutti i simboli che si trovano su una tastiera, compresi i simboli delle quattro operazioni. NUNC prevede tre categorie residue: • la categoria “Abbreviazione”, • la categoria “SENTENCE MARKER” contrassegnata dall’etichetta SENT, • la categoria “SYMBOL” contrassegnata dall’etichetta SYM. Nello schema CT è presente una categoria “Residuo” per l’annotazione di elementi classificati rispetto alle tre seguenti sottocategorie: • ‘abbreviazioni’, • ‘formule’, • ‘epentesi’, per trattare casi specifici presenti in testi fiorentini del XIII secolo come, ad esempio, fue, rendendo esplicita l’informazione che alla forma del verbo è stata aggiunta un “e” epentetica. Lablita per l’italiano parlato prevede tre categorie residue: • la categoria “Abbreviazione”, • la categoria “SENTENCE MARKER” contrassegnata dall’etichetta SENT, • la categoria “SYMBOL” contrassegnata dall’etichetta SYM, • la categoria “Elemento paralinguistico”, appositamente aggiunta per l’annotazione del corpus di lingua parlata alla serie preesistente di categorie morfosintattiche. Tuttavia, la mancanza di espliciti criteri di annotazione e del corpus di riferimento annotato non permette di verificare se e in che modo è prevista l’assegnazione di tali categorie. AVIP/API prevede le seguenti categorie dedicate all’annotazione di fenomeni linguistici peculiari della lingua parlata: • la categoria “discourse marker” (DM) riferita ad avverbi, congiunzioni, e piccole frasi che segnano passaggi all’interno di un discorso; data la scelta di isolare le singole parole attribuendo una etichetta per ciascuna parola ortografica, in caso di locuzioni o espressioni 83 • • formate da più di una parola, l’etichetta DM è stata attribuita separatamente alle singole parole; la categoria “filler” (F) attribuita ai ‘riempitivi di pause’, anche definiti ‘segnali di esitazione’; è importante sottolineare che secondo le specifiche dei criteri di annotazione del livello morfosintattico non sono state considerate ‘parole’ alcune unità autonome quali o le vocalizzazioni prodotte dai parlanti, classificate come “inspirazione”, “risata”, ecc…, o le pause vuote, sottocategorizzate come “lunga” o “breve”, o rumori ed altri eventi ‘fuori campo’; la “residuo” (R) attribuita ad elementi che occorrono in enunciati interrotti, troppo ridotti per poter essere classificati in modo sicuro. VIT non comprende alcuna categoria residua. Lo schema Dialoghi_Annotati prevede due categorie residue: • una categoria, contraddistinta dall’etichetta SA, per la classificazione delle abbreviazioni (es. ecc., pagg., fig.); • una classe ‘residua’, contraddistinta dall’etichetta X@, per la classificazione di elementi che non possono essere inclusi in una delle diverse classi previste dallo schema, come ad esempio le formule, le sequenze alfanumeriche (41esima). In CiT per l’italiano parlato televisivo è prevista una categoria “abbreviazione” per la classificazione sia di abbreviazioni sia di sigle del tipo BBC, AIDS, TIM. 84 4 Analisi delle dimensioni di criticità degli schemi di annotazione La fase di confronto tra gli schemi di annotazione esistenti per l’italiano ha individuato alcuni aspetti problematici generali. Innanzitutto la necessità di tenere distinte le specificità della lingua scritta rispetto a quella parlata. L’analisi dello stato dell’arte in materia di annotazione morfosintattica (e sintattica) dalla quale ha preso le mosse il progetto “Dialoghi Annotati” aveva messo in luce il fatto che, a dispetto del numero di corpora annotati morfosintatticamente esistenti, tuttavia l’esperienza di annotazione di lingua parlata è piuttosto limitata rispetto all’esperienza di annotazione di lingua scritta 29. In quell’occasione si era sottolineato il fatto che in molti casi si adotta un approccio normalizzante all’annotazione della lingua parlata, che consiste sostanzialmente nell’eliminazione di tutti quei fenomeni tipici del parlato restituendo nei fatti una parafrasi scritta del testo originario. Se questo ha da un lato il vantaggio pratico di permettere si usare gli schemi già esistenti per lo scritto, dall’altro ha numerosi svantaggi teorici rispetto alla possibilità di fornire una categorizzazione grammaticale esaustiva delle caratteristiche proprie della lingua parlata. Gli aspetti di variazione individuati rispetto alla lingua parlata riguardano principalmente: • la frequenza e la varietà di alcuni fenomeni linguistici; se un fenomeno pur accidentale nella lingua scritta diventa sistematico in quella parlata, uno schema di annotazione ne deve prevedere la possibilità di codifica; è il caso, ad esempio, della categoria delle “Interiezioni”, generalmente molto poco sviluppata negli schemi di annotazione per la lingua scritta; • alcune specificità del parlato, tra le quali: o i fenomeni di “disfluenza”, quali vocalizzazioni psuedo-lessicali come um, uh-huh, ooh, ah, mhm, eh? con scopi pragmatici vari, quali riempitivi di pause, esitazioni e vocalizzazioni di incoraggiamento; dal punto di vista dell’annotazione morfosintattica si pone il problema se trattare o meno questi elementi come elementi lessicali, assegnando loro una categoria morfosintattica; frammenti di parole come effetto di correzioni o interruzioni; usi non standard di forme lessicali, quali lapsus o forme troncate (quando non sovrapposte a forme dialettali e/o a varianti geo- o socio-dialettali); o alcune classi grammaticali, quali: marcatori del discorso e particelle la cui categorizzazione grammaticale taglia trasversalmente le categorie delle interiezioni, degli avverbi e delle congiunzioni e che svolgono una vasta gamma di funzioni pragmatiche; interiezioni; avverbi, le cui occorrenze, maggiori rispetto alla lingua scritta, richiedono una sottocategorizzazione più dettagliata di quella fornita negli schemi di annotazione per lo scritto; • i criteri seguiti in fase di trascrizione del parlato, fase fondamentale come punto di partenza della fase di annotazione linguistica; Un secondo aspetto problematico individuato durante il confronto tra schemi di annotazione è la necessità di disporre di espliciti criteri di annotazione. Come ricordato in Lenci et alii, 2005, parte integrante della specifica di uno schema di annotazione sono le modalità della sua applicazione sul testo; pertanto, il lavoro di specifica non si ferma alla definizione del contenuto dello schema. Zone d’ombra nella codifica d’informazione morfosintattica, non definite in modo chiaro dagli schemi esaminati, sono infatti dovute anche alla difficoltà incontrata nel reperire tali criteri di annotazione. 29 http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.1_SpecificheTecniche.pdf 85 Un ultimo aspetto generale con cui ci si è dovuti confrontare riguarda la necessità di tenere distinti i diversi livelli di codifica dei diversi tipi d’informazione. L’analisi comparativa condotta ha infatti rivelato che a volte tipi differenti di informazione linguistica vengono codificati nel medesimo livello di annotazione dell’informazione morfosintattica. Così, ad esempio, gli schemi TUT e VIT impiegati come punto di partenza per un successivo livello di annotazione sintattica contengono già a livello di annotazione morfosintattica etichette di sottocategorizzazione sintattica, come ad esempio il tratto di ‘transitività’ associato alla categoria “Verbo”. Più nel dettaglio, il confronto tra gli schemi di annotazione esistenti ha messo in luce alcuni aspetti dell’informazione morfosintattica rispetto ai quali non c’è una codifica uniforme da associare al dato testuale. Tali zone di non uniformità riguardano i seguenti aspetti. a) I tratti morfologici Non tutti gli schemi esaminati prevedono la possibilità di associare tratti morfologici alle rispettive categorie e sottocategorie morfosintattiche. In particolare solo i seguenti schemi ne prevedono la possibilità: EAGLES, TUT, CT, VIT, Dialoghi_Annotati. Tra questi schemi, inoltre, mentre c’è accordo sul valore associato al tratto ‘persona’, non c’è completa uniformità di codifica per quanto riguarda i valori associati al genere e al numero. Come riassunto nella Tabella 1, mentre infatti EAGLES, CT, VIT, Dialoghi_Annotati hanno 3 valori associati, TUT non prevede i valori ‘comune’ e ‘invariato’ associati rispettivamente al ‘genere’ e al ‘numero’ della categoria morfosintattica corrispondente. Genere Numero Maschile Femminile Comune Singolare Plurale Invariato EAGLES + + + + + + TUT + + + + - CT + + + + + + D.A. + + + + + + VIT + + + + + + Tabella 1 Anche rispetto al ‘grado’ della categoria “Aggettivo” e “Avverbio” non c’è accordo completo. Innanzitutto, non tutti gli schemi lo prevedono. Solo EAGLES, CT e Dialoghi_Annotati prevedono il ‘grado’ dell’aggettivo e solo EAGLES e CT associano il ‘grado’ all’avverbio. Anche TUT e VIT prevedono la possibilità di annotare questo tratto, come sottocategoria classificatoria. Come illustrato nella Tabella 2, EAGLES e CT prevedono i medesimi valori associati al tratto, mentre in Dialoghi_Annotati viene marcato solo il valore ‘superlativo’ relativo all’aggettivo, dal momento che il valore ‘positivo’ è dato come default. Mentre in TUT l’informazione relativa al ‘grado’ dell’aggettivo non è classificata, in VIT è marcata come sottocategoria classificatoria (S). Sia in TUT sia in VIT l’informazione relativa al ‘grado’ dell’avverbio è marcata unicamente come sottocategoria classificatoria (S). Positivo Aggettivo Comparativo Superlativo Positivo Avverbio Comparativo Superlativo EAGLES + + + + + + TUT S S 86 CT + + + + + + D.A. + - VIT S S S Tabella 2 b) I tratti associati alla categoria “Verbo” Tra tutti gli schemi di annotazione esaminati solo CoLFIS e AVIP/API non associano alcun tratto alla categoria “Verbo”. Tuttavia, tra gli altri schemi non c’è uniformità nella codifica del ‘modo’ e del ‘tempo’ e nei valori associati. In particolare, • in EAGLES, TUT, CT e VIT al ‘modo’ con valore ‘indicativo’, congiuntivo’, ‘condizionale’, ‘imperativo’, ‘infinito’, ‘gerundio’ e ‘participio’ sono associati tutti i rispettivi tempi tra i seguenti valori: ‘presente’, ‘imperfetto’, ‘passato’ e ‘futuro’; • in LaRepubblica ai modi con valore ‘finito’, ‘infinito’, ‘gerundio’ e ‘participio’ non è associato alcun tempo; solo nel caso del ‘participio’ è associato il ‘tempo’ che può avere valore ‘presente’ o ‘passato’; • in NUNC al ‘modo’ con valore ‘congiuntivo’, ‘condizionale’, ‘gerundio’, ‘infinito’ e ‘participio’ è associato il ‘tempo’ solo al valore ‘congiuntivo’ (‘presente’ e ‘imperfetto’) e al valore ‘participio’ (‘presente’ e ‘passato’); inoltre il ‘tempo’ con valore ‘presente’, ‘futuro’ e ‘imperfetto’ non è associato al ‘modo’; • in CiT il ‘modo’ ha gli stessi valori che ha in NUNC, oltre al valore ‘indicativo’, così come sono gli stessi i tempi e i valori associati, oltre ai valori ‘presente’, ‘passato remoto’ e ‘imperfetto’ associati all’indicativo; inoltre il ‘tempo’ ‘futuro’ può essere associato a qualsiasi verbo. Inoltre, non c’è uniformità tra gli schemi per quanto riguarda la classificazione dell’ausiliare. In particolare: • in EAGLES, TUT, CoLFIS, CT, VIT, D_A e CiT l’informazione relativa alla presenza di un ausiliare è codificata come una sottocategoria associata alla categoria “Verbo”; • in LaRepubblica l’ausiliare è una categoria sé stante; • in CORIS/CODIS_distribuzionale, NUNC, Lablita e AVIP/API l’informazione non è annotata del tutto. Tra gli schemi c’è invece uniformità di classificazione per quanto riguarda l’informazione relativa alla codifica di un verbo modale. In particolare in LaRepubblica, TUT, CT e VIT tale informazione è codificata come una sottocategoria associata alla categoria “Verbo”. In EAGLES, CORIS/CODIS_distribuzionale, NUNC, Lablita, AVIP/API e CiT l’informazione non è annotata del tutto. c) La codifica di particelle clitiche, di nessi clitici, di nessi verbo/enclitico Il confronto tra schemi di annotazione, nonché le analisi dei criteri di annotazione (quando disponibili) e le ricerche condotte direttamente sul corpus (quando interrogabile), hanno rivelato che l’annotazione di particelle clitiche, di nessi clitici e di nessi verbo/enclitico è una delle zone di maggiore non uniformità tra gli schemi esaminati. Tale considerazione riflette due aspetti peculiari dei clitici delineati in Simone 1983, il fatto cioè che «i clitici sono, da qualunque prospettiva teorica li si guardi, uno dei più pronunciati ed enigmatici ‘caratteri originali’ dell’italiano» e la constatazione che i clitici siano «così mediocremente descritti», perché, tra le altre ragioni, «la raccolta e la classificazione dei fatti sono di solito troppo sommarie e affrettate e tendono a dare per scontate una quantità di conoscenze e di informazioni che invece devono essere portate alla luce». La Tabella 3 riassume quanto descritto di seguito. È da notare che il semplice confronto tra schemi non è stato di per sé sufficiente per reperire le seguenti informazioni; è stato cioè necessario far riferimento ai criteri di annotazione, laddove essi fossero disponibili30. 30 I punti interrogativi presenti nella Tabella 3 sono pertanto dovuti a lacune nel reperimento dei dati. 87 • • • In EAGLES i clitici sono classificati con la categoria “Pronome”, ‘personale’. Lo standard non prevede una classificazione specifica dei nessi clitici né dei nessi verbo/enclitico. Dal momento che l’esplicita individuazione di tali nessi appartiene a un livello precedente di analisi del testo, quello cioè di segmentazione (tokenizzazione) del testo in unità-parola, le modalità di classificazione differiscono di volta in volta a seconda dei criteri adottati in questa fase preliminare all’annotazione morfosintattica del testo. In LaRepubblica è prevista la categoria morfosintattica “clitico”, specifica per l’annotazione delle particelle clitiche e di nessi clitici (del tipo glielo). Inoltre, ricerche condotte direttamente sul corpus hanno rivelato che in formazioni del tipo “c’è” il ci esistenziale è stato annotato con la categoria “Avverbio”. Per la classificazione di particelle clitiche in posizione enclitica è prevista un’etichetta di sottocategorizzazione classificatoria (“con clitico”) associata alla categoria “Ausiliare”, “Verbo pieno” e “Verbo, modale/causale”. In TUT, oltre alla sottocatecategoria ‘personale’, alla categoria “Pronome” sono associate le seguenti sottocategorie: ‘locativo’ e ‘riflessivo-impersonale’, per l’annotazione dei clitici. Inoltre, ricerche condotte direttamente sul corpus hanno rivelato che le forme clitiche del “Pronome, personale” sono marcate dall’etichetta CLITIC (“clitico”). È stato possibile verificare che le particelle clitiche in posizione enclitica sono annotate in modo sottospecificato: ad una forma verbale con clitico viene associata la categoria “Verbo” corrispondente seguita dalle etichette di categorizzazione morfosintattica relative al clitico associato. Nel seguente estratto dal corpus, ad esempio, al nesso verbo/enclitico sintonizzarci è associata la categoria e i tratti morfologici della forma verbale, nonché la categoria morfosintattica relativa alla particella enclitica ci, cioè “Pronome, personale”: sintonizzarci (SINTONIZZARE VERB MAIN INFINITE PRES TRANS) 1 sintonizzarci (CI PRON PERS ALLVAL PL 1 LOBJ+LIOBJ CLITIC) La classificazione dei nessi clitici è risolta nello stesso modo, associando a ciascun clitico la categoria morfosintattica corrispondente. Nel seguente estratto dal corpus, ad esempio, al nesso glielo è stata associata la categoria “Pronome, personale”, corrispondente al pronome gli, e la medesima categoria morfosintattica al pronome lo: glielo (GLI PRON PERS ALLVAL ALLVAL 3 LIOBJ CLITIC) 1 glielo (LO PRON PERS M SING 3 LOBJ CLITIC) • • • Per l’annotazione di particelle clitiche CORIS/CODIS_distribuzionale non fornisce sufficienti indizi di analisi dal momento che non include una classificazione in categorie morfosintattiche direttamente confrontabili con gli altri schemi di annotazione presi in considerazione. Dal momento che CoLFIS non prevede sottocategorie classificatorie, i criteri di lemmatizzazione e annotazione adottati hanno stabilito che nel caso dei clitici venisse associata la categoria “Pronome” o “Avverbio” disambiguandone di volta in volta il valore. I nessi clitici sono stati considerati come due pronomi distinti. Ricerche condotte direttamente sul lemmario hanno rivelato che i casi di clitici in posizione enclitica sono stati considerati separatamente dalle forme verbali in cui ricorrono e dunque annotati come N IN V@ (“pronome in una parola sintagmatica verbale”), come ad esempio nel caso di –la, -ne, -ci. A loro volta, inoltre, le forme verbali con enclitico, come ad esempio vediamoli, vederne, vendendone, sono state associate alla categoria “verbo” (V) e annotate come “parole sintagmatiche verbali” (V@). Ricerche condotte sul corpus NUNC hanno rivelato che, oltre alla sottocatecategoria ‘personale’, alla categoria “Pronome” sono associate le seguenti sottocategorie: ‘riflessivo’ e ‘dimostrativo’, per l’annotazione dei clitici e dei nessi clitici. Ai clitici può anche essere attribuita la categoria “Avverbio”. I nessi verbo/enclitico sono considerati un elemento unico al 88 quale è associata la categoria “Verbo” corrispondente, senza alcuna esplicita annotazione della presenza di un clitico in posizione enclitica. • I criteri adottati per l’annotazione di CT hanno stabilito che venissero distinti i tre seguenti casi: a. clitico ‘pronominale’ con valore dimostrativo, al quale assegnare la categoria “Pronomedeterminante”, dimostrativo, atono (es. dammene, non ci credo); b. clitico ‘avverbiale’, con valore neutro o locativo, al quale è stato assegnata la categoria “Avverbio”, particella (es. vattene, se ne va, non ci entra); c. clitico ‘personale’, al quale è stata assegnata la categoria “Pronome-determinante”, personale, atono, obliquo (es. ne dice, non ci conviene). Come illustrato in fase di rassegna generale degli schemi di annotazione considerati, i criteri adottati in CT prevedono che tutti gli elementi “grafoclitici” siano considerati un elemento unico a cui attribuire la categoria morfosintattica corrispondente. Ricerche condotte direttamente sul corpus hanno rivelato così che , ad esempio, ad un nesso come glielo vengono assegnate le seguenti etichette, che rendono esplicita la categoria morfosintattica del “Pronomedeterminante”, personale, atono, in caso obliquo, gli e del “Pronome-determinante”, personale, atono, in caso obliquo, la (|pd.per.w.ob|): glie/gli/|pd.per.w.ob|/glie ÷lo/÷lo/|pd.per.w.ob |/÷lo I medesimi criteri sono seguiti per l’annotazione di nessi verbo/clitico in posizione enclitica. Nel caso, ad esempio di darloti viene realizzata la seguente annotazione, che rende esplicita la categoria associata al “Verbo”, pieno, di forma finita, indicativo, futuro (|v.m.f.ind.ft|) daro, la categoria “Pronome-determinante”, personale, atono, in caso obliquo associata sia a lo sia a ti: daro/dare/|v.m.f.ind.ft|/glie ÷lo/lo/|pd.per.w.ob|/lo ÷ti/÷ti/|pd.per.w.ob|/÷ti • • • • Non avendo a disposizione espliciti criteri di annotazione di Lablita né il corpus di riferimento annotato, non è possibile verificare in che modo è realizzata l’annotazione di particelle clitiche né dei nessi. AVIP/API prevede che ai clitici sia associata la categoria “Pronome/determinatore”, attribuita a parole del tipo te, questo, lo, ecc.., e la categoria “Unico”, attribuita alle occorrenze di “ci/ce” esistenziale. I casi di nessi clitici e di clitici in enclisi verbale sono stati trattati associando alla medesima, unica, parola ortografica le rispettive, distinte, categorie morfosintattiche. VIT prevede la sottocategoria ‘clitico’ da associare alla categoria “Pronome”; a tale sottocategoria viene inoltre attribuito il caso ‘locativo’, ‘accusativo’ o ‘dativo’. Lo schema prevede inoltre tra i tratti di sottocategorizzazione classificatoria (SFEATS) generali il tratto “verbo con enclitico”. In Dialoghi_Annotati, oltre alla sottocatecategoria ‘personale’, alla categoria “Pronome” è associata per l’annotazione dei clitici la sottocategoria ‘dimostrativo’, di genere ‘comune’ e numero ‘invariato’. Ai clitici può anche essere attribuita anche la categoria “Avverbio”. I criteri di annotazione prevedono che qualora una forma ortografica contenga un clitico, essa viene decomposta nei suoi costituenti morfologici, ciascuno dei quali riceve un’annotazione separata, secondo il modello seguente: amarlo amare lemma=”AMARE” pos=”V” mfeats=”lo” lo lemma=”LO” pos=”PQ” mfeats=”MS” • In CiT è prevista la categoria specifica “Clitico” per l’annotazione delle particelle clitiche e di nessi clitici. Inoltre, alla categoria “Pronome” è associata la sottocategoria ‘ci’ per l’annotazione del nesso ‘ci + verbo essere’. Ai clitici può anche essere attribuita anche la categoria “Avverbio”. 89 • Come previsto da LaRepubblica, anche in CiT per la classificazione di particelle clitiche in posizione enclitica è prevista un’etichetta di sottocategorizzazione classificatoria (“con clitico”) associata alla categoria “Verbo”. Dalla presente rassegna comparativa si può notare che solo in due casi, LaRepubblica e CiT, è prevista una categoria specifica (“Clitico”) per l’annotazione di particelle clitiche e di nessi clitici; e solo VIT prevede una sottocategoria specifica (“clitico”) associata alla categoria “Pronome” per l’annotazione di clitici. In tutti gli altri schemi questo tipo d’informazione è codificata con una serie di etichette morfosintattiche non specifiche. Nella maggior parte degli schemi l’annotazione di un clitico in enclisi rispetto ad un verbo è resa esplicita marcandone la presenza. Segue una tabella sinottica (Tabella 3). 90 Schema di annotazione EAGLES LaRepubblica TUT CORIS/CODIS distribuzionale CoLFIS Categorie e sottocategorie specifiche per l’annotazione di particelle clitiche Categoria: “Pronome” Categoria: Categoria: Altra categoria Sottocategoria: Altra “Avverbio” “Clitico” ‘personale’ sottocategoria + + ‘locativo’ + ‘riflessivoimpersonale’ ? ? Nessuna sottocategoria associata ? ? Nessi Verbo/enclitico “Verbo, con clitico” “Clitico” “Verbo” + “Pronome” “Pronome” + “Pronome” ? ? + - - “Parola sintagmatica verbale” “Pronome in una parola sintagmatica verbale” NUNC + ‘riflessivo’ ‘dimostrativo’ + - - “Verbo” CT + ‘dimostrativo’ + - - “Verbo” + categoria Lablita ? ? - - - - AVIP/API ? Nessuna sottocategoria associata “Unico” ? “Verbo” + “Pronome” VIT - ‘clitico’ - - - SFEATS ‘verbo con enclitico’ Dialoghi_Annotati CiT + - ‘dimostrativo’ ‘ci’ + + + - “Verbo” + categoria “Verbo, con clitico” Tabella 3 91 Nessi clitici ? Due elementi distinti Elemento unico Due elementi distinti ? Due elementi distinti ? ? “Clitico” d) La codifica di elementi che esprimono determinazione Un’altra area problematica di codifica dell’informazione morfosintattica è quella relativa agli elementi che esprimono ‘determinazione’. La rassegna comparativa degli schemi di annotazione ha messo in luce il frequente uso combinato sia di etichette morfosintattiche categoriali (“Articolo”) sia di etichette con valore ‘funzionale’ (“Determinante”, “Predeterminante”, “Pronomedeterminante”). Inoltre, sono anche diverse le sottocategorie associate ai diversi tipi di categorie. La Tabella 4 riassume brevemente le categorie previste dai diversi schemi, riportando quanto descritto in modo più dettagliato nella parte relativa agli “Articoli e Determinanti”. Schema di annotazione EAGLES LaRepubblica TUT C./C._distr. 31 CoLFIS NUNC CT Lablita AVIP/API VIT D_A CiT + + + + + - + “Pronome – determinante” - + + + + + - + 32 + + + + - + + - “Articolo” “Determinante” “Predeterminante” Tabella 4 L’analisi degli schemi di annotazione esistenti per la lingua inglese scritta ha rivelato che la diffusa problematicità di questa area di codifica. Lo schema utilizzato per l’annotazione del British National Corpus33, standard riconosciuto per molti tipi di analisi computazionali sulla lingua inglese (scritta e parlata), prevede 2 classi di etichette: • AT0 = article • DPS DT0 DTQ = determiner-pronoun Pertanto, un articolo è definito come una parola determinante posta all’inizio di un sintagma nominale, di cui non rappresenta la testa. Esempi sono a/an, the, no e every annotati come nelle frasi che seguono: Have <w AT0>a break <w AT0>Every year There's <w AT0>no time Data la grande sovrapponibilità sia dal punto di formale e sia dal quello funzionale dei determinanti e dei pronomi, è stato deciso di riunire sotto la medesima categoria D (determiner) parole che svolgono entrambe le funzioni. Esempi sono that, few, both, another annotati come nelle frasi che seguono: at <w DT0>all times of the day free secondary education for <w DT0>all <w DT0>Few diseases are incurable 31 CORIS/CODIS_distribuzionale prevede la categoria “argument-operator” (ARG), che include tutte quelle parole che svolgono dal punto di vista distribuzionale una funzione simile a quella di determinanti, introducendo strutture argomentali dipendenti per lo più da verbi 32 NUNC, Lablita, CiT prevedono che la categoria “Determinante” sia associata solo ad articoli determinativi e indeterminativi. 33 http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm#contents 92 for the benefit of the <w DT0>few I pronomi-determinanti interrogativi (wh-) e anche i pronomi relativi sono annotati come DTQ. Esempi sono which e what annotati come nelle frasi che seguono: <w DTQ>Which country do you live in? And she didn't say <w DTQ>which? <w DTQ>What time is it? I pronomi possessivi pre-nominali sono annotati DPS. Nell’esempio seguente, <w DPS>my hat Soluzioni diverse sono invece state adottate dallo schema di annotazione morfosintattica utilizzato nell’ambito del Penn Treebank Project 34 per l’annotazione su più livelli di corpora di lingua scritta inglese americana. In questo caso è prevista un’unica categoria “Determiner” (DT) che comprende due sottocategorie, “Predeterminer” (PDT) e “Wh-Determiner” (WDT). I criteri di annotazione prevedono che • DETERMINER (DT) comprenda o gli articoli a(n), every, no, the o i determinanti indefiniti another, any, some, each, either, neither, that, these, this, those o all e both quando non precedono un determinante o un pronome possessivo (come all roads o both times) o anche i casi in cui il determinante sia usato in funzione pronominale; es. I can’t stand this/DT, either/DT would be fine • PREDETERMINER (PDT) comprenda o elementi che apparterrebbero alla categoria DT ma che precedono un determinante o un pronome possessivo; es. all/PDT his marbles, both/PDT the girls o casi di aggettivi che precedono un determinante in un sintagma nominale; nel caso, ad esempio, del seguente sintagma such a good time, such verrà etichettato come un PDT; nel caso, invece, such occorra dopo, come in the only such case, verrà etichetta come un aggettivo dal momento che non ci può essere più di un determinante in un sintagma nominale. • WH-DETERMINER (WDT) comprenda o parole wh- che precedono un nome, es. what/WDT kind would you want?, be sure to wash whatever/WDT fruit you buy o which e that quando sono usati come pronomi relativi. 34 http://www.cis.upenn.edu/~treebank/ 93 5 Sviluppi futuri: verso l’annotazione sintattica Come riportato nella Sezione 2, i corpora usati per l’applicazione di alcuni degli schemi di annotazione morfosintattica analizzati prevedono un ulteriore livello di annotazione sintattica (cfr. TUT e VIT). Inoltre, l’analisi comparativa condotta ha rivelato che, a volte, l’informazione sulla struttura sintattica di un testo viene codificata già a livello di annotazione dell’informazione morfosintattica. Nella Sezione 4 si sottolinea infatti la necessità di tenere distinti i diversi livelli di codifica dei diversi tipi d’informazione linguistica. L’analisi comparativa realizzata nel Rapporto ha al contrario individuato casi in cui tali livelli non vengono separati. È il caso, ad esempio, degli schemi TUT e VIT, i quali contengono già a livello di annotazione morfosintattica etichette di sottocategorizzazione sintattica, come ad esempio il tratto di ‘transitività’ associato alla categoria “Verbo”. Inoltre, l’assenza di uniformità tra gli schemi analizzati nella codifica dei clitici e degli ausiliari (vedi Sezione 4, parti b) e c)) ha rivelato come i confini tra l’annotazione di informazione morfosintattica e sintattica siano oggetto ampiamente dibattuto. Pertanto, la necessità di un livello di codifica dell’informazione sintattica, da un lato, e la presenza di questioni aperte riguardo ai rapporti esistenti tra categorie di annotazione morfosintattica e sintattica, dall’altro, implicano che la trattazione di questioni relative all’annotazione dell’informazione sintattica richieda una trattazione separata. Tra i possibili sviluppi futuri del presente Rapporto Tecnico si è dunque pensato ad una rassegna comparativa degli schemi esistenti per l’annotazione sintattica dell’italiano scritto e parlato. A questo scopo, una metodologia specifica, diversa cioè da quella seguita nel confronto tra gli schemi esistenti di annotazione morfosintattica, è necessaria. Una differenza fondamentale da tenere in considerazione è che, mentre nell’annotazione morfosintattica l’informazione linguistica da rendere esplicita è a livello della singola parola, la fase di annotazione sintattica riguarda la struttura grammaticale di un’intera frase. Pertanto, un confronto degli schemi di annotazione sintattica non potrà limitarsi a prendere in considerazione le singole etichette associate ai singoli costituenti sintattici. Dal momento che la natura stessa dei costituenti sintattici è oggetto di discussione teorica, un approccio metodologico che si ritiene affidabile consiste nel mettere in luce alcuni parametri significativi di variazione, rispetto ai quali confrontare gli schemi esistenti. In particolare, un futuro lavoro di confronto comparativo potrà prendere le mosse da alcune delle dimensioni di variazione identificate e illustrate in Montemagni 1992, che riguardano in particolare: • il tipo di rappresentazione sintattica, rappresentazione a costituenti (chunking) o rappresentazione a dipendenze; • il tipo di etichette associate a ciascun nodo della struttura sintattica (etichettatura categoriale o funzionale); • la presenza di rappresentazioni sottospecificate come conseguenza di un’organizzazione gerarchica delle relazioni di dipendenza, utili per il trattamento di costruzioni realmente ambigue o controverse; • la profondità di incassamento nelle rappresentazioni (solo per schemi di rappresentazione a costituenti) (superficiale o profonda). Come nel caso della rassegna comparativa degli schemi di annotazione morfosintattica, anche nel caso degli schemi esistenti per la codifica dell’informazione sulla struttura sintattica delle frasi di un corpus la necessità di disporre dei criteri di annotazione dovrà essere parte integrante di un lavoro di analisi comparativa. A maggior ragione in un ambito teorico così spinoso, la definizione del semplice contenuto dello schema di annotazione è molto poco informativa se non è accompagnata da una descrizione dettagliata delle modalità della sua applicazione sul testo di riferimento. Oltre a queste questioni di annotazione, sarà necessario tenere in considerazione un altro aspetto generale, quello cioè relativo all’annotazione sintattica di corpora di parlato. Sarà pertanto fondamentale affrontare i problemi specifici legati all’annotazione sintattica di fenomeni che caratterizzano la lingua parlata rispetto alla lingua scritta. A cominciare dalla nozione canonica di 94 “frase” della lingua scritta, tutta una serie di fenomeni linguistici propri della lingua parlata dovranno essere tenuti in considerazione. In questo senso, si ritiene che un punto di partenza affidabile possa essere l’analisi dello stato dell’arte condotta nell’ambito del progetto “Dialoghi Annotati”35. 35 http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.1_SpecificheTecniche.pdf 95 6 Bibliografia Barbera M. e Marello C. (2003), Corpus Taurinense: italiano antico annotato in modo nuovo, in Maraschio N. e Poggi Salani T. (a cura di), Italia Linguistica anno Mille – Italia linguistica anno Duemila. Atti del XXIV Congresso internazionale di studi della Società di Linguistica italiana (SLI), Firenze 19-21 ottobre 2000, Roma, Bulzoni, pp. 685-693. Barbera M., Corino E., Onesti C. (a cura di) (2007), Corpora e linguistica in rete, Perugia, Guerra Edizioni. Baroni M., Bernardini S., Comastri F., Piccioni L., Volpi A., Aston G., Mazzoleni M. (2004), Introducing the La repubblica Corpus: a Large, Annotated, TEI(XML)-Compliant Corpus of Newspaper Italian, in Proceedings of Conference on Language Resources & Evaluation, (LREC 2004), Lisbona, 26-28 maggio 2004, disponibile on-line alla pagina http://dev.sslmit.unibo.it/corpora/downloads/rep_lrec_2004.pdf Bernardi, R., Bolognesi, A., Seidenari, C., Tamburini, F. (2006), POS tagset design for Italian, in Proceedings of Conference on Language Resources & Evaluation (LREC 2006), Genova. Boella G. e Lesmo L.(1998), Automatic Refinement of Linguistic Rules for Tagging, in Proceedings of Conference on Language Resources & Evaluation, (LREC 1998), Granada. Corino E. (2007), NUNC est disputandum. Aspetti della testualità e questioni metodologiche, in Barbera M., Corino E., Onesti C. (a cura di), Corpora e linguistica in rete, Perugia, Guerra Edizioni, pp. 225-252. De Mauro T., Mancini F., Vedovelli M., Voghera M. (1993), Lessico di frequenza dell'italiano parlato, Etas, Milano. Delmonte R., Bristol A., Chiran L., Bacalu C., Tonelli S. (2004), Parsing the oral corpus AVIP/API (Progetto AVIP/API - Unità di Ricerca dell'Università "Ca' Foscari" di Venezia), Albano Leoni A., Cutugno F., Pettorino M., Savy R.(a cura di), Atti del Convegno "Il Parlato Italiano", M.D'Auria Editore, N08, 1-19. Delmonte R., Bristol A., Tonelli S. (2007), VIT – Venice Italian Treebank: Syntactic and Quantitative Features, in Proceedings of the Sixth International Workshop on Treebanks and Linguistic Theories. Editors: Koenraad De Smedt, Jan Hajič and Sandra Kübler. NEALT Proceedings Series, Vol. 1 (2007), 43-54. Delmonte R., Pianta E. (1996), IMMORTALE – Analizzatore Morfologico, Tagger e Lemmatizzatore per l'Italiano, in Atti Convegno Nazionale AI*IA Cibernetica e Machine Learning, Napoli, pp. 19-22. Laudanna, A., Thornton, A.M., Brown, G., Burani, C. e Marconi, L. (1995). Un corpus dell’italiano scritto contemporaneo dalla parte del ricevente. In S. Bolasco, L. Lebart e A. Salem (a cura di), III Giornate internazionali di Analisi Statistica dei Dati Testuali. Volume I, pp.103-109. Roma: Cisu Lenci A., Montemagni S., Pirrelli V. (2005), Testo e computer, Roma, Carocci. 96 Lesmo L., Lombardo V. e Bosco C. (2002), Treebank Development: the TUT Approach, in R.Sangal and S.M.Bendre (eds.): Recent Advances in Natural Language Processing, Vikas Publ. House, New Delhi, 2002, 61-70. Monachini M. (1996), ELM-IT: EAGLES Specifications for Italian Morphosyntax –Lexicon Specifications and Classification Guidelines, Pisa, EAGLES Technical Report, disponibile on-line alla pagina http://www.ilc.cnr.it/EAGLES/elm_it/elm_it.html Monachini M. e Östling A. (1992), Morphosyntactic Corpus Annotation – A Comparison of Different Schemes, Technical Report NERC-60, ILC, Pisa. Montemagni S. (1992), Syntactically annotated corpora: comparing the underlying annotation schemes. NERC - Working Paper, Istituto di Linguistica Computazionale, Pisa. Panunzi A, Picchi E., Moneglia M. (2004), Using PiTagger for lemmatization and PoS Tagging of a Spontaneous Speech Corpus: C-Oral-Rom Italian, in M.T Lino, M.F. Xavier, F. Ferraira, R. Costa, R. Silva (eds) Prococeedings of the 4th LREC Conference , vol. 2, ELRA, Paris, pagg: 563566. Picchi, E. (1994), Statistical Tools for Corpus Analysis: A Tagger and Lemmatizer of Italian, In Proceedings of EURALEX 1994. Amsterdam. Rossini Favretti R., Tamburini F. e De Santis C. (2002), CORIS/CODIS: A corpus of written Italian based on a defined and a dynamic model. In A. Wilson, P. Rayson, and T. McEnery, editors, A Rainbow of Corpora: Corpus Linguistics and the Languages of the World, pages 27–38. Munich: Lincom-Europa. Schmid H.(1994), Probabilistic Part-of-Speech Tagging using Decision Trees, International Conference on New Methods in Language Processing. Simone R., (1983), Punti di attacco dei clitici in italiano, in Albano Leoni, Federico et al. (a cura di), Italia linguistica: idee, storia, strutture, Bologna, Il Mulino, pp. 285-307. Spina S. (2000), Il Corpus di Italiano Televisivo (Cit): struttura e annotazione, in Atti del Convegno SILFI 2000 (Duisburg, 28 giugno-1 luglio 2000), Franco Cesati. 97