Rassegna comparativa degli schemi di annotazione morfosintattica

Giulia Venturi
Rassegna comparativa degli schemi di
annotazione morfosintattica
per la lingua italiana
TRIPLE - RTT/1
Rapporto Tecnico
23 febbraio 2009
Tavolo di Ricerca sulla Parola e il Lessico
Dipartimento di Linguistica
Università Roma Tre
Indice
1
2
3
4
5
6
Introduzione ............................................................................................................................3
Rassegna degli schemi di annotazione morfosintattica .............................................................5
2.1
Schemi di annotazione morfosintattica per l’italiano scritto..............................................6
2.2
Schemi di annotazione morfosintattica per l’italiano parlato...........................................19
Analisi comparativa degli schemi di annotazione per categoria morfosintattica......................25
3.1
Aggettivi........................................................................................................................26
3.2
Avverbi..........................................................................................................................32
3.3
Congiunzioni .................................................................................................................37
3.4
Articoli e determinanti (determinatori) ...........................................................................43
3.5
Interiezioni.....................................................................................................................48
3.6
Numerali........................................................................................................................50
3.7
Preposizioni ...................................................................................................................54
3.8
Pronomi .........................................................................................................................59
3.9
Nomi..............................................................................................................................65
3.10 Verbi..............................................................................................................................72
3.11 Punteggiatura .................................................................................................................80
3.12 Categorie residue ...........................................................................................................82
Analisi delle dimensioni di criticità degli schemi di annotazione............................................85
Sviluppi futuri: verso l’annotazione sintattica ........................................................................94
Bibliografia ...........................................................................................................................96
2
1 Introduzione
Il presente Rapporto Tecnico contiene un’analisi comparativa degli schemi di annotazione
morfosintattica esistenti per la lingua italiana scritta e parlata. Tale confronto prende le mosse dai
precedenti riportati in Monachini et alii, 1992 e in Barbera et alii, 2007 differenziandosi innanzitutto
negli obiettivi. Lo scopo del presente confronto è triplice e finalizzato a:
a) fornire una rassegna degli schemi di annotazione esistenti per la lingua italiana impiegati
nell’annotazione di corpora scritti e parlati;
b) individuare le dimensioni di variazione più significative e informative relative alla codifica
delle categorie morfosintattiche associate ad una singola parola;
c) mettere in luce alcuni aspetti particolarmente problematici del lavoro di codifica
dell’informazione morfosintattica, nonché alcune zone d’ombra definite in modo non chiaro
dagli schemi esaminati.
Un tale approccio ha l’obiettivo da un lato di fare il punto sullo stato dell’arte in materia di
definizione di schemi di annotazione per la lingua italiana; dall’altro di contribuire a mettere in luce
quali tra gli aspetti di codifica dell’informazione linguistica a livello morfosintattico non sono
trattati in modo uniforme dagli schemi di annotazione esistenti. L’analisi di una serie di aspetti
problematici sia da un punto di vista linguistico-teorico sia da un punto di vista computazionaleapplicativo è tra gli obiettivi di questo Rapporto Tecnico, piuttosto che la definizione del contenuto
di un nuovo schema di annotazione.
La metodologia di confronto interlinguistico risulta inoltre essere un’altra caratteristica specifica
della presente analisi. Il lavoro svolto non mira infatti a mettere in rapporto diretto gli schemi ad
oggi esistenti per l’italiano con quelli sviluppati per altre lingue europee. Le scelte operate in ambito
di codifica della lingua inglese, in particolare, sono tenute in considerazione piuttosto per realizzare
un confronto con quelle operate per l’italiano rispetto a quelle zone più problematiche che sono
state individuate.
La rassegna comparativa tra gli schemi di annotazione sintattica esistenti per la lingua italiana è
infine tra i possibili sviluppi futuri del presente Rapporto. Dal momento che livelli diversi di
annotazione linguistica del testo pongono problemi specifici di rappresentazione dell’informazione
linguistica, in questo contesto si è deciso di limitarsi alla descrizione dell’approccio metodologico
che si intenderà seguire. Verranno pertanto delineate le maggiori dimensioni di variazione che
potranno essere seguite in una futura indagine sugli schemi di annotazione sintattica esistenti per la
lingua italiana e impiegati nell’annotazione di corpora scritti e parlati.
Il presente Rapporto è organizzato nel modo seguente: la Sezione 2 fornisce una descrizione degli
schemi di annotazione morfosintattica esistenti per la lingua italiana scritta e parlata oggetto
dell’analisi comparativa condotta. Il confronto tra gli schemi selezionati rispetto alle singole
categorie morfosintattiche e ad una serie di parametri di variazione connessi alla codifica
dell’informazione linguistica è sviluppato nella Sezione 3 e seguenti. La Sezione 4 riporta alcune
dimensioni generali di criticità individuate durante il confronto, nonché alcuni aspetti problematici
specifici. Infine, alcune motivazioni che giustificano la necessità di affrontare in modo dettagliato e
a sé stante un confronto tra schemi di annotazione del livello sintattico di informazione linguistica
sono esposte nella Sezione 5.
3
Il presente Rapporto Tecnico nasce nell’ambito delle attività di ricerca del laboratorio TRIPLE
(Tavolo di Ricerca sulla Parola e il Lessico), attivo presso il Dipartimento di Linguistica
dell’Università di Roma Tre. Desidero pertanto ringraziare il professor Raffaele Simone e la
dottoressa Francesca Masini per i loro consigli e le loro attente revisioni del lavoro da me svolto.
Tale Rapporto è stato realizzato nell’ambito della mia attività di ricerca presso l’Istituto di
Linguistica Computazionale del CNR di Pisa. Desidero pertanto ringraziare i membri del gruppo di
ricerca di cui faccio parte e in particolare Simonetta Montemagni e Alessandro Lenci per la cura
costante con cui mi hanno seguita nella redazione di questo Rapporto Tecnico.
4
2 Rassegna degli schemi di annotazione morfosintattica
Lo scopo di questa sezione è quello di fornire la descrizione degli schemi di annotazione
morfosintattica esistenti per la lingua italiana scritta e parlata rispetto ai quali è stato condotto un
confronto comparativo. Sono stati considerati i seguenti 12 schemi:
• lo schema definito nell’ambito del progetto europeo EAGLES (Expert Advisory Group for
Language Engineering Standards),
• lo schema utilizzato nell’annotazione del corpus LaRepubblica,
• lo schema utilizzato a livello di annotazione morfosintattica della Turin University Treebank
(TUT),
• lo schema distribuzionale, sintatticamente orientato, utilizzato nell’annotazione del corpus
CORIS/CODIS,
• lo schema utilizzato nell’annotazione di CoLFIS (Corpus e Lessico di Frequenza
dell’Italiano Scritto),
• i due schemi progettati esplicitamente per il sistema di annotazione a regole (tagger)
TreeTagger di Schmid, quello con i parametri sviluppati da Achim Stein e quello con i
parametri sviluppati da Marco Baroni,
• lo schema utilizzato nell’annotazione del Corpus Taurinense (CT),
• lo schema utilizzato a livello di annotazione morfosintattica della Venice Italian Treebank
(VIT),
• lo schema utilizzato nell’annotazione del corpus AVIP/API,
• lo schema definito nell’ambito del progetto “Dialoghi Annotati”,
• lo schema utilizzato nell’annotazione della famiglia dei corpora LABLITA.
Nella rassegna descrittiva che segue è stata innanzitutto operata una distinzione tra gli schemi
impiegati per la codifica dell’informazione contenuta in testi di lingua scritta o parlata. Ne è emerso
che la maggior parte degli schemi (9 su 12) sono stati appositamente progettati e sviluppati per la
lingua scritta. Uno tra questi, lo schema VIT, è utilizzato indifferentemente per l’annotazione sia di
un corpus di lingua scritta sia di uno di lingua parlata. Lo schema sviluppato per il TreeTagger di
Schmid, con i parametri di Marco Baroni, e progettato per l’annotazione di lingua scritta è usato,
senza modifiche, per l’annotazione del “Corpus di Italiano Televisivo” (CiT). I 3 schemi usati per
l’annotazione di corpora di lingua parlata, sono estensioni di schemi pensati per la lingua scritta e
adattati per il trattamento di alcune specificità del parlato.
Nella rassegna che segue la descrizione dei singoli schemi tiene in considerazione i seguenti aspetti:
a) il numero di categorie morfosintattiche previste,
b) il tipo di etichette morfosintattiche previste (categoriali o funzionali),
c) la presenza di tratti morfologici e/o di altra natura (sintattica o semantica),
d) la descrizione del corpus di riferimento (se presente),
e) la modalità di annotazione seguita nell’utilizzo dello schema (manuale o automatica),
f) la presenza di criteri di annotazione (se disponibili),
g) all’interno delle modalità di applicazione dello schema, il trattamento della dimensione
polirematica (quando disponibile).
5
2.1
Schemi di annotazione morfosintattica per l’italiano scritto
Schema di annotazione previsto dallo standard EAGLES
1) Descrizione dello schema di annotazione
Lo schema prevede complessivamente l’utilizzo di 12 categorie morfosintattiche, alle quali sono
associate le rispettive sottocategorie classificatorie e i tratti morfologici relativi, come illustrato
nella seguente tabella riassuntiva:
Categorie morfosintattiche
Sottocategoria
classificatoria associata
Aggettivo
+
Articolo
+
Avverbio
Congiunzione
+
Determinatore
+
Interiezione
Adposizione
+
Nome
+
Numerale
+
Verbo
+
Pronome
+
Residuo
Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene
• etichette morfosintattiche categoriali (la maggior parte),
• etichette funzionali, cioè la categoria “Determinatore”.
2) Descrizione del corpus di riferimento
Tale schema si configura come una serie di raccomandazioni per l’uniformità nell’annotazione
morfosintattica di corpora di italiano scritto (Monachini 1996). La possibilità di raggiungere uno
standard comune europeo è stata realizzata nell’ambito del progetto europeo EAGLES (Expert
Advisory Group for Language Engineering Standards) .
3) Criteri di annotazione
In questo caso, piuttosto che di criteri di annotazione, è più preciso parlare di criteri di definizione
dello schema, la descrizione cioè del contenuto dello schema, più che le modalità di associazione
dell’informazione linguistica al dato testuale. Tali criteri sono disponibili alla pagina
http://www.ilc.cnr.it/EAGLES/elm_it/elm_it.html
3.1) Trattamento della dimensione polirematica
Le raccomandazioni EAGLES non prevedono l’annotazione delle unità polirematiche.
6
Schema di annotazione utilizzato per l’annotazione del Corpus La Repubblica1
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 19 categorie morfosintattiche,
con rispettive sottocategorie classificatorie, come illustrato nella seguente tabella riassuntiva:
Categorie morfosintattiche
Sottocategoria classificatoria associata
Aggettivo
Articolo
+
Ausiliare
+
Avverbio
+
Che
Clitico
Congiunzione
Determinante
+
Elemento non linguistico
Negazione
Nome
Nome proprio
Numero
Preposizione
Pronome
+
Punteggiatura di fine frase
Punteggiatura non di fine frase
Verbo
+
Wh
Non è prevista l’annotazione di tratti morfologici.
Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene
• etichette morfosintattiche categoriali (la maggior parte),
• etichette funzionali, cioè la categoria “Determinante”,
• etichette che non hanno una definizione morfologica specifica, cioè la categoria “Clitico”,
“Che”, “Wh”.
2) Descrizione del corpus di riferimento
Il corpus di riferimento usato per l’applicazione di questo schema di annotazione è il corpus La
Repubblica, costituito da testi tratti dal quotidiano nazionale del periodo 1985-2000 per un totale di
circa 380 milioni di parole. Tutti i testi del corpus sono stati segmentati in unità-parola (tokens),
annotati a livello morfosintattico, lemmatizzati (con l’aggiunta di informazione morfologica
relativa) e classificati rispetto al genere (i.e. notizie, commenti) e all’argomento.
Il corpus è liberamente interrogabile al sito
http://dev.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica
3) Modalità di annotazione seguita nell’utilizzo dello schema
Il corpus La Repubblica è stato annotato a livello morfosintattico in modo automatico utilizzando il
TreeTagger2 (Schmid 1994) come annotatore (tagger) stocastico, addestrato con risorse ad hoc.
1
La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento a
Baroni et alii, 2004.
2
Cfr. http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
7
Sono stati inoltre condotti una serie di esperimenti di annotazione automatica per verificare la
prestazione di singoli annotatori (tagger) e di una combinazione di più annotatori, rispetto allo
schema di annotazione definito (per una descrizione dettagliata dei risultati cfr. Baroni et alii,
2004).
4) Criteri di annotazione
Non sono disponibili criteri di annotazione.
4.1) Trattamento della dimensione polirematica
Anche in merito al trattamento della dimensione polirematica, non sono disponibili espliciti criteri.
Ricerche condotte direttamente sul corpus hanno rivelato che
• i clitici in enclisi non sono stati considerati un elemento a sé stante, ma un’unità parola unica
con il verbo a cui sono legati;
• le categorie morfosintattiche sono state assegnate ad ogni singola unità-parola; pertanto non
sono state considerate locuzioni di alcun tipo.
Schema di annotazione utilizzato per l’annotazione della Turin University
Treebank (TUT)3
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 16 categorie morfosintattiche,
con rispettive sottocategorie classificatorie, e relative etichette di sottocategorizzazione
morfologica, sintattica e semantica, come illustrato nella seguente tabella riassuntiva:
Categorie morfosintattiche
Sottocategoria
classificatoria associata
Aggettivo
+
Articolo
+
Avverbio
+
Congiunzione
+
Data
Interiezione
Marker
Nome
+
Numero
Frasale
Predeterminante
Preposizione
+
Pronome
+
Punteggiatura
Speciale
Verbo
+
Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene
3
La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento ai
documenti disponibili alla pagina http://www.di.unito.it/~tutreeb/
8
•
•
etichette morfosintattiche categoriali (la maggior parte),
etichette funzionali, cioè la categoria “Predeterminante” e “Frasale”.
2) Descrizione del corpus di riferimento
Il corpus di riferimento usato per l’applicazione di questo schema di annotazione include due
sottocorpus:
• un corpus di testi giuridici, costituito da 1.100 frasi parte del Codice Civile italiano;
• un corpus di articoli giornalistici per un totale di 1.100 frasi, di cui
o 400 frasi estratte da La Stampa e La Repubblica,
o 600 frasi da quotidiani e riviste sull’Albania,
o 100 frasi estratte da testi accademici e romanzi.
Il corpus è liberamente interrogabile al sito
http://www.di.unito.it/~tutreeb/
3) Modalità di annotazione seguita nell’utilizzo dello schema
Il corpus di riferimento è stato annotato
• a livello morfosintattico in modo automatico, utilizzando un annotatore (tagger) a regole
sviluppate manualmente [Boella e Lesmo, 1998];
• a livello sintattico in modo automatico, utilizzando un annotare (parser) a regole sviluppate
manualmente [Lesmo et alii, 2002], con la finalità di fornire una rappresentazione sintattica
a dipendenze del corpus di riferimento.
4) Criteri di annotazione
Non sono disponibili espliciti criteri di annotazione.
4.1) Trattamento della dimensione polirematica
Lo schema prevede il riconoscimento di due tipi di locuzioni:
• locuzioni fisse, sequenza invariabile di unità-parola (tokens), la cui struttura interna è
incompatibile con le regole standard della grammatica, non è soggetta a fenomeni di
variabilità
morfologica
e
a
inserzioni
di
parole
extra
(es.
a_pezzo_a_pezzo/*a_piccolo_pezzo_a_piccolo_pezzo); tale tipologia di locuzione viene
trattata innanzitutto a livello di annotazione morfosintattica;
• locuzioni flessibili, sequenza di unità-parola (tokens), la cui struttura interna è compatibile
con le regole standard della grammatica, è soggetta a fenomeni di variabilità morfologica e a
inserzioni di parole extra (es. aver_bisogno/aver_tanto_bisogno); tale tipologia viene trattata
esclusivamente a livello di annotazione sintattica.
Nel caso di locuzioni fisse, l’annotazione implica che in fase di segmentazione (tokenizzazione) del
testo in unità-parola le locuzioni sono state considerate un elemento unico a cui viene attribuita
un’unica categoria a livello di annotazione morfosintattica e a cui viene aggiunta l’etichetta
LOCUTION. Tale etichetta viene aggiunta alle seguenti categorie:
aggettivi,
avverbi,
congiunzioni,
preposizioni,
nomi.
È poi al livello di annotazione sintattica che viene specificato il tipo di locuzione con l’etichetta
CONTIN+LOCUT.
9
Schema di annotazione distribuzionale, sintatticamente orientato
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 12 categorie morfosintattiche,
con rispettive sottocategorie classificatorie, come illustrato nella seguente tabella riassuntiva:
Aggettivo
Avverbio
Verbo
Nome
Entities
Relative
Subordinator
Coordinator
Argument-Operator
Prepositional
Punctuation mark
Simbolo
Categorie morfosintattiche
Sottocategoria classificatoria associata
+
+
+
-
Non è prevista l’annotazione di tratti morfologici.
Come è possibile valutare dalla lista delle categorie previste, lo schema contiene
• etichette morfosintattiche categoriali (“Aggettivo”, “Avverbio”, “Nome”, “Verbo”,
“Preposizione”, “Coordinator”),
• categorie che non hanno una definizione morfologica, ma che tengono conto di relazioni
sintattiche fondamentali e di informazione distribuzionale, cioè
o la categoria “Entities”, che contiene pronomi o parole che si comportano come
pronomi;
o la categoria “Relative”, che contiene sia pronomi sia avverbi quando si comportano
sintatticamente nello stesso modo;
o la categoria “Subordinator”, che contiene parole che collegano un sintagma
principale e uno subordinato; in questo caso, anche le sottocategorie classificatorie
riflettono il comportamento sintattico-distristribuzionale delle parole a cui sono
associate, comprendendo sia elementi testa di una frase subordinata che modifica una
principale (es. “… si applicano quando si tratta di togliere un ingombro …”) sia
elementi testa di una frase che dipende da una testa verbale (es. “… salvo che
esigenze tecniche impongano di costruirlo …”);
o la categoria “Argument-Operator”, che comprende sia determinanti (cioè articoli,
pronomi) sia preposizioni che svolgono una funzione di testa in strutture argomentali
che dipendono da un verbo.
Tale tipo di schema è il risultato di un processo di induzione automatica realizzato con un algoritmo
illustrato in Berardi et alii, 2006. Le categorie che non hanno una definizione morfologica sono
state definite in base alla distribuzione sintattica delle parole all’interno della Turin University
Treebank. L’obiettivo era quello di creare una classificazione di categorie non decisa a priori, ma
fondata empiricamente.
2) Descrizione del corpus di riferimento
Tale schema di annotazione è stato sviluppato per due finalità:
10
•
•
l’annotazione del CORIS/CODIS (Rossini Favretti et alii, 2002), un corpus di 100 milioni di
parole costituito da testi giornalistici e di narrativa rappresentativi dell’italiano attuale4;
l’annotazione di un corpus di 133.756 unità-parole (tokens) utilizzato in fase di
addestramento dei sistemi di annotazione automatica (tagger) nell’ambito della
competizione EVALITA 20075
3) Modalità di annotazione seguita nell’utilizzo dello schema
Lo schema è stato utilizzato in EVALITA 2007 per la valutazione dei sistemi esistenti per
l’annotazione automatica (tagger) di parti del discorso per la lingua italiana.
4) Criteri di annotazione
La descrizione non tanto dei criteri di annotazione, quanto delle categorie distribuzionali parte dello
schema, è disponibile alla pagina
http://evalita.fbk.eu/2007/tasks/Guidelines_evalita07_POSTag.pdf
4.1) Trattamento della dimensione polirematica
Lo schema non prevede il trattamento della dimensione polirematica.
Schema di annotazione utilizzato per l’annotazione di CoLFIS (Corpus e Lessico
di Frequenza dell’Italiano Scritto)6
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 14 categorie morfosintattiche,
alle quali in un caso è associata una rispettiva sottocategoria classificatoria, come illustrato nella
seguente tabella riassuntiva:
Categorie morfosintattiche
Sottocategoria classificatoria associata
Articolo
Aggettivo
Avverbio
Congiunzione
Interiezione
Nome proprio
Numerale
Preposizione
Pronome
Punteggiatura
Sostantivo
Verbo
+
Parola sconosciuta
Simbolo
4
Maggiori informazioni sul corpus, nonché la possibilità di accedere al corpus stesso, sono disponibili alla pagina
http://corpora.dslo.unibo.it/coris_ita.html
5
Gli atti di EVALITA 2007 sono disponibili alla pagina http://evalita.fbk.eu/2007/proceedings.html
6
La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento alla
pagina http://alphalinguistica.sns.it/CoLFIS/CoLFIS_Presentazione.htm
11
Non è prevista l’annotazione di tratti morfologici.
Come è possibile valutare dalla lista delle categorie previste, lo schema contiene unicamente
etichette morfosintattiche categoriali.
Lo schema è stato definito in seguito ad un processo semi-automatico di lemmatizzazione del
corpus di riferimento. La lemmatizzazione è stata realizzata, in prima battuta, in modo automatico
con un lemmatizzatore messo a disposizione dalla IBM Italia, attraverso la persona dell’Ingegner
Federico Mancini. Si tratta dello stesso lemmatizzatore che è stato utilizzato per la lemmatizzazione
del corpus di parlato LIP (De Mauro et alii, 1993). Sulla base di decisioni prese all’interno del
gruppo di ricerca, sono stati apportati, in seconda battuta, una serie di cambiamenti con procedure
che hanno agito automaticamente o manualmente sull’output del lemmatizzatore7.
2) Descrizione del corpus di riferimento
Il corpus CoLFIS usato per l’applicazione di questo schema di annotazione è costituito da testi tratti
da quotidiani del periodo 1992-1994 (La Repubblica, La Stampa, Il Corriere della Sera), periodici e
libri (tra i quali anche libri letti per motivi scolastici o professionali), per un totale di 3.798.275
ricorrenze lessicali, così ripartite:
• quotidiani: 1.836.119
• periodici: 1.306653
• libri: 655.503
Per una descrizione più dettagliata del corpus si veda Laudanna et alii, 1995.
3) Modalità di annotazione seguita nell’utilizzo dello schema
A ciascuna forma e a ciascun lemma ricorrente nel corpus è stato associato in modo manuale
un’etichetta corrispondente ad una delle categorie morfosintattiche dello schema.
4) Criteri di annotazione
È importante sottolineare che i criteri seguiti in fase di annotazione morfologica di CoLFIS sono
stati per lo più influenzati da quelli seguiti durante i processi di lemmatizzazione e di revisione
dell’output automatico della prima fase di lemmatizzazione. I criteri di lemmatizzazione sono
disponibili alla pagina http://alphalinguistica.sns.it/CoLFIS/CriteridiLemmatizzazione.htm
4.1) Trattamento della dimensione polirematica
I criteri di annotazione prevedono che le parole sintagmatiche siano contrassegnate dal simbolo @.
In questo caso, il simbolo @ può trovarsi:
• in combinazione con una categoria grammaticale, come nel caso del sintagma avverbiale
qua_e_là, al quale è stata associata la categoria B@, ad indicare che si tratta di una “parola
sintagmatica avverbiale”;
• in una combinazione di categorie grammaticali, come nel caso in cui all’avverbio qua sia
stata associata la combinazione di categorie grammaticali B IN B@, ad indicare che tale
avverbio (B) occorre come avverbio in una “parola sintagmatica avverbiale” (IN B@).
7
Per una rassegna dettagliata di tali cambiamenti http://alphalinguistica.sns.it/CoLFIS/CriteridiLemmatizzazione.htm
12
Schema di annotazione sviluppato da Achim Stein per il TreeTagger
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 15 categorie morfosintattiche,
alle quali sono associate le rispettiva sottocategorie classificatorie, come illustrato nella seguente
tabella riassuntiva:
Abbreviazione
Aggettivo
Avverbio
Congiunzione
Determinante
Interiezione
Nome
Nome proprio
Numerale
Punteggiatura
Preposizione
Pronome
Sentence marker
Simbolo
Verbo
Categorie morfosintattiche
Sottocategoria classificatoria associata
+
+
+
+
Non è prevista l’annotazione di tratti morfologici.
Come è possibile valutare dalla lista delle categorie previste, lo schema contiene unicamente
etichette morfosintattiche categoriali. La categoria “Determinante”, a dispetto dell’etichetta
funzionale utilizzata, è in realtà associata unicamente alla categoria ‘articolo’.
2) Descrizione del corpus di riferimento
Tale schema è usato da una serie di corpora sviluppati dal gruppo di ricerca di Carla Marello e
Manuel Barbera presso il Dipartimento di Scienze Letterarie e Filologiche dell’università di Torino
(cfr. Barbera et alii, 2007). I corpora sono liberamente disponibili e interrogabili alla pagina
http://www.bmanuel.org/projects/index.html
Nel confronto tra schemi di annotazione è stato scelto il NUNC (Newsgroups UseNet Corpora)
come corpus di riferimento di tale schema (Corino 2007).
3) Modalità di annotazione seguita nell’utilizzo dello schema
Lo schema è stato disegnato esplicitamente per il sistema di annotazione a regole (tagger)
TreeTagger8 di Schmid (1994) con i parametri sviluppati da Achim Stein.
4) Criteri di annotazione
Non sono disponibili espliciti criteri di annotazione. Pertanto, le informazioni relative ai criteri
piuttosto che alla semplice analisi dello schema di annotazione sono state reperite da ricerche
condotte direttamente sul corpus di riferimento scelto, cioè il NUNC.
8
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
13
4.1) Trattamento della dimensione polirematica
Lo schema non prevede il trattamento della dimensione polirematica.
Schema di annotazione sviluppato da Marco Baroni per il TreeTagger
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 12 categorie morfosintattiche,
alle quali sono associate le rispettiva sottocategorie classificatorie, come illustrato nella seguente
tabella riassuntiva:
Abbreviazione
Aggettivo
Avverbio
Clitico
Congiunzione
Determinante
Interiezione
Sostantivo
Nome proprio
Preposizione
Pronome
Verbo
Categorie morfosintattiche
Sottocategoria classificatoria associata
+
+
+
+
+
+
+
Non è prevista l’annotazione di tratti morfologici.
Come è possibile valutare dalla lista delle categorie previste, lo schema contiene unicamente
etichette morfosintattiche categoriali. La categoria “Determinante”, a dispetto dell’etichetta
funzionale utilizzata, è in realtà associata unicamente alla categoria ‘articolo’. Lo schema prevede
inoltre anche un’etichetta che non ha una definizione morfologica specifica, cioè la categoria
“Clitico”.
2) Descrizione del corpus di riferimento
Lo schema è stato utilizzato per l’annotazione grammaticale del “Corpus di Italiano Televisivo”
(CiT)9, una raccolta di testi trascritti in formato elettronico per un totale di 250.000 parole estratte
da trasmissioni televisive (Spina 2000). La trascrizione ortografica delle trasmissioni, con
l’esclusione dei segni di punteggiatura, è stata considerata il punto di partenza per la fase di
annotazione grammaticale.
3) Modalità di annotazione seguita nell’utilizzo dello schema
Lo schema è stato disegnato esplicitamente per il sistema di annotazione a regole (tagger)
TreeTagger10 di Schmid (1994) con i parametri sviluppati da Marco Baroni. L’annotazione ha
previsto una prima fase automatica in cui ciascuna parola è associata ad una categoria grammaticale
9
Cfr. http://www.sspina.it/cit/cit.htm
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
10
14
tramite il software dell'Università di Stoccarda, e una seconda manuale, in cui sono stati corretti gli
errori e lo schema di annotazione previsto dal sistema è stato ampliato e adattato al CiT.
4) Criteri di annotazione
Non sono disponibili criteri di annotazione.
4.1) Trattamento della dimensione polirematica
Lo schema prevede che le parole polirematiche abbiano una marca specifica, tuttavia non sono
forniti espliciti criteri relativi al trattamento della dimensione polirematica.
Schema di annotazione utilizzato per l’annotazione del Corpus Taurinense11
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 12 categorie morfosintattiche,
con rispettive sottocategorie classificatorie, e i tratti morfologici relativi, come illustrato nella
seguente tabella riassuntiva:
Categorie morfosintattiche
Sottocategoria
classificatoria associata
Adposizione
+
Aggettivo
+
Articolo
+
Avverbio
+
Congiunzione
+
Interiezione
Nome
+
Numerale
+
Pronome+
determinante
Punteggiatura
+
Residuo
+
Verbo
+
Lo schema segue sostanzialmente le specifiche proposte dallo standard EAGLES, adattando tuttavia
il sistema di etichette ad alcune specificità del corpus di riferimento. Ad esempio, per rendere conto
di elementi come meco, teco, seco, presenti in testi di italiano scritto antico, è stata introdotta la
sottocategoria classificatoria “postposizione”, associata alla categoria morfosintattica
“Adposizione”, quando invece lo standard EAGLES prevedeva la sottocategoria unica
“preposizione”.
Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene
• etichette morfosintattiche categoriali (la maggior parte),
• etichette funzionali, cioè la categoria “pronome-determinante”, assegnata sia a pronomi sia a
parole che svolgono una funzione di ‘determinante’. «Si tratta, in pratica, di una classe
11
La descrizione dello schema di annotazione, del corpus, delle modalità e dei criteri di annotazione fa riferimento a
Barbera et alii, 2007.
15
arbitraria a definizione morfologica», risultato delle riflessioni svolte in Barbera e Marello,
2003.
È importante sottolineare che i tratti ‘tempo’ e ‘modo’ associati alla categoria “Verbo” in tale
schema sono stati considerati sottocategorie piuttosto che tratti associati.
2) Descrizione del corpus di riferimento
Il “Corpus Taurinense” è il corpus di riferimento usato per l’applicazione di questo schema di
annotazione. È una collezione di testi fiorentini del XIII secolo, che raccoglie un totale di 259.299
unità-parola (tokens), sottoparte del TLIO (Tesoro della Lingua Italiana delle Origini). I documenti
sono stati lemmatizzati, annotati a livello morfosintattico e arricchiti con informazioni relative alla
struttura testuale, al genere letterario e alla forma filologica. Per maggiori dettagli, le caratteristiche
del corpus, nonché il corpus stesso, sono liberamente interrogabili al sito
http://www.bmanuel.org/projects/ct-HOME.html
3) Modalità di annotazione seguita nell’utilizzo dello schema
Il Corpus Taurinense «è stato etichettato semi-manualmente e disambiguato con microregole».
4) Criteri di annotazione
Secondo quanto affermato in Barbera et alii, 2007, in fase di annotazione le etichette
morfosintattiche sono state assegnate «ad ogni singola parola», pertanto
• in fase di segmentazione del testo in unità-parola (tokenizzazione) gli elementi
«grafoclitici», cioè i clitici in enclisi, gli articoli delle preposizioni articolate, le preposizioni
in posizione postposta (“postposizioni”), sono stati considerati un elemento unico a cui è
stata attribuita la rispettiva categoria morfosintattica;
• non è stato possibile assegnare etichette «compatte» ai passivi e ai tempi composti;
• le locuzioni sono state considerate come un tratto di sottocategorizzazione morfologica.
4.1) Trattamento della dimensione polirematica
I criteri di annotazione della dimensione polirematica si basano sulla concezione che le locuzioni
siano trattabili come forma di sottocategorizzazione «perché, comunque, si distribuiscono su più
categorie morfosintattiche». Tale approccio prevede che le parole polirematiche siano annotate con
l’etichetta di sottocategorizzazione morfologica “loc” (locuzione). Sono previste locuzioni costituite
da due a nove costituenti.
In aggiunta, il valore “const” (costituente) «è attribuito alle singole parti costituenti la
polirematica». Tale valore viene attribuito in associazione
• ad un lemma che può avere una serie predefinita di categorie morfosintattiche, nel caso che
almeno una sua forma sia attestata anche al di fuori della polirematica,
• ad una categoria morfosintattica ‘zero’, nel caso di costituenti che ricorrano esclusivamente
nella polirematica in esame e che non possano essere attribuiti ad una categoria specifica.
In dettaglio, l’etichetta “loc” viene attribuita alle seguenti categorie morfosintattiche:
• nome,
• verbo,
• avverbio,
• congiunzione,
• adposizione,
• interiezione,
• residuo.
16
Schema di annotazione utilizzato per l’annotazione della Venice Italian
Treebank (VIT)12
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 14 categorie morfosintattiche con
rispettive sottocategorie classificatorie, nonché la descrizione in tratti delle caratteristiche
morfologiche (MFEATS), sintattiche (SFEATS) e semantiche (SEMS) della parola analizzata,
come illustrato nella seguente tabella riassuntiva13:
Categorie morfosintattiche
Sottocategoria classificatoria
associata
Aggettivo
+
Articolo
+
Avverbio
+
Congiunzione
+
Congiunzione frasale
+
Congiunzione subordinante
+
Interiezione
Locuzione
+
Nome
+
Nome + aggettivo predicativo
+
Nome + aggettivo participio presente
+
Preposizione
+
Pronome
+
Verbo
+
Tale schema ha la caratteristica di utilizzare una etichettatura di tipo fine, includendo al proprio
interno tipi sintattici e semantici per un totale di 100 etichette diverse. Il motivo di questa scelta è
legato principalmente alla necessità di utilizzare poi l’etichettatura ottenuta per un livello di analisi
sintattica per il quale sono indispensabili certi tipi di informazioni sintattiche e semantiche allo
scopo di ottenere una strutturazione più vicina possibile ad una interpretazione semanticofunzionale del testo di riferimento.
2) Descrizione del corpus di riferimento
Lo schema VIT è stato utilizzato per l’annotazione morfosintattica in due contesti diversi:
• nell’ambito del progetto AVI/AVIP, nato con lo scopo di costituire un corpus di dialoghi
spontanei per lo studio linguistico in generale e soprattutto fonetico della lingua italiana
parlata e delle sue varietà (Delmonte et alii, 2004)14;
• nell’ambito della creazione della Venice Italian Treebank (VIT) costruita su di un corpus di
320.000 parole di italiano contemporaneo, organizzato in un subcorpus di 260.000 parole
estratte da testi di italiano scritto e in uno di 60.000 parole estratte da dialoghi spontanei
(Delmonte et alii, 2007).
12
La descrizione dello schema di annotazione fa riferimento alla relazione conclusiva del progetto AVIP/API relativa
all’annotazione morfosintattica disponibile alla pagina
http://www.parlaritaliano.it/api/documenti/Annotazione%20morfosintattica.pdf
13
Per la descrizione dettagliata delle sottocategorie associate e dei rispettivi tratti morfologici, sintattici e semantici si
rimanda al documento disponibile alla pagina sopra indicata.
14
Cfr. http://www.parlaritaliano.it/parlare/
17
3) Modalità di annotazione seguita nell’utilizzo dello schema
I corpora di riferimento sono stati annotati in modo semi-automatico utilizzando il sistema di
annotazione a regole VEST (Venice Symbolic Tagger) (Delmonte et alii, 1996).
4) Criteri di annotazione
Non sono disponibili criteri di annotazione.
4.1) Trattamento della dimensione polirematica
Il sistema di annotazione automatica (VEST tagger) è fornito di una lista di forme polirematiche
comuni che vengono applicate nella fase preliminare di segmentazione (tokenizzazione) del testo in
unità-parola. Ciò permette di accorpare due o più unità-parole (tokens) in un unico elemento,
un’unica parola polirematica dunque, a cui viene assegnata la categoria “Locuzione” di tipo
congiuntivo, preposizionale e avverbiale. Per contro, il sistema (tagger) è in grado di decomporre
forme amalgamate come i verbi cliticizzati in due o più componenti individuali, allo scopo di
permetterne la successiva analisi sintattica.
18
2.2
Schemi di annotazione morfosintattica per l’italiano parlato
Schema di annotazione utilizzato per l’annotazione del corpus AVIP/API
1) Descrizione dello schema di annotazione
Lo schema di annotazione prevede complessivamente l’utilizzo di 14 categorie morfosintattiche,
alle quali in un caso è associata una rispettiva sottocategoria classificatoria, come illustrato nella
seguente tabella riassuntiva:
Categorie morfosinttatiche
Sottocategoria
classificatoria associata
Nome
Verbo
Aggettivo
pronome/determinatore
Articolo
Avverbio
Adposizione
+
Congiunzione
Numerale
Interiezione
“discourse marker”
Filler
Unico
Residuo
Lo schema rielabora quello sviluppato nell’ambito del progetto MATE15, che a sua volta
rappresenta un’estensione delle raccomandazioni di EAGLES. A differenza dello schema MATE,
tuttavia, tale schema non comprende la possibilità di apporre etichette di sottocategorizzazione
morfologica. È inoltre stata eliminata la categoria “Punteggiatura” per l’annotazione dei segni di
punteggiatura, dal momento che è stato deciso che tutti i segni di punteggiatura venissero rimossi
nella fase preliminare di trascrizione.
2) Descrizione del corpus di riferimento
Lo schema è stato utilizzato per la fase di annotazione morfosintattica nell’ambito del progetto
AVIP/AVI16.
3) Modalità di annotazione seguita nell’utilizzo dello schema
L’annotazione è stata condotta in modo unicamente manuale.
4) Criteri di annotazione
15
Cfr. http://mate.nis.sdu.dk/
Per i dettagli si vedano i documenti di G. Ferrari, C. Soria, E. Milos, Annotazione morfosintattica e testualepragmatica, nel file “Annotazione pragmatica AVIP.pdf”, disponibile alla pagina
ftp://ftp.cirass.unina.it/cirass/avip/doc_app/text_anl.PDF ,
nonché il sito http://www.parlaritaliano.it/parlare/
16
19
Sono disponibili i criteri generali di annotazione che riguardano per lo più la fase di trascrizione
del corpus di riferimento, ovvero la rappresentazione in forma testuale dello scambio vocale. Essa si
conforma tradizionalmente ad alcuni standard di rappresentazione suoi propri, che tuttavia possono
creare dei problemi durante l’annotazione. Per questo motivo, nel passaggio dalla fase di
trascrizione a quella di annotazione il corpus è stato rivisto tenendo in considerazione una serie di
criteri di annotazione. Gli interventi di revisione hanno riguardato in particolare la definizione dei
criteri di identificazione dell’elemento ‘parola’ secondo i seguenti principi:
• tutte le ‘unità grafiche’ sono state considerate ‘parole’;
• sono state considerate ‘parole’ le ‘parole interrotte’ e le ‘false partenze’, eliminando segni di
interruzione come + o /.
Inoltre, sono stati rimossi tutti i segni di interpunzione, inclusi punti interrogativi ed esclamativi,
che sono stati considerati come sostituti provvisori di una più accurata annotazione intonativa.
Per quanto riguarda il trattamento degli ‘enunciati interrotti’, sono state individuate due tipologie
fondamentali:
a) il caso in cui l’interruzione occorra nel corpo di una parola,
b) il caso in cui l’interruzione lasci in ultima posizione una parola chiaramente categorizzabile
in un modo se la frase fosse stata terminata, ma classificabile in un modo diverso in
posizione finale ‘assoluta’.
Nel caso a) è stato stabilito di assegnare l’etichetta R (“residual”) a quei frammenti che risultano
troppo ridotti per poter essere classificati in modo sicuro e di attribuire una categoria ‘piena’ ai
frammenti facilmente identificabili.
Nel caso b) è stato stabilito di assegnare alla parola l’etichetta ‘intesa’, che sarebbe cioè stata
assegnata nel caso in cui l’enunciato non fosse stato interrotto, prevedendo dunque un probabile
completamento dell’enunciato. Ad esempio, a parole come “sopra”, “sotto”, “avverbi” in posizione
‘assoluta’ (in isolamento), è stata attribuita la categoria “adposizione” se appoggiate ad un
sostantivo caduto con l’interruzione.
4.1) Trattamento della dimensione polirematica
Le parole che formano locuzioni sono state considerate ‘unità distinte’, come nel caso ad esempio di
“va bé”, che è un unico “discourse marker”, ma che è stato trattato come due parole separate e
pertanto ciascun elemento è stato annotato con la propria etichetta (DM); o come nel caso di
locuzioni preposizionali quali “sopra a”, “sotto a” i cui singoli elementi costitutivi sono stati
marcati come “adposizione” (AP).
Schema di annotazione sviluppato nell’ambito del progetto “Dialoghi Annotati”
1) Descrizione dello schema di annotazione
Lo schema utilizzato nel progetto “Dialoghi Annotati” svolto nell’ambito del progetto nazionale SITAL (“Sistema Integrato per il trattamento Automatico del Linguaggio”) è quello EAGLES
opportunamente esteso e modificato allo scopo di meglio rappresentare i fenomeni tipici del
parlato17. La scelta deriva dal fatto che lo schema EAGLES per le particolari caratteristiche di
formato si presta ad essere modificato e adattato per rappresentare i fenomeni del parlato, che
ovviamente non sono adeguatamente trattati nella versione originaria dello schema. E’ importante
notare tuttavia come le modifiche apportate consistano essenzialmente in ampliamenti dello schema
mediante l’introduzione di categorie aggiuntive o sottocategorie di categorie già esistenti; in tal
modo infatti è assicurata la sostanziale uniformità dello schema con la sua controparte ‘scritta’, e lo
17
Cfr. http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.1_SpecificheTecniche.pdf
20
stesso schema di annotazione può essere applicato indifferentemente alla lingua parlata o alla lingua
scritta, con vantaggi evidenti per la portabilità dello schema e per gli usi successivi.
Lo schema prevede complessivamente l’utilizzo di 15 categorie morfosintattiche, alle quali sono
associate le rispettive sottocategorie classificatorie e i tratti morfologici relativi, come illustrato
nella seguente tabella riassuntiva:
Categorie morfosintattiche
Sottocategoria
classificatoria associata
Aggettivo
+
Articolo
+
Avverbio
Congiunzione
+
Determinatore
+
Interiezione
+
Abbreviazione
Nome
+
Numerale
+
Verbo
Predeterminatore
Preposizione
+
Pronome
+
Punteggiatura
Residuo
Come è possibile valutare dalla lista delle categorie morfosintattiche previste, lo schema contiene
• etichette morfosintattiche categoriali (la maggior parte),
• etichette funzionali, cioè la categoria “Predeterminatore” e “Determinatore”.
2) Descrizione del corpus di riferimento
La descrizione del progetto “Dialoghi Annotati” è disponibile alla pagina
http://www.ilc.cnr.it/viewpage.php/sez=ricerca/id=56/vers=ita
3) Modalità di annotazione seguita nell’utilizzo dello schema
L’annotazione del corpus è stata realizzata in modo semi-automatico con revisione manuale18.
4) Criteri di annotazione
I criteri di annotazione sono disponibili nel documento disponibile alla pagina
http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.2_SviluppoPrimoProtot
ipo.pdf. In tale documento è messa in luce la necessità di affiancare alla definizione del contenuto
dello schema di annotazione le modalità della sua applicazione. Mentre infatti in fase di definizione
generale delle specifiche di annotazione erano stati definiti scopi e caratteristiche dell’annotazione a
prescindere dal dominio applicativo, in fase di applicazione sono state apportate una serie di
modifiche relative ad aspetti del dominio trattato. Le principali modifiche effettuate sono le
seguenti:
• modifiche di formato, relative alla modalità di rappresentazione dell’informazione
morfosintattica;
18
Cfr. le “Specifiche tecniche” per la descrizione dettagliata del software di annotazione.
21
modifiche relative all’inventario delle etichette di categoria morfosintattica, relative al
numero e al tipo di etichette.
• modifiche relative all’inventario delle etichette che specificano i tratti morfosintattici,
relative al numero e al tipo di etichette;
• modifiche relative al trattamento delle espressioni polilessicali e dei clitici.
Ai fini della definizione di uno schema di annotazione specifico per la codifica della lingua parlata,
è significativo qui di seguito riportare in particolare l’estensione operata rispetto allo schema
EAGLES di riferimento. Tale schema sviluppato per l’annotazione della lingua scritta è stato rivisto
ed esteso per consentire un’adeguata codifica dei seguenti fenomeni propri del parlato:
a) le parole incomplete
b) le forme non standard
c) le vocalizzazioni quasi lessicali
d) avverbi, interiezioni, marcatori del discorso, particelle pragmatiche.
•
a) Per quanto riguarda il trattamento delle ‘parole incomplete’, sono stati previsti i seguenti casi:
• nel caso in cui nel processo di trascrizione sia stato possibile fornire un completamento, la
parola è stata etichettata normalmente;
• nel caso in cui invece sia stato possibile trascrivere soltanto la porzione riconoscibile della
parola incompleta, è stata utilizzata l’etichetta prevista per la classe residua (X).
b) Il trattamento del fenomeno di ‘forme non standard’ ha riguardato:
• i casi in cui l’uso di una forma lessicale da parte di un parlante fosse regolare dal punto di
vista della sua variante regionale o sociale, anche se deviante rispetto alla varietà standard
della lingua;
• i casi in cui un parlante abbia prodotto una forma mal formata anche dal suo punto di vista,
come nel caso degli ‘errori di esecuzione’.
Nel primo caso, non si è intervenuti con interventi di normalizzazione e le forme sono state
classificate nello stesso modo in cui sarebbero state annotate le forme standard corrispondenti. Per
segnalare che si tratta di una forma non standard, è stato inserito un simbolo V (per “variante”)
dopo l’etichetta della categoria morfosintattica assegnata.
Nel caso di veri e propri ‘errori di esecuzione’, sia che già in sede di trascrizione si sia provveduto a
normalizzare la forma trascrivendo la corrispondente forma-target (se questa è ricostruibile con
sufficiente sicurezza), sia che si sia intervenuti normalizzando la forma a livello di trascrizione
emendata, alla forma in questione è stata assegnata un’etichetta corrispondente a quella della forma
target. Ovviamente, nel caso in cui non sia stato possibile recuperare una forma di riferimento, alla
parola verrà assegnata la categoria prevista per la classe residua (X).
c) Le ‘vocalizzazioni quasi lessicali’ includono:
• i riempitivi di pause o esitazioni, cioè suoni come um, uh-huh, ooh, ah, mhm, eh?,
• le vocalizzazioni di “prompting” che si distinguono dalle pause piene per occorrere in
posizione iniziale o finale di turno e per avere la funzione di assecondare un turno
precedente o sollecitare un turno successivo da parte di un altro parlante.
Entrambi i fenomeni sono stati classificati sotto la categorie delle “interiezioni”. Alla classe delle
interiezioni sono stati associate le seguenti tipologie di parole:
• forme di saluto (es. ciao, buongiorno, arrivederci, …),
• elicitatori di risposta (es. eh?, huh?, ok?),
• esclamazioni (es. oh, ah, ooh),
• forme di risposta (es. ok, hu-huh, …),
• forme di cortesia (es. grazie, prego).
22
d) Per quanto riguarda l’annotazione di ‘marcatori del discorso’ e di ‘particelle pragmatiche’,
l’approccio seguito consiste nello specificare criteri precisi di attribuzione delle diverse forme alle
categorie già esistenti delle interiezioni, delle “Congiunzioni” e degli “Avverbi”. Le diverse classi
possono poi essere ulteriormente specificate, ma la classificazione è fatta esclusivamente su base
distribuzionale, evitando di usare categorie determinate su base pragmatica in quanto questo tipo di
classificazione è rimandata al livello pragmatico.
Una nuova sottocategoria “MD” (“Marcatore del Discorso”) viene associata alle categorie degli
avverbi e delle congiunzioni, quando occorrono in contesti particolari, per esempio isolatamente in
un turno o in posizione iniziale o finale di turno. Alcuni esempi sono riportati di seguito:
• tra gli avverbi, possono essere ulteriormente classificati mediante la sottocategoria MD
o gli elicitatori di risposta (es. “sì poi?”),
o le forme di risposta (es. sì);
• le congiunzioni, sia coordinative sia subordinative, quando si trovano all’inizio o alla fine di
turno o di enunciazione possono essere sottospecificate (es. “allora stammi a sentire”).
4.1) Trattamento della dimensione polirematica
In base ai criteri di annotazione le espressioni polilessicali sono state considerate come parole
morfologiche uniche, in cui i singoli costituenti non sono più identificati separatamente ma l’intera
espressione riceve una categoria morfosintattica unica. Una lista di parole polirematiche è
disponibile nell’Appendice del documento relativo ai criteri di annotazione.
Schema di annotazione utilizzato per l’annotazione dei corpora LABLITA
1) Descrizione dello schema di annotazione
Lo schema utilizzato per l’annotazione dei corpora di italiano parlato LABLITA prevede l’utilizzo
di categorie morfosintattiche già parte di schemi creati per l’annotazione di testi di italiano scritto. I
due seguenti schemi sono stati adattati ai requisiti di corpora di italiano parlato:
• lo schema di 12 categorie morfosintattiche, con rispettive sottocategorie classificatorie e
tratti morfologici associati, proposte dallo standard EAGLES;
• lo schema di 15 categorie morfosintattiche, con rispettive sottocategorie classificatorie, ma
senza tratti morfologici associati, disegnato esplicitamente per il sistema di annotazione a
regole (tagger) TreeTagger19 di Schmid (1994) con i parametri sviluppati da Achim Stein.
In particolare, lo schema EAGLES è stato ampliato (Panunzi et alii, 2004) con una serie di etichette
esplicitamente aggiunte per l’annotazione sia di elementi linguistici non standard (es. onomatopee,
nuove formazioni) sia di elementi non linguistici paralinguistici (es. riempitivi, frammenti di parole)
e extralinguistici (es. colpi di tosse).
Lo schema sviluppato da Achim Stein per il TreeTagger è stato arricchito con un’etichetta
appositamente aggiunta allo schema originale per l’annotazione di elementi paralinguistici20.
2) Descrizione del corpus di riferimento
Una descrizione completa dei corpora LABLITA è disponibile alla pagina
http://lablita.dit.unifi.it/corpora/
19
20
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
http://lablita.dit.unifi.it/corpora/confronto/trattamento.html#tagset
23
3) Modalità di annotazione seguita nell’utilizzo dello schema
Lo schema EAGLES è stato utilizzato dal sistema di annotazione stocastico (tagger) descritto in
Picchi 1994.
L’annotazione morfosintattica è stata altrimenti realizzata utilizzando il sistema di annotazione a
regole (tagger) TreeTagger di Schmid (1994) nella sua versione per l’italiano.
4) Criteri di annotazione
Non sono disponibili criteri di annotazione
4.1) Trattamento della dimensione polirematica
Non sono disponibili espliciti criteri relativi al trattamento della dimensione polirematica.
24
3 Analisi comparativa degli schemi di annotazione per
categoria morfosintattica
Lo scopo generale di questa sezione è quello di fornire un confronto tra gli schemi di annotazione
illustrati nelle sezioni 2.1. e 2.2 tenendo conto delle variazioni relative alla codifica delle categorie
morfosintattiche specificate. In particolare, gli schemi sono stati confrontati rispetto ai seguenti
parametri di variazione connessi alla codifica dell’informazione linguistica:
a) la presenza di sottocategorie classificatorie,
b) la presenza di tratti morfologici,
c) la presenza di altri tratti classificatori oltre ai tratti relativi alla codifica dell’informazione di
sottocategorizzazione e morfologica,
d) la presenza di categorie non tradizionali impiegate per la classificazione di informazione
linguistica,
e) il trattamento della dimensione polirematica.
In un singolo caso, inoltre, data l’alta variazione tra gli schemi nella codifica degli elementi che
esprimono ‘determinazione’, è stato scelto di confrontare le scelte di codifica non relativamente ad
una singola categoria morfosintattica, ma rispetto ad una serie di categorie (vedi sezione 3.4).
In ognuna delle sezioni che seguono è riportata una tabella sinottica introduttiva (Tabella 1), che
introduce, per ogni singolo schema di annotazione, i parametri di variazione considerati e ne associa
il valore positivo o negativo (+/-). Segue una seconda tabella (Tabella 2), che riporta le
sottocategorie classificatorie associate ad ogni categoria morfosintattica presa in esame. È infine
proposta la descrizione ragionata dei parametri di variazione tra schemi.
È importante sottolineare il fatto che quanto presentato in questa sezione fa riferimento al contenuto
degli schemi di annotazione considerati e non alle modalità della sua applicazione sul testo. Ciò
implica che il confronto è stato condotto sulla definizione dello schema di annotazione, piuttosto
che sui criteri di annotazione. Si è deciso di condurre il lavoro in questo modo data la diffusa
difficoltà nel reperire chiare e esaustive descrizioni delle metodologie di applicazione sul testo degli
schemi esistenti. Tale approccio ha contribuito a mettere in luce alcuni aspetti particolarmente
problematici del lavoro di codifica dell’informazione morfosintattica, nonché alcune zone d’ombra
definite in modo non chiaro dagli schemi esaminati. Conseguentemente, riteniamo che la raccolta e
l’esame dei rispettivi criteri di annotazione come parte integrante del lavoro di specifica di uno
schema di annotazione (Lenci et alii, 2005) potrà rappresentare il punto di partenza per un ulteriore
confronto ragionato.
25
3.1
Aggettivi
Presenza di
sottocategorie
classificatorie
Grado
Presenza di tratti morfologici
Dimensione
polirematica
Altro
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
+
+
+
-
+
+
+
-
-
+
-
+
-
+
-
-
VIT
+
-
-
-
Dialoghi_Annotati
CiT
+
+
+
-
+
-
+
-
Schema di
annotazione
Tabella 1
26
Categoria
sottospecificata
“aggettivo/nome”
-
Schema di annotazione
EAGLES
LaRep.
TUT
-
Deittico
Dimostrativo
Esclamativo
Indefinito
Interrogativo
Ordinale
Possessivo
Qualificativo
Qualificativo
Sottocategorie
classificatorie
C./C.
CoLFIS NUNC
distribuz.
-
-
Tabella 2
* Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste.
27
CT
-
Lablita
-
A./A.
-
VIT
*
D.A.
CiT
Qualificativo Dimostrativo
Possessivo
Esclamativo
Straniero
Indefinito
Interrogativo
Possessivo
In EAGLES alla categoria “aggettivo” è associata come unica sottocategoria classificatoria quella di
“aggettivo, qualificativo”. È inoltre prevista la possibilità di annotare il ‘grado’ dell’aggettivo e i
rispettivi tratti morfologici, secondo lo schema illustrato nella seguente tabella:
Grado
Positivo
Comparativo
Superlativo
Tratti morfologici
Genere
Numero
m, f, c
sg, pl, n
c
sg, pl
m, f
sg, pl
Lo schema dello standard non prevede l’annotazione della dimensione polirematica.
In LaRepubblica alla categoria “aggettivo” non è associata alcuna sottocategoria classificatoria né
alcun tratto morfologico.
In TUT la categoria “aggettivo” sussume le seguenti sottocategorie classificatorie:
Tipo di sottocategoria
Deittico
Dimostrativo
Esclamativo
Indefinito
Interrogativo
Ordinale
Possessivo
Qualificativo
Esempi
Altro, fa, prossimo, scorso
Questo, quello
Che
Nessun, alcuni, molti
Che, quale, quanto
Primo, ventesimo, ultimo
Altrui, mio, nostri
Bello, grande, italiano
A ciascuna sottocategoria sono inoltre associati i rispettivi tratti morfologici relativi al ‘genere’ e al
‘numero’.
Inoltre, in TUT è prevista l’annotazione di parole polirematiche aggettivali, articolata su due livelli
di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti dal
corpus di testi giornalistici, si può vedere che espressioni aggettivali come in_corso, da_capogiro,
in_via_di_sviluppo sono etichettate come un unico elemento LOCUTION già a livello di
annotazione morfosintattica. A questo livello l’etichetta LOCUTION segue le etichette della
categoria morfosintattica “aggettivo” (ADJ) e dei tratti di sottocategorizzazione classificatoria e
morfologica associati. Come specificato nei criteri di annotazione relativi al trattamento della
dimensione polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di
locuzione. Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di
locuzioni fisse.
e' (ESSERE VERB MAIN IND PRES INTRANS 3 SING) [36;VERB-RMOD+RELCL]
in (IN_CORSO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [38;VERB-PREDCOMPL+SUBJ]
corso (IN_CORSO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [39;CONTIN+LOCUT]
interesse (INTERESSE NOUN COMMON M SING) [41;PREP-ARG]
da (DA_CAPOGIRO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [40;ADJC+QUALIF-RMOD]
capogiro (DA_CAPOGIRO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [43;CONTIN+LOCUT]
paesi (PAESE NOUN COMMON M PL) [6.1;DET+DEF-ARG]
in (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [7;ADJC+QUALIF-RMOD]
via (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [8;CONTIN+LOCUT]
di (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION) [9;CONTIN+LOCUT]
sviluppo (IN_VIA_DI_SVILUPPO ADJ QUALIF ALLVAL ALLVAL LOCUTION)[10;CONTIN+LOCUT]
28
Per la classificazione degli aggettivi CORIS/CODIS_distribuzionale non prevede alcuna modifica
di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita descrizione dello
schema in merito.
In CoLFIS è prevista un’unica etichetta di classificazione degli aggettivi, senza nessun tratto
morfologico associato.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che alle “parole sintagmatiche aggettivali”, come ad esempio sud est,
quatta quatta, a vuoto, ad hoc, papale papale21 sia associata l’etichetta G@.
In CT è prevista, secondo lo standard EAGLES, un’unica categoria “aggettivo” che comprende
come unica sottocategoria classificatoria quella di “aggettivo, qualificativo”. Inoltre, all’aggettivo
sono associati il ‘grado’ e i tratti morfologici relativi al ‘genere’, ‘numero’.
In NUNC e in Lablita per italiano parlato è prevista un’unica categoria “aggettivo”, senza alcuna
sottocategoria classificatoria. Nessun tratto morfologico corrispondente è associato.
In AVIP/API per l’italiano parlato è prevista la categoria “aggettivo” senza alcuna sottocategoria
classificatoria.
Come stabilito nei criteri di annotazione, non sono previste etichette di sottocategorizzazione
morfologica né è tenuta in considerazione la possibilità di annotare la dimensione polirematica.
In VIT la categoria “aggettivo” prevede le seguenti sottocategorie:
Etichetta
agg:a
agg:alt
agg:co
agg:c
agg:comp
agg:dim
agg:e
agg:escl
agg:go
agg:ico
agg:ind
agg:ind:min
agg:ind:sup
agg:int
agg:io
agg:num:car
agg:num:ord
agg:num:ord:ind
agg:o
agg:ore
agg:poss
agg:rel
agg:sup
agg:z
21
classe
"other"
classe
colore
comparativo
dimostrativo
classe
esclamativo
classe
classe
Indefinito
Indefinito
indefinito
interrogativo
classe
numerale
numerale
numerale
classe
classe
possessivo
relativo
superlativo
invarariato
Descrizione
-a
-co
-e
-go
-ico
minoranza
superlativo
-io
cardinale
ordinale
ordinale
-o
-ore
Gli esempi sono stati estratti direttamente dal corpus annotato.
29
Indefinito
Esempio
focaia
altro
antico
giallo
miglior
quello
temibile
quale
sacrilego
sarcastico
troppo
pochino
pochissimo
quanto
refrattario
dodici
ventesimo
ennesimo
bello
fotorecettore
mio
quale
ottimo
video
Etichetta
agg:z:def
agg:z:min
agg:z:neg
agg:z:qd
agg:z:rel:ind
aggpp:o
aggpr:e
definito
minoranza
negativo
distributivo
relativo
participio
participio
Descrizione
quantificatore
Esempio
tutto
minor
nessun
ogni
qualsiasi
moderato
mortificante
quantificatore
indefinito
passato
presente
Dalla precedente tabella riassuntiva si può notare che lo schema prevede
• l’annotazione del ‘grado’ dell’aggettivo come sottocategoria classificatoria,
• una serie di sottocategorie specifiche per l’annotazione
o dei numeri con funzione aggettivale (vedi la parte relativa ai numerali)
o dei participi con funzione aggettivale.
Lo schema prevede inoltre una categoria sottospecificata “aggettivo/nome”, che comprende le
sottocategorie riportate nella seguente tabella:
Etichetta
an:comp
an:e
an:ico
an:ind
an:io
an:min
an:num:car
an:num:ord
an:o
an:sup
an:sup:min
an:sup:ord
an:sup:t
an:z
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
adj+nome
Descrizione
maggioranza
classe
classe
indef
classe
minoranza
numerale
numerale
classe
superlativo
superlativo
superlativo
superlativo
invar
-e
-ico
-io
cardinale
ordinale
-o
minoranza
ordinale
temporale
Esempio
maggiore
folle
generico
diverso
medio
minore
novanta
novantesimo
novello
massimo
minimo
ultimo
postumo
pop
Come descritto in dettaglio nella parte relativa ai nomi, lo schema prevede inoltre una serie di
sottocategorie per l’annotazione di nomi che svolgono la funzione di ‘aggettivi predicativi’ aggettivi
participi presenti’.
Lo schema prevede inoltre l’assegnazione di tratti morfologici (MFEATS) secondo la
classificazione di tali tratti proposta in generale.
In Dialoghi_Annotati per l’italiano parlato la categoria “aggettivo”, assegnata per la classificazione
di aggettivi ‘qualificativi’, comprende le tre seguenti sottocategorie:
• aggettivo “possessivo”,
• aggettivo “straniero”.
Il simbolo L è assegnato per annotare la presenza di un aggettivo ‘qualificativo’ (AL@) o
‘straniero’ (AWL@) in locuzione.
In tutti i casi, il simbolo @ è seguito da tratti di sottocategorizzazione morfologica e, nel caso
dell’aggettivo qualificativo, dall’indicazione esplicita del ‘grado’.
In CiT per l’italiano parlato televisivo la categoria “aggettivo” comprende le seguenti
sottocategorie:
30
ADJ
ADJ:demo
ADJ:escl
ADJ:indef
ADJ:inter
ADJ:poss
Sottocategoria classificatoria
aggettivo
aggettivo
dimostrativo
aggettivo
esclamativo
aggettivo
indefinito
aggettivo
interrogativo
aggettivo
possessivo
Esempio
libero, europeo, due
questo, quello
che (in "che fame!")
alcuni, altri, molti, tutti
che, quale
mio, tuo
Non sono previsti tratti morfologici associati nè l’indicazione esplicita del ‘grado’ dell’aggettivo.
31
3.2
Avverbi
Presenza di sottocategorie
classificatorie
Grado
Dimensione
polirematica
EAGLES
-
+
-
LaRepubblica
+
-
-
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
+
-
+
+
-
+
-
+
+
-
AVIP/API
-
-
-
VIT
Dialoghi_Annotati
CiT
+
+
-
+
+
-
Schema di annotazione
Altro
categoria “NEG”
categoria “WH”
categoria “frasale”
categoria “RELATIVE”
Tabella 1
32
categoria “unico”
categoria “discourse marker”
-
Schema di annotazione
EAGLES LaRep.
-mente
TUT
C./C.
CoLFIS NUNC
distribuz.
Affermativo
Sottocategorie
classificatorie
-
Altri tratti
classificatori
-
-
-
Lablita A./A.
VIT
D.A.
Frasale
Particella
clitica
-
-
-
-
-
-
Tabella 2
* Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste.
33
-
CiT
Avverbio +
clitico
Interrogativo
Generale
Avversativo
Comparativo
Dubitativo
Interrogativo
Di limitazione
Di luogo
Di modo
Di negazione
Di
quantificazione
Di
motivazione
Di intensità
Superlativo
Di tempo
CT
-
-
*
-
-
-
-
“marcatore
del
discorso”
-
In EAGLES con la categoria “avverbio” sono classificati tutti i tipi di avverbi.
Lo schema prevede anche una classificazione del ‘grado’ dell’avverbio articolata nelle seguenti
sottocategorie:
• avverbio positivo (es. bene, fortemente),
• avverbio comparativo (es. meglio),
• avverbio superlativo (es. benissimo, fortissimamente).
In LaRepubblica è prevista
• un’etichetta generale ADV (“avverbio”) per l’annotazione degli avverbi,
• un’etichetta di sottocategorizzazione classificatoria “ADV:mente” per l’annotazione degli
avverbi che terminano in –mente.
È da tenere in considerazione, inoltre, il fatto che tale schema di annotazione prevede l’esistenza di
una categoria “WH”, assegnata a tutte le occorrenze di parole per lo più interrogative, relative,
indefinite, comparative, il cui equivalente in lingua inglese presenta il grafema wh, a prescindere
dalla categoria morfosintattica della parola.
È inoltre da tenere in considerazione il fatto che lo schema di annotazione prevede la categoria
“negazione” (NEG) per la classificazione della parola non.
In TUT la categoria “avverbio” (ADV) comprende le seguenti sottocategorie classificatorie:
Tipo di sottocategoria
Affermativo
Avversativo
Comparativo
Dubitativo
Interrogativo
Di limitazione
Di luogo
Di modo
Di negazione
Di quantificazione
Di motivazione
Di intensità
Superlativo
Di tempo
Esempi
Certo
Anzi, però
Più, meglio, peggio, così
Forse
Come, dove, perché
Solo, soltanto
Sopra, intorno, lassù, sottoterra
Così, volentieri, -mente
Non, senza, nemmeno, neanche
Meno, circa, assai, troppo
Infatti, quindi
Persino, perfino, anche
Benissimo
Poi, prima, ormai, spesso
Lo schema di annotazione prevede inoltre la categoria “frasale” per la classificazione di profrasi del
tipo sì, no.
Inoltre, in TUT è prevista l’annotazione di parole polirematiche aggettivali, articolata su due livelli
di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti dal
corpus di testi giornalistici, si può vedere che espressioni polirematiche avverbiali come
d’_ora_innanzi, in_sostanza, un_po’ sono etichettate come un unico elemento LOCUTION già a
livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION segue le etichette
della categoria morfosintattica “avverbio” (ADV) e di quelle di sottocategorizzazione classificatoria
corrispondenti. Come specificato nei criteri di annotazione relativi al trattamento della dimensione
polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di locuzione.
Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di locuzioni fisse.
d' (d'ora_innanzi ADV TIME LOCUTION) [27;ADVB-RMOD-TIME]
ora (d'ora_innanzi ADV TIME LOCUTION) [23;CONTIN+LOCUT]
34
innanzi (d'ora_innanzi ADV TIME LOCUTION) [24;CONTIN+LOCUT]
In (IN_SOSTANZA ADV MANNER LOCUTION) [8;ADVB-RMOD-CONJTEXT]
sostanza (IN_SOSTANZA ADV MANNER LOCUTION) [1;CONTIN+LOCUT]
un (un_po' ADV QUANT LOCUTION) [15;ADVB+QUANTIF-RMOD]
po' (un_po' ADV QUANT LOCUTION) [13;CONTIN+LOCUT]
Per la classificazione degli avverbi in CORIS/CODIS_distribuzionale non è prevista alcuna
modifica di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita
descrizione dello schema in merito.
Tuttavia, lo schema comprende anche la categoria RELATIVE per la classificazione di pronomi e
avverbi che introducono frasi relative ad un livello di analisi sintattica del testo (vedi la parte
relativa ai pronomi), come ad esempio dove nella seguente frase, … vicino all’università dove nel
’90 scoppiò la rivolta …
In CoLFIS è prevista un’unica etichetta di classificazione degli avverbi.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo avverbiale”, come ad esempio qua
e là, quanto al, può darsi, a furor di popolo, a più non posso, in auge22 sia associata l’etichetta B@.
In NUNC l’etichetta ADV (“avverbio”) è assegnata a tutti i tipi di avverbio. Non è prevista pertanto
alcuna etichetta di sottocategorizzazione classificatoria.
In CT la categoria “avverbio” comprende le seguenti sottocategorie:
• “ADV.gn” per la classificazione degli avverbi che modificano un’unità lessicale predicativa
in generale;
• “ADV.pp” per la classificazione degli avverbi ‘frasali’, che hanno una funzione simile a
quella delle congiunzioni fungendo da elementi connettivi tra frasi;
• “ADV.pc”, per la classificazione di particelle clitiche con funzione avverbiale, anche in
posizione enclitica (vedi la parte generale relativa al trattamento degli elementi
«grafoclitici» in CT).
Per i criteri di annotazione delle espressioni polirematiche avverbiali previste dallo schema di
annotazione vedi la parte generale relativa.
Lo schema Lablita per l’italiano parlato coincide con NUNC per l’italiano scritto. Pertanto, è
previsto che venga assegnata l’etichetta ADV (“avverbio”) a tutti i tipi di avverbio senza nessuna
sottocategoria.
In AVIP/API per l’italiano parlato l’etichetta unica AV è assegnata agli avverbi, senza alcuna
etichetta di sottocategorizzazione classificatoria.
È inoltre previsto che sia assegnata la categoria “discourse marker” (DM) a quelle parole che, pur
classificabili come “avverbi”, tuttavia svolgono una funzione diversa nella lingua parlata, rispetto a
quella scritta, segnando passaggi all’interno di un discorso (vedi la parte relativa alle congiunzioni e
alle interiezioni).
Lo schema comprende, infine, la categoria “unico” per la classificazione delle occorrenze di “ci/ce”
esistenziale. Tale categoria è assegnata a classi di parole molto ridotte e specializzate come le parole
sì, non, non.
22
Gli esempi sono stati estratti direttamente dal corpus annotato.
35
Come stabilito nei criteri di annotazione, non è prevista la possibilità di annotare la dimensione
polirematica.
In VIT la categoria “avverbio” comprende le seguenti sottocategorie:
Etichetta
avv:l
avv:mn
avv:neg
avv:q
avv:r
avv:mn:min
avv:mn:sup
avv:t
avv:t:min
avv:t:sup
avv:td
avv:ti
Descrizione
locativo
maniera
negativo
quantificato
relazionale
maniera
maniera
temporale
temporale
temporale
temporale
temporale
Esempio
minoranza
superlativo
minoranza
superlativo
deittico
iterativo
Qua
piano
affatto
Poco
simile
adagino
adagissimo
presto
prestino
prestissimo
stanotte
spesso
È da sottolineare che in questo tipo di classificazione il ‘grado’ dell’avverbio è classificato come
una sottocategoria.
Per l’annotazione delle locuzioni di tipo avverbiale è inoltre previsto l’uso di una serie di etichette
di sottocategorizzazione classificatoria, sottocategorie di una categoria morfosintattica generale
“locuzione” (LOC) dedicata all’annotazione anche di espressioni polirematiche di tipo congiuntivo
e preposizionale (vedi 3.3 e 3.7). Per quanto riguarda la classificazione delle espressioni
polirematiche avverbiali, la categoria “locuzione” comprende le seguenti sottocategorie:
Etichetta
loc:avv
loc:avv:P
Descrizione
avverbio
avverbio
Esempio
inintermediari
insaputa (all)
Inoltre, tra i tratti di sottocategorizzazione classificatoria (SFEATS) generali descritti nello schema
di annotazione è prevista un’etichetta per l’annotazione di locuzioni avverbiali (“avvl”).
In Dialoghi_Annotati per l’italiano parlato la categoria “avverbio” non prevede alcuna
sottocategoria classificatoria.
È inoltre prevista la classificazione di espressioni formate da più di una parola, come ad esempio
“di qua”, “di sopra”, come un elemento unico annotato con l’etichetta BL@ (“avverbio in
locuzione”).
Come per la categoria delle congiunzioni e interiezioni, anche nel caso di avverbi che occorrono in
contesti particolari, specifici dell’italiano parlato, per esempio isolatamente in un turno o in
posizione iniziale o finale di turno, viene assegnata l’etichetta MD (“marcatore del discorso”) dopo
il simbolo @.
In CiT per l’italiano parlato televisivo la categoria degli avverbi comprende le seguenti etichette di
sottocategorizzazione classificatoria:
• “ADV”, assegnata a tutti i tipi di avverbi,
• “ADV:cli”, assegnata ai nessi ‘avverbio + clitico’ in enclisi (es. eccoci),
• “ADV:inter”, assegnata agli avverbi interrogativi (es. perché).
36
3.3
Congiunzioni
Presenza di sottocategorie
classificatorie
Dimensione
polirematica
Altro
EAGLES
+
-
-
LaRepubblica
-
-
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
+
+
-
-
+
+
+
+
+
+
+
+
-
Schema di annotazione
Tabella 1
37
categoria “CHE”
categoria “WH”
categoria “coordinatore”
categoria “subordinatore”
categoria “discorse marker”
-
Schema di annotazione
EAGLES
Sottocategorie
classificatorie
Altri tratti
classificatori
LaRep.
Coordinante
Subordinante
-
-
-
TUT
Coordinativa
Subordinativa
Comparativa
Tipo
semantico
della
congiunzione
C./C.
CoLFIS NUNC
distribuz.
CT
-
-
-
Coordinante
Subordinante
-
-
-
-
Tabella 2
* Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste.
38
Lablita A./A.
VIT
-
-
*
-
-
-
D.A.
CiT
Coordinativa Coordinante
Subordinativa Subordinante
“marcatore
del discorso”
-
In EAGLES la categoria “congiunzione” comprende le due seguenti sottocategorie:
• “coordinante”,
• “subordinante”.
In LaRepubblica è prevista un’unica etichetta di classificazione delle congiunzioni (CON). Sono
inoltre previste altre due categorie assegnabili a parole che possono appartenere a questa categoria
morfosintattica:
• la categoria “CHE” assegnata a tutte le occorrenze della parola che a prescindere dalla
categoria morfosintattica, come nel caso di Dico subito che, quello che si è detto, più ancora
che scottante, tanto vale che, è che23;
• la categoria “WH” assegnata a tutte le occorrenze di parole per lo più interrogative, relative,
indefinite, comparative, il cui equivalente in lingua inglese presentano il grafema wh. È
importante sottolineare che anche in questo caso tale etichetta è assegnata a prescindere
dalla categoria morfosintattica della parola.
In TUT la categoria “congiunzione” comprende le seguenti sottocategorie classificatorie:
• “congiunzione coordinativa”,
• “congiunzione subordinativa”,
• “congiunzione comparativa”, per la classificazione di congiunzioni in contesti del tipo
piuttosto che, non più di cinque, ecc…
Inoltre per ogni congiunzione è annotato anche il ‘tipo semantico’, secondo la seguente lista
predefinita di tipi:
Tipo semantico
Caus
Manner + time
Tempo
Loc
Conc
Reason
Caus + reason
Advers
Caus
Cond
Fin
Neutral
Esempio
poiché
come
dopo
dove
nonostante
per
perché
ma
poiché
se
sicchè
che
Inoltre, in TUT è prevista l’annotazione di parole polirematiche di tipo congiuntivo, articolata su
due livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono,
estratti dal corpus di testi giornalistici, si può vedere che espressioni polirematiche di tipo
congiuntivo subordinante come in_modo_da, dato_che sono etichettate come un unico elemento
LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION
segue le etichette della categoria morfosintattica (CONJ), del tratto di sottocategorizzazione
classificatoria (SUBORD) e del tipo semantico (REASON, CAUS). Come specificato nei criteri di
annotazione relativi al trattamento della dimensione polirematica, è poi al livello di annotazione
sintattica che viene specificato il tipo di locuzione. Negli esempi riportati di seguito l’etichetta
CONTIN+LOCUT indica che si tratta di locuzioni fisse.
23
Gli esempi sono stati estratti direttamente dal corpus annotato.
39
in (IN_MODO_DA CONJ SUBORD REASON LOCUTION) [24;PREP-RMOD-MEANSMANNER]
modo (IN_MODO_DA CONJ SUBORD REASON LOCUTION) [36;CONTIN+LOCUT]
da (IN_MODO_DA CONJ SUBORD REASON LOCUTION) [37;CONTIN+LOCUT]
dato (DATO_CHE CONJ SUBORD CAUS LOCUTION) [10;VERB+INF-RMOD-REASONCAUSE]
che (DATO_CHE CONJ SUBORD CAUS LOCUTION) [17;CONTIN+LOCUT]
CORIS/CODIS_distribuzionale non prevede una categoria “congiunzione”, ma piuttosto due
categorie distinte:
• una categoria “coordinatore”, assegnata alle parole che uniscono due o più strutture
connesse in modo non gerarchico tra loro, come ad esempio nel caso di e, o, ma, ecc…;
• una seconda categoria “subordinatore”, assegnata a parole che uniscono due frasi connesse
in modo gerarchico tra loro; questa categoria prevede due sottocategorie classificate con le
seguenti etichette:
o l’etichetta SUB_ADJ (“subordinator adjunct”), assegnata a parole che svolgono una
funzione subordinante in generale, come nel caso di quando, perché, ecc…,
o l’etichetta SUB_ARG (“subordinator argument”), assegnata a parole che
introducono una frase subordinata dipendente da un verbo, come nel caso ad
esempio quando nella frase … si applicano anche quando si tratta di togliere un
ingombro …; è importante sottolineare che tale etichetta viene assegnata anche a
parole che, pur svolgendo una funzione subordinante di complemento del verbo, non
appartengono solo alla categoria morfosintattica delle congiunzioni (vedi parte sulle
“preposizioni”).
CoLFIS prevede un’unica etichetta di classificazione delle congiunzioni.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo congiuntivo”, come ad esempio
tanto più che, una volta che, anche se, in modo tale che24 sia associata l’etichetta C@.
In NUNC viene assegnata l’etichetta CON (“congiunzione”) a tutti i tipi di congiunzioni. Non è
prevista pertanto alcuna etichetta di sottocategorizzazione classificatoria né sono disponibili criteri
di annotazione delle espressioni polirematiche.
In CT la categoria “congiunzione” comprende le due seguenti sottocategorie:
• congiunzione “coordinante”,
• congiunzione “subordinante”.
Per i criteri di annotazione delle espressioni polirematiche previsti dallo schema vedi la parte
generale relativa.
Lablita per l’italiano parlato coincide con NUNC per l’italiano scritto. Pertanto, viene assegnata
l’etichetta CON (“congiunzione”) a tutti i tipi di congiunzioni senza alcuna etichetta di
sottocategorizzazione classificatoria.
In AVIP/API_a per l’italiano parlato è previsto che venga assegnata l’etichetta unica C alle
congiunzioni, senza alcuna etichetta di sottocategorizzazione classificatoria. È inoltre previsto che
venga assegnata la categoria “discourse marker” (DM) a quelle parole che, pur classificabili come
“congiunzioni”, tuttavia svolgono una funzione diversa nella lingua parlata, rispetto a quella scritta,
segnando passaggi all’interno di un discorso (vedi la parte relativa agli avverbi).
24
Gli esempi sono stati estratti direttamente dal corpus annotato.
40
Come stabilito nei criteri di annotazione, non è prevista la possibilità di annotare la dimensione
polirematica.
In AVIP/API_b per l’italiano parlato le congiunzioni sono classificate nel modo seguente:
• la categoria “congiunzione”,
• la categoria “congiunzione frasale”,
• la categoria “congiunzione subordinante”.
Ciascuna delle precedenti categorie prevede un sistema di etichette di sottocategorizzazione
classificatoria.
In particolare, la categoria “congiunzione” comprende le seguenti sottocategorie:
Etichetta
cong:av
cong:caus
cong:comp
cong:conc
cong:dis
cong:ecc
cong:exp
cong:l
cong:neg
cong:ott
cong:par
cong:pk
cong:pri
cong:qt
cong:sum
cong:t
cong:tdur
cong:ts
cong:tt
Descrizione
avversativa
causale
comparativa
concessiva
disgiuntiva
eccettuativa
esplicativa
locativa
negativa
ottativa
parallela
k
privativa
quantificata
sommativa
temporale
temporale
temporale
temporale
Temporale
Durativa
Successione
Telica
Esempio
Bensì
Perché
Come
Comunque
o
fuorché
ossia
dove
nemmeno
almeno
mentre
che
senza
ogniqualvolta
oltreché
finché
sinché
dopodiché
appena
La categoria “congiunzione frasale” comprende le seguenti sottocategorie:
Etichetta
congf:av
congf:caus
congf:conc
congf:cons
congf:ecc
congf:exp
congf:ott
congf:par
congf:pres
congf:ra
congf:sum
congf:t
congf:tp
congf:ts
Descrizione
avversativa
causale
concessiva
consecutiva
eccettuativa
esplicativa
ottativa
parallela
presentativa
finale
sommativa
temporale
temporale
temporale
precedenza
successione
41
Esempio
viceversa
stanteché
tuttavia
così
tranneché
infatti
magari
intanto
ecco
perciò
inoltre
frattanto
prima
poi
La categoria “congiunzione subordinante” comprende le seguenti sottocategorie:
Etichetta
cosu:av
cosu:caus
cosu:conc
cosu:cond
cosu:par
cosu:ra
subord
subord
subord
subord
subord
subord
Descrizione
avversativa
causale
concessiva
condizionale
parallela
finale
Esempio
anziché
perché
sebbene
se
allorquando
poiché
Per l’annotazione delle locuzioni di tipo congiuntivo è inoltre previsto l’uso di una serie di etichette
di sottocategorizzazione classificatoria, sottospecificazioni di una categoria morfosintattica generale
“locuzione” (LOC) dedicata all’annotazione anche di espressioni polirematiche di tipo avverbiale e
preposizionale (vedi la parte relativa agli avverbi e alle preposizioni). Per quanto riguarda la
classificazione delle espressioni polirematiche di tipo congiuntivo, la categoria “locuzione”
comprende le seguenti sottocategorie:
Etichetta
loc:cong:av
loc:cong:caus
loc:cong:cond
loc:cong:cons
loc:cong:ecc
loc:cong:par
loc:cong:pres
loc:cong:pri
loc:cong:sum
loc:cong:t
loc:cong:tdur
loc:cong:tp
loc:cong:ts
loc:cosu:pre
Descrizione
avversativa
causale
condizionale
consecutiva
eccettuativa
parallela
presentativa
privativa
summativa
temporale
temporale
temporale
temporale
subord
Esempio
piuttosto che
supposto che
patto (a patto che)
tale che
tranne che
intanto che
ecco che
senza che
pur che
fintanto che
durativa
sintanto che
precedenza
prima che
successione
dopo che
precondizione ammesso che
In Dialoghi_Annotati per l’italiano parlato la classe morfosintattica delle congiunzioni è
contraddistinta dal simbolo C seguito dalle etichette di sottocategorizzazione classificatoria
• CC@ (“congiunzione subordinativa”)
• CS@ (“congiunzione subordinativa”).
In entrambi i casi, un ulteriore simbolo L è assegnato per annotare la presenza di una congiunzione
coordinativa in locuzione (CCL@) o di una congiunzione subordinativa in locuzione (CSL@).
Come per la categoria degli avverbi e delle interiezioni, anche nel caso di congiunzioni che
occorrono in contesti particolari, specifici dell’italiano parlato, per esempio isolatamente in un turno
o in posizione iniziale o finale di turno, viene assegnata l’etichetta MD (“marcatore del discorso”)
dopo il simbolo @.
In CiT per l’italiano parlato televisivo la categoria “congiunzione” comprende le seguenti
sottocategorie:
• congiunzione “coordinante”,
• congiunzione “subordinante”.
42
3.4
Schema di
annotazione
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
Articoli e determinanti (determinatori)
Categorie specifiche per l’annotazione di elementi che esprimono determinazione
Categoria: ‘determinante’
Categoria: ‘articolo’
Categoria: ‘predeterminante’
Presenza di
sottocategorie
classificatorie
Presenza di
sottocategorie
classificatorie
Presenza di
sottocategorie
classificatorie
Presenza di
tratti
morfologici
+
+
-
+
+
-
+
+
+
+
+
+
+
-
+
+
-
-
-
-
-
-
-
+
*
+
*
+
+
+
+
+
+
+
+
+
+
+
+
-
+
+
+
-
+
-
-
+
+
+
-
Tabella 1
43
Schema di annotazione
EAGLES
Possessivo
Dimostrativo
Sottocategorie
Interrogativo
classificatorie
Relativo
Indefinito
LaRep.
TUT
Possessivo
Dimostrativo
Indefinito
Numerale
wh
C./C.
CoLFIS
distribuz.
NUNC
CT
Definito
Indefinito
-
-
-
Lablita
A./A.
VIT
Definito
Indefinito
-
-
-
D.A.
CiT
Dimostrativo Definito
Interrogativo Indefinito
Relativo
Indefinito
Esclamativo
Tabella 2: Sottocategorie della categoria ‘determinante’
Schema di annotazione
EAGLES
Sottocategorie
classificatorie
LaRep.
TUT
Preposizione
Definito
+ articolo
Indefinito
Indefinito
Definito
C./C.
CoLFIS NUNC
distribuz.
-
-
-
CT
Determinativo
Indeterminativo
Tabella 3: Sottocategorie della categoria ‘articolo’
44
Lablita A./A.
-
-
VIT
Definito
D.A.
Definito
Indefinito Indefinito
CiT
-
In EAGLES coesistono due categorie morfosintattiche rispetto alle quali vengono classificati le
parole che esprimono determinazione: la categoria “determinante” e la categoria “articolo”.
Entrambe comprendono una serie di etichette di sottocategorizzazione classificatoria.
Alla categoria “determinante” sono associate le seguenti sottocategorie:
• “possessivo” (es. mio, tuo, nostro, ecc…);
• “dimostrativo” (es. questo, codesto, quello);
• “indefinito”;
• “interrogativo” (es. che, quale);
• “relativo” (es. cui, quanto, ecc…);
• “esclamativo” (es. che, quale, quanto, ecc..).
La categoria “articolo” sussume le seguenti sottocategorie:
• “definito” (es. il, lo, gli, ecc..),
• “indefinito” (es. un, uno, ecc..).
A ciascuna sottocategoria sono associati rispettivi tratti di sottocategorizzazione morfologica
relativi al ‘genere’ e alla ‘persona’.
Anche in LaRepubblica coesistono le due categorie morfosintattiche “determinante” e “articolo”.
Tuttavia, sono sottocategorizzate in modo differente rispetto allo standard EAGLES. In particolare,
la categoria “determinante” comprende le seguenti sottocategorie:
• “dimostrativo”,
• “indefinito”,
• “numerale”,
• “possessivo”,
• “wh”, sottocategoria classificatoria assegnata a parole determinanti il cui equivalente in lingua
inglese presenta il grafema wh, del tipo quanta, qualunque, quante, ecc…
La categoria “articolo” è associata agli articoli sia determinativi sia indeterminativi e comprende la
sottocategoria “preposizione + articolo”.
Non sono previsti tratti di sottocategorizzazione morfologica.
In TUT le categorie previste per l’annotazione di elementi che esprimono determinazione sono:
• la categoria “articolo”, che comprende le sottocategorie
o “definito”,
o “indefinito”;
• la categoria “predeterminante”, assegnata a parole che svolgono la funzione di modificatori
‘quantitativi’ di un determinante, come ad esempio in tutte le stazioni, ambedue i suoi
argomenti, ecc..
Ad entrambe le categorie sono attribuiti tratti di sottocategorizzazione morfologica.
Per quanto riguarda l’annotazione degli elementi che esprimono determinazione,
CORIS/CODIS_distribuzionale non prevede una classificazione in categorie morfosintattiche
direttamente confrontabili con gli altri schemi di annotazione presi in considerazione.
Tuttavia, nello schema è inclusa la categoria “argument-operator” (ARG), che include tutte quelle
parole che svolgono dal punto di vista distribuzionale una funzione simile a quella di determinanti,
introducendo strutture argomentali dipendenti per lo più da verbi. Tale categoria comprende le
seguenti sottocategorie:
• “argument-operator_determiner” (ARG_DET), che include parole propriamente
‘determinanti’ come ad esempio nel caso di il e mio nelle seguenti frasi, … il
comportamento dei pm …, l’unica volta che mio padre mi portò al cinema …
• “argument-operator_preposition” (ARG_PREP) (vedi la parte relativa alle preposizioni).
Non sono in nessun caso previsti tratti di sottocategorizzazione morfologica.
45
In CoLFIS è prevista un’unica etichetta di classificazione per la categoria “articolo”, senza alcuna
sottocategoria classificatoria né alcun tratto morfologico associato.
NUNC prevede che l’unica categoria associata a elementi che esprimono determinazione sia quella
di “determinante” sottocategorizzata in:
• “definito”,
• “indefinito”.
Tale categoria include soltanto articoli determinativi e indeterminativi ai quali non sono associati
tratti morfologici.
In CT a elementi che esprimono determinazione sono associate le due seguenti categorie:
• la categoria “articolo”, che comprende le due seguenti sottocategorie
o “determinativo”,
o “indeterminativo”;
• la categoria “pronome-determinante” (vedi la parte relativa ai pronomi) attribuita sia a
pronomi sia a ‘determinanti’.
Lo schema prevede tratti morfologici associati alla categoria “articolo” relativi al ‘genere’ e del
‘numero’ dell’articolo corrispondente.
Lo schema Lablita per l’italiano parlato coincide con quello NUNC per l’italiano scritto. Pertanto,
gli elementi che esprimono determinazione sono classificati nello stesso modo.
In AVIP/API per l’italiano parlato gli elementi che esprimono determinazione sono classificati
rispetto a due categorie:
• la categoria “pronome/determinatore”, attribuita a parole del tipo te, questo, lo, ecc..;
• la categoria “articolo”, attribuita ad articoli sia determinativi sia indeterminativi.
Come stabilito nei criteri di annotazione, non sono state assegnate etichette di sottocategorizzazione
morfologica
In VIT è prevista un’unica categoria “articolo”, che sussume le due seguenti sottocategorie:
• “definito”,
• “indefinito”.
Lo schema prevede inoltre l’assegnazione di tratti morfologici (MFEATS) secondo la
classificazione di tali tratti proposta in generale.
In Dialoghi_Annotati per l’italiano parlato gli elementi che esprimono determinazione sono
classificati rispetto a due categorie:
• la categoria “determinante”, che comprende le seguenti sottocategorie:
o dimostrativo,
o interrogativo,
o relativo,
o indefinito,
o esclamativo;
• la categoria “articolo”, che comprende le due seguenti sottocategorie:
o determinativo,
o indeterminativo.
A ciascuna sottocategoria sono attribuiti tratti morfologici specifici.
Come in NUNC per l’italiano scritto e in Lablita per l’italiano parlato, anche in CiT per l’italiano
parlato televisivo l’unica categoria associata a elementi che esprimono determinazione è quella di
“determinante” che comprende le due seguenti sottocategorie:
46
• “definito”,
• “indefinito”.
Anche secondo questo schema, tale categoria include soltanto articoli determinativi e
indeterminativi ai quali non sono associati tratti morfologici.
47
3.5
Interiezioni
Categoria: ‘interiezione’
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
Dimensione
polirematica
Presenza di
sottocategorie
classificatorie
Atri tratti
classificatori
+
+
-
-
-
-
-
-
-
+
+
+
+
+
+
-
Schema di annotazione
+
-
+
Tabella 1
48
‘pausa piena a
componente
nasale’
‘pausa piena a
componente
vocale’
‘vocalizzazione
di prompting’
‘marcatore del
discorso’
-
+
+
-
In EAGLES è previsto che alla categoria “interiezione” non sia associata alcuna sottocategoria
classificatoria.
In LaRepubblica non è prevista alcuna categoria per la classificazione di parole con valore
interiettivo (vedi la parte relativa ai criteri di annotazione delle categorie residue).
In TUT alla categoria “interiezione” non sono associate sottocategorie classificatorie, né sono
previsti casi di annotazione di espressioni polirematiche di tipo interiettivo.
Per quanto riguarda l’annotazione di parole con valore interiettivo, CORIS/CODIS_distribuzionale
non prevede alcuna categoria morfosintattica per la classificazione di questo tipo di parole.
In CoLFIS è prevista un’unica etichetta di classificazione delle interiezioni.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo interiettivo”, come ad esempio
Mamma mia, oh bella, in bocca al lupo25 sia associata l’etichetta I@.
In NUNC e in CT la categoria “interiezione” non prevede alcuna sottocategoria. A differenza di
NUNC, CT prevede l’annotazione di espressioni interiettive polirematiche (vedi la parte generale
relativa ai criteri di annotazione adottati da tale schema).
Lo schema Lablita per l’italiano parlato segue quanto previsto da NUNC per la classificazione di
parole con valore interiettivo.
Sia in AVIP/API sia in VIT è previsto che le parole con valore interiettivo siano classificate con la
categoria “interiezione”.
Dialoghi_Annotati per l’italiano parlato prevede che la categoria “interiezione” comprenda tre tratti
classificatori, come illustrato nella seguente tabella:
Etichetta
Descrizione
Esempio
I@PN
pausa piena a componente nasale
mm, ehm, ecc.
I@PV
pausa piena a componente vocale aah, eeh, ooh, ecc.
I@VP
vocalizzazione di prompting
mh, eh?, ah!, ecc.
Come anche nel caso delle “congiunzioni” e degli “avverbi” (vedi le parti relative), anche alla
categoria “interiezioni” lo schema prevede la possibilità di associare il tratto classificatore
“marcatore del discorso”, per marcare quando le parole appartenenti a tali categorie occorrono in
contesti particolari, per esempio isolatamente in un turno o in posizione iniziale o finale di turno.
CiT per l’italiano parlato televisivo prevede che le interiezioni siano classificate rispetto all’unica
categoria “interiezione”.
25
Gli esempi sono stati estratti direttamente dal corpus annotato.
49
3.6
Schema di
annotazione
EAGLES
LaRepubblica
TUT
CORIS/ CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
Numerali
Categorie specifiche per l’annotazione di numeri
Categoria: ‘numerale’
Categoria: ‘numero’
Presenza di
sottocategorie
classificatorie
Presenza di
sottocategorie
classificatorie
Altra
categoria
Presenza di
tratti
morfologici
Dimensione
polirematica
+
-
+
-
+
+
-
“Data”
+
-
-
+
+
+
+
+
+
-
+
-
-
-
-
+
+
-
-
Tabella 1
50
Schema di annotazione
EAGLES
Sottocategorie
classificatorie
LaRep.
C./C.
TUT
CoLFIS
distribuz.
Cardinale
Ordinale
NUNC
CT
Lablita
A./A.
-
Cardinale
Ordinale
-
-
-
VIT
D.A.
CiT
Cardinale
Ordinale
Tabella 2: Sottocategorie della categoria ‘numerale’
Schema di annotazione
EAGLES
Sottocategorie
classificatorie
LaRep.
TUT
-
-
C./C.
CoLFIS
distribuz.
NUNC
CT
Lablita
Tabella 2: Sottocategorie della categoria ‘numero’
51
A./A.
VIT
D.A.
CiT
In EAGLES alla categoria “numerale” sono associate le due seguenti sottocategorie:
• numerale “cardinale”,
• numerale “ordinale”.
È previsto che vengano assegnati tratti di morfologici relativi al ‘genere’ e al ’numero’ del
numerale.
LaRepubblica prevede la categoria “numero”.
Per l’annotazione di elementi numerali vedi anche la parte relativa agli “articoli” e “determinanti” e
quella relativa ai “pronomi”.
TUT prevede la categoria “numero”. Per l’annotazione dei numeri ordinali vedi la parte relativa agli
aggettivi.
Lo schema prevede inoltre che le date, quando riconosciute in fase di segmentazione
(tokenizzazione) del testo in unità-parola, siano annotate come un unico elemento con l’etichetta
DATE (“data”). Ad esempio, 10/5/98 è riconosciuto come un unico elemento, mentre alla data 10
maggio 1998 sono assegnate tre etichette distinte, cioè “numero”, “nome” e “numero”.
Per quanto riguarda l’annotazione dei numeri, lo schema di annotazione distribuzionale con il quale
è stato annotato il corpus CORIS/CODIS non fornisce sufficienti indizi di analisi dal momento che
non include una classificazione in categorie morfosintattiche direttamente confrontabili con gli altri
schemi di annotazione presi in considerazione.
CoLFIS prevede la categoria “numerale”, senza alcuna etichetta di sottocategorizzazione né
classificatoria né morfologica.
In NUNC alla categoria “numerale” non sono associate etichette di sottocategorizzazione
classificatoria né morfologica.
In CT la categoria “numerale” comprende le due seguenti sottocategorie:
• numerale “cardinale”,
• numerale “ordinale”.
Sono previste etichette di sottocategorizzazione morfologica relative al ‘genere’ e al ‘numero’ del
numerale.
Lo schema di annotazione Lablita per l’italiano parlato prevede la categoria “numerale” senza
alcuna etichetta di sottocategorizzazione classificatoria né morfologica.
Lo schema AVIP/API per l’italiano parlato prevede che ai numerali sia associata la categoria
“numerale”, senza alcun tratto morfologico relativo.
Lo schema VIT non prevede una categoria morfologica specifica per l’annotazione dei numerali.
Per l’annotazione di tale informazione vedi le parti relative agli “aggettivi” e ai “pronomi”.
Inoltre, tra le sottocategorie classificatorie generali (SFEATS) descritte nello schema di annotazione
è prevista un’etichetta di sottocategorizzazione classificatoria per l’annotazione di
• date (“date”),
• numeri indicatori di sezioni (“sect”).
In Dialoghi_Annotati per l’italiano parlato i numerali sono classificati con la categoria “numerale”
che comprende le due seguenti sottocategorie:
• numerale “cardinale”,
• numerale “ordinale”.
52
È inoltre previsto che vengano assegnati tratti di morfologici relativi al ‘genere’ e al ’numero’ del
numerale.
In CiT per l’italiano parlato televisivo non è prevista alcuna etichetta di classificazione dei
numerali.
53
3.7
Schema di annotazione
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
Preposizioni
Presenza di sottocategorie
classificatorie
+
+
Presenza di tratti
morfologici
+
-
Dimensione
polirematica
+
+
-
-
+
+
+
+
-
+
+
-
+
+
+
+
-
Tabella 1
54
Altro
Categoria “Subordinator”
Categoria “Argument-operator”
-
Schema di annotazione
C./C.
EAGLES LaRep.
TUT
CoLFIS
distribuz.
Semplice
Monosillabica Polisillabica
Complemento
Sottocategorie Articolata
Polisillabica
del nome
classificatorie
Complemento
del verbo
NUNC
Sottocategorie
classificatorie
CT
Schema di annotazione
Lablita
A./A.
VIT
Articolata Preposizione
Posposizione
D.A.
Articolata Articolata
-
Tabella 2
55
-
CiT
Preposizione
+ articolo
In EAGLES la categoria morfosintattica delle “preposizioni” rientra nella macro-categoria delle
“adposizioni”. In base ai criteri di classificazione è previsto che la categoria comprenda le due
seguenti sottocategorie:
• preposizioni semplici (“simple”),
• preposizioni articolate (“fused”).
Nel caso della sottocategoria classificatoria “preposizione articolata” sono inoltre previste etichette
di sottocategoria morfologica relative al ‘genere’ e al ‘numero’.
In LaRepubblica è prevista un’unica categoria “preposizione” per la classificazione delle
preposizioni. Per l’annotazione delle preposizioni articolate vedi la parte relativa all’annotazione di
articoli e determinanti.
In TUT la categoria “preposizione”comprende le due seguenti sottocategorie:
• “preposizione monosillabica”, assegnata alle preposizioni semplici del tipo di, a, da, ecc…,
• “preposizione polisillabica”, assegnata alle preposizioni del tipo attorno, accanto, prima,
ecc..
Inoltre, in TUT è prevista l’annotazione di parole polirematiche di tipo preposizionale, articolata su
due livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono,
estratti dal corpus di testi giornalistici, si può vedere che espressioni polirematiche di tipo
preposizionale come nei_confronti_di, in_linea_con sono etichettate come un unico elemento
LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION
segue le etichette della categoria morfosintattica “preposizione” (PREP) e dei tratti di
sottocategorizzazione classificatoria; nel caso delle espressioni polirematiche viene sempre
assegnata l’etichetta PREP POLI (“preposizione polisillabica”). Come specificato nei criteri di
annotazione relativi al trattamento della dimensione polirematica, è poi al livello di annotazione
sintattica che viene specificato il tipo di locuzione. Negli esempi riportati di seguito l’etichetta
CONTIN+LOCUT indica che si tratta di locuzioni fisse.
nei (NEI_CONFRONTI_DI PREP POLI LOCUTION) [21;ADVB-RMOD]
confronti (NEI_CONFRONTI_DI PREP POLI LOCUTION) [25;CONTIN+LOCUT]
di (NEI_CONFRONTI_DI PREP POLI LOCUTION) [26;CONTIN+LOCUT]
in (IN_LINEA_CON PREP POLI LOCUTION) [9;ADJC-RMOD]
linea (IN_LINEA_CON PREP POLI LOCUTION) [11;CONTIN+LOCUT]
con (IN_LINEA_CON PREP POLI LOCUTION) [12;CONTIN+LOCUT]
Tale trattamento della dimensione polirematica implica che in fase di segmentazione
(tokenizzazione) del testo in unità-parola le locuzioni preposizionali siano state considerate un
elemento unico a cui viene attribuita un’unica categoria classificatoria a livello di annotazione
morfosintattica.
In CORIS/CODIS_distribuzionale la categoria “preposizione” comprende le seguenti
sottocategorie:
• le preposizioni, per lo più polisillabiche, alle quali è assegnata l’etichetta PREP_POLI, che
introducono determinanti o oltre strutture preposizionali e svolgono la funzione di
complementi verbali, come ad esempio contro nella seguente frase, … protestare contro il
Governo …;
• le preposizioni alle quali è assegnata l’etichetta PREP_NA, che introducono nomi e
svolgono la funzione di complementi del nome, come ad esempio del nella seguente frase,
… proporzione del vantaggio …;
• le preposizioni alle quali è assegnata l’etichetta PREP_VA, che introducono nomi e
svolgono la funzione di complementi del verbo, come ad esempio … provvedere in tempo …
56
Lo schema prevede inoltre che le preposizioni vengano classificate rispetto ad altre due categorie
morfosintattiche, alle quali è associata una rispettiva sottocategoria:
• la categoria “subordinator” (etichetta “SUB”), sottocategorizzata in SUB_ARG, assegnata a
parole che introducono frasi argomento di una testa di tipo verbale, come nel caso ad
esempio di nella seguente frase, … salvo che esigenze tecniche impongano di costruirlo …;
è importante sottolineare che tale categoria è assegnata non solo a preposizioni, ma anche ad
esempio a congiunzioni (vedi la parte relativa alle congiunzioni);
• la categoria “argument-operator” (etichetta ARG), sottocategorizzata in ARG_PREP,
assegnata alle preposizioni che svolgono dal punto di vista distribuzionale una funzione
simile a quella di determinanti, dal momento che introducono strutture argomentali
dipendenti per lo più da verbi, come ad esempio a nella seguente frase, … spetta a Massimo
D’Alema dire se …
In CoLFIS è prevista un’unica etichetta di classificazione delle preposizioni.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che alle “parole sintagmatiche preposizionali”, come ad esempio su
iniziativa di, invece di, unitamente a, sulla base di, prima di, quanto a, al di là di, in caso di26 sia
associata l’etichetta P@.
In NUNC alle preposizioni viene assegnata
• l’etichetta PRE (“preposizione”) per la classificazione di tutti i tipi di preposizioni,
• l’etichetta PRE:det (“preposizione + articolo”) alle preposizioni articolate.
Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica.
In CT le preposizioni sono classificate con la categoria “adposizioni”, che comprende le due
seguenti sottocategorie:
• “adposition.preposition” (etichetta ADP.PRE), assegnata a tutti i tipi di preposizioni,
• “adposition.postposition” (etichetta ADP.POST), assegnata per annotare una particolarità
dei testi fiorentini del XIII secolo che costituiscono il corpus annotato di riferimento, la
posizione cioè postposta di alcune preposizioni semplici rispetto al pronome personale, in
formazioni del tipo teco, seco, meco.
Per i criteri di annotazione delle espressioni polirematiche previsti dallo schema di annotazione vedi
la parte generale relativa.
In Lablita per l’italiano parlato, come in NUNC per l’italiano scritto, tutti i tipi di preposizioni
vengono classificati con la categoria unica “preposizione”, alla quale non vengono associate
etichette di sottocategorizzazione classificatoria.
In AVIP/API per l’italiano parlato è previsto che l’etichetta AP per l’annotazione delle preposizioni
semplici comprenda l’etichetta di sottocategorizzazione AP/AT per l’annotazione delle preposizioni
articolate.
Come stabilito nei criteri di annotazione, non sono state assegnate etichette di sottocategorizzazione
morfologica.
In VIT è previsto che l’etichetta PRE per l’annotazione delle preposizioni semplici comprenda
l’etichetta di sottocategorizzazione PRE:ART per l’annotazione delle preposizioni articolate.
Per l’annotazione delle locuzioni preposizionali è inoltre previsto l’uso di una serie di etichette di
sottocategorizzazione classificatoria, sottocategorie di una categoria morfosintattica generale
“locuzione” (LOC) dedicata all’annotazione anche di espressioni polirematiche di tipo congiuntivo
26
Gli esempi sono stati estratti direttamente dal corpus annotato.
57
e avverbiale (vedi la parte relativa alle congiunzioni e agli avverbi). Per quanto riguarda la
classificazione delle espressioni polirematiche preposizionali la categoria “locuzione” comprende la
seguente sottocategoria:
Etichetta
loc
Prep
Descrizione
preposizione
Esempio
attorno (a)
Tra la lista degli altri tratti di sottocategorizzazione classificatoria (SFEATS) è inoltre prevista
l’assegnazione di una etichetta (“php”) per l’annotazione di locuzioni preposizionali.
Lo schema prevede l’annotazione di tratti morfologici (MFEATS) secondo la classificazione di tali
tratti proposta in generale.
In Dialoghi_Annotati per l’italiano parlato è prevista un’unica categoria “preposizione” (E@).
È inoltre previsto che preposizioni articolate formate da più di una parola vengano classificate come
un elemento unico, annotato con l’etichetta EL@ (“preposizione articolata in locuzione”).
In entrambi i casi, il simbolo @ è seguito da tratti di sottocategorizzazione morfologica.
In CiT per l’italiano parlato televisivo è previsto che l’etichetta PRE per l’annotazione delle
preposizioni semplici comprenda l’etichetta di sottocategorizzazione PRE:det per l’annotazione
delle preposizioni articolate.
Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica.
58
3.8
Schema di
annotazione
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
Presenza di
sottocategorie
classificatorie
+
+
+
Pronomi
Presenza di tratti morfologici
Persona
+
+
Genere
+
+
Numero
+
+
Caso
Atono/tonico
+
+
+
-
Altro
Categoria “Clitico”
-
+
+
+
+
+
+
+
+
+
-
+
+
+
-
+
+
+
-
Tabella 1
59
+
+
-
+
-
Categoria “Clitico”
Schema di annotazione
C./C.
EAGLES
LaRep.
TUT
CoLFIS
NUNC
distribuz.
Personale
Personale
Personale
Personale
Possessivo
Possessivo
Possessivo
Possessivo
Dimostrativo Dimostrativo Dimostrativo
Dimostrativo
Indefinito
Indefinito
Indefinito
Indefinito
Sottocategorie Interrogativo Numerale
Interrogativo
Relativo
classificatorie Relativo
Relativo
Riflessivo
Esclamativo
Esclamativo
Locativo
Riflessivoimpersonale
Schema di annotazione
CT
Lablita
A./A. VIT
D.A.
Personale
Personale
Personale
Possessivo
Possessivo
Possessivo
Dimostrativo Dimostrativo
Dimostrativo
Indefinito
Indefinito
Indefinito
Sottocategorie
* Interrogativo
Interrogativo Relativo
classificatorie
Relativo
Riflessivo
Relativo
Esclamativo
Esclamativo
Tabella 2
* Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste.
60
CiT
Personale
Possessivo
Dimostrativo
Indefinito
Relativo
Riflessivo
pronome ci
In EAGLES la categoria “pronome” comprende le seguenti sottocategorie:
• personale,
• possessivo,
• dimostrativo,
• indefinito,
• interrogativo,
• relativo,
• esclamativo.
Ad ogni sottocategoria sono associati i rispettivi tratti morfologici relativi alla ‘persona’, al ‘genere’
e al ‘numero’. In particolare, ai pronomi personali sono associati i tratti
• ‘tonico/atono’,
• ‘caso’
o obliquo per i pronomi personali atoni,
o nominativo o obliquo per i pronomi personali tonici.
In LaRepubblica la categoria “pronome” comprende le seguenti sottocategorie:
• personale,
• possessivo,
• dimostrativo,
• indefinito,
• numerale.
Non sono previsti dallo schema tratti morfologici associati.
Lo schema prevede inoltre la categoria “clitico” specifica per l’annotazione di particelle clitiche.
In TUT la categoria “pronome” comprende le seguenti sottocategorie:
• personale,
• possessivo,
• dimostrativo,
• indefinito,
• interrogativo,
• relativo,
• esclamativo.
• locativo (es. ne, ci, vi),
• riflessivo-impersonale (es. ci, vi, si, ne).
È da notare che le ultime due sottocategorie sono dedicate in particolare all’annotazione dei clitici.
Lo schema prevede inoltre che, oltre ai tratti morfologici relativi alla ‘persona’, al ‘genere’ e al
‘numero’, siano associati alla categoria “pronome”, già a livello di annotazione morfosintattica,
anche le relazioni grammaticali di
• soggetto,
• oggetto,
• oggetto indiretto.
Per quanto riguarda l’annotazione dei pronomi, lo schema CORIS/CODIS_distribuzionale non
fornisce sufficienti indizi di analisi dal momento che non include una classificazione in categorie
morfosintattiche direttamente confrontabili con gli altri schemi di annotazione presi in
considerazione.
In base all’approccio distribuzionale tenuto in considerazione nella definizione dello schema di
annotazione, i pronomi sono classificati come elementi parte
• della categoria “ENTITY” che comprende entità pronominali che svolgono un ruolo di testa
di un complemento parte della struttura argomentale di un verbo, come ad esempio coloro
nella seguente frase … tutti coloro che offrono aiuto sono i benvenuti …;
61
•
della categoria “RELATIVE” che comprende pronomi e avverbi che introducono frasi
relative ad un livello di analisi sintattica del testo (vedi la parte relativa agli avverbi), come
ad esempio cui nella seguente frase … ai terreni su cui esistevano diritti ….
In CoLFIS è prevista un’unica categoria per la classificazione dei pronomi e nessun tratto
morfologico associato.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che alle “parole sintagmatiche di tipo pronominale”, come ad esempio
che cosa, il quale27 sia associata l’etichetta N@.
In NUNC la categoria “pronome” comprende le seguenti sottocategorie:
• personale,
• possessivo,
• dimostrativo,
• indefinito,
• relativo,
• riflessivo.
Non è prevista l’annotazione di tratti morfologici.
CT prevede l’esistenza di un’unica categoria “pronome-determinante” per la classificazione sia di
pronomi sia di ‘determinanti’ (vedi la parte relativa all’annotazione di elementi che esprimono
determinazione). Tale categoria sussume le medesime sottocategorie classificatorie associate alla
categoria “pronome” previste dallo standard EAGLES.
Lo schema prevede che i tratti morfologici associati siano informativi della ‘persona’, del ‘genere’,
del ‘numero’ e del ‘caso’ del pronome-determinante corrispondente.
Inoltre, prevede che vengano associati i tratti
• ‘atono/tonico’ (nello schema etichettato come “strong/weak”), associati al
o “pronome-determinante personale”,
o “pronome-determinante dimostrativo”
o “pronome-determinante possessivo”,
• ‘caso’
o obliquo,
o nominativo.
Come è stato possibile verificare in altri casi, lo schema di annotazione Lablita per l’italiano parlato
coincide con lo schema NUNC per l’italiano scritto. Pertanto, la classificazione dei pronomi segue
il medesimo schema descritto sopra.
In AVIP/API per l’italiano parlato, come in CT per l’italiano scritto, è prevista una categoria unica
“pronome/determinatore” per l’annotazione dei pronomi, senza alcuna sottocategoria associata.
Come stabilito nei criteri di annotazione, non sono previste etichette di sottocategorizzazione
morfologica.
In VIT la categoria “pronome” comprende le seguenti sottocategorie:
Etichetta
pron:an
pron:alt
27
pron
pron
Descrizione
anaforico
"other"
Gli esempi sono stati estratti direttamente dal corpus annotato.
62
Esempio
stesso
altro
Etichetta
pron:cl
pron:dim
pron:escl
pron:ind
pron:int
pron:loc:cong
pron:neg
pron:pers
pron:poss
pron:qd
pron:qp
pron:rel
pron:z:an
pron:z:def
pron:z:ind
pron:z:int
pron:z:escl
pron:z:min
pron:z:num
pron:z:qd
pron:z:qp
pron:z:rel:ind
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
pron
Descrizione
clitico
dimostrativo
esclamativo
indefinito
interrogativo
locuzione
negazione
personale
possessivo
quantificatore
quantificatore
relativo
invariato
invariato
invariato
invariato
invariato
invariato
invariato
quantificatore
quantificatore
relativo
Esempio
congiunzione
distributivo
partitive
anaforico
definito
indefinito
interrogativo
esclamativo
minoranza
numerale
distributivo
partitivo
indefinito
li
quegli
quanto
troppo
quale
cui
nessuno
io
tuo
ciascuno
molto
quale
sé
tutto
chicchessia
chi
che
minore
entrambi
ognuno
molto
qualunque
È da sottolineare il fatto che l’insieme di sottocategorie associate alla categoria “pronome” contiene
una sottocategoria specifica per l’annotazione di pronomi clitici. A tale sottocategoria sono associati
i seguenti tratti di sottocategorizzazione (SFEATS) generali relativi al ‘caso’:
• “pronome”, clitico, ablativo (locativo),
• “pronome”, clitico, accusativo,
• “pronome”, clitico, dativo.
Per alcune sottocategorie, lo schema prevede già l’associazione del tratto morfologico
corrispondente, nonché alcuni tratti di sottocategorizzazione (SFEATS) generali (es. “minoranza”,
“partitivo”, ecc…).
Lo schema prevede l’annotazione di tratti morfologici (MFEATS) secondo la classificazione di tali
tratti proposta in generale.
Dialoghi_Annotati per l’italiano parlato prevede le medesime sottocategorie di EAGLES associate
alla categoria “pronome”.
Sono inoltre previsti tratti morfologici relativi alla ‘persona’, al ‘genere’ e al ‘numero’.
CiT per l’italiano parlato televisivo prevede che la categoria “pronome” comprenda le seguenti
sottocategorie:
• personale,
• possessivo,
• dimostrativo,
• indefinito,
• relativo,
• riflessivo,
• “pronome ci”, associata alle occorrenza del nesso ‘ci + verbo essere’.
63
Come LaRepubblica, lo schema prevede inoltre la categoria “clitico”, per la classificazione dei
pronomi clitici e dei nessi clitici del tipo glielo.
Lo schema non prevede l’assegnazione di etichette di sottocategorizzazione morfologica.
64
3.9
Nomi
Presenza di
sottocategorie
classificatorie
Presenza di tratti morfologici
Dimensione polirematica
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
+
+
+
+
+
Categoria “Nome proprio”
-
+
-
+
-
+
+
-
VIT
+
+
-
Dialoghi_Annotati
CiT
+
-
+
-
+
-
Categoria “Nome proprio”
Categoria “Nome proprio”
Categoria sottospecificata
“nome/aggettivo_predicativo”
Categoria sottospecificata
“nome/aggettivo_participio_presente”
Categoria “Nome proprio”
Schema di
annotazione
Tabella 1
65
Altro
Schema di annotazione
EAGLES LaRep.
Sottocategorie
classificatorie
Comune
Proprio
-
Altri tratti
classificatori
-
-
TUT
Comune
Proprio
Nome
deverbale
C./C.
CoLFIS NUNC
distribuz.
CT
Lablita A./A.
-
-
Comune
Proprio
-
-
-
-
-
-
-
Tabella 2
* Vedi di seguito tabella dettagliata delle sottocategorie classificatorie previste.
66
VIT
*
Classe di
flessione
*
D.A.
Proprio
Straniero
-
CiT
-
In EAGLES la categoria “nome” comprende le due seguenti sottocategorie:
• nome comune,
• nome proprio.
E’ inoltre prevista l’assegnazione di tratti di sottocategorizzazione morfologica relativi al ‘genere’ e
al ‘numero’.
In LaRepubblica è prevista
• un’unica categoria “nome” per la classificazione dei nomi, senza nessuna sottocategoria,
• una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”.
Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica.
In TUT la categoria “nome” comprende le due seguenti sottocategorie:
• nome comune,
• nome proprio.
Oltre ai tratti morfologici corrispondenti associati, è assegnato un ulteriore tratto classificatorio
‘deverbale’, al quale è associata l’informazione relativa al verbo da cui deriva il nome deverbale e
al tipo di verbo transitivo o intransitivo di derivazione. In questo caso previsto dallo schema, come
si può vedere nell’estratto dal corpus giornalistico, l’annotazione è realizzata nel modo seguente:
fallimenti (FALLIMENTO NOUN COMMON M PL FALLIRE INTRANS)
Alla forma fallimenti è assegnata la categoria morfosintattica (NOUN), i tratti morfologici
corrispondenti (maschile, plurale) e il verbo da cui deriva (FALLIRE); viene inoltre specificato che
si tratta di un verbo intransitivo. Questa informazione è importante per il successivo livello di
annotazione sintattica, in particolare per il modulo di assegnazione automatica della relazione
grammaticale soggetto/oggetto. Nel caso ad esempio del sintagma la caduta di Marco,
l’annotazione del fatto che il nome caduta derivi dal verbo cadere, intransitivo, è il presupposto per
l’annotazione della relazione “soggetto” tra il nome caduta e la preposizione di.
Inoltre, in TUT è prevista l’annotazione di parole polirematiche di tipo nominale, articolata su due
livelli di annotazione, quello morfosintattico e quello sintattico. Negli esempi che seguono, estratti
dal corpus di testi giornalistici, si può vedere che espressioni polirematiche di tipo nominale come
conferenza_stampa, arma_da_fuoco, punti_di_vista sono etichettate come un unico elemento
LOCUTION già a livello di annotazione morfosintattica. A questo livello l’etichetta LOCUTION
segue le etichette della categoria morfosintattica (NOUN), dei tratti di sottocategorizzazione
classificatoria e morfologici. Come specificato nei criteri di annotazione relativi al trattamento della
dimensione polirematica, è poi al livello di annotazione sintattica che viene specificato il tipo di
locuzione. Negli esempi riportati di seguito l’etichetta CONTIN+LOCUT indica che si tratta di
locuzioni fisse.
conferenza
(CONFERENZA_STAMPA
NOUN
COMMON
F
SING
LOCUTION)
[11.1;DET+DEF-ARG]
stampa (CONFERENZA_STAMPA NOUN COMMON LOCUTION) [13;CONTIN+LOCUT]
arma (ARMA_DA_FUOCO NOUN COMMON F SING LOCUTION) [15;PREP-ARG]
da (ARMA_DA_FUOCO NOUN COMMON F SING LOCUTION) [16;CONTIN+LOCUT]
fuoco (ARMA_DA_FUOCO NOUN COMMON F SING LOCUTION) [17;CONTIN+LOCUT]
punto (PUNTO_DI_VISTA NOUN COMMON M SING LOCUTION) [6.1;DET+DEF-ARG]
di (PUNTO_DI_VISTA NOUN COMMON LOCUTION) [7;CONTIN+LOCUT]
vista (PUNTO_DI_VISTA NOUN COMMON LOCUTION) [8;CONTIN+LOCUT]
67
Tale trattamento della dimensione polirematica implica che in fase di segmentazione
(tokenizzazione) del testo in unità-parola le locuzioni di tipo nominale siano state considerate un
elemento unico a cui viene attribuita un’unica categoria classificatoria a livello di annotazione
morfosintattica.
Per quanto riguarda l’annotazione dei nomi, lo schema CORIS/CODIS_distribuzionale non prevede
alcuna modifica di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita
descrizione dello schema in merito.
In CoLFIS è prevista
• una categoria “sostantivo” (S) per l’annotazione dei nomi comuni,
• una categoria “nome proprio” (E).
Per entrambe non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che
• alle “parole sintagmatiche di tipo sostantivale”, come ad esempio fai da te, alter ego, messa
in scena, tutto esaurito, week-end, top model 28 sia associata l’etichetta S@;
• alle “parole sintagmatiche di tipo nominale proprio”, come ad esempio Teatro Carignano,
Stretto dei Dardanelli, Sri Lanka, via Georgofili, Il Mulino sia associata l’etichetta E@.
Come in LaRepubblica, anche in NUNC è prevista
• un’unica categoria “nome” per la classificazione dei nomi, senza nessuna sottocategoria,
• una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”.
Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica.
In CT la categoria “nome” comprende le due seguenti sottocategorie:
• nome “comune”,
• nome “proprio”.
Lo schema prevede che i tratti morfologici associati siano relativi al ‘genere’ e del ‘numero’ del
nome corrispondente.
Per i criteri di annotazione delle espressioni polirematiche previsti dallo schema vedi la parte
generale relativa.
Come in LaRepubblica e NUNC, anche in Lablita per l’italiano parlato è prevista
• un’unica categoria per classificazione dei nomi senza nessuna sottocategoria,
• una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”.
Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica.
In AVIP/API per l’italiano parlato è assegnata una categoria unica (N) ai nomi sia comuni sia
propri.
Come stabilito nei criteri di annotazione, non sono stati annotati i tratti morfologici.
In VIT la categoria “nome” prevede una numerosa serie di sottocategorie, come riportato nella
seguente tabella:
Etichetta
n:a2:f
n:a:f
n:a:m
28
fem
fem
masc
classe
classe
classe
Descrizione
-a2
-a
-a
Gli esempi sono stati estratti direttamente dal corpus annotato.
68
Esempio
ala
alabarda
automa
Etichetta
n:a:m:f
n:ca:f
n:ca:m
n:co:m
n:e:f
n:e:m
n:e:m:f
n:ga:f
n:ga:m:f
n:go:m
n:ia:f
n:ie:f
n:io:m
n:o:m
n:ore:m
n:c:f
n:c:m
n:geo:f
n:geo:f:pl
n:geo:f:sg
n:geo:m
n:p:f
n:p:m
n:p:m:pl
n:ab:f
n:ab:m
n:tg:f:pl
n:tg:f:sg
n:tg:m
n:tg:m:pl
n:tg:m:sg
n:tm:m
n:ts:f:pl
n:ts:f:sg
n:ts:m:pl
n:ts:m:sg
n:z:f
n:z:f.pl
n:z:f:sg
n:z:m
n:z:m:f
n:z:m:f:pl
n:z:m:f:sg
n:z:m:pl
n:z:m:sg
masc
fem
masc
masc
fem
masc
masc
fem
masc
masc
fem
fem
masc
masc
masc
fem
masc
fem
fem
fem
masc
fem
masc
masc
fem
masc
fem
fem
masc
masc
masc
masc
fem
fem
masc
masc
fem
fem
fem
masc
masc
masc
masc
masc
masc
fem
classe
classe
classe
classe
classe
fem
classe
fem
classe
classe
classe
classe
classe
classe
classe
classe
classe
plurale
plurale
classe
classe
classe
plurale
classe
classe
plurale
singol
classe
plurale
singol
classe
plurale
singol
plurale
singol
invar
plurale
singolare
invar
fem
fem
fem
plurale
singol
Descrizione
classe
-ca
-ca
-co
-e
-e
classe
-ga
classe
-go
-ia
-ie
-io
-o
-ore
c(olore)
c(olore)
geo(grafico)
classe
classe
geo(grafico)
p(ropio)
p(ropio)
classe
abbreviazione
abbreviazione
classe
classe
t(empo)-giorno
classe
classe
t(empo)-mese
classe
classe
classe
classe
-a
-e
-ga
geo(grafico)
geo(grafico)
p(ropio)
t(empo)-giorno
t(empo)-giorno
t(empo)-giorno
t(empo)-giorno
t(empo)- stagione
t(empo)-stagione
t(empo)- stagione
t(empo)- stagione
invar
invar
invar
plurale
singol
invar
invar
invar
invar
Esempio
borsista
amica
arciduca
mammalucco
bronchite
clone
commediante
carlinga
collega
castigo
coscia
moglie
monopolio
monoplano
motocoltivatore
ambra
arancio
carrara
alpi
murgia
nord
raffaella
poseidone
dioscuri
agip
centotredici
ceneri
pasqua
capodanno
sabati
ferragosto
dicembre
estati
estate
autunni
autunno
estraneità
fauci
atrazina
Yogurt, iter
groviera
idi
capobanda
convenevoli
fiele
È da sottolineare che in questo tipo di classificazione sono già associati i rispettivi tratti di
sottocategorizzazione morfologica relativi al ‘genere’, al ‘numero’ e alla ‘classe di flessione’ del
nome.
69
Nello schema sono inoltre previste due categorie sottospecificate:
una categoria “nome/aggettivo_predicativo” (NA), che comprende le seguenti sottocategorie:
Etichetta
na:a:f
na:a:m
na:a:m:f
na:ca:f
na:co:m
na:e:f
na:e:m
na:e:m:f
na:ga:f
na:ga:m:f
na:go:m
na:go:m:sg
na:ia:f
na:io:m
na:io:m:sg
na:o:m
na:o:m:sg
na:ore
na:z:m
na:z:m:f
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
nome+adj
Descrizione
fem
classe
masc
classe
masc/fem classe
fem
classe
masc
classe
fem
classe
masc
classe
masc
fem
fem
classe
masc
fem
masc
classe
masc
solo/sing
fem
classe
masc
classe
masc
solo/sing
masc
classe
masc
solo/sing
classe
-ore
masc
invariato
masc
fem
-a
-a
-a
-ca
-co
-e
-e
-ga
classe
-go
classe
-ia
-io
classe
-o
classe
-ga
-go
-io
-o
invariato
Esempio
femmina
erbicida
estremista
scarica
sciocco
sciupone
plantare
possidente
centrifuga
belga
coprofago
gallego
greggia
grigio
romancio
guasto
ridicolo
roditore
standard
snob
una categoria “nome/aggettivo_participio_presente” (NAPR), che comprende le seguenti
sottocategorie:
Etichetta
napr:e:f
napr:e:m
napr:e:m:f
nome+adj
nome+adj
nome+adj
Descrizione
fem
classe
masc
classe
masc
fem
-e
-e
classe
-e
Esempio
stimolante
spiovente
richiedente
Anche in questo caso, ad ogni sottocategoria classificatoria, sono già associati i rispettivi tratti di
sottocategorizzazione morfologica.
È inoltre prevista l’assegnazione di una serie di tratti di sottocategorizzazione classificatoria
generale (SFEATS):
Etichetta
Nc
Nf
Nh
Np
Npro
Nt
Descrizione
Nome di colore
Nome fattivo
Nome umano
Nome proprio geografico o di istituzione
Nome proprio per casi di parole non presenti nel vocabolario
Nome di tempo
Per la descrizione di “aggettivi” che svolgono la funzione di “nomi” vedi la parte relativa agli
“aggettivi”.
70
In Dialoghi_Annotati per l’italiano parlato la categoria “sostantivo”, assegnata per la classificazione
di nomi ‘comuni’, comprende le due seguenti sottocategorie:
nome “proprio”,
nome “straniero”.
Il simbolo L è assegnato per annotare la presenza di un sostantivo sia comune, sia “proprio” sia
“straniero” in locuzione.
In tutti i casi, alla categoria sono associati tratti di sottocategorizzazione morfologica relativi al
‘genere’ e al ‘numero’.
Come in LaRepubblica, in NUNC e in Lablita, anche in CiT per l’italiano parlato televisivo è
prevista
• un’unica categoria per classificazione dei nomi senza nessuna sottocategoria,
• una categoria specifica per l’annotazione di nomi propri, marcata con l’etichetta “NPR”.
Non è prevista l’assegnazione di etichette di sottocategorizzazione morfologica.
71
3.10 Verbi
Presenza di
sottocategorie
classificatorie
Modo
Tempo
Presenza di
tratti
morfologici
Presenza di
tratti
sintattici
Presenza di
tratti
semantici
EAGLES
+
+
+
+
-
-
LaRepubblica
+
+
+
-
-
-
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-
+
+
-
Schema di
annotazione
Tabella 1
72
Altro
Dimensione
polirematica
-
-
Categoria
“ausiliare”
-
+
+
-
-
+
+
-
-
Schema di annotazione
EAGLES
Pieno
Sottocategorie
classificatorie
Altri tratti
LaRep.
Modale/
causale
Ausiliare
-
C./C.
distribuz.
TUT
Pieno
CoLFIS
NUNC
Ausiliare
-
Lablita A./A.
Pieno
-
Ausiliare
Modale
Presenza
del
clitico in
enclisi
CT
-
D.A.
Ausiliare
Ausiliare
Modale
Modo
finito/non
finito
-
VIT
-
-
-
Copulativo
Modale
Costruzione
perifrastica
CiT
Ausiliare
-
-
-
-
-
A./A.
VIT
D.A.
CiT
-
Transitivo
Intransitivo
Riflessivo
-
-
Tabella 2: Sottocategorie della categoria “verbo”
Schema di annotazione
EAGLES
Tratti
sintattici
-
LaRep.
TUT
-
Transitivo
Intransitivo
Riflessivo
C./C.
CoLFIS
distribuz.
-
NUNC
-
CT
-
Lablita
-
Tabella 3: Tratti sintattici associati alla categoria “verbo”
Schema di annotazione
Tratti
semantici
EAGLES
LaRep.
TUT
-
-
-
C./C.
CoLFIS
distribuz.
-
NUNC
CT
Lablita
A./A.
VIT
D.A.
CiT
-
-
-
-
Ergativo
Incoativo
Copulativo
-
-
Tabella 4: Tratti semantici associati alla categoria “verbo”
73
In EAGLES la categoria “verbo” comprende le due seguenti sottocategorie:
• “verbo, pieno”,
• “verbo, ausiliare”.
Ad entrambe queste due sottocategorie sono associati il rispettivo ‘modo’ e ‘tempo’ e i tratti
morfologici corrispondenti secondo lo schema seguente:
Modo
indicativo
congiuntivo
condizionale
imperativo
infinito
gerundio
participio
Tempo
presente
presente
presente
presente
presente
presente
presente
imperfetto futuro
imperfetto
passato
passato
Tratti morfologici
Persona Numero Genere
1, 2, 3
sg, pl
1, 2, 3
sg, pl
1, 2, 3
sg, pl
2
sg, pl
sg, pl
c
sg, pl
m, f
EAGLES non prevede il trattamento della dimensione polirematica verbale.
Nello schema LaRepubblica sono previste due categorie per la classificazione dei verbi:
• la categoria “verbo”, che comprende la sottocategoria verbo “modale/causale”,
• la categoria “ausiliare”.
I tratti associati ad entrambe queste due categorie sono relativi all’annotazione
• del ‘modo’,
• della presenza di un clitico in posizione enclitica.
I tratti associati alla categoria “verbo” sono i seguenti:
Modo
Tempo
Finito
Gerundio
Infinito
Participio
Presente
Passato
Presenza di un clitico
in posizione enclitica
+
+
+
+
I tratti associati alla categoria “verbo”, con sottocategoria “modale/causale” sono i seguenti:
Modo
Tempo
Finito
Gerundio
Infinito
Participio
Presente
Passato
Presenza di un clitico
in posizione enclitica
+
+
+
-
I tratti associati alla categoria “ausiliare” sono i seguenti:
Modo
Finito
Tempo
74
Presenza di un clitico
in posizione enclitica
+
Modo
Tempo
Gerundio
Infinito
Participio
Presente
Passato
Presenza di un clitico
in posizione enclitica
+
+
-
In nessun caso lo schema LaRepubblica prevede l’annotazione di tratti morfologici.
In TUT la categoria “verbo” comprende le tre seguenti sottocategorie:
• “verbo, pieno”, sottocategoria associata anche a verbi copulativi;
• “verbo, ausiliare”;
• “verbo, modale”.
A ciascuna di queste sottocategorie sono associati il ‘modo’, il ‘tempo’, i rispettivi tratti
morfologici.
Lo schema prevede inoltre l’annotazione della ‘transitività’, classificata rispetto ai seguenti tratti:
• “transitivo”,
• “intransitivo”,
• “riflessivo”.
Secondo quanto previsto dai criteri di annotazione, la dimensione polirematica verbale è annotata a
livello sintattico, più che morfosintattico.
Per quanto riguarda l’annotazione dei verbi, lo schema CORIS/CODIS_distribuzionale non prevede
alcuna modifica di quanto proposto nello schema EAGLES. Non è tuttavia fornita alcuna esplicita
descrizione dello schema in merito.
In CoLFIS la categoria “verbo” comprende come unica sottocategoria “ausiliare”.
Lo schema non prevede l’annotazione né del ‘modo’, né del ‘tempo’, né di tratti morfologici
associati.
Secondo quanto stabilito dai criteri generali di definizione dello schema (vedi la parte generale
relativa), CoLFIS prevede che l’etichetta V@, per l’annotazione di “parole sintagmatiche di tipo
verbale”, venga assegnata in caso di presenza di clitici sia in posizione proclitica sia enclitica.
In NUNC è prevista un’unica categoria “verbo” alla quale sono associati i rispettivi ‘modo’ e
‘tempo’, secondo schema seguente:
Etichetta
Modo
Tempo
VER:cimp
congiuntivo
imperfetto
VER:cond
condizionale
VER:cpre
congiuntivo
presente
VER:futu
futuro
VER:geru
gerundio
VER:impe
imperativo
VER:impf
imperfetto
VER:infi
infinito
VER:pper
participio
passato
VER:ppre
participio
presente
VER:pres
presente
VER:refl:infi
riflessivo, infinito
VER:remo
passato remoto
Non sono previsti dallo schema tratti di sottocategorizzazione morfologica.
75
Lo schema CT prevede che la categoria “verbo” comprenda le tre seguenti sottocategorie:
• verbo “pieno”,
• verbo “ausiliare”,
• verbo “modale”.
A tutte e tre le sottocategorie sono associati i rispettivi ‘modo’, ‘tempo’, l’indicazione se si tratta di
un modo di tipo ‘finito’ o ‘non-finito’ e i tratti morfologici.
Per i criteri di annotazione delle espressioni polirematiche verbali previsti vedi la parte generale
relativa.
Come è stato possibile verificare in altri casi, lo schema Lablita per l’italiano parlato coincide con
quello NUNC per l’italiano scritto. Pertanto, la classificazione dei verbi segue lo schema illustrato
sopra.
Lo schema AVIP/API per l’italiano parlato prevede un’unica categoria “verbo”.
Come specificato nei criteri di annotazione, tutte le unità grafiche sono state considerate ‘parole’ e
come tali dotate di una categoria morfosintattica corrispondente. Di conseguenza la dimensione
polirematica non è stata considerata. Così come lo schema non prevede l’annotazione dei tratti
morfologici.
Nello schema VIT la categoria “verbo” comprende una serie di etichette associate al verbo rispetto
• a tratti sintattici,
• alla coniugazione,
• a tratti che rendono esplicita parte della natura semantica del verbo.
Tali etichette sono organizzate secondo lo schema riassunto nella seguente tabella:
Etichetta
v:1:cop
v:1:intr
v:1:intr:imp
v:1:intr:pron
v:1:rifl
v:1:rifl:rec
v:1:tr
v:1:tr:erg
v:2:intr
v:2:intr:imp
v:2:intr:pron
v:2:rifl
v:2:rifl:rec
v:2:tr
v:2:tr:erg
v:3:intr
v:3:intr:pron
v:3:rifl
v:3:rifl:rec
v:3:tr
v:3:tr:erg
v:a3:intr
v:a3:intr:imp
v:a3:intr:pron
v:a3:rifl
v:a3:rifl:rec
Descrizione dei tratti di sottocategorizzazione
copulativo 1.
intrans.
1.
intrans.
impersonale
1.
intrans.
pronominale 1.
riflessivo
1.
riflessivo
reciproco
1.
trans.
1.
trans.
ergativo
1.
intrans.
2.
intrans.
impersonale
2.
intrans.
pronominale 2.
riflessivo
2.
riflessivo
reciproco
2.
trans.
2.
trans.
ergativo
2.
intrans.
3.
intrans.
pronominale 3.
riflessivo
3.
riflessivo
reciproco
3.
trans.
3.
trans.
ergativo
3.
intrans.
3.
incoativo
intrans.
impers.
3.
incoat.
intrans.
pronom.
3.
incoat.
riflessivo
3.
incoat.
riflessivo
recipr.
3.
incoativo
76
Esempio
sembrare
serpeggiare
sgelare
sgolare
slacciare
somigliare
somministrare
ammosciare
ripetere
calere
compiere
credere
sfottere
spremere
scotere
applaudire
scucire
sentire
susseguire
vestire
adempire
avvizzire
imbrunire
avvilire
istruire
riunire
Etichetta
v:a3:tr
v:a3:tr:erg
v:i-v:1:cop
v:i-v:1:intr
v:i-v:1:intr:
v:i-v:1:intr:
v:i-v:1:rifl
v:i-v:1:tr
v:i-v:2:aux
v:i-v:2:cop
v:i-v:2:intr
v:iv:2:intr:imp
v:iv:2:intr:pron
v:i-v:2:rifl
v:i-v:2:rifl:rec
v:i-v:2:tr
v:i-v:3:cop
v:i-v:3:intr
v:iv:3:intr:imp
v:iv:3:intr:pron
v:i-v:3:rifl
v:i-v:3:rifl:rec
v:i-v:3:tr
v:i-v:a3:intr
v:iv:a3:intr:pron
v:i-v:a3:rifl
v:i-v:a3:tr
Descrizione dei tratti di sottocategorizzazione
trans.
3.
incoativo
trans.
ergativo
3.
incoat.
copulative 1.
irreg.
intrans.
1.
irreg.
imp
intrans.
impers.
1.
irreg.
pron
intrans.
pronom.
1.
irreg.
riflessivo
1.
irreg.
trans.
1.
irreg.
ausiliare
2.
irreg.
copulativo 2.
irreg.
intrans.
2.
irreg.
intrans.
impers.
2.
irreg.
Esempio
riverire
aggrinzire
stare
andare
dare
liquefare
disfare
contraffare
essere
corrispondere
compiacere
parere
intrans.
pronom.
2.
perdere
riflessivo
riflessivo
trans.
copulativo
intrans.
intrans.
2.
recipr
2.
2.
2.
impers
irreg.
2.
irreg.
irreg.
irreg.
2.
intrans.
pronom.
2.
riflessivo
riflessivo
trans.
intrans.
intr
3.
reciproco
2.
3.
pronom.
irreg.
2.
irreg.
incoat.
3.
riflessivo
trans.
3.
3.
incoat.
incoat.
irreg.
irreg.
ritrarre
reggere
rendere
apparire
aprire
convenire
irreg.
imbiondire
irreg.
irreg.
irreg.
incoat.
irreg.
irreg.
irreg.
rioffrire
contraddire
dire
impallidire
inacidire
profferire
inaridire
Alla categoria “verbo” sono inoltre associati il ‘modo’ e il ‘tempo’, nonché i rispettivi tratti
morfologici (MFEATS) secondo la classificazione di tali tratti proposta in generale.
Lo schema prevede inoltre una serie di etichette di sottocategorizzazione generale (SFEATS) per
l’annotazione di:
• ausiliari, a sua volta classificati nel modo seguente:
Etichetta
auag
aueg
ausa
ausai
ause
ausei
ausep
•
ausiliare
ausiliare
ausiliare
ausiliare
ausiliare
ausiliare
ausiliare
"avere"
"essere"
"avere"
"avere"
"essere"
"essere"
"essere"
Descrizione
gerundio
gerundio
tensed
infinito
tensed
infinito
participio
passato
verbi copulativi, classificati nel modo illustrato dalla seguente tabella:
77
Etichetta
vc
vci
vgc
•
Descrizione
verbo
verbo
verbo
infinito
gerundio
verbi modali, classificati nel modo illustrato dalla seguente tabella:
Etichetta
vsup
•
copulativo
copulativo
copulativo
Descrizione
verbo
modale
costruzioni perifrastiche del verbo fare:
Etichetta
Descrizione
vsf
verbo "fare" perifrastico
Lo schema Dialoghi_Annotati per l’italiano parlato prevede per la categoria “verbo, pieno” la
medesima classificazione dello schema EAGLES riportato, con i rispettivi tratti morfologici.
Tuttavia, non prevede sottocategorie classificatorie associate.
Lo schema CiT per l’italiano parlato televisivo prevede che la categoria “verbo” comprenda
un’unica sottocategoria “ausiliare”.
I tratti associati sia alla categoria “verbo” sia alla sottocategoria verbo “ausiliare” sono relativi
all’annotazione
• del ‘modo’,
• del ‘tempo’,
• della presenza di un clitico in posizione enclitica.
I tratti associati alla categoria “verbo” sono i seguenti:
Modo
Tempo
congiuntivo
condizionale
congiuntivo
gerundio
imperativo
indicativo
infinito
participio
participio
indicativo
-
imperfetto
presente
futuro
imperfetto
passato
presente
presente
passato remoto
Presenza di un clitico
in posizione enclitica
+
+
+
-
I tratti associati alla sottocategoria verbo “ausiliare” sono i seguenti:
Modo
congiuntivo
condizionale
congiuntivo
futuro
Presenza di un clitico in posizione
enclitica
-
Tempo
imperfetto
presente
78
Modo
gerundio
imperfetto
infinito
participio
presente
passato
passivo
Presenza di un clitico in posizione
enclitica
+
+
-
Tempo
indicativo
passato
indicativo
remoto
-
Nello schema non sono previsti tratti morfologici associati.
79
3.11 Punteggiatura
Schema di
annotazione
Presenza della
categoria
Presenza di
sottocategorie
classificatorie
-
-
EAGLES
-
-
Categoria “punteggiatura di fine frase”
Categoria “punteggiatura non di fine frase”
Categoria “marker”
+
-
-
+
+
+
+
+
+
-
+
-
-
LaRepubblica
-
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
Altro
Tabella 1
Schema di annotazione
EAGLES LaRep.
Sottocategorie
classificatorie
-
TUT
-
C./C.
CoLFIS NUNC
distribuz.
-
-
Tabella 2
80
CT
Lablita
Finale
Non finale
-
A./A.
VIT
D.A.
*
-
CiT
In EAGLES non è prevista la classificazione dei segni di punteggiatura.
In LaRepubblica sono previste le seguenti due categorie per la classificazione della punteggiatura:
• “punteggiatura di fine frase” (SENT),
• “punteggiatura non di fine frase” (PUN).
In TUT è prevista la categoria “punteggiatura” per l’annotazione di tutti i segni di punteggiatura.
Lo schema prevede inoltre la categoria “Marker” associata ai ‘segni di formattazione’, cioè le
parentesi uncinate < > che racchiudono l’indicazione del tipo di testo (es. <Titolo>, <Notizia>,
ecc..).
CORIS/CODIS_distribuzionale prevede la categoria “PUNCTUATION MARK” per
classificazione di tutti i segni di punteggiatura.
la
In CoLFIS è prevista un’unica categoria “punteggiatura” per la classificazione dei segni di
punteggiatura.
Sia NUNC per l’italiano scritto sia Lablita per l’italiano parlato prevedono un’unica categoria
“punteggiatura” per la classificazione di qualsiasi tipo di segno di punteggiatura.
Lo schema CT prevede che la categoria “punteggiatura” comprenda le due seguenti sottocategorie
classificatorie:
• punteggiatura finale,
• punteggiatura non-finale.
In AVIP/API per l’italiano parlato non è prevista alcuna categoria per l’annotazione dei segni di
punteggiatura. Lo schema prevede infatti che tali segni siano rimossi in fase di trascrizione di un
testo da annotare, perché considerati parte di un livello di annotazione intonativa.
In VIT è previsto che alla categoria “punteggiatura” vengano associati i seguenti tratti di
sottocategorizzazione classificatoria (SFEATS):
Etichetta
da_riemp
dirs cue
equal
par
punt
puntint
punto
slash
sect
titl
Descrizione
puntini di sospensione
discorso diretto/indiretto
segno di uguale
parentetiche
punteggiatura interna
punteggiatura non dichiarativa
punteggiatura di fine frase
Esempio
…
":
=
‘’’’
,-=§
?!
.;
/
lettera o numero indicatore di sezione
titolo
Lo schema Dialoghi_Annotati per l’italiano parlato prevede che i tutti i tipi di segni di
punteggiatura, se presenti nella trascrizione di un testo da annotare, siano etichettati con il doppio
simbolo @@.
Nello schema CiT per l’italiano parlato televisivo non è prevista una categoria “punteggiatura”
specifica per l’annotazione di segni punteggiatura.
81
3.12 Categorie residue
Schema di annotazione
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
Dialoghi_Annotati
CiT
Presenza di
sottocategorie
classificatorie
Presenza di tratti
associati
Residuo
Elemento non
linguistico
Speciale
Simbolo
-
+
-
-
-
-
-
-
Simbolo
Abbreviazione
Sentence marker
Simbolo
Residuo
Abbreviazione
Sentence marker
Simbolo
Elemento
paralinguistico
Marcatore del
discorso
Filler
Residuo
Abbreviazione
Residuo
Abbreviazione
-
-
-
-
+
-
-
-
-
-
-
-
-
-
-
-
Categorie
Tabella 1
82
In EAGLES è prevista una categoria “residuo” per la classificazione di
• parole straniere,
• abbreviazioni.
A questa categoria sono associati
• tratti morfologici relativi al ‘genere’ e al ‘numero’ della parola classificata;
• la funzione che queste parole ricoprono in quanto
o nome comune,
o nome proprio,
o aggettivo.
Lo schema LaRepubblica prevede una categoria “Elemento non linguistico”. Ricerche condotte
direttamente sul corpus hanno rivelato che tale categoria viene impiegata per l’annotazione di
simboli e interiezioni.
In TUT è prevista la categoria “Speciale” assegnata a simboli del tipo $ # & %.
CORIS/CODIS_distribuzionale prevede la categoria “Symbol”. Tuttavia, la mancanza di espliciti
criteri di annotazione e del corpus di riferimento annotato non permette di verificare se e in che
modo è prevista l’assegnazione di tale categoria.
Lo schema CoLFIS prevede la categoria “simbolo” per la classificazione di simboli come $, £, %, e
in generale tutti i simboli che si trovano su una tastiera, compresi i simboli delle quattro operazioni.
NUNC prevede tre categorie residue:
• la categoria “Abbreviazione”,
• la categoria “SENTENCE MARKER” contrassegnata dall’etichetta SENT,
• la categoria “SYMBOL” contrassegnata dall’etichetta SYM.
Nello schema CT è presente una categoria “Residuo” per l’annotazione di elementi classificati
rispetto alle tre seguenti sottocategorie:
• ‘abbreviazioni’,
• ‘formule’,
• ‘epentesi’, per trattare casi specifici presenti in testi fiorentini del XIII secolo come, ad
esempio, fue, rendendo esplicita l’informazione che alla forma del verbo è stata aggiunta un
“e” epentetica.
Lablita per l’italiano parlato prevede tre categorie residue:
• la categoria “Abbreviazione”,
• la categoria “SENTENCE MARKER” contrassegnata dall’etichetta SENT,
• la categoria “SYMBOL” contrassegnata dall’etichetta SYM,
• la categoria “Elemento paralinguistico”, appositamente aggiunta per l’annotazione del
corpus di lingua parlata alla serie preesistente di categorie morfosintattiche.
Tuttavia, la mancanza di espliciti criteri di annotazione e del corpus di riferimento annotato non
permette di verificare se e in che modo è prevista l’assegnazione di tali categorie.
AVIP/API prevede le seguenti categorie dedicate all’annotazione di fenomeni linguistici peculiari
della lingua parlata:
• la categoria “discourse marker” (DM) riferita ad avverbi, congiunzioni, e piccole frasi che
segnano passaggi all’interno di un discorso; data la scelta di isolare le singole parole
attribuendo una etichetta per ciascuna parola ortografica, in caso di locuzioni o espressioni
83
•
•
formate da più di una parola, l’etichetta DM è stata attribuita separatamente alle singole
parole;
la categoria “filler” (F) attribuita ai ‘riempitivi di pause’, anche definiti ‘segnali di
esitazione’; è importante sottolineare che secondo le specifiche dei criteri di annotazione del
livello morfosintattico non sono state considerate ‘parole’ alcune unità autonome quali
o le vocalizzazioni prodotte dai parlanti, classificate come “inspirazione”, “risata”,
ecc…,
o le pause vuote, sottocategorizzate come “lunga” o “breve”,
o rumori ed altri eventi ‘fuori campo’;
la “residuo” (R) attribuita ad elementi che occorrono in enunciati interrotti, troppo ridotti per
poter essere classificati in modo sicuro.
VIT non comprende alcuna categoria residua.
Lo schema Dialoghi_Annotati prevede due categorie residue:
• una categoria, contraddistinta dall’etichetta SA, per la classificazione delle abbreviazioni
(es. ecc., pagg., fig.);
• una classe ‘residua’, contraddistinta dall’etichetta X@, per la classificazione di elementi che
non possono essere inclusi in una delle diverse classi previste dallo schema, come ad
esempio le formule, le sequenze alfanumeriche (41esima).
In CiT per l’italiano parlato televisivo è prevista una categoria “abbreviazione” per la
classificazione sia di abbreviazioni sia di sigle del tipo BBC, AIDS, TIM.
84
4 Analisi delle dimensioni di criticità degli schemi di
annotazione
La fase di confronto tra gli schemi di annotazione esistenti per l’italiano ha individuato alcuni
aspetti problematici generali.
Innanzitutto la necessità di tenere distinte le specificità della lingua scritta rispetto a quella
parlata. L’analisi dello stato dell’arte in materia di annotazione morfosintattica (e sintattica) dalla
quale ha preso le mosse il progetto “Dialoghi Annotati” aveva messo in luce il fatto che, a dispetto
del numero di corpora annotati morfosintatticamente esistenti, tuttavia l’esperienza di annotazione
di lingua parlata è piuttosto limitata rispetto all’esperienza di annotazione di lingua scritta 29. In
quell’occasione si era sottolineato il fatto che in molti casi si adotta un approccio normalizzante
all’annotazione della lingua parlata, che consiste sostanzialmente nell’eliminazione di tutti quei
fenomeni tipici del parlato restituendo nei fatti una parafrasi scritta del testo originario. Se questo
ha da un lato il vantaggio pratico di permettere si usare gli schemi già esistenti per lo scritto,
dall’altro ha numerosi svantaggi teorici rispetto alla possibilità di fornire una categorizzazione
grammaticale esaustiva delle caratteristiche proprie della lingua parlata. Gli aspetti di variazione
individuati rispetto alla lingua parlata riguardano principalmente:
• la frequenza e la varietà di alcuni fenomeni linguistici; se un fenomeno pur accidentale nella
lingua scritta diventa sistematico in quella parlata, uno schema di annotazione ne deve
prevedere la possibilità di codifica; è il caso, ad esempio, della categoria delle “Interiezioni”,
generalmente molto poco sviluppata negli schemi di annotazione per la lingua scritta;
• alcune specificità del parlato, tra le quali:
o i fenomeni di “disfluenza”, quali
 vocalizzazioni psuedo-lessicali come um, uh-huh, ooh, ah, mhm, eh? con
scopi pragmatici vari, quali riempitivi di pause, esitazioni e vocalizzazioni di
incoraggiamento; dal punto di vista dell’annotazione morfosintattica si pone
il problema se trattare o meno questi elementi come elementi lessicali,
assegnando loro una categoria morfosintattica;
 frammenti di parole come effetto di correzioni o interruzioni;
 usi non standard di forme lessicali, quali lapsus o forme troncate (quando non
sovrapposte a forme dialettali e/o a varianti geo- o socio-dialettali);
o alcune classi grammaticali, quali:
 marcatori del discorso e particelle la cui categorizzazione grammaticale taglia
trasversalmente le categorie delle interiezioni, degli avverbi e delle
congiunzioni e che svolgono una vasta gamma di funzioni pragmatiche;
 interiezioni;
 avverbi, le cui occorrenze, maggiori rispetto alla lingua scritta, richiedono
una sottocategorizzazione più dettagliata di quella fornita negli schemi di
annotazione per lo scritto;
• i criteri seguiti in fase di trascrizione del parlato, fase fondamentale come punto di partenza
della fase di annotazione linguistica;
Un secondo aspetto problematico individuato durante il confronto tra schemi di annotazione è la
necessità di disporre di espliciti criteri di annotazione. Come ricordato in Lenci et alii, 2005, parte
integrante della specifica di uno schema di annotazione sono le modalità della sua applicazione sul
testo; pertanto, il lavoro di specifica non si ferma alla definizione del contenuto dello schema. Zone
d’ombra nella codifica d’informazione morfosintattica, non definite in modo chiaro dagli schemi
esaminati, sono infatti dovute anche alla difficoltà incontrata nel reperire tali criteri di annotazione.
29
http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.1_SpecificheTecniche.pdf
85
Un ultimo aspetto generale con cui ci si è dovuti confrontare riguarda la necessità di tenere distinti i
diversi livelli di codifica dei diversi tipi d’informazione. L’analisi comparativa condotta ha infatti
rivelato che a volte tipi differenti di informazione linguistica vengono codificati nel medesimo
livello di annotazione dell’informazione morfosintattica. Così, ad esempio, gli schemi TUT e VIT
impiegati come punto di partenza per un successivo livello di annotazione sintattica contengono già
a livello di annotazione morfosintattica etichette di sottocategorizzazione sintattica, come ad
esempio il tratto di ‘transitività’ associato alla categoria “Verbo”.
Più nel dettaglio, il confronto tra gli schemi di annotazione esistenti ha messo in luce alcuni aspetti
dell’informazione morfosintattica rispetto ai quali non c’è una codifica uniforme da associare al
dato testuale. Tali zone di non uniformità riguardano i seguenti aspetti.
a) I tratti morfologici
Non tutti gli schemi esaminati prevedono la possibilità di associare tratti morfologici alle rispettive
categorie e sottocategorie morfosintattiche. In particolare solo i seguenti schemi ne prevedono la
possibilità: EAGLES, TUT, CT, VIT, Dialoghi_Annotati.
Tra questi schemi, inoltre, mentre c’è accordo sul valore associato al tratto ‘persona’, non c’è
completa uniformità di codifica per quanto riguarda i valori associati al genere e al numero. Come
riassunto nella Tabella 1, mentre infatti EAGLES, CT, VIT, Dialoghi_Annotati hanno 3 valori
associati, TUT non prevede i valori ‘comune’ e ‘invariato’ associati rispettivamente al ‘genere’ e al
‘numero’ della categoria morfosintattica corrispondente.
Genere
Numero
Maschile
Femminile
Comune
Singolare
Plurale
Invariato
EAGLES
+
+
+
+
+
+
TUT
+
+
+
+
-
CT
+
+
+
+
+
+
D.A.
+
+
+
+
+
+
VIT
+
+
+
+
+
+
Tabella 1
Anche rispetto al ‘grado’ della categoria “Aggettivo” e “Avverbio” non c’è accordo completo.
Innanzitutto, non tutti gli schemi lo prevedono. Solo EAGLES, CT e Dialoghi_Annotati prevedono
il ‘grado’ dell’aggettivo e solo EAGLES e CT associano il ‘grado’ all’avverbio. Anche TUT e VIT
prevedono la possibilità di annotare questo tratto, come sottocategoria classificatoria. Come
illustrato nella Tabella 2, EAGLES e CT prevedono i medesimi valori associati al tratto, mentre in
Dialoghi_Annotati viene marcato solo il valore ‘superlativo’ relativo all’aggettivo, dal momento
che il valore ‘positivo’ è dato come default. Mentre in TUT l’informazione relativa al ‘grado’
dell’aggettivo non è classificata, in VIT è marcata come sottocategoria classificatoria (S). Sia in
TUT sia in VIT l’informazione relativa al ‘grado’ dell’avverbio è marcata unicamente come
sottocategoria classificatoria (S).
Positivo
Aggettivo Comparativo
Superlativo
Positivo
Avverbio Comparativo
Superlativo
EAGLES
+
+
+
+
+
+
TUT
S
S
86
CT
+
+
+
+
+
+
D.A.
+
-
VIT
S
S
S
Tabella 2
b) I tratti associati alla categoria “Verbo”
Tra tutti gli schemi di annotazione esaminati solo CoLFIS e AVIP/API non associano alcun tratto
alla categoria “Verbo”. Tuttavia, tra gli altri schemi non c’è uniformità nella codifica del ‘modo’ e
del ‘tempo’ e nei valori associati. In particolare,
• in EAGLES, TUT, CT e VIT al ‘modo’ con valore ‘indicativo’, congiuntivo’,
‘condizionale’, ‘imperativo’, ‘infinito’, ‘gerundio’ e ‘participio’ sono associati tutti i
rispettivi tempi tra i seguenti valori: ‘presente’, ‘imperfetto’, ‘passato’ e ‘futuro’;
• in LaRepubblica ai modi con valore ‘finito’, ‘infinito’, ‘gerundio’ e ‘participio’ non è
associato alcun tempo; solo nel caso del ‘participio’ è associato il ‘tempo’ che può avere
valore ‘presente’ o ‘passato’;
• in NUNC al ‘modo’ con valore ‘congiuntivo’, ‘condizionale’, ‘gerundio’, ‘infinito’ e
‘participio’ è associato il ‘tempo’ solo al valore ‘congiuntivo’ (‘presente’ e ‘imperfetto’) e al
valore ‘participio’ (‘presente’ e ‘passato’); inoltre il ‘tempo’ con valore ‘presente’, ‘futuro’ e
‘imperfetto’ non è associato al ‘modo’;
• in CiT il ‘modo’ ha gli stessi valori che ha in NUNC, oltre al valore ‘indicativo’, così come
sono gli stessi i tempi e i valori associati, oltre ai valori ‘presente’, ‘passato remoto’ e
‘imperfetto’ associati all’indicativo; inoltre il ‘tempo’ ‘futuro’ può essere associato a
qualsiasi verbo.
Inoltre, non c’è uniformità tra gli schemi per quanto riguarda la classificazione dell’ausiliare. In
particolare:
• in EAGLES, TUT, CoLFIS, CT, VIT, D_A e CiT l’informazione relativa alla presenza di un
ausiliare è codificata come una sottocategoria associata alla categoria “Verbo”;
• in LaRepubblica l’ausiliare è una categoria sé stante;
• in CORIS/CODIS_distribuzionale, NUNC, Lablita e AVIP/API l’informazione non è
annotata del tutto.
Tra gli schemi c’è invece uniformità di classificazione per quanto riguarda l’informazione relativa
alla codifica di un verbo modale. In particolare in LaRepubblica, TUT, CT e VIT tale informazione
è codificata come una sottocategoria associata alla categoria “Verbo”. In EAGLES,
CORIS/CODIS_distribuzionale, NUNC, Lablita, AVIP/API e CiT l’informazione non è annotata
del tutto.
c) La codifica di particelle clitiche, di nessi clitici, di nessi verbo/enclitico
Il confronto tra schemi di annotazione, nonché le analisi dei criteri di annotazione (quando
disponibili) e le ricerche condotte direttamente sul corpus (quando interrogabile), hanno rivelato che
l’annotazione di particelle clitiche, di nessi clitici e di nessi verbo/enclitico è una delle zone di
maggiore non uniformità tra gli schemi esaminati. Tale considerazione riflette due aspetti peculiari
dei clitici delineati in Simone 1983, il fatto cioè che «i clitici sono, da qualunque prospettiva teorica
li si guardi, uno dei più pronunciati ed enigmatici ‘caratteri originali’ dell’italiano» e la
constatazione che i clitici siano «così mediocremente descritti», perché, tra le altre ragioni, «la
raccolta e la classificazione dei fatti sono di solito troppo sommarie e affrettate e tendono a dare per
scontate una quantità di conoscenze e di informazioni che invece devono essere portate alla luce».
La Tabella 3 riassume quanto descritto di seguito. È da notare che il semplice confronto tra schemi
non è stato di per sé sufficiente per reperire le seguenti informazioni; è stato cioè necessario far
riferimento ai criteri di annotazione, laddove essi fossero disponibili30.
30
I punti interrogativi presenti nella Tabella 3 sono pertanto dovuti a lacune nel reperimento dei dati.
87
•
•
•
In EAGLES i clitici sono classificati con la categoria “Pronome”, ‘personale’. Lo standard non
prevede una classificazione specifica dei nessi clitici né dei nessi verbo/enclitico. Dal momento
che l’esplicita individuazione di tali nessi appartiene a un livello precedente di analisi del testo,
quello cioè di segmentazione (tokenizzazione) del testo in unità-parola, le modalità di
classificazione differiscono di volta in volta a seconda dei criteri adottati in questa fase
preliminare all’annotazione morfosintattica del testo.
In LaRepubblica è prevista la categoria morfosintattica “clitico”, specifica per l’annotazione
delle particelle clitiche e di nessi clitici (del tipo glielo). Inoltre, ricerche condotte direttamente
sul corpus hanno rivelato che in formazioni del tipo “c’è” il ci esistenziale è stato annotato con
la categoria “Avverbio”. Per la classificazione di particelle clitiche in posizione enclitica è
prevista un’etichetta di sottocategorizzazione classificatoria (“con clitico”) associata alla
categoria “Ausiliare”, “Verbo pieno” e “Verbo, modale/causale”.
In TUT, oltre alla sottocatecategoria ‘personale’, alla categoria “Pronome” sono associate le
seguenti sottocategorie: ‘locativo’ e ‘riflessivo-impersonale’, per l’annotazione dei clitici.
Inoltre, ricerche condotte direttamente sul corpus hanno rivelato che le forme clitiche del
“Pronome, personale” sono marcate dall’etichetta CLITIC (“clitico”).
È stato possibile verificare che le particelle clitiche in posizione enclitica sono annotate in modo
sottospecificato: ad una forma verbale con clitico viene associata la categoria “Verbo”
corrispondente seguita dalle etichette di categorizzazione morfosintattica relative al clitico
associato. Nel seguente estratto dal corpus, ad esempio, al nesso verbo/enclitico sintonizzarci è
associata la categoria e i tratti morfologici della forma verbale, nonché la categoria
morfosintattica relativa alla particella enclitica ci, cioè “Pronome, personale”:
sintonizzarci (SINTONIZZARE VERB MAIN INFINITE PRES TRANS)
1 sintonizzarci (CI PRON PERS ALLVAL PL 1 LOBJ+LIOBJ CLITIC)
La classificazione dei nessi clitici è risolta nello stesso modo, associando a ciascun clitico la
categoria morfosintattica corrispondente. Nel seguente estratto dal corpus, ad esempio, al nesso
glielo è stata associata la categoria “Pronome, personale”, corrispondente al pronome gli, e la
medesima categoria morfosintattica al pronome lo:
glielo (GLI PRON PERS ALLVAL ALLVAL 3 LIOBJ CLITIC)
1 glielo (LO PRON PERS M SING 3 LOBJ CLITIC)
•
•
•
Per l’annotazione di particelle clitiche CORIS/CODIS_distribuzionale non fornisce sufficienti
indizi di analisi dal momento che non include una classificazione in categorie morfosintattiche
direttamente confrontabili con gli altri schemi di annotazione presi in considerazione.
Dal momento che CoLFIS non prevede sottocategorie classificatorie, i criteri di
lemmatizzazione e annotazione adottati hanno stabilito che nel caso dei clitici venisse associata
la categoria “Pronome” o “Avverbio” disambiguandone di volta in volta il valore.
I nessi clitici sono stati considerati come due pronomi distinti.
Ricerche condotte direttamente sul lemmario hanno rivelato che i casi di clitici in posizione
enclitica sono stati considerati separatamente dalle forme verbali in cui ricorrono e dunque
annotati come N IN V@ (“pronome in una parola sintagmatica verbale”), come ad esempio nel
caso di –la, -ne, -ci. A loro volta, inoltre, le forme verbali con enclitico, come ad esempio
vediamoli, vederne, vendendone, sono state associate alla categoria “verbo” (V) e annotate come
“parole sintagmatiche verbali” (V@).
Ricerche condotte sul corpus NUNC hanno rivelato che, oltre alla sottocatecategoria
‘personale’, alla categoria “Pronome” sono associate le seguenti sottocategorie: ‘riflessivo’ e
‘dimostrativo’, per l’annotazione dei clitici e dei nessi clitici. Ai clitici può anche essere
attribuita la categoria “Avverbio”. I nessi verbo/enclitico sono considerati un elemento unico al
88
quale è associata la categoria “Verbo” corrispondente, senza alcuna esplicita annotazione della
presenza di un clitico in posizione enclitica.
• I criteri adottati per l’annotazione di CT hanno stabilito che venissero distinti i tre seguenti casi:
a. clitico ‘pronominale’ con valore dimostrativo, al quale assegnare la categoria “Pronomedeterminante”, dimostrativo, atono (es. dammene, non ci credo);
b. clitico ‘avverbiale’, con valore neutro o locativo, al quale è stato assegnata la categoria
“Avverbio”, particella (es. vattene, se ne va, non ci entra);
c. clitico ‘personale’, al quale è stata assegnata la categoria “Pronome-determinante”,
personale, atono, obliquo (es. ne dice, non ci conviene).
Come illustrato in fase di rassegna generale degli schemi di annotazione considerati, i criteri
adottati in CT prevedono che tutti gli elementi “grafoclitici” siano considerati un elemento unico
a cui attribuire la categoria morfosintattica corrispondente. Ricerche condotte direttamente sul
corpus hanno rivelato così che , ad esempio, ad un nesso come glielo vengono assegnate le
seguenti etichette, che rendono esplicita la categoria morfosintattica del “Pronomedeterminante”, personale, atono, in caso obliquo, gli e del “Pronome-determinante”, personale,
atono, in caso obliquo, la (|pd.per.w.ob|):
glie/gli/|pd.per.w.ob|/glie ÷lo/÷lo/|pd.per.w.ob |/÷lo
I medesimi criteri sono seguiti per l’annotazione di nessi verbo/clitico in posizione enclitica. Nel
caso, ad esempio di darloti viene realizzata la seguente annotazione, che rende esplicita la
categoria associata al “Verbo”, pieno, di forma finita, indicativo, futuro (|v.m.f.ind.ft|) daro, la
categoria “Pronome-determinante”, personale, atono, in caso obliquo associata sia a lo sia a ti:
daro/dare/|v.m.f.ind.ft|/glie ÷lo/lo/|pd.per.w.ob|/lo
÷ti/÷ti/|pd.per.w.ob|/÷ti
•
•
•
•
Non avendo a disposizione espliciti criteri di annotazione di Lablita né il corpus di riferimento
annotato, non è possibile verificare in che modo è realizzata l’annotazione di particelle clitiche
né dei nessi.
AVIP/API prevede che ai clitici sia associata la categoria “Pronome/determinatore”, attribuita a
parole del tipo te, questo, lo, ecc.., e la categoria “Unico”, attribuita alle occorrenze di “ci/ce”
esistenziale. I casi di nessi clitici e di clitici in enclisi verbale sono stati trattati associando alla
medesima, unica, parola ortografica le rispettive, distinte, categorie morfosintattiche.
VIT prevede la sottocategoria ‘clitico’ da associare alla categoria “Pronome”; a tale
sottocategoria viene inoltre attribuito il caso ‘locativo’, ‘accusativo’ o ‘dativo’. Lo schema
prevede inoltre tra i tratti di sottocategorizzazione classificatoria (SFEATS) generali il tratto
“verbo con enclitico”.
In Dialoghi_Annotati, oltre alla sottocatecategoria ‘personale’, alla categoria “Pronome” è
associata per l’annotazione dei clitici la sottocategoria ‘dimostrativo’, di genere ‘comune’ e
numero ‘invariato’. Ai clitici può anche essere attribuita anche la categoria “Avverbio”.
I criteri di annotazione prevedono che qualora una forma ortografica contenga un clitico, essa
viene decomposta nei suoi costituenti morfologici, ciascuno dei quali riceve un’annotazione
separata, secondo il modello seguente:
amarlo
amare lemma=”AMARE” pos=”V” mfeats=”lo”
lo lemma=”LO” pos=”PQ” mfeats=”MS”
•
In CiT è prevista la categoria specifica “Clitico” per l’annotazione delle particelle clitiche e di
nessi clitici. Inoltre, alla categoria “Pronome” è associata la sottocategoria ‘ci’ per l’annotazione
del nesso ‘ci + verbo essere’. Ai clitici può anche essere attribuita anche la categoria
“Avverbio”.
89
•
Come previsto da LaRepubblica, anche in CiT per la classificazione di particelle clitiche in
posizione enclitica è prevista un’etichetta di sottocategorizzazione classificatoria (“con clitico”)
associata alla categoria “Verbo”.
Dalla presente rassegna comparativa si può notare che solo in due casi, LaRepubblica e CiT, è
prevista una categoria specifica (“Clitico”) per l’annotazione di particelle clitiche e di nessi clitici; e
solo VIT prevede una sottocategoria specifica (“clitico”) associata alla categoria “Pronome” per
l’annotazione di clitici. In tutti gli altri schemi questo tipo d’informazione è codificata con una serie
di etichette morfosintattiche non specifiche.
Nella maggior parte degli schemi l’annotazione di un clitico in enclisi rispetto ad un verbo è resa
esplicita marcandone la presenza.
Segue una tabella sinottica (Tabella 3).
90
Schema di
annotazione
EAGLES
LaRepubblica
TUT
CORIS/CODIS
distribuzionale
CoLFIS
Categorie e sottocategorie specifiche per l’annotazione di particelle clitiche
Categoria: “Pronome”
Categoria:
Categoria:
Altra categoria
Sottocategoria:
Altra
“Avverbio”
“Clitico”
‘personale’
sottocategoria
+
+
‘locativo’
+
‘riflessivoimpersonale’
?
?
Nessuna sottocategoria associata
?
?
Nessi
Verbo/enclitico
“Verbo, con clitico”
“Clitico”
“Verbo” + “Pronome”
“Pronome” +
“Pronome”
?
?
+
-
-
“Parola sintagmatica
verbale”
“Pronome in una
parola sintagmatica
verbale”
NUNC
+
‘riflessivo’
‘dimostrativo’
+
-
-
“Verbo”
CT
+
‘dimostrativo’
+
-
-
“Verbo” + categoria
Lablita
?
?
-
-
-
-
AVIP/API
?
Nessuna sottocategoria associata
“Unico”
?
“Verbo” + “Pronome”
VIT
-
‘clitico’
-
-
-
SFEATS ‘verbo con
enclitico’
Dialoghi_Annotati
CiT
+
-
‘dimostrativo’
‘ci’
+
+
+
-
“Verbo” + categoria
“Verbo, con clitico”
Tabella 3
91
Nessi clitici
?
Due elementi
distinti
Elemento unico
Due elementi
distinti
?
Due elementi
distinti
?
?
“Clitico”
d) La codifica di elementi che esprimono determinazione
Un’altra area problematica di codifica dell’informazione morfosintattica è quella relativa agli
elementi che esprimono ‘determinazione’. La rassegna comparativa degli schemi di annotazione ha
messo in luce il frequente uso combinato sia di etichette morfosintattiche categoriali (“Articolo”)
sia di etichette con valore ‘funzionale’ (“Determinante”, “Predeterminante”, “Pronomedeterminante”). Inoltre, sono anche diverse le sottocategorie associate ai diversi tipi di categorie. La
Tabella 4 riassume brevemente le categorie previste dai diversi schemi, riportando quanto descritto
in modo più dettagliato nella parte relativa agli “Articoli e Determinanti”.
Schema di
annotazione
EAGLES
LaRepubblica
TUT
C./C._distr. 31
CoLFIS
NUNC
CT
Lablita
AVIP/API
VIT
D_A
CiT
+
+
+
+
+
-
+
“Pronome –
determinante”
-
+
+
+
+
+
-
+ 32
+
+
+
+
-
+
+
-
“Articolo”
“Determinante” “Predeterminante”
Tabella 4
L’analisi degli schemi di annotazione esistenti per la lingua inglese scritta ha rivelato che la diffusa
problematicità di questa area di codifica. Lo schema utilizzato per l’annotazione del British
National Corpus33, standard riconosciuto per molti tipi di analisi computazionali sulla lingua inglese
(scritta e parlata), prevede 2 classi di etichette:
• AT0 = article
• DPS DT0 DTQ = determiner-pronoun
Pertanto, un articolo è definito come una parola determinante posta all’inizio di un sintagma
nominale, di cui non rappresenta la testa. Esempi sono a/an, the, no e every annotati come nelle
frasi che seguono:
Have <w AT0>a break
<w AT0>Every year
There's <w AT0>no time
Data la grande sovrapponibilità sia dal punto di formale e sia dal quello funzionale dei
determinanti e dei pronomi, è stato deciso di riunire sotto la medesima categoria D (determiner)
parole che svolgono entrambe le funzioni. Esempi sono that, few, both, another annotati come nelle
frasi che seguono:
at <w DT0>all times of the day
free secondary education for <w DT0>all
<w DT0>Few diseases are incurable
31
CORIS/CODIS_distribuzionale prevede la categoria “argument-operator” (ARG), che include tutte quelle parole che
svolgono dal punto di vista distribuzionale una funzione simile a quella di determinanti, introducendo strutture
argomentali dipendenti per lo più da verbi
32
NUNC, Lablita, CiT prevedono che la categoria “Determinante” sia associata solo ad articoli determinativi e
indeterminativi.
33
http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm#contents
92
for the benefit of the <w DT0>few
I pronomi-determinanti interrogativi (wh-) e anche i pronomi relativi sono annotati come DTQ.
Esempi sono which e what annotati come nelle frasi che seguono:
<w DTQ>Which country do you live in?
And she didn't say <w DTQ>which?
<w DTQ>What time is it?
I pronomi possessivi pre-nominali sono annotati DPS. Nell’esempio seguente,
<w DPS>my hat
Soluzioni diverse sono invece state adottate dallo schema di annotazione morfosintattica utilizzato
nell’ambito del Penn Treebank Project 34 per l’annotazione su più livelli di corpora di lingua scritta
inglese americana. In questo caso è prevista un’unica categoria “Determiner” (DT) che comprende
due sottocategorie, “Predeterminer” (PDT) e “Wh-Determiner” (WDT). I criteri di annotazione
prevedono che
• DETERMINER (DT) comprenda
o gli articoli a(n), every, no, the
o i determinanti indefiniti another, any, some, each, either, neither, that, these, this,
those
o all e both quando non precedono un determinante o un pronome possessivo (come
all roads o both times)
o anche i casi in cui il determinante sia usato in funzione pronominale; es. I can’t stand
this/DT, either/DT would be fine
• PREDETERMINER (PDT) comprenda
o elementi che apparterrebbero alla categoria DT ma che precedono un determinante o
un pronome possessivo; es. all/PDT his marbles, both/PDT the girls
o casi di aggettivi che precedono un determinante in un sintagma nominale; nel caso,
ad esempio, del seguente sintagma such a good time, such verrà etichettato come un
PDT; nel caso, invece, such occorra dopo, come in the only such case, verrà etichetta
come un aggettivo dal momento che non ci può essere più di un determinante in un
sintagma nominale.
• WH-DETERMINER (WDT) comprenda
o parole wh- che precedono un nome, es. what/WDT kind would you want?, be sure to
wash whatever/WDT fruit you buy
o which e that quando sono usati come pronomi relativi.
34
http://www.cis.upenn.edu/~treebank/
93
5 Sviluppi futuri: verso l’annotazione sintattica
Come riportato nella Sezione 2, i corpora usati per l’applicazione di alcuni degli schemi di
annotazione morfosintattica analizzati prevedono un ulteriore livello di annotazione sintattica (cfr.
TUT e VIT). Inoltre, l’analisi comparativa condotta ha rivelato che, a volte, l’informazione sulla
struttura sintattica di un testo viene codificata già a livello di annotazione dell’informazione
morfosintattica. Nella Sezione 4 si sottolinea infatti la necessità di tenere distinti i diversi livelli di
codifica dei diversi tipi d’informazione linguistica. L’analisi comparativa realizzata nel Rapporto ha
al contrario individuato casi in cui tali livelli non vengono separati. È il caso, ad esempio, degli
schemi TUT e VIT, i quali contengono già a livello di annotazione morfosintattica etichette di
sottocategorizzazione sintattica, come ad esempio il tratto di ‘transitività’ associato alla categoria
“Verbo”. Inoltre, l’assenza di uniformità tra gli schemi analizzati nella codifica dei clitici e degli
ausiliari (vedi Sezione 4, parti b) e c)) ha rivelato come i confini tra l’annotazione di informazione
morfosintattica e sintattica siano oggetto ampiamente dibattuto.
Pertanto, la necessità di un livello di codifica dell’informazione sintattica, da un lato, e la presenza
di questioni aperte riguardo ai rapporti esistenti tra categorie di annotazione morfosintattica e
sintattica, dall’altro, implicano che la trattazione di questioni relative all’annotazione
dell’informazione sintattica richieda una trattazione separata.
Tra i possibili sviluppi futuri del presente Rapporto Tecnico si è dunque pensato ad una rassegna
comparativa degli schemi esistenti per l’annotazione sintattica dell’italiano scritto e parlato. A
questo scopo, una metodologia specifica, diversa cioè da quella seguita nel confronto tra gli schemi
esistenti di annotazione morfosintattica, è necessaria. Una differenza fondamentale da tenere in
considerazione è che, mentre nell’annotazione morfosintattica l’informazione linguistica da rendere
esplicita è a livello della singola parola, la fase di annotazione sintattica riguarda la struttura
grammaticale di un’intera frase. Pertanto, un confronto degli schemi di annotazione sintattica non
potrà limitarsi a prendere in considerazione le singole etichette associate ai singoli costituenti
sintattici. Dal momento che la natura stessa dei costituenti sintattici è oggetto di discussione teorica,
un approccio metodologico che si ritiene affidabile consiste nel mettere in luce alcuni parametri
significativi di variazione, rispetto ai quali confrontare gli schemi esistenti. In particolare, un futuro
lavoro di confronto comparativo potrà prendere le mosse da alcune delle dimensioni di variazione
identificate e illustrate in Montemagni 1992, che riguardano in particolare:
• il tipo di rappresentazione sintattica, rappresentazione a costituenti (chunking) o
rappresentazione a dipendenze;
• il tipo di etichette associate a ciascun nodo della struttura sintattica (etichettatura categoriale
o funzionale);
• la presenza di rappresentazioni sottospecificate come conseguenza di un’organizzazione
gerarchica delle relazioni di dipendenza, utili per il trattamento di costruzioni realmente
ambigue o controverse;
• la profondità di incassamento nelle rappresentazioni (solo per schemi di rappresentazione a
costituenti) (superficiale o profonda).
Come nel caso della rassegna comparativa degli schemi di annotazione morfosintattica, anche nel
caso degli schemi esistenti per la codifica dell’informazione sulla struttura sintattica delle frasi di un
corpus la necessità di disporre dei criteri di annotazione dovrà essere parte integrante di un lavoro di
analisi comparativa. A maggior ragione in un ambito teorico così spinoso, la definizione del
semplice contenuto dello schema di annotazione è molto poco informativa se non è accompagnata
da una descrizione dettagliata delle modalità della sua applicazione sul testo di riferimento.
Oltre a queste questioni di annotazione, sarà necessario tenere in considerazione un altro aspetto
generale, quello cioè relativo all’annotazione sintattica di corpora di parlato. Sarà pertanto
fondamentale affrontare i problemi specifici legati all’annotazione sintattica di fenomeni che
caratterizzano la lingua parlata rispetto alla lingua scritta. A cominciare dalla nozione canonica di
94
“frase” della lingua scritta, tutta una serie di fenomeni linguistici propri della lingua parlata
dovranno essere tenuti in considerazione. In questo senso, si ritiene che un punto di partenza
affidabile possa essere l’analisi dello stato dell’arte condotta nell’ambito del progetto “Dialoghi
Annotati”35.
35
http://www.ilc.cnr.it/dialoghiannotati_prg/papers/DialoghiAnnotati_Linea1.1_SpecificheTecniche.pdf
95
6 Bibliografia
Barbera M. e Marello C. (2003), Corpus Taurinense: italiano antico annotato in modo nuovo, in
Maraschio N. e Poggi Salani T. (a cura di), Italia Linguistica anno Mille – Italia linguistica anno
Duemila. Atti del XXIV Congresso internazionale di studi della Società di Linguistica italiana
(SLI), Firenze 19-21 ottobre 2000, Roma, Bulzoni, pp. 685-693.
Barbera M., Corino E., Onesti C. (a cura di) (2007), Corpora e linguistica in rete, Perugia, Guerra
Edizioni.
Baroni M., Bernardini S., Comastri F., Piccioni L., Volpi A., Aston G., Mazzoleni M. (2004),
Introducing the La repubblica Corpus: a Large, Annotated, TEI(XML)-Compliant Corpus of
Newspaper Italian, in Proceedings of Conference on Language Resources & Evaluation, (LREC
2004),
Lisbona,
26-28
maggio
2004,
disponibile
on-line
alla
pagina
http://dev.sslmit.unibo.it/corpora/downloads/rep_lrec_2004.pdf
Bernardi, R., Bolognesi, A., Seidenari, C., Tamburini, F. (2006), POS tagset design for Italian, in
Proceedings of Conference on Language Resources & Evaluation (LREC 2006), Genova.
Boella G. e Lesmo L.(1998), Automatic Refinement of Linguistic Rules for Tagging, in Proceedings
of Conference on Language Resources & Evaluation, (LREC 1998), Granada.
Corino E. (2007), NUNC est disputandum. Aspetti della testualità e questioni metodologiche, in
Barbera M., Corino E., Onesti C. (a cura di), Corpora e linguistica in rete, Perugia, Guerra
Edizioni, pp. 225-252.
De Mauro T., Mancini F., Vedovelli M., Voghera M. (1993), Lessico di frequenza dell'italiano
parlato, Etas, Milano.
Delmonte R., Bristol A., Chiran L., Bacalu C., Tonelli S. (2004), Parsing the oral corpus AVIP/API
(Progetto AVIP/API - Unità di Ricerca dell'Università "Ca' Foscari" di Venezia), Albano Leoni A.,
Cutugno F., Pettorino M., Savy R.(a cura di), Atti del Convegno "Il Parlato Italiano", M.D'Auria
Editore, N08, 1-19.
Delmonte R., Bristol A., Tonelli S. (2007), VIT – Venice Italian Treebank: Syntactic and
Quantitative Features, in Proceedings of the Sixth International Workshop on Treebanks and
Linguistic Theories. Editors: Koenraad De Smedt, Jan Hajič and Sandra Kübler. NEALT
Proceedings Series, Vol. 1 (2007), 43-54.
Delmonte R., Pianta E. (1996), IMMORTALE – Analizzatore
Morfologico, Tagger e
Lemmatizzatore per l'Italiano, in Atti Convegno Nazionale AI*IA Cibernetica e Machine Learning,
Napoli, pp. 19-22.
Laudanna, A., Thornton, A.M., Brown, G., Burani, C. e Marconi, L. (1995). Un corpus dell’italiano
scritto contemporaneo dalla parte del ricevente. In S. Bolasco, L. Lebart e A. Salem (a cura di), III
Giornate internazionali di Analisi Statistica dei Dati Testuali. Volume I, pp.103-109. Roma: Cisu
Lenci A., Montemagni S., Pirrelli V. (2005), Testo e computer, Roma, Carocci.
96
Lesmo L., Lombardo V. e Bosco C. (2002), Treebank Development: the TUT Approach, in
R.Sangal and S.M.Bendre (eds.): Recent Advances in Natural Language Processing, Vikas Publ.
House, New Delhi, 2002, 61-70.
Monachini M. (1996), ELM-IT: EAGLES Specifications for Italian Morphosyntax –Lexicon
Specifications and Classification Guidelines, Pisa, EAGLES Technical Report, disponibile on-line
alla pagina http://www.ilc.cnr.it/EAGLES/elm_it/elm_it.html
Monachini M. e Östling A. (1992), Morphosyntactic Corpus Annotation – A Comparison of
Different Schemes, Technical Report NERC-60, ILC, Pisa.
Montemagni S. (1992), Syntactically annotated corpora: comparing the underlying annotation
schemes. NERC - Working Paper, Istituto di Linguistica Computazionale, Pisa.
Panunzi A, Picchi E., Moneglia M. (2004), Using PiTagger for lemmatization and PoS Tagging of
a Spontaneous Speech Corpus: C-Oral-Rom Italian, in M.T Lino, M.F. Xavier, F. Ferraira, R.
Costa, R. Silva (eds) Prococeedings of the 4th LREC Conference , vol. 2, ELRA, Paris, pagg: 563566.
Picchi, E. (1994), Statistical Tools for Corpus Analysis: A Tagger and Lemmatizer of Italian, In
Proceedings of EURALEX 1994. Amsterdam.
Rossini Favretti R., Tamburini F. e De Santis C. (2002), CORIS/CODIS: A corpus of written Italian
based on a defined and a dynamic model. In A. Wilson, P. Rayson, and T. McEnery, editors, A
Rainbow of Corpora: Corpus Linguistics and the Languages of the World, pages 27–38. Munich:
Lincom-Europa.
Schmid H.(1994), Probabilistic Part-of-Speech Tagging using Decision Trees, International
Conference on New Methods in Language Processing.
Simone R., (1983), Punti di attacco dei clitici in italiano, in Albano Leoni, Federico et al. (a cura
di), Italia linguistica: idee, storia, strutture, Bologna, Il Mulino, pp. 285-307.
Spina S. (2000), Il Corpus di Italiano Televisivo (Cit): struttura e annotazione, in Atti del
Convegno SILFI 2000 (Duisburg, 28 giugno-1 luglio 2000), Franco Cesati.
97