Uno schema di annotazione funzionale per l`italiano

Uno schema di annotazione funzionale per l’italiano
Vito Pirrelli, Francesco Barsotti, Alessandro Lenci e Stefano Molino
Istituto di Linguistica Computazionale, CNR, Area della Ricerca S. Cataldo,
v. Moruzzi 1, 56100 Pisa, Italy
Abstract. In questo articolo illustriamo lo schema di annotazione funzionale
per l’italiano elaborato nell’ambito del progetto SI-TAL e discutiamo alcuni dei
problemi incontrati nel corso dell’applicazione dello schema a un corpus
testuale di 300.000 parole, e della strategia generale adottata per la loro
soluzione.
1
Introduzione
Uno schema di annotazione testuale si compone di un insieme di etichette (o glosse al
testo) da applicare alle parole che formano il testo, e di istruzioni per il loro uso
contestualmente appropriato. L’obiettivo di uno schema di annotazione funzionale è
quello di aggiungere al testo l’informazione linguistica relativa alle relazioni di
dipendenza funzionale (o relazioni grammaticali) che sussistono tra parole, come ad
esempio la relazione di soggetto di un verbo (ad esempio Maria in Maria piange), o
quella di oggetto diretto (sempre rispetto a un verbo: ad esempio lettera in Maria
scrive una lettera), o ancora il modificatore di un sostantivo (ad esempio l’aggettivo
funzionale in annotazione funzionale) e via dicendo. La fase di annotazione vera e
propria, cioè di etichettatura del testo, rappresenta un banco di prova importante della
adeguatezza descrittiva di uno schema di annotazione linguistica e del suo grado di
copertura. Le pagine che seguono sintetizzano i risultati di questa verifica empirica
condotta sullo schema di annotazione funzionale messo a punto per la Treebank di SITAL.
Le specifiche relative all’annotazione funzionale della Treebank di SI-TAL (Autori
vari, 2001) hanno preso le mosse dallo schema di annotazione elaborato nell’ambito
del progetto europeo SPARKLE (LE-2111, Carroll et al. 1996). In particolare,
abbiamo fatto riferimento ad una versione rivista e aggiornata di questo schema, nota
come F.A.M.E (Functional Annotation Meta-scheme for Evaluation), messa a punto
per consentirne l’uso in campagne di valutazione per analizzatori sintattici (progetto
ELSE, LE4-8340, Lenci et al. 1999a, 1999b, 2000). Le specifiche e i criteri di
annotazione che seguono sono il risultato di un ulteriore processo di revisione e
specializzazione di F.A.M.E. alla luce delle peculiarità della lingua italiana, e in vista
del suo utilizzo come schema di annotazione per una banca di dati testuali annotati a
più livelli. Per quanto riguarda le motivazioni per l’adozione di F.A.M.E. come
schema di annotazione del livello funzionale della Treebank di SI-TAL si rimanda a
Montemagni (in questo volume).
Va premesso che non tutte le strategie di annotazione adottate per la Treebank di
SI-TAL hanno consentito un trattamento coerente e soddisfacente di tutti i fenomeni
rilevanti. Il trattamento al livello sintattico-funzionale delle costruzioni comparative,
ad esempio, costituisce un caso particolarmente istruttivo dell’inadeguatezza della
riflessione teorica sull’argomento e dell’insufficienza espressiva dei sistemi di
rappresentazione al momento disponibili nella letteratura. Ciononostante, al termine
di questo sforzo di annotazione, è stato possibile mettere a punto una mappa
dettagliata delle zone relativamente più “battute” e familiari della linguistica teorica e
computazionale italiana, e individuare, al tempo stesso, quelle aree che ancora oggi
sfuggono a una caratterizzazione formalmente adeguata.
2
Lo schema
Gli elementi di base dello schema di annotazione funzionale di SI-TAL sono relazioni
funzionali, e cioè relazioni binarie tra partecipanti. I partecipanti ad una relazione
funzionale possono essere scelti soltanto tra le parole “piene” di un testo, e cioè quelle
parole appartenenti a una classe lessicale “maggiore”: i sostantivi, i verbi, gli aggettivi
e alcuni avverbi. Sono quindi automaticamente escluse dal ruolo di partecipanti ad
una relazione funzionale classi “minori” di parole quali i determinativi, gli ausiliari, i
complementatori, le preposizioni, ecc., cioè tutto quell’insieme chiuso di parole del
lessico italiano che svolgono tipicamente la funzione di connettivi grammaticali, cioè
di elementi lessicali privi di significato referenziale, aventi la funzione di marcatori di
relazioni grammaticali tra le unità lessicali appartenenti alle classi maggiori (Beard,
1995). L’informazione riguardante questi connettivi grammaticali è comunque
codificata mediante tratti associati ai partecipanti della relazione, come vedremo più
avanti.
Ciascuna relazione funzionale può essere rappresentata come segue:
tipo_di_relazione (partecipante_1.<tratti_distintivi>,
partecipante_2.<tratti_distintivi>)
Il “tipo_di_relazione” specifica la relazione sussistente tra i due partecipanti. Ogni
partecipante può anche ricevere una caratterizzazione rispetto ad un insieme di tratti
che sono considerati rilevanti rispetto alla relazione che li lega.
Le relazioni di dipendenza costituiscono un tipo particolare di relazione funzionale.
Nel caso specifico, una relazione di dipendenza è costituita da una relazione binaria
asimmetrica sussistente tra una testa ed un dipendente.
relazione_di_dipendenza (testa.<tratti_distintivi>,
dipendente.<tratti_distintivi>)
La tipologia di relazioni di dipendenza è illustrata nel paragrafo che segue. Lo schema
di annotazione della Treebank di SI-TAL include anche relazioni funzionali di altro
tipo, ovvero relazioni simmetriche di congiunzione e disgiunzione per il trattamento
della coordinazione e relazioni di coreferenza per il trattamento di frasi relative ed
interrogative. Nel seguito di questo articolo, tuttavia, non ci soffermeremo su queste
relazioni funzionali simmetriche, per la cui trattazione rimandiamo il lettore
interessato alla documentazione rilevante (Autori Vari 2001).
2.1
Relazioni di dipendenza
La tipologia delle relazioni di dipendenza previste dallo schema di annotazione della
Treebank di SI-TAL è organizzata gerarchicamente, in modo tale da permettere
annotazioni più generiche o “sottospecificate”, particolarmente utili per l’annotazione
di costruzioni ambigue o controverse. In generale, una relazione fj si dice una
rappresentazione sottospecificata della relazione di dipendenza fh se è possibile
risalire a fj a partire da fj ripercorrendo a ritroso i rami della gerarchia di fig.1. In
questo caso, si dice anche che fj è un “progenitore” di fh nella nostra gerarchia. Ad
esempio la relazione “comp” sottospecifica “arg”, ma non “sogg”. Banalmente, il
nodo “dip”, in quanto vertice della gerarchia, può essere usato per sottospecificare
qualsiasi relazione. Nell’ambito di un’annotazione manuale il ricorso alla
sottospecificazione è utile per ridurre il margine di arbitrarietà nelle scelte degli
annotatori. Relazioni di dipendenza sottospecificate sono anche particolarmente
cruciali: nel caso di un’annotazione automatica, quando l’analizzatore sintattico non
abbia a disposizione l’informazione necessaria per un’analisi completamente
specificata; oppure, nell’ambito di campagne di valutazione, per evitare
penalizzazioni arbitrarie di analisi divergenti ma in qualche misura compatibili.
La gerarchia delle relazioni è strutturata come segue:
dip
sogg
comp
mod
arg
pred
non-pred
ogg_d
ogg_i
obl
Figura 1: Gerarchia di relazioni funzionali
Questa gerarchia separa il soggetto (sogg) dalle altre relazioni grammaticali,
assegnandogli una posizione più alta all’interno dell’organizzazione delle funzioni
sintattiche, come è usuale in molte teorie grammaticali (per esempio HPSG e GB).
Inoltre, raggruppando i modificatori (mod) e gli argomenti (arg) sotto lo stesso nodo
dei complementi (comp), la gerarchia ammette la possibilità di lasciare
sottospecificata la distinzione tra modificatore (o aggiunto) e argomento, distinzione
che non è sempre facile applicare, specialmente rispetto all’uso reale della lingua. Il
nodo arg è a sua volta suddiviso in pred, che raccoglie solo ed esclusivamente i
complementi predicativi classici (predicativi del soggetto e dell’oggetto), e nonpred, che sussume i complementi non-predicativi, ovvero ogg_d (per gli oggetti
diretti), ogg_i (per gli oggetti indiretti) e obl (per gli argomenti obliqui).
Si noti che al livello di annotazione funzionale si rappresentano solo quei fenomeni
che sono rilevanti per l’identificazione e la specificazione di relazioni grammaticali
(ad es. caso, diatesi, tratti di accordo etc.). Ne consegue che fenomeni come il tempo e
l’aspetto verbale, l’ambito della negazione e l’ellissi interfrasale non sono trattati a
questo livello in quanto considerati di pertinenza di un livello di rappresentazione
logico-semantica che non trova una sua collocazione nell’architettura globale della
Treebank di SI-TAL così come strutturata ad oggi. Analoga considerazione vale nel
caso delle funzioni pragmatiche di topic e focus che sono al di fuori delle finalità del
progetto in quanto sarebbero da trattare piuttosto ad un livello di rappresentazione
pragmatica. Va comunque considerato che una Treebank come questa, dove
l’annotazione è distribuita su più livelli, è aperta ad integrazioni future. I fenomeni e
le costruzioni che non trovano nella Treebank attuale una collocazione adeguata
potranno dare luogo in futuro ad espansioni ed integrazioni della risorsa.
2.1.1
Inventario delle relazioni di dipendenza
dip (testa, dipendente)
dip(endenza) è la relazione più generica tra una testa e un dipendente,
sottospecificata riguardo allo status di quest’ultimo. Come già osservato, questo
livello di sottospecificazione può essere utile nei casi in cui l’informazione
disponibile non è sufficiente per la disambiguazione. In particolare, dip può essere
utile per trattare casi di ambiguità reale tra soggetto e oggetto: ad esempio, sia chi che
Maria possono essere soggetto o oggetto nella completiva incassata della frase non so
chi abbia incontrato Maria. In casi come questo, quando il contesto non sia di aiuto a
capire chi incontra chi, si consiglia di ricorrere all’annotazione che segue:
dip (incontrare, chi)
dip (incontrare, Maria)
sogg (testa, dipendente)
Indica la relazione tra un predicato e il suo sogg(etto):
sogg (arrivare, Giovanni)
sogg (assumere, Microsoft)
programmatori
Giovanni arrivò a Parigi
La Microsoft ha assunto dieci
Paolo è stato assunto dalla
sogg (assumere, Paolo)
Microsoft
la relazione sogg viene assegnata al soggetto superficiale della testa verbale, sia essa
di forma attiva o passiva (questa informazione è, a sua volta, codificata come tratto
associato alla testa). Il soggetto logico non è marcato esplicitamente a livello di
relazione, bensì al livello di tratti associati al dipendente.
La stessa relazione sogg è anche usata per marcare il verbo in frasi completive
con funzione di soggetto. In una lingua pro-drop come l’italiano, i casi di soggetto
“nullo” o ellittico, che si verificano quando il soggetto non è superficialmente
realizzato, vengono trattati mediante un’annotazione parziale, esemplificata di
seguito:
sogg (arrivare, .<pers=1,num=sing>)
arrivai in ritardo
dove a) l’elemento dipendente non è specificato a livello lessicale e b) le
caratteristiche morfo-sintattiche del soggetto, corrispondenti alla persona, al numero e
al genere (qualora rilevante), sono codificate in termini di tratti associati al
dipendente.
La relazione sogg è usata inoltre per contrassegnare il soggetto “implicito” di
completive infinitivali con funzione di complemento in costruzioni a controllo e a
sollevamento (distinzione, questa, che non appare rilevante dal punto di vista
dell’annotazione funzionale) così come di infinitive, participiali e gerundive con
funzione di modificatore, come illustrato dagli esempi che seguono:
sogg (partire, Giovanni)
sogg (partire, Maria)
Giovanni promise a Maria di partire
Giovanni ordinò a Maria di partire
La relazione sogg è usata infine per contrassegnare il soggetto di complementi
predicativi (del soggetto o dell’oggetto), come illustrato di seguito:
sogg (intelligente, Giovanni)
sogg (intelligente, Maria)
intelligente
Giovanni è intelligente
Giovanni
considera
Maria
Con questi due ultimi insiemi di casi - il soggetto implicito di frasi completive di
modo non finito ed il soggetto di complementi predicativi - lo schema proposto va al
di là del dominio proprio della sintassi di superficie e include informazione relativa
alla struttura predicato-argomento: in particolare, fornisce indicazione esplicita i)
riguardo al soggetto del verbo nella frase incassata quando controllato da un
argomento della testa verbale della frase matrice e ii) riguardo al soggetto di
complementi predicativi. Abbiamo deciso comunque di includere questa informazione
per garantire la compatibilità della Treebank con schemi di annotazione sintattica che
marcano soggetti “impliciti” di frasi incassate (in vista, ad esempio, di un uso della
Treebank a fini di valutazione) oppure che trattano il complemento predicativo in
termini di frase ridotta selezionata dal verbo reggente.
comp (testa, dipendente)
comp marca in modo generico la relazione tra una testa ed un complemento, sia esso
modificatore o argomento. Questa relazione funzionale sottospecificata è
particolarmente utile in quei casi in cui è difficile stabilire la natura argomentale o di
modificatore del complemento. Per esempio, consideriamo la frase Giovanni spinse la
macchina verso la stazione dove, a seconda dei criteri di selezione adottati, verso la
stazione può essere considerato come un modificatore o come un argomento. La
caratterizzazione come comp riportata sotto rimane compatibile con entrambe le
analisi, non costringendo l’annotatore a decisioni arbitrarie e/o premature:
comp (spingere, stazione)
Questa relazione risulta particolarmente utile nei seguenti casi:
a) codifica della relazione tra un nome ed un suo complemento preposizionale. Si
confrontino i seguenti casi:
comp (professore, fisica)
comp (padre, Maria)
il professore di fisica
il padre di Maria
l’annotazione nei termini di comp mantiene sottospecificata la natura del
complemento, che non è sempre facile da stabilire in modo univoco.
b) codifica della relazione tra una testa ed un argomento semantico che sia
sintatticamente realizzato come un modificatore. Questo è il caso, ad esempio,
dell’agente espresso nella costruzione passiva come un complemento preposizionale
introdotto dalla preposizione “da”: la sua natura di “aggiunto tematicamente legato” è
messa in evidenza dalla sua codifica in termini di comp, come esemplificato nel
frammento di annotazione che segue:
comp (uccidere, Bruto)
fu ucciso da Bruto
Nell’annotazione della Treebank di SI-TAL il ricorso alla relazione comp è stato
limitato ai casi in cui non è stato possibile decidere se la relazione di dipendenza in
questione sia di modificazione oppure di argomento. A questo proposito, l’annotatore
ha avuto a disposizione una batteria di criteri per discriminare i due casi: i casi che
rimarranno incerti verranno annotati in modo sottospecificato, ovvero in termini di
comp.
mod (testa, dipendente)
La relazione mod sussiste tra una testa e il suo modificatore, come illustrato dai
seguenti casi:
modificazione aggettivale
mod (bandiera, rosso) una bandiera rossa
modificazione avverbiale
mod (camminare, lentamente) camminare lentamente
modificazione con sintagma preposizionale
mod (camminare, calma) camminare con calma
apposizione
mod (Picasso, pittore) Picasso il pittore
modificazione frasale
mod (camminare, parlare) camminava parlando
mod (mangiare, chiedere) ha mangiato i dolci dopo averlo chiesto
mod (mangiare, chiedere) ha mangiato i dolci senza chiedere
Confrontando gli esempi sopra, si può notare che la relazione mod copre modificatori
frasali e non.
arg (testa, dipendente)
arg indica la relazione più generica intercorrente tra una testa e un suo dipendente.
Oltre a casi in cui la sottospecificazione relativa alla funzione dell’argomento appaia
opportuna, questa relazione viene normalmente usata per etichettare la relazione
intercorrente tra una testa verbale e una completiva non soggetto (sia essa infinitiva o
meno), come illustrato dai seguenti casi:
arg (promettere, accettare) Giovanni ha promesso di accettare il lavoro
arg (ordinare, partire) Giovanni ha ordinato a Maria di partire
arg (dire, accettare) Giovanni ha detto che avrebbe accettato il lavoro
arg (informare, andare) Giovanni ha informato Maria che sarebbe andato
arg (promettere, andare) Giovanni ha promesso a Maria che sarebbe
andato
Questo tipo di codifica della funzione delle completive complemento parte dalla
constatazione dell’ampia variabilità della funzione loro assegnata nell’ambito di
diverse teorie grammaticali e di diversi analizzatori sintattici (caso che invece non si
verifica nel caso di soggetti di tipo frasale che sono di più facile identificazione). Ad
esempio, la completiva infinitivale della frase Maria ha deciso di partire è classificata
come oggetto diretto nello schema di annotazione della Constraint Grammar
(Karlsson et al. 1995) mentre è caratterizzata come complemento predicativo non
saturato (xcomp) nella LFG così come nello schema di annotazione avanzato nel
progetto europeo SPARKLE. L’analisi qui proposta, integrata con informazione
codificata in termini di tratti distintivi (si veda il tratto status discusso nella sezione 0),
rimane così comparabile e compatibile con un ampio spettro di analisi senza perdita di
informazione.
pred (testa, dipendente)
pred contrassegna la relazione che sussiste tra una testa verbale ed un complemento
predicativo, sia esso un complemento predicativo del soggetto o un complemento
predicativo dell’oggetto.
pred (essere, intelligente) Giovanni è intelligente
pred (considerare, genio)
Giovanni considera Maria un genio
La distinzione tra predicativo del soggetto e predicativo dell’oggetto è ricavabile dalla
rappresentazione complessiva della frase. Al livello della singola relazione ci
limitiamo a marcare la natura predicativa del complemento rispetto alla testa verbale.
non-pred (testa, dipendente)
Nella gerarchia delle relazioni funzionali riportata sopra, non-pred è il nodo che
raggruppa complementi non predicativi. Non si prevedono, ad oggi, casi in cui questa
relazione sia usata per trattare casi ambigui che richiedano una sottospecificazione a
questo livello.
ogg_d (testa, dipendente)
ogg_d è la relazione che sussiste tra un predicato e il suo oggetto diretto (sempre
non-frasale), cioè:
ogg_d (leggere, libro) Giovanni ha letto molti libri.
ogg_i (testa, dipendente)
ogg_i è la relazione tra un predicato e un oggetto indiretto, cioè il complemento
che esprime l’entità che accoglie l’azione espressa dal verbo, come esemplificato dai
casi che seguono:
ogg_i (parlare, Maria) Giovanni parla a Maria
ogg_i (dare, Maria) Giovanni diede a Maria il contratto
ogg_i (dare, Maria) Giovanni diede il contratto a Maria
ogg_i (parlare, le) Giovanni le parla.
Un test cruciale per l’identificazione di questa relazione è costituito dalla
pronominalizzazione dell’ogg_i con un dativo (si veda sotto).
obl (testa, dipendente)
obl è la relazione tra un predicato e un complemento non frasale, non diretto e non
indiretto, realizzato tipicamente in forma di sintagma preposizionale:
obl
obl
obl
obl
(vivere, Roma) Giovanni vive a Roma
(arrivare, aeroporto)
Giovanni arrivò all’aeroporto
(informare, arrivo)
Giovanni informò Maria del suo arrivo
(comportarsi, freddezza)Giovanni si comportò con freddezza
Come accennato sopra, la distinzione tra oggetto indiretto e complemento obliquo è
supportata dal diverso tipo di pronominalizzazione dei due complementi. Si
confrontino le seguenti coppie di frasi:
Giovanni ha dato un libro a Maria
Giovanni le ha dato un libro
Giovanni aspirava a Maria
*Giovanni le aspirava
dove a Maria è un oggetto indiretto in 1. e in quanto tale è pronominalizzato con il
dativo le, mentre è un complemento obliquo in 2., dove la pronominalizzazione con il
pronome dativo risulta in una frase sintatticamente mal formata.
La relazione obl è anche usata per marcare la dipendenza tra un verbo e
complementi avverbiali la cui selezione è governata a livello lessicale; ad esempio:
obl (comportarsi, bene) Giovanni si comportò bene.
2.2
Tratti associati agli elementi della relazione di dipendenza
Nello schema di annotazione adottato, un ruolo centrale è ricoperto dai tratti associati
ad entrambi gli elementi della relazione di dipendenza.
In ciò che segue i due insiemi di tratti sono discussi separatamente, prima i tratti
del DIPENDENTE, poi quelli della TESTA, infine quelli comuni a entrambi. Si noti che i
tratti sono aggiunti alla specificazione del DIPENDENTE e della TESTA, tra parentesi
uncinate e preceduti da un punto. Al fine di rendere l’annotazione più leggibile, negli
esempi forniti di seguito i tratti specificati sono solo quelli in corso di definizione.
Ovviamente un’annotazione completa include, per ogni elemento della relazione,
l’insieme completo dei tratti rilevanti nel contesto specifico.
2.2.1
Alcuni ratti distintivi del dipendente
introdep
Il tratto introdep è usato in una varietà di costruzioni diverse per specificare
l’elemento grammaticale, generalmente una preposizione o una congiunzione, che
“introduce” il dipendente. La natura di questo “introduttore” varia a seconda della
relazione funzionale e del tipo di dipendenza: ad esempio può trattarsi di preposizione
nel caso di complementi nominali, oppure congiunzione nel caso di completive di
modo finito. Alcuni esempi seguono:
ogg_i (dare, Maria.<introdep=“a”>)
dare a Maria
comp (uccidere, Bruto.<introdep=“da”>) fu ucciso da Bruto
arg (decidere, lasciare.<introdep=“di”>) Giovanni ha deciso di
lasciare il lavoro
caso
Il tratto caso, la cui realizzazione morfosintattica si limita in italiano ad alcuni
pronomi personali soltanto, risulta utile a supporto dell’identificazione della relazione
di dipendenza. Suoi possibili valori sono “dativo/accusativo”:
ogg_i (dare,gli.<caso=dativo>) dargli
status
Il tratto status è associato a dipendenti verbali ed è usato per discriminare tra
soggetti/complementi frasali con la valenza soggetto saturata e soggetti/complementi
frasali con soggetto controllato da dipendenze esterne. I possibili valori associati a
questo tratto sono “aperto/chiuso”:
aperto – marca un soggetto o complemento (sia esso argomento o modificatore) di
tipo frasale il cui soggetto è controllato da una testa con la quale non esiste una
esplicita e diretta relazione di dipendenza (questo implica, ad esempio, che la
relazione non è marcata dall’accordo grammaticale):
arg (decidere, partire.<status=aperto>)
Giovanni decise di partire
mod (aspettare, arrivare.<status=aperto>) essendo arrivati presto,
abbiamo aspettato l’incontro
sogg (richiedere, vincere.<status=aperto>) vincere l’America’s Cup
richiede montagne di sold.i
chiuso – marca un soggetto o complemento (sia esso argomento o modificatore)
frasale il cui soggetto non è controllato da dipendenze esterne:
arg
(dire,
partire.<status=chiuso,
disse che Maria sarebbe partita domani
introdep=“che”>) Giovanni
mod (mangiare, affamato.<status=chiuso, introdep=“perché”>) ha
mangiato il dolce perché era affamato
sogg (essere, ingoiare.<introdep=“che”, status=chiuso>) che i
governi europei debbano silenziosamente ingoiarle non è giusto
ruolo
Il tratto ruolo è usato per fornire una caratterizzazione semantica alla relazione di
dipendenza, ovvero per rendere esplicito, quando necessario, il ruolo semantico del
dipendente rispetto alla testa. Si ricorre a questo tratto quando l’informazione
sintattico-funzionale non sia sufficiente a caratterizzare in modo univoco la relazione.
Si prenda ad esempio il caso del complemento di agente in costruzioni passive: a
livello di relazione la sua codifica è in termini di comp, ma da questa codifica
(combinata con la diatesi della testa verbale) non è possibile risalire in modo certo
all’interpretazione dell'agente, informazione che per certe applicazioni (ad esempio la
traduzione automatica) è cruciale. Analoghe considerazioni valgono nel caso di
complementi temporali, locativi e comparativi. Si vedano gli esempi che seguono:
comp (uccidere, Bruto.<introdep=“da”,ruolo=agente>) fu
ucciso da Bruto
arg
(partire,
Roma.<introdep=“da”,ruolo=locativo>) è
partito da Roma
Si ricorre al tratto ruolo anche per marcare costruzioni con superlativo relativo che
prevedono una restrizione dell’ambito di applicazione dell’aggettivo, e per marcare il
grado superlativo assoluto di un aggettivo.
2.2.2
Alcuni tratti distintivi della testa
Segue un elenco dei principali tratti assegnati a una parola testa di una relazione
funzionale.
diat(esi)
Il tratto diat specifica la diatesi di una testa verbale. Suoi possibili valori sono
“attivo/passivo/medio”.
sogg (assumere.<diat=attivo>, Microsoft) La Microsoft ha assunto Paolo
sogg (assumere.<diat=passivo>, Paolo) Paolo fu assunto dalla Microsoft
sogg (vendere.<diat=medio>, casa) Paolo si diverte alla Microsoft
syn_form
Il tratto syn_form specifica la forma personale/impersonale di una testa verbale.
Questo tratto ha come possibili valori “pers / impers/ si_impers”.
sogg
(assumere.<
syn_form=pers
>,
Microsoft) La Microsoft ha
assunto Paolo
arg (bisogna.<syn_form=impers>, discutere)
Bisogna
discutere
di
queste cose
arg(dire.<syn_form=si_impers>, tornare)
Si dice che non tornerà
Con il valore “si_impers” vengono marcati quei casi in cui il “si” marca l'uso
impersonale di un verbo che solitamente ammette un soggetto (es. si va, si pensa di
arrivare domani). Secondo alcune teorie (Chierchia 1995), il “si” impersonale può
essere considerato il soggetto vero e proprio della proposizione in cui compare. La
nostra strategia di annotazione delle costruzioni impersonali consiste a) nello
specificare l'uso impersonale del verbo (marcato dal “si”) al livello della testa verbale
come esemplificato sopra e b) nell'omettere la specificazione della relazione di
soggetto (che rimane indefinito). Torneremo su questo trattamento nel paragrafo che
segue.
3
Discussione
La trasformazione di un apparato terminologico grammaticale in uno strumento
operativo per l’annotazione del testo va ben aldilà della semplice traduzione di una
serie di termini in etichette. La necessità di associare un valore a un attributo e di
raggruppare tra loro i valori definiti a seconda degli attributi ai quali sono associati,
comporta la introduzione di alcune dimensioni descrittive, e impone di comprendere il
modo in cui queste dimensioni interagiscono tra loro e la natura delle loro
correlazioni. Se dunque l’annotazione di un testo non può rappresentare un modello
esplicativo dei dati annotati, va tuttavia sottolineato che essa può svolgere, nel
migliore dei casi, il ruolo di un modello descrittivo formale, e consentire di compiere
un passo in avanti rispetto a un semplice repertorio di fatti linguistici, a una collezione
di esempi etichettati informalmente, o a una discussione impressionistica di usi
linguistici.
A questo proposito val la pena di sottolineare che una delle caratteristiche più
innovative dello schema di annotazione funzionale SI-TAL risiede, a nostro avviso,
nella sua natura multidimensionale e distribuita (Lenci et al. 1999, Lenci et al. 2000).
Lo schema offre all’annotatore la possibilità di definire un fenomeno linguistico
facendo riferimento contestualmente a più livelli di analisi linguistica, anche se questo
può ovviamente, nei casi in cui esiste correlazione tra le dimensioni linguistiche
invocate, produrre un’etichettatura ridondante. Da parte nostra abbiamo cercato,
laddove si è dimostrato possibile e ragionevole farlo, di resistere alla tentazione
riduzionistica di definire un fenomeno linguistico nei termini di alcuni tratti primitivi
indipendenti tra loro. Ritornando alla caratterizzazione della relazione soggetto, ad
esempio, la stragrande maggioranza degli schemi di annotazione sintattica
attualmente in circolazione (ad es. Carroll et al. 1996, Karlsson 1995) concorda su un
insieme di tratti che si accompagnano abitualmente a questa relazione: l’accordo col
verbo, il caso nominativo, il “controllo” sia esso lessicale o arbitrario, la posizione
strutturale del soggetto rispetto al verbo, il suo ruolo tematico prototipico e così via.
Ciononostante, sembra permanere un profondo disaccordo sul modo in cui questi
tratti sono implicati tra loro, e cioè su quali debbano essere considerati primitivi e
fondanti, e quali invece derivati e accessori.
Discutere nel dettaglio le ragioni di questo disaccordo richiederebbe lo spazio di un
articolo a sé stante. Ci limitiamo qui ad osservare che la possibilità di specificare
questi tratti in maniera distribuita, e cioè lungo più di una dimensione di analisi
linguistica, sia un modo ragionevole di aggirare il problema, al prezzo sostenibile di
un minimo di ridondanza descrittiva a livello di annotazione. La nostra esperienza di
annotazione ci autorizza a concludere che la presenza di più dimensioni descrittive
nell’etichettatura di un testo consente di utilizzare il processo di annotazione stesso
non solo come un banco di prova di un modello grammaticale, ma anche come un
vero e proprio laboratorio teorico, uno scandaglio esplorativo nella struttura del dato
linguistico testuale.
A questo proposito, è opportuno notare che alcune delle maggiori difficoltà relative
alla messa a punto dello schema di annotazione di SI-TAL non sono venute dalle aree
meno conosciute della grammatica italiana, quanto piuttosto da fenomeni linguistici
relativamente comuni, per i quali la terminologia tradizionale è già consolidata e, a
volte, ipertrofica. Nelle sezioni che seguono ci occuperemo di due di questi casi
critici: le costruzioni verbali con pronomi clitici riflessivi e le costruzioni
comparative.
3.1
Il verbo italiano e i pronomi riflessivi
In questa sezione intendiamo concentrarci sui problemi relativi all’annotazione delle
seguenti costruzioni verbali in italiano. Il si impersonale (del tipo si vede, si va, si
balla, ci si diverte), limitato alla terza persona singolare, che può applicarsi a tutti i
verbi che ammettano un soggetto, senza ulteriori restrizioni di tipo lessicale. Il si
passivo, (come in si mangiano le mele), in cui il verbo si accorda con un soggetto
superficiale, obbligatoriamente di terza persona singolare o plurale e realizzato in
posizione prevalentemente post-verbale. Le cosiddette costruzioni medie, del tipo
(questa pizza si mangia bene, queste case si vendono agevolmente ecc.) con soggetto
generalmente anteposto al verbo e un avverbio (o un modificatore con valore
avverbiale) in posizione post-verbale. Le forme verbali transitive propriamente
riflessive, nelle quali il pronome riflessivo svolge la funzione di oggetto diretto
dell’azione (ad es. mi guardo allo specchio), e le forme apparentemente riflessive,
nelle quali l’oggetto è espresso indipendentemente dal clitico (ad es. mi guardo le
mani).
Queste costruzioni presentano una serie di caratteristiche morfologiche (e
morfosintattiche) comuni, cui si accompagnano tuttavia profonde differenze dal punto
di vista sintattico e in particolare della struttura argomentale. Nel si passivo, ad
esempio, il soggetto superficiale è l’oggetto logico della frase e segue
preferenzialmente il verbo. Nel si impersonale, al contrario, il pronome clitico di terza
persona è comunemente considerato il soggetto espletivo della forma verbale. Nelle
costruzioni riflessive proprie, il pronome è l’oggetto logico del verbo, mentre nelle
costruzioni riflessive apparenti il clitico ha generalmente la funzione di un dativus
commodi. E così via.
Il problema principale, dal punto di vista dell’annotazione linguistica di un testo, è
definire alcune dimensioni grammaticali, o livelli di analisi, sufficientemente generali
che consentano all’annotatore di dare conto in modo adeguato degli aspetti comuni di
queste costruzioni così come delle loro differenze. Si osservi a questo proposito che la
terminologia tradizionale sembra oscurare, piuttosto che chiarire, il rapporto tra le
dimensioni descrittive in gioco. In che senso una costruzione come si osservano molte
incongruenze è passiva? Perché il si svolgerebbe la funzione di soggetto in si mangia
ma non in si mangia la mela (almeno nell’interpretazione passiva di quest’ultima
frase)? A che livello va descritta la differenza tra due costruzioni come questa casa
non si vende (con un si passivo con valore deontico) e questa casa si vende facilmente
(considerata comunemente una costruzione media)? A nostro avviso, le costruzioni
verbali con pronomi riflessivi clitici sono un caso esemplare di relazione asimmetrica
tra il livello di analisi morfologica, riguardante la forma della flessione verbale in
senso stretto, e il livello di rappresentazione sintattico-semantica, riguardante il
rapporto tra il verbo e i suoi argomenti. Caratterizzare il fenomeno nei termini di
queste due dimensioni non solo risolve in maniera elegante il problema della sua
annotazione nel testo, ma è anche utile, a nostro avviso, a far chiarezza sulla sua
natura profonda.
Per illustrare l’indipendenza del livello morfologico da quello sintattico di analisi
e, allo stesso tempo, la natura indiretta della loro correlazione, è istruttivo considerare
brevemente il passato prossimo italiano. L’insieme di tratti morfosintattici convogliati
da una forma come sono venuto (o analogamente ho ballato), rappresentati in 1.a, non
è interpretabile come la semplice composizione dei tratti morfosintattici veicolati
individualmente da sono e venuto (o da ho e ballato), rispettivamente in 1.b e 1.c.
1.a
1.b
1.c
[Tempo = passato, Modo = indicativo, Aspetto = perfettivo]
[Tempo = presente, Modo = indicativo, Aspetto = imperfettivo]
[Aspetto = perfettivo]
Inoltre lo schema di formazione del passato prossimo esclude la possibilità che
l’ausiliare essere (o avere) sia usato in voci perfettive: *sono stato venuto, *fui
venuto, *ero stato venuto ecc. La non grammaticalità di queste forme sintatticamente
ben formate mette in serio dubbio la natura puramente sintattica (e dunque
inerentemente composizionale) della formazione del passato prossimo italiano.
Pirrelli (in stampa) considera forme verbali perifrastiche di questo tipo come il
prodotto di una composizionalità linguistica debole, di natura paradigmatica, che
induce una forma di corrispondenza indiretta tra forme lessicali flesse (sia ausiliari
che “piene”) e tratti morfosintattici. Anziché testimoniare l’intrusione della sintassi
nel dominio morfologico, queste forme documentano un uso paradigmatico della
sintassi.
Un primo necessario elemento di chiarezza viene dunque, a nostro avviso, dalla
distinzione tra la forma del verbo e la sua struttura sintattico-argomentale, e dunque,
in ultima analisi, tra la sua descrizione morfologica e quella sintattico-semantica. In
secondo luogo, è necessario individuare l’insieme di valori che insistono su ciascuna
di queste dimensioni.
Per incominciare, distinguiamo tre modalità morfologiche di base della flessione
del verbo italiano: la diatesi attiva (che a sua volta si biforca in due sottoclassi a
seconda che il verbo in questione selezioni l’ausiliare essere o avere), quella passiva
(sia con l’ausiliare essere che con venire) e infine quella media (quest’ultima, come
abbiamo suggerito, corrispondente alle costruzioni pronominali con il clitico
riflessivo e l’ausiliare essere). Ciascuna diatesi definisce un insieme di modalità di
realizzazione formale del verbo, indipendentemente dalla loro relazione con la
struttura argomentale del verbo stesso. A ciascuna di queste modalità è solitamente
associata una struttura argomentale tipica: esistono importanti regolarità e restrizioni
significative che riguardano la possibilità che un verbo alterni tra una forma e l’altra
(Levin e Rappaport, 1995, Montemagni et al., 1995). D’altra parte è importante
sottolineare che molte di queste forme non sono usate per realizzare in modo univoco
una e una sola struttura argomentale. Ai verbi ergativi medi (rompersi, capovolgersi
ecc.) si accompagnano quelli attivi (affondare, bollire, cuocere ecc.). Costruzioni
medie, come abbiamo visto, possono essere usate alla terza persona in funzione di
passivo (si mangiano troppe mele) o in funzione transitiva attiva (procurarsi un
articolo). La stessa struttura argomentale può realizzarsi superficialmente in più di un
modo (queste case sono vendute facilmente e queste case si vendono facilmente). 1
Diversamente dal latino, in italiano mancano verbi in forma passiva che selezionino
un complemento oggetto (i cosiddetti “deponenti”). Questa forte caratterizzazione
sintattica della forma passiva italiana spiega, come vedremo più avanti, alcuni “buchi”
nella flessione impersonale. Ancora una volta, si noti, il rapporto tra la forma del
verbo e la sua proiezione a livello di struttura sintattico-argomentale è di molti a
molti, piuttosto che biunivoca, e non sembra possibile, probabilmente con la sola
eccezione del passivo, derivare composizionalmente la seconda dalla prima.
attivo
passivo
medio
personale
si-impersonale
si-passivo
vende
si vende
si portano doni
viene dimenticato
si viene dimenticati
0
si diverte
ci si diverte
ci si procurano doni
Tabella 1: Diatesi e costruzioni sintattiche
D’altra parte, sarebbe sbagliato considerare il si impersonale e il si passivo come
valori possibili della dimensione morfologica. In entrambi i casi, il verbo è flesso alla
terza persona (soltanto singolare, nel caso del si impersonale, singolare e plurale per il
si passivo). Inoltre, il soggetto logico è tipicamente umano e obbligatoriamente
inespresso. Il soggetto logico è inoltre generico, seppure con un ambito di genericità
1
Si noti tuttavia che l’identità di struttura argomentale non implica automaticamente identità di
significato: nella prima delle due costruzioni appena citate l’avverbio facilmente sembra
modificare direttamente il processo espresso dal verbo, mentre nel secondo esempio
l’avverbio esprime piuttosto una qualità inerente del soggetto (queste case sono facili da
vendere).
variabile (Chierchia, 1995): una espressione come in questo negozio non si prestano
soldi può essere usata correttamente anche quando il soggetto logico della frase sia
pragmaticamente ben determinato. Se poi respingiamo l’ipotesi che il si abbia la
funzione di soggetto espletivo nella costruzione impersonale, allora possiamo dire che
nel si impersonale il soggetto superficiale è obbligatoriamente omesso. Nella tabella
1 abbiamo provato ad incrociare la dimensione morfologica della diatesi verbale con
quella, ortogonale, della costruzione sintattico-argomentale (limitandoci alle sole
costruzioni personali e impersonali). La griglia paradigmatica che se ne ottiene
sembra adeguata a descrivere tutte le forme attestate, ed evidenzia la presenza di una
cella vuota, in corrispondenza della seconda riga e della terza colonna della tabella.
Questo “buco” nel paradigma può essere almeno in parte attribuito al fatto che la
morfologia del passivo è fortemente caratterizzata, in italiano, dal punto di vista della
struttura argomentale. Attraverso la forma passiva, infatti, il soggetto logico del verbo
viene reso implicito, mentre l’oggetto logico è promosso a soggetto superficiale.
Quest’ultimo può dunque, attraverso la costruzione del si impersonale, trasformarsi in
soggetto generico ed essere semanticamente ristretto ai soli esseri umani. Nel caso del
si passivo, invece, l’applicazione della costruzione sembra bloccata, apparentemente a
causa di un conflitto semantico tra il soggetto logico, individuato ma implicito,
imposto dalla costruzione passiva, e quello generico richiesto dal si passivo.
La tabella 1 evidenzia inoltre che la analogia formale tra alcune forme impersonali
(ad es. si balla) e alcune forme medie personali (si diverte) è solo apparente, come
confermato, oltre che dalle diverse restrizioni morfosintattiche sull’accordo (si è
andati, ma se n’è andato), dal diverso ordinamento dei clitici nelle due costruzioni (lo
si vende e se lo vende).
Quanto poi ai rimanenti casi di costruzioni verbali pronominali menzionate in
precedenza, dovrebbe essere chiaro, a questo punto, che la riflessività apparente così
come quella propria facciano tutte riferimento alla relazione tra il pronome clitico e la
struttura argomentale del verbo, e siano dunque da considerarsi categorie sintattiche o
argomentali, che solo indirettamente, come abbiamo visto, hanno a che fare con la
forma verbale. All’interno del nostro schema, queste categorie trovano spazio al
livello dell’annotazione delle categorie funzionali, almeno in quei casi dove funzione
logica e funzione superficiale coincidono. Lo stesso dicasi per le cosiddette
costruzioni “medie” del tipo questa casa si venderà bene: dal punto di vista
argomentale la costruzione è del tutto analoga al si passivo. La presenza di un
modificatore avverbiale postverbale può trovare la sua naturale etichetta a livello di
relazioni funzionali, come una specie di complemento fortemente retto.
Vale la pena di notare, al termine di questo excursus, che il nostro schema di
annotazione conserva tracce di categorie più tradizionali come intransitivo
pronominale, riflessivo apparente ecc., all’interno dell’attributo reflex. La ragione
di questa scelta sta proprio nella non convenzionalità di un’annotazione distribuita su
più dimensioni descrittive. Un lettore legato alla terminologia tradizionale può in
questo modo ricostruire la traduzione di un’etichetta come intransitivo pronominale
nel nostro schema di annotazione distribuita.
3.2
Le costruzioni comparative
Le costruzioni comparative pongono notevoli difficoltà di annotazione derivanti dai
fenomeni di discontinuità e di ellissi che le caratterizzano. Inoltre, l'estrema varietà di
questo tipo di costruzioni nell'uso reale della lingua e la diffusa presenza di
costruzioni “marginali” o di dubbia accettabilità ne rendono l'annotazione ancora più
difficoltosa.
In linea di principio, ogni struttura comparativa contiene un elemento “comparato”
(quello tipicamente designato come primo termine di paragone) ed un elemento
“comparativo” (detto anche secondo termine di paragone). Nella Treebank di SI-TAL,
tra i due elementi della struttura comparativa viene stabilita una relazione di tipo
comp, dove la testa è rappresentata dall'elemento comparato e il dipendente
dall'elemento comparativo; la funzione di elemento comparativo è esplicitamente
marcata al livello del tratto ruolo del dipendente, al quale viene assegnato il valore
“compar(ativo)”.
E' più intelligente dell’insegnante
sogg (essere, .<persona=3, numero=sing>)
pred (essere, intelligente)
mod (intelligente, più)
comp(intelligente, insegnante.<introdep=“di”, ruolo=“compar”>)
Ho visto più uomini che donne
sogg (vedere, .<persona=1, numero=sing>)
ogg (vedere, uomo)
mod (uomo, più)
comp (uomo, donna.<introdep=“che”, ruolo=“compar”>)
Questo schema di annotazione, per quanto non interamente soddisfacente, risponde al
criterio generale di non considerare come teste di una dipendenza parole con funzioni
marcatamente grammaticali, appartenenti a classi lessicali minori e chiuse. Inoltre
risolve il problema dell’individuazione della testa anche in quei casi dove il grado
comparativo risulta lessicalizzato (o realizzato sinteticamente), come in aggettivi del
tipo migliore, maggiore ecc.
L’evidenza del corpus ha tuttavia messo in luce alcune inadeguatezze e
insufficienze delle annotazioni proposte. Riportiamo qui di seguito alcuni dei
problemi emersi e delle possibili strategie con le quali affrontarli. Questa casistica
resta frammentaria, e la discussione che segue è ancora lontana dal definire un quadro
coerente e esaustivo.
Un primo problema è rappresentato dalla scelta di non annotare più come la testa di
una relazione di dipendenza. Si consideri a questo proposito il seguente esempio:
E' più intelligente dell’insegnante
sogg (essere, .<persona=3, numero=sing>)
pred (essere, intelligente)
mod (intelligente, più)
comp (intelligente, insegnante.<introdep=“di”, ruolo=“compar”>)
Considerare insegnante come sintatticamente dipendente da intelligente (piuttosto che
da più) sembra non interamente adeguato sul piano sintattico, soprattutto in
considerazione del fatto che più ha, in questo contesto, un chiaro uso avverbiale.
Inoltre, mentre la relazione di dipendenza tra intelligente e insegnante sembra
catturare una restrizione semantica tra le due parole, in un esempio come ho letto più
libri di Mario, diventa difficile postulare, per simmetria con l’esempio precedente,
una restrizione di uguale natura tra libro e Mario. D’altra parte, il fatto che, in
generale, la comparazione coinvolga tipicamente costruzioni grammaticali complesse
costituisce un problema non banale per un livello di annotazione funzionale (come
quello adottato in SI-TAL) che ha come obiettivo primario la definizione di relazioni
di dipendenza tra parole “piene”.
Un secondo problema è dato dall’uso del che per introdurre un secondo termine di
paragone non costituito da un sintagma nominale, come nel seguente esempio:
Gianni ha parlato più con te che con lui
E’ chiaro che il tipo di relazione sintattica introdotta dal che (a differenza di quella
introdotta dal di + secondo termine di paragone in dell’insegnante) è ortogonale
rispetto alla dipendenza sintattica tra il sintagma preposizionale con te e il verbo
parlare. Quale sia la natura della dipendenza introdotta dal che e come rappresentarla
adeguatamente a livello di annotazione restano ancora oggi due problemi
praticamente irrisolti. Il parallelo tra l’espressione più con te che con lui e sia con te
che con lui sembrerebbe suggerire un trattamento della prima costruzione come una
dipendenza simmetrica di tipo correlativo, da annotare come segue:
obl(parlare,te.<introdep=“con”>)
obl(parlare,lui.<introdep=“con”>)
corr(te.<
introsim
=“più”,
=“che”, introdep=“con”>)
introdep=“con”>,
lui.<introsim
dove “corr” indica appunto una relazione sintattica simmetrica di tipo correlativo.
Questa soluzione ha una certa plausibilità dal punto di vista sintattico, che risulta
corroborata dalla analogia tra le seguenti costruzioni comparative:
Gianni ha mangiato più mele che arance
Gianni ha mangiato tanto mele che/quanto arance
Tuttavia, in un esempio come il seguente la natura simmetrica della correlazione
risulta del tutto oscurata, e ancora una volta la soluzione proposta non sembra avere
un grado sufficiente di generalità:
Gianni ha mangiato tante mele quante Maria
Quest’ultimo esempio evidenzia, a nostro avviso, la necessità di annotare in maniera
differenziata gli introduttori del secondo termine di paragone. Accanto all’uso del di
che definisce, nell’uso comparativo, una dipendenza sintattica fondamentalmente
omogenea rispetto ad altre preposizioni, esistono altri introduttori del secondo termine
di paragone, quali appunto che e quanto, che presentano una maggiore autonomia sul
piano sintattico e semantico (quanto in particolare ha in molti casi un uso strettamente
pronominale), e andrebbero quindi annotati, secondo noi, in maniera distinta dal di.
Detto questo, resta da capire quale tipo di relazione che e quanto stabiliscono con il
secondo termine di paragone in senso stretto. Ma questo problema, a sua volta, non
può che investire il trattamento delle ellissi in generale.
Infine, la presenza di casi, alcune volte marginali, ma comunque di largo uso nel
parlato quotidiano, di costruzioni comparative fortemente ellittiche, sembra
evidenziare ancora una volta la inadeguatezza delle nostre risorse espressive a livello
di annotazione:
?Gianni è più stanco che se avesse scalato una montagna.
E’ probabilmente utile chiudere questa breve rassegna evidenziando la problematicità
delle costruzioni comparative anche per schemi di annotazione che si basino sulla
nozione di costituenza. Si noti, a questo proposito, che in una frase come quella che
segue, l’ambito sintattico della comparazione copre una sequenza quale mangiato
mele che non ha alcuno status sintattico plausibile dal punto di vista di un’analisi a
costituenti:
Gianni ha ascoltato più opere in vita sua che mangiato mele.
4
Conclusioni
L’esperienza maturata nel corso dell’annotazione funzionale di un corpus italiano di
300.000 parole ha contribuito a fare luce sul grado di copertura dello schema di
annotazione sintattica del testo messo a punto nell’ambito del progetto SI-TAL,
sull’adeguatezza delle nostre conoscenze grammaticali riguardo a un vasto spettro di
fenomeni dell’italiano e, infine, sul grado di correlazione tra i livelli di analisi
linguistica necessari per la descrizione di questi fenomeni. In alcuni casi, il lavoro di
individuazione delle dimensioni descrittive rilevanti ha evidenziato alcune zone
d’ombra nello stato dell’arte. In altri casi, la nostra comprensione di fenomeni
apparentemente non problematici ha guadagnato in chiarezza e spessore. In generale,
l’approccio distribuito e multidimensionale all’annotazione del testo che abbiamo
scelto di adottare si è rivelato non solo operativamente realizzabile ma anche fecondo
sia sul piano descrittivo che su quello teorico. In questo senso, le specifiche tecniche
di annotazione di SI-TAL restano un’opera aperta ad approfondimenti e
completamenti futuri, e ci danno un’indicazione chiara e significativa del lavoro che
resta ancora da fare.
Bibliografia
Autori Vari: SI-TAL: Manuale Operativo. Deliverable 1.3 (2001)
Beard, R: Lexeme-Morpheme Based Morphology: a General Theory of Inflection and Word
Formation. State University Press, New York (1995)
Carroll, J., Briscoe, T., Calzolari, N., Federici, S., Montemagni, S., Pirrelli, V., Grefenstette, G.,
Sanfilippo, A., Carroll, G. and Rooth M.: Specification of Phrasal Parsing. SPARKLE
Deliverable 1 (1996)
Chierchia, G.: The Variability of Impersonal Subjects. In: Bach, E, Jelinek, E., Kratzer, A. and
Partee, B.H., (a cura di): Quantification in Natural Languages. Kluwer academic Publishers,
Holland (1995) 107-143
Karlsson, F., Voutilainen, A., Heikkilä, J. and Anttila, A.: Constraint Grammar: A Language-Independent System for Parsing Unrestricted Text. De Gruyter, Berlin (1995)
Lenci, A., Montemagni S., Pirrelli P., Soria, S.: FAME: a Functional Annotation Meta-scheme
for Multimodal and Multi-lingual Parsing Evaluation. Proceeding of the ACL99 Workshop
on Computer-Mediated Language Assessment and Evaluation in NLP. University of
Maryland, USA (1999a)
Lenci A., Montemagni, S., Pirrelli, V., Soria, S., Netter, K., and Rajman, M.: Corpora for
Evaluation, WP5, ELSE (Evaluation in Language and Speech Engineering), LE4-8340
(1999b)
Lenci A., Montemagni S., Pirrelli, V. and Soria C.: A Syntactic Meta-scheme for Corpus
Annotation and Parsing Evaluation", in Proceedings of LREC 2000, Athens (2000)
Levin, B., Rappaport Hovav, M.: Unaccusativity. At the Syntax Lexical Semantics Interface.
MIT Press (1995)
Marcus, M., Kim, G., Marcinkiewicz, M. A., MacIntyre, R., Bies, A., Ferguson, M., Katz, K.
and B. Schasberger: The Penn Treebank: annotating predicate argument structure.
Proceedings of DARPA (1994)
Montemagni, S., Pirrelli, V., Ruimy, N.: Ringing things which nobody can ring, a corpus-based
Study of the Causative-Inchoative Alternation in Italian. Textus, VIII (1995) 371-390
Pirrelli, V.: Per un superamento della dicotomia lessico-grammatica. Aspetti di
composizionalità debole nel linguaggio. In E. Ferrario e V. Pulcini (a cura di): La
lessicografia bilingue tra presente e avvenire. UTET, Torino (in stampa)