1. Il progetto CLIPS - Istituto di Linguistica Computazionale "Antonio

COPYRIGHT: ISTITUTO DI LINGUISTICA COMPUTAZIONALE – CNR- PISA
REFERENTE:
Nilda Ruimy
Istituto di Linguistica Computazionale
Consiglio Nazionale delle Ricerche
Via Moruzzi, 1
56124 Pisa, Italy
Direct phone +39 050 315 2856
Voicemail / Boite vocale +39 050 315 3879 4 2856
Fax. +39 050 315 2839
email: [email protected]
skipe: nilda.ruimy
sip:[email protected]
INFORMAZIONI TECNICHE:
workstation: PC
output: tipo di file: testo
output: formato: XML
standard usato: EAGLES
codifica caratteri: windows-1252
ENTITÀ COMPLESSIVA DEL LESSICO:
► 387.267 unità fonologiche corredate di informazioni riguardanti ortografia; trascrizione
SAMPA: posizione dell’accento, qualità delle vocali (aperte/chiuse) e delle consonanti
(sonore/sorde), sillabificazione per un sottoinsieme di 1,000 entrate; eventuale corrispondenza con
varianti fonologiche.
►
53.044 unità morfologiche con categoria e sottocategoria grammaticale e paradigma flessionale
►
37.451 unità sintattiche1 corrispondenti a 28.133 lemmi2
28.464 unità semantiche corrispondenti a 19.280 lemmi3
►
DURATA COMPLESSIVA DI SVILUPPO DEL LESSICO:
1996-2003
FREQUENZA DI
mensile
AGGIORNAMENTO:
ULTIMO AGGIORNAMENTO:
Dicembre 2006
AVVERTENZA:
Le vocali accentate sono state rappresentate, nella fase intermedia di lavoro, dalla corrispondente
vocale seguita dal numero 1 (-a1; e1; i1; o1; u1)
1
Ogni unità sintattica descrive un comportamento sintattico di un lemma, fornendo le sue proprietà specifiche in un
determinato contesto sintattico e il suo frame di sottocategorizzazione espresso in termini di opzionalità, funzione
sintattica, realizzazione sintagmatica e restrizioni morfosintattiche, sintattiche e lessicali di ogni argomento.
2
+ 27.108 unità sintattiche corrispondenti a 26.227 lemmi codificate da Thamus
3
+ 28.638 unità semantiche corrispondenti a 26.145 lemmi codificate da Thamus
1
1. Il progetto CLIPS
Il progetto triennale ‘Corpora e Lessici dell’Italiano Parlato e Scritto’ (CLIPS), finanziato dal
Ministero dell’Università e della Ricerca Scientifica e Tecnologica e coordinato dall'Università
degli Studi di Napoli 'Federico II' (prof. Federico Albano Leoni), ha avuto come obiettivo globale la
creazione di risorse testuali e lessicali della lingua italiana, risorse di natura generica, a larga scala,
multifunzionale, indipendenti sia da teorie linguistiche che da applicazioni, descritte in modo
dichiarativo ed esplicito e riutilizzabili.
Parte di questo progetto è stata dedicata al linguaggio scritto ed in particolare allo sviluppo – nel
quadro di una collaborazione tra l’Istituto di Linguistica computazionale (ILC-CNR) di Pisa e la
Thamus4 di Salerno -- di una base di conoscenza lessicale informatizzata dell’italiano.
2. Creazione del lessico
La base di conoscenza lessicale, denominata PAROLE-SIMPLE-CLIPS, non è stata creata ex
novo ma a partire da risorse lessicali monolingue preesistenti, sviluppate nel corso degli ultimi anni
in due progetti europei, LE-PAROLE e LE-SIMPLE. I modelli di rappresentazione morfologica e
sintattica nonché la codifica stessa di queste informazioni sono stati realizzati nel corso del progetto
LE2-4017 PAROLE; il modello semantico e relativo lessico sono stati sviluppati nell’ambito del
progetto LE4-8346 SIMPLE.
Nell’ambito del progetto CLIPS, un livello di descrizione fonologica è stato aggiunto ai tre livelli
(morfologico, sintattico e semantico) del lessico PAROLE-SIMPLE, le entrate morfologiche,
sintattiche e semantiche esistenti sono state riviste e la copertura lessicale è stata considerevolmente
ampliata.
PAROLE-SIMPLE-CLIPS è quindi un lessico elettronico monolingue italiano, le cui entrate
vengono descritte a quattro livelli di descrizione linguistica: il livello fonologico, morfologico,
sintattico e semantico.
Le pagine successive sono dedicate alle specifiche linguistiche per il trattamento delle varie
categorie lessicali a livello sintattico, trattamento illustrato con una serie di esempi che vengono
forniti anche come aiuto al lessicografo nel suo lavoro di codifica.
La codifica dei dati avviene attraverso un software di gestione dei dati (Appendice C).
Il formato finale di rappresentazione dei dati lessicali è un file XML conforme ad un Document
Type definition (DTD) in XML.
3. Popolazione del lessico
Nell’ambito del progetto CLIPS, è stata prevista la codifica sintattica di un numero complessivo
55.000 lemmi, di cui 30.000 presso l’Istituto di Linguistica Computazionale e 25.000 presso la
Thamus.
Sono stati effettivamente codificati a livello sintattico 54.251 lemmi, così distribuiti attraverso le
varie categorie grammaticali: 5896 verbi, 40237 nomi (39181 nomi comuni e 1066 nomi propri),
4720 aggettivi (4658 agg. e 62 num), 3218 avverbi, 82 preposizioni, 88 congiunzioni. Per quei
lemmi, sono state create 64,559 unità sintattiche.
Per quanto riguarda le unità lessicali di competenza di Pisa, un primo nucleo di entrate sintattiche è
costituito da 20.000 unità lessicali semplici, precedentemente codificate a livello sintattico nel
quadro del progetto PAROLE e opportunamente riviste e convertite nel formato XML adottato dal
4
Consorzio per l’Ingegneria Documentaria Multilingue.
2
progetto CLIPS. A tale insieme è stata aggiunta la codifica di 10.000 lemmi nuovi comprendenti le
unità lessicali che occorrono più frequentemente nel corpus di PAROLE, in particolare quelle
tratte dai synsets del progetto EuroWordNet. Nel loro insieme, le unità lessicali codificate
appartengono al linguaggio generale e i lemmi sono così distribuiti attraverso le varie categorie
grammaticali: 5519 verbi, 17988 nomi (17421 nomi comuni e 567 nomi propri), 3894 aggettivi
(3832 agg. e 62 num), 562 avverbi, 82 preposizioni, 88 congiunzioni, per un numero complessivo
di 28,112 lemmi rispetto alle 30.000 preventivate. Per quei lemmi, sono state create 37,440 unità
sintattiche: 8893 entrate di verbi; 22,049 entrate di nomi (comuni: 21482, propri: 567); 5651
entrate di aggettivi (5539 agg. qualificativi e 112 numerali); 685 di avverbi; 84 entrate di
preposizioni; 88 entrate di congiunzioni.
4. Modello teorico e rappresentazionale
Il modello teorico ed il formalismo addottati nel quadro del progetto CLIPS per il livello di
descrizione sintattica rispecchiano in gran parte quelli sviluppati nell'ambito del progetto europeo
PAROLE.
Il modello teorico è basato sulle raccomandazioni emesse dal gruppo di lavoro
EAGLES/LEXICON/SYNTAX GROUP che ha definito uno schema generale per l’informazione
morfosintattica e la codifica sintattica dei verbi. Si ispira inoltre ad una versione estesa del modello
GENELEX per quanto riguarda il trattamento sintattico delle altre categorie verbali.
La rappresentazione concettuale è espressa nel modello ‘Entity/Relationship’ che consente di
esprimere i vari livelli di descrizione linguistica tramite strutture di rappresentazione adeguate alle
esigenze di ognuno dei livelli. La DTD definisce per ogni elemento descrittivo la sua struttura, i
suoi tratti tipici oltre che le relazioni esistenti tra elementi descrittivi e le loro restrizioni di cooccorrenza.
La struttura descrittiva consente di coniugare una rappresentazione non ridondante ed intuitiva dei
dati con una descrizione molto granulare e pur sempre esplicita dell’informazione lessicale. Essa
consiste, infatti, in un’interazione tra elementi descrittivi o oggetti5 di base e oggetti complessi,
poiché gli oggetti complessi sono costruiti attraverso la combinazione di oggetti di base. La
maggior parte degli oggetti è condivisa da elementi di livello superiore. Ogni oggetto è descritto
un’unica volta e poi successivamente richiamato  attraverso un puntatore al suo codice di
identificazione  in tutte le strutture descrittive che condividono l’informazione che esso veicola.
Un’entrata lessicale contiene quindi una serie di puntatori ai vari oggetti di base che ne permettono
la descrizione.
La modularità del modello di rappresentazione lessicale è tale che le informazioni codificate a
livello fonologico, morfologico, sintattico e semantico sono indipendenti le une dalle altre benché i
quattro livelli siano collegati (cf. fig 1).
5
Un oggetto XML è una struttura di rappresentazione, chiusa, formata da un identificatore e da una serie di coppie
attributi/valori. Per ogni oggetto, viene indicata l’obbligatorietà o opzionalità di ogni coppia attributo/valore e la natura
dei possibili valori di ogni attributo (valori appartenenti ad una lista predefinita o valori liberi).
3
Fonologia
PhonU
PhonU
PhonU
PhonU
PhonU
PhonU
PhonU
PhonU
….
Morfologia
MU
MU
MU
MU
MU
MU
MU
MU
….
E N T R A T A
Sintassi
SynU
SynU
SynU
SynU
SynU
SynU
SynU
SynU
….
Semantica
SemU
SemU
SemU
SemU
SemU
SemU
SemU
SemU
….
L E S S I C A L E
Fig. 1. Collegamento tra i livelli di rappresentazione linguistica
Come illustrato nella figura 1, un’unità fonologica è legata ad una o più unità morfologiche ma
diverse unità fonologiche possono puntare ad una sola unità morfologica, es.: PhonUs /peska/ e
/pEska/ a MorphUpesca. Un’unità morfologica è legata anch’essa ad una o più unità sintattiche che
condividono la stessa informazione morfologica, es.: MorphUcomprendere a SynUcomprendere1
(oggetto=NP) e SynUcomprendere2 (oggetto=NP/completiva/infinitiva). Un’unità sintattica (i.e.
Usyn nella figura 2 o più frequentemente SynU) ha dunque accesso alla sua informazione
morfologica attraverso il collegamento all’unità morfologica alla quale è associata. Essa è d’altra
parte collegata ad una o più unità semantiche, a seconda del numero di significati distinti per ogni
struttura sintattica di un lemma (cf. il collegamento tra tre dei quattro livelli di un’entrata,
evidenziato sotto, nella parziale rappresentazione in formato XML). Un’entrata lessicale completa è
quindi una progressione attraverso i vari livelli di informazione codificata.
Tale struttura modulare consente di immettere informazioni ad un determinato livello descrittivo
senza dover tenere conto dei criteri utilizzati ad altri livelli, e di poter modificare/affinare a
posteriori l’informazione esistente ad un livello di rappresentazione linguistica senza dover
intervenire sugli altri livelli di descrizione linguistica.
Livello morfologico: parziale descrizione di un’unità morfologica:
<MuS
id="MUSviolaNOUNCOMMON"
gramcat="NOUN"
gramsubcat="COMMON"
autonomy="YES"
synulist="SYNUviolaN SYNUviolaN2">
collegamento alle unità sintattiche corrispondenti
<Gmu
inp="GINP107">
<Spelling>viola</Spelling></Gmu></MuS>
.........
4
Livello sintattico: parziale descrizione di un’unità sintattica:
<SynU
id="SYNUviolaN"
naming= "viola"
example="colore"
description="n-0-xm"> mass noun
<CorrespSynUSemU
targetsemu="USem2477viola">
collegamento all’unità semantica corrispondente
</SynU>
.........
<SynU
id="SYNUviolaN2"
naming="viola"
example="pianta delle Violacee - il fiore della viola, spec. della mammola (bot.); strumento musicale
ad arco simile al violino ma un po' piu' grande e dal suono piu' grave [mus.] - suonatore di viola [estens.]
[mus.]"
description="n-0-xc"> count noun
<CorrespSynUSemU
targetsemu="USem1595viola"/>
<CorrespSynUSemU
targetsemu="USem1596viola"/>
collegamento alle unità semantiche corrispondenti
<CorrespSynUSemU
targetsemu="USem2908viola"/>
</SynU>
.........
5. Codifica delle unità lessicali a livello sintattico
E’ opportuno fare una premessa importante: il modello teorico sul quale è basato il livello di
descrizione sintattica del lessico PAROLE-SIMPLE-CLIPS è stato sottoposto, sin dalla sua
elaborazione nel quadro del progetto PAROLE, nel 1996, ad un continuo processo di affinamento
alla luce delle problematiche emerse durante la costruzione del lessico. Il trattamento di alcuni
fenomeni linguistici è stato ripensato o lievemente modificato e, conseguentemente, le entrate
lessicali pertinenti sono state riviste. Tuttavia, la mole dei dati essendo davvero notevole, alcune
entrate potrebbero ancora riflettere la prospettiva iniziale per quanto riguarda il trattamento di un
determinato fenomeno, nonostante il considerevole lavoro di uniformizzazione effettuato.
Ai fini di una descrizione sintattica, le unità lessicali si distinguono in predicative e non
predicative. Alla prima categoria afferiscono i verbi, la maggior parte dei nomi deverbali e
deaggettivali, alcune categorie di nomi semplici, gli aggettivi, alcuni avverbi e parole grammaticali.
Questi elementi lessicali reggono uno o più complementi e hanno quindi in comune la proprietà di
avere una struttura argomentale. La seconda categoria, quella delle unità non predicative, è
costituita dalla maggior parte dei nomi semplici, avverbi e parole grammaticali.
Per le unità lessicali che non hanno reggenza, la codifica consiste nella descrizione delle proprietà
sintattiche intrinseche dell’unità lessicale. Per le unità predicative invece, la codifica sintattica
consiste nella descrizione delle proprietà intrinseche dell’unità lessicale in oggetto e del suo
contesto sintattico rappresentato da un quadro di sottocategorizzazione.
Il contesto descritto nell'entrata sintattica è il contesto tipico, detto ‘lexically-governed’. Consiste
nelle proprietà lessicali specifiche di un lemma e dei costituenti sintattici da esso dominati: in altre
parole il numero, la natura e le proprietà dei suoi complementi nonché il tipo di relazione che
ognuno di essi intrattiene con l'unità sintattica descritta. E’ invece esclusa dal lessico e demandata
alla grammatica la descrizione di proprietà generali, comuni all’insieme degli elementi di una classe
5
verbale, che possono pertanto prevedibili e possono essere derivate in virtù dell’appartenenza di un
lemma ad una categoria o sottocategoria grammaticale, come ad esempio la passivizzazione dei
verbi transitivi. Nel lessico sono codificati soltanto i comportamenti idiosincratici di un lemma
rispetto all’applicazione di regole grammaticali generali.
6. Struttura e contenuto informativo di un’entrata sintattica
6.1. Struttura di un’entrata sintattica: i vari elementi descrittivi
A livello di descrizione sintattica, l’elemento descrittivo fondamentale è l’Unità Sintattica (SynU o
USyn).
Fig. 2. Oggetti ed attributi principali a livello sintattico
Come evidenziato nella figura 2, un’Unità Sintattica (rappresentata dall’oggetto XML ‘SynU’) è
caratterizzata da una Descrizione di Base (attributo description6 nell’oggetto ‘SynU’) o frame (v.
sotto, esempio 1) che permette di rappresentare un comportamento sintattico dell’unità
morfologica corrispondente7 ed, eventualmente, da una o più Descrizioni Trasformate o Correlate
(attributo descriptionl nell’oggetto ‘SynU’) (v. esempio 2) che consentono di esprimere delle
alternanze lessicali di superficie che non implicano un rilevante cambiamento di significato, come
ad esempio l’alternanza di usi incoativo e causativo dei verbi ergativi. Vedremo successivamente
che Descrizione di Base e Descrizioni Correlate possono, come illustrato nell'esempio 2, essere
collegate tramite un Frameset (oggetto XML ‘Frameset’).
1. <SynU
id="SYNUabbagliareV"
naming="abbagliare"
example="la luce troppo forte abbaglia"
description="i-xa"></SynU>
identificatore della description
che rimanda all’oggetto XML ‘Description’.
Nella maggior parte dei casi un'unità morfologica ha vari comportamenti sintattici, es.: l'uso intransitivo e transitivo
del verbo abbozzare: Luca abbozzò, abbozzare un disegno; l’uso transitivo, intransitivo e modale del verbo giungere:
giungere le mani, giungere al traguardo, giungere a fare qualcosa.
6
7
6
2. <SynU
id="SYNUaffondareV"
naming="affondare"
example="il comandante affonda la nave. La nave affonda"
description="t-xa"
descriptionl="i-xe"
framesetl="FSErg1"></SynU>
L’oggetto ‘Description’, a sua volta, comprende una feature Self e  se l’unità lessicale è
predicativa  una feature Construction. La feature Self rimanda ad un oggetto ‘Self’ nel quale
vengono espresse le proprietà dell’unità lessicale nello specifico contesto
sintattico descritto; la feature Construction rimanda all’oggetto ‘Construction’ (cf. p.12)
che descrive la struttura argomentale dell’unità lesicale, nella costruzione
sintattica in oggetto. In altri termini, se consideriamo l’unità lessicale come la ‘head’
della struttura sintattica che essa forma con i suoi complementi, il ‘Self’ descrive le proprietà
morfosintattiche e sintattiche della head, mentre la ‘Construction’ specifica il suo schema di
complementazione.
<Description
id="i-xa"
example="la luce troppo forte abbaglia"
self="SELFVxa"
construction="i"/>
Nel ‘Self’, vengono espressi, attraverso un puntatore all'oggetto ‘SyntagmaT’, i tratti caratteristici
e/o restrizioni dell’unità lessicale quando è associata alla struttura argomentale descritta:
 categoria grammaticale8;
 comportamento idiosincratico rispetto all’applicazione di regole grammaticali: es.: verbo
transitivo non passivizzabile;
 per i verbi: sottoclasse9; tipo di ausiliare usato, uso di ambedue gli ausiliari, uso esclusivo o
inibizione della forma passiva (la casa è costituita da 3 vani; questo terreno frutta molto), ecc.
 per i nomi: tratto mass/count, uso esclusivo del plurale;
 per gli aggettivi: funzione attributiva/predicativa, posizione dell'aggettivo in funzione attributiva
e graduabilità;
 per gli avverbi: sottoclassifica semantica e parte del discorso modificato.
<Self
id="SELFVxecop"
syntagmatl="STVxecop"/ >
self di una copula
<SyntagmaT
id="STVxecop"
syntlabel="V"
<SyntFeatureClosed
featurename="MORPHSUBCAT"
value="COPULA"/></SyntagmaT>
<Self
id="SELFVxapasno"
self di un transitivo non passivizzabile, es.: concernere
syntagmatl="STVxapasno"/>
8
9
Il paradigma di flessione è fornito tramite il collegamento dell'unità sintattica all'unità morfologica
copula, verbo pronominale, riflessivo, reciproco, modale, forma impersonale, aspettuale, causativo.
7
<SyntagmaT
id="STVxapasno"
syntlabel="V">
<SyntFeatureClosed
featurename="PASSIVIZABLE"
value="PASNO"/></SyntagmaT>
<Self
id="SELFVxeimp"
self di un verbo in struttura impersonale, es.: risultare
syntagmatl="STVxeimp"/>
<SyntagmaT
id="STVxeimp"
syntlabel="V"
<SyntFeatureClosed
featurename="MORPHSUBCAT"
value="IMPERSONAL"/></SyntagmaT>
<Self
id="SELFVxaorxemod"
self di un verbo modale, es.: dovere
syntagmatl="STVxamod STVxemod "/>
<SyntagmaT
id="STVxamod"
syntlabel="V"
featurel="TAUXavere">
<SyntFeatureClosed
featurename="MORPHSUBCAT"
value="MODAL"/></SyntagmaT>
<SyntagmaT
id="STVxemod"
syntlabel="V"
featurel="TAUXessere">
<SyntFeatureClosed
featurename="MORPHSUBCAT"
value="MODAL"/></SyntagmaT>
<Self
id="SELFVxaasp"
syntagmatl="STVxaasp"/>
self di un verbo aspettuale, es.: iniziare
<SyntagmaT
id="STVxaasp"
syntlabel="V"
featurel="TAUXavere">
<SyntFeatureOpen 10
featurename="ASPECTUAL"
value="YES"></SyntagmaT>
<Self
id="SELFNxcpl"
syntagmatl="STNxcpl"/>
self di un nome count solo plurale, es.: gli annali
<SyntagmaT
id="STNxcpl"
syntlabel="N">
<SyntFeatureClosed
featurename="TNUMBER"
value="PLURAL"/>
10
Contrariamente alle SyntFeatureClosed, i cui attribute e valori sono specificati nella DTD, le SyntFeatureOpen sono
liberamente definite dall’utente, v. p. 13.
8
<SyntFeatureOpen
featurename="MASSCOUNT"
value="COUNT"/></SyntagmaT>
Nella ‘Construction’ sono codificate le informazioni relative al contesto sintattico tipico dell’entrata
lessicale, espresso in termini di struttura argomentale. Il quadro di sottocategorizzazione consiste in
un nucleo di informazioni riguardanti ogni membro di una lista ordinata di posizioni.
Una posizione è un elemento della struttura argomentale e viene definita dall’insieme dei sintagmi
attraverso i quali può essere realizzata. L’ordine delle posizioni che costituiscono la struttura ad
argomento è fornito da una lista di funzioni sintattiche gerarchicamente ordinate11 e può quindi
divergere dall’ordine di realizzazione superficiale. Tale ordine è costante attraverso l’insieme
delle strutture argomentali descritte nel lessico, qualunque sia la posizione effettiva del
complemento nell’ordine di superficie e la sua realizzazione lessicale, es.:
Luca
P0
ha dato
il libro
P1
a Maria
P2
Luca
P0
ha dato
a Maria
P2
il libro (di Piero)
P1
Nell’oggetto ‘Construction’ (v. rappresentazione XML), la feature Syntlabel permette di attribuire
un’etichetta sintattica all’insieme della costruzione descritta. Funzione principale della
‘Construction’ è la descrizione di ogni singola posizione della struttura argomentale, mediante
l’oggetto ‘InstantiatedPositionC’, che consente di fornire le seguenti informazioni:
 rango occupato dalla posizione rispetto ad altre posizioni della lista (range="0,1,2,3");
 indicazione, mediante una feature booleana, della sua obbligatorietà o opzionalità
(optional="YESO, NOO");
 caratteristiche del o degli occupanti di posizione espresse attraverso un puntatore all’oggetto
‘PositionC’;
Nella ‘Construction’, nel caso di struttura a controllo, è inoltre fornita l'indicazione del tipo di
controllo esercitato sul soggetto della frase subordinata, tramite l’oggetto ‘SyntFeatureClosed’.
In formato XML, la struttura ad argomento di un verbo è quindi rappresentata nel modo seguente,
nell’oggetto ‘Construction’ e gli oggetti da esso richiamati:
<Construction
id="t-ppaorinfaCoC"
syntlabel="Clause"
<InstantiatedPositionC
range="0"
optional="YESO"
positionc="Psubj"/>
identificatore della costruzione
etichetta sintattica dell’intera costruzione
descrizione della 1° posizione della struttura argomentale
numero della posizione
opzionalità
puntatore ad un oggetto che descrive funzione sintattica e realizzazione
sintagmatica di una posizione
descrizione della 2° posizione della struttura argomentale
....
<InstantiatedPositionC
range="1"
optional="NOO"
positionc="PobjCoC"/>
<InstantiatedPositionC
range="2"
optional="NOO"
positionc="PoblppaorinfaCoC"/>
<SyntFeatureClosed
indicazione di struttura a controllo
featurename="CONTROLT"
11
subject < object < predicative complement < indirect object < oblique complement < adverbial.
9
value="OBJECTCONTROL"/></Construction>
L’oggetto ‘PositionC’, richiamato nell’oggetto ‘InstantiatedPositionC’, dà, a sua volta, informazioni
riguardanti il tipo di relazione che la posizione intrattiene con l’unità sintattica in oggetto 
relazione espressa in termini di funzione grammaticale  e include una feature syntagmacl il cui
valore punta agli oggetti ‘SyntagmaNT’ o ‘SyntagmaT’ che descrivono la realizzazione sintattica
della posizione o l’alternanza di possibili realizzazioni sintattiche. L’alternanza di realizzazione è
segnalata nell’oggetto ‘PositionC’, tramite una lista disgiuntiva di valori della feature syntagmacl
(SyntagmaC list), es.: syntagmacl="SNTppa SNTinfaCoC". Oguno di questi valori viene poi
descritto in un oggetto ‘SyntagmaNTC’ (v. esempio p. 20).
‘SyntagmaNT’ e ‘SyntagmaT’ descrivono in termini di categoria sintagmatica o terminale la
realizzazione sintattica della posizione e gli eventuali tratti morfosintattici e/o lessicali che la
caratterizzano o la restringono. Caratteristiche e/o restrizioni della realizzazione sintattica della
posizione vengono fornite mediante gli oggetti ‘SyntFeatureClosed’, la cui lista chiusa di valori è
definita nella DTD o ‘SyntFeatureOpen’, con una lista aperta di valori definiti specificatamente per
il lessico italiano (cf. Appendice D). I suoi tratti lessicali vengono espressi nell’oggetto
‘LexFeature’.
<PositionC
id="Psubj"
function="SUBJECT"
syntagmacl="SNTnp"/>
<PositionC
id="PobjCoC"
function="OBJECT"
syntagmacl="SNTnpCoC"/>
<PositionC
id="PoblppaorinfaCoC"
function="OBLIQUE"
syntagmacl="SNTppa SNTinfaCoC"/>
<SyntagmaNTC
id="SNTnp"
syntlabel="NP"></SyntagmaNTC>
<SyntagmaNTC
id="SNTnpCoC"
syntlabel="NP">
<SyntFeatureClosed
featurename="COREF"
value="COI"/></SyntagmaNTC>
<SyntagmaNTC
id="SNTppa"
syntlabel="PP"
featurel="Ta"></SyntagmaNTC>
<SyntagmaNTC
id="SNTinfaCoC"
syntlabel="Clause"
featurel="Ta">
<SyntFeatureClosed
featurename="SYNSUBCAT"
value="SSINFINITIVE"/>
<SyntFeatureClosed
featurename="MOOD"
value="INFINITIVE"/>
<SyntFeatureClosed
featurename="COREF"
value="COI"/></SyntagmaNTC>
10
<LexFeature
id="Ta"
featurename="INTROD"
value="a"
mu="MUSaADPOSITION"/>
In un formato di più immediata lettura, per un lettore non familiare con il linguaggio XML,
l’informazione codificata in un’entrata verbale del lessico sintattico può essere sintetizzata come
illustrato nella tabella 1:
[SynU: confermare
[Description:
[Construction:
[Syntlabel:Clause]
P0[opt:yes]:[function:subject]
[cat:np]
[cat:cl] [synsubcat:infcl] [introd:0]
[cat:cl] [synsubcat:thatcl] [mood:sub]
P1[opt:no]:[function:object]
[cat:np]
[cat:cl] [syn_sbcat:thatcl] [mood:ind]
[cat:cl] [synsubcat:infcl] ] [mood:inf] [introd:di] [coreference:I]
P2[opt:yes]:[function:indirectobject]
[cat:pp] [introd:a] [coreference:I]]
[SELF: [morphsubcat:main] [aux:avere]]].
Tab. 1. Rappresentazione parziale di un’entrata del verbo confermare
in un formato intermedio di lavoro
Come osservato in precedenza, il modello consente inoltre la rappresentazione di alcuni tipi di
alternanza di strutture sintattiche verbali (che condividono lo stesso significato semantico) mediante
unità sintattiche complesse che comprendono una descrizione di base e una (o più) descrizione
trasformata. Queste descrizioni sono collegate attraverso un frameset (oggetto XML ‘Frameset’). Il
frameset12 è un meccanismo che permette di descrivere delle generalizzazioni di sintassi profonda
su un insieme di alternanze regolari. Un frameset viene utilizzato per tutta una classe di lemmi che
condivide uno stesso fenomeno sintattico: mette in relazione due (o più) descrizioni diverse di una
stessa unità morfologica e permette di collegare tra di loro le posizioni di queste descrizioni.
<SynU
id="SYNUaffondareV"
description="t-xa"
descriptionl="i-xe"
framesetl="FSErg1">
</SynU>
Base Description NP0+V+NP1, i.e.: il comandante affonda la nave
Derived Description: NP0+V, i.e.: la nave affonda
Puntatore al Frameset ‘Erg1’
<Frameset
id="FSErg1"
comment="collegamento tra verbo transitivo causativo e corrispettiva forma incoativa espressa da un
verbo intransitivo"
example="affondare la nave / la nave affonda"
descriptionl="t-xa i-xe">
<Related>
collegamento della posizione 1 (targetposition="1"=NP1) della struttura trans.
(RelElement1) con la posizione 0 della struttura intransitiva (targetposition="0"=NP0) (RelElement2)
12
Questo oggetto descrittivo è stato ideato nel’ambito del progetto EAGLES.
11
<RelElement1
description="t-xa">
<WayToPosition
targetposition="1"></WayToPosition></RelElement1> ((NP1): la nave)
<RelElement2
description="i-xe">
<WayToPosition
targetposition="0"></WayToPosition></RelElement2> ((NP0): la nave)
</Related></FrameSet>
6.2. Contenuto informativo di un’entrata sintattica: ricapitolazione
Ricapitolando, un’unità sintattica contiene le seguenti informazioni:
Proprietà specifiche dell'entrata nel contesto sintattico descritto:
comportamento idiosincratico rispetto all’applicazione di regole grammaticali: es.: v. trans.
non passivizzabile
per i verbi: sottoclasse; ausiliare;
per i nomi: tratto mass/count, uso esclusivo del plurale;
per gli aggettivi: funzione attributiva/predicativa, posizione in funzione attributiva e
graduabilita’;
per gli avverbi: sottoclassifica semantica e parte del discorso modificato.
Frame di sottocategorizzazione:
lista di posizioni (massimo 4: P0, P1, P2, P3);
opzionalita’ di ogni posizione;
proprieta’ e restrizioni sintattiche di ogni ‘occupante di posizione’:
funzione grammaticale (per verbi e nomi deverbali);
realizzazione sintattica della posizione (etichetta sintagmatica) o alternanza di possibili
realizzazioni (es.: np/infclause/thatclause);
tratti morfosintattici e/o lessicali (accordo, preposizioni e particelle che introducono i
complementi clausali)
indicazione del tipo di controllo ('subjectcontrol', 'objectcontrol', 'indirectobjectcontrol',
'raising') e indicazione degli elementi 'controllore' e 'controllato'
posizione del lemma rispetto ai suoi complementi (attributo:'selfinsertion')
6.3. Costruzione di una struttura sintattica
I frame sintattici non sono definiti a priori, bensì costruiti dal lessicografo  mediante
l’assemblaggio degli strumenti descrittivi di base proposti dal modello  man mano che definisce
le proprietà sintattiche delle entrate predicative. Partendo dagli oggetti di base e risalendo verso
strutture complesse, osserviamo il procedimento con il quale viene definito una struttura sintattica:
Le ‘Lexfeature’ (attributo featurel) nonché le ‘SyntfeatureClosed’ e ‘SyntfeatureOpen’ entrano
nella costruzione dei ‘SyntagmaNTC’ e ‘SyntagmaT’.
<SyntagmaNTC
id="SNTinfaCoC"
syntlabel="Clause"
featurel="Ta">
<SyntFeatureClosed
featurename="SYNSUBCAT"
12
value="SSINFINITIVE"/>
<SyntFeatureClosed
featurename="MOOD"
value="INFINITIVE"/>
<SyntFeatureClosed
featurename="COREF"
value="COI"/></SyntagmaNTC>
<SyntagmaT
id="STNxm"
syntlabel="N">
<SyntFeatureOpen
featurename="MASSCOUNT"
value="MASS"/></SyntagmaT>
‘SyntagmaNTC’ e, molto raramente, ‘SyntagmaT’ entrano nella costruzione delle ‘PositionC’.
<PositionC
id="Psubj"
function="SUBJECT"
syntagmacl="SNTnp"/>
<PositionC
id="PobjproAsA"
function="OBJECT"
syntagmacl="STproAsA"/>
Le ‘PositionC’ sono richiamate dalle ‘InstantiatedPosition’, le quali, con le ‘SyntfeatureClosed’,
formano il nucleo della ‘Construction’.
<Construction
id="i-clauscompinfdiCsCrais"
naming="01- Verb"
syntlabel="Clause"
selfinsertion="1">
<InstantiatedPositionC
range="0"
optional="YESO"
positionc ="PsubjCsC"/>
<InstantiatedPositionC
range="1"
optional="NOO"
positionc ="PclauscompinfdiCsCrais"/>
<SyntFeatureClosed
featurename="CONTROLT"
value="RAISING"/></Construction>
I ‘SyntagmaT’, invece costituiscono un elemento dell’oggetto ‘Self’.
<Self
id="SELFVxe"
syntagmatl="STVxe"/>
‘Self’ e ‘Construction’ sono richiamati dalla ‘Description’, la quale è a sua volta richiamata dalla
‘Synu’ e dal ‘Frameset’ (v. illustrazione del framset in 6.1).
<Description
id="i-adjppdiopt-xe"
example="il pane aumenta del 10%"
13
self="SELFVxe"
construction="i-adjppdiopt"/>
<SynU
id="SYNUaumentareV"
naming="aumentare"
comment="tr"
example="aumentare i prezzi del 10 per cento. Il pane aumenta di dieci lire"
description="t-adjppdiopt-xa"
descriptionl="i-adjppdiopt-xe"
framesetl="FSERG9">
</SynU>
Più concretamente, un esempio. L'oggetto che descrive il sintagma nominale:
<SyntagmaNTC
id="SNTnp"
syntlabel="NP"></SyntagmaNTC>
viene usato nella costruzione di tutte le posizioni realizzate mediante un NP, qualunque sia il suo
rango nella lista ordinata di posizioni che costituiscono il frame (oggetto ‘construction’) e la
funzione sintattica assegnata a questa posizione, quindi ad esempio:
<PositionC
id="Psubj"
function="SUBJECT"
syntagmacl="SNTnp"/>
<PositionC
id="Pobj"
function="OBJECT"
syntagmacl="SNTnp"/>
ecc…
Questi due oggetti sono utilizzati a loro volta per costruire, ad esempio, un frame transitivo
bivalente semplice:
<Construction
id="t"
syntlabel="Clause"
selfinsertion ="1">
<InstantiatedPositionC
range="0"
optional="YESO"
positionc="Psubj"/>
<InstantiatedPositionC
range="1"
optional="NOO"
positionc="Pobj"/></Construction>
Tale frame è condiviso sia da verbi transitivi comuni, con ausiliare avere, che da letture di verbi
transitivi che non ammettono il passivo, es.: ho molti libri o che ammettono solo il passivo, es.:
l’appartamento è costituito da tre stanze. In effetti, la differenza esistente tra queste strutture
sintattiche non riguarda le proprietà dei complementi (e non è quindi marcata nella ‘construction’)
bensì le proprietà dell’unità lessicale codificata (ed è quindi marcata nel ‘self’). La stessa
‘construction’, abbinata a ‘self’ diversi, dà luogo a ‘description’ diverse:
<Description
id="t-xa"
14
example="abbassare un muro; - la testa"
self="SELFVxa"
construction="t"/>
<Description
id="t-xapasno"
example="affollare una piazza"
self="SELFVxapasno"
construction="t"/>
<Description
id="t-x0pas"
example="l’appartamento e’ costituito da tre stanze"
self="SELFVx0pas"
construction="t"/>
Basandosi sulle risorse linguistiche elaborate nell’ambito del progetto PAROLE, Il progetto CLIPS
si è avvalso, per la descrizione del comportamento sintattico delle entrate lessicali, dell’insieme dei
frame sintattici (i.e. oggetto ‘Description’) individuati durante tale progetto, ampliando il loro
numero alla luce delle problematiche emerse dalla codifica di un numero sempre maggiore di unità
sintattiche. In totale, sono state individuate 1023 descrizioni sintattiche diverse (Appendice B).
15