COPYRIGHT: ISTITUTO DI LINGUISTICA COMPUTAZIONALE – CNR- PISA REFERENTE: Nilda Ruimy Istituto di Linguistica Computazionale Consiglio Nazionale delle Ricerche Via Moruzzi, 1 56124 Pisa, Italy Direct phone +39 050 315 2856 Voicemail / Boite vocale +39 050 315 3879 4 2856 Fax. +39 050 315 2839 email: [email protected] skipe: nilda.ruimy sip:[email protected] INFORMAZIONI TECNICHE: workstation: PC output: tipo di file: testo output: formato: XML standard usato: EAGLES codifica caratteri: windows-1252 ENTITÀ COMPLESSIVA DEL LESSICO: ► 387.267 unità fonologiche corredate di informazioni riguardanti ortografia; trascrizione SAMPA: posizione dell’accento, qualità delle vocali (aperte/chiuse) e delle consonanti (sonore/sorde), sillabificazione per un sottoinsieme di 1,000 entrate; eventuale corrispondenza con varianti fonologiche. ► 53.044 unità morfologiche con categoria e sottocategoria grammaticale e paradigma flessionale ► 37.451 unità sintattiche1 corrispondenti a 28.133 lemmi2 28.464 unità semantiche corrispondenti a 19.280 lemmi3 ► DURATA COMPLESSIVA DI SVILUPPO DEL LESSICO: 1996-2003 FREQUENZA DI mensile AGGIORNAMENTO: ULTIMO AGGIORNAMENTO: Dicembre 2006 AVVERTENZA: Le vocali accentate sono state rappresentate, nella fase intermedia di lavoro, dalla corrispondente vocale seguita dal numero 1 (-a1; e1; i1; o1; u1) 1 Ogni unità sintattica descrive un comportamento sintattico di un lemma, fornendo le sue proprietà specifiche in un determinato contesto sintattico e il suo frame di sottocategorizzazione espresso in termini di opzionalità, funzione sintattica, realizzazione sintagmatica e restrizioni morfosintattiche, sintattiche e lessicali di ogni argomento. 2 + 27.108 unità sintattiche corrispondenti a 26.227 lemmi codificate da Thamus 3 + 28.638 unità semantiche corrispondenti a 26.145 lemmi codificate da Thamus 1 1. Il progetto CLIPS Il progetto triennale ‘Corpora e Lessici dell’Italiano Parlato e Scritto’ (CLIPS), finanziato dal Ministero dell’Università e della Ricerca Scientifica e Tecnologica e coordinato dall'Università degli Studi di Napoli 'Federico II' (prof. Federico Albano Leoni), ha avuto come obiettivo globale la creazione di risorse testuali e lessicali della lingua italiana, risorse di natura generica, a larga scala, multifunzionale, indipendenti sia da teorie linguistiche che da applicazioni, descritte in modo dichiarativo ed esplicito e riutilizzabili. Parte di questo progetto è stata dedicata al linguaggio scritto ed in particolare allo sviluppo – nel quadro di una collaborazione tra l’Istituto di Linguistica computazionale (ILC-CNR) di Pisa e la Thamus4 di Salerno -- di una base di conoscenza lessicale informatizzata dell’italiano. 2. Creazione del lessico La base di conoscenza lessicale, denominata PAROLE-SIMPLE-CLIPS, non è stata creata ex novo ma a partire da risorse lessicali monolingue preesistenti, sviluppate nel corso degli ultimi anni in due progetti europei, LE-PAROLE e LE-SIMPLE. I modelli di rappresentazione morfologica e sintattica nonché la codifica stessa di queste informazioni sono stati realizzati nel corso del progetto LE2-4017 PAROLE; il modello semantico e relativo lessico sono stati sviluppati nell’ambito del progetto LE4-8346 SIMPLE. Nell’ambito del progetto CLIPS, un livello di descrizione fonologica è stato aggiunto ai tre livelli (morfologico, sintattico e semantico) del lessico PAROLE-SIMPLE, le entrate morfologiche, sintattiche e semantiche esistenti sono state riviste e la copertura lessicale è stata considerevolmente ampliata. PAROLE-SIMPLE-CLIPS è quindi un lessico elettronico monolingue italiano, le cui entrate vengono descritte a quattro livelli di descrizione linguistica: il livello fonologico, morfologico, sintattico e semantico. Le pagine successive sono dedicate alle specifiche linguistiche per il trattamento delle varie categorie lessicali a livello sintattico, trattamento illustrato con una serie di esempi che vengono forniti anche come aiuto al lessicografo nel suo lavoro di codifica. La codifica dei dati avviene attraverso un software di gestione dei dati (Appendice C). Il formato finale di rappresentazione dei dati lessicali è un file XML conforme ad un Document Type definition (DTD) in XML. 3. Popolazione del lessico Nell’ambito del progetto CLIPS, è stata prevista la codifica sintattica di un numero complessivo 55.000 lemmi, di cui 30.000 presso l’Istituto di Linguistica Computazionale e 25.000 presso la Thamus. Sono stati effettivamente codificati a livello sintattico 54.251 lemmi, così distribuiti attraverso le varie categorie grammaticali: 5896 verbi, 40237 nomi (39181 nomi comuni e 1066 nomi propri), 4720 aggettivi (4658 agg. e 62 num), 3218 avverbi, 82 preposizioni, 88 congiunzioni. Per quei lemmi, sono state create 64,559 unità sintattiche. Per quanto riguarda le unità lessicali di competenza di Pisa, un primo nucleo di entrate sintattiche è costituito da 20.000 unità lessicali semplici, precedentemente codificate a livello sintattico nel quadro del progetto PAROLE e opportunamente riviste e convertite nel formato XML adottato dal 4 Consorzio per l’Ingegneria Documentaria Multilingue. 2 progetto CLIPS. A tale insieme è stata aggiunta la codifica di 10.000 lemmi nuovi comprendenti le unità lessicali che occorrono più frequentemente nel corpus di PAROLE, in particolare quelle tratte dai synsets del progetto EuroWordNet. Nel loro insieme, le unità lessicali codificate appartengono al linguaggio generale e i lemmi sono così distribuiti attraverso le varie categorie grammaticali: 5519 verbi, 17988 nomi (17421 nomi comuni e 567 nomi propri), 3894 aggettivi (3832 agg. e 62 num), 562 avverbi, 82 preposizioni, 88 congiunzioni, per un numero complessivo di 28,112 lemmi rispetto alle 30.000 preventivate. Per quei lemmi, sono state create 37,440 unità sintattiche: 8893 entrate di verbi; 22,049 entrate di nomi (comuni: 21482, propri: 567); 5651 entrate di aggettivi (5539 agg. qualificativi e 112 numerali); 685 di avverbi; 84 entrate di preposizioni; 88 entrate di congiunzioni. 4. Modello teorico e rappresentazionale Il modello teorico ed il formalismo addottati nel quadro del progetto CLIPS per il livello di descrizione sintattica rispecchiano in gran parte quelli sviluppati nell'ambito del progetto europeo PAROLE. Il modello teorico è basato sulle raccomandazioni emesse dal gruppo di lavoro EAGLES/LEXICON/SYNTAX GROUP che ha definito uno schema generale per l’informazione morfosintattica e la codifica sintattica dei verbi. Si ispira inoltre ad una versione estesa del modello GENELEX per quanto riguarda il trattamento sintattico delle altre categorie verbali. La rappresentazione concettuale è espressa nel modello ‘Entity/Relationship’ che consente di esprimere i vari livelli di descrizione linguistica tramite strutture di rappresentazione adeguate alle esigenze di ognuno dei livelli. La DTD definisce per ogni elemento descrittivo la sua struttura, i suoi tratti tipici oltre che le relazioni esistenti tra elementi descrittivi e le loro restrizioni di cooccorrenza. La struttura descrittiva consente di coniugare una rappresentazione non ridondante ed intuitiva dei dati con una descrizione molto granulare e pur sempre esplicita dell’informazione lessicale. Essa consiste, infatti, in un’interazione tra elementi descrittivi o oggetti5 di base e oggetti complessi, poiché gli oggetti complessi sono costruiti attraverso la combinazione di oggetti di base. La maggior parte degli oggetti è condivisa da elementi di livello superiore. Ogni oggetto è descritto un’unica volta e poi successivamente richiamato attraverso un puntatore al suo codice di identificazione in tutte le strutture descrittive che condividono l’informazione che esso veicola. Un’entrata lessicale contiene quindi una serie di puntatori ai vari oggetti di base che ne permettono la descrizione. La modularità del modello di rappresentazione lessicale è tale che le informazioni codificate a livello fonologico, morfologico, sintattico e semantico sono indipendenti le une dalle altre benché i quattro livelli siano collegati (cf. fig 1). 5 Un oggetto XML è una struttura di rappresentazione, chiusa, formata da un identificatore e da una serie di coppie attributi/valori. Per ogni oggetto, viene indicata l’obbligatorietà o opzionalità di ogni coppia attributo/valore e la natura dei possibili valori di ogni attributo (valori appartenenti ad una lista predefinita o valori liberi). 3 Fonologia PhonU PhonU PhonU PhonU PhonU PhonU PhonU PhonU …. Morfologia MU MU MU MU MU MU MU MU …. E N T R A T A Sintassi SynU SynU SynU SynU SynU SynU SynU SynU …. Semantica SemU SemU SemU SemU SemU SemU SemU SemU …. L E S S I C A L E Fig. 1. Collegamento tra i livelli di rappresentazione linguistica Come illustrato nella figura 1, un’unità fonologica è legata ad una o più unità morfologiche ma diverse unità fonologiche possono puntare ad una sola unità morfologica, es.: PhonUs /peska/ e /pEska/ a MorphUpesca. Un’unità morfologica è legata anch’essa ad una o più unità sintattiche che condividono la stessa informazione morfologica, es.: MorphUcomprendere a SynUcomprendere1 (oggetto=NP) e SynUcomprendere2 (oggetto=NP/completiva/infinitiva). Un’unità sintattica (i.e. Usyn nella figura 2 o più frequentemente SynU) ha dunque accesso alla sua informazione morfologica attraverso il collegamento all’unità morfologica alla quale è associata. Essa è d’altra parte collegata ad una o più unità semantiche, a seconda del numero di significati distinti per ogni struttura sintattica di un lemma (cf. il collegamento tra tre dei quattro livelli di un’entrata, evidenziato sotto, nella parziale rappresentazione in formato XML). Un’entrata lessicale completa è quindi una progressione attraverso i vari livelli di informazione codificata. Tale struttura modulare consente di immettere informazioni ad un determinato livello descrittivo senza dover tenere conto dei criteri utilizzati ad altri livelli, e di poter modificare/affinare a posteriori l’informazione esistente ad un livello di rappresentazione linguistica senza dover intervenire sugli altri livelli di descrizione linguistica. Livello morfologico: parziale descrizione di un’unità morfologica: <MuS id="MUSviolaNOUNCOMMON" gramcat="NOUN" gramsubcat="COMMON" autonomy="YES" synulist="SYNUviolaN SYNUviolaN2"> collegamento alle unità sintattiche corrispondenti <Gmu inp="GINP107"> <Spelling>viola</Spelling></Gmu></MuS> ......... 4 Livello sintattico: parziale descrizione di un’unità sintattica: <SynU id="SYNUviolaN" naming= "viola" example="colore" description="n-0-xm"> mass noun <CorrespSynUSemU targetsemu="USem2477viola"> collegamento all’unità semantica corrispondente </SynU> ......... <SynU id="SYNUviolaN2" naming="viola" example="pianta delle Violacee - il fiore della viola, spec. della mammola (bot.); strumento musicale ad arco simile al violino ma un po' piu' grande e dal suono piu' grave [mus.] - suonatore di viola [estens.] [mus.]" description="n-0-xc"> count noun <CorrespSynUSemU targetsemu="USem1595viola"/> <CorrespSynUSemU targetsemu="USem1596viola"/> collegamento alle unità semantiche corrispondenti <CorrespSynUSemU targetsemu="USem2908viola"/> </SynU> ......... 5. Codifica delle unità lessicali a livello sintattico E’ opportuno fare una premessa importante: il modello teorico sul quale è basato il livello di descrizione sintattica del lessico PAROLE-SIMPLE-CLIPS è stato sottoposto, sin dalla sua elaborazione nel quadro del progetto PAROLE, nel 1996, ad un continuo processo di affinamento alla luce delle problematiche emerse durante la costruzione del lessico. Il trattamento di alcuni fenomeni linguistici è stato ripensato o lievemente modificato e, conseguentemente, le entrate lessicali pertinenti sono state riviste. Tuttavia, la mole dei dati essendo davvero notevole, alcune entrate potrebbero ancora riflettere la prospettiva iniziale per quanto riguarda il trattamento di un determinato fenomeno, nonostante il considerevole lavoro di uniformizzazione effettuato. Ai fini di una descrizione sintattica, le unità lessicali si distinguono in predicative e non predicative. Alla prima categoria afferiscono i verbi, la maggior parte dei nomi deverbali e deaggettivali, alcune categorie di nomi semplici, gli aggettivi, alcuni avverbi e parole grammaticali. Questi elementi lessicali reggono uno o più complementi e hanno quindi in comune la proprietà di avere una struttura argomentale. La seconda categoria, quella delle unità non predicative, è costituita dalla maggior parte dei nomi semplici, avverbi e parole grammaticali. Per le unità lessicali che non hanno reggenza, la codifica consiste nella descrizione delle proprietà sintattiche intrinseche dell’unità lessicale. Per le unità predicative invece, la codifica sintattica consiste nella descrizione delle proprietà intrinseche dell’unità lessicale in oggetto e del suo contesto sintattico rappresentato da un quadro di sottocategorizzazione. Il contesto descritto nell'entrata sintattica è il contesto tipico, detto ‘lexically-governed’. Consiste nelle proprietà lessicali specifiche di un lemma e dei costituenti sintattici da esso dominati: in altre parole il numero, la natura e le proprietà dei suoi complementi nonché il tipo di relazione che ognuno di essi intrattiene con l'unità sintattica descritta. E’ invece esclusa dal lessico e demandata alla grammatica la descrizione di proprietà generali, comuni all’insieme degli elementi di una classe 5 verbale, che possono pertanto prevedibili e possono essere derivate in virtù dell’appartenenza di un lemma ad una categoria o sottocategoria grammaticale, come ad esempio la passivizzazione dei verbi transitivi. Nel lessico sono codificati soltanto i comportamenti idiosincratici di un lemma rispetto all’applicazione di regole grammaticali generali. 6. Struttura e contenuto informativo di un’entrata sintattica 6.1. Struttura di un’entrata sintattica: i vari elementi descrittivi A livello di descrizione sintattica, l’elemento descrittivo fondamentale è l’Unità Sintattica (SynU o USyn). Fig. 2. Oggetti ed attributi principali a livello sintattico Come evidenziato nella figura 2, un’Unità Sintattica (rappresentata dall’oggetto XML ‘SynU’) è caratterizzata da una Descrizione di Base (attributo description6 nell’oggetto ‘SynU’) o frame (v. sotto, esempio 1) che permette di rappresentare un comportamento sintattico dell’unità morfologica corrispondente7 ed, eventualmente, da una o più Descrizioni Trasformate o Correlate (attributo descriptionl nell’oggetto ‘SynU’) (v. esempio 2) che consentono di esprimere delle alternanze lessicali di superficie che non implicano un rilevante cambiamento di significato, come ad esempio l’alternanza di usi incoativo e causativo dei verbi ergativi. Vedremo successivamente che Descrizione di Base e Descrizioni Correlate possono, come illustrato nell'esempio 2, essere collegate tramite un Frameset (oggetto XML ‘Frameset’). 1. <SynU id="SYNUabbagliareV" naming="abbagliare" example="la luce troppo forte abbaglia" description="i-xa"></SynU> identificatore della description che rimanda all’oggetto XML ‘Description’. Nella maggior parte dei casi un'unità morfologica ha vari comportamenti sintattici, es.: l'uso intransitivo e transitivo del verbo abbozzare: Luca abbozzò, abbozzare un disegno; l’uso transitivo, intransitivo e modale del verbo giungere: giungere le mani, giungere al traguardo, giungere a fare qualcosa. 6 7 6 2. <SynU id="SYNUaffondareV" naming="affondare" example="il comandante affonda la nave. La nave affonda" description="t-xa" descriptionl="i-xe" framesetl="FSErg1"></SynU> L’oggetto ‘Description’, a sua volta, comprende una feature Self e se l’unità lessicale è predicativa una feature Construction. La feature Self rimanda ad un oggetto ‘Self’ nel quale vengono espresse le proprietà dell’unità lessicale nello specifico contesto sintattico descritto; la feature Construction rimanda all’oggetto ‘Construction’ (cf. p.12) che descrive la struttura argomentale dell’unità lesicale, nella costruzione sintattica in oggetto. In altri termini, se consideriamo l’unità lessicale come la ‘head’ della struttura sintattica che essa forma con i suoi complementi, il ‘Self’ descrive le proprietà morfosintattiche e sintattiche della head, mentre la ‘Construction’ specifica il suo schema di complementazione. <Description id="i-xa" example="la luce troppo forte abbaglia" self="SELFVxa" construction="i"/> Nel ‘Self’, vengono espressi, attraverso un puntatore all'oggetto ‘SyntagmaT’, i tratti caratteristici e/o restrizioni dell’unità lessicale quando è associata alla struttura argomentale descritta: categoria grammaticale8; comportamento idiosincratico rispetto all’applicazione di regole grammaticali: es.: verbo transitivo non passivizzabile; per i verbi: sottoclasse9; tipo di ausiliare usato, uso di ambedue gli ausiliari, uso esclusivo o inibizione della forma passiva (la casa è costituita da 3 vani; questo terreno frutta molto), ecc. per i nomi: tratto mass/count, uso esclusivo del plurale; per gli aggettivi: funzione attributiva/predicativa, posizione dell'aggettivo in funzione attributiva e graduabilità; per gli avverbi: sottoclassifica semantica e parte del discorso modificato. <Self id="SELFVxecop" syntagmatl="STVxecop"/ > self di una copula <SyntagmaT id="STVxecop" syntlabel="V" <SyntFeatureClosed featurename="MORPHSUBCAT" value="COPULA"/></SyntagmaT> <Self id="SELFVxapasno" self di un transitivo non passivizzabile, es.: concernere syntagmatl="STVxapasno"/> 8 9 Il paradigma di flessione è fornito tramite il collegamento dell'unità sintattica all'unità morfologica copula, verbo pronominale, riflessivo, reciproco, modale, forma impersonale, aspettuale, causativo. 7 <SyntagmaT id="STVxapasno" syntlabel="V"> <SyntFeatureClosed featurename="PASSIVIZABLE" value="PASNO"/></SyntagmaT> <Self id="SELFVxeimp" self di un verbo in struttura impersonale, es.: risultare syntagmatl="STVxeimp"/> <SyntagmaT id="STVxeimp" syntlabel="V" <SyntFeatureClosed featurename="MORPHSUBCAT" value="IMPERSONAL"/></SyntagmaT> <Self id="SELFVxaorxemod" self di un verbo modale, es.: dovere syntagmatl="STVxamod STVxemod "/> <SyntagmaT id="STVxamod" syntlabel="V" featurel="TAUXavere"> <SyntFeatureClosed featurename="MORPHSUBCAT" value="MODAL"/></SyntagmaT> <SyntagmaT id="STVxemod" syntlabel="V" featurel="TAUXessere"> <SyntFeatureClosed featurename="MORPHSUBCAT" value="MODAL"/></SyntagmaT> <Self id="SELFVxaasp" syntagmatl="STVxaasp"/> self di un verbo aspettuale, es.: iniziare <SyntagmaT id="STVxaasp" syntlabel="V" featurel="TAUXavere"> <SyntFeatureOpen 10 featurename="ASPECTUAL" value="YES"></SyntagmaT> <Self id="SELFNxcpl" syntagmatl="STNxcpl"/> self di un nome count solo plurale, es.: gli annali <SyntagmaT id="STNxcpl" syntlabel="N"> <SyntFeatureClosed featurename="TNUMBER" value="PLURAL"/> 10 Contrariamente alle SyntFeatureClosed, i cui attribute e valori sono specificati nella DTD, le SyntFeatureOpen sono liberamente definite dall’utente, v. p. 13. 8 <SyntFeatureOpen featurename="MASSCOUNT" value="COUNT"/></SyntagmaT> Nella ‘Construction’ sono codificate le informazioni relative al contesto sintattico tipico dell’entrata lessicale, espresso in termini di struttura argomentale. Il quadro di sottocategorizzazione consiste in un nucleo di informazioni riguardanti ogni membro di una lista ordinata di posizioni. Una posizione è un elemento della struttura argomentale e viene definita dall’insieme dei sintagmi attraverso i quali può essere realizzata. L’ordine delle posizioni che costituiscono la struttura ad argomento è fornito da una lista di funzioni sintattiche gerarchicamente ordinate11 e può quindi divergere dall’ordine di realizzazione superficiale. Tale ordine è costante attraverso l’insieme delle strutture argomentali descritte nel lessico, qualunque sia la posizione effettiva del complemento nell’ordine di superficie e la sua realizzazione lessicale, es.: Luca P0 ha dato il libro P1 a Maria P2 Luca P0 ha dato a Maria P2 il libro (di Piero) P1 Nell’oggetto ‘Construction’ (v. rappresentazione XML), la feature Syntlabel permette di attribuire un’etichetta sintattica all’insieme della costruzione descritta. Funzione principale della ‘Construction’ è la descrizione di ogni singola posizione della struttura argomentale, mediante l’oggetto ‘InstantiatedPositionC’, che consente di fornire le seguenti informazioni: rango occupato dalla posizione rispetto ad altre posizioni della lista (range="0,1,2,3"); indicazione, mediante una feature booleana, della sua obbligatorietà o opzionalità (optional="YESO, NOO"); caratteristiche del o degli occupanti di posizione espresse attraverso un puntatore all’oggetto ‘PositionC’; Nella ‘Construction’, nel caso di struttura a controllo, è inoltre fornita l'indicazione del tipo di controllo esercitato sul soggetto della frase subordinata, tramite l’oggetto ‘SyntFeatureClosed’. In formato XML, la struttura ad argomento di un verbo è quindi rappresentata nel modo seguente, nell’oggetto ‘Construction’ e gli oggetti da esso richiamati: <Construction id="t-ppaorinfaCoC" syntlabel="Clause" <InstantiatedPositionC range="0" optional="YESO" positionc="Psubj"/> identificatore della costruzione etichetta sintattica dell’intera costruzione descrizione della 1° posizione della struttura argomentale numero della posizione opzionalità puntatore ad un oggetto che descrive funzione sintattica e realizzazione sintagmatica di una posizione descrizione della 2° posizione della struttura argomentale .... <InstantiatedPositionC range="1" optional="NOO" positionc="PobjCoC"/> <InstantiatedPositionC range="2" optional="NOO" positionc="PoblppaorinfaCoC"/> <SyntFeatureClosed indicazione di struttura a controllo featurename="CONTROLT" 11 subject < object < predicative complement < indirect object < oblique complement < adverbial. 9 value="OBJECTCONTROL"/></Construction> L’oggetto ‘PositionC’, richiamato nell’oggetto ‘InstantiatedPositionC’, dà, a sua volta, informazioni riguardanti il tipo di relazione che la posizione intrattiene con l’unità sintattica in oggetto relazione espressa in termini di funzione grammaticale e include una feature syntagmacl il cui valore punta agli oggetti ‘SyntagmaNT’ o ‘SyntagmaT’ che descrivono la realizzazione sintattica della posizione o l’alternanza di possibili realizzazioni sintattiche. L’alternanza di realizzazione è segnalata nell’oggetto ‘PositionC’, tramite una lista disgiuntiva di valori della feature syntagmacl (SyntagmaC list), es.: syntagmacl="SNTppa SNTinfaCoC". Oguno di questi valori viene poi descritto in un oggetto ‘SyntagmaNTC’ (v. esempio p. 20). ‘SyntagmaNT’ e ‘SyntagmaT’ descrivono in termini di categoria sintagmatica o terminale la realizzazione sintattica della posizione e gli eventuali tratti morfosintattici e/o lessicali che la caratterizzano o la restringono. Caratteristiche e/o restrizioni della realizzazione sintattica della posizione vengono fornite mediante gli oggetti ‘SyntFeatureClosed’, la cui lista chiusa di valori è definita nella DTD o ‘SyntFeatureOpen’, con una lista aperta di valori definiti specificatamente per il lessico italiano (cf. Appendice D). I suoi tratti lessicali vengono espressi nell’oggetto ‘LexFeature’. <PositionC id="Psubj" function="SUBJECT" syntagmacl="SNTnp"/> <PositionC id="PobjCoC" function="OBJECT" syntagmacl="SNTnpCoC"/> <PositionC id="PoblppaorinfaCoC" function="OBLIQUE" syntagmacl="SNTppa SNTinfaCoC"/> <SyntagmaNTC id="SNTnp" syntlabel="NP"></SyntagmaNTC> <SyntagmaNTC id="SNTnpCoC" syntlabel="NP"> <SyntFeatureClosed featurename="COREF" value="COI"/></SyntagmaNTC> <SyntagmaNTC id="SNTppa" syntlabel="PP" featurel="Ta"></SyntagmaNTC> <SyntagmaNTC id="SNTinfaCoC" syntlabel="Clause" featurel="Ta"> <SyntFeatureClosed featurename="SYNSUBCAT" value="SSINFINITIVE"/> <SyntFeatureClosed featurename="MOOD" value="INFINITIVE"/> <SyntFeatureClosed featurename="COREF" value="COI"/></SyntagmaNTC> 10 <LexFeature id="Ta" featurename="INTROD" value="a" mu="MUSaADPOSITION"/> In un formato di più immediata lettura, per un lettore non familiare con il linguaggio XML, l’informazione codificata in un’entrata verbale del lessico sintattico può essere sintetizzata come illustrato nella tabella 1: [SynU: confermare [Description: [Construction: [Syntlabel:Clause] P0[opt:yes]:[function:subject] [cat:np] [cat:cl] [synsubcat:infcl] [introd:0] [cat:cl] [synsubcat:thatcl] [mood:sub] P1[opt:no]:[function:object] [cat:np] [cat:cl] [syn_sbcat:thatcl] [mood:ind] [cat:cl] [synsubcat:infcl] ] [mood:inf] [introd:di] [coreference:I] P2[opt:yes]:[function:indirectobject] [cat:pp] [introd:a] [coreference:I]] [SELF: [morphsubcat:main] [aux:avere]]]. Tab. 1. Rappresentazione parziale di un’entrata del verbo confermare in un formato intermedio di lavoro Come osservato in precedenza, il modello consente inoltre la rappresentazione di alcuni tipi di alternanza di strutture sintattiche verbali (che condividono lo stesso significato semantico) mediante unità sintattiche complesse che comprendono una descrizione di base e una (o più) descrizione trasformata. Queste descrizioni sono collegate attraverso un frameset (oggetto XML ‘Frameset’). Il frameset12 è un meccanismo che permette di descrivere delle generalizzazioni di sintassi profonda su un insieme di alternanze regolari. Un frameset viene utilizzato per tutta una classe di lemmi che condivide uno stesso fenomeno sintattico: mette in relazione due (o più) descrizioni diverse di una stessa unità morfologica e permette di collegare tra di loro le posizioni di queste descrizioni. <SynU id="SYNUaffondareV" description="t-xa" descriptionl="i-xe" framesetl="FSErg1"> </SynU> Base Description NP0+V+NP1, i.e.: il comandante affonda la nave Derived Description: NP0+V, i.e.: la nave affonda Puntatore al Frameset ‘Erg1’ <Frameset id="FSErg1" comment="collegamento tra verbo transitivo causativo e corrispettiva forma incoativa espressa da un verbo intransitivo" example="affondare la nave / la nave affonda" descriptionl="t-xa i-xe"> <Related> collegamento della posizione 1 (targetposition="1"=NP1) della struttura trans. (RelElement1) con la posizione 0 della struttura intransitiva (targetposition="0"=NP0) (RelElement2) 12 Questo oggetto descrittivo è stato ideato nel’ambito del progetto EAGLES. 11 <RelElement1 description="t-xa"> <WayToPosition targetposition="1"></WayToPosition></RelElement1> ((NP1): la nave) <RelElement2 description="i-xe"> <WayToPosition targetposition="0"></WayToPosition></RelElement2> ((NP0): la nave) </Related></FrameSet> 6.2. Contenuto informativo di un’entrata sintattica: ricapitolazione Ricapitolando, un’unità sintattica contiene le seguenti informazioni: Proprietà specifiche dell'entrata nel contesto sintattico descritto: comportamento idiosincratico rispetto all’applicazione di regole grammaticali: es.: v. trans. non passivizzabile per i verbi: sottoclasse; ausiliare; per i nomi: tratto mass/count, uso esclusivo del plurale; per gli aggettivi: funzione attributiva/predicativa, posizione in funzione attributiva e graduabilita’; per gli avverbi: sottoclassifica semantica e parte del discorso modificato. Frame di sottocategorizzazione: lista di posizioni (massimo 4: P0, P1, P2, P3); opzionalita’ di ogni posizione; proprieta’ e restrizioni sintattiche di ogni ‘occupante di posizione’: funzione grammaticale (per verbi e nomi deverbali); realizzazione sintattica della posizione (etichetta sintagmatica) o alternanza di possibili realizzazioni (es.: np/infclause/thatclause); tratti morfosintattici e/o lessicali (accordo, preposizioni e particelle che introducono i complementi clausali) indicazione del tipo di controllo ('subjectcontrol', 'objectcontrol', 'indirectobjectcontrol', 'raising') e indicazione degli elementi 'controllore' e 'controllato' posizione del lemma rispetto ai suoi complementi (attributo:'selfinsertion') 6.3. Costruzione di una struttura sintattica I frame sintattici non sono definiti a priori, bensì costruiti dal lessicografo mediante l’assemblaggio degli strumenti descrittivi di base proposti dal modello man mano che definisce le proprietà sintattiche delle entrate predicative. Partendo dagli oggetti di base e risalendo verso strutture complesse, osserviamo il procedimento con il quale viene definito una struttura sintattica: Le ‘Lexfeature’ (attributo featurel) nonché le ‘SyntfeatureClosed’ e ‘SyntfeatureOpen’ entrano nella costruzione dei ‘SyntagmaNTC’ e ‘SyntagmaT’. <SyntagmaNTC id="SNTinfaCoC" syntlabel="Clause" featurel="Ta"> <SyntFeatureClosed featurename="SYNSUBCAT" 12 value="SSINFINITIVE"/> <SyntFeatureClosed featurename="MOOD" value="INFINITIVE"/> <SyntFeatureClosed featurename="COREF" value="COI"/></SyntagmaNTC> <SyntagmaT id="STNxm" syntlabel="N"> <SyntFeatureOpen featurename="MASSCOUNT" value="MASS"/></SyntagmaT> ‘SyntagmaNTC’ e, molto raramente, ‘SyntagmaT’ entrano nella costruzione delle ‘PositionC’. <PositionC id="Psubj" function="SUBJECT" syntagmacl="SNTnp"/> <PositionC id="PobjproAsA" function="OBJECT" syntagmacl="STproAsA"/> Le ‘PositionC’ sono richiamate dalle ‘InstantiatedPosition’, le quali, con le ‘SyntfeatureClosed’, formano il nucleo della ‘Construction’. <Construction id="i-clauscompinfdiCsCrais" naming="01- Verb" syntlabel="Clause" selfinsertion="1"> <InstantiatedPositionC range="0" optional="YESO" positionc ="PsubjCsC"/> <InstantiatedPositionC range="1" optional="NOO" positionc ="PclauscompinfdiCsCrais"/> <SyntFeatureClosed featurename="CONTROLT" value="RAISING"/></Construction> I ‘SyntagmaT’, invece costituiscono un elemento dell’oggetto ‘Self’. <Self id="SELFVxe" syntagmatl="STVxe"/> ‘Self’ e ‘Construction’ sono richiamati dalla ‘Description’, la quale è a sua volta richiamata dalla ‘Synu’ e dal ‘Frameset’ (v. illustrazione del framset in 6.1). <Description id="i-adjppdiopt-xe" example="il pane aumenta del 10%" 13 self="SELFVxe" construction="i-adjppdiopt"/> <SynU id="SYNUaumentareV" naming="aumentare" comment="tr" example="aumentare i prezzi del 10 per cento. Il pane aumenta di dieci lire" description="t-adjppdiopt-xa" descriptionl="i-adjppdiopt-xe" framesetl="FSERG9"> </SynU> Più concretamente, un esempio. L'oggetto che descrive il sintagma nominale: <SyntagmaNTC id="SNTnp" syntlabel="NP"></SyntagmaNTC> viene usato nella costruzione di tutte le posizioni realizzate mediante un NP, qualunque sia il suo rango nella lista ordinata di posizioni che costituiscono il frame (oggetto ‘construction’) e la funzione sintattica assegnata a questa posizione, quindi ad esempio: <PositionC id="Psubj" function="SUBJECT" syntagmacl="SNTnp"/> <PositionC id="Pobj" function="OBJECT" syntagmacl="SNTnp"/> ecc… Questi due oggetti sono utilizzati a loro volta per costruire, ad esempio, un frame transitivo bivalente semplice: <Construction id="t" syntlabel="Clause" selfinsertion ="1"> <InstantiatedPositionC range="0" optional="YESO" positionc="Psubj"/> <InstantiatedPositionC range="1" optional="NOO" positionc="Pobj"/></Construction> Tale frame è condiviso sia da verbi transitivi comuni, con ausiliare avere, che da letture di verbi transitivi che non ammettono il passivo, es.: ho molti libri o che ammettono solo il passivo, es.: l’appartamento è costituito da tre stanze. In effetti, la differenza esistente tra queste strutture sintattiche non riguarda le proprietà dei complementi (e non è quindi marcata nella ‘construction’) bensì le proprietà dell’unità lessicale codificata (ed è quindi marcata nel ‘self’). La stessa ‘construction’, abbinata a ‘self’ diversi, dà luogo a ‘description’ diverse: <Description id="t-xa" 14 example="abbassare un muro; - la testa" self="SELFVxa" construction="t"/> <Description id="t-xapasno" example="affollare una piazza" self="SELFVxapasno" construction="t"/> <Description id="t-x0pas" example="l’appartamento e’ costituito da tre stanze" self="SELFVx0pas" construction="t"/> Basandosi sulle risorse linguistiche elaborate nell’ambito del progetto PAROLE, Il progetto CLIPS si è avvalso, per la descrizione del comportamento sintattico delle entrate lessicali, dell’insieme dei frame sintattici (i.e. oggetto ‘Description’) individuati durante tale progetto, ampliando il loro numero alla luce delle problematiche emerse dalla codifica di un numero sempre maggiore di unità sintattiche. In totale, sono state individuate 1023 descrizioni sintattiche diverse (Appendice B). 15