Che cos’è l’annotazione di un corpus? L’annotazione dei corpora L’etichettatura linguistica Standard di codifica (TEI, CES, Eagles) Informatica e lingue naturali - Isabella Chiari (2004) 1 Informatica e lingue naturali - Isabella Chiari (2004) Esempi { 3. 4. { 3 Problemi di disambiguazione Annotazione semi-automatica { I fase automatica II fase manuale Informatica e lingue naturali - Isabella Chiari (2004) 4 Requisiti (continua) Separazione e autonomia del materiale grezzo del corpus (insieme di testi digitalizzato) dalle codifiche e annotazioni linguistiche; Esplicitazione di tutte le fasi di predisposizione, standardizzazione e annotazione del corpus in un file di documentazione accessibile insieme al corpus; Forma standard per la codifica e l’annotazione; Indicazione esplicita dei criteri di annotazione (regole di attribuzione di un’etichetta a un token); Informatica e lingue naturali - Isabella Chiari (2004) Annotazione manuale: completamente condotta dall’uomo (tipica della fonetica, frequente anche ad altri livelli) Annotazione automatica (soprattutto POS) { Requisiti formali di un corpus annotato 2. Palla > N Tornò > V … Informatica e lingue naturali - Isabella Chiari (2004) 1. 2 Metodi di annotazione Tipica dei corpora è l’annotazione morfo-sintattica detta POS (part-ofspeech tagging): a ogni occorrenza di parola viene associata la relativa categoria grammaticale { L’annotazione o etichettatura linguistica di un corpus è l’aggiunta di informazioni di tipo linguistico (o meglio metalinguistico) alle diverse porzioni di un testo. L’annotazione è una forma di codifica (esistono diversi tipi di annotazione non linguistica) L’annotazione consiste nell’attribuzione di una etichetta (tag o mark-up) a una porzione specifica e limitata di testo. Qualunque aspetto dell’analisi linguistica può essere etichettato (fonologia e fonetica, morfologia, sintassi, semantica, pragmatica, testo, ecc.) 5. 6. 7. 5 Neutralità e condivisione generale dei criteri linguistici alla base dell’annotazione; Possibilità di eseguire specifiche ricerche sulle annotazioni; Indipendenza della fruibilità del corpus e dell’annotazione dagli specifici sistemi operativi e da costrizioni sulle caratteristiche dell’hardware; Informatica e lingue naturali - Isabella Chiari (2004) 6 1 La standardizzazione dell’etichettatura Primi tipi di etichettatura COCOA References: Attributo-valore { { { { L’attributo indica la caratteristica analizzata: titolo, cat. grammaticale, autore, ecc. Il valore indica specificatamente come viene realizzato l’attributo. Il testo viene incluso tra < > Esempio: vado a lezione Le Cocoa references sono un sistema poco flessibile di etichettatura La necessità di ricorrere ad annotazioni e sistemi di codifica uniformi e omogenei ha prodotto la nascita di alcune iniziative di standardizzazione { Attributo V (verbo) N (nome) Agg (agg) ecc.. <V vado> <Prep a> <N lezione> { { Informatica e lingue naturali - Isabella Chiari (2004) 7 Nasce nel 2000 promosso dalle più note associazioni di linguistica computazionale (ACL, ALLC, ACH) Iniziativa in progress Le TEI Guidelines sono le linee guida per la codifica e annotazione dei testi { { { la definizione di uno standard per lo scambio e la codifica dei dati, indipendente dal tipo di testi analizzati in un formato indipendente da applicazioni e hardware specifici. Informatica e lingue naturali - Isabella Chiari (2004) { 9 { { Informatica e lingue naturali - Isabella Chiari (2004) Obbligatorie Raccomandate Opzionali { Personalizzate dall’utente 11 Marca di inizio (start tag): è un nome tra parentesi uncinate <name1> Marca di fine (end tag): è come la marca di inizio, preceduta però dal segno / </name1> Esempio: “mio fratello” In un testo le etichette si possono trovare l’una dentro l’altra annidate gerarchicamente { Il testo è suddiviso in unità testuali (dipendenti dal tipo di etichettatura che si intende effettuare) Informatica e lingue naturali - Isabella Chiari (2004) 10 È necessario segnalare l’inizio e la fine della porzione testuale da marcare { E infine: { La tipologia testuale bolletta conterrà importo, destinatario, conto corrente postale, nome e indirizzo del cliente, ecc.) La definizione di un DTD richiede l’individuazione di un insieme di etichette ammesse e di regole di attribuzione delle etichette ai fenomeni testuali. La marcatura XML Le etichette TEI sono suddivise in tre categorie: { 8 TEI propugna l’uso del sistema SGML (Standard Generalized Markup Language), oppure il più recente XML (Extensible Markup Language) Per la codifica dei caratteri richiede ISO 646 (a 7bit), oppure Unicode Ogni documento è classificato secondo un DTD (SGML Document Type Definitions) che dichiara la sua conformità a una specifica tipologia. { Le etichette TEI Informatica e lingue naturali - Isabella Chiari (2004) Formato di marcatura (markup language) Text Encoding Initiative (TEI) TEI (text encoding initiative) Eagles CES (corpus encoding standard) <Agg.poss>mio</Agg.poss><N>fratello</N> Informatica e lingue naturali - Isabella Chiari (2004) 12 2 Esempio di marcatura annidata Un documento TEI deve contenere: <anthology> <poem><title>The SICK ROSE</title> <stanza> <line>O Rose thou art sick.</line> <line>The invisible worm,</line> <line>That flies in the night</line> <line>In the howling storm:</line> </stanza> <stanza> <line>Has found out thy bed</line> <line>Of crimson joy:</line> <line>And his dark secret love</line> <line>Does thy life destroy.</line> </stanza> </poem> Da Sperberg-McQueen e Burnard, 2002:§2.3.2 Informatica e lingue naturali - Isabella Chiari (2004) { { { { Ogni insieme contiene specifici sottoinsiemi di etichette Etichette personalizzate e definite dall’utente DTD (core) per il corpo del testo 13 Informatica e lingue naturali - Isabella Chiari (2004) 14 Esempi di possibili etichettature <teiHeader> <fileDesc> <titleStmt> <title>Thomas Paine: Common sense, a machine-readable transcript</title> <respStmt> <resp>compiled by</resp> <name>Jon K Adams</name> </respStmt> </titleStmt> <publicationStmt> <distributor>Oxford Text Archive</distributor> </publicationStmt> <sourceDesc> <bibl>The complete writings of Thomas Paine, collected and edited by Phillip S. Foner (New York, Citadel Press, 1945)</bibl> </sourceDesc> </fileDesc> Da Sperberg-McQueen e Burnard, 2002: §5.6 </teiHeader> Un testo in prosa richiede la divisione in paragrafi, compresi tra le etichette <p> e </p>. Ed eventualmente la segnalazione di elementi come { { { { { { { 15 Esempio di etichettatura con indicazioni linguistiche messa in rilievo <hi> prestiti da altre lingue <foreign> enfasi <emph> varianti linguistiche rispetto alla dimensione diacronica <distinct time> diastratica <distinct social> diafasica <distinct type> diatopica <distinct space> Informatica e lingue naturali - Isabella Chiari (2004) 16 I testi parlati nell’etichettatura TEI <q>Aren't you confusing <foreign lang="la">post hoc</foreign> with <foreign lang="la">propter hoc</foreign>?</q> said the Bee Master. <q>Waxmoth only succeed when weak bees let them in.</q> Da Sperberg-McQueen e Burnard, 2002: §6.3.2 <text> è una porzione caratterizzata da una certa coerenza e coesione, ed è ininterrotta <u> (utterance) è una sequenza di testo delimitata da silenzi o da passaggi di turno All’interno di <u> avremo per esempio: { { <u>Okay <pause dur="200"/>U-m<pause dur="75"/>the s the scene opens up <pause dur="50"/> with <pause dur="20"/> um <pause dur="145"/> you see a tree okay?</u> { { { Da Sperberg-McQueen e Burnard, 2002: §11.2.2 Informatica e lingue naturali - Isabella Chiari (2004) descrizione bibliografica del documento elettronico descrizione della codifica Informazioni non bibliografiche (partecipanti e la situazione, ecc.) un insieme di etichette di base (base tag-set) tra: prosa, versi, teatro, parlato, dizionari, terminologie, generale e misto. { Esempio di TEI header Informatica e lingue naturali - Isabella Chiari (2004) (TEI header) - intestazione { 17 pause <pause> elementi vocali non linguistici (come le pause piene, tipo ehm) <vocal> elementi gestuali anche non linguistici <kinesic> eventi esterni, come rumori accidentali, <event> elementi scritti mostrati durante la conversazione <writing> passaggi a eventi paralinguistici <shift> Informatica e lingue naturali - Isabella Chiari (2004) 18 3 Il gruppo Eagles Gli obiettivi di Eagles Expert Advisory Group on Language Engineering Standards { { { { Focalizzato sui temi della codifica linguistica codifica dei testi e annotazione linguistica elaborazione degli strumenti di analisi (software) con particolare attenzione la progettazione di corpus di parlato Informatica e lingue naturali - Isabella Chiari (2004) { { 19 L’insieme delle etichette è chiuso e definito, e costituito da 13 categorie; 20 Corpus Encoding Standard (CES), conforme a TEI e Eagles Pensata per le elaborazioni del Natural Language Processing, della lessicografia e della traduzione automatica Elabora standard per: { { dati primari, ossia i corpora elettronici non annotati annotazione linguistica Informatica e lingue naturali - Isabella Chiari (2004) 22 Fasi di standardizzazione raccomandazioni di livello metalinguistico; etichette e raccomandazioni per la documentazione dei corpus; etichette e raccomandazioni per l’annotazione dei dati primari; etichette e raccomandazioni per l’annotazione linguistica (a livello testuale, morfosintattico e per il trattamento di corpora paralleli). Informatica e lingue naturali - Isabella Chiari (2004) 21 Obiettivi del CES Informatica e lingue naturali - Isabella Chiari (2004) Livello di etichettatura raccomandata che riguarda caratteristiche grammaticali language-dependent (come genere, persona, ecc.). Anche in questo caso l’insieme delle etichette è chiuso, ampio e distinto a seconda delle etichette obbligatorie di riferimento. Livello delle estensioni speciali che indica specifiche grammaticali tipiche di un numero ridotto di lingue europee, oppure annotazioni particolari introdotte a fini specifici. La classe delle etichette è aperta (ed estensibile a seconda dei bisogni di annotazione) (e.g. aspetto verbale, riflessività, ecc.) Informatica e lingue naturali - Isabella Chiari (2004) Sistema di etichettatura TEI (attributovalore) Standardizzazione CES L’etichettatura morfo-sintattica obbligatoria è quella per le categorie sintattiche (nome, verbo, avverbio, aggettivo, congiunzione), applicabile in modo uniforme al di là della lingua specifica del corpus. { riusabili interscambiabili ed estensibili Attenzione soprattutto alla etichettatura morfo-sintattica (POS) { Livelli di etichettatura con Eagles Rendere i diversi corpora 23 Il metalinguaggio di annotazione (markup metalanguage) definisce la sintassi delle etichette. Livello sintattico: determinazione delle etichette (tag names) e delle regole sintattiche per il loro l’uso Livello semantico: predisposizione delle procedure di applicazione di una determinata etichetta a diversi fenomeni linguistici Informatica e lingue naturali - Isabella Chiari (2004) 24 4