L`annotazione dei corpora Che cos`è l`annotazione di

Che cos’è l’annotazione di un
corpus?
L’annotazione dei corpora
„
„
L’etichettatura linguistica
Standard di codifica (TEI,
CES, Eagles)
Informatica e lingue naturali - Isabella Chiari
(2004)
„
„
1
Informatica e lingue naturali - Isabella Chiari
(2004)
Esempi
„
{
3.
4.
{
3
Problemi di disambiguazione
Annotazione semi-automatica
{
I fase automatica
II fase manuale
Informatica e lingue naturali - Isabella Chiari
(2004)
4
Requisiti (continua)
Separazione e autonomia del materiale grezzo
del corpus (insieme di testi digitalizzato) dalle
codifiche e annotazioni linguistiche;
Esplicitazione di tutte le fasi di predisposizione,
standardizzazione e annotazione del corpus in un
file di documentazione accessibile insieme al
corpus;
Forma standard per la codifica e l’annotazione;
Indicazione esplicita dei criteri di annotazione
(regole di attribuzione di un’etichetta a un token);
Informatica e lingue naturali - Isabella Chiari
(2004)
„
Annotazione manuale: completamente
condotta dall’uomo (tipica della fonetica,
frequente anche ad altri livelli)
Annotazione automatica (soprattutto POS)
{
Requisiti formali di un corpus
annotato
2.
„
„
Palla > N
Tornò > V …
Informatica e lingue naturali - Isabella Chiari
(2004)
1.
2
Metodi di annotazione
Tipica dei corpora è l’annotazione
morfo-sintattica detta POS (part-ofspeech tagging): a ogni occorrenza di
parola viene associata la relativa
categoria grammaticale
{
L’annotazione o etichettatura linguistica di un
corpus è l’aggiunta di informazioni di tipo linguistico
(o meglio metalinguistico) alle diverse porzioni di un
testo.
L’annotazione è una forma di codifica (esistono
diversi tipi di annotazione non linguistica)
L’annotazione consiste nell’attribuzione di una
etichetta (tag o mark-up) a una porzione specifica
e limitata di testo.
Qualunque aspetto dell’analisi linguistica può
essere etichettato (fonologia e fonetica, morfologia,
sintassi, semantica, pragmatica, testo, ecc.)
5.
6.
7.
5
Neutralità e condivisione generale dei
criteri linguistici alla base dell’annotazione;
Possibilità di eseguire specifiche ricerche
sulle annotazioni;
Indipendenza della fruibilità del corpus e
dell’annotazione dagli specifici sistemi
operativi e da costrizioni sulle
caratteristiche dell’hardware;
Informatica e lingue naturali - Isabella Chiari
(2004)
6
1
La standardizzazione
dell’etichettatura
Primi tipi di etichettatura
„
COCOA References: Attributo-valore
{
{
{
{
„
L’attributo indica la caratteristica analizzata:
titolo, cat. grammaticale, autore, ecc.
Il valore indica specificatamente come viene
realizzato l’attributo.
Il testo viene incluso tra < >
Esempio: vado a lezione
„
„
„
Le Cocoa references sono un sistema poco
flessibile di etichettatura
La necessità di ricorrere ad annotazioni e
sistemi di codifica uniformi e omogenei ha
prodotto la nascita di alcune iniziative di
standardizzazione
{
Attributo V (verbo) N (nome) Agg (agg) ecc..
<V vado> <Prep a> <N lezione>
{
{
Informatica e lingue naturali - Isabella Chiari
(2004)
7
„
„
Nasce nel 2000 promosso dalle più note
associazioni di linguistica computazionale
(ACL, ALLC, ACH)
Iniziativa in progress
Le TEI Guidelines sono le linee guida per la
codifica e annotazione dei testi
{
{
{
„
„
„
la definizione di uno standard per lo scambio e
la codifica dei dati,
indipendente dal tipo di testi analizzati
in un formato indipendente da applicazioni e
hardware specifici.
Informatica e lingue naturali - Isabella Chiari
(2004)
{
9
{
{
„
„
Informatica e lingue naturali - Isabella Chiari
(2004)
„
Obbligatorie
Raccomandate
Opzionali
{
Personalizzate dall’utente
11
Marca di inizio (start tag): è un nome tra
parentesi uncinate <name1>
Marca di fine (end tag): è come la marca di
inizio, preceduta però dal segno / </name1>
„
Esempio: “mio fratello”
„
In un testo le etichette si possono trovare
l’una dentro l’altra annidate
gerarchicamente
{
Il testo è suddiviso in unità testuali
(dipendenti dal tipo di etichettatura che si
intende effettuare)
Informatica e lingue naturali - Isabella Chiari
(2004)
10
È necessario segnalare l’inizio e la fine della
porzione testuale da marcare
{
E infine:
{
La tipologia testuale bolletta conterrà importo, destinatario,
conto corrente postale, nome e indirizzo del cliente, ecc.)
La definizione di un DTD richiede l’individuazione di un
insieme di etichette ammesse e di regole di
attribuzione delle etichette ai fenomeni testuali.
La marcatura XML
Le etichette TEI sono suddivise in tre
categorie:
{
8
TEI propugna l’uso del sistema SGML (Standard
Generalized Markup Language), oppure il più
recente XML (Extensible Markup Language)
Per la codifica dei caratteri richiede ISO 646 (a 7bit), oppure Unicode
Ogni documento è classificato secondo un DTD
(SGML Document Type Definitions) che dichiara la
sua conformità a una specifica tipologia.
{
Le etichette TEI
„
Informatica e lingue naturali - Isabella Chiari
(2004)
Formato di marcatura (markup language)
Text Encoding Initiative (TEI)
„
TEI (text encoding initiative)
Eagles
CES (corpus encoding standard)
<Agg.poss>mio</Agg.poss><N>fratello</N>
Informatica e lingue naturali - Isabella Chiari
(2004)
12
2
Esempio di marcatura
annidata
Un documento TEI deve
contenere:
<anthology>
<poem><title>The SICK ROSE</title>
<stanza>
<line>O Rose thou art sick.</line>
<line>The invisible worm,</line>
<line>That flies in the night</line>
<line>In the howling storm:</line>
</stanza>
<stanza>
<line>Has found out thy bed</line>
<line>Of crimson joy:</line>
<line>And his dark secret love</line>
<line>Does thy life destroy.</line>
</stanza>
</poem>
Da Sperberg-McQueen e Burnard, 2002:§2.3.2
Informatica e lingue naturali - Isabella Chiari
(2004)
„
{
{
{
„
{
„
Ogni insieme contiene specifici sottoinsiemi di etichette
Etichette personalizzate e definite dall’utente
DTD (core) per il corpo del testo
13
Informatica e lingue naturali - Isabella Chiari
(2004)
14
Esempi di possibili
etichettature
<teiHeader>
<fileDesc>
<titleStmt>
<title>Thomas Paine: Common sense, a
machine-readable transcript</title>
<respStmt>
<resp>compiled by</resp>
<name>Jon K Adams</name>
</respStmt>
</titleStmt>
<publicationStmt>
<distributor>Oxford Text Archive</distributor>
</publicationStmt>
<sourceDesc>
<bibl>The complete writings of Thomas Paine, collected
and edited
by Phillip S. Foner (New York, Citadel Press,
1945)</bibl>
</sourceDesc>
</fileDesc>
Da Sperberg-McQueen e Burnard, 2002: §5.6
</teiHeader>
„
„
Un testo in prosa richiede la divisione in paragrafi,
compresi tra le etichette <p> e </p>.
Ed eventualmente la segnalazione di elementi
come
{
{
{
{
{
{
{
15
Esempio di etichettatura con
indicazioni linguistiche
messa in rilievo <hi>
prestiti da altre lingue <foreign>
enfasi <emph>
varianti linguistiche rispetto alla dimensione diacronica
<distinct time>
diastratica <distinct social>
diafasica <distinct type>
diatopica <distinct space>
Informatica e lingue naturali - Isabella Chiari
(2004)
16
I testi parlati nell’etichettatura
TEI
<q>Aren't you confusing <foreign lang="la">post
hoc</foreign> with <foreign lang="la">propter
hoc</foreign>?</q> said the Bee Master. <q>Waxmoth only succeed when weak bees let them
in.</q>
„
„
„
Da Sperberg-McQueen e Burnard, 2002: §6.3.2
<text> è una porzione caratterizzata da una certa
coerenza e coesione, ed è ininterrotta
<u> (utterance) è una sequenza di testo delimitata
da silenzi o da passaggi di turno
All’interno di <u> avremo per esempio:
{
{
<u>Okay <pause dur="200"/>U-m<pause
dur="75"/>the s the scene opens up <pause
dur="50"/> with <pause dur="20"/> um <pause
dur="145"/> you see a tree okay?</u>
{
{
{
Da Sperberg-McQueen e Burnard, 2002: §11.2.2
Informatica e lingue naturali - Isabella Chiari
(2004)
descrizione bibliografica del documento elettronico
descrizione della codifica
Informazioni non bibliografiche (partecipanti e la
situazione, ecc.)
un insieme di etichette di base (base tag-set) tra:
prosa, versi, teatro, parlato, dizionari, terminologie,
generale e misto.
{
Esempio di TEI header
Informatica e lingue naturali - Isabella Chiari
(2004)
(TEI header) - intestazione
{
17
pause <pause>
elementi vocali non linguistici (come le pause piene, tipo
ehm) <vocal>
elementi gestuali anche non linguistici <kinesic>
eventi esterni, come rumori accidentali, <event>
elementi scritti mostrati durante la conversazione
<writing>
passaggi a eventi paralinguistici <shift>
Informatica e lingue naturali - Isabella Chiari
(2004)
18
3
Il gruppo Eagles
„
Gli obiettivi di Eagles
Expert Advisory Group on Language
Engineering Standards
{
{
{
„
{
Focalizzato sui temi della codifica
linguistica
codifica dei testi e annotazione
linguistica
elaborazione degli strumenti di analisi
(software) con particolare attenzione la
progettazione di corpus di parlato
Informatica e lingue naturali - Isabella Chiari
(2004)
{
{
„
19
„
L’insieme delle etichette è chiuso e definito, e costituito da 13
categorie;
„
„
„
„
20
Corpus Encoding Standard (CES), conforme
a TEI e Eagles
Pensata per le elaborazioni del Natural
Language Processing, della lessicografia e
della traduzione automatica
Elabora standard per:
{
{
dati primari, ossia i corpora elettronici non
annotati
annotazione linguistica
Informatica e lingue naturali - Isabella Chiari
(2004)
22
Fasi di standardizzazione
raccomandazioni di livello
metalinguistico;
etichette e raccomandazioni per la
documentazione dei corpus;
etichette e raccomandazioni per
l’annotazione dei dati primari;
etichette e raccomandazioni per
l’annotazione linguistica (a livello
testuale, morfosintattico e per il trattamento
di corpora paralleli).
Informatica e lingue naturali - Isabella Chiari
(2004)
„
21
Obiettivi del CES
„
Informatica e lingue naturali - Isabella Chiari
(2004)
„
Livello di etichettatura raccomandata che riguarda
caratteristiche grammaticali language-dependent (come
genere, persona, ecc.). Anche in questo caso l’insieme delle
etichette è chiuso, ampio e distinto a seconda delle etichette
obbligatorie di riferimento.
Livello delle estensioni speciali che indica specifiche
grammaticali tipiche di un numero ridotto di lingue europee,
oppure annotazioni particolari introdotte a fini specifici. La
classe delle etichette è aperta (ed estensibile a seconda dei
bisogni di annotazione) (e.g. aspetto verbale, riflessività,
ecc.)
Informatica e lingue naturali - Isabella Chiari
(2004)
Sistema di etichettatura TEI (attributovalore)
Standardizzazione CES
L’etichettatura morfo-sintattica obbligatoria è quella per le
categorie sintattiche (nome, verbo, avverbio, aggettivo,
congiunzione), applicabile in modo uniforme al di là della
lingua specifica del corpus.
{
„
riusabili
interscambiabili
ed estensibili
Attenzione soprattutto alla
etichettatura morfo-sintattica (POS)
{
Livelli di etichettatura con
Eagles
„
Rendere i diversi corpora
23
„
„
„
Il metalinguaggio di annotazione (markup metalanguage) definisce la sintassi delle
etichette.
Livello sintattico: determinazione delle
etichette (tag names) e delle regole
sintattiche per il loro l’uso
Livello semantico: predisposizione delle
procedure di applicazione di una
determinata etichetta a diversi fenomeni
linguistici
Informatica e lingue naturali - Isabella Chiari
(2004)
24
4