Atti delle XIV Giornate del GFS Viterbo, 4-6 dicembre 2003 La “partitura”: un sistema di annotazione multilivello di interazioni multimodali basata su ANVIL Emanuela Magno Caldognetto*, Piero Cosi*, Federica Cavicchio*, Isabella Poggi° *ISTC CNR Sezione di Padova “Fonetica e Dialettologia” °Dipartimento di Scienze dell'Educazione Università di Roma Tre e-mail: [email protected], [email protected] 1. UNA “PARTITURA” MULTIMODALE PER L’ANALISI DELLA COMUNICAZIONE In una interazione comunicativa faccia-a-faccia il parlante che produce un enunciato, realizzato oralmente grazie all'attività del sistema pneumo-fonoarticolatorio, trasmesso per via acustica e percepito nella modalità uditiva, può produrre contemporaneamente gesti e movimenti trasmessi per via ottica e percepiti nella modalità visiva (Magno Caldognetto e Poggi 2001). Dal punto di vista metodologico, nell’analisi degli scambi comunicativi, lo studioso dovrà affrontare due problemi analitici, connessi tra loro: 1- la descrizione esaustiva dei sistemi di comunicazione modo-specifici, studiati separatamente e indipendentemente l’uno dall’altro; 2- la descrizione delle sincronizzazioni dei segnali che sono all’opera nell’interazione multimodale, che non necessariamente sono in rapporti di simultaneità, ma anche di anticipazione o di perseverazione tra le diverse unità nei diversi segnali. Con questa serie di dati si potranno definire le interazioni tra i diversi sistemi all’interno di un atto di comunicazione complesso e formulare le regole di pianificazione, cioè le regole in base alle quali questi diversi sistemi di comunicazione interagiscono gli uni con gli altri e insieme cooperano a costituire il complesso atto finale di comunicazione. Per descrivere la multimodalità della comunicazione, è stato suggerito e applicato un metodo (Magno Caldognetto e Poggi 1994, 2001; Poggi e Magno Caldognetto 1996, Magno Caldognetto et al., in corso di stampa): la Partitura, un sistema per trascrivere e analizzare i segnali multimodali classificati sia separatamente che nella loro interazione reciproca. Questo metodo permette di individuare gli elementi comunicativi trasmessi simultaneamente da: contenuto verbale del parlato, prosodia, gesto, movimenti di bocca, occhi, sguardo, sopracciglia, testa e postura, poichè ogni segnale in ciascuna modalità viene segmentato ed etichettato su cinque diversi livelli, relativi a: - Descrizione del segnale, che fornirà una descrizione discorsiva o in termini di movimenti o di parametri formazionali (se si analizza un gesto coverbale, vedasi Stockoe 1980; per la descrizione del segnale verbale su base acustica vedasi § 2). - Tipologia descrittiva, che classificherà il segnale in base alle categorie individuate (se si analizza, per esempio, un gesto coverbale quale l’indice teso e innalzato che si muove avanti e indietro, si sceglierà tra simbolico, batonico, iconico, ecc.). - Significato, che riporta una parafrasi verbale del significato di quel particolare segnale (es. per il gesto simbolico sopra citato: “Stai/state attento/i” “ Fai/fate attenzione!”); con una opportuna sigla di segnalazione (M per “Metaforico”) può essere indicato il passaggio da un significato concreto ad uno astratto o metaforico (da “pesare” a “valutare, giudicare”). - Tipologia semantica, che classifica il significato di gesti e movimenti in base ad una tassonomia semantica od ontologica (conoscenze del mondo, conoscenze della mente del parlante, autopresentazione; l’etichettatura del gesto coverbale sopra citato sarà “conoscenza della mente del parlante”). - Funzione, che individua il rapporto semantico fra il segnale considerato e il concomitante segnale verbale. La funzione può essere ripetitiva, quando il segnale analizzato ha lo stesso significato del verbale; aggiuntiva, se vi aggiunge informazioni; sostitutiva, se porta informazioni che l’altro segnale non esplicita; contraddittoria, se ne contraddice il significato; indifferente, se i due segnali fanno parte di piani comunicativi diversi. Oltre a queste valutazioni, che devono essere il più possibile oggettive, cioè aderenti alla struttura del segnale e non alle “ricostruzioni” dello studioso, sarà probabilmente da implementare un livello finale di valutazione, non limitato al solo segmento in analisi, in cui si dovrà utilizzare il contesto per giungere all’individuazione di sovrascopi e significati indiretti. Ad esempio, ad un aggrottamento di sopracciglia fornito dall’interlocutore come segnale di backchannel è possibile attribuire, al di là di un significato letterale di incomprensione (“non capisco”), un significato indiretto di disaccordo (“non sono d’accordo con te”). Nel caso del gesto “mano a borsa”, il significato letterale “ma che dici?” trasmette l’affermazione “non è vero quello che dici”. In questi casi, a seconda che si stia analizzando il livello letterale o quello indiretto, si dovrebbero forse utilizzare delle etichette diverse per la tipologia semantica e la funzione.Un problema metodologico reale potrebbe porsi quando si dovesse giudicare la funzione non solo dei gesti e dei vari movimenti rispetto al parlato (che nel nostro approccio è stato scelto come segnale di riferimento), ma dei gesti e altri tipi di movimenti tra loro, come nel caso dell’interazione tra espressione facciale e gesto simbolico. 2. LA PARTITURA IMPLEMENTATA IN ANVIL Analisi della comunicazione multimodale basate sulla Partitura sono state già presentate nel passato: i risultati ottenuti dall’analisi frame by frame, della sequenza della registrazione televisiva, dalla sua visualizzazione contemporanea al segnale vocale grazie a schede di acquisizione quali Adobe Première, e dall’analisi del segnale acustico, eseguite off line in termini di caratteristiche spettrali, di andamenti di F0 e di intensità, venivano riportati manualmente su grafici (Magno Caldognetto e Poggi 1994, Poggi e Magno Caldognetto 1996). Tali descrizioni potevano generare errori nella valutazione confrontativa di dati elaborati separatamente e a volte con scale temporali diverse a causa della diversità dei dispositivi di analisi. Queste limitazioni metodologiche sono state superate implementando la Partitura su ANVIL (Kipp 2001) per le sue qualità di robustezza, flessibilità e relativa facilità d’uso. E' stato creato innanzi tutto un menu dei sistemi comunicativi che utilizzano i canali uditivo e visivo e per ciascuno di essi sono stati implementati i cinque livelli di analisi riportati in § 1. Ove possibile, per esempio nel caso della tipologia del gesto o della sua funzione, sono state elaborate, sulla base di ricerche precedenti (per es. Kendon 1995, McNeill 1992), delle liste di etichette classificatorie inserite in menu a tendina, mentre per gli altri livelli analitici è prevista una descrizione discorsiva o una descrizione simbolica (vedasi Poggi 2001 e per i cheremi Stokoe 1980). Ciò che rende particolarmente utile il sistema ANVIL è la possibilità di memorizzare le segmentazioni relative a ciascun segnale in relazione alla scala temporale scelta dalla visualizzazione della forma d'onda e dello spettrogramma del segnale verbale. Una volta eseguite tutte le valutazioni previste dalla Partitura, è possibile il controllo delle relazioni temporali tra le unità delle varie modalità e la valutazione confrontativa dei significati trasmessi dai vari segnali. Etichettature del segnale restano comunque totalmente affidate allo studioso. A fronte delle potenzialità del sistema descrittivo appena illustrato, vanno ricordati alcuni limiti tecnologici di ANVIL 3.6 soprattutto per quanto riguarda l’analisi acustica, sia a livello segmentale che soprasegmentale. Mentre ANVIL prevede solo la trascrizione ortografica delle parole, è già stato inserito un livello di trascrizione fonetica e sillabica, anche se la segmentazione non è ancora soddisfacente perché viene eseguita sulla base dello spettrogramma importato grazie al plug in Sonogram che sembra presentare errori di allineamento con ANVIL di almeno un frame. Deve essere anche migliorato il sistema di analisi prosodica e intonativa, poiché PRAAT, importato in ANVIL, non fornisce per il momento le scale quantitative di F0 e dell’energia, privando i linguisti di importanti informazioni. Queste lacune saranno superate con la messa a punto di nuovi plug in per l’implementazione del sistema ToBI e di diversi tipi di sistemi di trascrizione (es. grafema-fonema IPA, fonema-visema, vocabolario LISfonemi). Va ricordato che ogni etichettatura e descrizione viene inserita all’interno di caselle definite temporalmente in base ai frame in cui è stato individuato il segnale sottoposto ad analisi. All’interno di ciascuna casella, una volta attivata, è possibile leggere le relative etichette definitorie, anche se nelle schermate statiche (Fig. 1), in casi di ridotta durata del track, risultano disponibili solo le sigle o le iniziali della etichetta o della descrizione. Il contenuto delle descrizioni e delle categorizzazioni sono disponibili nella loro completezza e totalità solo nella presentazione multimediale on line: solo in questo caso, infatti grazie al cursore che scorre lungo l’andamento temporale del campione da analizzare, è possibile scoprire come interagiscono, in relazione allo stesso frame le diverse modalità comunicative. Proprio questa importante caratteristica rende particolarmente significativo ricorrere a sistemi informatizzati come ANVIL . 3. UN ESEMPIO DI PARTITURA IMPLEMENTATA IN ANVIL Per illustrare l’utilità della Partitura nell’analisi di diversi casi di comunicazione multimodale, nel corso della relazione orale, sono stati presentati campioni di parlato e gestualità coverbale (intervista di un uomo politico), di parlato e visual prosody (notiziario TV letto da una giornalista), di parlato ed emozioni (prodotto in laboratorio da un parlante naive), di lingua dei segni e informazione fonologica trasmessa da movimenti articolatori visibili (traduttrice in lingua dei segni di un telegiornale). Per motivi editoriali è possibile riprodurre in questa sede solo la schermata statica relativa all’analisi di un segmento tratto dall’intervista televisiva di un uomo politico (S. B.). Il parlante ha pronunciato la frase /lori’pεto#pernon’εs:erefraιn’tezo#/ in circa 3000 ms, corrispondenti a 86 frame, e ha prodotto più volte con la mano destra il gesto dell’anello (ring= “asserisco”). Sulla base dell’attuale visualizzazione spettrografica il parlato è stato suddiviso in sillabe e, dove possibile, in foni, individuando inoltre le pause. E’ visualizzato l’elevato e simile livello di intensità delle tre sillabe iniziali e l’andamento ascendente di F0 sulla sillaba finale di /ri’pεto/. Il parlante inizia la produzione con un finger bunch (Kendon 1995) della durata di 8 frame, di seguito si ha la produzione del primo ring che inizia 2 frame prima della produzione verbale, è tenuto per l’intera durata della prima pausa (da frame 20 a frame 27), riprende il movimento durante la produzione di /pernon’εs:erefraιn’tezo/ e termina 8 frame dopo l’inizio della seconda pausa, durante la quale si ha anche la produzione di un simbolico (mano aperta con palmo in avanti=“attenzione”) nei frame 58-68. Infine, sempre durante la seconda pausa, c’è la produzione di un secondo ring da frame 69 fino alla fine del campione. Fig. 1: Schermata della partitura implementata in ANVIL relativa all’analisi di gesto e parlato. I gesti coverbali esaminati hanno funzione aggiuntiva rispetto al parlato e trasmettono informazioni sulla mente del parlante. Per quanto riguarda i movimenti della testa, la cui analisi per motivi di spazio non viene riprodotta in Fig. 1, il parlante compie dei cenni (movimenti dall’alto verso il basso) verso l’ascoltatore (“mi rivolgo proprio a te”), l’ultimo dei quali coincide con l’inizio della prima pausa. Lo sguardo è diretto all’interlocutore (a sinistra del parlante) e tenuto fisso su di esso (“richiedo la tua attenzione”). Sono presenti solamente due brevi blinking: il primo in corrispondenza dell’inizio del primo sintagma connesso al topic, mentre il secondo blinking cade 2 frame dopo la seconda pausa e ha la durata di 5 frame. 4. FINALITÀ DELLE RICERCHE SULLA MULTIMODALITÀ E PROSPETTIVE Le analisi ottenute attraverso la Partitura della comunicazione multimodale implementata in ANVIL hanno come risultato una metodologia descrittiva, utile per esaminare, segmentare ed etichettare secondo una stessa procedura campioni audiovisivi che possono poi essere scambiati telematicamente tra gruppi di esaminatori per contribuire così alla creazione di Corpora multimodali. Tali analisi, inoltre, sono indispensabili alla messa a punto di una teoria della comunicazione multimodale poiché implicano, come abbiamo visto, la definizione delle strutture dei sistemi di comunicazione non verbali utili a delineare i modelli di produzione della comunicazione multimodale, indispensabili anche per la costruzione di Facce Parlanti e Agenti Virtuali (Cassell et al. 2000, Magno Caldognetto e Poggi 2001). Bibliografia: 1. Cassell J., Sullivan J., Prevost S. e Churchill E., “Embodied Conversational Agents”, Cambridge (Mass.), The MIT Press, 2000. 2. Kendon A., Gestures as Illocutionary and Discourse Structure Markers in Southern Italian Conversation, Journal of Pragmatics, 23, 1995, pp. 247-279. 3. Kipp M., “Anvil-A Generic Annotation Tool for Multimodal Dialogue”, in: Proceedings of Eurospeech 2001, (Aalborg, September 2001), http://www.dfki.de/∽kipp. 4. Magno Caldognetto E., Poggi I., "Il sistema prosodico intonativo e l’analisi multimodale del parlato", Atti delle IV Giornate di Studio del Gruppo di Fonetica Sperimentale, Torino 1112 Novembre 1993, 1994, pp. 143-151. 5. Magno Caldognetto E. e Poggi I., “Dall’analisi della multimodalità quotidiana alla costruzione di agenti animati con facce parlanti ed espressive”, in: Cosi P. e Magno Caldognetto E., (Eds.), Multimodalità e multimedialità della comunicazione, Atti delle XI Giornate di Studio del G.F.S., Padova 29-30 novembre, 1 dicembre 2000, Padova, Unipress, 2001, pp. 47-53. 6. Magno Caldognetto E., Ursini F. e Poggi I., “Italiano parlato o comunicazione multimodale? Le ragioni di un successo” Atti del Convegno Italiano parlato, Napoli febbraio 2003, in corso di stampa. 7. Mc Neill D., Hand and Mind, Chicago, University of Chicago Press, 1992. 8. Poggi, I., “Mind Markers” in Gestures. Meaning and Use in Rector, M., Poggi, I. & Trigo, N. (Eds), Gestures. Meaning and use, Universidad Fernando Pessoa, Porto 2003, pp. 119-132. 9. Poggi I., Magno Caldognetto E.,"I rapporti fra gesto e parlato. Una partitura per l’analisi della comunicazione", in Studi Italiani di Linguistica Teorica e Applicata, 25,1996, pp. 235256. 10. Poggi I., “Toward the Lexicon and Alphabet of Gesture, Gaze and Touch”, http://www.semioticon.com, 2001. 11. Stokoe, W. C., (1980) Sign Language Structure, Annual Review of Anthropology, 9, pp. 365-390.