Quaderni del Dipartimento di Linguistica - Università di Firenze 13 (2003): 31-53 TRA MUSICA E LINGUAGGIO: ALLE ORIGINI DELLA PAROLA Luciana BRANDI Una delle questioni più interessanti che emerge dall’esame del comportamento linguistico dei bambini autistici, riguarda i processi di percezione e produzione del suono che precedono la comparsa di unità di tipo propriamente linguistico a struttura sillabica. Nei casi in cui il linguaggio ha grosse difficoltà a comparire, dopo il periodo di assoluto silenzio in cui il bambino autistico sprofonda anche per un arco di tempo che talvolta si protrae fino verso ai 5 anni, la ri-conquistata disponibilità al linguaggio trova un preciso segnale1: riemerge, come un sopravvissuto del proprio lontano passato, la capacità di dar luogo a vocalizzazioni che si presentano non piatte ma dotate di precisi contorni melodici, dati dalla successione di picchi accentuali di diversa intensità al di sotto dei quali compare una produzione sonora non distinta in prospettiva linguistica. È dal lungo mantenimento di questa capacità che può successivamente svilupparsi un tipo di produzione propriamente linguistica, fatta di sequenze sillabiche più o meno simili a quelle del linguaggio adulto. Tali osservazioni spingono ad interrogarsi, più in generale, sul rapporto fra il periodo cosiddetto prelinguistico ed il periodo linguistico nello sviluppo del linguaggio, a chiedersi quale possa essere eventualmente il rapporto fra i differenti tipi di vocalizzazioni che compaiono nell’arco del primo anno di vita circa. 1. Musicalità comunicativa ed emozioni Nel giro di poche ore dalla nascita il bambino dimostra una preferenza per la voce della madre rispetto alla voce di una qualsiasi altra donna: i tratti distintivi di tale voce erano stati appresi in utero, e da lì inizia a costruirsi nell’infante il riconoscimento e la preferenza per questa “compagna di comunicazione” in quanto l’attaccamento emotivo tra madre e figlio/a inizia prima della nascita. Addirittura “l’apprendimento intrauterino delle caratteristiche della vocalizzazione che segnalano emozioni affettuose” (Trevarthen 1998: 120) possono arrivare a produrre preferenze per particolari canzoni, o recitati, di conseguenza dobbiamo ritenere che tale precoce capacità di ricezione dell’espressività umana sia resa possibile da 1 Qui e altrove, quando indichiamo caratteristiche precise dello sviluppo del linguaggio nei soggetti autistici, facciamo riferimento alla ricerca descritta in Brandi 2001. 32 Luciana Brandi strutture cerebrali innate dedicate alle emozioni e ai loro mutamenti dinamici; non è pensabile che esse siano interamente apprese. L’infante2 si dimostra capace di discriminare accento di intensità, sonorità, intervallo armonico, e qualità della voce, oltre a schemi di temporalità (Trehub, Tainor e Unyk 1993). Già a sei settimane dopo la nascita il bambino/la bambina ha progredito nella prontezza visiva, nella stabilità posturale, ed è in grado di tenere gli occhi fissi in quelli della madre quando lei si china verso di lui/lei parlando dolcemente; a sua volta l’attenzione acuita del bambino/della bambina fa sì che la madre si rivolga al figlio/alla figlia in modo più vivace, stia attenta ai suoi mutamenti di espressione e quindi cerchi di rispondere in modo adeguato alle manifestazioni di sentimenti che il bambino/la bambina è in grado di esprimere. “Il passaggio di espressioni emotive in entrambe le direzioni instaura e regola uno stretto contatto mentale, (…) ed il gioco reciproco viene a organizzarsi in una coerente esecuzione a due” (Trevarthen 1998: 121) chiamata da Bateson 1979 protoconversazione, in ragione del fatto che genera espressioni che tendono ad alternarsi, dalla mamma al bambino e viceversa3. Viso, apparato vocale, mani, braccia sono coinvolte in questo scambio comunicativo sintonizzato; tanto la madre quanto l’infante regolano la scansione temporale, la forma e l’energia delle loro espressioni in modo da raggiungere la sincronia degli scambi comunicativi e la complementarietà delle sensazioni, delle emozioni, così da dar luogo ad una vera e propria confluenza. Si tratta di una forma di contatto umano dinamico, che il/la bambino/a è in grado di gestire emettendo vocalizzi, movendo labbra e lingua in una sorta di pre-parlato, gesticola con le mani 2 L’uso di tale voce dotta non dipende da altro se non la necesità di indicare simultaneamente entrambi i generi di chi si trova nell’infanzia. 3 Naturalmente la posizione di Trevarthen parte da un assunto sul problema dell’autocoscienza assai diverso da quello di gran parte degli psicologi contemporanei; egli trova del tutto artificiale l’idea di una intersoggettività che inizi solo a partire dal sesto mese di vita, dunque la capacità di distinguere tra sé e l’altro è presente ancor prima della nascita: l’intersoggettività umana e l’apprendimento, considerate in stretta relazione, sono “radicate nella neurobiologia evolutiva dell’infante” (Aitken e Trevarthen 1997: 655), quindi fin dalla nascita è a disposizione un meccanismo - detto Intrinsic Motive Formation (IMF) – pronto ad entrare in relazione con le emozioni espresse dall’adulto in una “guida mutua dello sviluppo cerebrale infantile e dell’apprendimento sociale”; è appunto l’IMF che genera ciò che è stato chiamato “un “altro virtuale”, o il bisogno organismicamente dato per un partner” in quanto ogni mente ha la necessità di una persona oggetto emotiva. Parimenti le protoconversazioni dimostrano che il bambino nasce dotato di un sé perfettamente adeguato, ove la distinzione tra sé e l’altro non si ritiene acquisita, perché nel comportamento infantile Trevathen non vede nessun cambiamento che possa far pensare ad un successivo sorgere di autocoscienza che renda diversa la comunicazione. Riguardo a come debba intendersi questo “altro” nella prima infanzia, tanto Trevarthen quanto gli altri autori citati al riguardo lo identificano nella madre; ma è ovvio che per “l’altro” debba intendersi qualunque persona si prenda stabilmente cura del bambino / la bambina, dunque non necessariamente la madre e non necessariamente una persona di genere femminile. Potremmo parlare più propriamente di “figura di cura”, quale punto di riferimento emotivo, cognitivo e sociale per il bambino / la bambina. Tra musica e linguaggio: alle origini della parola 33 in modo sincrono con le altre manifestazioni: le frasi sono così associate a rotazioni del capo, a movimenti delle sopracciglia, e a brevi allontanamenti dello sguardo dalla madre; dunque le protoconversazioni godono di caratteristiche paralinguistiche analoghe a quelle delle conversazioni adulte. L’aspetto più rilevante è che madre e bambino/a sono uniti da un unico e identico ritmo, e si alternano su una battuta ogni 0.9 secondi (adagio), in cui l’uno ascolta i suoni emessi dall’altro rispondendo a turno in ragione delle caratteristiche prosodiche; la madre si riferisce alle manifestazioni espressive del/la bambino/a come se parlasse davvero, e le espressioni vocali più lunghe emesse dall’infante durano due o tre secondi cioè l’equivalente del tempo impiegato da un adulto per produrre una breve frase. Le analisi compiute sulla scansione temporale dei cambiamenti del contatto madre-bambino/a mostrano che lo scambio comunicativo è controllato da entrambi, sulla base di dinamiche corrispondenti e transizioni simili tra gli stati d’animo e le espressioni. Pertanto, possiamo concludere che le protoconversazioni sono in grado di innescare sistemi coordinati nei due individui coinvolti nello scambio comunicativo; essi trovano sfogo espressivo attraverso il movimento simultaneo di diversi organi, e così generano un contatto, una sorta di regolazione reciproca che ha l’effetto ulteriore di intensificare gli stati motivazionali centrali. La musicalità è, secondo Trevarthen 1999, alla base del comportamento motorio umano, identifica l’impulso ritmico a vivere, muoversi e comunicare con un altro da sé, attraverso la condivisione di ritmo, forme melodiche e armonia. In generale il movimento ha funzioni intersoggettive nelle specie sociali, in quanto può anticipare o regolare il comportamento dell’altro, e proprio nei processi di anticipazione percettiva del cervello ha origine la necessità bio-meccanica (come sosteneva Bernstein 1967) del ritmo, del valore ritmico dei movimenti, ma non solo, esso è anche radicato in un contesto in cui è fondamentale la relazione simpatetica con i movimenti di un altro da sé. Se parliamo delle prime vocalizzazioni dell’infante nello scambio comunicativo che intrattiene con la madre (o madre di cura), ci rendiamo conto che tali vocalizzazioni sono tessute sulla musicalità identificante i processi che connettono in un duettare emozionale madre e infante: ritmo e melodia legano due esseri umani in una attività motoria che è simultaneamente fenomeno inter-mentale e inter-soggettivo, ove il significato è eminentemente la condivisione emotiva di una esperienza sociale. Alla base della musicalità si trovano caratteristiche quali la temporalizzazione, l’espressione di emozioni e l’empatia intersoggettiva: sono questi i segni, secondo Trevarthen (1999: 174), che spingono in modo innato ogni infante a cercare un partner e a coordinare il limitato repertorio dei propri movimenti alla musicalità delle espressioni materne, fatte non solo di suono ma di sollecitazioni sensoriali multimodali: “gli tocca le mani, la faccia, il corpo con cura ritmata, e tiene l’infante stretto a sé cosicché essi possono condividere l’attenzione e gioire l’uno dell’altro. Il suo parlato è una specie di canto” fatto di passaggi di accento e di ripetizione di espressioni vocali che spin- 34 Luciana Brandi gono il bambino a rispondere con sorrisi, gesti, movimenti delle mani e del corpo, e con il tipico ‘tubare’ della voce4. I dati empirici relativi alla osservazione dello scambio comunicativo tra madre e infante entro le 6 settimane di vita (Jasnow e Feldstein 1986; Malloch 1999) mostrano che ciascun enunciato dell’infante, fatto di vocalizzazioni, movimenti delle labbra e della lingua, movimenti delle mani, dura circa 2 o 3 secondi, giusto il tempo per un adulto di emettere un sintagma o una frase breve; le fonazioni individuali dell’infante durano circa 0.75 secondi, un tempo comparabile a quello di una sillaba; l’alternarsi dei turni procede da una battuta ogni 900 millisecondi a circa sei settimane di vita, per accelerare a una battuta in 700 millisecondi a circa due mesi. Malloch 1999, in particolare, ha esaminato anche mediante analisi spettrografica la produzione vocale di infanti individuando alcune componenti cruciali della musicalità: pulsazione, qualità e narratività. La pulsazione, in quanto successione regolare di eventi espressivi nel tempo, evidenzia che a due mesi di età, l’unità di tempo che divide naturalmente le emissioni vocali di madre e figlio/a è un intervallo di 0.68 secondi, e l’unità comunicativa di respiro, oltre la quale compare un breve spazio di silenzio, è data da tre di queste unità che costituiscono un intervallo più ampio di 2.93 secondi. Tale misura temporale si riconferma presente in diverse protoconversazioni esaminate, e costituisce dunque il ‘ritmo’, l’intervallo temporale regolare che serve a coordinare le vocalizzazioni tra madre e bambino/a. La qualità è la dimensione su cui si misurano sia l’altezza delle vocalizzazioni che il loro timbro; da un lato vengono evidenziati i contorni melodici dati dal tracciato degli accenti di intensità formati da cicli regolari di 20-25 secondi da parte della madre e dall’inserimento su questo tracciato delle vocalizzazioni dell’infante con propri picchi accentuali che cercano di riprodurre l’andamento materno, dall’altro lato il timbro (v. anche Malloch 2000) viene descritto mediante una varietà di misure acustiche quali il valore di acutezza, intensità, durezza e altezza, così vengono calcolate le armoniche alta e media ed individuati i mutamenti nella qualità della voce della madre dopo ogni vocalizzazione da parte dell’infante, mutamenti che paiono volti a segnalare che la vocalizzazione da parte dell’infante è stata udita e a rendere la voce materna più armonica possibile con quella del bambino/ della bambina. La narratività combina le due caratteristiche precedenti, consentendo così ai due attori della proto-conversazione di creare e dividere emozione ed esperienza con l’altro, di formare significato attraverso il reciproco coordinarsi dell’attività vocale e gestuale. Esaminando il modo in cui l’infante si pone nella percezione di cantilene, ninne nanne, filastrocche, è stata notata (Merker 1999) la comparsa di un forte senso dello spazio accentuale che le rispettive voca4 Anche Ellen Dissanayake 2000: 394 ritiene che le interazioni madre-bambino/a siano composte di elementi che “sono letteralmente, e non metaforicamente, musicali”, interazioni comunicative ritmiche, modellate temporalmente, e mantenute congiuntamente. Probabilmente gli enunciati materni sono percepiti dal bambino/a come combinazioni di suoni le cui caratteristiche e relazioni salienti sono musicali e non ancora propriamente linguistiche. Tra musica e linguaggio: alle origini della parola 35 lizzazioni coprono, nel senso che il bambino/la bambina fin dall’età di 4 mesi si dimostrano capaci di prendere parte attiva ad un gioco musicale con l’altro, inserendosi nella struttura musicalmente. È per questa via che si sviluppa la capacità di sincronizzare il proprio movimento vocale e corporeo con quello dell’altro, di partecipare ad uno scambio comunicativo in cui la riproduzione ripetuta delle stesse dimensioni costituisce la trama su cui il/la bambino/a forma la propria capacità linguistica. Il linguaggio, nel suo primo presentarsi come ritmo e melodia, nel suo essere preliminarmente soprattutto musicalità, si trova ad essere come incarnato negli stessi movimenti corporei, gestuali, che accompagnano l’enunciazione verbale tanto della madre quanto del bambino/della bambina. Si tratta, per Trevarthen 2001; Aitken e Trevarthen 1997, di trovare nell’impulso innato a cercare un’altra mente con cui connettersi in un rapporto empatico, nella cooperazione con l’altro da sé, nelle emozioni, la chiave per dotare di significato il mondo, e dentro il mondo di attribuire significato ad un simbolico che può svilupparsi come linguaggio e come pensiero a partire da quella ‘narratività’ che, ai suoi primordi ontogenetici, è dotata di una semantica emozionale prima che referenziale. La musicalità, dunque, con il suo riproporre ripetitivamente le stesse sequenze temporalizzate di ritmo e melodia, spinge l’infante sull’onda dell’emozione a quei giochi verbali che sono l’anticamera del linguaggio, imitazione di una sonorità adulta che si presta e si piega ad opportune manipolazioni, per divenire tramite naturale verso il linguaggio parlato. Se parliamo di protoconversazioni assumiamo ovviamente che esista una sorta di motherese intuitivo, cioè un linguaggio col quale le madri si rivolgono spontaneamente al bambino in modo da facilitare il sostegno emotivo che il bambino cerca. Si osserva che le tonalità vocali, l’andamento melodico, il tempo, la metrica e la ripetitività risultano comuni a linguaggi e culture molto diversi fra loro; ad esempio madri cinesi e americane parlano secondo lo stesso modello di linguaggio infantile, nonostante che il cinese e non l’inglese sia una lingua tonale; un numero limitato di contorni melodici sono prodotti molte volte con differente contenuto lessicale. In genere, le espressioni linguistiche sono molto brevi, ripetitive, con intonazione ritmica e tono oscillante: infatti la periodicità è un fattore fondamentale nel motherese; la madre articola brevi espressioni di circa mezzo secondo ogni 0,75 secondi (adagio) facendo una pausa su battute alterne; il piccolo riprende il ritmo e a sua volta emette un’espressione inserendosi nella pausa della madre. Così avviene il darsi il turno; via via che il bambino cresce, la gamma dei tratti prosodici nel parlato della madre si arricchisce (in genere dopo il terzo mese); di fatto le variazioni di tono generate dalla madre servono a segnalare i cambiamenti del proprio contatto emotivo e l’empatia che prova per le emozioni del bambino. Naturalmente il rapporto empatico tra madre e bambino/a può fallire: se certe condizioni di accordo emotivo non vengono rispettate (volto privo di espressione della madre, es. depressione; autismo da parte dell’infante). In generale, possiamo rilevare che, se la comunicazione è felice (in senso austiniano), nell’infante l’atto 36 Luciana Brandi di guardare verso la madre è correlato con il sorridere, inarcare le sopracciglia, schiudere la bocca e muovere la lingua; invece, il guardare la madre priva di espressione si accompagna all’atto di aggrottare le sopracciglia e corrugare la fronte, mentre il guardare altrove da parte della madre si correla ad un’espressione neutrale con le sopracciglia rilassate e la bocca chiusa. Da questo comprendiamo che si tratta, tra madre e figlio/a, di un sistema emotivo integrato, dove le emozioni della diade diventano strettamente interdipendenti. Pertanto le emozioni che si succedono nello scambio diadico paiono essenziali per la regolazione dello sviluppo cerebrale e della crescita psicologica del bambino: “le emozioni che generano le espressioni in cervelli separati, quello della madre e quello del figlio, possono giungere a unirsi in una confluenza di affetti che sviluppa un’organizzazione autonoma, come accade tra due musicisti esperti che improvvisano un unico brano armonizzandolo in maniera coerente e di piacevole ascolto. (…) Una chiara misura della confluenza è l’ “agganciarsi” reciproco di movimenti e vocalizzi aventi la medesima frequenza” (Trevarthen 1998: 134-5). La capacità di distruzione che possono avere nella diade i disturbi emotivi fa sì che il gioco della protoconversazione fallisca quando uno dei due si trovi in uno stato di turbamento o di distacco: nel caso di un infante autistico, l’anomalia dello sviluppo cerebrale embrionale coinvolge fondamentalmente proprio i sistemi cerebrali legati all’analisi delle emozioni e della comunicazione (Brandi 2001) e dunque influisce drasticamente sulla qualità della relazione intersoggettiva, sulla reattività dell’infante, in conclusione sulla capacità di “agganciarsi” in quel gioco reciproco di movimenti e vocalizzi su cui pare basarsi la possibilità di sviluppare in seguito la comunicazione linguistica. 2. Tra cervello e cervelletto Già a livello delle prime espressività nell’infante, sono evidenti asimmetrie corporee tra destra e sinistra, che ovviamente richiamano il fenomeno della lateralizzazione emisferica. Osserviamo che quando il bambino si esprime, lo sguardo si orienta prevalentemente a destra, gesticola sollevando la mano destra più in alto della sinistra e le vocalizzazioni si sviluppano in genere prima e in modo più evidente sul lato destro della bocca. Analoghe asimmetrie si riscontrano anche nell’ascolto del linguaggio, che tanto nell’adulto quanto nel bambino coinvolge soprattutto l’orecchio destro, lo sguardo si sposta verso il lato destro quando un adulto produce un’espressione linguistica. Potremmo cioè concludere che le espressioni referenziali sono prodotte e percepite con un maggior coinvolgimento della parte sinistra del cervello. D’altro canto, sembra altrettanto certo (da studi sui potenziali evocati) che i bambini ascoltino l’emozione impressa nella voce materna con l’emisfero destro, che nella prima infanzia è a uno stadio di sviluppo più avanzato di quello sinistro (Trevarthen 1998). Per quanto riguarda più in generale la specializzazione emisferica, fin dai primi studi (Morel 1947) era apparso evidente che ascolto musicale e ascolto ver- Tra musica e linguaggio: alle origini della parola 37 bale fossero da considerare delle funzioni giustapposte ma non coincidenti; afasia ed amusia rivelavano situazioni interessanti in quanto se apparivano in alcuni casi come disturbi indipendenti – ad esempio un paziente sapeva cantare l’aria e le parole di una canzone, ma non sapeva ripetere quelle stesse parole in assenza della melodia – spesso però potevano presentarsi associati, facendo pensare che essi implicassero almeno in parte lo stesso sistema neuroanatomico. Sono stati soprattutto gli studi di Doreen Kimura (1967; 1973), basati peculiarmente sulla tecnica dicotica mediante la quale si faceva ascoltare simultaneamente linguaggio in un orecchio e melodie in un altro, a mettere in evidenza la dominanza dell’emisfero destro per il riconoscimento delle melodie; il risultato delle osservazioni compiute veniva confortato sia dall’osservazione mediante PET, riportando la cognizione musicale alla dominanza preferenziale dell’emisfero destro, sia da dati neurochirugici in quanto a seguito di una lesione anche estesa dell’emisfero sinistro il canto rimaneva ancora possibile per il paziente, mentre i deficit musicali si presentano quando la lesione interessava l’emisfero destro. In particolare pare che l’ascolto di una melodia attivi l’area temporale e l’area frontale destre (Zatorre, Evans, Meyer 1994), ma l’essenziale è dato dal considerare che la percezione di una melodia – almeno da parte di un ascoltatore non musicista esperto – avviene rispetto al profilo generale, e dunque si tratta di una percezione olistica5. Soggetti con lesioni cerebrali sono stati esaminati in rapporto alla presentazione di una frase melodica e di sue versioni modificate, o a livello del profilo generale o riguardo a intervalli tonali successivi ma nel rispetto del profilo generale. Da questi esperimenti è emerso che nei soggetti portatori di lesioni all’emisfero destro veniva ad essere colpita la percezione del profilo generale della melodia, mentre se la lesione era a sinistra, era colpita l’individuazione della struttura particolareggiata degli intervalli e l’organizzazione temporale della melodia. Anche Falk 2000 sottolinea come melodia e ritmo sembrano essere neurologicamente dissociati in quanto l’emisfero destro elabora gli aspetti melodici della musica, mentre l’emisfero sinistro sembra maggiormente coinvolto nell’elaborazione del ritmo (Peretz 1993). L’emisfero destro, come sappiamo, interpreta anche gli aspetti melodici del linguaggio, il tono della voce, e dunque le connotazioni emotive ed affettive del parlato. Comunque fin dagli studi di Sperry risultava che l’emisfero destro non è interamente ‘muto’, ma può formulare parole isolate, serie di parole specialmente quelle con una forma metrica che può essere cantata, o comporre una successione di esclamazioni spontanee sollecitate da un’emozione (Wallin 1991: 46), quindi interiezioni come, Oh no!, buon dio, povero me, ecc, vengono dall’emisfero destro, che più in generale può comprendere delle frasi anche senza analisi fonetica e lessicale, il suo lessico sarebbe collegato ad una gestalt fonologica che consente una comprensione del linguaggio sotto forma globale: “l’emisfero destro non può 5 Nel musicista esperto, invece, l’elaborazione di tipo analitico di un input musicale può riguardare l’emisfero sinistro. 38 Luciana Brandi che estrapolare degli elementi globali (non analitici) senza poter seguire l’ordine temporale” (Buser 1999: 236). Anche nel test di Wada (un’iniezione di amobarbitale nella arteria carotidea destra o sinistra che produce una inibizione temporanea dell’emisfero corrispondente) quando l’iniezione inibisce l’emisfero destro, l’abilità del canto risulta assai disturbata, mentre la facoltà del parlato è compromessa solo nel senso che l’articolazione delle parole è più lenta e monocorde, mentre l’intonazione, la pronuncia, e l’abilità a partecipare ad una conversazione non ne risentono: la memoria tonale ed il senso dello spazio melodico pare completamente scomparso, mentre il ritmo sembra meno interessato dall’inibizione. La cosa più interessante riguardo al linguaggio è il dato che l’emisfero dominante è il destro e non il sinistro quando le parole sono processate solo come stimoli acustici, nel senso che il percetto non è il contenuto semantico del messaggio, che ha l’effetto di trasferire l’elaborazione da un emisfero all’altro: Zaidel 1977 ha mostrato che dopo commissurotomia l’emisfero destro ha un vocabolario uditivo considerevole, in quanto è in grado di riconoscere comandi e di mettere in relazione parole presentate per via uditiva e la visione con rappresentazione figurativa. Dagli esperimenti di Zaidel 1977 emerge che l’emisfero destro ha difficoltà ad analizzare le categorie fonetiche, mentre la discriminazione delle vocali sembra non costituire un problema, pertanto l’emisfero destro sembrerebbe essere prevalentemente un analizzatore gestaltico di tratti acustici e non di tratti fonetici. Dagli studi di Studdert-Kennedy e Shankweiler 1970 già era emersa la superiorità dell’orecchio destro, e dunque dell’emisfero sinistro, per sillabe formate CVC, dunque in relazione alla combinazione consonante/vocale, mentre le vocali sono percettivamente o bilaterali, o addirittura unilaterali sull’emisfero destro: evidentemente esse vengono elaborate più rapidamente sulla base del loro contenuto musicale. Inoltre i pazienti di Zaidel sottoposti a commissurotomia hanno un ricco vocabolario di parole isolate a destra, corrispondente ad un’età intellettuale di circa16 anni. In generale dagli studi sull’ascolto dicotico emerge che i toni puri, semplici, sembrano percepiti bilateralmente, mentre l’emisfero destro mostra una chiara preferenza per quelli complessi, producendo un incremento nell’accuratezza dell’analisi per l’accento di intensità ed un decremento per la latenza temporale; anche se è l’emisfero sinistro a dominare il processing linguistico, tuttavia l’emisfero destro non è completamente ‘muto’, nel senso che possiede un certo lessico, soprattutto nomi, preferendo le parole trattate secondo l’ordine metrico, può associare parole e immagini, sillabare parole e costruire rime, categorizzare oggetti6; nell’emisfero destro sembra essere localizzato un meccanismo per riunificare la percezione dei componenti di un tono complesso in una forma unitaria globale; infine, sembra che esista anche un meccanismo di spostamento tra i due 6 Quanto stiamo indicando va inteso come linee prevalenti, giacché vi è una individuata variabilità nella plasticità cerebrale da individuo ad individuo, nel senso che in alcune persone si ha una assoluta incapacità a gestire anche forme rudimentali di linguaggio con l’emisfero destro, mentre in altre si può arrivare ad una vera e propria equivalenza tra destro e sinistro (Gazzaniga 2002). Tra musica e linguaggio: alle origini della parola 39 emisferi quando viene superata una certa soglia di informazione da trattare. Solo per alcuni studiosi (Levy, Trevarthen, Sperry 1972) dal comportamento dei soggetti commissurotomizzati si poteva trarre l’idea di un’azione inibitoria di un emisfero sull’altro. Per studiosi come Gazzaniga 2002, la natura della differenza emisferica è data soprattutto dal fatto che l’emisfero destro elabora gli aspetti percettivi dello stimolo e non cerca di interpretare l’esperienza cercandovi un significato, mentre l’emisfero sinistro colloca le proprie esperienze in un contesto più ampio, forma ipotesi, anche falsi ricordi nel tentativo di dare uno spiegazione e costruire un significato. Per quanto riguarda il cervelletto, studi recenti (Heck, Sultan 2002) hanno messo in evidenza come esso intervenga non solo nella coordinazione dei movimenti fini, ma anche probabilmente nel riconoscimento delle parole, e possa assolvere a compiti almeno dello stesso livello di complessità di quelli del cervello, per quanto si tratti di strutture molto diverse7. Probabilmente sono le limitazioni spaziali a permettere al cervelletto di eseguire le sue specifiche funzioni, quali ad esempio il movimento fine. Il concetto fondamentale è quello dell’onda di flusso quale modalità di trasmissione dei segnali attraverso le cellule: per conseguire un movimento fine, due granuli vicini devono eccitarsi con un intervallo di tempo esattamente uguale a quello impiegato da un segnale per propagarsi attraverso una fibra parallela tra l’una e l’altra cellula; in ciò vi è il vantaggio che i segnali si propagano attraverso le fibre parallele ad una velocità particolarmente bassa; solo quando molti granuli vengono stimolati in questo modo si ha la partenza di un’onda di flusso di segnali. La corteccia cerebrale da sola non può governare con sufficiente rapidità i movimenti istantanei, fini, automatici; ha bisogno dell’aiuto del cervelletto. Il cervelletto riconosce in pochi millisecondi complessi specifici formati da segnali multipli che gli giungono attraverso i granuli. Solo quando i segnali sono cadenzati nel tempo in una forma determinata, può partire un’onda di flusso. Si tratta di segnali che provengono dai diversi organi sensoriali: apparato motorio, occhi, orecchi, sistema dell’equilibrio, ma anche dal cervello. In definitiva il cervelletto rappresenta un rivelatore di sequenze per lo schema temporale di questi complessi di segnali. Oltre alle funzioni di regolazione del movimento, il cervelletto esegue altri compiti di grande importanza. Un esempio sono gli esercizi di associazione verbale. Il cervelletto mostra la propria attività non solo nel caso della denominazione in quanto il parlato esige una complessa coordinazione mu7 Tale diversità riguarda: la disposizione dei solchi e delle pieghe (in tutte le direzioni nel cervello, solo trasversalmente all’asse longitudinale del corpo nel cervelletto); lo spessore (vari millimetri per la corteccia cerebrale, alcuni decimi di millimetro nel cervelletto); la sostanza bianca (la sostanza bianca è formata da grandi prolungamenti dei neuroni, gli assoni: gli assoni nel cervello hanno complessivamente un grande volume, e connettono regioni diverse, il cervelletto ha sostanza bianca in quantità minore e i suoi assoni inviano segnali quasi esclusivamente ad altre parti dell’encefalo, soprattutto al cervello); il volume (la superficie del cervelletto, una volta estesa, corrisponde circa a quella di un emisfero cerebrale); il numero dei neuroni (nel cervelletto è pari a cinque volte quelli del cervello). 40 Luciana Brandi scolare, ma anche, e soprattutto mostra un aumento dell’attività, nel caso in cui al sostantivo nominato precedentemente nell’esperimento, ad es. cane, si chieda di associare un verbo con esso in relazione come abbaiare. Dato che le esigenze motorie sono pressoché equivalenti, l’aumento dell’attività del cervelletto si ritiene dovuto allo sforzo associativo. Lesioni al cervelletto, inoltre, non sono in grado di provocare deficit intellettivi, tuttavia in tali casi si è notato un comportamento assai interessante: i pazienti con cervelletto lesionato non erano in grado di discriminare tra determinati suoni che differivano per la durata: se nel valutare la durata di una sillaba si deve riconoscere un intervallo con durata inferiore a 100 millisecondi, questi pazienti si trovano in difficoltà. L’esempio era la differenza di durata della vocale posteriore medioalta di boten (messaggeri) leggermente più lunga che in boden (pavimento): se si fa ascoltare la parola boden con un prolungamento della pausa, la persona percepisce boten, invece il paziente con lesione al cervelletto non è in grado di notare differenza tra le due emissioni. Anche dagli studi riportati da Falk 2000: 214 si riconferma l’importanza del cervelletto come l’area da cui ricevono input sia le cortecce di associazione parietale ed uditiva per la percezione e l’interpretazione sia le cortecce motoria e premotoria per la produzione. I dati paleoneurologici fanno collocare a circa 2 milioni di anni fa – con l’aumento del volume del cervello accompagnato dal riarrangiamento delle circonvoluzioni dei lobi frontali ed un’apparente espansione della corteccia prefrontale – l’evoluzione del linguaggio umano e contemporaneamente della musica, e puntano alla corteccia prefrontale ed al cervelletto come aree focali sia per compiti musicali che linguistici. Cercando di usare i dati fino ad ora presentati per capire meglio il quadro autistico, facciamo l’ipotesi che nell’autismo la devianza sia a carico di organi subcorticali (Brandi 2001) e dunque può accadere che le relazioni che si instaurano con le aree corticali possa essere di tipo diverso in quanto la relazione tra i sistemi innati (ipotalamo, amigdala, midollo allungato) ed i sistemi che vengono definiti per interazioni con l’ambiente, quali le aree corticali che a noi interessano per il linguaggio, non è appunto determinata e definita a priori8. Da questo possiamo ri8 Secondo Damasio, il genoma contribuisce a stabilire la struttura di un certo numero di circuiti e sistemi nei settori evolutivamente più antichi del cervello umano, quali il midollo allungato, l’ipotalamo, il prosencefalo basale, e probabilmente anche l’amigdala e la regione del cingolato. Gli schemi innati di attività di neuroni di questi circuiti non generano immagini, anche se gli effetti della loro attività possono essere espressi in immagini: essi regolano i meccanismi omeostatici senza dei quali non vi sarebbe sopravvivenza (respirare, regolare il battito cardiaco, equilibrare il metabolismo, cercare cibo e riparo, evitare i predatori, riprodurci). Ma i circuiti innati intervengono non solo nella regolazione corporea, ma anche nello sviluppo e nell’attività adulta delle strutture cerebrali evolutivamente moderne. Il genoma contribuisce a formare un quadro generale di sistemi e circuiti per i settori cerebrali evolutivamente più moderni, piuttosto che uno specificato e dettagliato; quest’ultimo si forma sotto l’influenza di circostanze ambientali, integrate e vincolate dall’influenza dei circuiti innati, allestiti in modo preciso, che riguardano la regolazione biologica. “In breve, l’attività dei settori cerebrali più giovani e orientati dall’esperienza (la neocorteccia ad esempio) è indispensabile per produrre una particolare classe di rappresentazioni neurali su cui si basano la mente (le immagini) e Tra musica e linguaggio: alle origini della parola 41 tenere che J. e A.9 si trovino in due situazioni diverse, a carico dei due emisferi. Posto che a livello di cellula neuronale abbiamo cellule che trasportano le stesse differenti informazioni, solo che poi le differenti informazioni prendono la via di stazioni cerebrali diverse e specifiche (Kandel), allora riguardo al processing dell’input linguistico possiamo pensare che in J. l’informazione relativa alla durata prende la via dell’emisfero sinistro che, se pure forse parzialmente o deficitariamente accessibile, tuttavia inibisce l’accesso all’emisfero destro dell’informazione pertinente; dunque J. riceve materiale in modo similare a come lo riceverebbe un bambino qualsiasi, solo che non si trova nelle condizioni cerebrali di processare compitamente l’input che riceve e di conseguenza di avere uno sviluppo del linguaggio secondo tempi e modi ‘normali’. In A., invece, probabilmente si ha un’azione inibitoria del destro sul sinistro che quindi non riceve il materiale relativo a tempo e durata; è solo l’emisfero destro che si fa carico inizialmente dell’elaborazione dell’informazione linguistica, e pertanto produce vere e proprie formule globali che vivono eminentemente per via melodica ma risultano consistentemente associate a oggetti individui ed eventi. Forse successivamente, quando A. comincia a destrutturate la frase intera in pezzi se pur globali ma meno estesi, forse allora può avvenire una riorganizzazione che coinvolga maggiormente l’emisfero sinistro. 3. Musilingua: nel profondo passato della specie Da tempo è emerso un interesse reciproco tra studiosi che si interrogano sull’origine del linguaggio cercando di connettere ontogenesi e filogenesi, ed etnomusicologi10. Tanto Lieberman che Wallin, ad esempio, connettono l’origine del sistema comunicativo umano ai sistemi dei vertebrati non umani; l’interazione di gesti e componenti vocali nei primi sistemi di comunicazione, così come il ruolo della madre come agente di apprendimento sociale e l’interazione emotiva tra madre e bambino/a è sottolineata da entrambi gli studiosi. Nondimeno vi sono delle differenze, in primo luogo hanno a che fare con la classificazione dei sistemi primitivi di comunicazione tra gli ominidi: Lieberman ritiene che essi rappresentino preadattamenti motori, neurali e articolatori al linguaggio, mentre Wallin sostiene che tali sistemi vanno indietro nel tempo fino ad un sistema aperto, autonomo, che ad un certo punto della storia evolutiva biforcò in due correnti principali, una il le azioni consce. Ma la neocorteccia non può produrre immagini, se non sono integre e cooperanti le parti più antiche, sotterranee, del nostro cervello (ipotalamo, midollo allungato)” (Damasio 1995: 167). Per LeDoux 2002: 93 si tratta dei geni omeotici, che producendo delle proteine controllano la disposizione delle cellule nuerali: l’autismo potrebbe essere dovuto ad una mutazione di geni omeotici che produce un’organizzazione ed una interconnessione cerebrale difettose. 9 Ricordiamo la principale differenza nel disturbo del linguaggio tra i due casi, entrambi dell’età di 9 anni circa: J. produce sillabe, sequenze di sillabe e qualche parola; A. produce frasi ben formate di tipo stereotipato anche di una certa complessità. 10 Ringrazio Maurizio Agamennone per le sollecitazioni datemi relativamente a questo campo di sapere. 42 Luciana Brandi linguaggio e l’altra la musica. Il linguaggio, acquisendo natura proposizionale, si prestava a diventare il mezzo per l’azione rapida e la risposta rapida: col parlato gli esseri umani manipolavano il tempo come veicolo per una articolazione semantica veloce; codifica e decodifica tramite l’articolazione linguistica richiedeva una velocità neurale di processing più alta per risposte motorie e percettive rispetto ai sistemi precedenti. Nella “feroce competizione per lo spazio corticale” (Gazzaniga 2002), il cervello doveva guadagnare nuove facoltà senza perdere quelle vecchie, dunque i fenomeni di lateralizzazione riscontrabili nel cervello umano rispetto ai nostri ‘cugini’ possono essere considerati non come una aggiunta evolutiva, ma piuttosto come ciò che sorge da un emisfero che sta perdendo capacità e non acquisendone. Così il canale a bassa velocità rimase quello dell’emisfero destro per l’accesso al sistema limbico e al trattamento delle emozioni: il lontano passato degli ominidi si presenta come ripetizione omologa negli “stadi limbici preconcettuali del bambino e nella comunicazione limbica degli adulti” (Wallin 1991: 504). Non tanto la novità nel tratto vocale, quanto piuttosto la riorganizzazione cerebrale sotto la pressione di domande sociali sembra essere stata decisiva per l’origine della comunicazione di tipo parlato, così come una crescente abilità a formare associazioni crossmodali ed una memoria crescente. Per questa via, andiamo allora a trovare, nella filogenesi, le tracce di ciò che Trevarthen ci propone di considerare come cruciale per il sorgere della comunicazione nell’ontogenesi, vale a dire un modo di comunicare fortemente forgiato dalle emozioni e dotato di una vocalità eminentemente musicale. Innanzitutto, anche fra gli studiosi di biomusicologia troviamo sottolineate le stesse proprietà parametrali del suono che avevamo già visto realizzate sul concetto di musicalità. Infatti Molino 2000, se da un lato sottolinea il legame forte tra musica ed emozioni, viste soprattutto nelle manifestazioni che coinvolgono anche il corpo ed i suoi movimenti, per cui la musica è da connettere ad una semantica di tipo ritmico-affettivo (nel senso che esprime le emozioni fondamentali che sono associate al corpo ed ai suoi movimenti), dall’altro individua le caratteristiche di base della musica in due componenti, uno temporale, costituito da metro e ritmo, ed uno melodico, che consiste di contorno, accento di intensità e intervallo. La stessa neuropsicologia fornisce argomenti a sostegno dell’assunzione che tali caratteristiche risalgano a moduli differenti: lo studio delle dissociazioni a livello neurologico sembra portare ad ipotizzare “specifici moduli per i componenti temporale e melodico della musica, essi stessi composti di distinti sottomoduli per, da un lato, metro e ritmo, e dall’altro, contorno, accento e intervallo” (Molino 2000: 170). Anche il linguaggio presenta analoghi componenti melodici e temporali funzionalmente distinguibili, in quanto il componente melodico sarebbe da identificare nei fenomeni di accentazione, intonazione e durata, mentre il componente temporale consisterebbe dei fenomeni ritmici e temporali essenziali per il parlato e che appaiono ad esempio sulla sillaba quale unità fondamentale11. 11 Cfr. ad es. quanto indicato in nota 12 su VOT. Tra musica e linguaggio: alle origini della parola 43 Ma è soprattutto Brown 2000 a proporre l’idea che all’origine delle capacità comunicative degli esseri umani sia da ipotizzare uno stadio in cui semantica referenziale e semantica emotiva erano unite in un’unica ed identica forma, da cui poi si sono sviluppati da un lato la musica, avocando a sé soprattutto la sfera emotiva, e dall’altro il linguaggio, con la predominanza di una semantica referenziale. Infatti (Brown 2000: 273) musica e linguaggio condividono similarità biologiche profonde, in particolare convergono nel trovare nella sequenza l’unità sia strutturale che funzionale. Un repertorio limitato di unità discrete scelte fra infiniti elementi acustici possibili costituiscono le unità elementari combinando le quali vengono formate le sequenze di livello superiore; queste formazioni si fondano sulla modulazione delle proprietà acustiche di base delle unità cui è assegnata un’organizzazione tramite combinazione, per trasmettere enfasi, stati emotivi, significato emotivo, mediante l’assegnazione di picchi accentuali di intensità. Sono proprio tali accenti di intensità che stabiliscono le prominenze su cui converge il sistema del processing mentale, trovando nel loro disporsi sequenziale la guida percettiva per l’attribuzione di significato. Dunque tanto per le sequenze del parlato che per le sequenze musicali si tratta di “strutture melodicoritmiche” dove ritmo e melodia hanno le seguenti tre origini: le proprietà acustiche delle unità, le regole mediante le quali si formano le sequenze, i meccanismi espressivi che modulano le proprietà acustiche delle strutture per attribuire enfasi espressiva. L’ipotesi è, dunque, che le similarità tra musica e linguaggio si possono spiegare solo riconducendole ad un’origine comune, nel senso che esse sono sorte da uno stadio ancestrale, che Brown definisce della “musilingua”, che non era né solo linguistico né solo musicale, ma che era costituito da caratteristiche comuni dalle quali si sarebbero poi sviluppate per specializzazioni distintive musica e linguaggio12, certo differenziandosi progressivamente ma allo stesso tempo mantenendo le caratteristiche comuni identificate dallo stadio primitivo da cui entrambi si sono originati. “Linguaggio e musica sono essenzialmente le specializzazioni reciproche di un precursore a-doppia-natura che usava sia l’emozione del suono che la referenza del suono nel creare suoni comunicativi” (Brown 2000: 278). Le proprietà fondamentali della musilingua definiscono pertanto un sistema caratterizzato da percezione e produzione di vocalizzazioni dotate di gradi o accenti di intensità - il tono lessicale - aventi il ruolo di veicolare significato, nel senso che l’evento fonologico viene ad essere modellato come meccanismi sequenziali tra differenti livelli accentuali che formano scale (ascendenti e discen12 Si tratta di uno spettro lungo il quale si collocano funzioni differenziate, a partire dalla posizione centrale occupata dal canto verbale, e che procedono verso i poli opposti di linguaggio da un lato e musica dall’altro attraverso posizioni intermedie quali il discorso poetico, il recitativo verso il linguaggio o i leitmotifs e la narrazione musicale dal lato della musica. Più esattamente si è di fronte ad un sistema complesso sottoposto a continui cambiamenti evolutivi che si propagano all’intero sistema, e dunque investono simultaneamente musica e linguaggio, come conseguenza delle scelte/ trasformazioni avvenute. 44 Luciana Brandi denti). In altre parole, posto che denominiamo le unità di vocalizzazione iniziali come ‘parola’, all’origine vi sarebbe un sistema tonale unico, e la capacità di usare i differenti livelli di toni in modo significante; su questa base si forma la capacità, successiva, di combinare le unità elementari di vocalizzazione in sequenze anch’esse dotate di un significato di livello superiore. Le sequenze sono dotate di una struttura non solo melodica ma anche ritmica, e gli schemi ritmici sono derivabili in gran parte dalla disposizione temporale degli elementi unitari; si tratta, cioè, di un livello di combinazione superiore alle singole unità che è in grado di veicolare sia il significato relazionale legato alla semplice giustapposizione degli elementi unitari combinati, sia il significato globale determinato dall’intero insieme considerato globalmente, qualcosa di più che la somma delle parti. Ancora non si è in presenza di una sintassi specifica per ciascuna modalità interessata, quanto piuttosto di una capacità generale a combinare gli elementi unitari. Il livello di significazione è ancora connesso prevalentemente all’espressione di emozioni. Il significato viene assegnato in particolare tramite la melodia relativa al livello globale, che si fonda su variazioni di modulazione relativamente a tempo, picco accentuale, volume e lunghezza. Nell’idea di Brown, le proprietà fondamentali di questo livello di percezione/produzione di unità sonore sono le differenziazioni tra unità realizzate sulla base del picco accentuale (effetti dell’onda uditiva) ritmo (relazioni tra pulsazioni) ampiezza (effetti di prominenza). La musilingua si fonda su discretezza, combinatorialità e intonazione, e sono queste le caratteristiche su cui si può fondare la successiva organizzazione gerarchica di quelli che saranno due sistemi grammaticali assai differenti. In generale l’evoluzione filogenetica parte da un livello di vocalizzazioni il cui suono veicola tanto significato referenziale quanto significato emotivo (vedi le vocalizzazione di avvertimento dei primati). Da questo livello si sviluppa la musilingua, che avviene in due stadi: “il primo è costituito dall’uso di toni (accenti discreti) e contorni accentuali per la comunicazione referenziale; il secondo, si identifica nello sviluppo di sequenze significanti, generate da regole combinatorie per mettere insieme le unità elementari discrete nelle sequenze che sono soggette a quattro livelli di modulazione: regole locali per modulazione espressiva, regole globali per il livello totale dell’espressione (intensità), regole locali categoriali per la prominenza, formule globali categoriali per generare associazioni di significato di contorno e livello di ‘frase’” (Brown 2000: 294). Sono evidenti le sorprendenti similarità tra la musicalità quale definita da Trevarthen e la musilingua quale prospettata da Brown: in fondo, c’è bisogno di incorporare in una mente emotiva un mondo di suoni che altrimenti non potrebbe raggiungere le specializzazioni categoriche necessarie al farsi del linguaggio. Questo non significa negare la specificità fonetico/fonologica del linguaggio, quanto piuttosto, proprio alla luce delle caratteristiche maturazionali del cervello nell’ontogenesi che lo rendono all’inizio inadeguato a controllare dispositivi neu- Tra musica e linguaggio: alle origini della parola 45 rali oltre una certa complessità, trovare nel profondo passato cerebrale13 – il nostro sistema limbico – la chiave di accesso a forme di elaborazione più specializzate. Non a caso l’idea principale da cui parte anche Richman 2000 è che il ritmo e la melodia sono le proprietà fondamentali nelle produzioni vocali fin da quelle delle scimmie (fa specifico riferimento alle vocalizzazioni dei gelada), dove la variabilità interna si gioca sui dettagli relativi a tempo, ritmo, intervalli musicali, e tipi di sillabe. La differenza fondamentale tra le vocalizzazioni dei gelada e quelle umane è che nei gelada non troviamo ‘formule’, cioè ripetizioni della stessa esatta successione di caratteristiche vocali di una certa estensione, tutt’al più sono in grado di ripetere successioni di tre sillabe al massimo. Richman ritiene che la ripetizione formulaica sia una proprietà fondamentale per spiegare origine a natura del linguaggio umano. Tali formule derivano dalla capacità di raggruppare sequenze di suoni in modo che esse diventino proprio ‘appiccicate’ insieme e dotate di un significato su una base ben precisa: “l’aspettativa di regolarità basata sulla ripetizione e su di una battuta regolare; cioè, su quelle che sono essenzialmente dimensioni musicali” (Richman 2000: 303). All’inizio, si trattava del bisogno di avere ripetizioni costanti in quanto ciò consentiva la riconoscibilità delle sequenze udite, di conseguenza si creavano interazioni fondate sulla sincronia ritmica che diveniva, pertanto, interattiva consentendo così di predire e comprendere le mosse comunicative degli altri. La crescita del bagaglio di formule comunicabili si fondò, sempre secondo Richman, sulla capacità di combinare fra loro parti di formule o formule intere, che rimanevano sempre olistiche dal punto di vista percettivo e incastonate in una memoria limbico-emotiva, necessaria per il radicarsi di eventi e scene emotivamente salienti lasciando perdere tutto ciò che non è importante. È interessante notare, inoltre, che immaginare la musica o ascoltarla realmente sembrano attivare gli stessi substrati neurologici, ed in particolare il putamen, che è attivato a sinistra, potrebbe essere coinvolto nel timing della musica immaginata. Inoltre, la corteccia prefrontale, che come sappiamo è importante per mantenere in linea l’informazione durante l’esecuzione di compiti orientati su uno scopo, viene attivata nell’emisfero destro per discriminazioni di accento di intensità sia nel parlato che nella musica (Falk 2000). Ricordando le vecchie suggestioni di Jaynes 1976, potremmo pensare che l’attività cerebrale connessa all’immaginare musica possa essere concepita come sottostante alla ripetizione cerebrale della voce materna da parte dell’infante (qualcosa come l’echeggiare della voce degli dei alla base del cervello bicamerale di Jaynes). Potrebbe essere proprio questo supporto di ripetitività ‘in absentia’ a consentire il fissarsi di schemi ‘musilinguistici’ nella mente del bambino. La ripetitività di sequenze ritmico-melodiche, dunque, sembra essere la chiave di lettura per connettere filogenesi e ontogenesi, nella misura in cui il riarrangiamento funzionale del cervello che avviene in linea evolutiva porta a ri-organizzare le potenziali memorie dettagliate di specifiche sequenze sonore di parole, fatte di 13 Cfr. anche quanto descritto in Brandi 1998. 46 Luciana Brandi sottili dettagli acustico-fonetici, in forme astratte di rappresentazione, attraverso processi di categorizzazione intesi come processi mediante i quali i sistemi percettivi selezionano e raggruppano informazioni diverse all’interno di uguali categorie di rappresentazione o risposta. Se la ripetitività è l’origine comune, dal cui superamento sorge la creatività inesauribile del linguaggio, allora possiamo meglio capire una patologia come quella autistica. Avevamo già notato (Brandi 2001) come il comportamento linguistico di A. avesse caratteristiche ben precise: il lungo periodo di stereotipie, durante il quale il linguaggio disponibile era costituito soltanto da formule ripetute fedelmente ma sempre con valore comunicativo in quanto esse venivano adattate strategicamente, anche se non perfettamente, alla situazione comunicativa, aveva dato segni di venire progressivamente superato quando in A. era emersa la capacità di intervenire all’interno delle singole formule per prendere alcune parti e riarrangiarle fra loro diversamente, quindi producendo un ampliamento della capacità linguistica e comunicativa. Quanto Richman (2000) propone quale origine del linguaggio dal punto di vista della filogenesi, considerando il rapporto fra essere umano e scimmia entro una continuità di tipo darwiniano e dunque cercando di colmare tramite ipotesi il vuoto documentario che abbiamo tra il linguaggio delle scimmie ed il linguaggio ancestrale degli esseri umani, di cui non abbiamo ovviamente traccia, porterebbe a considerare i modi in cui si presenta il linguaggio nelle forme di autismo analoghe a quella di A. come il ri-emergere di fasi arcaiche di funzionamento del linguaggio, favorite dalla presenza di ‘devianze’ neurobiologiche nella maturazione dell’organo cerebrale in periodo fetale che impediscono l’aprirsi successivo di tutte le potenzialità evolutive di riorganizzazione. In sostanza una forma di disturbo del linguaggio associata ad autismo come quella di A. mostra con estrema evidenza come si possa arrivare ad un ‘calco’ della competenza linguistica a partire dalla semplice de-composizione e ri-composizione di formule acquisite per via melodico-ritmica. Certo, è un calco che avrà sempre dei limiti di creatività, ma è pur sempre uno strumento che consente ad A. di comunicare sempre più propriamente. Il caso di J. è più complesso; l’intero comportamento linguistico evidenzia come il linguaggio sia percepito nella sua dimensione melodico-ritmica: non solo ha avuto un lunghissimo periodo di inflessioni vocaliche, non solo è in grado di riprodurre localmente, anche anticipando, la melodia delle canzoni ‘country’ che lui ama, ma per lui è più facile ‘imparare’ la numerazione da uno a dieci che dire una qualsiasi parola isolata, in quanto tale sequenza è soprattutto un ‘canto vocale’ ove gli accenti di intensità in sequenza si fanno griglia percettiva per individuare prima e ripetere poi una vocalità globale; le singole parole, invece, danno luogo a riproduzioni apparentemente devianti, nel senso che non paiono seguire l’andamento fisso prevedibile CV quanto piuttosto possono comparire anche gruppi consonantici CC se essi sono la sede della battuta di intensità accentuale. In generale, cioè, proprio in ragione forse delle difficoltà di processing ipotizzate nel paragrafo pre- Tra musica e linguaggio: alle origini della parola 47 cedente, J. mostra gli ‘svantaggi’ di avere ancora a parziale disposizione, a differenza di A., le stazioni dell’emisfero sinistro per tempo e durata; il riconoscimento è disturbato, il gesto articolatorio stenta a precisarsi, e J. sorprendentemente da tempo scruta incessantemente il suo volto riflesso nello specchio per scoprire dai movimenti della sua bocca i segreti del linguaggio. È come se J. fosse potenzialmente in grado di dar luogo ad una riorganizzazione cerebrale oltre la semplice riproduzione formulaica di strutture melodico-ritmiche, ma la parziale e disturbata maturazione neurologica dei sistemi implicati gli impedisse di farlo, deprivandolo nello stesso tempo della possibilità di avere un linguaggio interamente a destra. 4. Verso il linguaggio Se guardiamo al meccanismo della percezione dei segnali sonori a livello del sistema uditivo, le oscillazioni della pressione sonora mettono in moto il timpano e da lì si trasmettono alla membrana basilare che è disposta all’interno della coclea per tutta la sua lunghezza. Tale membrana si deforma presentando un massimo in posizione differente a seconda della frequenza del suono. Lungo la membrana basilare corrono precise terminazioni nervose, le cellule ciliate, che danno luogo ad un segnale quando vengono stimolate dal moto della membrana. Sono tali cellule a permettere al cervello di discriminare le frequenze del suono traducendo il dato ‘frequenza’ in un dato ‘posizione’. Nel caso di suoni complessi, come ad esempio il suono linguistico, la membrana basilare presenta più punti di massimo, a seconda dei contenuti di parziali dei suoni stessi. Dunque l’analisi iniziale tanto di toni puri che di toni complessi viene fatta a livello della membrana basilare, e tale risultato viene trasmesso ai relé uditivi del cervello. I collegamenti verso i giri di Heschl nel lobo temporale sono di natura crociata, ma esistono anche connessioni ipsilaterali da un orecchio al giro dello stesso lato, connessioni che sono certo più deboli di quelle controlaterali. La prima stazione è costituita dai neuroni del nucleo cocleale: rispondono alcuni a basse e medie, altri ad alte frequenze, alcuni si specializzano nel riprodurre stimoli ripetitivi a bassa frequenza, altri a rispondere a suoni come le vocali. La stazione successiva è costituita dai nuclei olivari, che rappresentano il luogo ove i percorsi che vengono da ciascun orecchio si incrociano, quindi mescolando l’informazione; di fatto i nucleri olivari che si dispongono da entrambi i lati della linea mediana sono tonotopicamente organizzati: qui il flusso dell’informazione neurale viene progressivamente differenziato e aspetti e qualità dello stimolo vengono separate, enfatizzate o soppresse. In particolare il nucleo olivare laterale superiore dà l’informazione sulla localizzazione del suono relativamente all’alta frequenza, mentre il nucleo mediale superiore lo fa relativamente alle differenze di fase interaurali fra stimoli a bassa frequenza, cioè combina un’analisi temporale con un’analisi di posizione. Partendo dalla considerazione delle unità del parlato, quali fonemi o tratti, come categorie, l’identificazione fonemica o fonetica è essenzialmente un processo di categorizzazione che deve superare uno scoglio fondamentale, la mancanza 48 Luciana Brandi di invarianza che caratterizza l’onda sonora dal punto di vista fisico-acustico. Pertanto, si tratta di vedere quale ipotesi può rendere conto del fatto che l’apprendente diviene capace di trattare come equivalenti e dunque appartenenti allo stesso insieme categoriale collezioni di caratteristiche che presentano variazioni rispettive. Naturalmente i tratti distintivi sono una rappresentazione astratta dei gesti articolatori: il tratto vocale non si sposta istantaneamente da una posizione all’altra, ed il parlato continua ad essere prodotto mentre il tratto vocale si trova tra le posizioni bersaglio. Questo ha il noto effetto di propagare l’output associato con un particolare tratto in un particolare fonema oltre il tempo. In ragione della coarticolazione, ad es., le differenze di VOT sono molto meno marcate per le occlusive intervocaliche in finale di sillaba, che in occlusive ad inizio di sillaba, ed influiscono anche altre caratteristiche acustiche quali la durata della vocale precedente. Quindi il problema è se l’identificazione delle caratteristiche fonetiche e dei fonemi è basata su questi elementi contestualmente varianti o se invece ci sono caratteristiche acustiche invarianti che sono usate nell’identificazione dei suoni individuali14. È indubbio che per un approccio di tipo innatista, il problema si risolve nei termini di una dotazione genetica innata, che fa sì che ciascun modulo o processore relativi ai diversi componenti del linguaggio possegga i ‘contenuti’ mentali che lo rendono capace di applicarsi immediatamente in modo analitico all’input che riceve. Basti vedere per semplicità Jackendoff 1998: 90, ove i processi di percezione uditiva analizzano il segnale acustico in tre fattori separati, ma simultanei: chi sta parlando (riconoscimento vocale), cosa il parlante sta dicendo (percezione del linguaggio), come ci viene detto (il tono di voce o lo stato emotivo del parlante); ciascuno di questi fattori è identificato da un modulo distinto del cervello: il processore linguistico riguarda i segmenti linguistici, il riconoscimento vocale riguarda la miscela di frequenze che identifica la voce di chi parla, mentre il riconoscimento emozionale riguarda le variazioni di frequenza che caratterizzano il tono di voce. Ma ogni volta che ci imbattiamo in un caso di autismo, ogni volta che vediamo gli occhi dolci e spauriti di J., o quelli birboni di A., scrutare il mondo per riuscire a capire cosa tenere e cosa buttare dei suoni che percepiscono e del rumore 14 Per mezzo delle tecniche di orientamento riflesso, si è dimostrato che gli infanti al di sotto dei 6 mesi di età sono in grado di discriminare un discreto numero di indici acustici che identificano i fonemi. Questi comprendono il tempo di attacco di sonorità (VOT) e la frequenza delle formanti relative al luogo di articolazione delle consonanti occlusive e liquide e delle vocali; non sono discriminati con altrettanta facilità invece gli indici relativi all’alta frequenza delle formanti relative al luogo di articolazione delle fricative. Inoltre l’infante sembra anche più propenso a guardare più spesso l’immagine del volto che corrisponde all’articolazione del suono che ode. La capacità di distinguere il VOT al limite dei 20 ms è dato, secondo alcuni studiosi, da particolari caratteristiche di risposta del sistema uditivo, in particolare le persone rispondono a stimoli acustici superiori a 50 picchi al secondo perché li percepiscono come tono acustico, mentre al di sotto li percepiscono come rumore, dunque quella è la frequenza periodica che ha una qualità tonale; questo limite di 50 picchi al secondo corrisponde al limite di 20 ms di VOT. Tra musica e linguaggio: alle origini della parola 49 di fondo che li accompagna, la loro fatica nel cercare di produrre linguaggio, siamo spinti a considerare la visione innatista come la ‘metafora’ per quella riorganizzazione funzionale del cervello cui avevamo fatto prima riferimento, una riorganizzazione che è resa possibile solo se prima è accaduto qualcosa, e questo qualcosa sembra avere a che fare all’inizio più con la musica che con la lingua. Secondo Cutler 1996, vi sono argomenti per ritenere che lo sviluppo di una procedura di segmentazione basata sul ritmo sia parte dello sviluppo della lingua nativa. Si potrebbe ipotizzare che sorga da una esposizione estensiva alla lingua input e alla conseguente acquisizione di modelli accurati sull’input. Tuttavia si è verificato che nel caso dei bilingui (nel caso inglese – francese) i parlanti controllavano una sola procedura, o la segmentazione sillabica caratteristica del francese, o la segmentazione accentuale caratteristica dell’inglese. La segmentazione esplicita lega di fatto l’infante e le situazioni di processing adulto, come quelle ora indicate: all’inizio dell’acquisizione c’è bisogno solo di un punto da cui partire, e qualunque sia dato all’infante bilingue, questo è quello che resta nel corso di tutta la vita. Gli infanti sono molto sensibili al ritmo del linguaggio, basti considerare che i bambini inglesi di 9 mesi mostrano una preferenza per le sequenze trocaiche (forte debole) su quelle giambiche (debole forte); inoltre essi mostrano di integrare la struttura segmentale e quella prosodica dell’input, dando sostegno all’idea che a questa età hanno acquisito un concetto di prosodia di livello lessicale (il “lexical tone” di Brown 2000?). Anche secondo Gerken 1996, l’idea che i bambini scoprono gli andamenti prosodici specifici del linguaggio durante la seconda metà del primo anno di vita è consistente con i dati che mostrano che in quello stesso periodo essi perdono la loro sensibilità a contrasti segmentali non-nativi. Forse gli infanti possono usare la loro crescente sensibilità ai modelli prosodici della lingua nativa per cominciare a risolvere il problema della segmentazione. Inoltre gli/le apprendenti sono in grado di inquadrare parole individuali nel continuum parlato; un segnale prosodico è l’andamento sillaba forte – sillaba debole esibito da molte lingue; anche questa sensibilità è manifesta a 9 mesi ma non a 6 mesi, dunque si sviluppa nella seconda metà del primo anno di vita. Ma è da Lindblom 2000 che spiegare come i bambini sviluppano la struttura dei suoni della loro lingua nativa riceve una risposta particolare. In generale la capacità dimostrata dai bambini di dar luogo a rappresentazioni linguistiche invarianti libere dal contesto a fronte di una considerevole variabilità nella realizzazione dei suoni era assunta come argomento a favore di una ipotesi mentalista, nel senso che la sostanza del linguaggio era considerata il livello superficiale cui sottostava un livello formale astratto di rappresentazione mentale – cioè scevra dalle variazioni contestuali di realizzazione del suono linguistico – che identificava le unità fonologiche invarianti. Per Lindblom proprio l’osservazione del comportamento del bambino nel corso dell’acquisizione porta a formulare la necessità di un differente paradigma, che parta dalla messa in dubbio proprio della priorità della 50 Luciana Brandi forma sulla sostanza. Viene ad essere così elaborata una teoria di fonologia emergente, con la quale si assume che la struttura fonologica non sia prespecificata geneticamente, ma piuttosto dedotta dall’esperienza sulla base di una conoscenza iniziale ridotta all’essenziale. Per quanto riguarda la percezione, la struttura fonologica si può fondare non più su una assunzione nativista quanto su una forma di computazione che emerge sulla base di una esperienza cumulativa che consente il formarsi di categorizzazioni radicate nel ripresentarsi di regolarità statistiche nel segnale del parlato. Di fatto, la variabilità dei segnali del parlato è estesa, ma anche assai sistematica, nel senso che è una variabilità che può essere disambiguata in ragione dell’informazione che via via si accumula e che fa sì che compaiano gradualmente le “covariazioni sistematiche tra le dimensioni degli stimoli”. Dal punto di vista della produzione, la capacità di articolare suoni linguistici si può ricondurre a movimenti articolatori basilari, come aprire/chiudere la mandibola, guidati dalla condizione del minimo costo energetico; ad es., una apertura e chiusura della mandibola combinata con la fonazione produce una esecuzione quasi-sillabica simile a [bababa], vale a dire qualcosa che assomiglia alla lallazione canonica iniziale. Sono, dunque, gli schemi articolatori a costituire la strategia di bootstrapping, che favorisce l’emergere di movimenti articolatori che ricevono sollecitazioni anche dalla via della imitazione vocale che costituisce quel rinforzo ambientale che porta il bambino a fissare legami percettivo-motori fondanti la categorizzazione. Studdert-Kennedy 2000, a sua volta ritiene che i segmenti fonetici discreti sono strutture gestuali che emergono ontogeneticamente da un processo di imitazione vocale in cui è fondamentale anche il movimento corporeo, non solo quello vocale, ed ha un ruolo anche l’imitazione del gesto facciale di un altro con cui l’infante sia “strutturalmente e funzionalmente isomorfico” (Studdert-Kennedy 2000: 279): è, in fondo, il rapporto empatico identificato da Trevarthen, la consonanza corpo/mente tra madre di cura e bambino/a. L’unità linguistica iniziale è la parola olistica: anche se è prodotta come una sequenza di gesti discreti, tuttavia tali gesti ancora non sono rappresentati come elementi fonetici indipendenti che possono essere usati liberamente in altri e differenti contesti: “come una conseguenza automatica di ordinare e ammucchiare parole simili foneticamente, emergono i gesti indipendenti, e modelli ricorrenti di gesti co-occorrenti sono gradualmente integrati nei segmenti” (Studdert-Kennedy 2000: 280). I gesti sono poi indirizzati dalla salienza nel segnale uditivo dell’informazione relativa al luogo di articolazione, mentre la temporalizzazione o l’amplitudine del gesto sembrano essere occasione di maggiori errori da parte dell’apprendente. Dunque il gesto come unità indipendente di funzionamento del linguaggio nell’apprendente riporta l’emergere ontogenetico del linguaggio da un lato all’intersoggettività come elemento cruciale per l’acquisizione, e dall’altro, attraverso il richiamo ai neuroni mirror di Rizzolatti, all’organizzazione somatotopica a base neuroanatomica del meccanismo legato alla vocalità del linguaggio. Tra musica e linguaggio: alle origini della parola 51 Il cerchio si chiude: nel soggetto autistico, uno degli ostacoli enormi, difficili da superare è trovare il ponte verso il linguaggio; è il possesso del linguaggio che, cominciando a dare nome al percetto, lo fa diventare meno pauroso perché lo pone sotto il controllo della mente. E per quel ponte – attraverso il filo della musicalità quale storia del nostro essere corpo/mente – abbiamo bisogno di una fonologia come quella che ho qui delineato. Luciana Brandi Università di Firenze [email protected] Riferimenti bibliografici Aitken K., Trevarthen C. 1997 “Self/other organization in human psychological development”, Development and Psychopathology 9: 653-677. Bateson, M. C. 1979 “The epigenesis of conversational interaction: a personal account of research development”, in Bullowa, M. (ed.), Before speech – the beginning of interpersonal communication, Cambridge, Cambridge University Press: 63-77. Bernstein, N. 1967 Coordination and regulation of movement, New York, Harper Collins. Brandi, L. 1998 “Note sparse su musica e linguaggio”, Prisma & Convivio I.1: 135-146. Brandi, L. 2001 “Per uno studio dell’autismo”, Quaderni del Dipartimento di Linguistica 11: 227-247. Brown, S. 2000 “The “musilanguage” model of music evolution”, in Wallin N., Merker B., Brown S. (eds.), The origins of music, Cambridge, Mass., The MIT Press: 271-300. Buser, P. 1999 Il cervello allo specchio, Milano, Mc-Graw Hill Italia. Cutler, A. 1996 “Prosody and the word boundary problem”, in Morgan J. L., Demuth K. (eds.), Signal to syntax, Mahwah, NJ, Lawrence Erlbaum Assoc. Pub.: 87-99. Damasio, A. 1995 L’errore di Cartesio, Milano, Adelphi. Dissanayake, E. 2000 “Antecedents of the temporal arts in early mother-infant interaction”, in Wallin N., Merker B., Brown S. (eds.), The origins of music, Cambridge, Mass., The MIT Press: 389-410. Eimas, P. 1996 “The perception ad representation of speech by infants”, in Morgan J. L., Demuth K. (eds.) Signal to syntax, Mahwah, NJ, Lawrence Erlbaum Assoc. Pub.: 25-39. 52 Luciana Brandi Falk, D. 2000 “Hominid Brain Evolution and the Origins of Music”, in Wallin N., Merker B., Brown S. (eds), The origins of music, Cambridge, Mass., The MIT Press: 197-216. Gazzaniga, M. 2002 “Funzioni diverse per gli emisferi cerebrali”, Le ScienzeQuaderni 127: 4-9. Gerken, L. A. 1996 “Phonological and distributional information in syntax acquisition”, in Morgan J. L., Demuth K. (eds.), Signal to syntax, Mahwah, N. J., Lawrence Erlbaum Assoc. Pub.: 411-425. Jackendoff, R. 1998, Linguaggio e natura umana, Bologna, Il Mulino. Jasnow M., Feldstein S. 1986 “Adult-like temporal characteristics of mother-infant vocal interactions”, Child Development 57: 754-61. Heck D., Sultan F. 2002 “Il cervelletto”, Le scienze. Quaderni 127: 10-17. Kimura, D. 1967 “Functional asymmetry of the brain in dichotic listening”, Cortex 3: 163-178. Kimura, D. 1973 “The asymmetry of the human brain”, Scientific American 228: 70-78. LeDoux, J. 2002 Il sé sinaptico, Milano, Raffaello Cortina Editore. Lindblom, B. 2000 “Developmental origins of adult phonology: the interplay between phonetic emergents and the evolutionary adaptations of sound”, Phonetica 57: 297-314. Malloch, S. 1999 “Mothers and infants and communicative musicality”, Musicae scientiae, special Issue 1999-2000 “Rythms, musical narrative, and the origins of human communication”, Liege, European Society for the Cognitive Sciences of Music: 29-57. Malloch S., 2000 “Timbre and technology: an analytical partnership”, Contemporary Music Review 19, part. 2: 155-172. Merker, B. 1999 “Synchronous chorusing and the origins of music”, Musicae scientiae, special Issue “Rythms, musical narrative, and the origins of human communication”, Liege, European Society for the Cognitive Sciences of music: 59-82. Molino, J. 2000 “Toward an evolutionary theory of music and language”, in Wallin N., Merker B., Brown S. (eds.), The origins of music, Cambridge, Mass., The MIT Press: 165-176. Morel, F. 1947 Introduction à la psychiatrie neurologique, Masson, ParisLausanne. Peretz I., Kolinsky R. 1993 “Boundaries of separability between melody and rythm in music discrimination: a neuropsychological perspective”, Quarterly Journal of Experimental Psychiatry 46A: 301-325. Richman, B. 2000 “How music fixed “nonsense” into significant formulas: on rythm, repetition, and meaning”, in Wallin N., Merker B., Brown S. (eds.), The origins of music, Cambridge, Mass., The MIT Press: 301-314. Tra musica e linguaggio: alle origini della parola 53 Studdert-Kennedy M., Shankweiler D. 1970 “Hemispheric specializations for speech perception”, Journal of the Acoustical Society of America 48: 579594. Studdert-Kennedy, M. 2000 “Imitation and the emergence of segments”, Phonetica 57: 275-283. Trehub S. E., Tainor L. J., Unyk A. M. 1993 “Music and speech processing in the first year of life”, Advances in Child Development and Behavior 24: 1-35. Trevarthen, C. 1979 “Communication and cooperation in early infancy: a description of primary intersubjectivity”, in Bullowa, M. (ed.), Before speech – the beginning of interpersonal communication, Cambridge, University Press. Trevarthen, C. 1998 Empatia e biologia, Milano, Raffaello Cortina Editore. Trevarthen, C. 1999 “Musicality ant the intrinsic motive pulse: evidence from human psychobiology and infant communication”, Musicae scientiae, special Issue “Rythms, musical narrative, and the origins of human communication”, Liege, European Society for the Cognitive Sciences of Music: 157-213. Trevarthen, C. 2001 “Intrinsic motives for companionship in understanding: their origin, development and significance for infant mental heath”, Infant Mental Health Journal 22 (1-2): 95-131. Wallin, N. 1991 Biomusicology, Stuyvesant, NY, Pendragon Press. Zaidel, E. 1977 “Lexical organization in the right hemisphere”, Cerebral Correlates of Conscious Experience, Inserm Symposium 6: 177-197. Zatorre R., Evans A., Meyer E. 1994 “Neural mechanisms underlying melodic perception and memory for pitch”, Journal of Neuroscience 14: 19081919. Abstract Music and language are considered in their interrelations both in ontogeny and in philogeny. W.r.t. the historical evolution of human cognitive capacities, ‘misilanguage’ identifies the proto-form of communication where language and music were not differentiated and reference and emotion were integrated: thereafter, music become the expression of emotional semantic, language of referential semantic. W.r.t. ontogeny, the main idea is that language develops from a period – the first year of life – where musicality is the paradigm trough which the infant reaches his/her language: pitch, sequences of pitchs i.e. melody, rythm, are the cues. Musicality, as connected with emotions and body movements, allows the rise of protoconversations between mother and infant. Some cases of autism are considered to show that musicality could offer the way to explain various characters of language impairments in autism, in connection with the consideration of neurobiological deficits related to different areas of brain and cerebellum. As to explain the features of language development in autistic children, the theory of emergent phonetic and the concept of imitation for the emergence of phonetic segments are considered.