TRA MUSICA E LINGUAGGIO: ALLE ORIGINI DELLA PAROLA

Quaderni del Dipartimento di Linguistica - Università di Firenze 13 (2003): 31-53
TRA MUSICA E LINGUAGGIO: ALLE ORIGINI DELLA PAROLA
Luciana BRANDI
Una delle questioni più interessanti che emerge dall’esame del comportamento linguistico dei bambini autistici, riguarda i processi di percezione e produzione del suono che precedono la comparsa di unità di tipo propriamente linguistico a struttura sillabica. Nei casi in cui il linguaggio ha grosse difficoltà a comparire, dopo il periodo di assoluto silenzio in cui il bambino autistico sprofonda anche
per un arco di tempo che talvolta si protrae fino verso ai 5 anni, la ri-conquistata
disponibilità al linguaggio trova un preciso segnale1: riemerge, come un sopravvissuto del proprio lontano passato, la capacità di dar luogo a vocalizzazioni che si
presentano non piatte ma dotate di precisi contorni melodici, dati dalla successione
di picchi accentuali di diversa intensità al di sotto dei quali compare una produzione sonora non distinta in prospettiva linguistica. È dal lungo mantenimento di
questa capacità che può successivamente svilupparsi un tipo di produzione propriamente linguistica, fatta di sequenze sillabiche più o meno simili a quelle del
linguaggio adulto. Tali osservazioni spingono ad interrogarsi, più in generale, sul
rapporto fra il periodo cosiddetto prelinguistico ed il periodo linguistico nello sviluppo del linguaggio, a chiedersi quale possa essere eventualmente il rapporto fra i
differenti tipi di vocalizzazioni che compaiono nell’arco del primo anno di vita
circa.
1. Musicalità comunicativa ed emozioni
Nel giro di poche ore dalla nascita il bambino dimostra una preferenza per la
voce della madre rispetto alla voce di una qualsiasi altra donna: i tratti distintivi di
tale voce erano stati appresi in utero, e da lì inizia a costruirsi nell’infante il riconoscimento e la preferenza per questa “compagna di comunicazione” in quanto
l’attaccamento emotivo tra madre e figlio/a inizia prima della nascita. Addirittura
“l’apprendimento intrauterino delle caratteristiche della vocalizzazione che segnalano emozioni affettuose” (Trevarthen 1998: 120) possono arrivare a produrre
preferenze per particolari canzoni, o recitati, di conseguenza dobbiamo ritenere
che tale precoce capacità di ricezione dell’espressività umana sia resa possibile da
1 Qui e altrove, quando indichiamo caratteristiche precise dello sviluppo del linguaggio nei
soggetti autistici, facciamo riferimento alla ricerca descritta in Brandi 2001.
32
Luciana Brandi
strutture cerebrali innate dedicate alle emozioni e ai loro mutamenti dinamici; non
è pensabile che esse siano interamente apprese. L’infante2 si dimostra capace di
discriminare accento di intensità, sonorità, intervallo armonico, e qualità della
voce, oltre a schemi di temporalità (Trehub, Tainor e Unyk 1993).
Già a sei settimane dopo la nascita il bambino/la bambina ha progredito nella
prontezza visiva, nella stabilità posturale, ed è in grado di tenere gli occhi fissi in
quelli della madre quando lei si china verso di lui/lei parlando dolcemente; a sua
volta l’attenzione acuita del bambino/della bambina fa sì che la madre si rivolga al
figlio/alla figlia in modo più vivace, stia attenta ai suoi mutamenti di espressione e
quindi cerchi di rispondere in modo adeguato alle manifestazioni di sentimenti che
il bambino/la bambina è in grado di esprimere. “Il passaggio di espressioni emotive in entrambe le direzioni instaura e regola uno stretto contatto mentale, (…) ed il
gioco reciproco viene a organizzarsi in una coerente esecuzione a due” (Trevarthen 1998: 121) chiamata da Bateson 1979 protoconversazione, in ragione del
fatto che genera espressioni che tendono ad alternarsi, dalla mamma al bambino e
viceversa3.
Viso, apparato vocale, mani, braccia sono coinvolte in questo scambio comunicativo sintonizzato; tanto la madre quanto l’infante regolano la scansione temporale, la forma e l’energia delle loro espressioni in modo da raggiungere la sincronia degli scambi comunicativi e la complementarietà delle sensazioni, delle emozioni, così da dar luogo ad una vera e propria confluenza. Si tratta di una forma di
contatto umano dinamico, che il/la bambino/a è in grado di gestire emettendo vocalizzi, movendo labbra e lingua in una sorta di pre-parlato, gesticola con le mani
2 L’uso di tale voce dotta non dipende da altro se non la necesità di indicare simultaneamente
entrambi i generi di chi si trova nell’infanzia.
3 Naturalmente la posizione di Trevarthen parte da un assunto sul problema dell’autocoscienza
assai diverso da quello di gran parte degli psicologi contemporanei; egli trova del tutto artificiale
l’idea di una intersoggettività che inizi solo a partire dal sesto mese di vita, dunque la capacità di distinguere tra sé e l’altro è presente ancor prima della nascita: l’intersoggettività umana e l’apprendimento, considerate in stretta relazione, sono “radicate nella neurobiologia evolutiva dell’infante”
(Aitken e Trevarthen 1997: 655), quindi fin dalla nascita è a disposizione un meccanismo - detto
Intrinsic Motive Formation (IMF) – pronto ad entrare in relazione con le emozioni espresse
dall’adulto in una “guida mutua dello sviluppo cerebrale infantile e dell’apprendimento sociale”; è
appunto l’IMF che genera ciò che è stato chiamato “un “altro virtuale”, o il bisogno organismicamente dato per un partner” in quanto ogni mente ha la necessità di una persona oggetto emotiva. Parimenti le protoconversazioni dimostrano che il bambino nasce dotato di un sé perfettamente adeguato, ove la distinzione tra sé e l’altro non si ritiene acquisita, perché nel comportamento infantile
Trevathen non vede nessun cambiamento che possa far pensare ad un successivo sorgere di autocoscienza che renda diversa la comunicazione.
Riguardo a come debba intendersi questo “altro” nella prima infanzia, tanto Trevarthen quanto
gli altri autori citati al riguardo lo identificano nella madre; ma è ovvio che per “l’altro” debba intendersi qualunque persona si prenda stabilmente cura del bambino / la bambina, dunque non necessariamente la madre e non necessariamente una persona di genere femminile. Potremmo parlare più
propriamente di “figura di cura”, quale punto di riferimento emotivo, cognitivo e sociale per il
bambino / la bambina.
Tra musica e linguaggio: alle origini della parola
33
in modo sincrono con le altre manifestazioni: le frasi sono così associate a rotazioni del capo, a movimenti delle sopracciglia, e a brevi allontanamenti dello sguardo
dalla madre; dunque le protoconversazioni godono di caratteristiche paralinguistiche analoghe a quelle delle conversazioni adulte. L’aspetto più rilevante è che madre e bambino/a sono uniti da un unico e identico ritmo, e si alternano su una battuta ogni 0.9 secondi (adagio), in cui l’uno ascolta i suoni emessi dall’altro rispondendo a turno in ragione delle caratteristiche prosodiche; la madre si riferisce alle
manifestazioni espressive del/la bambino/a come se parlasse davvero, e le espressioni vocali più lunghe emesse dall’infante durano due o tre secondi cioè l’equivalente del tempo impiegato da un adulto per produrre una breve frase. Le analisi
compiute sulla scansione temporale dei cambiamenti del contatto madre-bambino/a mostrano che lo scambio comunicativo è controllato da entrambi, sulla base
di dinamiche corrispondenti e transizioni simili tra gli stati d’animo e le espressioni. Pertanto, possiamo concludere che le protoconversazioni sono in grado di innescare sistemi coordinati nei due individui coinvolti nello scambio comunicativo;
essi trovano sfogo espressivo attraverso il movimento simultaneo di diversi organi,
e così generano un contatto, una sorta di regolazione reciproca che ha l’effetto
ulteriore di intensificare gli stati motivazionali centrali.
La musicalità è, secondo Trevarthen 1999, alla base del comportamento motorio umano, identifica l’impulso ritmico a vivere, muoversi e comunicare con un
altro da sé, attraverso la condivisione di ritmo, forme melodiche e armonia. In generale il movimento ha funzioni intersoggettive nelle specie sociali, in quanto può
anticipare o regolare il comportamento dell’altro, e proprio nei processi di anticipazione percettiva del cervello ha origine la necessità bio-meccanica (come sosteneva Bernstein 1967) del ritmo, del valore ritmico dei movimenti, ma non solo,
esso è anche radicato in un contesto in cui è fondamentale la relazione simpatetica
con i movimenti di un altro da sé. Se parliamo delle prime vocalizzazioni dell’infante nello scambio comunicativo che intrattiene con la madre (o madre di cura),
ci rendiamo conto che tali vocalizzazioni sono tessute sulla musicalità identificante i processi che connettono in un duettare emozionale madre e infante: ritmo e
melodia legano due esseri umani in una attività motoria che è simultaneamente
fenomeno inter-mentale e inter-soggettivo, ove il significato è eminentemente la
condivisione emotiva di una esperienza sociale. Alla base della musicalità si trovano caratteristiche quali la temporalizzazione, l’espressione di emozioni e l’empatia intersoggettiva: sono questi i segni, secondo Trevarthen (1999: 174), che
spingono in modo innato ogni infante a cercare un partner e a coordinare il limitato repertorio dei propri movimenti alla musicalità delle espressioni materne, fatte
non solo di suono ma di sollecitazioni sensoriali multimodali: “gli tocca le mani, la
faccia, il corpo con cura ritmata, e tiene l’infante stretto a sé cosicché essi possono
condividere l’attenzione e gioire l’uno dell’altro. Il suo parlato è una specie di
canto” fatto di passaggi di accento e di ripetizione di espressioni vocali che spin-
34
Luciana Brandi
gono il bambino a rispondere con sorrisi, gesti, movimenti delle mani e del corpo,
e con il tipico ‘tubare’ della voce4.
I dati empirici relativi alla osservazione dello scambio comunicativo tra madre
e infante entro le 6 settimane di vita (Jasnow e Feldstein 1986; Malloch 1999) mostrano che ciascun enunciato dell’infante, fatto di vocalizzazioni, movimenti delle
labbra e della lingua, movimenti delle mani, dura circa 2 o 3 secondi, giusto il
tempo per un adulto di emettere un sintagma o una frase breve; le fonazioni individuali dell’infante durano circa 0.75 secondi, un tempo comparabile a quello di
una sillaba; l’alternarsi dei turni procede da una battuta ogni 900 millisecondi a
circa sei settimane di vita, per accelerare a una battuta in 700 millisecondi a circa
due mesi. Malloch 1999, in particolare, ha esaminato anche mediante analisi spettrografica la produzione vocale di infanti individuando alcune componenti cruciali
della musicalità: pulsazione, qualità e narratività. La pulsazione, in quanto successione regolare di eventi espressivi nel tempo, evidenzia che a due mesi di età,
l’unità di tempo che divide naturalmente le emissioni vocali di madre e figlio/a è
un intervallo di 0.68 secondi, e l’unità comunicativa di respiro, oltre la quale compare un breve spazio di silenzio, è data da tre di queste unità che costituiscono un
intervallo più ampio di 2.93 secondi. Tale misura temporale si riconferma presente
in diverse protoconversazioni esaminate, e costituisce dunque il ‘ritmo’, l’intervallo temporale regolare che serve a coordinare le vocalizzazioni tra madre e bambino/a. La qualità è la dimensione su cui si misurano sia l’altezza delle vocalizzazioni che il loro timbro; da un lato vengono evidenziati i contorni melodici dati dal
tracciato degli accenti di intensità formati da cicli regolari di 20-25 secondi da
parte della madre e dall’inserimento su questo tracciato delle vocalizzazioni
dell’infante con propri picchi accentuali che cercano di riprodurre l’andamento
materno, dall’altro lato il timbro (v. anche Malloch 2000) viene descritto mediante
una varietà di misure acustiche quali il valore di acutezza, intensità, durezza e altezza, così vengono calcolate le armoniche alta e media ed individuati i mutamenti
nella qualità della voce della madre dopo ogni vocalizzazione da parte dell’infante,
mutamenti che paiono volti a segnalare che la vocalizzazione da parte dell’infante
è stata udita e a rendere la voce materna più armonica possibile con quella del
bambino/ della bambina. La narratività combina le due caratteristiche precedenti,
consentendo così ai due attori della proto-conversazione di creare e dividere emozione ed esperienza con l’altro, di formare significato attraverso il reciproco coordinarsi dell’attività vocale e gestuale. Esaminando il modo in cui l’infante si pone
nella percezione di cantilene, ninne nanne, filastrocche, è stata notata (Merker
1999) la comparsa di un forte senso dello spazio accentuale che le rispettive voca4 Anche Ellen Dissanayake 2000: 394 ritiene che le interazioni madre-bambino/a siano composte di elementi che “sono letteralmente, e non metaforicamente, musicali”, interazioni comunicative
ritmiche, modellate temporalmente, e mantenute congiuntamente. Probabilmente gli enunciati materni sono percepiti dal bambino/a come combinazioni di suoni le cui caratteristiche e relazioni salienti sono musicali e non ancora propriamente linguistiche.
Tra musica e linguaggio: alle origini della parola
35
lizzazioni coprono, nel senso che il bambino/la bambina fin dall’età di 4 mesi si
dimostrano capaci di prendere parte attiva ad un gioco musicale con l’altro, inserendosi nella struttura musicalmente. È per questa via che si sviluppa la capacità di
sincronizzare il proprio movimento vocale e corporeo con quello dell’altro, di
partecipare ad uno scambio comunicativo in cui la riproduzione ripetuta delle
stesse dimensioni costituisce la trama su cui il/la bambino/a forma la propria capacità linguistica. Il linguaggio, nel suo primo presentarsi come ritmo e melodia, nel
suo essere preliminarmente soprattutto musicalità, si trova ad essere come incarnato negli stessi movimenti corporei, gestuali, che accompagnano l’enunciazione
verbale tanto della madre quanto del bambino/della bambina. Si tratta, per Trevarthen 2001; Aitken e Trevarthen 1997, di trovare nell’impulso innato a cercare
un’altra mente con cui connettersi in un rapporto empatico, nella cooperazione con
l’altro da sé, nelle emozioni, la chiave per dotare di significato il mondo, e dentro
il mondo di attribuire significato ad un simbolico che può svilupparsi come
linguaggio e come pensiero a partire da quella ‘narratività’ che, ai suoi primordi
ontogenetici, è dotata di una semantica emozionale prima che referenziale. La musicalità, dunque, con il suo riproporre ripetitivamente le stesse sequenze temporalizzate di ritmo e melodia, spinge l’infante sull’onda dell’emozione a quei giochi
verbali che sono l’anticamera del linguaggio, imitazione di una sonorità adulta che
si presta e si piega ad opportune manipolazioni, per divenire tramite naturale verso
il linguaggio parlato.
Se parliamo di protoconversazioni assumiamo ovviamente che esista una sorta
di motherese intuitivo, cioè un linguaggio col quale le madri si rivolgono spontaneamente al bambino in modo da facilitare il sostegno emotivo che il bambino
cerca. Si osserva che le tonalità vocali, l’andamento melodico, il tempo, la metrica
e la ripetitività risultano comuni a linguaggi e culture molto diversi fra loro; ad
esempio madri cinesi e americane parlano secondo lo stesso modello di linguaggio
infantile, nonostante che il cinese e non l’inglese sia una lingua tonale; un numero
limitato di contorni melodici sono prodotti molte volte con differente contenuto
lessicale. In genere, le espressioni linguistiche sono molto brevi, ripetitive, con
intonazione ritmica e tono oscillante: infatti la periodicità è un fattore fondamentale nel motherese; la madre articola brevi espressioni di circa mezzo secondo ogni
0,75 secondi (adagio) facendo una pausa su battute alterne; il piccolo riprende il
ritmo e a sua volta emette un’espressione inserendosi nella pausa della madre.
Così avviene il darsi il turno; via via che il bambino cresce, la gamma dei tratti
prosodici nel parlato della madre si arricchisce (in genere dopo il terzo mese); di
fatto le variazioni di tono generate dalla madre servono a segnalare i cambiamenti
del proprio contatto emotivo e l’empatia che prova per le emozioni del bambino.
Naturalmente il rapporto empatico tra madre e bambino/a può fallire: se certe
condizioni di accordo emotivo non vengono rispettate (volto privo di espressione
della madre, es. depressione; autismo da parte dell’infante). In generale, possiamo
rilevare che, se la comunicazione è felice (in senso austiniano), nell’infante l’atto
36
Luciana Brandi
di guardare verso la madre è correlato con il sorridere, inarcare le sopracciglia,
schiudere la bocca e muovere la lingua; invece, il guardare la madre priva di
espressione si accompagna all’atto di aggrottare le sopracciglia e corrugare la
fronte, mentre il guardare altrove da parte della madre si correla ad un’espressione
neutrale con le sopracciglia rilassate e la bocca chiusa. Da questo comprendiamo
che si tratta, tra madre e figlio/a, di un sistema emotivo integrato, dove le emozioni
della diade diventano strettamente interdipendenti. Pertanto le emozioni che si
succedono nello scambio diadico paiono essenziali per la regolazione dello sviluppo cerebrale e della crescita psicologica del bambino: “le emozioni che generano
le espressioni in cervelli separati, quello della madre e quello del figlio, possono
giungere a unirsi in una confluenza di affetti che sviluppa un’organizzazione autonoma, come accade tra due musicisti esperti che improvvisano un unico brano armonizzandolo in maniera coerente e di piacevole ascolto. (…) Una chiara misura
della confluenza è l’ “agganciarsi” reciproco di movimenti e vocalizzi aventi la
medesima frequenza” (Trevarthen 1998: 134-5). La capacità di distruzione che
possono avere nella diade i disturbi emotivi fa sì che il gioco della protoconversazione fallisca quando uno dei due si trovi in uno stato di turbamento o di distacco:
nel caso di un infante autistico, l’anomalia dello sviluppo cerebrale embrionale
coinvolge fondamentalmente proprio i sistemi cerebrali legati all’analisi delle
emozioni e della comunicazione (Brandi 2001) e dunque influisce drasticamente
sulla qualità della relazione intersoggettiva, sulla reattività dell’infante, in conclusione sulla capacità di “agganciarsi” in quel gioco reciproco di movimenti e vocalizzi su cui pare basarsi la possibilità di sviluppare in seguito la comunicazione
linguistica.
2. Tra cervello e cervelletto
Già a livello delle prime espressività nell’infante, sono evidenti asimmetrie
corporee tra destra e sinistra, che ovviamente richiamano il fenomeno della lateralizzazione emisferica. Osserviamo che quando il bambino si esprime, lo sguardo si
orienta prevalentemente a destra, gesticola sollevando la mano destra più in alto
della sinistra e le vocalizzazioni si sviluppano in genere prima e in modo più evidente sul lato destro della bocca. Analoghe asimmetrie si riscontrano anche
nell’ascolto del linguaggio, che tanto nell’adulto quanto nel bambino coinvolge
soprattutto l’orecchio destro, lo sguardo si sposta verso il lato destro quando un
adulto produce un’espressione linguistica. Potremmo cioè concludere che le
espressioni referenziali sono prodotte e percepite con un maggior coinvolgimento
della parte sinistra del cervello. D’altro canto, sembra altrettanto certo (da studi sui
potenziali evocati) che i bambini ascoltino l’emozione impressa nella voce materna con l’emisfero destro, che nella prima infanzia è a uno stadio di sviluppo più
avanzato di quello sinistro (Trevarthen 1998).
Per quanto riguarda più in generale la specializzazione emisferica, fin dai
primi studi (Morel 1947) era apparso evidente che ascolto musicale e ascolto ver-
Tra musica e linguaggio: alle origini della parola
37
bale fossero da considerare delle funzioni giustapposte ma non coincidenti; afasia
ed amusia rivelavano situazioni interessanti in quanto se apparivano in alcuni casi
come disturbi indipendenti – ad esempio un paziente sapeva cantare l’aria e le parole di una canzone, ma non sapeva ripetere quelle stesse parole in assenza della
melodia – spesso però potevano presentarsi associati, facendo pensare che essi implicassero almeno in parte lo stesso sistema neuroanatomico.
Sono stati soprattutto gli studi di Doreen Kimura (1967; 1973), basati peculiarmente sulla tecnica dicotica mediante la quale si faceva ascoltare simultaneamente linguaggio in un orecchio e melodie in un altro, a mettere in evidenza la
dominanza dell’emisfero destro per il riconoscimento delle melodie; il risultato
delle osservazioni compiute veniva confortato sia dall’osservazione mediante PET,
riportando la cognizione musicale alla dominanza preferenziale dell’emisfero destro, sia da dati neurochirugici in quanto a seguito di una lesione anche estesa
dell’emisfero sinistro il canto rimaneva ancora possibile per il paziente, mentre i
deficit musicali si presentano quando la lesione interessava l’emisfero destro. In
particolare pare che l’ascolto di una melodia attivi l’area temporale e l’area frontale destre (Zatorre, Evans, Meyer 1994), ma l’essenziale è dato dal considerare
che la percezione di una melodia – almeno da parte di un ascoltatore non musicista
esperto – avviene rispetto al profilo generale, e dunque si tratta di una percezione
olistica5. Soggetti con lesioni cerebrali sono stati esaminati in rapporto alla presentazione di una frase melodica e di sue versioni modificate, o a livello del profilo generale o riguardo a intervalli tonali successivi ma nel rispetto del profilo generale. Da questi esperimenti è emerso che nei soggetti portatori di lesioni
all’emisfero destro veniva ad essere colpita la percezione del profilo generale della
melodia, mentre se la lesione era a sinistra, era colpita l’individuazione della
struttura particolareggiata degli intervalli e l’organizzazione temporale della melodia. Anche Falk 2000 sottolinea come melodia e ritmo sembrano essere neurologicamente dissociati in quanto l’emisfero destro elabora gli aspetti melodici della
musica, mentre l’emisfero sinistro sembra maggiormente coinvolto nell’elaborazione del ritmo (Peretz 1993). L’emisfero destro, come sappiamo, interpreta anche
gli aspetti melodici del linguaggio, il tono della voce, e dunque le connotazioni
emotive ed affettive del parlato.
Comunque fin dagli studi di Sperry risultava che l’emisfero destro non è interamente ‘muto’, ma può formulare parole isolate, serie di parole specialmente
quelle con una forma metrica che può essere cantata, o comporre una successione
di esclamazioni spontanee sollecitate da un’emozione (Wallin 1991: 46), quindi
interiezioni come, Oh no!, buon dio, povero me, ecc, vengono dall’emisfero destro, che più in generale può comprendere delle frasi anche senza analisi fonetica e
lessicale, il suo lessico sarebbe collegato ad una gestalt fonologica che consente
una comprensione del linguaggio sotto forma globale: “l’emisfero destro non può
5 Nel musicista esperto, invece, l’elaborazione di tipo analitico di un input musicale può riguardare l’emisfero sinistro.
38
Luciana Brandi
che estrapolare degli elementi globali (non analitici) senza poter seguire l’ordine
temporale” (Buser 1999: 236). Anche nel test di Wada (un’iniezione di amobarbitale nella arteria carotidea destra o sinistra che produce una inibizione temporanea
dell’emisfero corrispondente) quando l’iniezione inibisce l’emisfero destro, l’abilità del canto risulta assai disturbata, mentre la facoltà del parlato è compromessa
solo nel senso che l’articolazione delle parole è più lenta e monocorde, mentre
l’intonazione, la pronuncia, e l’abilità a partecipare ad una conversazione non ne
risentono: la memoria tonale ed il senso dello spazio melodico pare completamente scomparso, mentre il ritmo sembra meno interessato dall’inibizione.
La cosa più interessante riguardo al linguaggio è il dato che l’emisfero dominante è il destro e non il sinistro quando le parole sono processate solo come stimoli acustici, nel senso che il percetto non è il contenuto semantico del messaggio,
che ha l’effetto di trasferire l’elaborazione da un emisfero all’altro: Zaidel 1977 ha
mostrato che dopo commissurotomia l’emisfero destro ha un vocabolario uditivo
considerevole, in quanto è in grado di riconoscere comandi e di mettere in relazione parole presentate per via uditiva e la visione con rappresentazione figurativa.
Dagli esperimenti di Zaidel 1977 emerge che l’emisfero destro ha difficoltà ad
analizzare le categorie fonetiche, mentre la discriminazione delle vocali sembra
non costituire un problema, pertanto l’emisfero destro sembrerebbe essere prevalentemente un analizzatore gestaltico di tratti acustici e non di tratti fonetici. Dagli
studi di Studdert-Kennedy e Shankweiler 1970 già era emersa la superiorità
dell’orecchio destro, e dunque dell’emisfero sinistro, per sillabe formate CVC,
dunque in relazione alla combinazione consonante/vocale, mentre le vocali sono
percettivamente o bilaterali, o addirittura unilaterali sull’emisfero destro: evidentemente esse vengono elaborate più rapidamente sulla base del loro contenuto musicale. Inoltre i pazienti di Zaidel sottoposti a commissurotomia hanno un ricco
vocabolario di parole isolate a destra, corrispondente ad un’età intellettuale di
circa16 anni. In generale dagli studi sull’ascolto dicotico emerge che i toni puri,
semplici, sembrano percepiti bilateralmente, mentre l’emisfero destro mostra una
chiara preferenza per quelli complessi, producendo un incremento nell’accuratezza
dell’analisi per l’accento di intensità ed un decremento per la latenza temporale;
anche se è l’emisfero sinistro a dominare il processing linguistico, tuttavia
l’emisfero destro non è completamente ‘muto’, nel senso che possiede un certo
lessico, soprattutto nomi, preferendo le parole trattate secondo l’ordine metrico,
può associare parole e immagini, sillabare parole e costruire rime, categorizzare
oggetti6; nell’emisfero destro sembra essere localizzato un meccanismo per riunificare la percezione dei componenti di un tono complesso in una forma unitaria
globale; infine, sembra che esista anche un meccanismo di spostamento tra i due
6 Quanto stiamo indicando va inteso come linee prevalenti, giacché vi è una individuata variabilità nella plasticità cerebrale da individuo ad individuo, nel senso che in alcune persone si ha una
assoluta incapacità a gestire anche forme rudimentali di linguaggio con l’emisfero destro, mentre in
altre si può arrivare ad una vera e propria equivalenza tra destro e sinistro (Gazzaniga 2002).
Tra musica e linguaggio: alle origini della parola
39
emisferi quando viene superata una certa soglia di informazione da trattare. Solo
per alcuni studiosi (Levy, Trevarthen, Sperry 1972) dal comportamento dei soggetti commissurotomizzati si poteva trarre l’idea di un’azione inibitoria di un emisfero sull’altro. Per studiosi come Gazzaniga 2002, la natura della differenza emisferica è data soprattutto dal fatto che l’emisfero destro elabora gli aspetti percettivi dello stimolo e non cerca di interpretare l’esperienza cercandovi un significato,
mentre l’emisfero sinistro colloca le proprie esperienze in un contesto più ampio,
forma ipotesi, anche falsi ricordi nel tentativo di dare uno spiegazione e costruire
un significato.
Per quanto riguarda il cervelletto, studi recenti (Heck, Sultan 2002) hanno
messo in evidenza come esso intervenga non solo nella coordinazione dei movimenti fini, ma anche probabilmente nel riconoscimento delle parole, e possa assolvere a compiti almeno dello stesso livello di complessità di quelli del cervello, per
quanto si tratti di strutture molto diverse7. Probabilmente sono le limitazioni spaziali a permettere al cervelletto di eseguire le sue specifiche funzioni, quali ad
esempio il movimento fine. Il concetto fondamentale è quello dell’onda di flusso
quale modalità di trasmissione dei segnali attraverso le cellule: per conseguire un
movimento fine, due granuli vicini devono eccitarsi con un intervallo di tempo
esattamente uguale a quello impiegato da un segnale per propagarsi attraverso una
fibra parallela tra l’una e l’altra cellula; in ciò vi è il vantaggio che i segnali si propagano attraverso le fibre parallele ad una velocità particolarmente bassa; solo
quando molti granuli vengono stimolati in questo modo si ha la partenza di
un’onda di flusso di segnali. La corteccia cerebrale da sola non può governare con
sufficiente rapidità i movimenti istantanei, fini, automatici; ha bisogno dell’aiuto
del cervelletto. Il cervelletto riconosce in pochi millisecondi complessi specifici
formati da segnali multipli che gli giungono attraverso i granuli. Solo quando i segnali sono cadenzati nel tempo in una forma determinata, può partire un’onda di
flusso. Si tratta di segnali che provengono dai diversi organi sensoriali: apparato
motorio, occhi, orecchi, sistema dell’equilibrio, ma anche dal cervello. In definitiva il cervelletto rappresenta un rivelatore di sequenze per lo schema temporale di
questi complessi di segnali. Oltre alle funzioni di regolazione del movimento, il
cervelletto esegue altri compiti di grande importanza. Un esempio sono gli esercizi
di associazione verbale. Il cervelletto mostra la propria attività non solo nel caso
della denominazione in quanto il parlato esige una complessa coordinazione mu7 Tale diversità riguarda: la disposizione dei solchi e delle pieghe (in tutte le direzioni nel cervello, solo trasversalmente all’asse longitudinale del corpo nel cervelletto); lo spessore (vari millimetri per la corteccia cerebrale, alcuni decimi di millimetro nel cervelletto); la sostanza bianca (la
sostanza bianca è formata da grandi prolungamenti dei neuroni, gli assoni: gli assoni nel cervello
hanno complessivamente un grande volume, e connettono regioni diverse, il cervelletto ha sostanza
bianca in quantità minore e i suoi assoni inviano segnali quasi esclusivamente ad altre parti
dell’encefalo, soprattutto al cervello); il volume (la superficie del cervelletto, una volta estesa, corrisponde circa a quella di un emisfero cerebrale); il numero dei neuroni (nel cervelletto è pari a cinque
volte quelli del cervello).
40
Luciana Brandi
scolare, ma anche, e soprattutto mostra un aumento dell’attività, nel caso in cui al
sostantivo nominato precedentemente nell’esperimento, ad es. cane, si chieda di
associare un verbo con esso in relazione come abbaiare. Dato che le esigenze motorie sono pressoché equivalenti, l’aumento dell’attività del cervelletto si ritiene
dovuto allo sforzo associativo. Lesioni al cervelletto, inoltre, non sono in grado di
provocare deficit intellettivi, tuttavia in tali casi si è notato un comportamento assai interessante: i pazienti con cervelletto lesionato non erano in grado di discriminare tra determinati suoni che differivano per la durata: se nel valutare la durata di
una sillaba si deve riconoscere un intervallo con durata inferiore a 100 millisecondi, questi pazienti si trovano in difficoltà. L’esempio era la differenza di durata
della vocale posteriore medioalta di boten (messaggeri) leggermente più lunga che
in boden (pavimento): se si fa ascoltare la parola boden con un prolungamento
della pausa, la persona percepisce boten, invece il paziente con lesione al cervelletto non è in grado di notare differenza tra le due emissioni.
Anche dagli studi riportati da Falk 2000: 214 si riconferma l’importanza del
cervelletto come l’area da cui ricevono input sia le cortecce di associazione parietale ed uditiva per la percezione e l’interpretazione sia le cortecce motoria e premotoria per la produzione. I dati paleoneurologici fanno collocare a circa 2 milioni
di anni fa – con l’aumento del volume del cervello accompagnato dal riarrangiamento delle circonvoluzioni dei lobi frontali ed un’apparente espansione della
corteccia prefrontale – l’evoluzione del linguaggio umano e contemporaneamente
della musica, e puntano alla corteccia prefrontale ed al cervelletto come aree focali
sia per compiti musicali che linguistici.
Cercando di usare i dati fino ad ora presentati per capire meglio il quadro autistico, facciamo l’ipotesi che nell’autismo la devianza sia a carico di organi subcorticali (Brandi 2001) e dunque può accadere che le relazioni che si instaurano
con le aree corticali possa essere di tipo diverso in quanto la relazione tra i sistemi
innati (ipotalamo, amigdala, midollo allungato) ed i sistemi che vengono definiti
per interazioni con l’ambiente, quali le aree corticali che a noi interessano per il
linguaggio, non è appunto determinata e definita a priori8. Da questo possiamo ri8 Secondo Damasio, il genoma contribuisce a stabilire la struttura di un certo numero di circuiti
e sistemi nei settori evolutivamente più antichi del cervello umano, quali il midollo allungato,
l’ipotalamo, il prosencefalo basale, e probabilmente anche l’amigdala e la regione del cingolato. Gli
schemi innati di attività di neuroni di questi circuiti non generano immagini, anche se gli effetti della
loro attività possono essere espressi in immagini: essi regolano i meccanismi omeostatici senza dei
quali non vi sarebbe sopravvivenza (respirare, regolare il battito cardiaco, equilibrare il metabolismo,
cercare cibo e riparo, evitare i predatori, riprodurci). Ma i circuiti innati intervengono non solo nella
regolazione corporea, ma anche nello sviluppo e nell’attività adulta delle strutture cerebrali evolutivamente moderne. Il genoma contribuisce a formare un quadro generale di sistemi e circuiti per i
settori cerebrali evolutivamente più moderni, piuttosto che uno specificato e dettagliato; quest’ultimo
si forma sotto l’influenza di circostanze ambientali, integrate e vincolate dall’influenza dei circuiti
innati, allestiti in modo preciso, che riguardano la regolazione biologica. “In breve, l’attività dei settori cerebrali più giovani e orientati dall’esperienza (la neocorteccia ad esempio) è indispensabile per
produrre una particolare classe di rappresentazioni neurali su cui si basano la mente (le immagini) e
Tra musica e linguaggio: alle origini della parola
41
tenere che J. e A.9 si trovino in due situazioni diverse, a carico dei due emisferi.
Posto che a livello di cellula neuronale abbiamo cellule che trasportano le stesse
differenti informazioni, solo che poi le differenti informazioni prendono la via di
stazioni cerebrali diverse e specifiche (Kandel), allora riguardo al processing
dell’input linguistico possiamo pensare che in J. l’informazione relativa alla durata
prende la via dell’emisfero sinistro che, se pure forse parzialmente o deficitariamente accessibile, tuttavia inibisce l’accesso all’emisfero destro dell’informazione
pertinente; dunque J. riceve materiale in modo similare a come lo riceverebbe un
bambino qualsiasi, solo che non si trova nelle condizioni cerebrali di processare
compitamente l’input che riceve e di conseguenza di avere uno sviluppo del linguaggio secondo tempi e modi ‘normali’. In A., invece, probabilmente si ha
un’azione inibitoria del destro sul sinistro che quindi non riceve il materiale relativo a tempo e durata; è solo l’emisfero destro che si fa carico inizialmente
dell’elaborazione dell’informazione linguistica, e pertanto produce vere e proprie
formule globali che vivono eminentemente per via melodica ma risultano consistentemente associate a oggetti individui ed eventi. Forse successivamente, quando
A. comincia a destrutturate la frase intera in pezzi se pur globali ma meno estesi,
forse allora può avvenire una riorganizzazione che coinvolga maggiormente
l’emisfero sinistro.
3. Musilingua: nel profondo passato della specie
Da tempo è emerso un interesse reciproco tra studiosi che si interrogano
sull’origine del linguaggio cercando di connettere ontogenesi e filogenesi, ed etnomusicologi10. Tanto Lieberman che Wallin, ad esempio, connettono l’origine del
sistema comunicativo umano ai sistemi dei vertebrati non umani; l’interazione di
gesti e componenti vocali nei primi sistemi di comunicazione, così come il ruolo
della madre come agente di apprendimento sociale e l’interazione emotiva tra madre e bambino/a è sottolineata da entrambi gli studiosi. Nondimeno vi sono delle
differenze, in primo luogo hanno a che fare con la classificazione dei sistemi primitivi di comunicazione tra gli ominidi: Lieberman ritiene che essi rappresentino
preadattamenti motori, neurali e articolatori al linguaggio, mentre Wallin sostiene
che tali sistemi vanno indietro nel tempo fino ad un sistema aperto, autonomo, che
ad un certo punto della storia evolutiva biforcò in due correnti principali, una il
le azioni consce. Ma la neocorteccia non può produrre immagini, se non sono integre e cooperanti le
parti più antiche, sotterranee, del nostro cervello (ipotalamo, midollo allungato)” (Damasio 1995:
167). Per LeDoux 2002: 93 si tratta dei geni omeotici, che producendo delle proteine controllano la
disposizione delle cellule nuerali: l’autismo potrebbe essere dovuto ad una mutazione di geni omeotici che produce un’organizzazione ed una interconnessione cerebrale difettose.
9 Ricordiamo la principale differenza nel disturbo del linguaggio tra i due casi, entrambi
dell’età di 9 anni circa: J. produce sillabe, sequenze di sillabe e qualche parola; A. produce frasi ben
formate di tipo stereotipato anche di una certa complessità.
10 Ringrazio Maurizio Agamennone per le sollecitazioni datemi relativamente a questo campo
di sapere.
42
Luciana Brandi
linguaggio e l’altra la musica. Il linguaggio, acquisendo natura proposizionale, si
prestava a diventare il mezzo per l’azione rapida e la risposta rapida: col parlato
gli esseri umani manipolavano il tempo come veicolo per una articolazione semantica veloce; codifica e decodifica tramite l’articolazione linguistica richiedeva
una velocità neurale di processing più alta per risposte motorie e percettive rispetto
ai sistemi precedenti. Nella “feroce competizione per lo spazio corticale”
(Gazzaniga 2002), il cervello doveva guadagnare nuove facoltà senza perdere
quelle vecchie, dunque i fenomeni di lateralizzazione riscontrabili nel cervello
umano rispetto ai nostri ‘cugini’ possono essere considerati non come una aggiunta evolutiva, ma piuttosto come ciò che sorge da un emisfero che sta perdendo
capacità e non acquisendone. Così il canale a bassa velocità rimase quello
dell’emisfero destro per l’accesso al sistema limbico e al trattamento delle emozioni: il lontano passato degli ominidi si presenta come ripetizione omologa negli
“stadi limbici preconcettuali del bambino e nella comunicazione limbica degli
adulti” (Wallin 1991: 504). Non tanto la novità nel tratto vocale, quanto piuttosto
la riorganizzazione cerebrale sotto la pressione di domande sociali sembra essere
stata decisiva per l’origine della comunicazione di tipo parlato, così come una crescente abilità a formare associazioni crossmodali ed una memoria crescente.
Per questa via, andiamo allora a trovare, nella filogenesi, le tracce di ciò che
Trevarthen ci propone di considerare come cruciale per il sorgere della comunicazione nell’ontogenesi, vale a dire un modo di comunicare fortemente forgiato dalle
emozioni e dotato di una vocalità eminentemente musicale. Innanzitutto, anche fra
gli studiosi di biomusicologia troviamo sottolineate le stesse proprietà parametrali
del suono che avevamo già visto realizzate sul concetto di musicalità. Infatti Molino 2000, se da un lato sottolinea il legame forte tra musica ed emozioni, viste soprattutto nelle manifestazioni che coinvolgono anche il corpo ed i suoi movimenti,
per cui la musica è da connettere ad una semantica di tipo ritmico-affettivo (nel
senso che esprime le emozioni fondamentali che sono associate al corpo ed ai suoi
movimenti), dall’altro individua le caratteristiche di base della musica in due componenti, uno temporale, costituito da metro e ritmo, ed uno melodico, che consiste
di contorno, accento di intensità e intervallo. La stessa neuropsicologia fornisce
argomenti a sostegno dell’assunzione che tali caratteristiche risalgano a moduli
differenti: lo studio delle dissociazioni a livello neurologico sembra portare ad
ipotizzare “specifici moduli per i componenti temporale e melodico della musica,
essi stessi composti di distinti sottomoduli per, da un lato, metro e ritmo, e
dall’altro, contorno, accento e intervallo” (Molino 2000: 170). Anche il linguaggio
presenta analoghi componenti melodici e temporali funzionalmente distinguibili,
in quanto il componente melodico sarebbe da identificare nei fenomeni di accentazione, intonazione e durata, mentre il componente temporale consisterebbe dei fenomeni ritmici e temporali essenziali per il parlato e che appaiono ad esempio
sulla sillaba quale unità fondamentale11.
11 Cfr. ad es. quanto indicato in nota 12 su VOT.
Tra musica e linguaggio: alle origini della parola
43
Ma è soprattutto Brown 2000 a proporre l’idea che all’origine delle capacità
comunicative degli esseri umani sia da ipotizzare uno stadio in cui semantica referenziale e semantica emotiva erano unite in un’unica ed identica forma, da cui poi
si sono sviluppati da un lato la musica, avocando a sé soprattutto la sfera emotiva,
e dall’altro il linguaggio, con la predominanza di una semantica referenziale. Infatti (Brown 2000: 273) musica e linguaggio condividono similarità biologiche
profonde, in particolare convergono nel trovare nella sequenza l’unità sia strutturale che funzionale. Un repertorio limitato di unità discrete scelte fra infiniti elementi acustici possibili costituiscono le unità elementari combinando le quali vengono formate le sequenze di livello superiore; queste formazioni si fondano sulla
modulazione delle proprietà acustiche di base delle unità cui è assegnata un’organizzazione tramite combinazione, per trasmettere enfasi, stati emotivi, significato
emotivo, mediante l’assegnazione di picchi accentuali di intensità. Sono proprio
tali accenti di intensità che stabiliscono le prominenze su cui converge il sistema
del processing mentale, trovando nel loro disporsi sequenziale la guida percettiva
per l’attribuzione di significato.
Dunque tanto per le sequenze del parlato che per le sequenze musicali si tratta
di “strutture melodicoritmiche” dove ritmo e melodia hanno le seguenti tre origini:
le proprietà acustiche delle unità, le regole mediante le quali si formano le sequenze, i meccanismi espressivi che modulano le proprietà acustiche delle strutture per
attribuire enfasi espressiva. L’ipotesi è, dunque, che le similarità tra musica e linguaggio si possono spiegare solo riconducendole ad un’origine comune, nel senso
che esse sono sorte da uno stadio ancestrale, che Brown definisce della “musilingua”, che non era né solo linguistico né solo musicale, ma che era costituito da
caratteristiche comuni dalle quali si sarebbero poi sviluppate per specializzazioni
distintive musica e linguaggio12, certo differenziandosi progressivamente ma allo
stesso tempo mantenendo le caratteristiche comuni identificate dallo stadio primitivo da cui entrambi si sono originati. “Linguaggio e musica sono essenzialmente
le specializzazioni reciproche di un precursore a-doppia-natura che usava sia
l’emozione del suono che la referenza del suono nel creare suoni comunicativi”
(Brown 2000: 278).
Le proprietà fondamentali della musilingua definiscono pertanto un sistema
caratterizzato da percezione e produzione di vocalizzazioni dotate di gradi o accenti di intensità - il tono lessicale - aventi il ruolo di veicolare significato, nel
senso che l’evento fonologico viene ad essere modellato come meccanismi sequenziali tra differenti livelli accentuali che formano scale (ascendenti e discen12 Si tratta di uno spettro lungo il quale si collocano funzioni differenziate, a partire dalla posizione centrale occupata dal canto verbale, e che procedono verso i poli opposti di linguaggio da un
lato e musica dall’altro attraverso posizioni intermedie quali il discorso poetico, il recitativo verso il
linguaggio o i leitmotifs e la narrazione musicale dal lato della musica. Più esattamente si è di fronte
ad un sistema complesso sottoposto a continui cambiamenti evolutivi che si propagano all’intero
sistema, e dunque investono simultaneamente musica e linguaggio, come conseguenza delle scelte/
trasformazioni avvenute.
44
Luciana Brandi
denti). In altre parole, posto che denominiamo le unità di vocalizzazione iniziali
come ‘parola’, all’origine vi sarebbe un sistema tonale unico, e la capacità di usare
i differenti livelli di toni in modo significante; su questa base si forma la capacità,
successiva, di combinare le unità elementari di vocalizzazione in sequenze
anch’esse dotate di un significato di livello superiore.
Le sequenze sono dotate di una struttura non solo melodica ma anche ritmica,
e gli schemi ritmici sono derivabili in gran parte dalla disposizione temporale degli
elementi unitari; si tratta, cioè, di un livello di combinazione superiore alle singole
unità che è in grado di veicolare sia il significato relazionale legato alla semplice
giustapposizione degli elementi unitari combinati, sia il significato globale determinato dall’intero insieme considerato globalmente, qualcosa di più che la somma
delle parti. Ancora non si è in presenza di una sintassi specifica per ciascuna modalità interessata, quanto piuttosto di una capacità generale a combinare gli elementi unitari. Il livello di significazione è ancora connesso prevalentemente
all’espressione di emozioni. Il significato viene assegnato in particolare tramite la
melodia relativa al livello globale, che si fonda su variazioni di modulazione relativamente a tempo, picco accentuale, volume e lunghezza. Nell’idea di Brown, le
proprietà fondamentali di questo livello di percezione/produzione di unità sonore
sono le differenziazioni tra unità realizzate sulla base del picco accentuale (effetti
dell’onda uditiva) ritmo (relazioni tra pulsazioni) ampiezza (effetti di prominenza).
La musilingua si fonda su discretezza, combinatorialità e intonazione, e sono
queste le caratteristiche su cui si può fondare la successiva organizzazione gerarchica di quelli che saranno due sistemi grammaticali assai differenti.
In generale l’evoluzione filogenetica parte da un livello di vocalizzazioni il
cui suono veicola tanto significato referenziale quanto significato emotivo (vedi le
vocalizzazione di avvertimento dei primati). Da questo livello si sviluppa la musilingua, che avviene in due stadi: “il primo è costituito dall’uso di toni (accenti discreti) e contorni accentuali per la comunicazione referenziale; il secondo, si identifica nello sviluppo di sequenze significanti, generate da regole combinatorie per
mettere insieme le unità elementari discrete nelle sequenze che sono soggette a
quattro livelli di modulazione: regole locali per modulazione espressiva, regole
globali per il livello totale dell’espressione (intensità), regole locali categoriali per
la prominenza, formule globali categoriali per generare associazioni di significato
di contorno e livello di ‘frase’” (Brown 2000: 294).
Sono evidenti le sorprendenti similarità tra la musicalità quale definita da
Trevarthen e la musilingua quale prospettata da Brown: in fondo, c’è bisogno di
incorporare in una mente emotiva un mondo di suoni che altrimenti non potrebbe
raggiungere le specializzazioni categoriche necessarie al farsi del linguaggio.
Questo non significa negare la specificità fonetico/fonologica del linguaggio,
quanto piuttosto, proprio alla luce delle caratteristiche maturazionali del cervello
nell’ontogenesi che lo rendono all’inizio inadeguato a controllare dispositivi neu-
Tra musica e linguaggio: alle origini della parola
45
rali oltre una certa complessità, trovare nel profondo passato cerebrale13 – il nostro
sistema limbico – la chiave di accesso a forme di elaborazione più specializzate.
Non a caso l’idea principale da cui parte anche Richman 2000 è che il ritmo e
la melodia sono le proprietà fondamentali nelle produzioni vocali fin da quelle
delle scimmie (fa specifico riferimento alle vocalizzazioni dei gelada), dove la variabilità interna si gioca sui dettagli relativi a tempo, ritmo, intervalli musicali, e
tipi di sillabe. La differenza fondamentale tra le vocalizzazioni dei gelada e quelle
umane è che nei gelada non troviamo ‘formule’, cioè ripetizioni della stessa esatta
successione di caratteristiche vocali di una certa estensione, tutt’al più sono in
grado di ripetere successioni di tre sillabe al massimo. Richman ritiene che la ripetizione formulaica sia una proprietà fondamentale per spiegare origine a natura
del linguaggio umano. Tali formule derivano dalla capacità di raggruppare sequenze di suoni in modo che esse diventino proprio ‘appiccicate’ insieme e dotate
di un significato su una base ben precisa: “l’aspettativa di regolarità basata sulla
ripetizione e su di una battuta regolare; cioè, su quelle che sono essenzialmente
dimensioni musicali” (Richman 2000: 303). All’inizio, si trattava del bisogno di
avere ripetizioni costanti in quanto ciò consentiva la riconoscibilità delle sequenze
udite, di conseguenza si creavano interazioni fondate sulla sincronia ritmica che
diveniva, pertanto, interattiva consentendo così di predire e comprendere le mosse
comunicative degli altri. La crescita del bagaglio di formule comunicabili si fondò,
sempre secondo Richman, sulla capacità di combinare fra loro parti di formule o
formule intere, che rimanevano sempre olistiche dal punto di vista percettivo e incastonate in una memoria limbico-emotiva, necessaria per il radicarsi di eventi e
scene emotivamente salienti lasciando perdere tutto ciò che non è importante. È
interessante notare, inoltre, che immaginare la musica o ascoltarla realmente sembrano attivare gli stessi substrati neurologici, ed in particolare il putamen, che è
attivato a sinistra, potrebbe essere coinvolto nel timing della musica immaginata.
Inoltre, la corteccia prefrontale, che come sappiamo è importante per mantenere in
linea l’informazione durante l’esecuzione di compiti orientati su uno scopo, viene
attivata nell’emisfero destro per discriminazioni di accento di intensità sia nel
parlato che nella musica (Falk 2000). Ricordando le vecchie suggestioni di Jaynes
1976, potremmo pensare che l’attività cerebrale connessa all’immaginare musica
possa essere concepita come sottostante alla ripetizione cerebrale della voce materna da parte dell’infante (qualcosa come l’echeggiare della voce degli dei alla
base del cervello bicamerale di Jaynes). Potrebbe essere proprio questo supporto di
ripetitività ‘in absentia’ a consentire il fissarsi di schemi ‘musilinguistici’ nella
mente del bambino.
La ripetitività di sequenze ritmico-melodiche, dunque, sembra essere la chiave
di lettura per connettere filogenesi e ontogenesi, nella misura in cui il riarrangiamento funzionale del cervello che avviene in linea evolutiva porta a ri-organizzare
le potenziali memorie dettagliate di specifiche sequenze sonore di parole, fatte di
13 Cfr. anche quanto descritto in Brandi 1998.
46
Luciana Brandi
sottili dettagli acustico-fonetici, in forme astratte di rappresentazione, attraverso
processi di categorizzazione intesi come processi mediante i quali i sistemi percettivi selezionano e raggruppano informazioni diverse all’interno di uguali categorie
di rappresentazione o risposta. Se la ripetitività è l’origine comune, dal cui superamento sorge la creatività inesauribile del linguaggio, allora possiamo meglio capire una patologia come quella autistica.
Avevamo già notato (Brandi 2001) come il comportamento linguistico di A.
avesse caratteristiche ben precise: il lungo periodo di stereotipie, durante il quale il
linguaggio disponibile era costituito soltanto da formule ripetute fedelmente ma
sempre con valore comunicativo in quanto esse venivano adattate strategicamente,
anche se non perfettamente, alla situazione comunicativa, aveva dato segni di venire progressivamente superato quando in A. era emersa la capacità di intervenire
all’interno delle singole formule per prendere alcune parti e riarrangiarle fra loro
diversamente, quindi producendo un ampliamento della capacità linguistica e comunicativa. Quanto Richman (2000) propone quale origine del linguaggio dal
punto di vista della filogenesi, considerando il rapporto fra essere umano e scimmia entro una continuità di tipo darwiniano e dunque cercando di colmare tramite
ipotesi il vuoto documentario che abbiamo tra il linguaggio delle scimmie ed il
linguaggio ancestrale degli esseri umani, di cui non abbiamo ovviamente traccia,
porterebbe a considerare i modi in cui si presenta il linguaggio nelle forme di autismo analoghe a quella di A. come il ri-emergere di fasi arcaiche di funzionamento
del linguaggio, favorite dalla presenza di ‘devianze’ neurobiologiche nella maturazione dell’organo cerebrale in periodo fetale che impediscono l’aprirsi successivo di tutte le potenzialità evolutive di riorganizzazione. In sostanza una forma di
disturbo del linguaggio associata ad autismo come quella di A. mostra con estrema
evidenza come si possa arrivare ad un ‘calco’ della competenza linguistica a partire dalla semplice de-composizione e ri-composizione di formule acquisite per via
melodico-ritmica. Certo, è un calco che avrà sempre dei limiti di creatività, ma è
pur sempre uno strumento che consente ad A. di comunicare sempre più propriamente.
Il caso di J. è più complesso; l’intero comportamento linguistico evidenzia
come il linguaggio sia percepito nella sua dimensione melodico-ritmica: non solo
ha avuto un lunghissimo periodo di inflessioni vocaliche, non solo è in grado di riprodurre localmente, anche anticipando, la melodia delle canzoni ‘country’ che lui
ama, ma per lui è più facile ‘imparare’ la numerazione da uno a dieci che dire una
qualsiasi parola isolata, in quanto tale sequenza è soprattutto un ‘canto vocale’ ove
gli accenti di intensità in sequenza si fanno griglia percettiva per individuare prima
e ripetere poi una vocalità globale; le singole parole, invece, danno luogo a riproduzioni apparentemente devianti, nel senso che non paiono seguire l’andamento
fisso prevedibile CV quanto piuttosto possono comparire anche gruppi consonantici CC se essi sono la sede della battuta di intensità accentuale. In generale, cioè,
proprio in ragione forse delle difficoltà di processing ipotizzate nel paragrafo pre-
Tra musica e linguaggio: alle origini della parola
47
cedente, J. mostra gli ‘svantaggi’ di avere ancora a parziale disposizione, a differenza di A., le stazioni dell’emisfero sinistro per tempo e durata; il riconoscimento
è disturbato, il gesto articolatorio stenta a precisarsi, e J. sorprendentemente da
tempo scruta incessantemente il suo volto riflesso nello specchio per scoprire dai
movimenti della sua bocca i segreti del linguaggio. È come se J. fosse potenzialmente in grado di dar luogo ad una riorganizzazione cerebrale oltre la semplice riproduzione formulaica di strutture melodico-ritmiche, ma la parziale e disturbata
maturazione neurologica dei sistemi implicati gli impedisse di farlo, deprivandolo
nello stesso tempo della possibilità di avere un linguaggio interamente a destra.
4. Verso il linguaggio
Se guardiamo al meccanismo della percezione dei segnali sonori a livello del
sistema uditivo, le oscillazioni della pressione sonora mettono in moto il timpano e
da lì si trasmettono alla membrana basilare che è disposta all’interno della coclea
per tutta la sua lunghezza. Tale membrana si deforma presentando un massimo in
posizione differente a seconda della frequenza del suono. Lungo la membrana basilare corrono precise terminazioni nervose, le cellule ciliate, che danno luogo ad
un segnale quando vengono stimolate dal moto della membrana. Sono tali cellule a
permettere al cervello di discriminare le frequenze del suono traducendo il dato
‘frequenza’ in un dato ‘posizione’. Nel caso di suoni complessi, come ad esempio
il suono linguistico, la membrana basilare presenta più punti di massimo, a seconda dei contenuti di parziali dei suoni stessi. Dunque l’analisi iniziale tanto di toni
puri che di toni complessi viene fatta a livello della membrana basilare, e tale risultato viene trasmesso ai relé uditivi del cervello. I collegamenti verso i giri di
Heschl nel lobo temporale sono di natura crociata, ma esistono anche connessioni
ipsilaterali da un orecchio al giro dello stesso lato, connessioni che sono certo più
deboli di quelle controlaterali. La prima stazione è costituita dai neuroni del nucleo
cocleale: rispondono alcuni a basse e medie, altri ad alte frequenze, alcuni si specializzano nel riprodurre stimoli ripetitivi a bassa frequenza, altri a rispondere a
suoni come le vocali. La stazione successiva è costituita dai nuclei olivari, che
rappresentano il luogo ove i percorsi che vengono da ciascun orecchio si incrociano, quindi mescolando l’informazione; di fatto i nucleri olivari che si dispongono da entrambi i lati della linea mediana sono tonotopicamente organizzati: qui il
flusso dell’informazione neurale viene progressivamente differenziato e aspetti e
qualità dello stimolo vengono separate, enfatizzate o soppresse. In particolare il
nucleo olivare laterale superiore dà l’informazione sulla localizzazione del suono
relativamente all’alta frequenza, mentre il nucleo mediale superiore lo fa relativamente alle differenze di fase interaurali fra stimoli a bassa frequenza, cioè combina
un’analisi temporale con un’analisi di posizione.
Partendo dalla considerazione delle unità del parlato, quali fonemi o tratti,
come categorie, l’identificazione fonemica o fonetica è essenzialmente un processo di categorizzazione che deve superare uno scoglio fondamentale, la mancanza
48
Luciana Brandi
di invarianza che caratterizza l’onda sonora dal punto di vista fisico-acustico. Pertanto, si tratta di vedere quale ipotesi può rendere conto del fatto che l’apprendente
diviene capace di trattare come equivalenti e dunque appartenenti allo stesso insieme categoriale collezioni di caratteristiche che presentano variazioni rispettive.
Naturalmente i tratti distintivi sono una rappresentazione astratta dei gesti articolatori: il tratto vocale non si sposta istantaneamente da una posizione all’altra, ed il
parlato continua ad essere prodotto mentre il tratto vocale si trova tra le posizioni
bersaglio. Questo ha il noto effetto di propagare l’output associato con un particolare tratto in un particolare fonema oltre il tempo. In ragione della coarticolazione,
ad es., le differenze di VOT sono molto meno marcate per le occlusive intervocaliche in finale di sillaba, che in occlusive ad inizio di sillaba, ed influiscono anche
altre caratteristiche acustiche quali la durata della vocale precedente. Quindi il
problema è se l’identificazione delle caratteristiche fonetiche e dei fonemi è basata
su questi elementi contestualmente varianti o se invece ci sono caratteristiche acustiche invarianti che sono usate nell’identificazione dei suoni individuali14.
È indubbio che per un approccio di tipo innatista, il problema si risolve nei
termini di una dotazione genetica innata, che fa sì che ciascun modulo o processore relativi ai diversi componenti del linguaggio possegga i ‘contenuti’ mentali che
lo rendono capace di applicarsi immediatamente in modo analitico all’input che riceve. Basti vedere per semplicità Jackendoff 1998: 90, ove i processi di percezione
uditiva analizzano il segnale acustico in tre fattori separati, ma simultanei: chi sta
parlando (riconoscimento vocale), cosa il parlante sta dicendo (percezione del linguaggio), come ci viene detto (il tono di voce o lo stato emotivo del parlante); ciascuno di questi fattori è identificato da un modulo distinto del cervello: il processore linguistico riguarda i segmenti linguistici, il riconoscimento vocale riguarda
la miscela di frequenze che identifica la voce di chi parla, mentre il riconoscimento emozionale riguarda le variazioni di frequenza che caratterizzano il tono di
voce.
Ma ogni volta che ci imbattiamo in un caso di autismo, ogni volta che vediamo gli occhi dolci e spauriti di J., o quelli birboni di A., scrutare il mondo per
riuscire a capire cosa tenere e cosa buttare dei suoni che percepiscono e del rumore
14 Per mezzo delle tecniche di orientamento riflesso, si è dimostrato che gli infanti al di sotto
dei 6 mesi di età sono in grado di discriminare un discreto numero di indici acustici che identificano i
fonemi. Questi comprendono il tempo di attacco di sonorità (VOT) e la frequenza delle formanti relative al luogo di articolazione delle consonanti occlusive e liquide e delle vocali; non sono discriminati con altrettanta facilità invece gli indici relativi all’alta frequenza delle formanti relative al luogo
di articolazione delle fricative. Inoltre l’infante sembra anche più propenso a guardare più spesso
l’immagine del volto che corrisponde all’articolazione del suono che ode. La capacità di distinguere
il VOT al limite dei 20 ms è dato, secondo alcuni studiosi, da particolari caratteristiche di risposta del
sistema uditivo, in particolare le persone rispondono a stimoli acustici superiori a 50 picchi al secondo perché li percepiscono come tono acustico, mentre al di sotto li percepiscono come rumore, dunque quella è la frequenza periodica che ha una qualità tonale; questo limite di 50 picchi al secondo
corrisponde al limite di 20 ms di VOT.
Tra musica e linguaggio: alle origini della parola
49
di fondo che li accompagna, la loro fatica nel cercare di produrre linguaggio,
siamo spinti a considerare la visione innatista come la ‘metafora’ per quella riorganizzazione funzionale del cervello cui avevamo fatto prima riferimento, una riorganizzazione che è resa possibile solo se prima è accaduto qualcosa, e questo
qualcosa sembra avere a che fare all’inizio più con la musica che con la lingua.
Secondo Cutler 1996, vi sono argomenti per ritenere che lo sviluppo di una
procedura di segmentazione basata sul ritmo sia parte dello sviluppo della lingua
nativa. Si potrebbe ipotizzare che sorga da una esposizione estensiva alla lingua
input e alla conseguente acquisizione di modelli accurati sull’input. Tuttavia si è
verificato che nel caso dei bilingui (nel caso inglese – francese) i parlanti controllavano una sola procedura, o la segmentazione sillabica caratteristica del francese,
o la segmentazione accentuale caratteristica dell’inglese. La segmentazione esplicita lega di fatto l’infante e le situazioni di processing adulto, come quelle ora indicate: all’inizio dell’acquisizione c’è bisogno solo di un punto da cui partire, e
qualunque sia dato all’infante bilingue, questo è quello che resta nel corso di tutta
la vita. Gli infanti sono molto sensibili al ritmo del linguaggio, basti considerare
che i bambini inglesi di 9 mesi mostrano una preferenza per le sequenze trocaiche
(forte debole) su quelle giambiche (debole forte); inoltre essi mostrano di integrare
la struttura segmentale e quella prosodica dell’input, dando sostegno all’idea che a
questa età hanno acquisito un concetto di prosodia di livello lessicale (il “lexical
tone” di Brown 2000?).
Anche secondo Gerken 1996, l’idea che i bambini scoprono gli andamenti
prosodici specifici del linguaggio durante la seconda metà del primo anno di vita è
consistente con i dati che mostrano che in quello stesso periodo essi perdono la
loro sensibilità a contrasti segmentali non-nativi. Forse gli infanti possono usare la
loro crescente sensibilità ai modelli prosodici della lingua nativa per cominciare a
risolvere il problema della segmentazione. Inoltre gli/le apprendenti sono in grado
di inquadrare parole individuali nel continuum parlato; un segnale prosodico è
l’andamento sillaba forte – sillaba debole esibito da molte lingue; anche questa
sensibilità è manifesta a 9 mesi ma non a 6 mesi, dunque si sviluppa nella seconda
metà del primo anno di vita.
Ma è da Lindblom 2000 che spiegare come i bambini sviluppano la struttura
dei suoni della loro lingua nativa riceve una risposta particolare. In generale la capacità dimostrata dai bambini di dar luogo a rappresentazioni linguistiche invarianti libere dal contesto a fronte di una considerevole variabilità nella realizzazione dei suoni era assunta come argomento a favore di una ipotesi mentalista, nel
senso che la sostanza del linguaggio era considerata il livello superficiale cui sottostava un livello formale astratto di rappresentazione mentale – cioè scevra dalle
variazioni contestuali di realizzazione del suono linguistico – che identificava le
unità fonologiche invarianti. Per Lindblom proprio l’osservazione del comportamento del bambino nel corso dell’acquisizione porta a formulare la necessità di un
differente paradigma, che parta dalla messa in dubbio proprio della priorità della
50
Luciana Brandi
forma sulla sostanza. Viene ad essere così elaborata una teoria di fonologia emergente, con la quale si assume che la struttura fonologica non sia prespecificata geneticamente, ma piuttosto dedotta dall’esperienza sulla base di una conoscenza
iniziale ridotta all’essenziale. Per quanto riguarda la percezione, la struttura fonologica si può fondare non più su una assunzione nativista quanto su una forma di
computazione che emerge sulla base di una esperienza cumulativa che consente il
formarsi di categorizzazioni radicate nel ripresentarsi di regolarità statistiche nel
segnale del parlato. Di fatto, la variabilità dei segnali del parlato è estesa, ma
anche assai sistematica, nel senso che è una variabilità che può essere disambiguata in ragione dell’informazione che via via si accumula e che fa sì che compaiano gradualmente le “covariazioni sistematiche tra le dimensioni degli stimoli”.
Dal punto di vista della produzione, la capacità di articolare suoni linguistici si può
ricondurre a movimenti articolatori basilari, come aprire/chiudere la mandibola,
guidati dalla condizione del minimo costo energetico; ad es., una apertura e
chiusura della mandibola combinata con la fonazione produce una esecuzione
quasi-sillabica simile a [bababa], vale a dire qualcosa che assomiglia alla lallazione canonica iniziale. Sono, dunque, gli schemi articolatori a costituire la strategia di bootstrapping, che favorisce l’emergere di movimenti articolatori che ricevono sollecitazioni anche dalla via della imitazione vocale che costituisce quel
rinforzo ambientale che porta il bambino a fissare legami percettivo-motori fondanti la categorizzazione.
Studdert-Kennedy 2000, a sua volta ritiene che i segmenti fonetici discreti
sono strutture gestuali che emergono ontogeneticamente da un processo di imitazione vocale in cui è fondamentale anche il movimento corporeo, non solo quello
vocale, ed ha un ruolo anche l’imitazione del gesto facciale di un altro con cui
l’infante sia “strutturalmente e funzionalmente isomorfico” (Studdert-Kennedy
2000: 279): è, in fondo, il rapporto empatico identificato da Trevarthen, la consonanza corpo/mente tra madre di cura e bambino/a. L’unità linguistica iniziale è la
parola olistica: anche se è prodotta come una sequenza di gesti discreti, tuttavia
tali gesti ancora non sono rappresentati come elementi fonetici indipendenti che
possono essere usati liberamente in altri e differenti contesti: “come una conseguenza automatica di ordinare e ammucchiare parole simili foneticamente, emergono i gesti indipendenti, e modelli ricorrenti di gesti co-occorrenti sono gradualmente integrati nei segmenti” (Studdert-Kennedy 2000: 280). I gesti sono poi
indirizzati dalla salienza nel segnale uditivo dell’informazione relativa al luogo di
articolazione, mentre la temporalizzazione o l’amplitudine del gesto sembrano essere occasione di maggiori errori da parte dell’apprendente. Dunque il gesto come
unità indipendente di funzionamento del linguaggio nell’apprendente riporta
l’emergere ontogenetico del linguaggio da un lato all’intersoggettività come elemento cruciale per l’acquisizione, e dall’altro, attraverso il richiamo ai neuroni
mirror di Rizzolatti, all’organizzazione somatotopica a base neuroanatomica del
meccanismo legato alla vocalità del linguaggio.
Tra musica e linguaggio: alle origini della parola
51
Il cerchio si chiude: nel soggetto autistico, uno degli ostacoli enormi, difficili
da superare è trovare il ponte verso il linguaggio; è il possesso del linguaggio che,
cominciando a dare nome al percetto, lo fa diventare meno pauroso perché lo pone
sotto il controllo della mente. E per quel ponte – attraverso il filo della musicalità
quale storia del nostro essere corpo/mente – abbiamo bisogno di una fonologia
come quella che ho qui delineato.
Luciana Brandi
Università di Firenze
[email protected]
Riferimenti bibliografici
Aitken K., Trevarthen C. 1997 “Self/other organization in human psychological
development”, Development and Psychopathology 9: 653-677.
Bateson, M. C. 1979 “The epigenesis of conversational interaction: a personal
account of research development”, in Bullowa, M. (ed.), Before speech –
the beginning of interpersonal communication, Cambridge, Cambridge
University Press: 63-77.
Bernstein, N. 1967 Coordination and regulation of movement, New York, Harper
Collins.
Brandi, L. 1998 “Note sparse su musica e linguaggio”, Prisma & Convivio I.1:
135-146.
Brandi, L. 2001 “Per uno studio dell’autismo”, Quaderni del Dipartimento di Linguistica 11: 227-247.
Brown, S. 2000 “The “musilanguage” model of music evolution”, in Wallin N.,
Merker B., Brown S. (eds.), The origins of music, Cambridge, Mass., The
MIT Press: 271-300.
Buser, P. 1999 Il cervello allo specchio, Milano, Mc-Graw Hill Italia.
Cutler, A. 1996 “Prosody and the word boundary problem”, in Morgan J. L.,
Demuth K. (eds.), Signal to syntax, Mahwah, NJ, Lawrence Erlbaum
Assoc. Pub.: 87-99.
Damasio, A. 1995 L’errore di Cartesio, Milano, Adelphi.
Dissanayake, E. 2000 “Antecedents of the temporal arts in early mother-infant
interaction”, in Wallin N., Merker B., Brown S. (eds.), The origins of
music, Cambridge, Mass., The MIT Press: 389-410.
Eimas, P. 1996 “The perception ad representation of speech by infants”, in
Morgan J. L., Demuth K. (eds.) Signal to syntax, Mahwah, NJ, Lawrence
Erlbaum Assoc. Pub.: 25-39.
52
Luciana Brandi
Falk, D. 2000 “Hominid Brain Evolution and the Origins of Music”, in Wallin N.,
Merker B., Brown S. (eds), The origins of music, Cambridge, Mass., The
MIT Press: 197-216.
Gazzaniga, M. 2002 “Funzioni diverse per gli emisferi cerebrali”, Le ScienzeQuaderni 127: 4-9.
Gerken, L. A. 1996 “Phonological and distributional information in syntax acquisition”, in Morgan J. L., Demuth K. (eds.), Signal to syntax, Mahwah, N.
J., Lawrence Erlbaum Assoc. Pub.: 411-425.
Jackendoff, R. 1998, Linguaggio e natura umana, Bologna, Il Mulino.
Jasnow M., Feldstein S. 1986 “Adult-like temporal characteristics of mother-infant
vocal interactions”, Child Development 57: 754-61.
Heck D., Sultan F. 2002 “Il cervelletto”, Le scienze. Quaderni 127: 10-17.
Kimura, D. 1967 “Functional asymmetry of the brain in dichotic listening”, Cortex
3: 163-178.
Kimura, D. 1973 “The asymmetry of the human brain”, Scientific American 228:
70-78.
LeDoux, J. 2002 Il sé sinaptico, Milano, Raffaello Cortina Editore.
Lindblom, B. 2000 “Developmental origins of adult phonology: the interplay
between phonetic emergents and the evolutionary adaptations of sound”,
Phonetica 57: 297-314.
Malloch, S. 1999 “Mothers and infants and communicative musicality”, Musicae
scientiae, special Issue 1999-2000 “Rythms, musical narrative, and the
origins of human communication”, Liege, European Society for the Cognitive Sciences of Music: 29-57.
Malloch S., 2000 “Timbre and technology: an analytical partnership”, Contemporary Music Review 19, part. 2: 155-172.
Merker, B. 1999 “Synchronous chorusing and the origins of music”, Musicae
scientiae, special Issue “Rythms, musical narrative, and the origins of
human communication”, Liege, European Society for the Cognitive Sciences of music: 59-82.
Molino, J. 2000 “Toward an evolutionary theory of music and language”, in
Wallin N., Merker B., Brown S. (eds.), The origins of music, Cambridge,
Mass., The MIT Press: 165-176.
Morel, F. 1947 Introduction à la psychiatrie neurologique, Masson, ParisLausanne.
Peretz I., Kolinsky R. 1993 “Boundaries of separability between melody and
rythm in music discrimination: a neuropsychological perspective”, Quarterly Journal of Experimental Psychiatry 46A: 301-325.
Richman, B. 2000 “How music fixed “nonsense” into significant formulas: on
rythm, repetition, and meaning”, in Wallin N., Merker B., Brown S. (eds.),
The origins of music, Cambridge, Mass., The MIT Press: 301-314.
Tra musica e linguaggio: alle origini della parola
53
Studdert-Kennedy M., Shankweiler D. 1970 “Hemispheric specializations for
speech perception”, Journal of the Acoustical Society of America 48: 579594.
Studdert-Kennedy, M. 2000 “Imitation and the emergence of segments”, Phonetica 57: 275-283.
Trehub S. E., Tainor L. J., Unyk A. M. 1993 “Music and speech processing in the
first year of life”, Advances in Child Development and Behavior 24: 1-35.
Trevarthen, C. 1979 “Communication and cooperation in early infancy: a description of primary intersubjectivity”, in Bullowa, M. (ed.), Before speech –
the beginning of interpersonal communication, Cambridge, University
Press.
Trevarthen, C. 1998 Empatia e biologia, Milano, Raffaello Cortina Editore.
Trevarthen, C. 1999 “Musicality ant the intrinsic motive pulse: evidence from
human psychobiology and infant communication”, Musicae scientiae,
special Issue “Rythms, musical narrative, and the origins of human communication”, Liege, European Society for the Cognitive Sciences of
Music: 157-213.
Trevarthen, C. 2001 “Intrinsic motives for companionship in understanding: their
origin, development and significance for infant mental heath”, Infant
Mental Health Journal 22 (1-2): 95-131.
Wallin, N. 1991 Biomusicology, Stuyvesant, NY, Pendragon Press.
Zaidel, E. 1977 “Lexical organization in the right hemisphere”, Cerebral Correlates of Conscious Experience, Inserm Symposium 6: 177-197.
Zatorre R., Evans A., Meyer E. 1994 “Neural mechanisms underlying melodic
perception and memory for pitch”, Journal of Neuroscience 14: 19081919.
Abstract
Music and language are considered in their interrelations both in ontogeny and in philogeny.
W.r.t. the historical evolution of human cognitive capacities, ‘misilanguage’ identifies the proto-form
of communication where language and music were not differentiated and reference and emotion were
integrated: thereafter, music become the expression of emotional semantic, language of referential
semantic. W.r.t. ontogeny, the main idea is that language develops from a period – the first year of
life – where musicality is the paradigm trough which the infant reaches his/her language: pitch, sequences of pitchs i.e. melody, rythm, are the cues. Musicality, as connected with emotions and body
movements, allows the rise of protoconversations between mother and infant.
Some cases of autism are considered to show that musicality could offer the way to explain various characters of language impairments in autism, in connection with the consideration of neurobiological deficits related to different areas of brain and cerebellum.
As to explain the features of language development in autistic children, the theory of emergent
phonetic and the concept of imitation for the emergence of phonetic segments are considered.