2 aprile 2003 STRUTTURA TOPOLOGICA E METRICA DELLO

PERCEZIONE E ACUSTICA MUSICALE: SUONO E ORECCHIO
Roma - 2 aprile 2003
STRUTTURA TOPOLOGICA E METRICA DELLO SPAZIO
UDITIVO
Paolo Camiz
Dipartimento di Fisica - Università di Roma ”La Sapienza”
I.N.F.N Sezione di Roma - ECONA
Il titolo, alquanto ambizioso, nasce dall’esigenza di dare una struttura matematica chiara ad uno dei tanti spazi percettivi nei quali si sviluppano le nostre
esperienze sensoriali: l’idea può sembrare banale, almeno in certi casi, ma spero di
dimostrare che cosı̀ non è, e che nel caso uditivo il problema presenta alcune ambiguità che voglio discutere. Il caso apparentemente banale è quello della visione,
in cui una struttura topologica semplice (un continuo bidimensionale per ciascun
occhio) è indotta dalla natura stessa dell’apparato ottico, a parte il ”buco” rappresentato dal punto cieco; la situazione si complica leggermente quando si passa
alla stereovisione binoculare, che aggiunge una terza dimensione allo spazio visivo,
della quale però è accessibile, in un singolo atto visivo, solo una fetta più o meno
sottile in cui è garantita la fusione delle due immagini oculari; un’ulteriore coppia
di dimensioni (astratte) è aggiunta dalla visione cromatica che è supportata da un
continuo bidimensionale convesso. Senza addentrarmi ora in considerazioni metriche
che ci porterebbero via troppo tempo, voglio solo sottolineare il fatto che è possibile definire in modo non ambiguo una percezione visiva elementare costituita da
un punto luminoso di intensità e colore assegnato collocato in un certo punto dello
spazio, che una variazione infinitesima di uno qualsiasi dei parametri produce una
variazione infinitesima dello stimolo (a meno che questo non esca dal campo visivo), e infine che due punti non vengono distinti finché la loro distanza (comunque
misurata o valutata) non supera una certa soglia.
Vediamo ora che cosa si può dire delle percezioni uditive, limitandoci a quelle
monoaurali, per non doverci occupare anche della localizzazione delle sorgenti sonore.
E limitiamoci anche ai suoni di tipo stazionario, tali cioè che la loro distribuzione
spettrale non cambi durante un intervallo di tempo ”elementare” dell’ordine del
1
1/20sec. La domanda da fare è la seguente:”Sotto quali condizioni un suono del
genere può essere percepito come un solo ”punto”? Quali sono le dimensioni, la
topologia e la metrica dello spazio in cui questo punto viene collocato?” Una considerazione di tipo puramente fisico-matematico ci suggerisce di rappresentare i suoni
in base alla loro distribuzione spettrale, cioè le loro componenti di Fourier, e quindi
saremmo portati a dire che un suono puro è rappresentato da un punto sull’asse delle
frequenze, mentre un suono composto è rappresentato da molti (eventualmente infiniti) punti; oppure, in modo altrettanto coerente, potremmo dire che un suono è
un vettore in uno spazio a molte dimensioni (eventualmente infinite, o più realisticamente tante quanti sono i sensori dell’Organo del Corti), con una sola componente
non nulla per i suoni puri, con molte componenti per quelli composti. Tutto questo
va bene dal punto di vista fisico-matematico, ma è contraddetto dalla nostra esperienza uditiva, in base alla quale noi consideriamo come ”punti”, cioè esperienze
uditive elementari, non solo i suoni puri, ma anche moltissimi altri suoni che puri
non sono, come quelli emessi dalla nostra voce e dalla maggior parte degli strumenti
musicali; inoltre basta una piccolissima variazione in uno dei parametri che caratterizzano un suono composto, ma percepito come elementare, per farlo apparire come
due suoni indipendenti. Come si vede la situazione è abbastanza complessa: non
vale sempre il principio di sovrapposizione (come accade invece per i colori), e anche per la topologia e la metrica ci sono dei problemi: non è chiaro quante siano
le dimensioni dello spazio uditivo, è ambiguo il concetto di distanza tra due suoni
elementari, ed è facile convincersi che per passare con continuità da un punto ad un
altro di questo spazio sono possibili innumerevoli percorsi.
Consideriamo infatti come punto di partenza una nota cantata , per esempio Do1,
sulla vocale ”A”, e come punto di arrivo una nota un’ottava sopra, Do2, sempre cantata su ”A”. Un primo percorso, banale, consiste nell’effettuare un ”glissando” lungo
un’ottava mantenendo ferma la ”A”; un secondo percorso aggiunge alla variazione
continua di frequenza una variazione continua della vocale, secondo una traiettoria
chiusa del tipo ”A, È, É, I, Ű, U, Ó, Ò, A”; un terzo percorso, difficile da realizzare
con la voce, ma perfettamente simulabile con un sintetizzatore, consiste nel variare i pesi degli armonici in modo tale che la cosiddetta ”croma” rimanga Do, ma
passi da Do1 a Do2 solo modificando il timbro, e lasciando la vocale ferma in ”A”;
oppure, quarto percorso, aggiungere al precedente la traiettoria chiusa sulle vocali
del secondo percorso; e infine un percorso apparentemente paradossale, che consiste
nell’unire la tecnica della variazione timbrica a quella del glissando, effettuato in
senso inverso, cioè secondo una scala discendente per quanto riguarda la ”croma”.
Alcuni di questi percorsi sono mostrati nelle figure A e B.
Una parziale risposta a molte delle domande che le considerazioni precedenti suggeriscono viene fornita dalla natura stessa dei suoni che chiamiamo ”puntiformi”:
essi infatti hanno uno spettro armonico, cioè le frequenze delle componenti di Fourier
sono multiple di una frequenza fondamentale, non necessariamente presente nello
spettro (vedi il fenomeno percettivo del ”missing fundamental”): sembra allora di
poter dire che lo spettro armonico è una condizione necessaria, ma non sufficente,
2
affinché il suono percepito sia puntiforme: basta infatti far crescere una certa componente per farla apparire (a quale livello?) come un suono indipendente dal precedente; ma è anche vero che certi musicisti particolarmente dotati, ”distinguono” i
vari armonici, e per loro quindi i suoni puntiformi sono (quasi) soltanto quelli veramente monocromatici. Ma perché l’armonicità dello spettro produce (ma non sempre) la puntiformità della percezione? Un suono dallo spettro armonico ha lo stesso
periodo del fondamentale e questo fa intervenire l’analisi temporale del fenomeno; c’è
un altro elemento importante da prendere in considerazione: in un suono armonico
emesso da un’unica sorgente c’è una stretta relazione di fase tra le varie componenti,
mentre se le sorgenti sono numerose le fasi possono essere molto meno correlate. Da
quanto detto finora sembra di poter dire che la puntiformità di un suono sia una
proprietà non solo del suono, ma anche dell’orecchio che lo ascolta e probabilmente
anche della corteccia uditiva che elabora i segnali provenienti dall’orecchio e si evolve
in funzione dei segnali stessi.
Se le cose stanno in questo modo, ed è molto verosimile che lo siano, diventa
difficile rispondere in modo oggettivo alle domande che ci siamo posti all’inizio;
possiamo tuttavia affrontare il problema da un punto di vista culturale esaminando
l’esperienza musicale, più precisamente quella parte dell’esperienza musicale che si
concretizza nella musica occidentale moderna (tonale, armonica). Noi sappiamo che
questa musica si sviluppa su di un insieme di misura nulla lungo l’asse delle frequenze
(7 o 12 suoni all’interno di un’ottava); che i suoni che differiscono per una o più ottave
hanno lo stesso nome (croma); che la relazione tra le varie note è Doppler-invariante,
poiché riguarda i rapporti tra le frequenze, e che tra due suoni (puntiformi) si può
stabilire un criterio di consonanza o dissonanza che è una funzione rapidamente
oscillante del rapporto tra le frequenze, come indicato nella fig.1: da questo grafico
si può anche ricavare una valutazione della distanza (musicale) tra due suoni, che è
nulla per l’unisono, un po’ più grande per l’ottava, e via via crescente al calare della
consonanza, fino ad arrivare ad un massimo per il semitono e la quarta aumentata,
o addirittura ad un valore infinito per due fondamentali in rapporto irrazionale tra
loro, se accettiamo di uscire dall’insieme di misura nulla.
La situazione sembra paradossale perché si passa da una distanza ovviamente
nulla (l’unisono) ad una distanza che può essere molto grande, per una variazione
infinitesima del rapporto tra le frequenze: si esce dal paradosso se si considera il
fatto che i recettori dell’orecchio sono in numero finito e ognuno ha una risposta
di larghezza finita che in parte si sovrappone a quella del recettore adiacente. Se
adottiamo come criterio di consonanza una funzione che tenga conto degli armonici
in comune e della loro ampiezza, riusciamo a riprodurre la valutazione soggettiva
media: tale funzione può essere il prodotto scalare tra i vettori normalizzati nello
spazio di Hilbert delle distribuzioni spettrali, che non è altro che il coseno dell’angolo
tra i vettori: la tangente di questo angolo (che va da 0 a infinito) può essere assunta
come misura della distanza tra due suoni puntiformi.
E per i suoni puri che, essendo privi di armonici, non ne hanno alcuno in comune
e quindi hanno sempre distanza infinita? L’esperienza ci dice che non è cosı̀ e che
3
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
Figure 1:
4
6
8
10
12
Livello di consonanza all’interno di un’ottava.
la distanza segue, con oscillazioni meno ampie, l’andamento della fig.1. Come conciliare questi due fatti? Per esempio facendo intervenire lo sviluppo della corteccia
uditiva, addestrata dall’ascolto di suoni periodici (armonici), le voci umane e quelle
di molti animali, le quali emergono su un fondo rumoroso dallo spettro continuo: il
fatto che i recettori che distano di un’ottava, di una dodicesima, di una quinta, ecc.
cioè di quegli intervalli contenuti in uno spettro armonico, vengano stimolati simultaneamente da un suono semplicemente periodico, favorisce lo sviluppo di sinapsi
eccitatorie tra di loro, per cui la percezione corticale di un suono puro non differisce
di molto da quella di un suono con armonici.
Se questa idea è corretta, il concetto di consonanza, o di gradevolezza, trova una
corrispondenza nell’impegno computazionale della corteccia uditiva sotto l’azione
di uno stimolo sonoro: un suono puntiforme, che sia monocromatico o armonico,
impegna direttamente o indirettamente i neuroni armonici del suo fondamentale
(con ampiezze diverse), mentre una coppia di suoni ne eccita un maggior numero,
al massimo il doppio, quando i due suoni non hanno nessun armonico in comune, e
cosı̀ via, al crescere del numero dei suoni dell’accordo.
Vorrei ora spendere qualche parola sulla metrica e, tanto per cambiare, sulle
sue ambiguità; oltre alla metrica uditiva c’è quella ”manuale” dell’esecutore, che è
strettamente legata allo strumento: su uno strumento a tastiera le ottave sono tutte
uguali, circa 20 cm, mentre i semitoni possono essere leggermente diversi, secondo
che coinvolgano due tasti bianchi oppure uno bianco e uno nero; su uno strumento
ad arco i semitoni diventano sempre più piccoli, come distanza tra le dita, man
mano che dal capotasto ci si avvicina al ponticello, e sono ben diversi su un violino
o su un contrabbasso, anche se variano con la stessa legge; sugli stessi strumenti le
quinte sono invece tutte uguali, in quanto implicano solo lo spostamento di un dito
da una corda a quella adiacente; un discorso simile si potrebbe fare sugli strumenti
4
a fiato. Da un punto di vista matematico invece abbiamo due possibili metriche
sulla topologia unidimensionale: quella lineare, in cui le distanze sono rappresentate
dalla differenza tra le frequenze, e quindi le ottave (e anche tutti gli altri intervalli)
sono diversi secondo la loro collocazione; e quella logaritmica in cui le distanze
sono rappresentate dal logaritmo in base due del rapporto tra le frequenze, per cui
tutte le ottave hanno lunghezza unitaria. La metrica logaritmica è certamente più
adeguata alla rappresentazione musicale, tant’è vero che la scrittura musicale segue
appunto un codice logaritmico, sia nella rappresentazione delle altezze che in quella
delle durate; la scelta della base 2, che evidenzia il fatto che le note che distano di
un’ottava hanno lo stesso nome, può essere rappresentata graficamente arrotolando
l’asse dei logaritmi sulla superficie di un cilindro, in modo che le note di ugual nome
si trovino lungo la stessa verticale: in questo modo si introduce una coordinata
angolare che corrisponde alla ”croma”, mentre la coordinata verticale rappresenta
l’altezza (pitch); fig.C.
La struttura fisico-matematica del mondo dei suoni e degli strumenti musicali
ci ha mostrato un aspetto del problema, mentre l’esperienza musicale e qualche
congettura neurofisiologica ne hanno indicato un altro, forse soddisfacente, che però
necessita di qualche supporto oggettivo, che tenga anche conto del fatto che lo
sviluppo sinaptico fa parte della storia individuale, cioè della struttura anatomica e
dell’ambiente sorgente di stimoli. E rimangono ancora senza risposta le domande:
”Perché le note che distano di un’ottava hanno lo stesso nome? Perché, almeno
nella musica occidentale, l’ottava viene divisa, più o meno esattamente, in dodici
semitoni?
Una parziale risposta a queste e alle altre domande formulate poc’anzi è stata
data dalla tesi di laurea di Marco Beato che ha utilizzato nella sua ricerca la tecnica
delle reti neurali, in particolare della rete autoorganizzante di Kohonen: queste
reti hanno la capacità di organizzarsi (aggiornando i pesi sinaptici tra i neuroni
di un primo e quelli di un secondo strato) in modo tale che gli stimoli vengono
classificati in base ad un certo numero di categorie, rappresentate, sul secondo strato,
da regioni la cui maggiore o minore adiacenza indica la maggiore o minor somiglianza
tra le categorie, suggerendo quindi una topologia sullo spazio degli stimoli. Per
ragioni pratiche questa topologia è sostenuta da una superficie (2dim) toroidale, ma
il numero delle dimensioni potrebbe essere aumentato. Oltre ad un certo numero
di accorgimenti tecnici, necessari per controllare la convergenza della rete, la cosa
importante è la definizione del primo strato e degli stimoli che gli vengono proposti.
Nel nostro caso il primo strato voleva simulare un orecchio, ed era pertanto costituito da 60 unità risonanti distribuite su 5 ottave, quasi come una tastiera, mentre
il secondo aveva 30x30 unità distribuire sulla superficie di un toro. Gli stimoli erano rappresentati da suoni dotati di 16 armonici con ampiezze decrescenti con la
legge 1/n, con il fondamentale scelto a caso dentro le prime due ottave di sensibilità dell’orecchio; la risposta delle unità del primo strato era controllata da un
parametro che stabiliva la larghezza della gaussiana: da un minimo per cui ad un
suono monocromatico rispondeva solo il neurone accordato su quella frequenza e,
5
con ampiezza molto minore, i primi vicini, ad un massimo per cui la risposta coinvolgeva fino ai terzi vicini: in sostanza da un orecchio ”intonato” ad uno ”stonato”.
Con l’orecchio stonato i 25 suoni proposti hanno prodotto 25 ”bolle” in successione suggerendo una topologia unidimensionale aperta; migliorando l’intonazione
dell’orecchio c’è stata una radicale trasformazione delle bolle, che si sono raggruppate a coppie di suoni distanti un’ottava, e inoltre la successione di semitoni si è
rotta in 3 frammenti di 3 suoni ed è stata sostituita da due successioni di quinte di
6 suoni ciascuna, come si vede in fig.D.
Il fatto che l’ottava sia la prima fusione sistematica tra bolle risponde alla
prima domanda, ma mostra anche che questo risultato dipende dal potere risolutivo dell’orecchio e, ovviamente, dalla presenza degli armonici, che sono anche
responsabili della crescita del circolo delle quinte.
Per meglio esplorare la situazione abbiamo eliminato la seconda ottava e distribuito i venticinque suoni su una sola ottava, a distanza di un quarto di tono:
anche in questo caso l’orecchio stonato ha prodotto la solita topologia lineare, una
volta aperta e una volta chiusa; un orecchio di intonazione intermedia ha prodotto
una distribuzione di bolle in cui i contatti di quarto di tono diminuiscono mentre
quelli di quinta aumentano; naturalmente continuano ad essere presenti contatti
corrispondenti ad intervalli diversi, più o meno significativi. Con l’aumento del
potere risolutivo si assiste anche questa volta alla quasi scomparsa dei quarti di
tono e alla formazione di numerose successioni di quinte, quarte e terze maggiori.
Un altro aspetto significativo è la divisione dello spazio disponibile in (quasi)
due grandi bolle, in ciascuna delle quali si raccolgono i dodici suoni (caratterizzati
in figura da numeri pari o dispari) appartenenti alle due scale cromatiche distanziate
di un quarto di tono; vedi figg.E,F,G,H.
L’interesse di questi risultati sta nel fatto che la topologia dello spazio uditivo
diventa una caratteristica ”personale”, legata al potere risolutivo dell’orecchio, e
anche al tipo di stimoli che l’hanno colpito, perché stimoli con una struttura spettrale
diversa, o con spettro continuo o con spettro di righe non armoniche, sicuramente
favoriscono una topologia lineare aperta anche con un orecchio intonato. Anche
la divisione dell’ottava in dodici parti sembra che avvenga spontaneamente; per
confermare quest’ultimo risultato sarebbe necessario aumentare per esempio di un
fattore 10 il numero delle unità del primo strato, rendendo però molto più lungo il
tempo di convergenza della rete.
Ho seguito perciò un approccio completamente diverso, affrontando il problema
dell’incompatibilità del circolo delle 12 quinte, che non coprono esattamente 7 ottave,
ma danno un eccesso del 2/100: quante quinte sono necessarie per ottenere una
copertura migliore? Con 53 quinte si approssimano 31 ottave con un eccesso del
3/1000. Se dunque dividiamo l’ottava in 53 parti uguali, poco meno di un quarto
di semitono, e cerchiamo quali sono gli intervalli più importanti (prodotto delle
intensità) tra gli armonici di un fondamentale, troviamo il risultato di figg.2 e 3, che
mostra chiaramente che gli intervalli più importanti sono ottimamente approssimati
da uno dei 53 microintervalli proposti e sono anche quelli di maggior consonanza;
6
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-0.1
0.2
0
Figure 2:
0.4
0.6
0.8
1
Intervalli tra 64 armonici rapportati all’ottava divisa in 12 semitoni.
tra questi è facile individuarne 12 che costituiscono la base della scala cromatica, e
prima ancora 7 che producono la scala diatonica.
Seguendo questa indicazione mi sono posto il seguente problema: supponendo che
un organismo dotato di voce, udito e memoria non riceva altri stimoli uditivi se non
quelli prodotti dalla propria voce, esiste una possibilità che i suoni emessi vengano
scelti in un sottoinsieme tra quelli disponibili e eventualmente quale? Ho quindi
simulato un processo di autoapprendimento selettivo in cui l’udito (e la corteccia uditiva) guidano la voce. Il processo è organizzato come segue: la voce ha
un’estensione di due ottave, ciascuna divisa in 53 parti, mentre l’orecchio è sensibile
su 4 ottave divise nello stesso modo, e la memoria è capace di ricordare un solo
suono; naturalmente i suoni sono dotati di 16 armonici. Inizialmente viene definita
una matrice simmetrica G di dimensione pari a quella dell’orecchio (212x212) con
elementi diagonali unitari ed elementi non diagonali piccoli e scelti a caso; il ciclo di
apprendimento consiste nell’emissione da parte della ”voce”di un suono scelto a caso
di componenti s1i , che viene ascoltato dall’”orecchio” e successivamnete memorizzato, e poi di un secondo s2i scelto anch’esso a caso; i due suoni vengono confrontati
per mezzo della matrice G nel modo seguente: essi vengono dapprima normalizzati e
poi viene calcolato il loro prodotto scalare secondo la metrica definita da G; il modulo del prodotto scalare < 1|G|2 >= s1i Gij s2j viene confrontato con una variabile
stocastica compresa tra 0 e 1: se supera il prodotto della variabile stocastica per una
certa soglia il secondo suono viene accettato e la matrice G viene incrementata della
quantità |2 >< 2|, altrimenti il suono viene rigettato e se ne estrae un terzo; in caso
di accettazione il secondo suono viene memorizzato e se ne estrae un successivo; il
procedimento viene iterato, e ad ogni accettazione viene registrato il suono accettato
e l’intervallo (in modulo) che esso forma con il suono precedente.
Nelle figg.4-7 sono mostrati gli intervalli prescelti per diversi valori della soglia e
7
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-0.1
0.2
0
Figure 3:
0.4
0.6
0.8
1
Intervalli tra 64 armonici rapportati all’ottava divisa in 53 parti uguali.
del potere risolutivo dell’orecchio, messo inizialmente al suo massimo valore.
800
700
600
500
400
300
200
100
0
0
20
Figure 4:
40
60
80
100
Distribuzione degli intervalli; soglia=0. Potere risolutivo ottimale.
Come si vede a soglia zero non c’è alcuna selezione (fig.4), mentre già con soglia
pari 0.01 si nota la forte diminuzione di alcuni intervalli (fig.5),
i quali quasi scompaiono a soglia 0.4, lasciando un numero relativamente piccolo di
intervalli privilegiati, tra i quali si riconoscono immediatamente l’unisono, la seconda
maggiore, le due terze minori, la terza maggiore, la quarta giusta, la quinta giusta, la
sesta maggiore, la settima minore, l’ottava, ecc. mentre meno evidenti, ma presenti,
sono il semitono, la quarta aumentata, la sesta minore e la settima maggiore: in
pratica l’intera scala cromatica (fig.6). Val la pena di notare che le due terze minori,
8
800
700
600
500
400
300
200
100
0
0
20
Figure 5:
40
60
80
100
Distribuzione degli intervalli; soglia=0.01. Potere risolutivo ottimale.
che corrispondono ai rapporti di frequenza 6/5 e 7/6, risultano ben separate, mentre
la seconda maggiore risulta piuttosto larga, visto che è rappresentata, nella sequenza
armonica, dai rapporti 8/7, 9/8 e 10/9.
500
450
400
350
300
250
200
150
100
50
0
0
20
40
60
80
100
Figure 6:
Distribuzione degli intervalli; soglia=0.4. Potere risolutivo ottimale.
Posizione degli intervalli più significativi:1/1=0,16/15=5,10/9=8,9/8=9,8/7=10,7/6=12,
6/5=14,5/4=17,4/3=22,7/5=26,3/2=31,8/5=36,5/3=39,7/4=43,15/8=48,2/1=53.
Per ottenere questi risultati la divisione dell’ottava in 53 parti non è essenziale:
essa è tuttavia vantaggiosa perché, tra le tante possibili con un numero decisamente
maggiore di 12, è quella che permette di collocare con maggior precisione gli intervalli
più significativi, come illustrato in fig.6.
Queste simulazioni mostrano (ma non dimostrano) che la topologia e la metrica
9
dello spazio uditivo non possono essere definite in modo univoco, visto che il potere
risolutivo dell’orecchio, l’esperienza individuale, la presenza di armonici e la capacità
di sviluppo sinaptico contribuiscono in modo determinante al risultato; tuttavia
i risultati sono consistenti con quelli che derivano da un trattazione puramente
matematica del fenomeno sonoro e dall’esame del linguaggio musicale, in quanto
presentano le stesse ambiguità ma contemporaneamente ne indicano l’origine. Una
determinazione sperimentale della topologia e della metrica dello spazio uditivo non
può che passare attraverso un’indagine corticale (possibilmente non invasiva) di
lunga durata, capace di mettere in evidenza lo sviluppo sinaptico di uno o più
individui (non necessariamente umani) sottoposti a stimoli sonori opportunamente
scelti. È opportuno ricordare che indagini con la tecnica degli ”squid” hanno permesso di accertare qualitativamente la struttura tonotopica (logaritmica) della corteccia
uditiva in alcuni animali e nell’uomo.
800
700
600
500
400
300
200
100
0
0
20
Figure 7:
40
60
80
100
Distribuzione degli intervalli; soglia=0.4. Potere risolutivo ridotto.
Per quanto riguarda l’interazione voce-udito voglio presentare un ultimo risultato: peggiorando leggermente il potere risolutivo dell’orecchio diminuisce l’intonazione della voce, che non è più cosı̀ precisa nella scelta degli intervalli, i quali vengono
selezionati in modo incerto, anche se la distribuzione è ancora centrata sui valori
precedenti, come si vede nella fig.7, ottenuta con la soglia a 0.4, mentre la risposta
dell’orecchio ad un suono monocromatico non è più limitata al neurone centrale ma
coinvolge i due primi vicini con un’ampiezza ridotta al 20/100.
Se si analizza la distribuzione dei suoni accettati si vede che il risultato dipende
assai poco dal valore della soglia: a prima vista la cosa può sorprendere, perché ci si
aspetta che la voce, guidata dall’orecchio, finisca per preferire un ristretto insieme di
suoni; una riflessione più accurata mostra invece che la preferenza per certi intervalli
non implica l’esclusione totale degli altri, e quindi ep̀ossibile che ogni tanto venga
scelto un intervallo ”raro”, che trasferisca la voce su una differente intonazione; se
10
il ciclo di apprendimento è molto lungo (nel nostro caso sono stati estratti 40000
suoni), questo può accadere anche molte volte, e alla fine i suoni risultano grosso
modo equiprobabili, a meno delle inevitabili fluttuazioni statistiche.
La mia esperienza di direttore di coro mi ha insegnato che nel corso di una esecuzione ”a cappella”, cioè non sostenuta da strumenti, capita spesso che l’intonazione
locale sia perfetta, nel senso che tutti gli intervalli sono giusti (entro i limiti della
percezione), ma alla fine, specie se il brano è lungo, il coro sia calato (o cresciuto) rispetto al diapason di partenza: in altre parole si può dire che la somma
di tanti spostamenti infinitesimi produce uno spostamento finito; inoltre, nel corso
dell’addestramento dei cantanti, mi è capitato più volte di riscontrare un errore molto
particolare nell’intonazione dell’intervallo di ottava discendente, che viene sostituito
dalla quinta o dalla quarta discendente, molto lontani secondo una topologia lineare,
ma vicinissimi secondo una topologia armonica.
Mi sembra di poter dire, a conclusione di questo intervento, che le due simulazioni
che ho proposto sostengono il punto di vista musicale sulla topologia dello spazio
uditivo, con i limiti legati alle esperienze indiviuali. La musica, in quanto attività
che utilizza un insieme piccolissimo di suoni (rispetto a quelli possibili: circa 100
frequenze su un totale di 3000 recettori dell’orecchio interno) selezionato in seguito
ad un’esperienza, si propone quindi come una proprietà emergente, conseguenza
dell’interazione dell’apparato uditivo con un ambiente generatore di stimoli sonori
particolari o, in mancanza di quello, con l’apparato fonatorio. Sarebbe interessante
analizzare statisticamente il comportamento di un insieme abbastanza vasto di parlatori per vedere se, anche nel parlato, la distribuzione degli intervalli presenta dei
picchi di preferenza e, eventualmente, dove questi sono localizzati.
11