2 aprile 2003 STRUTTURA TOPOLOGICA E METRICA DELLO

PERCEZIONE E ACUSTICA MUSICALE: SUONO E ORECCHIO
Roma - 2 aprile 2003
STRUTTURA TOPOLOGICA E METRICA DELLO SPAZIO
UDITIVO
Paolo Camiz
Dipartimento di Fisica - Università di Roma ”La Sapienza”
I.N.F.N Sezione di Roma - ECONA
Il titolo, alquanto ambizioso, nasce dall’esigenza di dare una struttura matematica chiara ad uno dei tanti spazi percettivi nei quali si sviluppano le nostre
esperienze sensoriali: l’idea può sembrare banale, almeno in certi casi, ma spero di
dimostrare che cosı̀ non è, e che nel caso uditivo il problema presenta alcune ambiguità che voglio discutere. Il caso apparentemente banale è quello della visione,
in cui una struttura topologica semplice (un continuo bidimensionale per ciascun
occhio) è indotta dalla natura stessa dell’apparato ottico, a parte il ”buco” rappresentato dal punto cieco; la situazione si complica leggermente quando si passa
alla stereovisione binoculare, che aggiunge una terza dimensione allo spazio visivo,
della quale però è accessibile, in un singolo atto visivo, solo una fetta più o meno
sottile in cui è garantita la fusione delle due immagini oculari; un’ulteriore coppia
di dimensioni (astratte) è aggiunta dalla visione cromatica che è supportata da un
continuo bidimensionale convesso. Senza addentrarmi ora in considerazioni metriche
che ci porterebbero via troppo tempo, voglio solo sottolineare il fatto che è possibile deﬁnire in modo non ambiguo una percezione visiva elementare costituita da
un punto luminoso di intensità e colore assegnato collocato in un certo punto dello
spazio, che una variazione inﬁnitesima di uno qualsiasi dei parametri produce una
variazione inﬁnitesima dello stimolo (a meno che questo non esca dal campo visivo), e inﬁne che due punti non vengono distinti ﬁnché la loro distanza (comunque
misurata o valutata) non supera una certa soglia.
Vediamo ora che cosa si può dire delle percezioni uditive, limitandoci a quelle
monoaurali, per non doverci occupare anche della localizzazione delle sorgenti sonore.
E limitiamoci anche ai suoni di tipo stazionario, tali cioè che la loro distribuzione
spettrale non cambi durante un intervallo di tempo ”elementare” dell’ordine del
1
1/20sec. La domanda da fare è la seguente:”Sotto quali condizioni un suono del
genere può essere percepito come un solo ”punto”? Quali sono le dimensioni, la
topologia e la metrica dello spazio in cui questo punto viene collocato?” Una considerazione di tipo puramente ﬁsico-matematico ci suggerisce di rappresentare i suoni
in base alla loro distribuzione spettrale, cioè le loro componenti di Fourier, e quindi
saremmo portati a dire che un suono puro è rappresentato da un punto sull’asse delle
frequenze, mentre un suono composto è rappresentato da molti (eventualmente inﬁniti) punti; oppure, in modo altrettanto coerente, potremmo dire che un suono è
un vettore in uno spazio a molte dimensioni (eventualmente inﬁnite, o più realisticamente tante quanti sono i sensori dell’Organo del Corti), con una sola componente
non nulla per i suoni puri, con molte componenti per quelli composti. Tutto questo
va bene dal punto di vista ﬁsico-matematico, ma è contraddetto dalla nostra esperienza uditiva, in base alla quale noi consideriamo come ”punti”, cioè esperienze
uditive elementari, non solo i suoni puri, ma anche moltissimi altri suoni che puri
non sono, come quelli emessi dalla nostra voce e dalla maggior parte degli strumenti
musicali; inoltre basta una piccolissima variazione in uno dei parametri che caratterizzano un suono composto, ma percepito come elementare, per farlo apparire come
due suoni indipendenti. Come si vede la situazione è abbastanza complessa: non
vale sempre il principio di sovrapposizione (come accade invece per i colori), e anche per la topologia e la metrica ci sono dei problemi: non è chiaro quante siano
le dimensioni dello spazio uditivo, è ambiguo il concetto di distanza tra due suoni
elementari, ed è facile convincersi che per passare con continuità da un punto ad un
altro di questo spazio sono possibili innumerevoli percorsi.
Consideriamo infatti come punto di partenza una nota cantata , per esempio Do1,
sulla vocale ”A”, e come punto di arrivo una nota un’ottava sopra, Do2, sempre cantata su ”A”. Un primo percorso, banale, consiste nell’eﬀettuare un ”glissando” lungo
un’ottava mantenendo ferma la ”A”; un secondo percorso aggiunge alla variazione
continua di frequenza una variazione continua della vocale, secondo una traiettoria
chiusa del tipo ”A, È, É, I, Ű, U, Ó, Ò, A”; un terzo percorso, diﬃcile da realizzare
con la voce, ma perfettamente simulabile con un sintetizzatore, consiste nel variare i pesi degli armonici in modo tale che la cosiddetta ”croma” rimanga Do, ma
passi da Do1 a Do2 solo modiﬁcando il timbro, e lasciando la vocale ferma in ”A”;
oppure, quarto percorso, aggiungere al precedente la traiettoria chiusa sulle vocali
del secondo percorso; e inﬁne un percorso apparentemente paradossale, che consiste
nell’unire la tecnica della variazione timbrica a quella del glissando, eﬀettuato in
senso inverso, cioè secondo una scala discendente per quanto riguarda la ”croma”.
Alcuni di questi percorsi sono mostrati nelle ﬁgure A e B.
Una parziale risposta a molte delle domande che le considerazioni precedenti suggeriscono viene fornita dalla natura stessa dei suoni che chiamiamo ”puntiformi”:
essi infatti hanno uno spettro armonico, cioè le frequenze delle componenti di Fourier
sono multiple di una frequenza fondamentale, non necessariamente presente nello
spettro (vedi il fenomeno percettivo del ”missing fundamental”): sembra allora di
poter dire che lo spettro armonico è una condizione necessaria, ma non suﬃcente,
2
aﬃnché il suono percepito sia puntiforme: basta infatti far crescere una certa componente per farla apparire (a quale livello?) come un suono indipendente dal precedente; ma è anche vero che certi musicisti particolarmente dotati, ”distinguono” i
vari armonici, e per loro quindi i suoni puntiformi sono (quasi) soltanto quelli veramente monocromatici. Ma perché l’armonicità dello spettro produce (ma non sempre) la puntiformità della percezione? Un suono dallo spettro armonico ha lo stesso
periodo del fondamentale e questo fa intervenire l’analisi temporale del fenomeno; c’è
un altro elemento importante da prendere in considerazione: in un suono armonico
emesso da un’unica sorgente c’è una stretta relazione di fase tra le varie componenti,
mentre se le sorgenti sono numerose le fasi possono essere molto meno correlate. Da
quanto detto ﬁnora sembra di poter dire che la puntiformità di un suono sia una
proprietà non solo del suono, ma anche dell’orecchio che lo ascolta e probabilmente
anche della corteccia uditiva che elabora i segnali provenienti dall’orecchio e si evolve
in funzione dei segnali stessi.
Se le cose stanno in questo modo, ed è molto verosimile che lo siano, diventa
diﬃcile rispondere in modo oggettivo alle domande che ci siamo posti all’inizio;
possiamo tuttavia aﬀrontare il problema da un punto di vista culturale esaminando
l’esperienza musicale, più precisamente quella parte dell’esperienza musicale che si
concretizza nella musica occidentale moderna (tonale, armonica). Noi sappiamo che
questa musica si sviluppa su di un insieme di misura nulla lungo l’asse delle frequenze
(7 o 12 suoni all’interno di un’ottava); che i suoni che diﬀeriscono per una o più ottave
hanno lo stesso nome (croma); che la relazione tra le varie note è Doppler-invariante,
poiché riguarda i rapporti tra le frequenze, e che tra due suoni (puntiformi) si può
stabilire un criterio di consonanza o dissonanza che è una funzione rapidamente
oscillante del rapporto tra le frequenze, come indicato nella ﬁg.1: da questo graﬁco
si può anche ricavare una valutazione della distanza (musicale) tra due suoni, che è
nulla per l’unisono, un po’ più grande per l’ottava, e via via crescente al calare della
consonanza, ﬁno ad arrivare ad un massimo per il semitono e la quarta aumentata,
o addirittura ad un valore inﬁnito per due fondamentali in rapporto irrazionale tra
loro, se accettiamo di uscire dall’insieme di misura nulla.
La situazione sembra paradossale perché si passa da una distanza ovviamente
nulla (l’unisono) ad una distanza che può essere molto grande, per una variazione
inﬁnitesima del rapporto tra le frequenze: si esce dal paradosso se si considera il
fatto che i recettori dell’orecchio sono in numero ﬁnito e ognuno ha una risposta
di larghezza ﬁnita che in parte si sovrappone a quella del recettore adiacente. Se
adottiamo come criterio di consonanza una funzione che tenga conto degli armonici
in comune e della loro ampiezza, riusciamo a riprodurre la valutazione soggettiva
media: tale funzione può essere il prodotto scalare tra i vettori normalizzati nello
spazio di Hilbert delle distribuzioni spettrali, che non è altro che il coseno dell’angolo
tra i vettori: la tangente di questo angolo (che va da 0 a inﬁnito) può essere assunta
come misura della distanza tra due suoni puntiformi.
E per i suoni puri che, essendo privi di armonici, non ne hanno alcuno in comune
e quindi hanno sempre distanza inﬁnita? L’esperienza ci dice che non è cosı̀ e che
3
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
2
Figure 1:
4
6
8
10
12
Livello di consonanza all’interno di un’ottava.
la distanza segue, con oscillazioni meno ampie, l’andamento della ﬁg.1. Come conciliare questi due fatti? Per esempio facendo intervenire lo sviluppo della corteccia
uditiva, addestrata dall’ascolto di suoni periodici (armonici), le voci umane e quelle
di molti animali, le quali emergono su un fondo rumoroso dallo spettro continuo: il
fatto che i recettori che distano di un’ottava, di una dodicesima, di una quinta, ecc.
cioè di quegli intervalli contenuti in uno spettro armonico, vengano stimolati simultaneamente da un suono semplicemente periodico, favorisce lo sviluppo di sinapsi
eccitatorie tra di loro, per cui la percezione corticale di un suono puro non diﬀerisce
di molto da quella di un suono con armonici.
Se questa idea è corretta, il concetto di consonanza, o di gradevolezza, trova una
corrispondenza nell’impegno computazionale della corteccia uditiva sotto l’azione
di uno stimolo sonoro: un suono puntiforme, che sia monocromatico o armonico,
impegna direttamente o indirettamente i neuroni armonici del suo fondamentale
(con ampiezze diverse), mentre una coppia di suoni ne eccita un maggior numero,
al massimo il doppio, quando i due suoni non hanno nessun armonico in comune, e
cosı̀ via, al crescere del numero dei suoni dell’accordo.
Vorrei ora spendere qualche parola sulla metrica e, tanto per cambiare, sulle
sue ambiguità; oltre alla metrica uditiva c’è quella ”manuale” dell’esecutore, che è
strettamente legata allo strumento: su uno strumento a tastiera le ottave sono tutte
uguali, circa 20 cm, mentre i semitoni possono essere leggermente diversi, secondo
che coinvolgano due tasti bianchi oppure uno bianco e uno nero; su uno strumento
ad arco i semitoni diventano sempre più piccoli, come distanza tra le dita, man
mano che dal capotasto ci si avvicina al ponticello, e sono ben diversi su un violino
o su un contrabbasso, anche se variano con la stessa legge; sugli stessi strumenti le
quinte sono invece tutte uguali, in quanto implicano solo lo spostamento di un dito
da una corda a quella adiacente; un discorso simile si potrebbe fare sugli strumenti
4
a ﬁato. Da un punto di vista matematico invece abbiamo due possibili metriche
sulla topologia unidimensionale: quella lineare, in cui le distanze sono rappresentate
dalla diﬀerenza tra le frequenze, e quindi le ottave (e anche tutti gli altri intervalli)
sono diversi secondo la loro collocazione; e quella logaritmica in cui le distanze
sono rappresentate dal logaritmo in base due del rapporto tra le frequenze, per cui
tutte le ottave hanno lunghezza unitaria. La metrica logaritmica è certamente più
adeguata alla rappresentazione musicale, tant’è vero che la scrittura musicale segue
appunto un codice logaritmico, sia nella rappresentazione delle altezze che in quella
delle durate; la scelta della base 2, che evidenzia il fatto che le note che distano di
un’ottava hanno lo stesso nome, può essere rappresentata graﬁcamente arrotolando
l’asse dei logaritmi sulla superﬁcie di un cilindro, in modo che le note di ugual nome
si trovino lungo la stessa verticale: in questo modo si introduce una coordinata
angolare che corrisponde alla ”croma”, mentre la coordinata verticale rappresenta
l’altezza (pitch); ﬁg.C.
La struttura ﬁsico-matematica del mondo dei suoni e degli strumenti musicali
ci ha mostrato un aspetto del problema, mentre l’esperienza musicale e qualche
congettura neuroﬁsiologica ne hanno indicato un altro, forse soddisfacente, che però
necessita di qualche supporto oggettivo, che tenga anche conto del fatto che lo
sviluppo sinaptico fa parte della storia individuale, cioè della struttura anatomica e
dell’ambiente sorgente di stimoli. E rimangono ancora senza risposta le domande:
”Perché le note che distano di un’ottava hanno lo stesso nome? Perché, almeno
nella musica occidentale, l’ottava viene divisa, più o meno esattamente, in dodici
semitoni?
Una parziale risposta a queste e alle altre domande formulate poc’anzi è stata
data dalla tesi di laurea di Marco Beato che ha utilizzato nella sua ricerca la tecnica
delle reti neurali, in particolare della rete autoorganizzante di Kohonen: queste
reti hanno la capacità di organizzarsi (aggiornando i pesi sinaptici tra i neuroni
di un primo e quelli di un secondo strato) in modo tale che gli stimoli vengono
classiﬁcati in base ad un certo numero di categorie, rappresentate, sul secondo strato,
da regioni la cui maggiore o minore adiacenza indica la maggiore o minor somiglianza
tra le categorie, suggerendo quindi una topologia sullo spazio degli stimoli. Per
ragioni pratiche questa topologia è sostenuta da una superﬁcie (2dim) toroidale, ma
il numero delle dimensioni potrebbe essere aumentato. Oltre ad un certo numero
di accorgimenti tecnici, necessari per controllare la convergenza della rete, la cosa
importante è la deﬁnizione del primo strato e degli stimoli che gli vengono proposti.
Nel nostro caso il primo strato voleva simulare un orecchio, ed era pertanto costituito da 60 unità risonanti distribuite su 5 ottave, quasi come una tastiera, mentre
il secondo aveva 30x30 unità distribuire sulla superﬁcie di un toro. Gli stimoli erano rappresentati da suoni dotati di 16 armonici con ampiezze decrescenti con la
legge 1/n, con il fondamentale scelto a caso dentro le prime due ottave di sensibilità dell’orecchio; la risposta delle unità del primo strato era controllata da un
parametro che stabiliva la larghezza della gaussiana: da un minimo per cui ad un
suono monocromatico rispondeva solo il neurone accordato su quella frequenza e,
5
con ampiezza molto minore, i primi vicini, ad un massimo per cui la risposta coinvolgeva ﬁno ai terzi vicini: in sostanza da un orecchio ”intonato” ad uno ”stonato”.
Con l’orecchio stonato i 25 suoni proposti hanno prodotto 25 ”bolle” in successione suggerendo una topologia unidimensionale aperta; migliorando l’intonazione
dell’orecchio c’è stata una radicale trasformazione delle bolle, che si sono raggruppate a coppie di suoni distanti un’ottava, e inoltre la successione di semitoni si è
rotta in 3 frammenti di 3 suoni ed è stata sostituita da due successioni di quinte di
6 suoni ciascuna, come si vede in ﬁg.D.
Il fatto che l’ottava sia la prima fusione sistematica tra bolle risponde alla
prima domanda, ma mostra anche che questo risultato dipende dal potere risolutivo dell’orecchio e, ovviamente, dalla presenza degli armonici, che sono anche
responsabili della crescita del circolo delle quinte.
Per meglio esplorare la situazione abbiamo eliminato la seconda ottava e distribuito i venticinque suoni su una sola ottava, a distanza di un quarto di tono:
anche in questo caso l’orecchio stonato ha prodotto la solita topologia lineare, una
volta aperta e una volta chiusa; un orecchio di intonazione intermedia ha prodotto
una distribuzione di bolle in cui i contatti di quarto di tono diminuiscono mentre
quelli di quinta aumentano; naturalmente continuano ad essere presenti contatti
corrispondenti ad intervalli diversi, più o meno signiﬁcativi. Con l’aumento del
potere risolutivo si assiste anche questa volta alla quasi scomparsa dei quarti di
tono e alla formazione di numerose successioni di quinte, quarte e terze maggiori.
Un altro aspetto signiﬁcativo è la divisione dello spazio disponibile in (quasi)
due grandi bolle, in ciascuna delle quali si raccolgono i dodici suoni (caratterizzati
in ﬁgura da numeri pari o dispari) appartenenti alle due scale cromatiche distanziate
di un quarto di tono; vedi ﬁgg.E,F,G,H.
L’interesse di questi risultati sta nel fatto che la topologia dello spazio uditivo
diventa una caratteristica ”personale”, legata al potere risolutivo dell’orecchio, e
anche al tipo di stimoli che l’hanno colpito, perché stimoli con una struttura spettrale
diversa, o con spettro continuo o con spettro di righe non armoniche, sicuramente
favoriscono una topologia lineare aperta anche con un orecchio intonato. Anche
la divisione dell’ottava in dodici parti sembra che avvenga spontaneamente; per
confermare quest’ultimo risultato sarebbe necessario aumentare per esempio di un
fattore 10 il numero delle unità del primo strato, rendendo però molto più lungo il
tempo di convergenza della rete.
Ho seguito perciò un approccio completamente diverso, aﬀrontando il problema
dell’incompatibilità del circolo delle 12 quinte, che non coprono esattamente 7 ottave,
ma danno un eccesso del 2/100: quante quinte sono necessarie per ottenere una
copertura migliore? Con 53 quinte si approssimano 31 ottave con un eccesso del
3/1000. Se dunque dividiamo l’ottava in 53 parti uguali, poco meno di un quarto
di semitono, e cerchiamo quali sono gli intervalli più importanti (prodotto delle
intensità) tra gli armonici di un fondamentale, troviamo il risultato di ﬁgg.2 e 3, che
mostra chiaramente che gli intervalli più importanti sono ottimamente approssimati
da uno dei 53 microintervalli proposti e sono anche quelli di maggior consonanza;
6
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-0.1
0.2
0
Figure 2:
0.4
0.6
0.8
1
Intervalli tra 64 armonici rapportati all’ottava divisa in 12 semitoni.
tra questi è facile individuarne 12 che costituiscono la base della scala cromatica, e
prima ancora 7 che producono la scala diatonica.
Seguendo questa indicazione mi sono posto il seguente problema: supponendo che
un organismo dotato di voce, udito e memoria non riceva altri stimoli uditivi se non
quelli prodotti dalla propria voce, esiste una possibilità che i suoni emessi vengano
scelti in un sottoinsieme tra quelli disponibili e eventualmente quale? Ho quindi
simulato un processo di autoapprendimento selettivo in cui l’udito (e la corteccia uditiva) guidano la voce. Il processo è organizzato come segue: la voce ha
un’estensione di due ottave, ciascuna divisa in 53 parti, mentre l’orecchio è sensibile
su 4 ottave divise nello stesso modo, e la memoria è capace di ricordare un solo
suono; naturalmente i suoni sono dotati di 16 armonici. Inizialmente viene deﬁnita
una matrice simmetrica G di dimensione pari a quella dell’orecchio (212x212) con
elementi diagonali unitari ed elementi non diagonali piccoli e scelti a caso; il ciclo di
apprendimento consiste nell’emissione da parte della ”voce”di un suono scelto a caso
di componenti s1i , che viene ascoltato dall’”orecchio” e successivamnete memorizzato, e poi di un secondo s2i scelto anch’esso a caso; i due suoni vengono confrontati
per mezzo della matrice G nel modo seguente: essi vengono dapprima normalizzati e
poi viene calcolato il loro prodotto scalare secondo la metrica deﬁnita da G; il modulo del prodotto scalare < 1|G|2 >= s1i Gij s2j viene confrontato con una variabile
stocastica compresa tra 0 e 1: se supera il prodotto della variabile stocastica per una
certa soglia il secondo suono viene accettato e la matrice G viene incrementata della
quantità |2 >< 2|, altrimenti il suono viene rigettato e se ne estrae un terzo; in caso
di accettazione il secondo suono viene memorizzato e se ne estrae un successivo; il
procedimento viene iterato, e ad ogni accettazione viene registrato il suono accettato
e l’intervallo (in modulo) che esso forma con il suono precedente.
Nelle ﬁgg.4-7 sono mostrati gli intervalli prescelti per diversi valori della soglia e
7
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-0.1
0.2
0
Figure 3:
0.4
0.6
0.8
1
Intervalli tra 64 armonici rapportati all’ottava divisa in 53 parti uguali.
del potere risolutivo dell’orecchio, messo inizialmente al suo massimo valore.
800
700
600
500
400
300
200
100
0
0
20
Figure 4:
40
60
80
100
Distribuzione degli intervalli; soglia=0. Potere risolutivo ottimale.
Come si vede a soglia zero non c’è alcuna selezione (ﬁg.4), mentre già con soglia
pari 0.01 si nota la forte diminuzione di alcuni intervalli (ﬁg.5),
i quali quasi scompaiono a soglia 0.4, lasciando un numero relativamente piccolo di
intervalli privilegiati, tra i quali si riconoscono immediatamente l’unisono, la seconda
maggiore, le due terze minori, la terza maggiore, la quarta giusta, la quinta giusta, la
sesta maggiore, la settima minore, l’ottava, ecc. mentre meno evidenti, ma presenti,
sono il semitono, la quarta aumentata, la sesta minore e la settima maggiore: in
pratica l’intera scala cromatica (ﬁg.6). Val la pena di notare che le due terze minori,
8
800
700
600
500
400
300
200
100
0
0
20
Figure 5:
40
60
80
100
Distribuzione degli intervalli; soglia=0.01. Potere risolutivo ottimale.
che corrispondono ai rapporti di frequenza 6/5 e 7/6, risultano ben separate, mentre
la seconda maggiore risulta piuttosto larga, visto che è rappresentata, nella sequenza
armonica, dai rapporti 8/7, 9/8 e 10/9.
500
450
400
350
300
250
200
150
100
50
0
0
20
40
60
80
100
Figure 6:
Distribuzione degli intervalli; soglia=0.4. Potere risolutivo ottimale.
Posizione degli intervalli più significativi:1/1=0,16/15=5,10/9=8,9/8=9,8/7=10,7/6=12,
6/5=14,5/4=17,4/3=22,7/5=26,3/2=31,8/5=36,5/3=39,7/4=43,15/8=48,2/1=53.
Per ottenere questi risultati la divisione dell’ottava in 53 parti non è essenziale:
essa è tuttavia vantaggiosa perché, tra le tante possibili con un numero decisamente
maggiore di 12, è quella che permette di collocare con maggior precisione gli intervalli
più signiﬁcativi, come illustrato in ﬁg.6.
Queste simulazioni mostrano (ma non dimostrano) che la topologia e la metrica
9
dello spazio uditivo non possono essere deﬁnite in modo univoco, visto che il potere
risolutivo dell’orecchio, l’esperienza individuale, la presenza di armonici e la capacità
di sviluppo sinaptico contribuiscono in modo determinante al risultato; tuttavia
i risultati sono consistenti con quelli che derivano da un trattazione puramente
matematica del fenomeno sonoro e dall’esame del linguaggio musicale, in quanto
presentano le stesse ambiguità ma contemporaneamente ne indicano l’origine. Una
determinazione sperimentale della topologia e della metrica dello spazio uditivo non
può che passare attraverso un’indagine corticale (possibilmente non invasiva) di
lunga durata, capace di mettere in evidenza lo sviluppo sinaptico di uno o più
individui (non necessariamente umani) sottoposti a stimoli sonori opportunamente
scelti. È opportuno ricordare che indagini con la tecnica degli ”squid” hanno permesso di accertare qualitativamente la struttura tonotopica (logaritmica) della corteccia
uditiva in alcuni animali e nell’uomo.
800
700
600
500
400
300
200
100
0
0
20
Figure 7:
40
60
80
100
Distribuzione degli intervalli; soglia=0.4. Potere risolutivo ridotto.
Per quanto riguarda l’interazione voce-udito voglio presentare un ultimo risultato: peggiorando leggermente il potere risolutivo dell’orecchio diminuisce l’intonazione della voce, che non è più cosı̀ precisa nella scelta degli intervalli, i quali vengono
selezionati in modo incerto, anche se la distribuzione è ancora centrata sui valori
precedenti, come si vede nella ﬁg.7, ottenuta con la soglia a 0.4, mentre la risposta
dell’orecchio ad un suono monocromatico non è più limitata al neurone centrale ma
coinvolge i due primi vicini con un’ampiezza ridotta al 20/100.
Se si analizza la distribuzione dei suoni accettati si vede che il risultato dipende
assai poco dal valore della soglia: a prima vista la cosa può sorprendere, perché ci si
aspetta che la voce, guidata dall’orecchio, ﬁnisca per preferire un ristretto insieme di
suoni; una riﬂessione più accurata mostra invece che la preferenza per certi intervalli
non implica l’esclusione totale degli altri, e quindi ep̀ossibile che ogni tanto venga
scelto un intervallo ”raro”, che trasferisca la voce su una diﬀerente intonazione; se
10
il ciclo di apprendimento è molto lungo (nel nostro caso sono stati estratti 40000
suoni), questo può accadere anche molte volte, e alla ﬁne i suoni risultano grosso
modo equiprobabili, a meno delle inevitabili ﬂuttuazioni statistiche.
La mia esperienza di direttore di coro mi ha insegnato che nel corso di una esecuzione ”a cappella”, cioè non sostenuta da strumenti, capita spesso che l’intonazione
locale sia perfetta, nel senso che tutti gli intervalli sono giusti (entro i limiti della
percezione), ma alla ﬁne, specie se il brano è lungo, il coro sia calato (o cresciuto) rispetto al diapason di partenza: in altre parole si può dire che la somma
di tanti spostamenti inﬁnitesimi produce uno spostamento ﬁnito; inoltre, nel corso
dell’addestramento dei cantanti, mi è capitato più volte di riscontrare un errore molto
particolare nell’intonazione dell’intervallo di ottava discendente, che viene sostituito
dalla quinta o dalla quarta discendente, molto lontani secondo una topologia lineare,
ma vicinissimi secondo una topologia armonica.
Mi sembra di poter dire, a conclusione di questo intervento, che le due simulazioni
che ho proposto sostengono il punto di vista musicale sulla topologia dello spazio
uditivo, con i limiti legati alle esperienze indiviuali. La musica, in quanto attività
che utilizza un insieme piccolissimo di suoni (rispetto a quelli possibili: circa 100
frequenze su un totale di 3000 recettori dell’orecchio interno) selezionato in seguito
ad un’esperienza, si propone quindi come una proprietà emergente, conseguenza
dell’interazione dell’apparato uditivo con un ambiente generatore di stimoli sonori
particolari o, in mancanza di quello, con l’apparato fonatorio. Sarebbe interessante
analizzare statisticamente il comportamento di un insieme abbastanza vasto di parlatori per vedere se, anche nel parlato, la distribuzione degli intervalli presenta dei
picchi di preferenza e, eventualmente, dove questi sono localizzati.
11