lez.2 - la percezione del suono

Percezione del
SUONO
L’ORECCHIO UMANO
L'orecchio umano agisce da trasduttore nel trasformare
energia acustica, prima in energia meccanica e
successivamente in energia elettrica. Una volta che
l'energia è stata convertita dalla forma meccanica a quella
elettrica dall'orecchio, gli impulsi elettrici arrivano al
cervello attraverso delle terminazioni nervose. Qui
vengono elaborati permettendo la percezione del suono
e, dulcis in fundo, l'ascolto della musica. L'apparato
uditivo è composto da tre sezioni: l'orecchio esterno,
l'orecchio medio e l'orecchio interno.
L'analisi del funzionamento di queste tre sezioni ci
permetterà di capire il meccanismo di percezione
del suono e saremo in grado di individuare quali
parametri modificare sul suono che stiamo
trattando per ottenere il risultato che vogliamo.
Orecchio esterno
Il primo organo che il suono incontra quando
raggiunge l'orecchio è il padiglione auricolare.
Questo offre una vasta superficie al fronte sonoro e
permette di raccogliere un'ampia porzione del
fronte d'onda (per ottenere una superficie più
ampia si portano le mani alle orecchie come viene
istintivo fare quando si ascolta un suono molto
debole). Il suono viene riflesso dal padiglione
auricolare e concentrato verso il condotto uditivo la
cui lunghezza è mediamente pari a 3 cm.
Frequenza di risonanza
Frequenza di risonanza del canale uditivo - C'è una formula empirica
che restituisce la frequenza di risonanza di un tubo al quale possiamo
senz'altro approssimare il condotto uditivo.
La formula in questione dice che un tubo riempito di aria di lunghezza l
ha una frequenza di risonanza circa pari a (considerando che la
lunghezza del canale uditivo è di circa 3 cm):
Dalla lunghezza d'onda ricaviamo la frequenza di risonanza:
Abbiamo appena scoperto che la frequenza di risonanza dell'orecchio
umano è mediamente di 3KHz. Questo significa che quando un gruppo
di frequenze di valore intorno a 3KHz arrivano all'orecchio, il canale
uditivo entra in risonanza e dunque quelle frequenze subiscono una
naturale amplificazione.
Orecchio medio
Il condotto uditivo termina su una membrana, il timpano, che vibra in accordo
con il suono che ha raggiunto l'orecchio.
Dalla parte opposta del timpano sono collegati tre ossicini chiamati: martello,
incudine e staffa. Questi hanno la funzione di amplificare la vibrazione del
timpano e ritrasmetterla alla coclea, un ulteriore osso la cui funzione verrà
spiegata tra un momento.
Questa amplificazione si rende necessaria in quanto mentre il timpano è una
membrana molto leggera sospesa in aria, la coclea è riempita con un fluido
denso e dunque molto più difficile da mettere in vibrazione. I tre ossicini sono
tenuti insieme da una serie di piccoli legamenti che hanno l'ulteriore funzione
di impedire che seguano una vibrazione molto ampia con il rischio di
rimanere danneggiati nel caso in cui l'orecchio venga sottoposto ad una
pressione sonora troppo elevata.
Un'apertura all'interno dell'orecchio medio porta alla cosiddetta tuba di
Eustachio che consiste in un canale che conduce verso la cavità orale. La sua
funzione è quella di dare uno sfogo verso l'esterno in modo da equilibrare la
pressione atmosferica ai due lati del timpano (ecco perché sott'acqua è
possibile compensare la pressione esterna, che aumenta con la profondità,
aumentando la pressione interna tappando il naso e soffiandoci dentro).
Orecchio interno
Questa sezione dell'orecchio effettua la conversione dell'energia
meccanica in impulsi elettrici da inviare al cervello per l'elaborazione
del suono. L'ultimo dei tre ossicini di cui sopra, la staffa, è in contatto
con la coclea attraverso una membrana che viene chiamata finestra
ovale. La coclea è un osso a forma di chiocciola contenente del fluido
(è dotata di tre piccoli canali circolari orientati secondo le tre direzioni
dello spazio che vengono utilizzati dal cervello per la percezione
dell'equilibrio dunque questa funzionalità esula completamente dalla
nostra trattazione). Il fluido riceve la vibrazione dalla staffa attraverso
la finestra ovale e la trasporta al suo interno dove è presente il vero
organo deputato alla conversione dell'energia meccanica in energia
elettrica: l'organo del Corti. All'interno dell'organo del Corti troviamo la
membrana basilare che ospita una popolazione di ciglia, circa 4000,
che vibrano in accordo con la vibrazione del fluido. Ogni gruppo di
ciglia è collegato ad una terminazione nervosa in grado di convertire la
vibrazione ricevuta dal fluido in impulsi elettrici da inviare al cervello
per essere elaborati e percepiti come suoni.
Naturalmente, una singola frequenza non andrà ad eccitare
una ciglia singola, ma ne ecciterà un gruppo. L’estensione
delle ciglia eccitate dalla singola frequenza viene denominata
banda critica ed è alla base di molti fenomeni di
psicoacustica. Infatti, due suoni diversi che eccitano due
bande critiche che si sovrappongono vengono interpretati dal
cervello in maniera diversa da due suoni le cui bande critiche
non si sovrappongono.
Quando le bande critiche generate dai due suoni si
sovrappongono, nella zona comune lo stesso gruppo di ciglia
sta vibrando sollecitato da entrambi i suoni, dunque il cervello
non sa a quale dei due associare la vibrazione.
Ciò è all’origine di molti fenomeni psicoacustici che, in quanto
tali, non appartengono alla realtà del suono ma alla sua
interpretazione da parte dell’apparato uditivo. Chiudiamo
questa breve descrizione citando il fatto che l’estensione della
banda critica diminuisce all’aumentare della frequenza.
Il fenomeno delle bande critiche è all’origine del fenomeno del
mascheramento, utilizzato in molti algoritmi di compressione di dati
audio [MP3] , che consiste nell’eliminare le informazioni relative a
frequenze che cadono nella stessa banda critica, sostituendole con una
sola frequenza rappresentativa di tutte. In teoria, essendo le frequenze
rimosse appartenenti alla stessa banda critica di quella tenuta come
rappresentativa, il suono percepito non verrà degradato più di tanto,
mentre l’informazione sonora da memorizzare sarà diminuita,
realizzando così la compressione dei dati.
Il concetto di banda critica è alla base anche di un altro fenomeno
psicoacustico: i battimenti e si verifica quando le due frequenze che
originano il battimento ricadono nella stessa banda critica (infatti
questo fenomeno si verifica quando le due frequenze sono molto
vicine).
Percezione del suono da parte del cervello
Senza entrare in discorsi filosofici che, per quanto interessanti non
contribuirebbero a raggiungere le finalità di questo corso, diremo solo
che la percezione di un suono, come quella della realtà del resto, è un
concetto in gran parte soggettivo.
Un suono in sé stesso è quello che è, ma la nostra percezione varia in
quanto dipende da innumerevoli variabili. Alcune di queste variabili
sono: la nostra posizione rispetto al suono, le condizioni del nostro
apparato uditivo e soprattutto la forma che il cervello conferisce al
suono.
L'udito, al pari della vista che interpreta la luce, è capace di percepire
solo una parte delle onde acustiche che ci circondano e dunque
restituisce un quadro parziale. Inoltre le onde percepite vengono
elaborate dal cervello che così 'interpreta' i suoni che deve elaborare.
Nel seguito verrà descritto il comportamento del suono dal punto di
vista della sua percezione e si mostrerà come in determinate
condizioni sia evidente l'azione del cervello che interpreta la realtà
sonora piuttosto che restituirla fedelmente. Un esempio molto
eloquente in proposito viene descritto nel seguito e prende il nome di
battimenti
Battimenti
Quando siamo in presenza di due suoni le cui frequenze
differiscono di poco, percepiamo un ulteriore suono simile a
un battito il cui ritmo è dato dalla differenza delle due
frequenze originarie.
Se queste frequenze sono troppo diverse tra di loro il cervello
non è più in grado di percepire il suono differenza.
Questo dipende dal fatto che le due frequenze, per essere
percepite come battimento, debbono eccitare ciglia
appartenenti alla stessa banda critica.
La frequenza del battimento è pari al numero di volte che le
due sinusoidi componenti vanno in fase e fuori fase in un
secondo.
Vediamo un esempio pratico. Consideriamo due sinusoidi
pure di frequenza pari a 400 Hz e 405 Hz. Quando le due
sinusoidi vengono sommate danno luogo ad una nuova forma
d'onda che viene percepita come battimento
Volume e frequenza percepita
Lo stesso suono viene percepito più acuto se il
volume viene aumentato in maniera considerevole.
Le ragioni di tale fenomeno non sono ancora del
tutto chiare.
Distorsione
l suono della distorsione è più o meno quello che esce da
un distorsore (per l'appunto) per chitarra elettrica.
Dunque il suono lo conoscete, è quello su cui si fonda la
storia del Rock (tanto per dire), ma da cosa è generato?
Per capirlo consideriamo la solita sinusoide, essendo poi il
caso estendibile ai suoni complessi. Supponiamo che
l'uscita di un circuito al quale applichiamo una sinusoide
in ingresso non possa superare un certo valore.
Il segnale che avremo in uscita sarà quello di figura
di destra cioè una sinusoide a cui è stata 'tagliata via
la testa'.
Osservando questa forma d'onda si notano le
brusche transizioni introdotte dal 'taglio' le quali
generano delle frequenze più elevate di quella della
sinusoide considerata.
Ciò sarà valido per ogni componente sinusoidale del
segnale, dunque all'uscita del distorsore il segnale
originario sarà arricchito da tutta una serie di alte
frequenze, dipendenti dalle frequenze del segnale
iniziale, che caratterizzano il suono della distorsione
analogica.
Mascheramento
Una frequenza con ampiezza elevata può
mascherare frequenze vicine con ampiezze inferiori
in quanto frequenze vicine vengono decodificate da
ciglia appartenenti alla stessa banda critica.
Questa proprietà viene massicciamente sfruttata
per realizzare algoritmi di compressione dei dati
audio in formato digitale quali l'MP3 e l'ATRAC
impiegato sui sistemi MiniDisc. Tali algoritmi
consentono compressioni dell'ordine di 5:1.
Effetto Doppler
Questo fenomeno si verifica quando o la sorgente
sonora o l'ascoltatore sono in movimento. Il classico
esempio che viene sempre fatto è quello della
sirena di un'ambulanza che arriva di gran carriera, ci
supera e prosegue sfrecciando via nella notte.
Facciamo riferimento alla figura precedente in cui
l'ambulanza è ferma e la sirena emette un suono che,
essendo di una certa frequenza, genera dei fronti d'onda a
distanza costante l'uno dall'altro.
Quando invece il mezzo è in movimento e si avvicina
all'ascoltatore, la stessa sirena genera un suono con dei
fronti d'onda più ravvicinati rispetto a quando il mezzo era
fermo perché muovendosi comprime i fronti d'onda.
Dato che ora i fronti d'onda sono più ravvicinati percepiamo
una frequenza più alta cioè un suono più acuto.
Quando il mezzo ci supera (e sfreccia via nella notte),
allontanandosi distanzia i fronti d'onda e dunque in questa
fase percepiamo un suono più grave perché ci arriva una
frequenza più bassa.
Effetto Haas
Prende il nome di effetto Haas un determinato fenomeno fisico che riguarda la
percezione del suono da parte del cervello. Consideriamo il caso di un suono generato
da una sorgente sonora e immaginiamo di essere in una stanza e di posizionarci ad
una certa distanza dalla sorgente. A causa delle riflessioni del suono sulle pareti
saremo raggiunti prima di tutto dal segnale proveniente direttamente dalla sorgente e
in un secondo momento dalle riflessioni del segnale stesso sulle pareti della stanza.
Questo ritardo è dovuto al fatto che il suono riflesso compie un percorso più lungo del
segnale diretto. Se i due segnali arrivano con un piccolo ritardo l'uno dall'altro, viene
percepito dal cervello un unico suono proveniente da una sola direzione. La direzione
individuata dal cervello come quella di provenienza del suono è quella dell'onda che
arriva per prima (questo vale anche se l'intensità della seconda onda è maggiore della
prima) e per questo motivo questo effetto prende anche il nome di effetto di
precedenza. Questo effetto si verifica quando il ritardo tra i due segnali è
sufficientemente piccolo, più in particolare deve essere minore di 30-35ms. Questo
intervallo temporale viene definito come zona di Haas:
[0 - 35ms]
Quando il ritardo fra i segnali esce dalla zona di Haas avvertiamo due segnali distinti
ed entriamo nel caso dell'effetto eco per cui l'ascoltatore percepisce i due suoni come
distinti. L'effetto Haas viene sfruttato nei sistemi di rinforzo sonoro sui segnali che
vengono spediti alle torri di ritardo
Curve isofoniche
Sono grafici molto importanti che permettono di avere un riferimento
su come l'orecchio umano reagisca alle diverse frequenze. Sono state
ricavate elaborando i dati su un campione statistico sottoposto ad una
serie suoni prodotti in una camera anecoica. Tale camera viene
disegnata con lo scopo di ridurre al minimo le riflessioni sulle pareti in
modo che l'ascoltatore sia raggiunto unicamente dal segnale diretto.
Le curve indicano come l'orecchio umano reagisca diversamente alle
varie frequenze in termini di intensità sonora percepita. Supponiamo di
avere una sorgente sonora in grado di generare onde sinusoidali con
frequenza variabile e ampiezza costante. Fissando l'ampiezza per
esempio a 80 dBspl noteremmo che un ascoltatore percepisce le basse
frequenze come aventi un volume molto basso e man mano che la
frequenza viene aumentata avrebbe la percezione che anche il volume
aumenta (mentre la pressione sonora realmente generata è sempre di
80 dBspl). Questo comportamento si spiega con il fatto che l'orecchio
umano ha una percezione diversa dell'intensità sonora al variare della
frequenza.
Le curve isofoniche sono dette tali in quanto indicano il valore di dBspl
necessario per percepire un suono sempreallo stesso volume lungo
ogni curva. La frequenza di riferimento per ogni curva è 1KHz e a tale
frequenza, il valore di dBspl è pari al valore che identifica una
particolare curva e che prende il nome di phon.
Per esempio la curva isofonica a 40 phon è quella che a 1 KHz ha
un'ampiezza di 40 dBspl.
Prendiamo una delle curve, per esempio quella a 80 phon e
seguiamola dalle basse verso le alte frequenze. Vediamo che a 20 Hz è
necessario produrre una pressione sonora di 118 dBspl e questo ci
mostra come l'orecchio umano abbia una minore sensibilità alle basse
frequenze. Scorrendo la curva verso le alte frequenze vediamo che
affinché l'orecchio percepisca sempre la stessa intensità sonora sono
necessari livelli di pressione sonora più bassi. A 1KHz incontriamo il
valore di riferimento della curva isofonica che stiamo considerando,
dunque 80 dBspl. Oltre questo valore vediamo che la curva ha un
minimo in corrispondenza dei 3KHz e vediamo come affinché
l'orecchio percepisca sempre la stessa pressione sonora, la frequenza
di 3 KHz deve generare 70 dBspl. Confrontando questo valore con
quello a 20 Hz notiamo una differenza di circa 50 dBspl in meno, è una
differenza enorme. Questo valore di minimo dipende dal fatto che la
frequenza di risonanza del canale uditivo è di circa 3 KHz e dunque tale
frequenza viene percepita già a bassi valori di dBspl. Oltre i 3 KHz la
curva risale mostrando il livello di dBspl necessario per avere la stessa
percezione di volume alle alte frequenze. Le curve vengono mostrate
per diversi valori di phon in quanto il comportamento dell'orecchio
varia ai diversi valori della pressione sonora. Notiamo come per elevati
valori della pressione sonora, l'andamento delle curve isofoniche è
quasi piatto.
Loudness
Il controllo di loudness negli amplificatori da
casa è regolato proprio dall'andamento di
queste curve. Quando il volume è molto basso,
l'inserimento del circuito di loudness avrà come
effetto quello di aumentare le basse frequenze
allineandone l'ampiezza con le altre. Per volumi
elevati, questo allineamento avviene in modo
naturale da parte dell'orecchio e dunque
l'azionamento del loudness a questi volumi avrà
un effetto pressoché nullo.
La curva isofonica più bassa di tutte (0 phons)
viene denominata soglia di udibilità e indica la più
piccola variazione di pressione che l'orecchio è in
grado di individuare alle diverse frequenze.
Ricordiamo che queste curve sono ottenute
elaborando dati statistici e dunque che i valori che
stiamo considerando possono avere differenze
anche notevoli da individuo a individuo. Qualche
valore di riferimento relativo a questa curva
potrebbe essere utile nella pratica:
Per pressioni sonore i cui valori si trovano al di
sopra della curva 120 phons l'orecchio comincia a
percepire dolore fisico e per esposizioni prolungate
si possono generare danni non reversibili.
Il volume ideale per eseguire un missaggio
(mixdown) è intorno a 80-90 phons.
A questi valori il bilanciamento dei volumi delle
frequenze è abbastanza uniforme. Se il mixdown
venisse eseguito a un volume troppo basso, per
esempio a 40 phons, si avrebbe una minore
percezione dei bassi e si potrebbe essere tentati ci
compensare agendo sugli equalizzatori. Una volta
però che il nostro mix fosse riascoltato al 80 phons
risulterebbe inondato di bassi...
Fusione binaurale
E' quella facoltà del cervello per la quale due segnali simili che arrivano
alle due orecchie vengono fusi in un unico segnale; il nuovo segnale è
per così dire una creazione del cervello che non esiste nella realtà.
Consideriamo per esempio uno xilofono.
Eseguiamo una linea melodica e la registriamo su una traccia,
successivamente eseguiamo la stessa linea con qualche leggera
modifica e la registriamo su un'altra traccia. Facciamo suonare le due
linee contemporaneamente mandando una linea sul canale sinistro e
l'altra linea sul canale destro. Quello che ne esce è una terza linea
melodica derivante dalla fusione delle due precedenti ma che nella
realtà non esiste.
Questo è uno dei segreti della magia della musica: i singoli strumenti
eseguono delle linee melodiche e se facciamo attenzione riusciamo ad
isolarle ed ad ascoltarle singolarmente, anche quando gli strumenti
suonano tutti insieme. Ma quando lasciamo questa prospettiva e ci
spostiamo su un piano più astratto, è in quel momento che riusciamo a
percepire ciò che non esiste, la combinazione di tutti i suoni che
creano un'armonia: è in quel momento che la musica nasce!
Spettro delle frequenze udibili