Dispense del corso di Fonia e Tecnico del Suono
anno accademico 2013/2014
Seconda lezione
L'orecchio e l'udito
L’orecchio e l’udito
Il sistema uditivo si compone di sistema uditivo centrale e sistema uditivo periferico. Il sistema periferico
comprende orecchio esterno, orecchio medio, orecchio interno e nervo uditivo, mentre il sistema centrale è
formato dai percorsi uditivi nel tronco celebrale e dalla corteccia uditiva.
Orecchio esterno
L’orecchio esterno è composto da padiglione auricolare e meato acustico. Nell’uomo il padiglione non è né
molto grande né importante, mentre in molti mammiferi è mobile e di grandi dimensioni.
La sua funzione è quella di convogliare le onde sonore verso il timpano, quindi mobilità e grandi dimensioni
garantiscono risultati migliori. Il meato acustico è un condotto cilindrico, leggermente curvo, di 2cm di
lunghezza che termina con il timpano. Per la sua risonanza caratteristica, l’orecchio esterno amplifica le
frequenza intorno ai 1000Hz.
Orecchio medio
È una cavità ossea con quattro aperture, con le relative membrane, e contenente una catena formata da tre
ossicini: martello, incudine e staffa. L’apertura maggiore, la finestra timpanica, è ricoperta dal timpano, il
quale vibra in risposta alle sollecitazioni delle onde sonore convogliate dall’orecchio esterno. Il timpano è in
diretto contatto con la catena di ossicini, i quali si comportano come un sistema di leve che amplifica le
vibrazioni di circa due volte. Queste vibrazioni vengono trasmesse alla finestra ovale e da qui all’orecchio
interno, le cui variazioni di pressione vengono compensate dalla finestra rotonda.
La pressione ai due lati del timpano deve necessariamente essere la stessa, altrimenti le vibrazioni
sarebbero impedite. La quarta apertura, la tromba di Eustacchio, collega l’orecchio medio alla faringe e
serve a mantenere la pressione interna all’orecchio medio uguale a quella esterna.
Come protezione per l’orecchio, sulla staffa e sul martello si inseriscono due piccoli muscoli, lo stapedio ed il
tensore del timpano, i quali si contraggono, riducendo l’efficienza della catena di ossicini, quando le
vibrazioni trasferite dal timpano sono eccessive e rischierebbero di creare danni al sistema.
La finestra ovale è otto volte più piccola del timpano; questa differenza, insieme all’efficienza della catena di
ossicini (x2), fa sì che l’energia sulla finestra ovale sia circa 16 volte (8x2) quella sul timpano.
Orecchio interno
È formato da una serie di cavità nell’osso temporale, chiamate labirinto osseo, riempite da una serie di
sacchi e dotti membranosi chiamati nel loro insieme labirinto membranoso. Lo spazio tra il labirinto osseo ed
il labirinto membranoso è riempito di un liquido chiamato perilinfa, mentre all’interno del labirinto
membranoso c’è un fluido detto endolinfa.
Il labirinto membranoso è formato da tre canali semicircolari, che formano parte dell’organo dell’equilibrio, e
dalla coclea. La coclea è una struttura spiraliforme, con circa tre avvolgimenti e mezzo, al suo interno divisa
in due rampe da due membrane. La rampa vestibolare è in contatto con la finestra ovale da una parte e con
la rampa timpanica dall’altra. La rampa timpanica termina con la finestra rotonda.
Sulla base della rampa vestibolare sono sistemate una serie di cellule ciliate, che nel loro insieme prendono
il nome di organo del Corti.
Le onde sonore sono convogliate dall’orecchio esterno al timpano; questo, vibrando, aziona la catena di
ossicini che termina sulla finestra ovale. Il movimento della membrana sulla finestra ovale crea uno
spostamento dell’endolinfa all’interno della coclea; questo spostamento si muove per tutta la rampa
vestibolare, stimolando le cellule ciliate alla base di questa, prosegue nella rampa timpanica e finisce nella
finestra rotonda. Quando vengono stimolate, le cellule ciliate rilasciano un impulso nervoso che arriva al
sistema uditivo centrale; la quantità e la qualità di impulsi che arrivano al cervello vengono interpretati come
suono. Impulsi che arrivano dalle prime cellule ciliate nella coclea vengono interpretati come suoni alti,
impulsi provenienti dalla parte più distale vengono interpretati come suoni gravi.
Localizzazione di una sorgente
Il nostro cervello utilizza diverse informazioni da un suono per ricavare la posizione della sua sorgente
rispetto alla nostra posizione. Avere due orecchie è indispensabile al fine di ricavare queste informazioni,
uno solo non sarebbe sufficiente. Se una sorgente sonora non è centrale rispetto all'ascoltatore, il suono
arriverà con alcune differenze alle due orecchie. Il cervello è in grado di calcolare queste differenze e di
utilizzarle per risalire alla posizione della sorgente.
I metodi utilizzati dal nostro cervello possono essere divisi in:
•
•
•
ITD – Interaural Time Difference
ILD – Interaural Level Difference
HRTF – Head-Related Transfer Function
ITD
Viene calcolato il ritardo con cui un suono passa da un orecchio all'altro. Più il ritardo è grande, più la
sorgente sarà spostata lateralmente.
Questo però non avviene a tutte le frequenze: sotto i 300Hz l’origine di un suono non è più facilmente
localizzabile. Per questo i suoni sopra i 300 Hz vengono considerati come raggi direzionali, quelli sotto come
onde adirezionali. Questo spiega perché in genere non è importante dove si posiziona un subwoofer.
ILD
Se un suono ci colpisce lateralmente, la testa creerà un cono d'ombra tale per cui l'orecchio più lontano
rispetto alla sorgente percepisce un volume minore rispetto all'altro. Maggiore la differenza di volume tra le
due orecchie, maggiore lo spostamento laterale della sorgente.
HRTF
La testa agisce da filtro, attenuando alcune frequenze ed enfatizzandone altre. Il modo in cui la testa filtra i
suoni è caratteristica di una determinata direzione di provenienza.
Sensibilità dell’orecchio
La sensibilità dell'orecchio umano dipende dalla frequenza del suono: è massima per le frequenze tra 2000 e
5000 Hz e sempre minore man mano che ci allontaniamo da questo intervallo. In pratica, un suono di 20 dB
risulterà al di sotto della soglia di udibilità se emesso a 100 Hz, mentre risulterà udibile se emesso a 2500
Hz. La misura dell'intensità viene quindi ponderata secondo una scala che tiene conto della diversa risposta
del nostro orecchio (curva di ponderazione A) e i rilievi così effettuati vengono indicati con il simbolo dB(A).
Negli anni ’30 fu pubblicato un fondamentale studio sulla sensazione sonora, realizzato da Fletcher e
Munson presso i laboratori Bell. Questo studio, in seguito ulteriormente perfezionato, è oggi alla base delle
curve di sensazione rappresentate nel grafico che segue, note come curve di Fletcher e Munson.
Lo studio venne affrontato con una metodologia che è quella tipica della psicoacustica: numerose persone
furono sottoposte a fenomeni sonori e ne furono raccolte le dichiarazioni riguardo alle loro sensazioni.
In questo caso furono verificate le sensazioni riguardo all'ampiezza dei suoni - quello che viene
comunemente detto "il volume" - rispetto alla frequenza del suono.
Le curve del grafico sono infatti anche dette curve di isofonia ad intendere che ogni curva rappresenta un
certo "volume" percepito.
La tabella, risalente agli anni '30, è stata in seguito talmente confermata fino ad arrivare quasi inalterata fino
ai giorni nostri.
Per definire la tabella è stata scelta la frequenza di riferimento di 1000 Hz: il valore di livello di pressione
sonora (in dB SPL) assunto da ogni curva isofonica (curva di uguale sensazione) alla frequenza di 1000 Hz
definisce il livello di sensazione sonora in phon.
Altezza in funzione della frequenza: il mel
L’altezza di un suono, intesa come percezione psicoacustica, è principalmente funzione della frequenza, ma
non in modo strettamente lineare. Per misurare questa sensazione di altezza è stata introdotta un’unità di
misura detta mel.
Si è stabilita come altezza di riferimento di 1000 mel la sensazione data dai 1000 Hz a 60 dB. Una scala
sperimentale dei mel è rappresentata nel grafico. Al variare della pressione sonora la curva subisce delle
variazioni.
Per comprendere però quanto sia complessa la questione dell’altezza soggettiva di un suono, si tenga conto
dell’esperimento che segue.
Si pongono due sorgenti sonore a distanza uguale ma in direzioni diverse di fronte a un ascoltatore, come in
figura.
Le due sorgenti emettono segnali puri a 168 Hz la prima e a 318 Hz la seconda. Se i segnali restano a
volume abbastanza basso, essi risultano discordanti all’orecchio e producono una sensazione di fastidio
nell’ascoltatore.
Si vedrà però che, aumentando progressivamente il volume delle due sorgenti, la sensazione dell’altezza dei
segnali tenderà a scendere: il segnale di sinistra arriverà ad un certo punto a dare la sensazione di 150 Hz,
quello di destra la sensazione di 300 Hz: essi dunque risulteranno piacevolmente combinati.
Si può verificare che ripetendo lo stesso esperimento con due frequenze più alte si avrà lo stesso effetto,
solo che le note daranno l’impressione di salire in frequenza quando sarà alzato il volume, invece di
scendere in frequenza.
Questo fenomeno ci dimostra quanto una semplice misurazione fisica di un avvenimento sonoro non renda
conto di ciò che sente un ascoltatore, infatti un'analisi oggettiva restituirebbe a qualsiasi volume il risultato di
due frequenze di 168 Hz e 318 Hz.
Consonanza e dissonanza sono due sensazioni (indotte, legate cioè al condizionamento culturale) provocate
dalla sovrapposizione di due o più suoni e dai battimenti dovuti alla sovrapposizione.
Percezione del suono
La percezione di alcuni parametri del suono è sempre influenzata dal valore di altri parametri. La variazione
di uno dei parametri percepiti causa l'alterazione di almeno un altro parametro.
La durata nella percezione dell'altezza
Affinché un'altezza sia riconoscibile, un suono deve avere una durata minima. Se il suono è troppo breve
verrà percepito con un'altezza indefinita, simile a un rumore.
La durata minima che un suono deve avere affinché il cervello individui la sua altezza varia con la frequenza
del suono stesso. Suoni sotto i 500Hz e sopra i 4000Hz richiedono più tempo per essere riconosciuti rispetto
ai suoni tra i 2000Hz e i 4000Hz. Nei casi più estremi, alle basse frequenze possono essere necessari fino a
60ms prima di riuscire a stabilirne l'altezza.
La durata minima per innescare la percezione dell'altezza dipende anche dall'attacco e dal timbro di un
suono. Suoni più complessi, ma più ricchi di armoniche che di parziali, vengono riconosciuti più
velocemente.
Il volume nella percezione dell'altezza
Il volume ha un ruolo importante nell'identificazione dell'altezza di un suono, poiché l'uomo percepisce un
apparente cambio di altezza quando avviene un cambio di volume. Per i suoni sotto i 2000Hz, un aumento di
volume causa un apparente abbassamento dell'altezza; un aumento di volume per i suoni sopra i 2000Hz
causa un apparente innalzamento dell'altezza di un suono, anche se in entrambi i casi effettivamente non
avviene nessun cambiamento sulla frequenza del suono.
Percezione del volume e del tempo
Il volume può influenzare la percezione delle relazioni temporali. Se abbiamo due suoni che iniziano insieme,
questi verranno percepiti come se avessero attacchi non simultanei se uno dei due è significativamente più
alto in volume. Quello più alto verrà percepito come se fosse iniziato prima.
La percezione del volume è spesso distorta dalla velocità alla quale le informazioni sono elaborate. Quando
un gran numero di suoni sono emessi in poco tempo, l'ascoltatore percepirà questi suoni come se avessero
un volume più alto rispetto a suoni allo stesso volume ma distribuiti in un arco di tempo maggiore.
Alterazione della percezione del volume dovuta a durata e timbro
La durata di un suono può distorcere la percezione del suo volume. L'uomo tende a percepire il volume
medio dopo 2/10 di secondo. Suoni più brevi verranno percepiti con un volume diverso rispetto a suoni della
stessa intensità ma con durata superiore a 2/10 di secondo.
Il timbro può influenzare la percezione del volume. Suoni con uno spettro complesso verranno percepiti
come più forti rispetto a suoni con meno armoniche. Un cambio di timbro nella fase di sustain di un suono
verrà percepito come un cambio di volume.
Percezione dell'altezza in relazione allo spettro (fondamentale mancante)
Come risultato tra la relazione delle armoniche con la fondamentale, il timbro di un suono può creare la
percezione dell'altezza di un suono anche quando la fondamentale non è fisicamente presente
(fondamentale mancante).
Le armoniche sono caratteristiche di una specifica fondamentale e conoscendo lo spettro la si può
identificare, anche quando questa non è conosciuta.
Il cervello attribuisce l'altezza di un suono basandosi più sui rapporti tra le armoniche di tutto lo spettro, che
non sulla sola fondamentale.
L'altezza è quindi attribuita alla frequenza corrispondente alla fondamentale anche se questa non è stata
nemmeno fisicamente emessa.
Questo effetto è molto sfruttato dai costruttori di casse acustiche per aumentare la sensazione della
presenza dei suoni più bassi.
Ampiezza, tempo e localizzazione
Il volume di due suoni separati nel tempo può influenzare la percezione della loro localizzazione. L'effetto
precedenza, o effetto Haas, avviene quando due speaker riproducono lo stesso suono ma con un lieve
ritardo. Si potrebbe pensare che la nostra percezione della localizzazione sia spostata sullo speaker che
suona nel primo istante per essere riportata poi al centro, una volta che anche il secondo speaker inizi a
suonare. L'effetto Haas fa sì che la nostra percezione della localizzazione sia spostata sul primo speaker
che suona, anche quando inizia a suonare anche il secondo. Questo avrà l'effetto di rinforzare il volume,
senza far perdere la sensazione che il suono provenga solo dal primo speaker. I due suoni devono essere
ritardati almeno di 3/5ms e non più di 25/30ms, oltre questo valore viene percepito un effetto di delay.
Se il primo suono ha un volume di 10dB inferiore al secondo, l'immagine torna ad essere percepita come
centrale.
Mascheramento
In alcune situazioni un suono normalmente udibile può essere mascherato da un altro suono. Ad esempio, la
conversazione a una fermata di autobus può diventare completamente impossibile se si sta avvicinando un
rumoroso autobus. Questo fenomeno è chiamato "mascheramento". Un suono più debole è detto
"mascherato" se è reso inudibile dalla presenza di un suono più forte.
Se due suoni vengono prodotti simultaneamente e uno è mascherato dall'altro, si parla di mascheramento
simultaneo. Un suono di frequenza prossima a quella del suono più forte è mascherato più facilmente
rispetto a uno di frequenza molto diversa. Per questo motivo, il mascheramento simultaneo è anche
chiamato "mascheramento di frequenza".
La tonalità di un suono è parzialmente determinata da questa abilità di mascherare gli altri suoni.
Allo stesso modo, un suono leggero emesso appena dopo la fine del suono alto è mascherato da
quest’ultimo. Persino un suono leggero appena prima di un suono alto può essere mascherato da un suono
alto. Questi due effetti sono chiamati rispettivamente anticipo e ritardo del temporal-masking
(mascheramento temporale).