l`acustica dell`orecchio esterno: un approccio a modelli - DEI

Rivista Italiana di Acustica
Vol. 39 (2015), N. 1, pp. 32-48
ISSN: 2385-2615
www.acustica-aia.it
L’ACUSTICA DELL’ORECCHIO ESTERNO: UN APPROCCIO A
MODELLI STRUTTURALI MISTI PER DISPLAY UDITIVI VIRTUALI
THE EXTERNAL EAR ACOUSTICS: A MIXED STRUCTURAL
MODELING APPROACH IN VIRTUAL AUDITORY DISPLAYS
Michele Geronazzo *
Dip. di Ingegneria dell’Informazione, Università degli Studi di Padova
* Indirizzo dell’autore di riferimento - Corresponding author’s address:
Via Gradenigo, 6/A, 35131, Padova, Italia
e-mail: [email protected]
(Ricevuto il 30/03/2015, accettato il 27/06/2015)
RIASSUNTO
Gli effetti acustici rilevanti per la percezione verticale del suono, quali le riflessioni sui
contorni del padiglione auricolare e le risonanze all'interno delle cavità dell'orecchio, possono
venir isolati e modellati da una combinazione di filtri sintetici e contributi misurati
acusticamente. Questo approccio prende il nome di modellazione strutturale mista (MSM) e
viene utilizzato, più in generale, per descrivere la Head-Related Transfer Function (HRTF), che
cattura gli effetti di testa, busto e orecchie dell'ascoltatore. Questo articolo impiega la MSM
nella realizzazione di display uditivi capaci di adattarsi all'antropometria dell'ascoltatore per la
resa della dimensione verticale del suono.
ABSTRACT
The most important acoustic effects involved in vertical spatial sound perception, i.e.
reflections on pinna contours and resonances inside the ear cavities, are isolated and modeled
separately. The combination of such components that can be chosen to include either synthetic
or measured components, is formalized in the Mixed Structural Modeling (MSM) approach
which describes, more in general, the Head-Related Transfer Functions (HRTFs) capturing
effects of head, torso, and external ear of the listener. This paper employs the MSM approach
aiming at building personalized virtual auditory displays (VADs) able to adapt to listener
anthropometry and to convey vertical localization cues.
Parole chiave: orecchio esterno; HRTF; audio binaurale; antropometria; personalizzazione.
Keywords: pinna; HRTF; binaural audio; anthropometry; personalization.
© Associazione Italiana di Acustica, 2015
Michele Geronazzo
L’acustica
’acustica dell’orecchio esterno: un
un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
1 Introduzione
L’abilità del sistema uditivo umano nello stimare la posizione spaziale delle sorgenti
sonore negli ambienti acustici ha grande importanza per ragioni legate alla
sopravvivenza [1] e ha un ruolo rilevante in molte delle attività di tutti i giorni:
individuare potenziali pericoli nell’ambiente, attuare
attuare un’attenzione selettiva per un certo
flusso di informazioni. L’udito ha ottime performance in queste attività, completando
l’informazione fornita dal canale visivo, ad esempio nella localizzazione di un obiettivo
che si trova fuori dal campo visivo.
Negli
li ultimi decenni, la spazializzazione del suono è diventata sempre più
importante in numerosi domini applicativi. Il rendering spaziale del suono è in grado di
aumentare l’efficacia delle interfacce uditive uomo-macchina
uomo
[2],, e in particolar modo
nei casi dove l’interfaccia visiva è limitata in estensione e/o in risoluzione come nei
dispositivi mobili [3],, o è inutilizzabile se l’utente è non vedente [4];; inoltre, l’audio 3D
migliora il senso di presence in ambienti di realtà
tà virtuale o aumentata e aggiunge
coinvolgimento nei computer games.
In accodo con Morimoto [5], la valutazione soggettiva umana di ambienti acustici
virtuali/reali prende la forma di due spazi, uno fisico e uno psicologico. Le onde
acustiche prodotte da sorgenti sonore che incontriamo ogni giorno nella nostra vita sono
soggette
ggette a diverse trasformazioni lungo il percorso prima di giungere ai timpani
dell’ascoltatore (vedi Fig. 1).
1). Le informazioni acustiche al timpano sono descritte nelle
binaural room impulse responses (BRIRs) individuali.
iduali. Una sorgente sonora irradia un
segnale acustico che subisce trasformazioni temporali e spettrali dovute all’ambiente e
al corpo dell’ascoltatore. Le proprietà dell’ambiente sono contenute nella room impulse
response (RIR),, mentre la head-related impulse response (HRIR) incorpora il
contributo acustico proprio della fisicità dell’ascoltatore. Possiamo quindi definire la
BRIR come somma di RIR e HRIR, capace di fornire la rappresentazione fedele di una
particolare sorgente sonora rispetto ad uno specifico
speci
ascoltatore [6].. Inoltre le onde
sonore sono influenzate dinamicamente dal ruolo attivo del corpo dell’ascoltatore, che
può così collezionare informazioni peculiari sugli attributi della sorgente sonora.
Fig. 1 - L’informazione acustica
acustic e la struttura dell'orecchio - The acoustic
information and the structure of the ear.
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 33
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
La percezione dell’evento uditivo s è caratterizzata da caratterizza da tre gruppi
principali di attributi, o elemental senses [5]:
1) attributi temporali: ritmo, durata, livello di riverbero ecc.
2) attributi spaziali: direzione, distanza, impressione spaziale ecc.
3) attributi di qualità: loudness, pitch, timbro ecc.
L’ascoltatore assegna dei giudizi soggettivi per ogni elemental sense essendo
inevitabilmente influenzato dal personale stato emozionale.
In questo articolo viene data particolare attenzione al secondo gruppo: indicatori
uditivi prodotti dal corpo umano che includono indicatori binaurali quali interaural
level and time differences (ILD e ITD), e indicatori monoaurali come le trasformazioni
spettrali ad opera del filtraggio acustico dell’orecchio esterno. Queste caratteristiche
sono raccolte nella HRIR o nella sua trasformata di Laplace nel dominio della
frequenza, Head- Related Transfer Functions (HRTFs), formalmente definita come la
funzione di trasferimento acustica tra sorgente sonora e timpano, caratterizzata da una
dipendenza in frequenza e spazio, e adeguatamente compensata in campo libero [7].
E’ molto importante sottolineare che le tecnologie per l’audio binaurale si basano su
una caratterizzazione individuale dell’antropometria e della percezione, che a sua volta
fa da riferimento per la sintesi e la modellazione di HRTF. Tuttavia la misurazione
acustica individuale di HRTF per un gran numero di ascoltatori è attualmente molto
dispendiosa in termini di tempo e risorse. Per questo motivo, l’uso di HRTF non
individuali è preferito nella pratica, utilizzando misurazioni su manichini, quali il
KEMAR [8] costruito su misurazioni antropometriche medie o di specifici ascoltatori
reali; questo approccio rappresenta una modalità immediata e a basso costo per fornire
un rendering binaurale riprodotto in cuffia e introduce evidenti errori di localizzazione e
colorazione, nonché una scorretta percezione dell’elevazione, confusione front-back, e
mancanza di esternalizzazione [9], specialmente quando non viene impiegato nella
riproduzione audio alcun tracciamento dei movimenti della testa [10].
Sono state proposte negli ultimi due decenni diverse tecniche per la progettazione
di HRTF sintetiche e tra le più promettenti vi è quella che utilizza i modelli strutturali
[11]. In questo approccio innovativo, gli effetti più importanti coinvolti nella percezione
spaziale del suono (i ritardi acustici e le ombre acustiche ad opera della diffrazione
attorno alla testa, le riflessioni sui contorni dell’orecchio esterno e sulle spalle, le
risonanze all’interno delle cavità dell’orecchio) sono isolati e modellati separatamente
nell’elemento filtrante corrispondente. La selezione di HRTF [12-14] non individuali e
queste procedure di modellazione possono essere entrambe analizzate con una
interpretazione strutturale: i parametri di ogni blocco di rendering o i criteri di
selezione possono venir stimati dalla relazione tra dati reali o simulati e antropometria
dell’ascoltatore. La realizzazione di efficaci display uditivi personali rappresenta un
notevole passo in avanti per numerosi domini applicativi; l’approccio strutturale consente
una intrinseca scalabilità a seconda delle risorse computazionali o della larghezza di
banda disponibili. Ad esempio, scene altamente realistiche audio e video riescono ad
essere gestite sfruttando il parallelismo delle Graphics Processing Unit (GPU) [15].
L’approccio a modellazione strutturale mista (MSM) [16] considera la HRTF
globale come una combinazione di elementi strutturali, che possono essere scelti tra
componenti sia sintetiche sia registrate. In entrambi i casi, la personalizzazione si basa
su dati antropometrici individuali, utilizzati per adattare sia i parametri del modello sia
per selezionare una componente simulata o misurata, tra un insieme di risposte
all’impulso disponibili. La definizione e la validazione sperimentale dell’approccio a
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 34
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
MSM affronta le questioni cruciali riguardanti l’acquisizione e il rendering di scene
acustiche binaurali, definendo alcune linee guida di progettazione per ambienti virtuali
personali che utilizzano l’audio 3D e che possiedono nuove forme di comunicazione e
di interazione con contenuti sonori. In questa prospettiva, tali studi rappresentano una
novità nella letteratura scientifica che ha come principale campo di indagine l’acustica
virtuale.
Questo articolo è organizzato come segue. Un’introduzione e una panoramica sulla
percezione spaziale del suono, in particolare la localizzazione verticale del suono sono
trattati nella Sezione 2. La Sezione 3 è dedicata al formalismo della modellazione
strutturale mista e alla sua corrispondente metodologia di ricerca. La Sezione 4 si occupa
del caso di studio completo riguardante l’approccio a modellazione strutturale mista
dell’acustica dell’orecchio esterno, fornendo degli approfondimenti riguardanti i
principali aspetti innovativi di tale modus operandi. La Sezione 5 fornisce le linee guida
per il design di ambienti di realtà virtuale multimodale in termini di problematiche
riguardanti vincoli di tempo reali, requisiti per la mobilità e personalizzazione del
segnale audio.
2 Ascolto spaziale: localizzazione verticale
Ricercatori provenienti da diverse discipline hanno dato forma alla conoscenza
dell’ascolto spaziale. Fisica, fisiologia, psicologia ed elaborazione del segnale si
uniscono interdisciplinarmente in un ampio spettro di studi, dagli aspetti di base a quelli
applicativi. La localizzazione di uno o più eventi sonori, la percezione spaziale
soggettiva in ambienti reali e virtuali sono alcuni argomenti di spicco studiati da
scienziati di livello internazionalmente quali Blauert [17] e Xie [18]. E’ risaputo che
l’ascolto direzionale sul piano verticale mediano ha una risoluzione spaziale peggiore
rispetto a quello sul piano orizzontale [17]. La soglia per individuare cambiamenti nella
direzione della sorgente sonora nel piano mediano non è mai minore ai 4o per arrivare a
circa 17o per suoni non familiari quali le lingue straniere. Questa limitata risoluzione è
motivata da due osservazioni:
- la non esistenza di ITD e ILD tra i segnali che arrivano all’orecchio sinistro e
destro, che rappresentano gli indicatori primari per la percezione orizzontale;
- la necessità di contenuto informativo alle alte frequenza (sopra i 4-5 kHz) per
un’accurata localizzazione verticale [19, 20].
L’abilità nella localizzazione verticale è principalmente collegata alla presenza
dell’orecchio esterno e del padiglione auricolare (pinna) [21]. Sebbene la localizzazione
in qualsiasi punto dello spazio coinvolga le cavità delle pinne di ciascuno orecchio [20],
il processo di determinazione dell’angolo verticale di provenienza di un suono nel piano
mediano è essenzialmente monoaurale [19]. L’orecchio esterno gioca un ruolo
fondamentale nell’introdurre amplificazioni (picchi) e attenuazioni (notch) nello spettro
delle HRTF e le caratteristiche di frequenza centrale, ampiezza e banda dipendono
principalmente dall’angolo di elevazione [22] e, in misura minore, dall’azimuth [23] e
dalla distanza [24] tra sorgente e ascoltatore.
2.1
Indicatori spettrali alle alte frequenze
L’acustica dell’orecchio esterno è stata storicamente rappresentata in due modi:
come un filtro nel dominio della frequenza [17] e come un sistema di riflessioni delayand-add nel dominio del tempo [21], considerato che il ritardo di riflessione sulla pinna
produce dei notch spettrali.
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 35
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
L’evoluzione dei notch per sorgenti poste nel piano mediano frontale è stata studiata da
Raykar et al. [25] attraverso una semplice tecnica di ray-tracing per relazionare ogni
cammino di riflessione sulla forma della conca e del crus helias con le corrispondenti
frequenze centrali di notch. Tuttavia tale relazione uno ad uno risulta poco precisa e, in
questo articolo, sarà oggetto di approfondimento.
Gli altri fenomeni acustici che contribuiscono a dare forma allo spettro della HRTF
sono le risonanze e le diffrazioni all’interno della conca. Shaw [26] identificò un totale
di cinque modi risonanti eccitati da diverse direzioni del suono responsabili dei
principali picchi spettrali della HRTF: una risonanza omnidirezionale a 4,2 kHz (modo
1), due risonanze verticali a 7,1 e 9,6 kHz (modi 2 e 3) e due risonanze orizzontali a
12,2 e 14,4 (modi 4 e 5). Recenti simulazioni numeriche effettuate da Kahana et al.
[27], attraverso BEM su modelli mesh di orecchie, hanno confermato i risultati di Shaw.
Inoltre, diffrazioni all’interno della cavità della conca [23] e attorno all’area del tragus
[28] inducono riflessioni sulla parte posteriore della conca.
L’importanza relativa dei principali picchi e notch nella percezione dell’elevazione è
tuttora oggetto di acceso dibattito nella comunità scientifica [14], [19], e non è ancora
riconosciuto all’unanimità quale sia il peso di ciascuna caratteristica spettrale nella
localizzazione verticale del suono.
2.2
Indicatori spettrali alle basse frequenze
Quando una sorgente sonora contiene sufficiente energia alle alte frequenze, si
ottiene un giudizio di elevazione accurato; per lunghezze d’onda maggiori delle
dimensioni della pinna, sotto i 3 kHz, la pinna non ha alcun effetto e tale intervallo di
frequenza non influenza la percezione in elevazione. Tuttavia in assenza di frequenze
medio-alte , l’ascoltatore riesce a stimare l’elevazione di una sorgente con buona
accuratezza [28]. Questi risultati suggeriscono che la diffrazione intorno alla testa,
l’ombreggiatura acustica e le riflessioni su busto e spalle costituiscono degli indicatori
di localizzazione verticale, anche se deboli rispetto a quelli della pinna [29].
Il busto introduce un effetto di ombra acustica per onde sonore provenienti da
posizioni sotto l’ascoltatore. In maniera complementare, le spalle perturbano le onde
sonore incidenti che provengono dalle restanti posizioni. In particolare, quando la
sorgente sonora è sopra all’ascoltatore, le spalle forniscono un’importante riflessione il
cui ritardo è proporzionale alla distanza orecchio-spalla [29]. Inoltre, il busto opera delle
perturbazioni alle basse frequenze dell’ITD, anche se non è chiaro in che modo possa
aiutare a risolvere ambiguità nella localizzazione per il cono di confusione [29].
2.3
Movimenti della testa
Perret e Noble [30] hanno studiato la stima dell’elevazione in condizione di
padiglione auricolare occluso e con l’utilizzo di segnali privi di energia alle alte
frequenze. In tale scenario, le rotazioni della testa lungo l’asse verticale inducono delle
variazioni alle basse frequenze nell’ITD e ILD, rappresentando così dei fondamentali
indicatori dinamici per l’elevazione, specialmente nel piano mediano frontale. Ulteriori
studi [31] hanno individuato i movimenti di rotazione sugli assi verticale e sagittale
della testa come indicatori per la localizzazione sul piano mediano.
In generale, le performance di localizzazione dinamica variano rispetto alle
informazioni temporali e spettrali della sorgente sonora [32].
:
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 36
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
3 Modelli strutturali misti
L’approccio MSM si avvale di due definizioni di riferimento [16]
1. Una head-related transfer function parziale (pHRTF) contiene informazioni
acustiche misurate isolando specifiche parti del corpo (p.e. relative al contributo del
solo orecchio esterno), oppure stimate mediante tecniche DSP atte alla
decomposizione di HRTF misurate [33].
2. Una head-related transfer function sintetica e parziale (
) contiene le
informazioni acustiche relative a specifiche parti del corpo siano esse modellate o
artificialmente generate attraverso simulazioni acustiche.
Sia HRTFi il set individuale di HRTF per un soggetto i; l'approccio di modellazione
,
strutturale mista (MSM) qui proposto fornisce una possibile approssimazione,
tale che
.
Tale approssimazione è costruita collegando N componenti, ovvero le N pHRTF
relative a diverse parti del corpo. Nei modelli strutturali, N tipicamente è uguale a 3 (le
componenti di testa, spalle/torso e orecchio), ma questo numero è relazionato a quali e
quante di queste componenti vengono considerate indivisibili (ad esempio in una HRTF
completa, N = 1), oppure ulteriormente separate (p.e. conca ed elice possono essere
modellati separatamente) o estese supportando componenti aggiuntive (ad esempio, il
contributo del canale uditivo). Ogni componente può essere scelta all'interno di tre
differenti raggruppamenti:
1) componenti individuali (le pHRTF del soggetto i);
2) componenti selezionate (le pHRTF di soggetti diversi da i);
3) componenti modellate (le
sintetizzate).
L'approssimazione
includerà S componenti selezionate, I componenti
individuali e M componenti modellate:
(1)
1
1
1
con i, s ∈ , m ∈
e I + S + M = N, dove:
e
rappresentano le collezioni di soggetti e modelli per cui almeno una
pHRTF o una
sia disponibile;
è l'operatore che si riferisce ad una rappresentazione a filtri, e può identificare
una connessione in serie o in parallelo;
- sk e ik indicano la k-esima componente parziale rispettivamente per un soggetto s
e per il soggetto i;
- mk è la k-esima componente modellata.
Le componenti selezionate in (1) sono in generale un sottoinsieme di N componenti
scelte in base al seguente criterio di ottimizzazione:
(2)
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 37
! " ,
1, … , % |
'"("'"))* + ,
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
dove:
- S rappresenta una data tecnica di selezione;
- ekS è l'errore di selezione associato alla componente k-esima.
Come caso particolare, per S = M = 0 e I = N si ottiene la HRTF individuale
misurata:
(3)
1
3.1
Valutazione e modus operandi
Adottando diverse combinazioni di S, I e M, il formalismo MSM può descrivere
altre casistiche rilevanti e già proposte nella precedente letteratura scientifica:
- S = N = 1, I = M = 0 e utilizzo di un soggetto generico s: utilizzo indiscriminato
di HRTF non individuali (ad esempio, quando sono disponibili solamente le
HRTF di un manichino).
- S = N = 1, I = M = 0 e utilizzo di un soggetto s* che minimizza un dato errore di
selezione: selezione di HRTF [13].
- M = N = 1, I = S = 0 e utilizzo di un modello m* che minimizza un dato errore
di modellazione: modellazione di HRTF senza decomposizione strutturale [2].
- M = N = 3, I = S = 0 e utilizzo di modelli personalizzati mk per ogni
componente: modellazione strutturale di HRTF [11].
L'obiettivo dell'approccio MSM è duplice:
1. eliminare progressivamente tutte le componenti parziali individuali, cioè I = 0 e
S + M = N;
2. fornire tecniche affidabili per la modellazione e selezione di pHRTF, e valutarne
le combinazioni con l'obiettivo di ottenere un modello strutturale completo.
La soluzione ottimale corrisponde al caso M = N, I = S = 0:
(4)
1
La Fig. 2 schematizza il flusso di lavoro che determina lo sviluppo di uno specifico
MSM all'interno dello spazio di tutte le possibili istanze del modello. Date le collezioni
e , e le HRTF individuali misurate, la procedura di valutazione fornisce il migliore
MSM, vale a dire la migliore combinazione tra componenti modellate e selezionate.
L'esclusione di alcune istanze e di alcune combinazioni di componenti è guidata da
una procedura di valutazione in due fasi: (i) singola componente, (ii) intero modello.
I due parametri di valutazione fondamentali che vengono considerati sono:
- accuratezza - ∈ [0, 1], definita come la correlazione tra le performance di
localizzazione della singola pHRTF selezionata, modellata o individuale;
- praticità . ∈ [0, 1], che misura quantitativamente (p.e. quantità di dati necessari,
risorse computazionali ecc.) e qualitativamente (usabilità, comfort ecc.) la
facilità di gestione del modello o della procedura di selezione attraverso
l’utilizzo di parametri individuali.
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 38
Michele Geronazzo
L’acustica
’acustica dell’orecchio esterno: un
un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
Fig. 2 - Tipico flusso di lavoro verso la ricerca di un modello strutturale misto
[16] - Typical research workflow towards a mixed structural model
Questi
ti due parametri, infine, definiscono
definis
l'efficienza η k = α k λ k del particolare mk
preso in considerazione. Ci si propone di ottimizzare
(5)
Il candidato m k* viene quindi confrontato con il candidato sk* . Se sk* fornisce
un'accuratezza maggiore verrà scelto come k-esima componente, altrimenti
imenti si sceglierà
*
m k . Successivamente, la valutazione completa del modello prende le migliori soluzioni
per ogni k-esima
esima componente strutturale in modo da testare gli effetti della
combinazione all’interno di una scena virtuale tridimensionale.
tridimensionale. Gli stessi criteri di
valutazione precedentemente definiti determinando αMSM, ossia la correlazione tra le
performance di localizzazione globale delle risultanti
e HRTFi, con
N
(6)
λ MSM = ∏ λ k .
k =1
La massimizzazione di
guida quindi il processo di
combinazione per ogni successiva versione di MSM.
4 Approccio MSM: l’orecchio esterno
Questa sezione considera il problema della modellazione del contributo acustico
della pinna pHRTF o pinna-related
pinna
transfer function (PRTF) per il rendering
renderi di audio
3D. Seguendo il modus operandi proprio dell’MSM, viene proposto un algoritmo per la
scomposizione delle PRTF in risonanze e riflessioni. Tale strumento permette di
controllare separatamente l’evoluzione di ogni singolo fenomeno fisico, progettando
progetta
due distinti blocchi di filtri utilizzati nella fase di sintesi. Inoltre, i risultati ottenuti
permettono di parametrizzare sull’antropometria dell’ascoltatore il modello strutturale o
il processo di selezione di HRTF generiche.
4.1
Algoritmo di scomposizione
scomposiz
strutturale
Sia i picchi che i notch nella PRTF giocano un ruolo importante nella localizzazione
verticale del suono, tuttavia in un precedente lavoro [34] si è sottolineato come la
componente risonante abbia differenze intra-soggettive
intra soggettive minime, mentre la componente
riflessiva sia fortemente dipendente dall’ascoltatore.
dall’ascoltatore. Questi risultati sono stati ottenuti
separando le due componenti attraverso il structural decomposition algorithm [33].
Questo algoritmo è fondamentale per lo studio separato dei due fenomeni; esso utilizza
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 39
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
un approccio di analisi per sintesi per compensare iterativamente l’ampiezza dello
spettro della PRTF con un sequenza di filtri multi-notch finché non si raggiunge la
convergenza, ossia non vi siano attenuazioni locali al di sotto di una certa soglia in
ampiezza.
Il risultato di tali iterazioni può essere apprezzato nell’esempio di Fig. 3 sul soggetto
010 del CIPIC HRTF database [35], in cui viene estratta la componente risonante e
calcolata la componente riflessiva come combinazione di tutti i filtri multi-notch
iterativamente stimati.
Fig. 3 - Un esempio di evoluzione dell'algoritmo [33]. I tre principali contorni per
un soggetto (a destra) [13] - An example of the algorithm evolution [33].
Three main pinna contours of one subject (right) [13].
4.2
Riflessioni e antropometria
I modelli ray-tracing per le riflessioni [19] sono validi per lunghezze d’onda che
siano piccole rispetto alle dimensioni della superficie riflettente coinvolta. Le alte
frequenze nello spettro dell’udibile ricadono in questa casistica e possono coinvolgere i
notch causati dalle riflessioni sulla superficie della pinna. Si può intuitivamente stabilire
la seguente relazione:
d c (φ ) =
(7)
ct d (φ )
2
[m]
dove:
- c è la velocità del suono [m/s];
- td (ϕ) è il ritardo temporale dipendente dall’elevazione tra onda diretta e riflessa
[s];
- dc (ϕ) è il punto di riflessione calcolato dal canale uditivo, punto di osservazione
[m].
Lo studio di Satarzadeh [36] ha rivelato come quasi l’80% dei soggetti del database
CIPIC abbiano un coefficiente negativo di riflessione nelle interferenze distruttive
(notch in frequenza) le quali compiano a ritardi di un’intera lunghezza d’onda, così
risultando nelle corrispondenti cancellazioni di frequenza:
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 40
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
f n (φ ) =
(8)
n + 1 c(n + 1)
=
, n = 0,1,...
t d (φ ) 2d c (φ )
[Hz]
Quindi si ritrova il primo notch alla frequenza:
f 0 (φ ) =
(9)
c
.
2d c (φ )
[Hz]
I tre principali notch (quelli nello spettro dell’udibile) presenti nelle PRTF del piano
mediano possono essere mappati in una foto laterale della pinna [37] nei corrispondenti
punti di riflessione per ogni angolo di elevazione corrispondente, delineando così tre
contorni di riflessione sulla pinna (con riferimento a Fig. 3, pannello destro):
1. l’elice (C1);
2. l’antielice e la parete interna della conca (C4);
3. i bordi esterni della conca (C3).
4.3
Selezione di HRTF generiche
Grazie alla connessione fisica tra l’unicità dell’orecchio dell’ascoltatore e l’angolo
di elevazione nella localizzazione del suono e grazie anche al crescente aumento di
standard per la memorizzazione di HRTF e HpTF, è possibile attuare una procedura di
selezione di HRTF generiche a partire dalla foto dell’orecchio di un ascoltatore che non
possiede una HRTF individuale. La differenza tra frequenze centrali dei notch estratte
dall’immagine e quelle estratte dalle PRTF nel piano mediano per soggetti di cui si
hanno HRTF misurate definisce una funzione mismatch della forma:
'
(10)
dove:
-
0
1
∑160
34
|5|
∑5
|784 95:; <84 95:|
<84 95:
,
ϕ è l’elevazione tra [-45o,45 o] [gradi];
n è il numero di notch nell’intervallo di frequenze 4 – 16 kHz;
wi (con i = 1,4,3) è la combinazione convessa di pesi;
f0i(ϕ) è la frequenza calcolata dall’immagine dell’orecchio per l’i-esimo notch e
per l’elevazione ϕ [Hz];
F0i(ϕ) è la frequenza estratta con l’algoritmo descritto nella Sez. 4.1 per una
HRTF misurata e per l’i-esimo notch all’elevazione ϕ [Hz].
L’importanza relativa di ogni contorno nella funzione di mismatch è determinata dal
processo di aggiustamento dei pesi wi. che una volta definiti permettono la selezionata
della HRTF misurata con mismatch minimo.
4.4
Modellazione sintetica
In questa sezione, vengono descritte tre combinazioni di parametri per il modello
strutturale di pinna pHRTF illustrato in [33]:
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 41
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
-
-
-
Hs: tutti i parametri dei filtri vengono estratti direttamente dalle componenti
risonante e riflessiva risultanti dall’algoritmo di scomposizione [33]; questa
configurazione viene utilizzata per determinare la bontà della struttura a filtri del
modello;
Hc: le frequenze centrali dei notch sono ricavate dai contorni antropometrici
dell’orecchio secondo la sez. 4.1 [37]; i restanti parametri vengono estratti
direttamente dalle componenti risonante e riflessiva risultanti dall’algoritmo di
scomposizione; questa configurazione viene utilizzata per determinare la bontà
della procedura di personalizzazione;
Ha: le frequenze centrali dei notch sono determinate dai contorni antropometrici
dell’orecchio secondo la sez. 4.1 e i restanti parametri sono stimati dalla media
delle componenti risonanti e riflessive di tutti i soggetti dei CIPIC [34], o in
alternativa assumono valori fissi costanti [38].
Questa combinazione di parametri descrive tre modelli in ordine decrescente di
personalizzazione. In particolare, l’ultima proposta è la più indicata per un uso
commerciale in termini di maneggevolezza, a discapito dell’accuratezza del sistema.
4.5
Valutazione
I modelli candidati dell’approccio MSM vengono sottoposti a tre valutazioni
complementari rispetto alle PRTF misurate di riferimento (vedi sez. 3.1):
- valutazione oggettiva: utilizzo di metriche d’errore a livello di segnale, quali
distorsione e cross-correlazione spettrale [37];
- valutazione attraverso modelli uditivi: utilizzo di banchi di filtri che simulano il
comportamento e la sensibilità dell’apparato uditivo umano [39];
- valutazione soggettiva: test psico-acustici di ascolto su attributi della
spazializzazione [13], [40].
A titolo di esempio, in questo articolo vengono riportati degli esempi di valutazione
dei modelli MSM trattati nelle sezioni precedenti. La valutazione oggettiva è stata
effettuata su Hs e Hc in termini di distorsione spettrale (SD) rispetto alla HRTF misurata
sul range di frequenza (500 - 16000) Hz per 18 soggetti del CIPIC database [37]. L’SD
medio per Hs è ≈ 4 dB mentre per Hc si raggiungono ≈ 6 dB con peggioramento per le
elevazioni negative, dove sono presenti numerosi notch profondi che sono soggetti ad
errori di tracciamento dei contorni.
L’utilizzo di metriche percettive derivate da simulazioni di esperimenti virtuali è
stato utilizzato per predire le performance di localizzazione verticale di Hs con un errore
polare medio pari a ≈ 9o [39]. Infine diversi test psico-acustici sono stati condotti per
valutare Ha [38], [41] e la selezione di HRTF generiche [13]. In particolare, è emerso un
errore medio di localizzazione soggettivo per Ha di ≈ 17o e di ≈ 26o per HRTF generiche
selezionate con un criterio antropometrico.
5 Display uditivi personalizzati
I sistemi di riproduzione audio basati su cuffie e che fanno utilizzo di dispositivi di
tracciamento della testa, se adeguatamente progettati, permettono la riproduzione
immersiva e realistica di scene acustiche per qualsiasi ascoltatore. sezione
Nel seguito vengono presentati i principali risultati raggiunti dall’autore e
collaboratori presso il Dipartimento di Ingegneria dell’Informazione dell’Università di
Padova, nel progressivo sviluppo di algoritmi per l’analisi e la sintesi di HRTF
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 42
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
contenuti nel framework per display uditivi con audio 3D personalizzato, descritto in
[42, 43] e schematicamente rappresentato in Fig. 4.
Fig. 4 - Uno schema semplificato dell'architettura e del software sviluppato. - A
simplified scheme of the developed system's architecture and software.
6 Linee guida
Dato un panorama sonoro e un ambiente arbitrari, posizionando un array
microfonico in un particolare setup è idealmente possibile riprodurre l’acquisizione del
campo sonoro in una configurazione fissa di altoparlanti [44]; inoltre, è pensabile di
sintetizzare delle sorgenti sonore virtuali integrate in tale campo. Un’installazione di
acustica virtuale con queste caratteristiche può essere utilizzata da chiunque, tuttavia i
movimenti dell’ascoltatore sono limitati ad un ristretto sweet-spot e i costi di
costruzione e calibrazione del sistema possono anche essere molto elevati.
Tra le diverse possibilità offerte dalle tecnologie per la spazializzazione del suono, i
sistemi per l’audio binaurale in cuffia, una volta adeguatamente progettati, permettono
la resa di scene acustiche immersive e altamente realistiche per ogni utente, in qualsiasi
luogo. Per questo motivo, le piattaforme mobile si integrano bene con tale sistema,
permettendo all’utente di interagire con i dispositivi in movimento e senza l’uso della
vista [45]. Tuttavia, la nuova generazione di dispositivi mobile dovrà superare alcune
limitazioni, e nel medio-lungo termine gli obiettivi sono:
- integrare totalmente le tecnologie per l’audio binaurale nei dispositivi portatili e
web browser [46] assicurando una riproduzione audio dovunque;
- fornire al dispositivo le capacità per analizzare e sintetizzare campi acustici in
qualsiasi momento, on demand, utilizzando tecnologie avveniristiche di hearthrough headphones per la realtà aumentata sonora [47];
- sviluppare una tecnologia adattiva che sia in grado di fornire un’esperienza
individuale di ascolto per tutti.
Per lo sviluppo dell’ultimo punto, è stato realizzato un sistema per la
personalizzazione di audio binaurale basato sull’estrazione delle caratteristiche
geometriche di una rappresentazione 2D della pinna dell’ascoltatore [41]. Attraverso
una procedura automatica, il sistema è in grado di stimare i contorni della pinna e
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 43
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
l’entrata del canale uditivo, a partire da un insieme di foto prodotte attraverso la tecnica
di multi-flash camera [48]. La parametrizzazione di HRTF attraverso l’approccio MSM
assicura una personalizzazione e una bassa complessità computazionale nei modelli
utilizzati, rappresentando una soluzione più facilmente spendibile rispetto alla
misurazione o alla simulazione numerica di HRTF individuali.
6.1
Applicazioni multimodali
L’approccio modulare degli MSM è facilmente integrabile anche in domini
multimodali dove altri canali sensoriali, quali quello visivo e tattile, richiedono nuovi
strumenti flessibili per studiare l’integrazione, il mutuo rafforzamento e/o la
sostituzione tra modalità sensoriali.
In questo contesto, vengono raccolti due scenari sperimentali al fine di applicare le
funzionalità del feedback sonoro integrato a modalità tattili o visive, racchiusi in un
sistema interattivo multimodale per ambienti virtuali [49]: (i) un feedback con audio 3D
legato ai movimenti dell’utente durante una semplice attività di inseguimento di un
bersaglio rappresenta un esempio applicativo di sistema riabilitativo motorio [50]; (iii)
un sistema audio-tattile interattivo sintetizza l’informazione spaziale di mappe virtuali
per l’educazione all’orientamento e alla mobilità (O&M) di persone non vedenti [51,
52].
Conclusioni
In questo articolo è stato presentato l’approccio a modelli strutturali misti per la
stima, modellazione e selezione di PRTF, principale indicatore di localizzazione per la
percezione verticale del suono. E’ stato inoltre introdotto un algoritmo che separa
risonanze da riflessioni nello spettro della PRTF; la scomposizione risultante è stata
impiegata nella sintesi di PRTF misurate acusticamente attraverso modelli con filtri di
basso ordine. La relazione tra caratteristiche spettrali della PRTF nel piano mediano
frontale e l’antropometria dell’ascoltatore supporta l’ipotesi che le principali riflessioni
sulla superficie della pinna siano tre e abbiano coefficiente di riflessione negativo.
Grazie a questa osservazione, è stata proposta una personalizzazione della HRTF basata
sull’approccio MSM sia in forma di modellazione sintetica sia di selezione di HRTF
generiche.
Le linee guida per il progetto di display uditivi innovativi dovrebbero incorporare
più formalmente i concetti di accuratezza e praticità propri dell’approccio MSM, con
particolare attenzione alla qualità dell’auralizzazione, alle procedure di
individualizzazione e all’ergonomia/usabilità del sistema. Grazie al sempre crescente
numero di HRTF misurate e simulate [53], HpTF misurate [54] e relativi modelli, i
criteri derivanti dall’approccio MSM permettono di selezionare la migliore istanza di
MSM per ogni ascoltatore, anche quella per cui non sono disponibili le HRTF.
Alcuni sviluppi futuri prevedono l’uso sistematico di modelli uditivi in modo da
approfondire la comprensione del contributo dei singoli parametri nella percezione
dell’elevazione [39] e il processo di messa a punto di procedure di selezione di HRTF.
Inoltre, verranno prese in considerazione le caratteristiche di personalizzazione proprie
dell’effetto acustico causato del riposizionamento delle cuffie analizzando la funzione di
trasferimento cuffia-timpano attraverso nuovi criteri psico-acustici[55].
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 44
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
Conclusions
In this manuscript, a mixed structural approach for estimating, modeling and
selecting the pinna pHRTF was presented. An algorithm that separates the resonant and
reflective parts of the PRTF spectrum was firstly introduced and then such
decomposition was used to resynthesize the original PRTF through a low-order filter
model. Results showed an overall suitable approximation to the original PRTFs. The
relation between PRTF features and anthropometry in the frontal median plane supports
the hypothesis that main reflections occurring on pinna surfaces are three, each carrying
a negative reflection coefficient. Based on this observation an approach to HRTF
customization, mainly based on MSM approach of the pinna contribution, was proposed
in the form of synthetic models and HRTF selection procedures.
Design guidelines for innovative auditory displays should incorporate more
formally the MSM concepts of handiness and accuracy, specifically their relationship
with auralization, individualization procedures and system ergonomics/usability.
Thanks to the large amount of measured and simulated pHRIRs [53], measured
HpIRs [54] and the corresponding filter models, the MSM-guided criteria allow to
select the best MSM instance for any listener who is not present in the data set.
As future works, one can systematically exploit auditory models in order to
understand the influence of filter parameters in elevation perception [39] and the tuning
process in the HRTF selection procedure. The acoustic effect at the eardrum caused by
headphones repositionings will be investigated in the headphones-to-eardrum transfer
function supporting the analysis of personalization issues through new psychoacoustic
metrics [55].
Bibliografia
[1] Gridi-Papp, M., Narins, P.M. (2008). 3.04 - Sensory Ecology of Hearing. In: The
Senses: A Comprehensive Reference, New York: Academic Press, pp. 61-74.
[2] Begault. D.R. (1994). 3-D sound for virtual reality and multimedia. San Diego,
CA, USA: Academic Press Professional, Inc.
[3] Härmä, A., Jakka, J., Tikander, M., Karjalainen, M., Lokki, T., J. Hiipakka, et al..
(2004). Augmented Reality Audio for Mobile and Wearable Appliances. J Audio
Eng Soc, 52 (6), pp. 618–639.
[4] Afonso, A., Blum, A., Katz, B., Tarroux, P., Borst, G., Denis M. (2010).
Structural properties of spatial representations in blind people: Scanning images
constructed from haptic exploration or from locomotion in a 3-D audio virtual
environment. Mem. Cognit., 38 (5), pp. 591-604.
[5] Morimoto, M. (2002). The relation between spatial impression and the precedence
effect.In: Proceedings of Int. Conf. on Auditory Display (ICAD 2002), pp. 297306.
[6] Kleiner, M. , Dalenbäck, B.-I., Svensson, P. (1993). Auralization-an overview. J.
Audio Eng. Soc., 41(11), pp. 861-875.
[7] Cheng, C.I., Wakefield, G.H. (2001). Introduction to Head-Related Transfer
Functions (HRTFs): Representations of HRTFs in Time, Frequency, and Space. J
Audio Eng. Soc., 49(4), pp. 231-249.
[8] Gardner, W.G., Martin, K.D. (1995). HRTF Measurements of a KEMAR,” J
Acoust. Soc. Am., 97(6), pp. 3907-3908.
[9] Møller, H., Sørensen, M., Friis, J., Clemen, B., Hammershøi, D. (1996). Binaural
Technique: Do We Need Individual Recordings?. J Audio Eng. Soc., 44 (6), pp.
451-469.
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 45
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
[10] Thurlow, W.R., Mangels, J.W., Runge, P.S. (1967). Head Movements During
Sound Localization. J. Acoust. Soc. Am., 42(2), pp. 489-493.
[11] Brown, C.P., Duda, R.O. (1998). A Structural Model for Binaural Sound
Synthesis. IEEE Trans Audio Speech Lang. Process, 6(5), pp. 476-488.
[12] Seeber, B.U., Fastl, H. (2003). Subjective selection of nonindividual head-related
transfer functions. In Proceedings of Int. Conf. Auditory Display (ICAD 2003).
Boston, MA, USA, pp. 259-262.
[13] Geronazzo, M., Spagnol, S., Bedin, A., Avanzini, F. (2014). Enhancing Vertical
Localization with Image-guided Selection of Non-individual Head-Related
Transfer Functions. In: Proceedings of IEEE Int. Conf. on Acoustics, Speech, and
Signal Processing (ICASSP 2014). Florence, Italy, pp. 4496-4500.
[14] Iida, K., Ishii, Y., Nishioka, S. (2014). Personalization of head-related transfer
functions in the median plane based on the anthropometry of the listener’s pinnae.
J Acoust. Soc. Am., 136(1), pp. 317–333.
[15] Belloch, J.A. , Ferrer, M., Gonzalez, A., Martinez-Zaldivar, F.J., Vidal, A.M. (
2013). Headphone-Based Virtual Spatialization of Sound with a GPU Accelerator.
J. Audio Eng. Soc., 61(7/8), pp. 546–561.
[16] Geronazzo, M., Spagnol, S., Avanzini, F. (2013). Mixed Structural Modeling of
Head-Related Transfer Functions for Customized Binaural Audio Delivery. In
Proceedings of 18th Int. Conf. Digital Signal Process (DSP 2013). Santorini,
Greece, 2013, pp. 1–8.
[17] Blauert, J. (1983). Spatial Hearing: The Psychophysics of Human Sound
Localization. Cambridge, MA, USA: MIT Press.
[18] Xie, B. (2013). Head-Related Transfer Function and Virtual Auditory Display. J
ROSS PUB Incorporated.
[19] Hebrank, J., Wright, D. (1974). Spectral Cues used in the Localization of Sound
Sources on the Median Plane. J. Acoust. Soc. Am., 56(6), pp. 1829-1834.
[20] Morimoto, M. (2001). The Contribution of two Ears to the Perception of Vertical
Angle in Sagittal Planes. J. Acoust. Soc. Am., 109(4), pp. 1596-1603.
[21] Batteau, D.W., (1967). The Role of the Pinna in Human Localization. Proc. R Soc
Lond. Ser. B Biol. Sci., 168(11), pp. 158-180.
[22] Teranishi, R., Shaw, E.A.G. (1968). External-Ear Acoustic Models with Simple
Geometry. J. Acoust. Soc. Am.,44(1), pp. 257–263.
[23] Alves-Pinto, A., Lopez-Poveda, E.A. (2005). Detection of high-frequency spectral
notches as a function of level. J. Acoust. Soc. Am., 118(4), pp. 2458–2469.
[24] Brungart, D.S., Durlach, N.I., Rabinowitz, W.M. (1999). Auditory Localization of
Nearby Sources. II. Localization of a broadband source. J. Acoust. Soc. Am.,
106(4), pp. 1956-1968.
[25] Raykar, V.C., Duraiswami, R., Yegnanarayana, B. (2005). Extracting the
Frequencies of the Pinna Spectral Notches in Measured Head Related Impulse
Responses. J. Acoust. Soc. Am., 118(1), pp. 364-374.
[26] E.A. G. Shaw, “Acoustical Features of Human Ear,” in Binaural and Spatial
Hearing in Real and Virtual Environments, Mahwah, NJ, USA: R. H. Gilkey and
T. R. Anderson, Lawrence Erlbaum Associates, 1997, pp. 25–47.
[27] Kahana, Y., Nelson, P.A. (2007). Boundary element simulations of the transfer
function of human heads and baffled pinnae using accurate geometric models. J.
Sound Vib., 300(3-5), pp. 552-579.
[28] Mokhtari, P., Takemoto, H., Nishimura, R., Kato, H. (2011). Pinna sensitivity
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 46
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
[29]
[30]
[31]
[32]
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
patterns reveal reflecting and diffracting surfaces that generate the first spectral
notch in the front median plane. In: IEEE Int. Conf. on Acoustics, Speech and
Signal Processing (ICASSP 2011), pp. 2408-2411.
Huttunen, T., Kärkkäinen, A., Kärkkäinen, L., Kirkeby, O., Seppälä, E.T. (2007).
Some Effects of the Torso on Head-Related Transfer Functions. In: Proc. 122th
Conv. Audio Eng. Society.
Perrett, S., Noble, W. (1997). The effect of head rotations on vertical plane sound
localization. J. Acoust. Soc. Am., 102(4), pp. 2325-2332.
Rao, D. (2005). Head rotation and sound image localization in the median plane.
Chin. Sci. Bull.,50(5), p. 412.
Morikawa, D., Toyoda, Y., Hirahara, T. (2011) Impact of head movement on
sound localization with band-limited noise. In: Proc. of Inter-Noise 2011. Osaka,
Japan, 4-7 September.
Geronazzo, M., Spagnol, S., Avanzini, F. (2013). Estimation and Modeling of
Pinna-Related Transfer Functions. In: Proc. of the 13th Int. Conference on Digital
Audio Effects (DAFx-10). Graz, Austria, pp. 431-438.
Geronazzo, M., Spagnol, S., Avanzini, F. (2011). A Head-Related Transfer
Function Model for Real-Time Customized 3-D Sound Rendering. In: Proc.
INTERPRET Work., SITIS 2011 Conf.. Dijon, France, pp. 174-179.
Algazi, V. R., Duda, R.O., Thompson, D.M., Avendano, C. (2001). The CIPIC
HRTF Database. In: Proc. IEEE Work. Appl. Signal Process., Audio, Acoust..
New Paltz, New York, USA, pp. 1–4.
Satarzadeh, P. (2006). A Study of Physical and Circuit Models of the Human
Pinnae. University of California Davis.
Spagnol, S., Geronazzo, M., Avanzini, F. (2013). On the Relation between Pinna
Reflection Patterns and Head-Related Transfer Function Features. IEEE Trans
Audio Speech Lang Process, 21(3), pp. 508-519.
Scaiella, S., Spagnol, S., Geronazzo, M., Avanzini, F. (2015). Subjective
Evaluation of a Low-order Parametric Filter Model of the Pinna for Binaural
Sound Rendering. In: 22nd Int. Congress on Sound and Vibration (ICSV22).
Florence, Italy.
Geronazzo, M., Carraro, A. Avanzini, F. (2015). Evaluating vertical localization
performance of 3D sound rendering models with a perceptual metric. In: Proc.
IEEE 2nd VR Workshop on Sonic Interactions for Virtual Environments (SIVE
2015). Arles, France.
Lindau, A., Erbes, V., Lepa, S., Maempel, H.-J., Brinkman, F., Weinzierl, S.
(2014). A Spatial Audio Quality Inventory (SAQI). Acta Acust. United Acust.,
100(5), pp. 984-994.
Spagnol, S., Geronazzo, M., Rocchesso, D., Avanzini, F. (2014). Synthetic
Individual Binaural Audio Delivery by Pinna Image Processing. Int. J. Pervasive
Comput. Commun., 10(3), pp. 239–254.
Geronazzo, M. (2014). Mixed structural models for 3D audio in virtual
environments. Ph.D. Thesis. University of Padova, Italy.
Geronazzo, M., Avanzini, F., Fontana, F. (2015). Use of Personalized Binaural
Audio and Interactive Distance Cues in an Auditory Goal-Reaching Task. In Proc.
of the 21st Int. Conf. on Auditory Display (ICAD 2015). Graz, Austria, 2015.
Vorländer, M. (2007). Auralization: Fundamentals of Acoustics, Modelling,
Simulation, Algorithms and Acoustic Virtual Reality. 1st ed. Springer Publishing
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 47
Michele Geronazzo
L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali
The external ear acoustics: a mixed structural modeling approach in virtual auditory displays
[45]
[46]
[47]
[48]
[49]
[50]
[51]
[52]
[53]
[54]
[55]
Company, Incorporated.
Kajastila, R., Lokki, T. (2013). Eyes-free interaction with free-hand gestures and
auditory menus. Int. J. Hum.-Comput. Stud.. 71(5), pp. 627-640.
Geronazzo, M., Kleimola, Majdak, J. P. (2015). Personalization Support for
Binaural Headphone Reproduction in Web Browsers. In: Proc. 1st Web Audio
Conference. Paris, France.
Hoffmann, P.F., Møller, A.K., Christensen, F., Hammershøi, D. (2014). Sound
localization and speech identification in the frontal median plane with a hearthrough headset. In: Proc. 7th Forum Acusticum. Krakow, Poland.
Spagnol, S., Rocchesso, D., Geronazzo, M., Avanzini, F. (2013). Automatic
Extraction of Pinna Edges for Binaural Audio Customization. In: Proc. IEEE Int.
Work. Multi. Signal Process (MMSP 2013). Pula, Italy, pp. 301-306.
Geronazzo, M., Spagnol, S., Avanzini, F. (2013). A Modular Framework for the
Analysis and Synthesis of Head-Related Transfer Functions. In: Proc. 134th Conv.
Audio Eng. Society. Rome, Italy.
Spagnol, S., Geronazzo, M., Avanzini, F., Oscari, F., Rosati, G. (2012).
Employing Spatial Sonification of Target Motion in Tracking Exercises. In Proc.
9th Int. Conf. Sound and Music Computing (SMC 2012). Copenhagen, Denmark,
pp. 85-89.
Geronazzo, M. Bedin, A., Brayda, L., Avanzini, F. (2014). Multimodal
Exploration of Virtual Objects with a Spatialized Anchor Sound. In Proc. 55th Int.
Conf. Audio Eng. Society, Spatial Audio. Helsinki, Finland, pp. 1-8.
Geronazzo, M., Bedin, A., Brayda, L., Campus, C., Avanzini, F. (2015).
Interactive spatial sonification for non-visual exploration of virtual maps. Int. J.
Hum.-Comput. Stud., vol. in press.
Geronazzo, M., Granza, F., Spagnol, S., Avanzini, F. (2013). A Standardized
Repository of Head-Related and Headphone Impulse Response Data. In: Proc.
134th Conv. Audio Eng. Society. Rome, Italy.
Boren, B.B., Geronazzo, M., Majdak, P., Choueiri, E. (2014). PHOnA: A Public
Dataset of Measured Headphone Transfer Functions. In: Proc. 137th Conv. Audio
Eng. Society.
Boren, B., Geronazzo, M., Brinkmann, F., Choueiri, E. (2015). Coloration Metrics
for Headphone Equalization. In: Proc. of the 21st Int. Conf. on Auditory Display
(ICAD 2015), Graz, Austria.
Rivista Italiana di Acustica
Vol. 39, N. 1, p. 48