Rivista Italiana di Acustica Vol. 39 (2015), N. 1, pp. 32-48 ISSN: 2385-2615 www.acustica-aia.it L’ACUSTICA DELL’ORECCHIO ESTERNO: UN APPROCCIO A MODELLI STRUTTURALI MISTI PER DISPLAY UDITIVI VIRTUALI THE EXTERNAL EAR ACOUSTICS: A MIXED STRUCTURAL MODELING APPROACH IN VIRTUAL AUDITORY DISPLAYS Michele Geronazzo * Dip. di Ingegneria dell’Informazione, Università degli Studi di Padova * Indirizzo dell’autore di riferimento - Corresponding author’s address: Via Gradenigo, 6/A, 35131, Padova, Italia e-mail: [email protected] (Ricevuto il 30/03/2015, accettato il 27/06/2015) RIASSUNTO Gli effetti acustici rilevanti per la percezione verticale del suono, quali le riflessioni sui contorni del padiglione auricolare e le risonanze all'interno delle cavità dell'orecchio, possono venir isolati e modellati da una combinazione di filtri sintetici e contributi misurati acusticamente. Questo approccio prende il nome di modellazione strutturale mista (MSM) e viene utilizzato, più in generale, per descrivere la Head-Related Transfer Function (HRTF), che cattura gli effetti di testa, busto e orecchie dell'ascoltatore. Questo articolo impiega la MSM nella realizzazione di display uditivi capaci di adattarsi all'antropometria dell'ascoltatore per la resa della dimensione verticale del suono. ABSTRACT The most important acoustic effects involved in vertical spatial sound perception, i.e. reflections on pinna contours and resonances inside the ear cavities, are isolated and modeled separately. The combination of such components that can be chosen to include either synthetic or measured components, is formalized in the Mixed Structural Modeling (MSM) approach which describes, more in general, the Head-Related Transfer Functions (HRTFs) capturing effects of head, torso, and external ear of the listener. This paper employs the MSM approach aiming at building personalized virtual auditory displays (VADs) able to adapt to listener anthropometry and to convey vertical localization cues. Parole chiave: esterno; HRTF; audio binaurale; antropometria; personalizzazione.. Keywords: pinna; HRTF; binaural audio; anthropometry; personalization. © Associazione Italiana di Acustica, 2015 Michele Geronazzo L’acustica ’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays 1 Introduzione L’abilità del sistema uditivo umano nello stimare la posizione spaziale delle sorgenti sonore negli ambienti acustici ha grande importanza per ragioni legate alla sopravvivenza [1] e ha un ruolo rilevante in molte delle attività di tutti i giorni: gi individuare potenziali pericoli nell’ambiente, attuare un’attenzione selettiva per un certo flusso di informazioni. L’udito ha ottime performance in queste attività, completando l’informazione fornita dal canale visivo, ad esempio nella localizzazione localizzazion di un obiettivo che si trova fuori dal campo visivo. Negli ultimi decenni, la spazializzazione del suono è diventata sempre più importante in numerosi domini applicativi. Il rendering spaziale del suono è in grado di aumentare l’efficacia delle interfacce interfacc uditive uomo-macchina [2],, e in particolar modo nei casi dove l’interfaccia visiva è limitata in estensione e/o in risoluzione come nei dispositivi mobili [3],, o è inutilizzabile se l’utente è non vedente [4];; inoltre, l’audio 3D migliora il senso di presence in ambienti di realtà tà virtuale o aumentata e aggiunge coinvolgimento nei computer games. In accodo con Morimoto [5], la valutazione soggettiva umana di ambienti acustici virtuali/reali prende la forma di due spazi, uno fisico e uno psicologico. Le onde acustiche prodotte da sorgenti sonore sonore che incontriamo ogni giorno nella nostra vita sono soggette a diverse trasformazioni lungo il percorso prima di giungere ai timpani dell’ascoltatore (vedi Fig. 1). 1). Le informazioni acustiche al timpano sono descritte nelle binaural room impulse responses (BRIRs) individuali. Una sorgente sonora irradia un segnale acustico che subisce trasformazioni temporali e spettrali dovute all’ambiente e al corpoo dell’ascoltatore. Le proprietà dell’ambiente sono contenute nella room impulse response (RIR),, mentre la head-related impulse response (HRIR) incorpora il contributo acustico proprio della fisicità dell’ascoltatore. Possiamo quindi definire la BRIR come somma di RIR e HRIR, capace di fornire la rappresentazione fedele di una particolare sorgente sonora rispetto ad uno specifico ascoltatore [6].. Inoltre le onde sonore sono influenzate dinamicamente dal ruolo attivo del corpo dell’ascoltatore, che può così collezionare informazioni peculiari sugli attributi della sorgente sonora. Fig. 1 - L’informazione acustica acustic e la struttura dell'orecchio - The acoustic information and the structure of the ear. Rivista Italiana di Acustica Vol. 39, N. 1, p. 33 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays La percezione dell’evento uditivo s è caratterizzata da caratterizza da tre gruppi principali di attributi, o elemental senses [5]: 1) attributi temporali: ritmo, durata, livello di riverbero ecc. 2) attributi spaziali: direzione, distanza, impressione spaziale ecc. 3) attributi di qualità: loudness, pitch, timbro ecc. L’ascoltatore assegna dei giudizi soggettivi per ogni elemental sense essendo inevitabilmente influenzato dal personale stato emozionale. In questo articolo viene data particolare attenzione al secondo gruppo: indicatori uditivi prodotti dal corpo umano che includono indicatori binaurali quali interaural level and time differences (ILD e ITD), e indicatori monoaurali come le trasformazioni spettrali ad opera del filtraggio acustico dell’orecchio esterno. Queste caratteristiche sono raccolte nella HRIR o nella sua trasformata di Laplace nel dominio della frequenza, Head- Related Transfer Functions (HRTFs), formalmente definita come la funzione di trasferimento acustica tra sorgente sonora e timpano, caratterizzata da una dipendenza in frequenza e spazio, e adeguatamente compensata in campo libero [7]. E’ molto importante sottolineare che le tecnologie per l’audio binaurale si basano su una caratterizzazione individuale dell’antropometria e della percezione, che a sua volta fa da riferimento per la sintesi e la modellazione di HRTF. Tuttavia la misurazione acustica individuale di HRTF per un gran numero di ascoltatori è attualmente molto dispendiosa in termini di tempo e risorse. Per questo motivo, l’uso di HRTF non individuali è preferito nella pratica, utilizzando misurazioni su manichini, quali il KEMAR [8] costruito su misurazioni antropometriche medie o di specifici ascoltatori reali; questo approccio rappresenta una modalità immediata e a basso costo per fornire un rendering binaurale riprodotto in cuffia e introduce evidenti errori di localizzazione e colorazione, nonché una scorretta percezione dell’elevazione, confusione front-back, e mancanza di esternalizzazione [9], specialmente quando non viene impiegato nella riproduzione audio alcun tracciamento dei movimenti della testa [10]. Sono state proposte negli ultimi due decenni diverse tecniche per la progettazione di HRTF sintetiche e tra le più promettenti vi è quella che utilizza i modelli strutturali [11]. In questo approccio innovativo, gli effetti più importanti coinvolti nella percezione spaziale del suono (i ritardi acustici e le ombre acustiche ad opera della diffrazione attorno alla testa, le riflessioni sui contorni dell’orecchio esterno e sulle spalle, le risonanze all’interno delle cavità dell’orecchio) sono isolati e modellati separatamente nell’elemento filtrante corrispondente. La selezione di HRTF [12-14] non individuali e queste procedure di modellazione possono essere entrambe analizzate con una interpretazione strutturale: i parametri di ogni blocco di rendering o i criteri di selezione possono venir stimati dalla relazione tra dati reali o simulati e antropometria dell’ascoltatore. La realizzazione di efficaci display uditivi personali rappresenta un notevole passo in avanti per numerosi domini applicativi; l’approccio strutturale consente una intrinseca scalabilità a seconda delle risorse computazionali o della larghezza di banda disponibili. Ad esempio, scene altamente realistiche audio e video riescono ad essere gestite sfruttando il parallelismo delle Graphics Processing Unit (GPU) [15]. L’approccio a modellazione strutturale mista (MSM) [16] considera la HRTF globale come una combinazione di elementi strutturali, che possono essere scelti tra componenti sia sintetiche sia registrate. In entrambi i casi, la personalizzazione si basa su dati antropometrici individuali, utilizzati per adattare sia i parametri del modello sia per selezionare una componente simulata o misurata, tra un insieme di risposte all’impulso disponibili. La definizione e la validazione sperimentale dell’approccio a Rivista Italiana di Acustica Vol. 39, N. 1, p. 34 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays MSM affronta le questioni cruciali riguardanti l’acquisizione e il rendering di scene acustiche binaurali, definendo alcune linee guida di progettazione per ambienti virtuali personali che utilizzano l’audio 3D e che possiedono nuove forme di comunicazione e di interazione con contenuti sonori. In questa prospettiva, tali studi rappresentano una novità nella letteratura scientifica che ha come principale campo di indagine l’acustica virtuale. Questo articolo è organizzato come segue. Un’introduzione e una panoramica sulla percezione spaziale del suono, in particolare la localizzazione verticale del suono sono trattati nella Sezione 2. La Sezione 3 è dedicata al formalismo della modellazione strutturale mista e alla sua corrispondente metodologia di ricerca. La Sezione 4 si occupa del caso di studio completo riguardante l’approccio a modellazione strutturale mista dell’acustica dell’orecchio esterno, fornendo degli approfondimenti riguardanti i principali aspetti innovativi di tale modus operandi. La Sezione 5 fornisce le linee guida per il design di ambienti di realtà virtuale multimodale in termini di problematiche riguardanti vincoli di tempo reali, requisiti per la mobilità e personalizzazione del segnale audio. 2 Ascolto spaziale: localizzazione verticale Ricercatori provenienti da diverse discipline hanno dato forma alla conoscenza dell’ascolto spaziale. Fisica, fisiologia, psicologia ed elaborazione del segnale si uniscono interdisciplinarmente in un ampio spettro di studi, dagli aspetti di base a quelli applicativi. La localizzazione di uno o più eventi sonori, la percezione spaziale soggettiva in ambienti reali e virtuali sono alcuni argomenti di spicco studiati da scienziati di livello internazionalmente quali Blauert [17] e Xie [18]. E’ risaputo che l’ascolto direzionale sul piano verticale mediano ha una risoluzione spaziale peggiore rispetto a quello sul piano orizzontale [17]. La soglia per individuare cambiamenti nella direzione della sorgente sonora nel piano mediano non è mai minore ai 4o per arrivare a circa 17o per suoni non familiari quali le lingue straniere. Questa limitata risoluzione è motivata da due osservazioni: - la non esistenza di ITD e ILD tra i segnali che arrivano all’orecchio sinistro e destro, che rappresentano gli indicatori primari per la percezione orizzontale; - la necessità di contenuto informativo alle alte frequenza (sopra i 4-5 kHz) per un’accurata localizzazione verticale [19, 20]. L’abilità nella localizzazione verticale è principalmente collegata alla presenza dell’orecchio esterno e del padiglione auricolare (pinna) [21]. Sebbene la localizzazione in qualsiasi punto dello spazio coinvolga le cavità delle pinne di ciascuno orecchio [20], il processo di determinazione dell’angolo verticale di provenienza di un suono nel piano mediano è essenzialmente monoaurale [19]. L’orecchio esterno gioca un ruolo fondamentale nell’introdurre amplificazioni (picchi) e attenuazioni (notch) nello spettro delle HRTF e le caratteristiche di frequenza centrale, ampiezza e banda dipendono principalmente dall’angolo di elevazione [22] e, in misura minore, dall’azimuth [23] e dalla distanza [24] tra sorgente e ascoltatore. 2.1 Indicatori spettrali alle alte frequenze L’acustica dell’orecchio esterno è stata storicamente rappresentata in due modi: come un filtro nel dominio della frequenza [17] e come un sistema di riflessioni delayand-add nel dominio del tempo [21], considerato che il ritardo di riflessione sulla pinna produce dei notch spettrali. Rivista Italiana di Acustica Vol. 39, N. 1, p. 35 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays L’evoluzione dei notch per sorgenti poste nel piano mediano frontale è stata studiata da Raykar et al. [25] attraverso una semplice tecnica di ray-tracing per relazionare ogni cammino di riflessione sulla forma della conca e del crus helias con le corrispondenti frequenze centrali di notch. Tuttavia tale relazione uno ad uno risulta poco precisa e, in questo articolo, sarà oggetto di approfondimento. Gli altri fenomeni acustici che contribuiscono a dare forma allo spettro della HRTF sono le risonanze e le diffrazioni all’interno della conca. Shaw [26] identificò un totale di cinque modi risonanti eccitati da diverse direzioni del suono responsabili dei principali picchi spettrali della HRTF: una risonanza omnidirezionale a 4,2 kHz (modo 1), due risonanze verticali a 7,1 e 9,6 kHz (modi 2 e 3) e due risonanze orizzontali a 12,2 e 14,4 (modi 4 e 5). Recenti simulazioni numeriche effettuate da Kahana et al. [27], attraverso BEM su modelli mesh di orecchie, hanno confermato i risultati di Shaw. Inoltre, diffrazioni all’interno della cavità della conca [23] e attorno all’area del tragus [28] inducono riflessioni sulla parte posteriore della conca. L’importanza relativa dei principali picchi e notch nella percezione dell’elevazione è tuttora oggetto di acceso dibattito nella comunità scientifica [14], [19], e non è ancora riconosciuto all’unanimità quale sia il peso di ciascuna caratteristica spettrale nella localizzazione verticale del suono. 2.2 Indicatori spettrali alle basse frequenze Quando una sorgente sonora contiene sufficiente energia alle alte frequenze, si ottiene un giudizio di elevazione accurato; per lunghezze d’onda maggiori delle dimensioni della pinna, sotto i 3 kHz, la pinna non ha alcun effetto e tale intervallo di frequenza non influenza la percezione in elevazione. Tuttavia in assenza di frequenze medio-alte , l’ascoltatore riesce a stimare l’elevazione di una sorgente con buona accuratezza [28]. Questi risultati suggeriscono che la diffrazione intorno alla testa, l’ombreggiatura acustica e le riflessioni su busto e spalle costituiscono degli indicatori di localizzazione verticale, anche se deboli rispetto a quelli della pinna [29]. Il busto introduce un effetto di ombra acustica per onde sonore provenienti da posizioni sotto l’ascoltatore. In maniera complementare, le spalle perturbano le onde sonore incidenti che provengono dalle restanti posizioni. In particolare, quando la sorgente sonora è sopra all’ascoltatore, le spalle forniscono un’importante riflessione il cui ritardo è proporzionale alla distanza orecchio-spalla [29]. Inoltre, il busto opera delle perturbazioni alle basse frequenze dell’ITD, anche se non è chiaro in che modo possa aiutare a risolvere ambiguità nella localizzazione per il cono di confusione [29]. 2.3 Movimenti della testa Perret e Noble [30] hanno studiato la stima dell’elevazione in condizione di padiglione auricolare occluso e con l’utilizzo di segnali privi di energia alle alte frequenze. In tale scenario, le rotazioni della testa lungo l’asse verticale inducono delle variazioni alle basse frequenze nell’ITD e ILD, rappresentando così dei fondamentali indicatori dinamici per l’elevazione, specialmente nel piano mediano frontale. Ulteriori studi [31] hanno individuato i movimenti di rotazione sugli assi verticale e sagittale della testa come indicatori per la localizzazione sul piano mediano. In generale, le performance di localizzazione dinamica variano rispetto alle informazioni temporali e spettrali della sorgente sonora [32]. : Rivista Italiana di Acustica Vol. 39, N. 1, p. 36 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays 3 Modelli strutturali misti L’approccio MSM si avvale di due definizioni di riferimento [16] 1. Una head-related transfer function parziale (pHRTF) contiene informazioni acustiche misurate isolando specifiche parti del corpo (p.e. relative al contributo del solo orecchio esterno), oppure stimate mediante tecniche DSP atte alla decomposizione di HRTF misurate [33]. 2. Una head-related transfer function sintetica e parziale ( ) contiene le informazioni acustiche relative a specifiche parti del corpo siano esse modellate o artificialmente generate attraverso simulazioni acustiche. Sia HRTFi il set individuale di HRTF per un soggetto i; l'approccio di modellazione , strutturale mista (MSM) qui proposto fornisce una possibile approssimazione, tale che . Tale approssimazione è costruita collegando N componenti, ovvero le N pHRTF relative a diverse parti del corpo. Nei modelli strutturali, N tipicamente è uguale a 3 (le componenti di testa, spalle/torso e orecchio), ma questo numero è relazionato a quali e quante di queste componenti vengono considerate indivisibili (ad esempio in una HRTF completa, N = 1), oppure ulteriormente separate (p.e. conca ed elice possono essere modellati separatamente) o estese supportando componenti aggiuntive (ad esempio, il contributo del canale uditivo). Ogni componente può essere scelta all'interno di tre differenti raggruppamenti: 1) componenti individuali (le pHRTF del soggetto i); 2) componenti selezionate (le pHRTF di soggetti diversi da i); 3) componenti modellate (le sintetizzate). L'approssimazione includerà S componenti selezionate, I componenti individuali e M componenti modellate: (1) 1 1 1 con i, s ∈ , m ∈ e I + S + M = N, dove: e rappresentano le collezioni di soggetti e modelli per cui almeno una pHRTF o una sia disponibile; è l'operatore che si riferisce ad una rappresentazione a filtri, e può identificare una connessione in serie o in parallelo; - sk e ik indicano la k-esima componente parziale rispettivamente per un soggetto s e per il soggetto i; - mk è la k-esima componente modellata. Le componenti selezionate in (1) sono in generale un sottoinsieme di N componenti scelte in base al seguente criterio di ottimizzazione: (2) Rivista Italiana di Acustica Vol. 39, N. 1, p. 37 ! " , 1, … , % | '"("'"))* + , Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays dove: - S rappresenta una data tecnica di selezione; - ekS è l'errore di selezione associato alla componente k-esima. Come caso particolare, per S = M = 0 e I = N si ottiene la HRTF individuale misurata: (3) 1 3.1 Valutazione e modus operandi Adottando diverse combinazioni di S, I e M, il formalismo MSM può descrivere altre casistiche rilevanti e già proposte nella precedente letteratura scientifica: - S = N = 1, I = M = 0 e utilizzo di un soggetto generico s: utilizzo indiscriminato di HRTF non individuali (ad esempio, quando sono disponibili solamente le HRTF di un manichino). - S = N = 1, I = M = 0 e utilizzo di un soggetto s* che minimizza un dato errore di selezione: selezione di HRTF [13]. - M = N = 1, I = S = 0 e utilizzo di un modello m* che minimizza un dato errore di modellazione: modellazione di HRTF senza decomposizione strutturale [2]. - M = N = 3, I = S = 0 e utilizzo di modelli personalizzati mk per ogni componente: modellazione strutturale di HRTF [11]. L'obiettivo dell'approccio MSM è duplice: 1. eliminare progressivamente tutte le componenti parziali individuali, cioè I = 0 e S + M = N; 2. fornire tecniche affidabili per la modellazione e selezione di pHRTF, e valutarne le combinazioni con l'obiettivo di ottenere un modello strutturale completo. La soluzione ottimale corrisponde al caso M = N, I = S = 0: (4) 1 La Fig. 2 schematizza il flusso di lavoro che determina lo sviluppo di uno specifico MSM all'interno dello spazio di tutte le possibili istanze del modello. Date le collezioni e , e le HRTF individuali misurate, la procedura di valutazione fornisce il migliore MSM, vale a dire la migliore combinazione tra componenti modellate e selezionate. L'esclusione di alcune istanze e di alcune combinazioni di componenti è guidata da una procedura di valutazione in due fasi: (i) singola componente, (ii) intero modello. I due parametri di valutazione fondamentali che vengono considerati sono: - accuratezza - ∈ [0, 1], definita come la correlazione tra le performance di localizzazione della singola pHRTF selezionata, modellata o individuale; - praticità . ∈ [0, 1], che misura quantitativamente (p.e. quantità di dati necessari, risorse computazionali ecc.) e qualitativamente (usabilità, comfort ecc.) la facilità di gestione del modello o della procedura di selezione attraverso l’utilizzo di parametri individuali. Rivista Italiana di Acustica Vol. 39, N. 1, p. 38 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays Fig. 2 - Tipico flusso di lavoro verso la ricerca di un modello strutturale misto [16] - Typical research workflow towards a mixed structural model Questi due parametri, infine, definiscono l'efficienza η k = α k λ k del particolare mk preso in considerazione. Ci si propone di ottimizzare (5) . , 1, … , | . Il candidato m k* viene quindi confrontato con il candidato sk* . Se sk* fornisce un'accuratezza maggiore verrà scelto come k-esima componente, altrimenti si sceglierà m k* . Successivamente, la valutazione completa del mo modello dello prende le migliori soluzioni per ogni k-esima componente strutturale in modo da testare gli effetti della combinazione all’interno di una scena virtuale tridimensionale. Gli stessi criteri di valutazione precedentemente definiti determinando αMSM, ossia la correlazione tra le e HRTFi, con performance di localizzazione globale delle risultanti N (6) λ MSM = ∏ λ k . k =1 guida massimizzazione di di La massimizzazione su essiva versione di MSM. combinazione per ogni successiva quindi il processo processo di di 4 Approccio MSM: l’orecchio esterno Questa sezione considera il problema della modellazione del contributo acustico della pinna pHRTF o pinna-related transfer function (PRTF) per il rendering di audio 3D. Seguendo il modus operandi proprio dell’MSM, viene proposto un algoritmo per la scomposizione delle PRTF in risonanze e riflessioni. Tale strumento permette di controllare separatamente l’evoluzione di ogni singolo fenomeno fisico, progettando due distinti blocchi di filtri utilizzati nella fase di sintesi. Inoltre, i risultati ottenuti permettono di parametrizzare sull’antropometria dell’ascoltatore il modello strutturale o il processo di selezione di HRTF generiche. 4.1 Algoritmo di scomposizione strutturale Sia i picchi che i notch nella PRTF giocano un ruolo importante nella localizzazione verticale del suono, tuttavia in un precedente lavoro [34] si è sottolineato come la componente risonante abbia differenze intra-soggettive minime, mentre la componente riflessiva sia fortemente dipendente dall’ascoltatore. Questi risultati sono stati ottenuti separando le due componenti attraverso il structural decomposition algorithm [33]. Questo algoritmo è fondamentale per lo studio separato dei due fenomeni; esso utilizza Rivista Italiana di Acustica Vol. 39, N. 1, p. 39 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays un approccio di analisi per sintesi per compensare iterativamente l’ampiezza dello spettro della PRTF con un sequenza di filtri multi-notch finché non si raggiunge la convergenza, ossia non vi siano attenuazioni locali al di sotto di una certa soglia in ampiezza. Il risultato di tali iterazioni può essere apprezzato nell’esempio di Fig. 3 sul soggetto 010 del CIPIC HRTF database [35], in cui viene estratta la componente risonante e calcolata la componente riflessiva come combinazione di tutti i filtri multi-notch iterativamente stimati. Fig. 3 - Un esempio di evoluzione dell'algoritmo [33]. I tre principali contorni per un soggetto (a destra) [13] - An example of the algorithm evolution [33]. Three main pinna contours of one subject (right) [13]. 4.2 Riflessioni e antropometria I modelli ray-tracing per le riflessioni [19] sono validi per lunghezze d’onda che siano piccole rispetto alle dimensioni della superficie riflettente coinvolta. Le alte frequenze nello spettro dell’udibile ricadono in questa casistica e possono coinvolgere i notch causati dalle riflessioni sulla superficie della pinna. Si può intuitivamente stabilire la seguente relazione: d c (φ ) = (7) ct d (φ ) 2 [m] dove: - c è la velocità del suono [m/s]; - td (ϕ) è il ritardo temporale dipendente dall’elevazione tra onda diretta e riflessa [s]; - dc (ϕ) è il punto di riflessione calcolato dal canale uditivo, punto di osservazione [m]. Lo studio di Satarzadeh [36] ha rivelato come quasi l’80% dei soggetti del database CIPIC abbiano un coefficiente negativo di riflessione nelle interferenze distruttive (notch in frequenza) le quali compiano a ritardi di un’intera lunghezza d’onda, così risultando nelle corrispondenti cancellazioni di frequenza: Rivista Italiana di Acustica Vol. 39, N. 1, p. 40 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays f n (φ ) = (8) n + 1 c(n + 1) = , n = 0,1,... t d (φ ) 2d c (φ ) [Hz] Quindi si ritrova il primo notch alla frequenza: f 0 (φ ) = (9) c . 2d c (φ ) [Hz] I tre principali notch (quelli nello spettro dell’udibile) presenti nelle PRTF del piano mediano possono essere mappati in una foto laterale della pinna [37] nei corrispondenti punti di riflessione per ogni angolo di elevazione corrispondente, delineando così tre contorni di riflessione sulla pinna (con riferimento a Fig. 3, pannello destro): 1. l’elice (C1); 2. l’antielice e la parete interna della conca (C4); 3. i bordi esterni della conca (C3). 4.3 Selezione di HRTF generiche Grazie alla connessione fisica tra l’unicità dell’orecchio dell’ascoltatore e l’angolo di elevazione nella localizzazione del suono e grazie anche al crescente aumento di standard per la memorizzazione di HRTF e HpTF, è possibile attuare una procedura di selezione di HRTF generiche a partire dalla foto dell’orecchio di un ascoltatore che non possiede una HRTF individuale. La differenza tra frequenze centrali dei notch estratte dall’immagine e quelle estratte dalle PRTF nel piano mediano per soggetti di cui si hanno HRTF misurate definisce una funzione mismatch della forma: ' (10) dove: - 0 1 ∑160 34 |5| ∑5 |784 95:; <84 95:| <84 95: , ϕ è l’elevazione tra [-45o,45 o] [gradi]; n è il numero di notch nell’intervallo di frequenze 4 – 16 kHz; wi (con i = 1,4,3) è la combinazione convessa di pesi; f0i(ϕ) è la frequenza calcolata dall’immagine dell’orecchio per l’i-esimo notch e per l’elevazione ϕ [Hz]; F0i(ϕ) è la frequenza estratta con l’algoritmo descritto nella Sez. 4.1 per una HRTF misurata e per l’i-esimo notch all’elevazione ϕ [Hz]. L’importanza relativa di ogni contorno nella funzione di mismatch è determinata dal processo di aggiustamento dei pesi wi. che una volta definiti permettono la selezionata della HRTF misurata con mismatch minimo. 4.4 Modellazione sintetica In questa sezione, vengono descritte tre combinazioni di parametri per il modello strutturale di pinna pHRTF illustrato in [33]: Rivista Italiana di Acustica Vol. 39, N. 1, p. 41 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays - - - Hs: tutti i parametri dei filtri vengono estratti direttamente dalle componenti risonante e riflessiva risultanti dall’algoritmo di scomposizione [33]; questa configurazione viene utilizzata per determinare la bontà della struttura a filtri del modello; Hc: le frequenze centrali dei notch sono ricavate dai contorni antropometrici dell’orecchio secondo la sez. 4.1 [37]; i restanti parametri vengono estratti direttamente dalle componenti risonante e riflessiva risultanti dall’algoritmo di scomposizione; questa configurazione viene utilizzata per determinare la bontà della procedura di personalizzazione; Ha: le frequenze centrali dei notch sono determinate dai contorni antropometrici dell’orecchio secondo la sez. 4.1 e i restanti parametri sono stimati dalla media delle componenti risonanti e riflessive di tutti i soggetti dei CIPIC [34], o in alternativa assumono valori fissi costanti [38]. Questa combinazione di parametri descrive tre modelli in ordine decrescente di personalizzazione. In particolare, l’ultima proposta è la più indicata per un uso commerciale in termini di maneggevolezza, a discapito dell’accuratezza del sistema. 4.5 Valutazione I modelli candidati dell’approccio MSM vengono sottoposti a tre valutazioni complementari rispetto alle PRTF misurate di riferimento (vedi sez. 3.1): - valutazione oggettiva: utilizzo di metriche d’errore a livello di segnale, quali distorsione e cross-correlazione spettrale [37]; - valutazione attraverso modelli uditivi: utilizzo di banchi di filtri che simulano il comportamento e la sensibilità dell’apparato uditivo umano [39]; - valutazione soggettiva: test psico-acustici di ascolto su attributi della spazializzazione [13], [40]. A titolo di esempio, in questo articolo vengono riportati degli esempi di valutazione dei modelli MSM trattati nelle sezioni precedenti. La valutazione oggettiva è stata effettuata su Hs e Hc in termini di distorsione spettrale (SD) rispetto alla HRTF misurata sul range di frequenza (500 - 16000) Hz per 18 soggetti del CIPIC database [37]. L’SD medio per Hs è ≈ 4 dB mentre per Hc si raggiungono ≈ 6 dB con peggioramento per le elevazioni negative, dove sono presenti numerosi notch profondi che sono soggetti ad errori di tracciamento dei contorni. L’utilizzo di metriche percettive derivate da simulazioni di esperimenti virtuali è stato utilizzato per predire le performance di localizzazione verticale di Hs con un errore polare medio pari a ≈ 9o [39]. Infine diversi test psico-acustici sono stati condotti per valutare Ha [38], [41] e la selezione di HRTF generiche [13]. In particolare, è emerso un errore medio di localizzazione soggettivo per Ha di ≈ 17o e di ≈ 26o per HRTF generiche selezionate con un criterio antropometrico. 5 Display uditivi personalizzati I sistemi di riproduzione audio basati su cuffie e che fanno utilizzo di dispositivi di tracciamento della testa, se adeguatamente progettati, permettono la riproduzione immersiva e realistica di scene acustiche per qualsiasi ascoltatore. sezione Nel seguito vengono presentati i principali risultati raggiunti dall’autore e collaboratori presso il Dipartimento di Ingegneria dell’Informazione dell’Università di Padova, nel progressivo sviluppo di algoritmi per l’analisi e la sintesi di HRTF Rivista Italiana di Acustica Vol. 39, N. 1, p. 42 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays contenuti nel framework per display uditivi con audio 3D personalizzato, descritto in [42, 43] e schematicamente rappresentato in Fig. 4. Fig. 4 - Uno schema semplificato dell'architettura e del software sviluppato. - A simplified scheme of the developed system's architecture and software. 6 Linee guida Dato un panorama sonoro e un ambiente arbitrari, posizionando un array microfonico in un particolare setup è idealmente possibile riprodurre l’acquisizione del campo sonoro in una configurazione fissa di altoparlanti [44]; inoltre, è pensabile di sintetizzare delle sorgenti sonore virtuali integrate in tale campo. Un’installazione di acustica virtuale con queste caratteristiche può essere utilizzata da chiunque, tuttavia i movimenti dell’ascoltatore sono limitati ad un ristretto sweet-spot e i costi di costruzione e calibrazione del sistema possono anche essere molto elevati. Tra le diverse possibilità offerte dalle tecnologie per la spazializzazione del suono, i sistemi per l’audio binaurale in cuffia, una volta adeguatamente progettati, permettono la resa di scene acustiche immersive e altamente realistiche per ogni utente, in qualsiasi luogo. Per questo motivo, le piattaforme mobile si integrano bene con tale sistema, permettendo all’utente di interagire con i dispositivi in movimento e senza l’uso della vista [45]. Tuttavia, la nuova generazione di dispositivi mobile dovrà superare alcune limitazioni, e nel medio-lungo termine gli obiettivi sono: - integrare totalmente le tecnologie per l’audio binaurale nei dispositivi portatili e web browser [46] assicurando una riproduzione audio dovunque; - fornire al dispositivo le capacità per analizzare e sintetizzare campi acustici in qualsiasi momento, on demand, utilizzando tecnologie avveniristiche di hearthrough headphones per la realtà aumentata sonora [47]; - sviluppare una tecnologia adattiva che sia in grado di fornire un’esperienza individuale di ascolto per tutti. Per lo sviluppo dell’ultimo punto, è stato realizzato un sistema per la personalizzazione di audio binaurale basato sull’estrazione delle caratteristiche geometriche di una rappresentazione 2D della pinna dell’ascoltatore [41]. Attraverso una procedura automatica, il sistema è in grado di stimare i contorni della pinna e Rivista Italiana di Acustica Vol. 39, N. 1, p. 43 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays l’entrata del canale uditivo, a partire da un insieme di foto prodotte attraverso la tecnica di multi-flash camera [48]. La parametrizzazione di HRTF attraverso l’approccio MSM assicura una personalizzazione e una bassa complessità computazionale nei modelli utilizzati, rappresentando una soluzione più facilmente spendibile rispetto alla misurazione o alla simulazione numerica di HRTF individuali. 6.1 Applicazioni multimodali L’approccio modulare degli MSM è facilmente integrabile anche in domini multimodali dove altri canali sensoriali, quali quello visivo e tattile, richiedono nuovi strumenti flessibili per studiare l’integrazione, il mutuo rafforzamento e/o la sostituzione tra modalità sensoriali. In questo contesto, vengono raccolti due scenari sperimentali al fine di applicare le funzionalità del feedback sonoro integrato a modalità tattili o visive, racchiusi in un sistema interattivo multimodale per ambienti virtuali [49]: (i) un feedback con audio 3D legato ai movimenti dell’utente durante una semplice attività di inseguimento di un bersaglio rappresenta un esempio applicativo di sistema riabilitativo motorio [50]; (iii) un sistema audio-tattile interattivo sintetizza l’informazione spaziale di mappe virtuali per l’educazione all’orientamento e alla mobilità (O&M) di persone non vedenti [51, 52]. Conclusioni In questo articolo è stato presentato l’approccio a modelli strutturali misti per la stima, modellazione e selezione di PRTF, principale indicatore di localizzazione per la percezione verticale del suono. E’ stato inoltre introdotto un algoritmo che separa risonanze da riflessioni nello spettro della PRTF; la scomposizione risultante è stata impiegata nella sintesi di PRTF misurate acusticamente attraverso modelli con filtri di basso ordine. La relazione tra caratteristiche spettrali della PRTF nel piano mediano frontale e l’antropometria dell’ascoltatore supporta l’ipotesi che le principali riflessioni sulla superficie della pinna siano tre e abbiano coefficiente di riflessione negativo. Grazie a questa osservazione, è stata proposta una personalizzazione della HRTF basata sull’approccio MSM sia in forma di modellazione sintetica sia di selezione di HRTF generiche. Le linee guida per il progetto di display uditivi innovativi dovrebbero incorporare più formalmente i concetti di accuratezza e praticità propri dell’approccio MSM, con particolare attenzione alla qualità dell’auralizzazione, alle procedure di individualizzazione e all’ergonomia/usabilità del sistema. Grazie al sempre crescente numero di HRTF misurate e simulate [53], HpTF misurate [54] e relativi modelli, i criteri derivanti dall’approccio MSM permettono di selezionare la migliore istanza di MSM per ogni ascoltatore, anche quella per cui non sono disponibili le HRTF. Alcuni sviluppi futuri prevedono l’uso sistematico di modelli uditivi in modo da approfondire la comprensione del contributo dei singoli parametri nella percezione dell’elevazione [39] e il processo di messa a punto di procedure di selezione di HRTF. Inoltre, verranno prese in considerazione le caratteristiche di personalizzazione proprie dell’effetto acustico causato del riposizionamento delle cuffie analizzando la funzione di trasferimento cuffia-timpano attraverso nuovi criteri psico-acustici[55]. Rivista Italiana di Acustica Vol. 39, N. 1, p. 44 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays Conclusions In this manuscript, a mixed structural approach for estimating, modeling and selecting the pinna pHRTF was presented. An algorithm that separates the resonant and reflective parts of the PRTF spectrum was firstly introduced and then such decomposition was used to resynthesize the original PRTF through a low-order filter model. Results showed an overall suitable approximation to the original PRTFs. The relation between PRTF features and anthropometry in the frontal median plane supports the hypothesis that main reflections occurring on pinna surfaces are three, each carrying a negative reflection coefficient. Based on this observation an approach to HRTF customization, mainly based on MSM approach of the pinna contribution, was proposed in the form of synthetic models and HRTF selection procedures. Design guidelines for innovative auditory displays should incorporate more formally the MSM concepts of handiness and accuracy, specifically their relationship with auralization, individualization procedures and system ergonomics/usability. Thanks to the large amount of measured and simulated pHRIRs [53], measured HpIRs [54] and the corresponding filter models, the MSM-guided criteria allow to select the best MSM instance for any listener who is not present in the data set. As future works, one can systematically exploit auditory models in order to understand the influence of filter parameters in elevation perception [39] and the tuning process in the HRTF selection procedure. The acoustic effect at the eardrum caused by headphones repositionings will be investigated in the headphones-to-eardrum transfer function supporting the analysis of personalization issues through new psychoacoustic metrics [55]. Bibliografia [1] Gridi-Papp, M., Narins, P.M. (2008). 3.04 - Sensory Ecology of Hearing. In: The Senses: A Comprehensive Reference, New York: Academic Press, pp. 61-74. [2] Begault. D.R. (1994). 3-D sound for virtual reality and multimedia. San Diego, CA, USA: Academic Press Professional, Inc. [3] Härmä, A., Jakka, J., Tikander, M., Karjalainen, M., Lokki, T., J. Hiipakka, et al.. (2004). Augmented Reality Audio for Mobile and Wearable Appliances. J Audio Eng Soc, 52 (6), pp. 618–639. [4] Afonso, A., Blum, A., Katz, B., Tarroux, P., Borst, G., Denis M. (2010). Structural properties of spatial representations in blind people: Scanning images constructed from haptic exploration or from locomotion in a 3-D audio virtual environment. Mem. Cognit., 38 (5), pp. 591-604. [5] Morimoto, M. (2002). The relation between spatial impression and the precedence effect.In: Proceedings of Int. Conf. on Auditory Display (ICAD 2002), pp. 297306. [6] Kleiner, M. , Dalenbäck, B.-I., Svensson, P. (1993). Auralization-an overview. J. Audio Eng. Soc., 41(11), pp. 861-875. [7] Cheng, C.I., Wakefield, G.H. (2001). Introduction to Head-Related Transfer Functions (HRTFs): Representations of HRTFs in Time, Frequency, and Space. J Audio Eng. Soc., 49(4), pp. 231-249. [8] Gardner, W.G., Martin, K.D. (1995). HRTF Measurements of a KEMAR,” J Acoust. Soc. Am., 97(6), pp. 3907-3908. [9] Møller, H., Sørensen, M., Friis, J., Clemen, B., Hammershøi, D. (1996). Binaural Technique: Do We Need Individual Recordings?. J Audio Eng. Soc., 44 (6), pp. 451-469. Rivista Italiana di Acustica Vol. 39, N. 1, p. 45 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays [10] Thurlow, W.R., Mangels, J.W., Runge, P.S. (1967). Head Movements During Sound Localization. J. Acoust. Soc. Am., 42(2), pp. 489-493. [11] Brown, C.P., Duda, R.O. (1998). A Structural Model for Binaural Sound Synthesis. IEEE Trans Audio Speech Lang. Process, 6(5), pp. 476-488. [12] Seeber, B.U., Fastl, H. (2003). Subjective selection of nonindividual head-related transfer functions. In Proceedings of Int. Conf. Auditory Display (ICAD 2003). Boston, MA, USA, pp. 259-262. [13] Geronazzo, M., Spagnol, S., Bedin, A., Avanzini, F. (2014). Enhancing Vertical Localization with Image-guided Selection of Non-individual Head-Related Transfer Functions. In: Proceedings of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP 2014). Florence, Italy, pp. 4496-4500. [14] Iida, K., Ishii, Y., Nishioka, S. (2014). Personalization of head-related transfer functions in the median plane based on the anthropometry of the listener’s pinnae. J Acoust. Soc. Am., 136(1), pp. 317–333. [15] Belloch, J.A. , Ferrer, M., Gonzalez, A., Martinez-Zaldivar, F.J., Vidal, A.M. ( 2013). Headphone-Based Virtual Spatialization of Sound with a GPU Accelerator. J. Audio Eng. Soc., 61(7/8), pp. 546–561. [16] Geronazzo, M., Spagnol, S., Avanzini, F. (2013). Mixed Structural Modeling of Head-Related Transfer Functions for Customized Binaural Audio Delivery. In Proceedings of 18th Int. Conf. Digital Signal Process (DSP 2013). Santorini, Greece, 2013, pp. 1–8. [17] Blauert, J. (1983). Spatial Hearing: The Psychophysics of Human Sound Localization. Cambridge, MA, USA: MIT Press. [18] Xie, B. (2013). Head-Related Transfer Function and Virtual Auditory Display. J ROSS PUB Incorporated. [19] Hebrank, J., Wright, D. (1974). Spectral Cues used in the Localization of Sound Sources on the Median Plane. J. Acoust. Soc. Am., 56(6), pp. 1829-1834. [20] Morimoto, M. (2001). The Contribution of two Ears to the Perception of Vertical Angle in Sagittal Planes. J. Acoust. Soc. Am., 109(4), pp. 1596-1603. [21] Batteau, D.W., (1967). The Role of the Pinna in Human Localization. Proc. R Soc Lond. Ser. B Biol. Sci., 168(11), pp. 158-180. [22] Teranishi, R., Shaw, E.A.G. (1968). External-Ear Acoustic Models with Simple Geometry. J. Acoust. Soc. Am.,44(1), pp. 257–263. [23] Alves-Pinto, A., Lopez-Poveda, E.A. (2005). Detection of high-frequency spectral notches as a function of level. J. Acoust. Soc. Am., 118(4), pp. 2458–2469. [24] Brungart, D.S., Durlach, N.I., Rabinowitz, W.M. (1999). Auditory Localization of Nearby Sources. II. Localization of a broadband source. J. Acoust. Soc. Am., 106(4), pp. 1956-1968. [25] Raykar, V.C., Duraiswami, R., Yegnanarayana, B. (2005). Extracting the Frequencies of the Pinna Spectral Notches in Measured Head Related Impulse Responses. J. Acoust. Soc. Am., 118(1), pp. 364-374. [26] E.A. G. Shaw, “Acoustical Features of Human Ear,” in Binaural and Spatial Hearing in Real and Virtual Environments, Mahwah, NJ, USA: R. H. Gilkey and T. R. Anderson, Lawrence Erlbaum Associates, 1997, pp. 25–47. [27] Kahana, Y., Nelson, P.A. (2007). Boundary element simulations of the transfer function of human heads and baffled pinnae using accurate geometric models. J. Sound Vib., 300(3-5), pp. 552-579. [28] Mokhtari, P., Takemoto, H., Nishimura, R., Kato, H. (2011). Pinna sensitivity Rivista Italiana di Acustica Vol. 39, N. 1, p. 46 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] patterns reveal reflecting and diffracting surfaces that generate the first spectral notch in the front median plane. In: IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP 2011), pp. 2408-2411. Huttunen, T., Kärkkäinen, A., Kärkkäinen, L., Kirkeby, O., Seppälä, E.T. (2007). Some Effects of the Torso on Head-Related Transfer Functions. In: Proc. 122th Conv. Audio Eng. Society. Perrett, S., Noble, W. (1997). The effect of head rotations on vertical plane sound localization. J. Acoust. Soc. Am., 102(4), pp. 2325-2332. Rao, D. (2005). Head rotation and sound image localization in the median plane. Chin. Sci. Bull.,50(5), p. 412. Morikawa, D., Toyoda, Y., Hirahara, T. (2011) Impact of head movement on sound localization with band-limited noise. In: Proc. of Inter-Noise 2011. Osaka, Japan, 4-7 September. Geronazzo, M., Spagnol, S., Avanzini, F. (2013). Estimation and Modeling of Pinna-Related Transfer Functions. In: Proc. of the 13th Int. Conference on Digital Audio Effects (DAFx-10). Graz, Austria, pp. 431-438. Geronazzo, M., Spagnol, S., Avanzini, F. (2011). A Head-Related Transfer Function Model for Real-Time Customized 3-D Sound Rendering. In: Proc. INTERPRET Work., SITIS 2011 Conf.. Dijon, France, pp. 174-179. Algazi, V. R., Duda, R.O., Thompson, D.M., Avendano, C. (2001). The CIPIC HRTF Database. In: Proc. IEEE Work. Appl. Signal Process., Audio, Acoust.. New Paltz, New York, USA, pp. 1–4. Satarzadeh, P. (2006). A Study of Physical and Circuit Models of the Human Pinnae. University of California Davis. Spagnol, S., Geronazzo, M., Avanzini, F. (2013). On the Relation between Pinna Reflection Patterns and Head-Related Transfer Function Features. IEEE Trans Audio Speech Lang Process, 21(3), pp. 508-519. Scaiella, S., Spagnol, S., Geronazzo, M., Avanzini, F. (2015). Subjective Evaluation of a Low-order Parametric Filter Model of the Pinna for Binaural Sound Rendering. In: 22nd Int. Congress on Sound and Vibration (ICSV22). Florence, Italy. Geronazzo, M., Carraro, A. Avanzini, F. (2015). Evaluating vertical localization performance of 3D sound rendering models with a perceptual metric. In: Proc. IEEE 2nd VR Workshop on Sonic Interactions for Virtual Environments (SIVE 2015). Arles, France. Lindau, A., Erbes, V., Lepa, S., Maempel, H.-J., Brinkman, F., Weinzierl, S. (2014). A Spatial Audio Quality Inventory (SAQI). Acta Acust. United Acust., 100(5), pp. 984-994. Spagnol, S., Geronazzo, M., Rocchesso, D., Avanzini, F. (2014). Synthetic Individual Binaural Audio Delivery by Pinna Image Processing. Int. J. Pervasive Comput. Commun., 10(3), pp. 239–254. Geronazzo, M. (2014). Mixed structural models for 3D audio in virtual environments. Ph.D. Thesis. University of Padova, Italy. Geronazzo, M., Avanzini, F., Fontana, F. (2015). Use of Personalized Binaural Audio and Interactive Distance Cues in an Auditory Goal-Reaching Task. In Proc. of the 21st Int. Conf. on Auditory Display (ICAD 2015). Graz, Austria, 2015. Vorländer, M. (2007). Auralization: Fundamentals of Acoustics, Modelling, Simulation, Algorithms and Acoustic Virtual Reality. 1st ed. Springer Publishing Rivista Italiana di Acustica Vol. 39, N. 1, p. 47 Michele Geronazzo L’acustica dell’orecchio esterno: un approccio a modelli strutturali misti per display uditivi virtuali The external ear acoustics: a mixed structural modeling approach in virtual auditory displays [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] Company, Incorporated. Kajastila, R., Lokki, T. (2013). Eyes-free interaction with free-hand gestures and auditory menus. Int. J. Hum.-Comput. Stud.. 71(5), pp. 627-640. Geronazzo, M., Kleimola, Majdak, J. P. (2015). Personalization Support for Binaural Headphone Reproduction in Web Browsers. In: Proc. 1st Web Audio Conference. Paris, France. Hoffmann, P.F., Møller, A.K., Christensen, F., Hammershøi, D. (2014). Sound localization and speech identification in the frontal median plane with a hearthrough headset. In: Proc. 7th Forum Acusticum. Krakow, Poland. Spagnol, S., Rocchesso, D., Geronazzo, M., Avanzini, F. (2013). Automatic Extraction of Pinna Edges for Binaural Audio Customization. In: Proc. IEEE Int. Work. Multi. Signal Process (MMSP 2013). Pula, Italy, pp. 301-306. Geronazzo, M., Spagnol, S., Avanzini, F. (2013). A Modular Framework for the Analysis and Synthesis of Head-Related Transfer Functions. In: Proc. 134th Conv. Audio Eng. Society. Rome, Italy. Spagnol, S., Geronazzo, M., Avanzini, F., Oscari, F., Rosati, G. (2012). Employing Spatial Sonification of Target Motion in Tracking Exercises. In Proc. 9th Int. Conf. Sound and Music Computing (SMC 2012). Copenhagen, Denmark, pp. 85-89. Geronazzo, M. Bedin, A., Brayda, L., Avanzini, F. (2014). Multimodal Exploration of Virtual Objects with a Spatialized Anchor Sound. In Proc. 55th Int. Conf. Audio Eng. Society, Spatial Audio. Helsinki, Finland, pp. 1-8. Geronazzo, M., Bedin, A., Brayda, L., Campus, C., Avanzini, F. (2015). Interactive spatial sonification for non-visual exploration of virtual maps. Int. J. Hum.-Comput. Stud., vol. in press. Geronazzo, M., Granza, F., Fontana, F., Avanzini, F. (2013). A Standardized Repository of Head-Related and Headphone Impulse Response Data. In: Proc. 134th Conv. Audio Eng. Society. Rome, Italy. Boren, B.B., Geronazzo, M., Majdak, P., Choueiri, E. (2014). PHOnA: A Public Dataset of Measured Headphone Transfer Functions. In: Proc. 137th Conv. Audio Eng. Society. Boren, B., Geronazzo, M., Brinkmann, F., Choueiri, E. (2015). Coloration Metrics for Headphone Equalization. In: Proc. of the 21st Int. Conf. on Auditory Display (ICAD 2015), Graz, Austria. Rivista Italiana di Acustica Vol. 39, N. 1, p. 48