L`AUDIO 1. Cos`e` il suono 2. frequenza 3. Ampitude 4. Percezione

L’AUDIO
1. Cos’e’ il suono
2. frequenza
3. Ampitude
4. Percezione del suono e Psicoacustica
5. rappresentazione digitale delle informazioni audio
6. Campionamento e quantizzazione
7. Teorema di Nisquit
8. Rapporto segnale rumore
9. Dimensione dei dati e banda di trasmisisione
10. formati standard per la codifica dei dati audio
a. wav
b. u-law
c. aiff
d. mpeg (la compressione audio)
11. I sistemi midi
Cos’e’ il suono
Il suono e’ un fenomeno fisico causato dalla vibrazione di un materiale. Questa vibrazione provoca
variazioni di pressione nell’ aria attorno al materiale, e si propagano nell’aria. Il cammino di questa
oscillazione e’ detto forma d’onda. Noi sentiamo il suono quando un onda arriva alle nostre
orecchie.
Questa forma d’onda ha una forma regolare attraverso intervalli di tempo
Frequenza
La frequenza di un suono e il valore reciproco del suo periodo, e rappresenta il numero di periodi in
un secondo ed e’ misurata in Hertz (Hz)
I suoni sono classificati in base alla frequenza
• Infrasuoni: 0 – 20 Hz
• AudioSuoni: 20 Hz – 20 kHz
• Ultrasuoni: 20kHz – 1 GHz
• Ipersuoni: 1 GHz – 10 THz
Gli audio suoni sono deti anche segnali acustici e sono quelli udibili dall’orecchio umano
Ampiezza
E’ una proprietà del suono che l’uomo percepisce come sonorita’ o volume del suono. L’ampiezza
di un suono e’ l’unita’ di misura usata per deviare l’onda di pressione dal suo valore principale.
Percezione del suono e psicoacustica
The Physical Acoustic Perspective
I suoni da una sorgente Sonora si espandono come onde concentriche di pressione. La posizione
della sorgente puo’ essere descritta caon la distanza dal centro della testa dell’ascolatatore e da due
angoli, uno in un livello orizzontale ed uno in un livello verticale
ITD (Interaural time difference): e’ la differenza di tempo con cui le onde sonoro raggiungono le
due orecchie.
IID (interaural intensity difference)
Queste due caratteristiche delle onde sonore arrivano alle orecchie e possono essere misurate e
descritter e rappresentano le basi per la ricognizione spaziale
L’apparato uditivo inoltre ha alcune caratteristiche che falsano la percezione, per esempio per
frequenze di 3 kHz , l’onda originale viene percepita in modo diverso a causa della risonanza nel
canale uditivo.
L’iterazione fra il corpo dell’ascoltatore e l’onda e’ complessa e genera una forte dipendenza su
angoli verticali e orizzontali, in cui la sorgente sonora e’ disposta
Inoltre il suono come un onda e’ soggetto a tutte le leggi di rifrazione,riflessione e dispersione che
falsano la reale percezione del suono ma danno informazioni sullo spazio intorno al suono.
Prospettiva Psicoacustica
Human Hearing and voice
• il campo di frequenze udibili va da 20 Hz fino a 20kHz, I piu’ sensibili da 2 a 4 kHz
• Il range dinamico e sui 96 dB
• La voce copre un range di frequenze da 500 Hz a 2 kHz
o Le frequenze piu basse sono bassi e vocali
o Le frequenze alte sono le consonanti
• La sensibilita’ dell’orecchio umano e’ variabile lungo lo spettro audio, e la sensibilita’
massima si ha intorno ai 2-3 kHz, e decresce all’estremita’ dello spettro
•
Bande Critiche:
L’apparato uditivo umano ha dei limiti , dipendenti dalla frequenza delle onde sonore. La misura
uniforme della percezione delle frequenza uniforme puo’ essere espressa in termini di larghezza di
Bande Critiche.
• ogni banda ha un ampiezza da 100 Hz a 4kHz
• l’intero spettro delle frequenze udibili e’ suddiviso in 25 bande critiche
Mascheramento delle frequenze
Un suoo puro puo’ mascherare un altro con frequenza vicina e livello piu’ basso, per esempio se
eseguiamo un suono a 1kHz, altri suoni nell’intervallo di mascheramento non sono percepiti.
Il mascheramento e’ differente per ogni frequenza e puo’ essere definito per ogni banda critica
Mascheramento temporale
Se si ascolta un suono alto, quando ci si ferma, ci vuole un po di tempo prima che si possa sentire
un tono piu’ basso
Combinando tutti gli effetti di mascheramento (di frequenza e temporale) otteniamo un grafico 3d
in cui si possono individuare delle zone, in cui i suoni sono inudibili e sono quelli sfruttati nella
compressione audio
Rappresentazione audio sui computer
La curva continua di un onda sonora per essere messa in un computer, il computer deve misurare
l’ampiezza dell’onda ad intervalli regolari. Il risultato e’ una sequenza di valori campionati.
ADC analog to digital converter: e’ il meccanismo che converte un segnale audio in una sequenza
di campionamenti digitali
DAC digital to analog converter: usato per fare la conversione opposta
Sampling Rate (velocita’ di campionamento): la velocita’ con cui un onda continua e’ campionata.
E’ misurata in Hz
Quantizzazione
Il processo di digitalizzazione richiede due passi
• prima il segnale analogico deve essere campionato. Cio’ significa che solo un insieme finito
di valori e’ mantenuto durante intervalli di tempo.
• Il secondo passo include la quantizzazione che consiste nel con vertire un segnale
campionato in un segnale che puo’ avere solo un numero limitato di valori. Per esempio
o 8 bit quantization- 256 valori possibili
o 16 bit quantization 65536 valori possibili
Questo significa che piu’ bassa e’ la quantizzazione (in bits), piu’ il suono risultante e’ di qualita’
inferiore.
TEOREMA DI NYQUIST: Il teorema di nisquit pone un limite alla frequenza di campionamento di
un segnale (in pratica una frequenza di campionamento piu’ alta sarebbe inutile alla fine della
riproduzione del segnale) e testualmente dice:
“ un segnale il cui spettro di frequenza e’ limitato superiormente puo’ essere completamente
ricostruito da un insieme di campioni se la frequenza di campionamento e’ almeno doppia della
piu’alta frequenza presente nel segnale”
RAPPORTO SEGNALE/RUMORE
Nei sistemi analogici il segnale e’ alterato dal rumore, una fluttuazione casuale del livello del
segnale dovuto a fenomeni elettronici.
Il rapporto segnale rumore e’ una misura della qualita’ del segnale
SNR(signal noise ratio)= 10log(V2signal/V2noise)=20log (Vsignal/Vnoise)
Nei sistemi digitali il rumore compare come differenza tra il livello del segnale reale e il livello del
segnale quantizzato.
SQNR=20log (Vsignal/Vquant-noise)= 20log(VN-1/(1/2))=6.02 N (dB)
DIMENSIONE DEI DATI E BANDA DI TRASMISSIONE
Qualita’ dell’ audio VS dimensione
Piu’ alta e’ la qualita’ dell’audio piu questo occupa in termini di spazio
Problemi della codifica audio
La codifica e decodifica digitale di segnali audio presenta maggiori problemi rispetto alle immagini
e al video
• l’audio ha una struttura temporale che non puo’ essere modificata (frequenza)
• l’informazione audio e’ variabile nel tempo
• la qualita’ di riproduzione richiesta di solito supera di molto la soglia della semplice
comprensibilita’
Audio:dimensione e tempo di trasferimento
L’audio non compresso di buona qualita’ supera la capacita’ di trasmissione delle reti convenzionali
( un segnare radio fm> 640 kbit/sec,CD audio > 1.2 Mbit/sec)
I dati sono di grandi dimensioni
• il segnale codificato occupa molto spazio
• la lunghezza e’ in linea di principio non limitata
Per questo non e’ possibile trasferire tutto il file prima di iniziare la riproduzione (si ha straming)
riproduzione durante la ricezione.
I FORMATI AUDIO:
WAV: Waveform Audio File
• sviluppato da MicroSoft e IBM
• diventa lo standard de facto per la codifica del suono su pc
• non e’ compresso (ed e’ di grandi dimensioni)
AIFF: Audio Interchange File Format
• sviluppato dalla Apple
• e’ il formato standard del Macintosh
• non compresso ( ma comunque esiste una versione compressa)
U-law
• formato audio standar unix
• standard telefonico in USA (8KHz,8bit)
A-LAW
• versione europea di u law
MPEG 1
• codifica le traccie audio nei video MPEG
• e’ un formato compresso per la codifica a qualita’ variabile
• usa un algoritmo a piu’ stadi basato sui principi di psicoacustica
• sono definiti tre livelli di codifica per tre diversi bit-rate
• e’ uno standard cross plattform
COMPRESSIONE DELL”AUDIO
I metodi di compressione senza perdita non forniscono buoni risultati per quanto riguarda la
compressione in aunto i dati audio sono molto variabili e le configurazioni ricorsive sono rare (
vediu Huffman, LZW ecc…).Per questo si devono usare per forza metodi di compressione con
perdita in quanto
• l’informazione audio e ridondante
• la qualita’ di compressione puo’essere controllata
• l’orecchio unano ha un comportamento non lineare
I metodi con perdita sfruttano le nozioni di psicoacustica visti sopra
• Compressione del silenzio
o Il silenzio e’ un insime di campioni sotto una certa soglia
o E’ simile alla compressione RLE
• Adaptive Differenziali Pulse Code Modulation (ADPCM)
o Codifica le differenze fra due o piu’segnali consecutivi
o La differenza e’ quantizzata quindi si ha perdita di informazione
o E’ necessario prevedere dove la forma d’onda e’ diretta (difficile)
o Apple ha un formato proprietario detto ACE/MACE. Quesrto schema con perdita
tenta di prevederte dove andra’ l’onda nel prossimo campionamento
• Linear Predictive Coding (LPC)
o Adatta il segnale ad un modello del parlato umano
•
o Trasmette i parametri del modello e le differenze del segnale reale rispetto al
modello
o Suoni come parlato umano a 2.4 kbit/sec
Code Excited Linear Predictor (CELP)
o Come LPC ma trasmette anche errori (audio conference quality ad 4.8 kbits/sec.)
MPEG AUDIO COMPRESSION
•
•
•
•
•
•
MPEG 1: 1.5 Mbits/sec per l’audio e video (1.2 Mbits/sec per video, 0.3 Mbits/sec for
audio) (un cd non compresso a 44100 campioni al secondo codificato con 16 bit per
campione in due canali occupa uno spazio maggiore di 1.4 Mbits/sec)
Ha un fattore di compressione che varia in uno spazio da 2.7 a 24
Con un livello di compressione si 6:1 ( 16 bit stereo campionato a 48 KHz e ridotto a 256
kbits/sec) il segnale compresso e’ praticamente indistinguibile dal segnale originale
Da 96 a 128kbit/s la qualita’ e’ ottimale per applicazioni domestiche
MPEG supporta frequenze di campionamento che vanno da (32/44.1 a 48 kHz) usando 16
bit per campione
Supporta uno o due canali audio in uno dei seguenti 4 formati
o Mono- canale audio singolo
o Dual monophonic:due canali indipendenti
o Stereo
o Joint stereo
L’ALGORITMO DI COMPRESSIONE AUDIO MPEG
L’algoritmo di codifica e’ diviso in quattro stadi che utilizzano le proprieta’ del modello
psicoacustico
• divisione del segnale audio in 32 sottobande di frequenza
• per ogni sottobanda cal;cola la quantita’ di mascheramento
• se la potenza del segnale nella sottobanda e’ inferiore alla soglia di mascheramento, il
segnale non viene codificato
• altrimenti calcola il numero di bit necessari per rappresentare il segnale in modo che i l
rumore di quantizzazione sia inferiore all soglia di mascheramento (1bit ~ 6dB di rumore)
• compone il flusso di bit secondo un formato standard per la trasmissione
Segnale audio non
compresso
Divisione in 32
bande di frequenza
Modello
Psicoacustico
Quantizzazione
Se applicabile
Codifica entropica
Compressed Audio
Data
MPEG LAYERS
•
•
•
•
•
MPEG definisce 3 layers per l’audio. Il modello base e’ lo stesso ma la complessita’ di
codifica aumenta con ogni layer
Divide i dati in frames, ognuno dei quali contiene 384 campioni, 12 campioni per ognuna
delle 32 sottobande filtrate come visto di seguito
Layer 1: filtro tipo DCT, con un solo frame ed una ripartizione costante dell frequenze e
delle sottbande( il modello psicoacustico usa solo il mascheramento di frequenza
Layer2: usa tre frame durante il filtraggio ( precedente, corrente e prossimo, per un totale di
1152 campioni) utilizzando in parte il mascheramento temporale
Layer 3: ripartisce lo spettro di frequenza in sottobande di ampiezza diversa
o Il modello psicoacustico comprende il mascheramento temporale
o Considera anche la ridondanza stereo
o Utilizza un compressore do Huffman
ESEMPIO CODIFICA MP3 vedi slides e esempi di codifica vedi slides
Music and the MIDI Standards
Un suono puo’ essere rappresentato come un suono digitalizzato che e’ una sequenza di
campionamenti, ognuno codificato con una cifre binarie.
Questa sequenza puo’essere compressas o non. Inoltre sappiamo che qualsiasi suono puo’essere
rappresentato in questo modo, inclusa la musica, ma questa rappresentazione non conserva la
descrizione semantica del suono, ovvero il computer non riconosce se una sequenza di bit
rappresenta parlato oppure musica, e se e’ musica, che note sono suonate e da quale strumento
La musica puo’essere descritta in una forma simbolica (note). Per gli strumenti computerizzati e
strumenti musicali elettronici usano una tecnica simile e molti di essi usano MIDI uno standard che
definisce come codificare tutti gli elementi della musica come una sequenza di note, condizioni
temporali, strumenti che suonano queste note .
INTRODUZIONE AI MIDI
MIDI rappresenta un insieme di specifiche usate nello sviluppo di strumenticosicche strumenti
diversi possono facilemte scambiarsi informazioni
Il protocollo MIDI e’ una descrizione intera della musica in forma binaria, ad ogni parola che
descrive un azione di una performance musicale e’ assegnato un codice binaria specifica.
Un interfaccia MIDI e’ composta di due componenti:
• Hardwere per connettere lo strumento
• Una forma di dati per codificare l’informazione che deve essere processata dall’hardware. Il
formato di dato midi non include la codifica di valori di campioni individuali , midi usa uno
formato specifico per ogni strumento, descrivendo cose tipo l’inizio e la fine di un pezzo, la
frequenza base , lodness in aggiunta allo strumento stesso
• Il formato di dati midi digitale e dati e sono raggruppate dentro messaggi midi
• L’interfaccia midi genera messaggi midi che definisce l’inizio di ogni pezzo e la sua
intensita’. Qesto messaggio e’ trasmesso ad una macchina connessa al sistema.. Appena il
musicista rilascia il tasto, un altro segnale midi e’ creato e trasmesso.
PERIFERICHE MIDI
Uno strumento che e’ in accordo con tutti gli standard midi e una periferica midi (un sintetizzatore)
capace di comunicare con altre periferiche midi attraverso canali. Lo standard midi definisce 16
canali. Una periferica midi e mappata sui canali. Lo standard midi definisce 128 strumenti, e effetti
rumorosi. Ci possono essere piu’ pezzi suonati contemporaneamente da un minimo di 3 a un max di
16 il tutto dipendente dalle proprieta’ del sintetizzatore.
Un computer usa un interfaccia midi per controllare strumenti per il playout. Il computer puo’ usare
la stessa interfaccia per ricevere, immagazzinare e processare dati musicali codificati.. Nello
sviluppo midi questi dati sono generati su una tastiera e suonati su un sintetizzatore
Un sequencer serve per modificare i dati (risiede di solito in un computer)