Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
Onda sonora
Per la fisica, il suono è un'oscillazione (un
movimento nello spazio) compiuta dalle
particelle (atomi e molecole) in un mezzo.
Nel caso del suono che si propaga in un
mezzo fluido (tipicamente in aria) le
oscillazioni sono spostamenti delle
particelle, intorno alla posizione di riposo
e lungo la direzione di propagazione dell'onda, provocati da movimenti vibratori,
provenienti da un determinato oggetto, chiamato sorgente del suono, il quale
trasmette il proprio movimento alle particelle adiacenti, grazie alle proprietà
meccaniche del mezzo; le particelle a loro volta, iniziando ad oscillare, trasmettono il
movimento alle altre particelle vicine e queste a loro volta ad altre ancora,
provocando una variazione locale della pressione; in questo modo, un semplice
movimento vibratorio si propaga meccanicamente originando un'onda
sonora (od onda acustica), che è pertanto onda longitudinale.
I parametri del suono
Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
Digitalizzare il suono: campionamento e quantizzazione
Sembra incredibile, ma se oggi possiamo ascoltare la musica su CD il merito è di un
matematico francese nato del XVIII secolo: Joseph Fourier. Con un suo teorema,
infatti, ci ha spiegato come si possa scomporre qualunque suono (anche il più
complesso) in tanti suoni semplici, rappresentabili graficamente. Più precisamente,
grazie alla cosiddetta comandata di Fourier possiamo “disegnare” ciascun suono che
compone una canzone sotto forma di una sinusoide. Essendo essa una
rappresentazione semplice, studiarla e lavorarci su è un’impresa affrontabile senza
troppe complicazioni. Per sua natura, però, questa rappresentazione della forma
d’onda (come qualunque altro fenomeno fisico) è formata da infiniti punti. Questo è
un problema, perché così com’è non è possibile rappresentarla con dei numeri (quindi
digitalizzarla) in quanto anche questi numeri sarebbero infiniti. E allora? E allora
dobbiamo prendere dalla forma d’onda dei punti a campione (da cui il nome
“campionamento”), che la rappresentino meglio possibile. Il risultato che si deve
raggiungere è di avere una specie di “riassunto” della forma d’onda che sia più fedele
possibile all’originale ma che sia rappresentabile con una quantità di numeri
ragionevolmente piccola, e quindi scrivibile su un CD audio che ha una capienza
massima limitata. L’operazione con cui si riassume la forma d’onda in una serie
discreta di punti presi a campione si chiama dunque campionamento. Quella con cui
assegniamo a ciascuno di questi punti un valore numerico (che poi sarebbero gli zeri
e gli uni che sono scritti , ad esempio, su un CD) si chiama "quantizzazione". La
frequenza di campionamento si misura in Hertz (abbreviato: Hz); un campionamento
a 44.100 Hertz vuol dire che per ogni forma d’onda vengono scelti 44.100 punti ogni
secondo. I CD audio tradizionali usano proprio questa frequenza di campionamento.
L’unità di misura della quantizzazione, invece, è il bit. Guarda il disegno: nell’asse
orizzontale è rappresentata la frequenza di campionamento, mentre su quello
verticale è rappresentata la quantizzazione. Tanto più alta è la frequenza di
campionamento, e tanti più sono i bit usati per quantizzare, tanto più precisa è la
rappresentazione della forma d’onda originale.
Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
In pratica è come avere una griglia: più è fitta, più fedele sarà la ricostruzione della
sinusoide che rappresenta i suoni che stiamo digitalizzando. Un file audio campionato
a 44.100 Hz e quantizzato a 16 bit, quindi, rappresenterà un suono con minor
precisione di quanto non farà un campionamento a 48.000 Hz e una quantizzazione a
24 bit, perché la griglia è più fitta. Tutto questo processo viene svolto da un
convertitore detto “A/D”, cioè “analogico/digitale” che, per riassumere, prende un
suono “reale”, lo divide in tante onde semplici, campiona ciascuna di esse, la
quantizza e la trasforma quindi in numeri, scrivibili su un CD, o su un qualunque altro
apparecchio digitale. E quando viene il momento di “ascoltare” questi numeri? Ci
pensa un altro convertitore, chiamato “D/A”, cioè “digitale/analogico”. Questo,
come avrai intuito, legge gli zeri e gli uni creati dal convertitore A/D, ricrea tutti i
puntini che rappresentano le forme d’onda originarie e le ritrasforma in suoni, che un
amplificatore e delle casse (o delle cuffie) rendono udibili. E il gioco è fatto.
I formati audio
Abbiamo quindi capito una cosa: la musica che ascoltiamo su un CD acquistato in un
negozio di musica contiene materiale audio che è un “riassunto” di quello prodotto
dalle chitarre, violini e percussioni con cui i brani musicali sono stati registrati.
Ciononostante la somiglianza con il materiale originale è elevata, e l'ascolto
gratificante. Abbiamo anche già detto che la frequenza di campionamento dei brani
di un CD audio è di 44.100 Hertz, e la quantizzazione è a 16 bit. Questo, calcolatrice
alla mano, vuol dire che, per ogni secondo di musica, avremo 1411 kbps di
informazioni (44.100 Hz*16 bit*2 canali) che il convertitore D/A trasformerà in
musica.
Tieni a mente questo numero, che si chiama bit rate.
Comprimere la musica
I formati musicali digitali sono tanti, ed ognuno ha delle caratteristiche specifiche. La
discriminante principale è il grado di compressione di ciascuno. Per "grado
compressione" si intende una maggiore o minore sottrazione di informazioni rispetto
al file originale (quello che è registrato sui CD, per intenderci). I formati audio
compressi usano algoritmi molto evoluti per stabilire cosa togliere e cosa tenere del
Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
file originale che devono comprimere. Alcuni interventi classici sono il taglio di
frequenze molto alte e molto basse, quello di suoni deboli quando vi si
sovrappongono suoni molto più forti e, in generale, l’eliminazione delle informazioni
relative a suoni che, in base ad approfonditi studi di psicoacustica, per un motivo o
per un altro non vengono percepiti dall’orecchio umano medio. Tanto maggiore è la
quantità di compressione applicata, tanto più piccolo sarà il file risultante, e tanto
maggiore sarà anche la perdita di qualità. I formati musicali compressi più utilizzati,
che sono AAC ed MP3, hanno avuto grande diffusione perché, a fronte di un
dimagrimento dei file originali del 90% circa, eliminano informazioni in modo
“intelligente”. La qualità dei file compressi in questi formati, quindi, è soddisfacente
per la maggior parte delle persone che ascoltano musica.
Sua maestà l’MP3
Il formato musicale audio compresso più diffuso è l’MP3. Il suo nome esteso è
International Standards Organization - Motion Picture Expert Group Audio Layer 3
(ISO-MPEG Audio Layer 3). Meno male che l’hanno abbreviato in MP3. Si tratta di un
algoritmo di compressione audio ideato nel 1987, ma che si è diffuso capillarmente
negli anni ’90. La qualità di un file MP3 dipende dal suo bit rate che, come abbiamo
visto, è il numero di unità binarie (zeri o uni) che fluiscono ogni secondo di musica.
Più alto è tale numero, più dettagliato è l'audio. Il bitrate minimo per una qualità
audio sufficiente è considerato 128 Kbit al secondo, mentre il più alto possibile in
questo formato di compressione è 320 Kbit al secondo. Il formato WAVE, come
abbiamo visto, ha un bit rate di 1411 Kbit al secondo.
E che succede se comprimo un file già compresso?
Accanto all’MP3 ci sono altri formati compressi di ampia diffusione. I più utilizzati
sono WMA, OGG, ATRAC e AAC. Gli algoritmi che ne costituiscono le fondamenta sono
diversi tra loro. Questo vuol dire che, quando vengono applicati ad un file musicale
WAVE, eliminano informazioni diverse rispetto all'algoritmo MP3. Ma cosa succede
se, invece di un file WAVE, comprimiamo un file già compresso in un altro formato?
Per rispondere useremo un esempio. Prendiamo tre file audio con il medesimo
contenuto musicale, e rappresentiamoli come tre semplici stringhe numeriche. La
prima (che rappresenta il file WAVE) contiene il massimo delle informazioni possibile,
cioè da 1 a 10. La seconda (che rappresenta il file MP3) conterrà meno informazioni,
perché alcune sono andate perse durante il processo di compressione da WAVE ad
MP3. La terza (il file AAC) idem, ma le informazioni perse rispetto al file di partenza
saranno diverse, perché l’algoritmo di compressione è differente. In pratica, ciascun
algoritmo farà una cernita di cosa togliere e cosa tenere del file originario in modo
che il risultato finale sia gradevole.
Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
File WAVE: 1 2 3 4 5 6 7 8 9 10
File MP3: 1 2
File AAC: 1
4
34
7
6
9
9
Se però al nostro file MP3 (quindi un file già compresso) applicassimo una
compressione AAC, otterremmo come risultato un file audio a cui mancano sia le
informazioni tolte dalla prima compressione, sia quelle tolte dalla seconda. La qualità
dell’audio del file risultante sarà molto bassa, perché ciò che resta è frutto di due
sottrazioni non omogenee. Per fare un paragone culinario, applicare due
compressioni è come friggere delle patate e poi lessarle. Le patate fritte sono buone.
Le patate lesse sono buone. Le patate fritte bollite sono una schifezza. Per questo
motivo, applicando una compressione AAC al file MP3 dell'esempio precedente
succederà questo:
DOPPIA COMPRESSIONE MP3+AAC:
1
4
9
Quindi, riassumendo: ciascun formato di compressione “ragiona” in modo diverso,
bilanciando differentemente ciò che toglie e ciò che tiene per ottenere risultati
soddisfacenti. E in questo frangente, l'unione non fa la forza: fa la fossa! Ma quando
si parla di musica c’è un altro formato di cui spesso si parla ma di cui poco si sa: è il
MIDI.
Il formato MIDI
Molto spesso mi è stato chiesto: che programma posso usare per convertire un file
WAVE o MP3 in un file MIDI? Posso convertirlo, no? La risposta è: ni. Ma più no che
sì. Perché? Vediamo. MIDI è l’acronimo di Musical Instrument Digital Interface, ed è
un “protocollo standard per l’interazione degli strumenti musicali elettronici”
(definizione tratta da Wikipedia) inventato negli anni ottanta e rimasto praticamente
inalterato fino ad oggi. Non scenderò nei dettagli di questo protocollo perché non è
questa la sede giusta. Per ora ci interessa dire solo una cosa: un file MIDI non è un file
audio come WAVE, MP3 ed AAC, e quindi non contiene musica. Esso è, di fatto, una
sorta di spartito musicale. Su di esso sono scritte una serie di informazioni, del tipo:
in un dato momento nel tempo suona un si bemolle centrale, con intensità 100, con
una determinata durata, e interrompi l’esecuzione della nota dopo mezzo secondo.
Perché queste informazioni si trasformino in suoni è necessario che vengano "lette"
da uno strumento hardware o software(campionatori o sintetizzatori, ad esempio), in
grado di trasformarle in musica. Questo vuol dire che uno stesso file MIDI, a seconda
dello strumento che lo legge, può “suonare diversamente”. Il si bemolle di cui
abbiamo parlato sopra, ad esempio, può avere il suono di un pianoforte, di un Moog,
Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
di un flauto traverso o di qualunque altro strumento. Ed ecco che torna il paragone
con gli spartiti: la musica che c’è scritta sopra può essere suonata da pianisti,
tastieristi, flautisti. Siccome il protocollo è studiato con intelligenza, i file che
contengono queste informazioni sono molto leggeri, solitamente poche decine di
kilobyte. Ora che sappiamo cosa c’è scritto in un file MIDI, possiamo trarre
un’importante conclusione: trasformare un file audio (WAVE, MP3 o qualunque altro)
in un file MIDI non è un’operazione semplice come convertire un formato audio in un
altro, proprio perché il MIDI non è un formato audio.
Formati Audio
Per semplificare l’elenco dei codec audio possiamo innanzitutto dividerli un due
categorie principali, formati lossless (ovvero senza perdita di qualità) e lossy (che
perdono qualità a causa della compressione dei dati per contenere le dimensioni).
Formati Lossless
Wave (.wav): è il formato audio non compresso più diffuso in assoluto. È il formato
utilizzato per i CD musicali, occupa molto spazio (1.411 Kilobit di informazioni ogni
secondo di musica stereo) ma riproduce i suoni in maniera precisa e fedele rispetto
alla fonte primaria. Può essere paragonato, per qualità e quantità di informazioni, al
formato AIFF (.aif) che però viene utilizzato in ambito Mac.
Flac (.flac): questo formato a differenza di Wave è open source ed utilizzato
principalmente per archiviare i CD nel computer. Inoltre effettua un minimo di
compressione, per questo è anche detto “lossless compressed”, ma solo se
necessario. Ad esempio in caso di musiche molto complesse e ricche di suoni userà
delle codifiche uguali al .wav (1.411 Kb/s di dati), in caso di parti più “semplici” ridurrà
la quantità di dati in modo da contenere le dimensioni senza inficiare la qualità del
suono.
Formati Lossy
MP3 (.mp3): il formato regina, conosciuto praticamente da chiunque. Fu pubblicato
nel lontano 1998 ed è tutt’ora il più utilizzato in assoluto. Se si comprime un file .wav
in .mp3 se ne può ottenere uno fino al 90% più piccolo in termini di dimensioni. La
codifica va da 32 a 320 Kbit per secondo, lo standard generale si stanzia sui 128 Kb/s.
Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
ACC (.aac): è uno standard creato da Apple ed utilizzato quando importi musica da
Itunes. Fondamentalmente funziona in modo simile all’MP3, la differenza sta nel
diverso metodo di compressione che comporta, per alcuni, un migliore suono rispetto
al classico mp3 nonostante dimensioni uguali.
WMA (.wma): è un formato di proprietà della Microsoft, anche questo simile all’mp3
per tipologia di compressione e dimensione dei file. Non è compatibile con tutti i
dispositivi in commercio e per questo motivo non è molto diffuso. A meno che non
utilizziate solo ed esclusivamente Windows Media Player per la riproduzione dei
vostri brani ne sconsigliamo l’utilizzo.
Esistono poi altri sistemi di codifica che riguardano principalmente il mondo del
cinema e della televisione come il Dolby Digital e il DTS ( Digital Theather System) e
loro relative sottocategorie.
Dolby Digital 5.1: è un formato audio che utilizza il sistema di compressione chiamato
AC3. Inizialmente questo sistema di codifica audio multicanale ( che può lavorare da
un minimo di 1 canale fino ad arrivare a 7, più un canale per le basse frequenze detto
LFE) è stato uno dei primi a permettere un codificazione dei canali indipendente tra
di loro, differenziandosi così dai sistemi detti “matriciali” che mischiavano più canali
tra di loro per poi codificarli con un numero di tracce inferiori. Esiste poi il Dolby Digital
Surround EX che rimane sempre un sistema di codifica 5.1, ma con la possibilità di
arrivare a 6.1 con un sistema matriciale.
DTS: è il sistema di codifica audio in diretta concorrenza con il Dolby Digital. Rispetto
a quest’ultimo presenta una compressione minore che, pur lasciando più o meno
inalterate le dimensioni rispetto al Dolby Digital, permette una qualità audio
maggiore. Il DTS inoltre è stato lanciato sul mercato con l’intenzione di essere più
malleabile nel futuro, ciò ha permesso di arrivare al formato DTS-ES Discrete 6.1 che,
come il DG Surround EX, offre 6.1 canali audio ma in configurazione “discreta” ovvero
senza mescolare i canali ( configurazione matriciale). Il suo formato principe rimane
comuque il DTS-HD Master Audio, che è un formato lossless ad otto canali (7.1)
“discreti”. Fin’ora si presenta come il formato audio migliore in assoluto. Esiste anche
una versione intermedia rispetto al Master Audio chiamata DTS-HD High Resolution
Audio con l’unica differenza della compressione, in questo caso lossy.
Standard
Owner
Licensing
Compressione
Max qualità
Media player rif.
Corso di gestione audio, video e presentazione multimediale
Prof. Mauro D’Andrea
MP3
ISO/IEC
Standard int.
Lossy
320Kbps
Tutti
WMA
Microsoft
Proprietario
Lossy
768Kbps
WMP
AAC
Apple
Proprietario
Lossy
320Kbps
iTunes
Vorbis
Xiph.Org
Open source
Lossy
500Kbps
Spotify
WAV
ISO/IEC
Standard int.
Non compresso
1411 / 9216Kbps
Tutti
AIFF
Apple
Proprietario
Non compresso
1411 / 9216Kbps
iTunes
FLAC
Xiph.Org
Open source
Lossless
1411 / 9216Kbps
Vari
ALAC
Apple
Proprietario
Lossless
1411 / 9216Kbps
Vari
WMA-L
Microsoft
Proprietario
Lossless
1411 / 9216Kbps
Vari
DSD
Sony / Philips Free
Non compresso
11508Kbps
Vari