Mp3 - Il nuovo modo di comprimere l`audio

Mp3 - Il nuovo modo di comprimere l'audio
Intro
Per la diffusione della musica sono stati utilizzati, fino agli anni Novanta, alcuni supporti fisici ben
definiti: il disco vinile, la musicassetta, il Cd, il Dat, il minidisk. Questi ultimi sono supporti cosiddetti
digitali, ove l’informazione audio viene convertita e immagazzinata in bit. La digitalizzazione dell’audio
richiede però grandi quantità di spazio fisico, se si considera che un minuto di musica stereo occupa,
come spiegheremo nel corso di questo articolo, circa 10 Mbyte. Per questo motivo i Cd possono
contenere solamente sino a 74 minuti (80 con i nuovi supporti) di musica stereo, dipendente dalla
capacità di memorizzazione degli stessi. L’alta mole di dati da trasferire ha impedito fino a poco tempo
fa una diffusione della musica via Internet a qualità Cd e avevamo poche alternative: ridurre la
frequenza di campionamento a scapito della qualità, o utilizzare algoritmi di compressione proprietari
(come Real Audio).
Tutto ciò succedeva fino a poco tempo fa, dicevamo. Infatti, grazie alle ricerche condotte da un gruppo di esperti, si è giunti alla codifica di un algoritmo di
compressione audio, adottato come standard mondiale, che ha prestazioni qualitative eccezionali: Mp3, che ha guadagnato le pagine delle cronache
informatiche e non poiché, grazie al rapporto di compressione altissimo (12 a 1) e al mantenimento della qualità pari a quella del Cd, permette la
diffusione della musica su supporti non tradizionali: collegandosi a Internet è possibile scaricare brani musicali o Cd interi e suonarli direttamente dal
proprio computer. Oppure scaricarseli dal computer su lettori portatili tipo walkman per ascoltarseli in giro. In questo articolo tratteremo gli aspetti
prettamente tecnici del formato Mp3, offrendo una panoramica storica e descrittiva dello stesso, accompagnata da una breve descrizione dei software
disponibili.
Descrizione tecnica
Nel corso degli anni Mpeg ha però modificato i propri standard adeguandoli alle crescenti esigenze e richieste del mercato. Tutto ciò ha portato alla
realizzazione di tre formati: Mpeg1 è lo standard per i video su Cd-Rom a bassa risoluzione. La risoluzione minima è di 1.2 megabit al secondo che, dato il
numero di fotogrammi per secondo, determina se potremo vedere il filmato a 320 per 200 o meno ancora. Mpeg2 è stato sviluppato per la trasmissione
video e audio via cavo, via satellite ecc. Offre una qualità broadcast, cioè adatta alla trasmissione televisiva, quindi richiede una capacità maggiore rispetto
a Mpeg1. La frequenza di lavoro minima per il broadcast è di circa 5 megabit al secondo (detta bitrate, dipende dalla quantità di immagini in movimento).
Mpeg3 non esiste più ed è stato integrato nell’Mpeg2, infine Mpeg4 è in fase di sviluppo. Lo standard Mpeg contiene anche la descrizione della
compressione dell’audio digitale e utilizza uno schema di codifica percettiva ad alto impatto. L’algoritmo di compressione è infatti costruito sui risultati
ottenuti dalle ricerche sulla psicoacustica, studi compiuti sul comportamento dell’orecchio umano e sulla codifica dei segnali sonori da parte del cervello.
Mpeg contiene una famiglia di tre schemi di codifica audio, chiamati semplicemente Layer 1, 2 e 3. Dal primo al terzo troviamo un incremento nella
complessità dell’algoritmo e nelle performance, con un miglioramento della qualità audio da uno a tre.
Ecco per i tre layer i valori, riferiti a un solo canale audio, di compressione e di bitrate, espressi in Kbps (Kbit per secondo):
Layer-1 comprime 1:4 a 192 Kbps;
Layer-2 comprime 1:6 oppure 1:8,
a 128 o a 96 Kbps;
Layer-3 comprime 1:10 oppure 1:12
a 64 o a 56 Kbps;
Il segnale ricostruito mantiene una qualità di tipo Cd.
Il Layer-1 è stato concepito per il Dcc (Digital Compact Cassette) dove è utilizzato a 384 kbps. Il Layer-2 è utilizzato per i canali audio dei Cd-Rom video. E’
altresì conosciuto sotto il nome di Musicam (Masking pattern adapted Universal Subband Integrated Coding And Multipleing). Le frequenze di
campionamento sono 32, 44,1 e 48 kHz , la risoluzione è di 16 bit, il bitrate è a scelta 54-64-112-128-192-256-384 Kbps.
Il Layer-3 è invece utilizzato per applicazioni ove la banda passante è limitata e perciò il bitrate deve essere basso, anzi il più basso possibile. Per questo
tipo di applicazioni, Mpeg 1 Layer-3 offre, a 64 o 56 Kbps, la migliore qualità sonora di tutti i codec Iso.
La conversione digitale
Un segnale audio digitale, non compresso, consiste in un campione (sample) a 16 bit (ma ora sono state raggiunte risoluzioni sino a 24 bit) registrato con
un sampling rate (frequenza di campionamento) che è pari a più del doppio della bandwidth (larghezza di banda). Per esempio, la frequenza di
campionamento dei Compact Disck è pari 44.1 kHz, più del doppio della banda di frequenza massima udibile dall’orecchio umano (20Khz). Perciò un
secondo di musica stereo in qualità Cd ha una grandezza di 1.400 Mbit. Come abbiamo raggiunto questo risultato? Facciamo un piccolo esempio, poniamo
di voler registrare un minuto di musica stereo sul proprio hard disk a qualità Cd (un file .Wav, per intenderci), ovvero a 44.1 kHz a 16 bit per campione.
44.100 Hz significa che un secondo è diviso in 44.100 punti (campioni o sample) ciascuno di essi codificato in 16 bit. Bisogna moltiplicare per due, il
numero di canali utilizzati in stereo. Bisogna nuovamente moltiplicare il risultato ottenuto per due, perché si hanno due bit per punto. Pertanto:
44.100 campioni X
2 canali X
2 byte per sample X
60 secondi = 10.584.000 byte, circa 10 Mbyte.
Utilizzando un modem a 28.800, ci vogliono circa 49 minuti per scaricarsi un minuto di musica stereo.
Encoding
Come fare a comprimere l’audio, senza ridurre la qualità, è il problema che gli scienziati si sono posti in questi anni. La soluzione è stata trovata utilizzando
le ricerche compiute dalla psicoacustica, scienza che si occupa di isolare e misurare i fenomeni dell’udito. Fondamentalmente l’algoritmo di compressione
Mpeg si basa su due concetti di psicoacustica: la soglia di udibilità e il mascheramento. L’orecchio umano è in grado di percepire suoni contenuti in uno
spettro di frequenza che parte dai 20 Hz per arrivare ai 20.000 Hz. Tutto ciò che è sopra (ultrasuoni) e sotto non viene percepito, perciò è in un certo
senso inutile. Se eliminiamo tali frequenze, risparmieremo spazio sul supporto di memorizzazione, per esempio l’hard disk. Inoltre la soglia di udibilità è
variabile a seconda del livello e della frequenza del segnale ascoltato, ossia se una data frequenza scende al di sotto di un certo livello, misurato in decibel,
non viene più udita e quindi è eliminabile. Un altro modo per salvare spazio prezioso.
Tutti sanno che i suoni deboli vengono sommersi dai suoni forti. E’ come per la vista quando è sottoposta a una luce intensa. Tuttavia l’orecchio è diverso
dall’occhio, infatti recupera le sue capacità molto più velocemente e, mentre la luce intensa determina un deterioramento della visione di tutti i colori, un
suono forte di una certa frequenza rende inudibili solo i suoni di date frequenze. Esiste quindi un rapporto di tipo matematico. Questo effetto, chiamato
mascheramento, ha una grande importanza nella percezione del suono musicale. E’ rilevante altresì anche nella produzione del suono, dato che le
distorsioni non mascherate disturbano l’orecchio; quindi il mascheramento è un aspetto essenziale dell’ascolto del suono. Ma l’effetto più importante sta
nel fatto che un suono musicale può mascherare un altro suono musicale.
L’algoritmo di compressione Mpeg Layer-3 è stato concepito utilizzando i concetti sopra esposti. Perciò, una volta convertito digitalmente, il segnale in
ingresso viene analizzato nelle sue componenti di spettro e inviato a un banco di 32 filtri passabanda equispaziati. A esso viene applicato un modello
psicoacustico chiamato "modello percettuale", che agisce sul segnale secondo i parametri di psicoacustica sopra descritti, eliminando tutte le frequenze
non necessarie. Nella fase successiva il segnale viene codificato utilizzando un numero di bit differenti per le varie porzioni dello stesso, per eliminare la
ridondanza delle informazioni.
Come si vede, la procedura di codifica è complessa e impiega diverso tempo, a seconda del programma di encoding che si utilizza. Un brano della durata
di cinque minuti potrebbe essere codificato in un lasso di tempo compreso tra i quindici e i venti minuti. Il tempo dipende anche dal bitrate scelto: più alto
è, maggiore sarà la qualità e maggiore sarà il tempo impiegato per la codifica.
Il risultato, in termini di spazio fisico occupato e di qualità dell’audio, è notevole: se un file Wav di quattro minuti richiede oltre quaranta Mbyte di spazio,
un Mp3 della stessa durata con compressione 1:12 a 64 kbit/s ne occupa circa tre, con la qualità che rimane praticamente inalterata.
Decoding
La procedura di decodifica è estremamente meno complessa di quella di codifica. I dati audio sono inizialmente estratti dal flusso di dati compressi, poi il
segnale originale viene ricostruito grazie alle informazioni fornite dal codificatore e memorizzate insieme ai dati veri e propri. In pratica il decoder estrae le
informazioni sul numero di bit assegnati a ogni porzione del segnale, e riassegna a ogni parte i famosi 16 bit. La differenza tra un file Mp3 e uno Wav è
praticamente inudibile per un orecchio normale, ma se si confrontano i due file con un analizzatore di spettro, si vedrà come lo spettro di frequenza
dell’Mp3 sia notevolmente inferiore a quello del file Wav.
Software
Per gestire i file Mp3, ovvero per convertire un file Wav in Mp3 e viceversa è necessario utilizzare software appositi. Data la sempre maggiore diffusione
del formato negli ultimi tempi sono stati sviluppati diversi programmi, facilmente reperibili su Internet. Questi, per comodità di esposizione e per le diverse
funzioni che svolgono nelle fasi di cattura dell’audio e della sua conversione, sono stati divisi in tre categorie: Encoders/Decoders, Cd Rippers e Players.
I primi sono veri e propri codificatori/decodificatori che servono alla conversione vera e propria. I secondi sono programmi che consentono l’estrazione di
brani audio dal Cd per memorizzarli su hard disk. I software di ultima generazione utilizzano direttamente un codec Mp3, cosicché è possibile salvare il
brano musicale direttamente in Mp3 senza dover prima generare un file Wav, che richiede maggiore spazio su disco.
La terza categoria è formata dai cosidetti Players, che servono a eseguire i file Mp3. Questi software contengono in molti casi encoder/decoder proprietari
che svolgono egregiamente il proprio lavoro.
Mp3 Encoder
Esistono due tipi di Codec: interni o esterni. I secondi permettono a qualsiasi programma, che supporti il codec, di creare file Mp3. L’algoritmo di codifica
più popolare è quello sviluppato nel 1996 dai laboratori tedeschi Fraunhofer Gesellschaft. Sfruttano questo algoritmo una serie di Encoders: FhG Mp3
Producer Professional, Fraunhofer Mp3 codec v1.063 (esterno), AudioActive Production Studio Professional 1.56, Mp3 Compressor 0.9f, MP3enc v.3.1. La
differenza tra tutti questi programmi sta nella velocità di codifica in Mp3, nel bitrate (alcuni arrivano fino a 128 kbps, altri superano questo valore) e nella
possibilità di variare la configurazione dei parametri, per esempio l’impostazione delle priorità di codifica.
Un altro ottimo Encoder è XingMP3 Encoder 2.2, capace di comprimere in formato Mp3 qualsiasi file multimediale (Wav, Avi, Bmp e Jpeg). Supporta un
bitrate sino a 320 kbps, e supporta la codifica Vbr (Variable Bitrate). Questa è la tecnica di conversione più recente, è offre, rispetto alla tecnologia
Constant Bitrate, una qualità sonora maggiore in file di dimensioni minori. Tra l’altro la nuova versione ha un frequncy cutoff (taglio di frequenza) a 20
KHz, un miglioramento rispetto al passato, ove il taglio avveniva sui 16 KHz.
Un programma freeware molto interessante è NexEncode Studio 2.0, dall’interfaccia molto curiosa, che permette anche la conversione inversa, ovvero da
Mp3 a Wav.
Cd-Ripper
L’offerta di software che effettua la cattura da Cd del brano audio, per convertirlo poi (in alcuni casi, se il software supporta encoder esterni) in Mp3, è
attualmente assai vasta.
Il più celebrato è forse AudioGrabber 1.41, il quale può automaticamente normalizzare la musica, rimuovere il silenzio all’inizio e al termine del brano e
convertire lo stesso in Mp3 utilizzando codec esterni come il Fraunhofer. E soprattutto durante l’installazione non viene scritto nessun Dll, Ocx o driver di
altro tipo nella directory di sistema di Windows.
Un altro programma che riscuote molto successo è AudioCatalyst 2.0, prodotto dalla stessa azienda del codec XingMP3. Combinando questi due
programmi si ottiene un potente tool per la produzione Mp3. Al contrario di Audiograbber, che comunque crea file temporanei Wav su disco, AudioCatalyst
riesce a catturare la traccia da Cd e a creare il file Mp3 senza intermediazioni.
Un altro buon "estrattore" è Easy Cd-DA Extractor 3.0.5, che ha più o meno le stesse funzionalità dei precedenti. Altri programmi sono WinDAC 1.48,
Megamix98 Cd-Maker Edition 2.0, Virtuosa Gold 3.10, CDCopy 4.717, MusicMatch JukeBox 3.1, Adaptec Cd Spin Doctor.
Mp3 Players
I player Mp3 si stanno diffondendo come funghi. Il leader attuale è Winamp, giunto alla versione 2.21, considerato universalmente il migliore. Dotato di
una semplice e intuitiva interfaccia, contiene un analizzatore di spettro, un equalizzatore grafico e gestisce le playlist. Interessantissima la gestione dei
plug in, che permettono di configurare il programma aggiungendo effetti visuali e/o sonori, e di modificare l’interfaccia utente. Numerosissimi sono quelli
sviluppati da terze parti, in molti casi freeware, che ne accrescono le funzionalità. Winamp inoltre permette di convertire il file Mp3 in Wav. Di seguito
troviamo altri ottimi programmi, molti in pre release o ancora in versione beta: JetAudio 4.02, Sonique 0.95c , Kjofol v.0.51, NAD 0.94 Prebeta 3,
MuseARC 4.9.99.3, WPlay 1.70 beta 5, Unreal Player MAX 1.29 R7, Apollo 30, XingMpeg Player, per fare alcuni nomi. Ricordiamo che anche il lettore
multimediale di Windows (Windows Media Player), nella nuova versione, quella inclusa in Windows 98 (se si ha installato Windows 95 si può scaricare dal
sito Microsoft l’upgrade) esegue i file Mp3, ed è la soluzione consigliata per coloro i quali non desiderano installare programmi più complessi.