Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea Onda sonora Per la fisica, il suono è un'oscillazione (un movimento nello spazio) compiuta dalle particelle (atomi e molecole) in un mezzo. Nel caso del suono che si propaga in un mezzo fluido (tipicamente in aria) le oscillazioni sono spostamenti delle particelle, intorno alla posizione di riposo e lungo la direzione di propagazione dell'onda, provocati da movimenti vibratori, provenienti da un determinato oggetto, chiamato sorgente del suono, il quale trasmette il proprio movimento alle particelle adiacenti, grazie alle proprietà meccaniche del mezzo; le particelle a loro volta, iniziando ad oscillare, trasmettono il movimento alle altre particelle vicine e queste a loro volta ad altre ancora, provocando una variazione locale della pressione; in questo modo, un semplice movimento vibratorio si propaga meccanicamente originando un'onda sonora (od onda acustica), che è pertanto onda longitudinale. I parametri del suono Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea Digitalizzare il suono: campionamento e quantizzazione Sembra incredibile, ma se oggi possiamo ascoltare la musica su CD il merito è di un matematico francese nato del XVIII secolo: Joseph Fourier. Con un suo teorema, infatti, ci ha spiegato come si possa scomporre qualunque suono (anche il più complesso) in tanti suoni semplici, rappresentabili graficamente. Più precisamente, grazie alla cosiddetta comandata di Fourier possiamo “disegnare” ciascun suono che compone una canzone sotto forma di una sinusoide. Essendo essa una rappresentazione semplice, studiarla e lavorarci su è un’impresa affrontabile senza troppe complicazioni. Per sua natura, però, questa rappresentazione della forma d’onda (come qualunque altro fenomeno fisico) è formata da infiniti punti. Questo è un problema, perché così com’è non è possibile rappresentarla con dei numeri (quindi digitalizzarla) in quanto anche questi numeri sarebbero infiniti. E allora? E allora dobbiamo prendere dalla forma d’onda dei punti a campione (da cui il nome “campionamento”), che la rappresentino meglio possibile. Il risultato che si deve raggiungere è di avere una specie di “riassunto” della forma d’onda che sia più fedele possibile all’originale ma che sia rappresentabile con una quantità di numeri ragionevolmente piccola, e quindi scrivibile su un CD audio che ha una capienza massima limitata. L’operazione con cui si riassume la forma d’onda in una serie discreta di punti presi a campione si chiama dunque campionamento. Quella con cui assegniamo a ciascuno di questi punti un valore numerico (che poi sarebbero gli zeri e gli uni che sono scritti , ad esempio, su un CD) si chiama "quantizzazione". La frequenza di campionamento si misura in Hertz (abbreviato: Hz); un campionamento a 44.100 Hertz vuol dire che per ogni forma d’onda vengono scelti 44.100 punti ogni secondo. I CD audio tradizionali usano proprio questa frequenza di campionamento. L’unità di misura della quantizzazione, invece, è il bit. Guarda il disegno: nell’asse orizzontale è rappresentata la frequenza di campionamento, mentre su quello verticale è rappresentata la quantizzazione. Tanto più alta è la frequenza di campionamento, e tanti più sono i bit usati per quantizzare, tanto più precisa è la rappresentazione della forma d’onda originale. Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea In pratica è come avere una griglia: più è fitta, più fedele sarà la ricostruzione della sinusoide che rappresenta i suoni che stiamo digitalizzando. Un file audio campionato a 44.100 Hz e quantizzato a 16 bit, quindi, rappresenterà un suono con minor precisione di quanto non farà un campionamento a 48.000 Hz e una quantizzazione a 24 bit, perché la griglia è più fitta. Tutto questo processo viene svolto da un convertitore detto “A/D”, cioè “analogico/digitale” che, per riassumere, prende un suono “reale”, lo divide in tante onde semplici, campiona ciascuna di esse, la quantizza e la trasforma quindi in numeri, scrivibili su un CD, o su un qualunque altro apparecchio digitale. E quando viene il momento di “ascoltare” questi numeri? Ci pensa un altro convertitore, chiamato “D/A”, cioè “digitale/analogico”. Questo, come avrai intuito, legge gli zeri e gli uni creati dal convertitore A/D, ricrea tutti i puntini che rappresentano le forme d’onda originarie e le ritrasforma in suoni, che un amplificatore e delle casse (o delle cuffie) rendono udibili. E il gioco è fatto. I formati audio Abbiamo quindi capito una cosa: la musica che ascoltiamo su un CD acquistato in un negozio di musica contiene materiale audio che è un “riassunto” di quello prodotto dalle chitarre, violini e percussioni con cui i brani musicali sono stati registrati. Ciononostante la somiglianza con il materiale originale è elevata, e l'ascolto gratificante. Abbiamo anche già detto che la frequenza di campionamento dei brani di un CD audio è di 44.100 Hertz, e la quantizzazione è a 16 bit. Questo, calcolatrice alla mano, vuol dire che, per ogni secondo di musica, avremo 1411 kbps di informazioni (44.100 Hz*16 bit*2 canali) che il convertitore D/A trasformerà in musica. Tieni a mente questo numero, che si chiama bit rate. Comprimere la musica I formati musicali digitali sono tanti, ed ognuno ha delle caratteristiche specifiche. La discriminante principale è il grado di compressione di ciascuno. Per "grado compressione" si intende una maggiore o minore sottrazione di informazioni rispetto al file originale (quello che è registrato sui CD, per intenderci). I formati audio compressi usano algoritmi molto evoluti per stabilire cosa togliere e cosa tenere del Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea file originale che devono comprimere. Alcuni interventi classici sono il taglio di frequenze molto alte e molto basse, quello di suoni deboli quando vi si sovrappongono suoni molto più forti e, in generale, l’eliminazione delle informazioni relative a suoni che, in base ad approfonditi studi di psicoacustica, per un motivo o per un altro non vengono percepiti dall’orecchio umano medio. Tanto maggiore è la quantità di compressione applicata, tanto più piccolo sarà il file risultante, e tanto maggiore sarà anche la perdita di qualità. I formati musicali compressi più utilizzati, che sono AAC ed MP3, hanno avuto grande diffusione perché, a fronte di un dimagrimento dei file originali del 90% circa, eliminano informazioni in modo “intelligente”. La qualità dei file compressi in questi formati, quindi, è soddisfacente per la maggior parte delle persone che ascoltano musica. Sua maestà l’MP3 Il formato musicale audio compresso più diffuso è l’MP3. Il suo nome esteso è International Standards Organization - Motion Picture Expert Group Audio Layer 3 (ISO-MPEG Audio Layer 3). Meno male che l’hanno abbreviato in MP3. Si tratta di un algoritmo di compressione audio ideato nel 1987, ma che si è diffuso capillarmente negli anni ’90. La qualità di un file MP3 dipende dal suo bit rate che, come abbiamo visto, è il numero di unità binarie (zeri o uni) che fluiscono ogni secondo di musica. Più alto è tale numero, più dettagliato è l'audio. Il bitrate minimo per una qualità audio sufficiente è considerato 128 Kbit al secondo, mentre il più alto possibile in questo formato di compressione è 320 Kbit al secondo. Il formato WAVE, come abbiamo visto, ha un bit rate di 1411 Kbit al secondo. E che succede se comprimo un file già compresso? Accanto all’MP3 ci sono altri formati compressi di ampia diffusione. I più utilizzati sono WMA, OGG, ATRAC e AAC. Gli algoritmi che ne costituiscono le fondamenta sono diversi tra loro. Questo vuol dire che, quando vengono applicati ad un file musicale WAVE, eliminano informazioni diverse rispetto all'algoritmo MP3. Ma cosa succede se, invece di un file WAVE, comprimiamo un file già compresso in un altro formato? Per rispondere useremo un esempio. Prendiamo tre file audio con il medesimo contenuto musicale, e rappresentiamoli come tre semplici stringhe numeriche. La prima (che rappresenta il file WAVE) contiene il massimo delle informazioni possibile, cioè da 1 a 10. La seconda (che rappresenta il file MP3) conterrà meno informazioni, perché alcune sono andate perse durante il processo di compressione da WAVE ad MP3. La terza (il file AAC) idem, ma le informazioni perse rispetto al file di partenza saranno diverse, perché l’algoritmo di compressione è differente. In pratica, ciascun algoritmo farà una cernita di cosa togliere e cosa tenere del file originario in modo che il risultato finale sia gradevole. Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea File WAVE: 1 2 3 4 5 6 7 8 9 10 File MP3: 1 2 File AAC: 1 4 34 7 6 9 9 Se però al nostro file MP3 (quindi un file già compresso) applicassimo una compressione AAC, otterremmo come risultato un file audio a cui mancano sia le informazioni tolte dalla prima compressione, sia quelle tolte dalla seconda. La qualità dell’audio del file risultante sarà molto bassa, perché ciò che resta è frutto di due sottrazioni non omogenee. Per fare un paragone culinario, applicare due compressioni è come friggere delle patate e poi lessarle. Le patate fritte sono buone. Le patate lesse sono buone. Le patate fritte bollite sono una schifezza. Per questo motivo, applicando una compressione AAC al file MP3 dell'esempio precedente succederà questo: DOPPIA COMPRESSIONE MP3+AAC: 1 4 9 Quindi, riassumendo: ciascun formato di compressione “ragiona” in modo diverso, bilanciando differentemente ciò che toglie e ciò che tiene per ottenere risultati soddisfacenti. E in questo frangente, l'unione non fa la forza: fa la fossa! Ma quando si parla di musica c’è un altro formato di cui spesso si parla ma di cui poco si sa: è il MIDI. Il formato MIDI Molto spesso mi è stato chiesto: che programma posso usare per convertire un file WAVE o MP3 in un file MIDI? Posso convertirlo, no? La risposta è: ni. Ma più no che sì. Perché? Vediamo. MIDI è l’acronimo di Musical Instrument Digital Interface, ed è un “protocollo standard per l’interazione degli strumenti musicali elettronici” (definizione tratta da Wikipedia) inventato negli anni ottanta e rimasto praticamente inalterato fino ad oggi. Non scenderò nei dettagli di questo protocollo perché non è questa la sede giusta. Per ora ci interessa dire solo una cosa: un file MIDI non è un file audio come WAVE, MP3 ed AAC, e quindi non contiene musica. Esso è, di fatto, una sorta di spartito musicale. Su di esso sono scritte una serie di informazioni, del tipo: in un dato momento nel tempo suona un si bemolle centrale, con intensità 100, con una determinata durata, e interrompi l’esecuzione della nota dopo mezzo secondo. Perché queste informazioni si trasformino in suoni è necessario che vengano "lette" da uno strumento hardware o software(campionatori o sintetizzatori, ad esempio), in grado di trasformarle in musica. Questo vuol dire che uno stesso file MIDI, a seconda dello strumento che lo legge, può “suonare diversamente”. Il si bemolle di cui abbiamo parlato sopra, ad esempio, può avere il suono di un pianoforte, di un Moog, Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea di un flauto traverso o di qualunque altro strumento. Ed ecco che torna il paragone con gli spartiti: la musica che c’è scritta sopra può essere suonata da pianisti, tastieristi, flautisti. Siccome il protocollo è studiato con intelligenza, i file che contengono queste informazioni sono molto leggeri, solitamente poche decine di kilobyte. Ora che sappiamo cosa c’è scritto in un file MIDI, possiamo trarre un’importante conclusione: trasformare un file audio (WAVE, MP3 o qualunque altro) in un file MIDI non è un’operazione semplice come convertire un formato audio in un altro, proprio perché il MIDI non è un formato audio. Formati Audio Per semplificare l’elenco dei codec audio possiamo innanzitutto dividerli un due categorie principali, formati lossless (ovvero senza perdita di qualità) e lossy (che perdono qualità a causa della compressione dei dati per contenere le dimensioni). Formati Lossless Wave (.wav): è il formato audio non compresso più diffuso in assoluto. È il formato utilizzato per i CD musicali, occupa molto spazio (1.411 Kilobit di informazioni ogni secondo di musica stereo) ma riproduce i suoni in maniera precisa e fedele rispetto alla fonte primaria. Può essere paragonato, per qualità e quantità di informazioni, al formato AIFF (.aif) che però viene utilizzato in ambito Mac. Flac (.flac): questo formato a differenza di Wave è open source ed utilizzato principalmente per archiviare i CD nel computer. Inoltre effettua un minimo di compressione, per questo è anche detto “lossless compressed”, ma solo se necessario. Ad esempio in caso di musiche molto complesse e ricche di suoni userà delle codifiche uguali al .wav (1.411 Kb/s di dati), in caso di parti più “semplici” ridurrà la quantità di dati in modo da contenere le dimensioni senza inficiare la qualità del suono. Formati Lossy MP3 (.mp3): il formato regina, conosciuto praticamente da chiunque. Fu pubblicato nel lontano 1998 ed è tutt’ora il più utilizzato in assoluto. Se si comprime un file .wav in .mp3 se ne può ottenere uno fino al 90% più piccolo in termini di dimensioni. La codifica va da 32 a 320 Kbit per secondo, lo standard generale si stanzia sui 128 Kb/s. Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea ACC (.aac): è uno standard creato da Apple ed utilizzato quando importi musica da Itunes. Fondamentalmente funziona in modo simile all’MP3, la differenza sta nel diverso metodo di compressione che comporta, per alcuni, un migliore suono rispetto al classico mp3 nonostante dimensioni uguali. WMA (.wma): è un formato di proprietà della Microsoft, anche questo simile all’mp3 per tipologia di compressione e dimensione dei file. Non è compatibile con tutti i dispositivi in commercio e per questo motivo non è molto diffuso. A meno che non utilizziate solo ed esclusivamente Windows Media Player per la riproduzione dei vostri brani ne sconsigliamo l’utilizzo. Esistono poi altri sistemi di codifica che riguardano principalmente il mondo del cinema e della televisione come il Dolby Digital e il DTS ( Digital Theather System) e loro relative sottocategorie. Dolby Digital 5.1: è un formato audio che utilizza il sistema di compressione chiamato AC3. Inizialmente questo sistema di codifica audio multicanale ( che può lavorare da un minimo di 1 canale fino ad arrivare a 7, più un canale per le basse frequenze detto LFE) è stato uno dei primi a permettere un codificazione dei canali indipendente tra di loro, differenziandosi così dai sistemi detti “matriciali” che mischiavano più canali tra di loro per poi codificarli con un numero di tracce inferiori. Esiste poi il Dolby Digital Surround EX che rimane sempre un sistema di codifica 5.1, ma con la possibilità di arrivare a 6.1 con un sistema matriciale. DTS: è il sistema di codifica audio in diretta concorrenza con il Dolby Digital. Rispetto a quest’ultimo presenta una compressione minore che, pur lasciando più o meno inalterate le dimensioni rispetto al Dolby Digital, permette una qualità audio maggiore. Il DTS inoltre è stato lanciato sul mercato con l’intenzione di essere più malleabile nel futuro, ciò ha permesso di arrivare al formato DTS-ES Discrete 6.1 che, come il DG Surround EX, offre 6.1 canali audio ma in configurazione “discreta” ovvero senza mescolare i canali ( configurazione matriciale). Il suo formato principe rimane comuque il DTS-HD Master Audio, che è un formato lossless ad otto canali (7.1) “discreti”. Fin’ora si presenta come il formato audio migliore in assoluto. Esiste anche una versione intermedia rispetto al Master Audio chiamata DTS-HD High Resolution Audio con l’unica differenza della compressione, in questo caso lossy. Standard Owner Licensing Compressione Max qualità Media player rif. Corso di gestione audio, video e presentazione multimediale Prof. Mauro D’Andrea MP3 ISO/IEC Standard int. Lossy 320Kbps Tutti WMA Microsoft Proprietario Lossy 768Kbps WMP AAC Apple Proprietario Lossy 320Kbps iTunes Vorbis Xiph.Org Open source Lossy 500Kbps Spotify WAV ISO/IEC Standard int. Non compresso 1411 / 9216Kbps Tutti AIFF Apple Proprietario Non compresso 1411 / 9216Kbps iTunes FLAC Xiph.Org Open source Lossless 1411 / 9216Kbps Vari ALAC Apple Proprietario Lossless 1411 / 9216Kbps Vari WMA-L Microsoft Proprietario Lossless 1411 / 9216Kbps Vari DSD Sony / Philips Free Non compresso 11508Kbps Vari