I.I.S.S. “P. Calamandrei” – ITIS di Santhià
Dipartimento di Informatica
DVD video
Caratteristiche del video
digitale
Modulo didattico “L’Hardware del P.C.”
Ultima revisione 10 novembre 2003
Autore M. Lanino
Struttura e specifiche dello
standard
Il Dvd è stato creato per essere un supporto dati in formato digitale ad alta capacità e si basa sulle
tecnologie sviluppate per costruire i Cd, a loro volta potenziate dai più recenti progressi scientifici
nel campo dei supporti di memorizzazione ottica a elevata densità.
Questo disco può contenere filmati, suoni oppure dati; nel primo caso è definito Dvd Video, nei
secondo Dvd Audio e infine nella terza eventualità è chiamato Dvd-Rom.
La struttura di un Dvd Video comprende le due cartelle AUDIO TS e VIDEO TS: la
prima è sempre vuota, la seconda contiene i file codificati necessari per rappresentare i
menu, la colonna sonora e i filmati. Le animazioni registrate nel Dvd sono naturalmente
conformi allo standard Pal: la risoluzione dei fotogrammi è di 720 x 576 punti, con un
rapporto d'aspetto per i pixel di 1,067 quando le immagini rispettano la classica
proporzione 4:3.
La sezione video dei Dvd impiega la codifica Mpeg-2, uno standard di
compressione adoperato anche nelle trasmissioni digitali via satellite
La compressione dei
fotogrammi
Il campionamento e la compressione di ogni singolo fotogramma lavorano suddividendo
l' immagine in fette orizzontali alte 16 pixel; queste strisce sono poi separate in quadrati
di 16 x 16 punti (macroblocchi), a loro volta spezzati in quattro blocchi di 8 x 8 pIxel. La
compressione avviene inizialmente tentando di raggruppare in un solo pixel - tramite
l'algoritmo della trasformata discreta del coseno (Dct, Discrete Cosine Transform), i
punti che compongono un blocco; di seguito si cerca di fondere in un solo macroblocco i
blocchi che lo costituiscono e successivamente di condensare più macroblocchi in zone
di colore uniforme; queste operazioni, naturalmente, comportano una perdita di
dettaglio, che è proporzionale al livello di compressione che si desidera ottenere. La
massima risoluzione delle dimensioni del video si ha nel caso di scene semplici, con
colori uniformi, come un cielo privo di nubi, mentre la compressione non raggiunge valori
elevati quando l'inquadratura contiene oggetti con molti dettagli, come un elemento ricco
di piccoli particolari.
La struttura del flusso video
Mpeg-2
A differenza di quanto avviene nelle registrazioni Dv dove i frame sono compressi
singolarmente e sono trattati tutti alla stessa maniera, nel caso dei flussi video Mpeg-2
impiegati nei Dvd si distinguono i fotogrammi secondo tre tipologie diverse:
I-Frame (lntra Frame) sono i fotogrammi principali, di riferimento, che in genere si
presentano ogni 12 frame (12 fotogrammi formano un GOP, Group of Picture, cioè un
gruppo di immagini) e che sono compressi unicamente con Dct.
P-Frame (Predictive Frame) sono fotogrammi compressi con Dct e con gli algoritmi
Motion Compensation e Motion Estimation, che confrontano il frame corrente con l’IFrame o con il P-Frame precedente, memorizzando soltanto le zone dell'immagine che
sono differenti tra i quadri.
B-Frame (Bidirectional Predictive Frame), infine, è un fotogramma compresso come il
P-Frame, ma prendendo come riferimenti gli I-Frame precedente e successivo; in
questo caso il livello di compressione è massimo.
La sequenza dei vari tipi di frame in un Gop sarà quindi IBBPBBPBBPBB; dopo
l'ultimo B-Frame inizia un nuovo Gop con una struttura identica.
Un’altra caratteristica …
Un'altra caratteristica fondamentale dello standard Mpeg-2, ampiamente sfruttata
nei Dvd commerciali, è il bit rate variabile (Vbr Variable Bit Rate), che consente di
mantenere un flusso di dati medio abbastanza contenuto senza rinunciare alla
qualità complessiva. Il bit rate cambia in funzione della complessità dei singoli
fotogrammi che compongono la sequenza video: è basso se i fotogrammi sono
poco dettagliati e se rappresentano una scena statica che cambia poco con il
passare del tempo, mentre è alto per scene complesse e molto dinamiche.
La codifica dell’audio
Naturalmente, nei Dvd Video sono inclusi anche i suoni che formano la colonna audio e
che sono compressi con algoritmi differenti; troviamo infatti le codifiche Mpeg-2 Layer II,
Dolby Digital (AC-3) e DTS.
Il primo è impiegato di solito per le colonne stereo, con un data rate massimo
complessivo di 384 Kbit al secondo, mentre gli altri due sono molto diffusi nei casi di
sonorizzazioni multicanale, in cui troviamo sei o più tracce distinte, ciascuna codificata
con una compressione distruttiva, che elimina i suoni non percepibili dall'udito umano. I
canali principali hanno un'ampiezza di frequenze che va da 20 Hz a 20 kHz, mentre la
traccia aggiuntiva, definita come .1, va da 20 a 120 Hz e contiene esclusivamente le
basse frequenze, che devono essere riprodotte con un sub-woofer.
Glossario del video digitale
4:3
Rapporto tra larghezza e altezza del tubo catodico dei televisori convenzionali, che
mostrano due bande nere orizzontali, poste sopra e sotto la scena, quando si
visualizza un film con un formato visivo panoramico.Il rapporto 4:3 è indicato
anche come 1,33:1.
16:9, Widescreen, Formato Panoramico
Rapporto tra larghezza e altezza del tubo catodico dei televisori più recenti, che
consentono
una visione simile a quella ottenibile con un piccolo schermo cinematografico.
Il rapporto 16:9 è indicato anche come 1,78:1.
Anamorfico
Stiramento di un’immagine in senso verticale,in modo che, per esempio, la
figura di un cerchio appaia come un’ellisse con l’asse maggiore verticale. Il
formato anamorfico consente di sfruttare il più possibile i pixel disponibili nel
fotogramma standard Dvd (720 x 576 punti per il Pal), colmando gran parte
del quadro anche quando il film originale ha un aspetto visivo in cui la
larghezza è molto maggiore dell’altezza.
Se il formato originale è pari o inferiore a 1,78:1 si ha il riempimento completo
del quadro memorizzato nel Dvd, mentre se è superiore (come nel caso
2,35:1) sono comunque incluse due bande nere orizzontali, poste sopra e
sotto la scena, che completano il fotogramma registrato nel disco. Durante la
visione del Dvd, il lettore riconosce la registrazione anamorfica e, nel caso dei
televisori 4:3, riduce il numero di righe per comprimere i fotogrammi in senso
verticale, in modo da restituire le giuste proporzioni alle immagini. Per i
monitor 16:9, invece, mantiene inalterato il flusso
video, lasciando al televisore il compito di allargare la scena affinché questa
riempia orizzontalmente lo schermo e riacquisti l’aspetto visivo corretto.
Codec, Dct e DV
Codec
Abbreviazione di Compressor Decompressor, un dispositivo – hardware oppure software
– che comprime o decomprime un flusso di dati.
Dct
Discrete Cosine Transform, trasformata discreta del coseno, un algoritmo di
compressione che individua la frequenza con cui si presentano i particolari di
un’immagine.
Dv
Digital Video, un formato video pensato per le registrazioni su nastro, in cui la
compressione (basata su un algoritmo simile ma incompatibile con quello dell’Mpeg-2)
lavora solo sui singoli frame; questo fatto facilita enormemente le operazioni di
montaggio video ma comporta anche un elevato bit rate, che è costante nel tempo ed è
pari a 25 Mbit/s. La definizione dell’immagine del Dv soddisfa gli standard televisivi:
720 x 576 pixel a 25 fotogrammi al secondo (Pal) e 720 x 480 punti a 30 frame al
secondo (Ntsc).
Digital8 e DVD
Digital8, D8
È il formato digitale di Sony, basato sul vecchio Hi8 ma in grado di registrare il segnale
video digitale; la qualità dell’immagine corrisponde a quella Dv ma con un costo
nettamente inferiore. Usa lo stesso codec del Dv; la durata della cassetta Hi8 si riduce di
un terzo se è usata con una telecamera Digital8. Questo formato è compatibile verso il
basso con Video8 e Hi8.
Dvd
Digital Versatile Disc, si basa sulla tecnologia di memorizzazione sviluppata per il Cd
musicale; grazie all’uso di un laser di lettura con una lunghezza d’onda più corta e a
sistemi di puntamento migliorati, è stato possibile portare la quantità di informazioni
registrate su un lato del disco dai 650 MByte del Cd ai 4,7 GByte del Dvd; questa
differenza diventa ancora maggiore se si sfruttano entrambe le facce, che a loro volta
supportano due strati sovrapposti, in modo da raggiungere i 17 GByte totali. Il
formato del segnale video digitale contenuto nel Dvd è l’Mpeg-2; oltre al flusso di
fotogrammi sono disponibili anche una o più colonne sonore compresse a sei canali
e parlato e sottotitoli in diverse lingue. Il bit rate massimo consentito (comprensivo
di audio e di video) è pari a 9.800.000 bit al secondo.
Tipi di DVD
Dvd-5
Disco Dvd in cui è inciso un solo lato con un singolo strato, per contenere al massimo
4,7 GByte di dati.
Dvd-9
Disco Dvd in cui è inciso un solo lato con due strati sovrapposti, per contenere al
massimo 8,5 GByte di dati.
Dvd-10
Disco Dvd in cui sono incisi tutti e due i lati con un singolo strato ciascuno, per
contenere al massimo 9,4 GByte di dati.
Dvd-18
Disco Dvd in cui sono incisi tutti e due i lati con due strati sovrapposti ciascuno, per
contenere al massimo 17 GByte
Frame e Gop
Frame
Fotogramma che compone una sequenza video; secondo lo standard Pal, il video ha
25 frame al secondo, che diventano 30 (più precisamente 29,97) per l’Ntsc.
Gop
Gruppo di Immagini, un insieme solitamente costituito da 15 fotogrammi per l’Ntsc
e da 12 frame per il Pal, che si ripete ciclicamente e che ha una struttura
IBBPBBPBBPBB (per il Pal), dove I è il fotogramma I-Frame, B corrisponde a B-Frame
e infine P è il P-Frame. Nella compressione Mpeg-2 eseguita tramite dispositivi
professionali si ottengono Gop di lunghezza variabile, in modo che inizino a ogni
cambio di scena, mentre con apparecchiature amatoriali il Gop ha lunghezza fissa,
predeterminata a priori.
I-Frame, P-Frame, B-Frame
Lo standard Mpeg-2 definisce tre tipi di fotogrammi compressi: I-Frame (Intra Frame)
è il fotogramma principale, di riferimento, che inizia un Gop, il P-Frame (Predictive
Frame) è il quadro compresso con gli algoritmi Motion Compensation e Motion
Estimation, che confrontano il frame corrente con l’I-Frame o con il P-Frame precedente
memorizzando soltanto le zone dell’immagine che sono differenti tra i due fotogrammi.
Il B-Frame (Bidirectional Predictive Frame) è un quadro compresso come il P-Frame ma
prendendo come riferimenti gli I-Frame precedente e successivo; in questo caso il livello
di compressione è massimo.
IEEE 1394 Firewire
Questo protocollo di trasmissione è conosciuto anche come i.LINK oppure FireWire.
È un formato di trasmissione dei dati digitali ad alta velocità, sviluppato inizialmente
da Apple e poi formalizzato come standard ufficiale dal comitato Ieee. L’architettura
di trasmissione supporta fino a un massimo di 63 periferiche collegate e sono
consentiti il distacco e la connessione a caldo; l’alimentazione delle periferiche a
basso consumo avviene tramite lo stesso cavo Ieee 1394. La velocità massima di
trasferimento dei dati è pari a 400 Mbit/s, ma i cavi di connessione tra una
periferica e l’altra non devono superare i quattro metri.
Mpeg1 e Mpeg2
Mpeg-1
Utilizzato nei VideoCD, fornisce una qualità di immagine simile a quella dei nastri Vhs
(risoluzione di 352 x 288 pixel in Pal, non interlacciato); il flusso dei dati ( bit rate)
è costante nel tempo (Cbr, Constant Bit Rate) ed è pari a 1,5 Mbit/s. Attualmente il
suo uso è confinato ai filmati su Web, dato che il supporto VideoCD non ha avuto un
grande successo in Europa. L’algoritmo di compressione, a causa del bit rate molto
contenuto, non consente di ottenere immagini di elevata qualità.
Mpeg-2
Fa parte della famiglia Mpeg (Motion Picture Experts Group), ed è un ampliamento
dell’Mpeg-1. Il formato dell’immagine, pari a quello televisivo (720 x 576 pixel a 25
quadri al secondo per il Pal, 720 x 480 pixel a 30 quadri al secondo per l’Ntsc), e il
sostenuto flusso di dati consentono di ottenere una qualità d’immagine molto elevata.
Mpeg4 (Div-X)
Insieme di specifiche di compressione pensato per Internet, dove è sempre più
comune l’uso di video a bassa risoluzione molto compattato, ma che forse in futuro
sarà impiegato anche per i Dvd ad Alta Definizione. La codifica si basa su una
struttura a oggetti multimediali, sia audio sia video, disposti su livelli in uno spazio
3D; grazie a questa organizzazione dei dati, un decodificatore adeguato consente di
modificare la composizione della scena durante la riproduzione, nascondendo alcuni
elementi oppure spostandoli nell’inquadratura.
Il linguaggio di descrizione degli oggetti consente lo streaming e comprende anche
un set di istruzioni di tipo Java. Ogni oggetto è suddiviso in uno o più Elementary
Stream (Es), in modo da visualizzarlo a più livelli di risoluzione, una caratteristica
molto importante nel caso si trasmetta il video tramite un collegamento con
un’ampiezza di banda limitata. La compattazione dei flussi video si basa su nuovi
algoritmi, definiti Global Motion Compensation (Gmc), Quarter Pel Motion
Compensation e Shape Adaptive Discrete Cosine Transform (Sa-Dct) che consentono
una compressione più efficiente rispetto a quanto avviene con Mpeg-1 e Mpeg-2.
Pal
Phase Alternate Line, standard di trasmissione televisiva adottato in molti Paesi
europei, tra cui l’Italia. Il video è composto da un flusso di 25 fotogrammi al
secondo, ciascuno suddiviso in due semiquadri; di questi, uno contiene solo le
linee orizzontali dispari che compongono l’immagine, l’altro soltanto le linee pari.
La dimensione di ogni fotogramma, in ambito analogico, è pari a 625 linee
orizzontali, ciascuna contenente 768 punti. In realtà, la parte visualizzabile sullo
schermo televisivo corrisponde a 576 linee per 720 punti, poiché il resto delle linee
e dei punti è impiegato per trasmettere i segnali di sincronismo. Nel dominio
digitale, il fotogramma è composto da 720 pixel orizzontali per 576 pixel verticali.
Semiquadro
Il segnale video è trasmesso suddividendo ogni fotogramma in due parti, chiamate
semiquadri, una contenente tutte le linee orizzontali pari che rappresentano l’immagine,
l’altra le linee dispari. Un filmato di un secondo contiene 50 semiquadri (25 fotogrammi)
nello standard Pal, 60 semiquadri (30 fotogrammi) per l’Ntsc.
Aree geografiche DVD
Poiché l’uscita dei film nelle sale cinematografiche avviene in tempi diversi a seconda
della nazione, per impedire la visione di film in Dvd prima che questo sia apparso
nei cinema, il consorzio promotore del Dvd ha incluso nel formato di codifica
un’informazione che permette la visione soltanto se il lettore appartiene alla
medesima zona del disco.
Le Zone sono così distribuite:
Zona 1: Stati Uniti e Canada
Zona 2: Europa, Giappone, Sud Africa, Medio Oriente, Egitto
Zona 3: nazioni del Sudest Asiatico e dell’Estremo Oriente, tra cui Hong
Kong
Zona 4: Australia, Nuova Zelanda, America Centrale e Meridionale, isole
dell’Oceano Pacifico
Zona 5: Europa dell’Est, Russia, India, Africa, Corea del Nord, Mongolia
Zona 6: Cina
Zona 7: codice riservato
Zona 8: aerei e navi in viaggio lungo rotte internazionali.
Rendering
Operazione di calcolo delle immagini che il computer esegue, per ogni singolo pixel,
fondendo fotogrammi provenienti da spezzoni video diversi o applicando transizioni
ed effetti grafici; il rendering, a seconda della potenza del processore, può
richiedere diverso tempo;
l’uso di hardware dedicato consente di accelerare questi calcoli e di ottenere il video
finale in tempo reale.