Compositing video 3D - Centro Ricerche Rai

Compositing video 3D
Mario Muratori
Rai - Centro Ricerche e Innovazione Tecnologica
1. Introduzione
Nell’ambito dell’attività di ricerca sulla stereoscopia
condotta presso il Centro Ricerche e Innovazione
Tecnologica (CRIT) della RAI, fino alla data del
presente documento, sono state effettuate riprese
sperimentali con due modelli produttivi molto
diffusi in Azienda.
In particolare, con il modello produttivo ENG
(Electronic News Gathering), consistente nell’uso di
telecamere indipendenti cui segue un montaggio
su macchina di NLE (Non Linear Editing), si sono realizzati i primi prodotti sperimentali tra i quali si cita il
film documentario “Le non persone” di Roberto Olla
andato in onda in 3D nel gennaio 2012.
Si è quindi sviluppata una regia in grado di realizzare
prodotti premontati, o addirittura di tipo “live”, che è
stata utilizzata, peraltro mai sfruttando le sue piene
potenzialità, dal regista Felice Cappa per RAI 5 per
realizzare alcuni spettacoli poi andati in onda su
RAI 5 (marzo 2014), tra cui “La signorina Giulia” di
Strindberg.
Un ulteriore modello produttivo utilizzato in Azienda consiste nello “studio virtuale” usato in alcune
note trasmissioni, in particolare quelle condotte
da Piero e Alberto Angela. Questa tecnica consiste
nell’ambientare il conduttore e altri oggetti ripresi
nella realtà in uno spazio virtuale generato in CG
(Computer Graphics). Inoltre esiste – ed è usata
anche in RAI – la possibilità di realizzare l’operazione opposta, ossia di inglobare oggetti virtuali
in un ambiente reale, operazione spesso usata per
12
Nell’ambito dell’attività di ricerca sulla stereoscopia condotta presso il Centro Ricerche e Innovazione
Tecnologica (CRIT) della RAI sono state effettuate
riprese sperimentali con due modelli produttivi
molto diffusi in Azienda.
Il primo, denominato ENG (“Electronic News Gathering”), consiste nell’uso di telecamere indipendenti
cui segue un montaggio su macchina di NLE (“Non
Linear Editing”) .
Per il secondo, si è sviluppata una regia in grado di
realizzare prodotti premontati, o addirittura di tipo
“live”.
Un ulteriore modello produttivo utilizzato in Azienda, consiste nello “studio virtuale” usato in alcune
note trasmissioni, in particolare quelle condotte
da Piero e Alberto Angela. Questa tecnica consiste
nell’ambientare il conduttore e altri oggetti ripresi
nella realtà in uno spazio virtuale generato in CG
(“Computer Graphics”). Inoltre esiste – ed è usata
anche in RAI – la possibilità di realizzare l’operazione opposta, ossia di inglobare oggetti virtuali
in un ambiente reale, operazione spesso usata per
inserire in un’inquadratura reale oggetti di fantasia,
per esempio i fenomeni magici che appaiono nella
trasmissione Melevisione.
In ogni caso si tratta di “compositing”, in italiano
tradotto come “intarsio”, di cui si analizzano alcune
tecniche realizzative applicabili anche ai segnali
stereoscopici.
Nell’articolo si analizzano gli accorgimenti da adottare per ottenere una composizione corretta.
Elettronica e Telecomunicazioni N° 2/2014
www.crit.rai.it
Compositing video 3D
inserire in un’inquadratura reale oggetti di fantasia,
per esempio i fenomeni magici che appaiono nella
trasmissione Melevisione.
In ogni caso si tratta di “compositing”, in italiano
tradotto come “intarsio”, di cui si analizzano, nel seguito, alcune tecniche realizzative applicabili anche
ai segnali stereoscopici.
Una particolare operazione di compositing consiste
nell’intarsiare in ambienti reali o virtuali, dei modelli
reali o virtuali realizzati in scala, cioè non nelle dimensioni originarie.
Con le riprese “dal vero”, alcune volte non è possibile
avere a disposizione tutti o tutti assieme gli elementi
che compongono l’immagine desiderata.
Se si considerano oggetti non reali, la cosa è del
tutto evidente. In situazioni reali spesso il problema nasce dalla fisica realizzabilità delle riprese, si
pensi ad esempio a riprese in ambienti estremi, ad
esempio lo spazio; altre volte sono considerazioni
economiche a suggerire di non spostare il set dagli
studi agli ambienti in cui la scena è ambientata.
Già ai primordi della fotografia si sono sviluppate
tecniche per comporre – da cui il termine “compositing” – un’immagine con elementi provenienti da
diverse sorgenti. La “doppia esposizione” è la tecnica più semplice e più antica per registrare su un
singolo fotogramma due situazioni o oggetti ripresi
in tempi differiti; estendendo la tecnica a esposizioni
multiple o di lunga durata i Futuristi registravano
diverse situazioni per trasmettere l’impressione di
dinamismo, come illustrato in figura 1.
Si potrebbe continuare con gli esempi, ma pare
abbastanza ragionevole pensare che la tecnica di
comporre l’immagine finale assemblando pezzi
differenti sia concetto noto almeno dalla diffusione
della stampa: si consideri la stampa a colori, che, di
fatto, assembla tre immagini di colori diversi (cioè i
primari di stampa) per ottenere il risultato definitivo, o semplicemente la stampa “a caratteri mobili”
in cui la pagina di testo è composta (nella matrice,
poi riprodotta sulla carta) assemblando i diversi
elementiNota 2.
Sta di fatto che il concetto di selezionare in diverse
sorgenti gli elementi di immagine più opportuni
e assemblarli nell’immagine finale per ottenere la
composizione desiderata è stato adottato nella
fotografia, quindi nel cinema e poi nella televisione, per motivi simili ma usando tecniche diverse,
che peraltro si sono evolute seguendo l’evoluzione
tecnologica.
Nel seguito si considereranno solo le tecniche di
compositing televisivo e cinematografico, quando
pertinente.
Fig. 1 – Ritratto fotodinamico di donna, 1924
(copyright © BragagliaNota 1)
Nota 1 - Anton Giulio Bragaglia (Frosinone, 11 febbraio 1890 – Roma, 15 luglio 1960) è stato
un regista, critico cinematografico e saggista
italiano. Aderente alla corrente artistica del
Futurismo realizzò opere cinematografiche e
fotografiche sperimentali.
Nota 2 - La stampa a caratteri mobili è una tecnica
di stampa inventata dal tedesco Johann
Gutenberg nel 1456. Questo per quanto
riguarda l’Europa: in Asia, infatti, esisteva fin
dal 1041, grazie alla tecnica dell’inventore cinese Bi Sheng (Huizhou, 990 – 1051, Dinastia
Song) [1].
www.crit.rai.it
Elettronica e Telecomunicazioni N° 2/2014
13
Compositing video 3D
2. Cos’è e a cosa serve il compositing
Il compositing è la combinazione di elementi visivi
provenienti da fonti separate in singole immagini,
spesso per creare l’illusione che tutti questi elementi
siano parti della stessa scena [2].
Un esempio semplice è la foto di figura 2, in cui il
presentatore agisce in uno studio “nudo” mentre la
mappa meteorologica è generata al calcolatore e
viene “intarsiata”, in genere al mixer o in post elaborazione, per costruire la scena completa.
E’ del tutto evidente che si possono “intarsiare”
oggetti reali o virtuali, cioè generati in computer
grafica, in scene reali o esse stesse virtuali.
Volendo fare qualche esempio:
•• oggetto reale in ambiente reale: soggetti o
oggetti ripresi in studio, eventualmente facendo uso di modelli in scala (“mock up”), inseriti
in ambiente reale ripreso altrove. Si porta ad
esempio la realizzazione delle scene della tempesta in “Master and Commander” Nota 3: la nave
è ripresa dal vero, ancorché si tratti del modellino ripreso in studio o del mock up in scala 1:1
ripreso in vasca, mentre il mare è composto da
diverse inquadrature del mare reale effettuate
durante una vera tempesta nei pressi di Capo
Horn (figura 3).
Fig. 2 – Presentatore televisivo di
informazioni meteorologiche [3]
Fig. 3 – La H.M.S. Surprise in
“navigazione” durante la
tempesta
Nota 3 - La nave comandata dal comandante Lucky Jack Aubrey (Russel Crowe), ossia la H.M.S. Surprise, nella realtà è un
vascello di nome “Rose” . Ai tempi in cui è stato girato il film era la più grande nave scuola a vela degli USA ed è una
replica del 20° secolo di una nave della Marina Britannica del 18° secolo. La “Rose” ha navigato fino alle Galapagos per
le riprese delle scene di mare e di quelle ivi ambientate. Tuttavia per riprendere le scene di battaglia e di tempesta, coi
relativi danni, si è utilizzata una seconda nave pressoché identica, costruita apposta e piazzata in un bacino degli studi
Fox (usati anche per il film Titanic). In aggiunta, fu costruito anche un modello in scala di 8 metri circa di lunghezza.
14
Elettronica e Telecomunicazioni N° 2/2014
www.crit.rai.it
Compositing video 3D
•• oggetto virtuale in ambiente reale: picture in
picture, ad esempio la mappa meteo in figura
2, avatar, effetti speciali ed oggetti non reali,
fantastici o “magici” inseriti in scene reali;
•• oggetto reale in ambiente virtuale: in campo
televisivo è il paradigma dello studio virtuale. Il
conduttore è ripreso in uno studio particolare,
detto “blue room” o “green room” (vedi dopo) e
inserito in un ambiente virtuale generato in CG;
in cinematografia spesso si tratta della ripresa di
una copia dell’oggetto reale, eventualmente in
scala, inserito in ambiente virtuale. Si porta ad
esempio la scena dell’affondamento del Titanic
nell’omonimo film, in cui la nave è un modellino
in scala ripreso dal vero (incidentalmente nelle
stesse vasche di “Master and Commander”) e il
mare è generato in CG (figure 4a e 4b);
•• oggetto virtuale in ambiente virtuale: di
fatto tutti i film di animazione sono generati
assemblando oggetti e sfondo generati in CG
e renderizzati separatamente (compositing
multilivello).
Nei film di animazione sarebbe troppo oneroso
dal punto di vista computazionale renderizzare le
scene complete. Perciò si effettua la renderizzazione
separata dello sfondo e degli oggetti componenti
Fig. 4a – Modello del Titanic usato per
la realizzazione della scena
relativa all’affondamento della
nave nell’omonimo film
www.crit.rai.it
la scena, e successivamente si effettua un compositing “multilivello” – ogni oggetto corrisponde ad
un “livello” – per assemblare l’inquadratura finale.
In altri casi il compositing si realizza per assemblare nella stessa scena oggetti o sfondo inesistenti,
che sono generati in computer grafica. La tecnica
viene perciò impiegata quando non è fisicamente
possibile o è troppo oneroso realizzare gli oggetti:
si pensi a oggetti o fenomeni magici – luci, fumi e
scintille comprese -, o a oggetti di fantascienza, dalle
spade laser alle astronavi. Oppure quando è troppo
oneroso o impossibile girare le scene nei luoghi reali
previsti dalla sceneggiatura, per esempio lo spazio
nel film Gravity o di altri film di fantascienza con
astronavi, mondi alieni e così via.
Di particolare interesse, in campo televisivo, è l’intarsio di titoli, grafica, immagini e video all’interno di
una scena. Questa tecnica permette di aggiungere
informazioni, non altrimenti visualizzabili, alla scena
principale ed è molto usata nelle trasmissioni di
eventi sportivi: si pensi all’indicazione del risultato
e del tempo trascorso durante le partite di calcio,
basket o pallavolo, e altre indicazioni similari. Tecnicamente si tratta di “intarsi” di materiale generato
al calcolatore in una scena reale anche se, in questo
caso, non si richiede che le immagini intarsiate si
integrino con il contenuto della scena principale.
Fig. 4b – Scena del film
Elettronica e Telecomunicazioni N° 2/2014
15
Compositing video 3D
3. Tecniche di compositing
3.1 Concetti di base
Tutte le tecniche di compositing si fondano sul
principio di sostituire parti di un’immagine con altro
materiale proveniente, nella maggior parte dei casi,
da altre immagini.
Prima di addentrarci nelle tecniche bisogna acquisire alcune nozioni di base.
Tutte le tecniche di compositing si fondano sul
principio di sostituire parti di un’immagine con altro
materiale proveniente, nella maggior parte dei casi,
da altre immagini.
In quasi tutti i casi, oggi il compositing viene ottenuto attraverso la manipolazione di immagini digitali,
ma forme di compositing pre-digitale risalgono
addirittura ai film di Georges MélièsNota 4 alla fine del
diciannovesimo secolo [2].
In campo televisivo e cinematografico sono particolarmente utili le tecniche di compositing chiamate
luma key e chroma key, mentre in grafica si fa largo
uso della tecnica basata sul segnale di chiave, alpha
channel.
Per intarsiare un’immagine in un’altra si suppone
che la prima sia di dimensioni minori della seconda e che debba essere visualizzata coprendo una
parte della seconda immagine. Pertanto, la prima
immagine risulterà sopra l’altra e verrà chiamata
foreground, ossia primo piano, mentre la seconda
è il background, ossia lo sfondo.
E’ evidente quindi che dell’immagine in foreground
serve solo una parte, cioè quella che deve essere
intarsiata nel background, mentre di quest’ultimo
serve tutto il rimanente, che fa da contorno all’oggetto intarsiato (figura 5).
Le tecniche di compositing prevedono quindi di
sovrapporre in modo ordinato le immagini e di definire in quali parti si debba mantenere l’immagine
di foreground e dove, invece, la si debba forare per
permettere la visione dell’immagine di background.
Fig. 5 – A sinistra il foreground ripreso
in green room, a destra
l’immagine composta
Nota 4 - Maries-Georges-Jean Méliès, (Parigi, 8 dicembre 1861 – Parigi, 21 gennaio 1938), è stato un regista, illusionista e attore
francese. Viene riconosciuto come il secondo padre del cinema (dopo i fratelli Lumière), per l’introduzione e la sperimentazione di numerose novità tecniche e narrative. A lui è attribuita l’invenzione del cinema fantastico e fantascientifico (che filma mondi “diversi dalla realtà”) e di numerose tecniche cinematografiche, in particolare del montaggio,
la caratteristica più peculiare del nascente linguaggio cinematografico. È universalmente riconosciuto come il “padre”
degli effetti speciali. Scoprì accidentalmente il trucco della sostituzione nel 1896 e fu uno dei primi registi a usare l’esposizione multipla, la dissolvenza e il colore (dipinto a mano direttamente sulla pellicola). [4]
16
Elettronica e Telecomunicazioni N° 2/2014
www.crit.rai.it
Compositing video 3D
In tal modo si ottiene sia la selezione della parte di
immagine di foreground desiderata, perché il resto
dell’immagine non viene visualizzata, come se diventasse trasparente, sia la sua inserzione virtuale
nell’immagine di background che non viene modificata ma risulta coperta dalla parte di immagine di
foreground che rimane visibile perché opaca.
caso viene anche denominato segnale di chiave (key).
Le modalità in cui avviene la scelta tra foreground
e background dipendono dalla tecnica utilizzata.
Concettualmente si tratta di generare il segnale di
chiave direttamente dal foreground analizzandone
la luminanza.
3.2 Alpha signal
Come noto, per rappresentare le immagini a colori
si usano tre canali che possono o essere relativi ai
primari colorimetrici RGB (Red, Green, Blue) oppure,
in televisione, rappresentare la luminanza con due
canali di crominanza associati (YUV).
Nel compositing più sofisticato si usano i livelli di
grigio per definire la proporzione di mescolamento
tra immagine di foreground e quella di background.
3.3 Luma key
In linea generale si definisce un intervallo di valori
attorno ad un valore definito di luminanza. Se la
luminanza dell’immagine di foreground cade in
detto intervallo questa viene considerata opaca,
altrimenti trasparente.
Il canale alfa, in inglese alpha channel, è un canale
aggiuntivo, non obbligatorio e non sempre presente, che descrive il grado di trasparenza ovvero di
opacità di ogni singolo pixel (figura 6).
Tale tecnica non necessita di un canale aggiuntivo,
può essere utilizzata anche in tempo reale ed è
molto efficiente se il segnale di foreground è nel formato luminanza più crominanza YUV, perché basta
interpretare il valore del primo segnale della terna.
Il canale alfa può essere utilizzato per creare delle
maschere atte ad effettuare il compositing, qualora
si associ il nero alla trasparenza ed il bianco all’opacità del foreground o viceversa (figura 7). In questo
Ha il difetto di interpretare scorrettamente le parti
di foreground troppo scure, per esempio perché
in ombra, o troppo luminose, ad esempio perché
fortemente illuminate.
Fig. 6 – Tre canali colorimetrici (A) e alpha
channel (B) dell’immagine C [5]
Fig. 7 – Foreground, alpha channel e
(destra in basso) immagine
composita (chroma key nella
parte centrale dello sfondo e
alpha key sui personaggi e sul
tavolo) [6]
www.crit.rai.it
Elettronica e Telecomunicazioni N° 2/2014
17
Compositing video 3D
Fig. 8 – Green room per chroma key
E’ invece molto efficace quando l’immagine di foreground è una grafica con due soli livelli (bianco e
nero senza toni di grigio), ad esempio titoli di testa
o di coda e sottotitoli.
3.4 Chroma key
Concettualmente si tratta di generare il segnale di
chiave direttamente dal foreground analizzandone
il colore.
In linea generale si definisce un intervallo attorno ad
un valore di colore definito. Se il colore dell’immagine di foreground cade in detto intervallo questa
viene considerata opaca, altrimenti trasparente.
Tale tecnica non necessita di un canale aggiuntivo,
può essere utilizzata anche in tempo reale ed è più
precisa se il segnale di foreground è nel formato RGB.
Per ovviare a possibili interpretazioni scorrette, si usa
riprendere l’oggetto che deve apparire in foreground
davanti ad uno sfondo colorato con una sfumatura
particolare di blu o di verde che si trovi raramente
in naturaNota 5.
Spesso le immagini di foreground si riprendono
18
in studi di ripresa particolari chiamati blue room o
green room, a seconda del colore di sfondo. Questi
hanno le pareti e il pavimento, che risultano sullo
sfondo dell’immagine di foreground, colorati con la
tinta blu o verde specifica per il chroma key, hanno
gli angoli delle pareti raccordate per evitare ombre
e anche l’illuminazione è particolarmente curata al
fine di evitare ombre o riflessi che possano interferire con la corretta misura del colore di sfondo da
parte dell’apparato che realizza l’intarsio (figura 8).
Dopo l’operazione di chroma key il soggetto ripreso apparirà in foreground, mentre lo sfondo blu (o
verde) dell’immagine di foreground sarà sostituito
dall’immagine di background; nel caso di figura 8
ci si può aspettare che l’immagine finale mostri
la giornalista ambientata in uno studio virtuale
generato in CG.
Nota 5 - Teo Teocoli, nei panni del giornalista
sportivo Felice Caccamo, indossa una
cravatta dello stesso colore del blu di
sfondo di modo che nell’operazione di
chroma key venga “bucata”, con effetto
straniante funzionale alla comicità
della scenetta. [7]
Elettronica e Telecomunicazioni N° 2/2014
www.crit.rai.it
Compositing video 3D
4. Compositing in televisione
Non ostante alcuni limiti qualitativi dell’intarsio
realizzato con le tecniche di luma key o di chroma
key su segnali in standard definitionNota 6 e formato
4:2:2, in particolare [8]:
•• non sufficiente precisione nel ritagliare i bordi
delle immagini, che, in più, cambiano leggermente da un fotogramma all’altro dando luogo
ad un fastidioso tremolio;
•• imposizione di un’illuminazione piatta del
soggetto in primo piano facendogli perdere
visivamente spessore o tridimensionalità;
•• adozione di criteri particolari per l’illuminazione
delle scenografie, spesso sacrificandole, perché
il soggetto possa fondersi in modo convincente
con lo sfondo;
tale tecnica è da tempo ampiamente utilizzata
in campo televisivo perché permette di ampliare
facilmente le possibili inquadrature anche in produzioni live, nelle quali viene applicata in tempo
reale tramite hardwareNota 7 specifico o i mixer video.
Questi ultimi in genere offrono diversi tipi e diversi
livelli di chiave di modo da poter effettuare compositing multilivello. Inoltre hanno un keyer particolare
chiamato downstream keyerNota 8 per l’inserimento
di testo e grafica in sovraimpressione.
Come esempi di intarsio televisivo realizzato in tempo reale si cita l’uso dello studio virtuale in “Montagne”, trasmissione di RAI 5, oppure l’inserimento di
elementi grafici riportanti informazioni aggiuntive
in riprese di competizioni sportive, oppure ancora la
generazione di un’inquadratura composta da diversi
contributi televisivi contemporanei in “Buongiorno
Italia”, trasmissione di RAI 3 (figura 9).
Fig. 9 – Esempio di studio virtuale, di grafica intarsiata e di compositing di contributi video
Nota 6 - Si intende qui il segnale in standard
PAL ed il segnale digitale in formato
ITU-R 601 con 720 pixel per riga.
Nota 7 - Come esempio si cita la Ultimatte che
produce keyer dal 1976; allora gli apparati erano completamente analogici.
www.crit.rai.it
Nota 8 - Il downstream key (o DSK, raramente
in italiano reso con chiave a valle) è un
inserimento a chiave, di solito di tipo
lineare, in tutto e per tutto identico
agli altri, ma con la differenza concettuale di essere posto a valle del flusso
video. In pratica, è l’ultimo stadio
del mixer video prima dell’uscita del
segnale. Questo tipo di chiave si usa
per imprimere sul video segnali che si
vogliono sempre presenti sull’uscita:
il caso classico è il logo della stazione
TV. [9]
Elettronica e Telecomunicazioni N° 2/2014
19
Compositing video 3D
Per migliorare i risultati dell’intarsio è opportuno che
le immagini di foreground che devono essere analizzate per ritagliare la chiave siano a definizione più
elevata possibile, per esempio, in campo televisivo,
in HDTV oppure 4K, e, per il chroma key, in formato
RGB di modo che le informazioni di crominanza
risultino a piena banda (4:4:4). Preferibilmente il
segnale digitale dovrebbe essere rappresentato con
parole di almeno 10 bit.
Adottando questi accorgimenti, la qualità dell’intarsio a chiave, in particolare del chroma key, risulta
sufficientemente elevata da essere ampiamente
utilizzata anche nella cinematografia digitale per
realizzare il compositing richiesto dall’applicazione
di effetti speciali e nei film di animazione.
Similmente alle modalità produttive tipiche del
cinema, anche molte produzioni televisive vengono montate ed elaborate non in tempo reale, su
macchine di NLE o su processori dedicati a specifiche funzioni, e anche in questo caso si possono
applicare tutte le tecniche di intarsio viste precedentemente.
In linea di massima ci sono poche differenze tra le
elaborazioni off line adottate in campo televisivo e
quelle usate in campo cinematografico, la maggior
differenza consiste nella qualità ottenibile per l’immagine composita, sensibilmente minore in campo
televisivo per via della minor qualità tecnica del
materiale video normalmente impiegato.
Nota 9 - Il foro stenopeico (dal greco stenos
opaios, dotato di uno stretto foro) è
un foro, sufficientemente piccolo, che
si pratica sulla parete di una camera
oscura, per vedere proiettata, sulla
parete opposta, l’immagine di ciò che
esiste, esternamente, di fronte al foro
[10]. E’ spesso utilizzato come modello
degli obiettivi per via della semplicità
di analisi che comporta.
20
5. Compositing con modelli in scala
5.1 La ripresa in termini geometrici – ripresa di
modelli in scala
Dal punto di vista geometrico, la ripresa fotografica,
quindi pure quelle cinematografica e televisiva che
si basano sullo stesso principio, è una proiezione in
quanto permette di ottenere su un piano (della pellicola o del sensore) la rappresentazione bidimensionale dell’oggetto tridimensionale (reale) ripreso.
Assumendo che l’obiettivo si possa modellare con
un foro stenopeicoNota 9 idealmente privo di dimensioni, esso diventa il centro di proiezione di una proiezione centrale o conica o di PonceletNota 10, il cui risultato
è un’immagine in prospettiva dell’oggetto ripreso.
Nelle figure 10a e 10b nella pagina seguente sono
schematizzate due utilizzazioni pratiche della
proiezione centrale: in figura 10a è rappresentato
schematicamente il principio di funzionamento del
prospettografo, uno strumento usato anticamente
dai pittori per riprodurre la giusta prospettiva; la
figura 10b schematizza il principio di funzionamento di una camera oscura illuminata dal foro
stenopeico, la cui evoluzione ha portato ai sistemi
ottici impiegati nelle comuni macchine fotografiche
e cinematografiche e nelle telecamere.
Nota 10 - Jean-Victor Poncelet (Metz, 1º luglio
1788 – Parigi, 22 dicembre 1867) è
stato un matematico e ingegnere
francese che ha dato molti contributi
allo sviluppo della geometria proiettiva. [11]
Elettronica e Telecomunicazioni N° 2/2014
www.crit.rai.it
Compositing video 3D
Fig. 10a – Prospettografo: usa il principio
della proiezione centrale con
schermo di proiezione tra
l’oggetto ripreso e il centro di
prospettiva. [12]
Una caratteristica comune ai metodi analizzati nella
geometria descrittivaNota 11, la branca della scienza che
analizza le proiezioni, di cui sono stati dati due esempi nelle figure 10a e 10b precedenti, è il requisito della sostituibilità fra la figura obiettiva, cioè l’oggetto
ripreso, e la sua proiezione. In altre parole, data una
Fig. 10b – Foro stenopeico: usa il principio
della proiezione centrale con
il centro di prospettiva tra
l’oggetto ripreso e lo schermo di
proiezione [13]
figura nello spazio è sempre possibile determinarne
l’immagine su di un piano; quindi la relazione che
lega oggetto e immagine proiettata è iniettivaNota 12
poiché ciascun punto dell’immagine proiettata corrisponde a un punto dell’oggetto ripreso.
Nota 11 - La geometria descrittiva è la scienza che permette, attraverso determinate costruzioni
geometriche, di rappresentare in modo inequivocabile su uno o più piani, oggetti
bidimensionali e tridimensionali. La rappresentazione può essere finalizzata a visualizzare oggetti già esistenti, come nel rilievo (per lo più architettonico), o di oggetti
mentalmente concepiti, come nella progettazione di manufatti tridimensionali. [14].
Una delle possibili utilizzazioni è di risalire alla figura spaziale dalla sua immagine
proiettata. Per contro, la geometria proiettiva è la parte della geometria che modellizza i concetti intuitivi di prospettiva e orizzonte. Definisce e studia gli enti geometrici
usuali (punti, rette, ecc.) senza utilizzare misure o confronto di lunghezze. La geometria proiettiva può essere pensata informalmente come la geometria che nasce dal
collocare il proprio occhio in un punto dello spazio, così che ogni linea che intersechi
l’”occhio” appaia solo come un punto. Le grandezze degli oggetti non sono direttamente quantificabili (perché guardando il mondo con un occhio soltanto non abbiamo informazioni sulla profondità) e l’orizzonte è considerato parte integrante dello
spazio. [16]
Nota 12 - In matematica, si dice iniezione di un insieme A in un insieme B la relazione di corrispondenza per la quale ogni elemento di B è corrispondente di non più di un elemento di A. [16] Quindi una funzione iniettiva (detta anche funzione ingettiva oppure
iniezione) è una funzione che porta elementi distinti del dominio in elementi distinti
del codominio. In altre parole, ogni elemento dell’immagine è immagine di un solo
elemento del dominio. [17]
www.crit.rai.it
Elettronica e Telecomunicazioni N° 2/2014
21
Compositing video 3D
Viceversa, dall’immagine proiettata si dovrebbe poter risalire alla figura nello spazio, ma questo non è
possibile con le proiezioni centraliNota 13 perché all’immagine proiettata mancano delle informazioni per
permettere la ricostruzione dell’oggetto proiettante.
E’ evidente dalla figura 11 che la stessa immagine
proiettata può essere generata da una moltitudine
di oggetti simili, di dimensioni proporzionali alla
distanza dal centro di proiezione.
Come esempio, nel caso di figura 11 per definire
completamente l’oggetto proiettante basterebbe
fornirne la distanza dal centro di proiezione. Un altro
metodo possibile è ricorrere a due immagini dello
stesso oggetto riprese con una certa parallasse, ossia effettuare riprese stereoscopiche, poiché - data
la geometria di ripresa - ci sarà un solo oggetto proiettante che può contemporaneamente generare le
due immagini costituenti la coppia stereoscopica
considerata; nel seguito vedremo come modificare
questa posizione.
L’indeterminazione sulla ricostruzione a partire
dall’immagine proiettata è un grave problema in
alcune applicazioni pratiche, ad esempio nel campo
Fig. 11 – Immagine proiettata da una
moltitudine di oggetti reali
della progettazione, ma torna utile nelle operazioni
considerate in questo lavoro.
Infatti, se oggetti simili generano la stessa immagine
proiettata, ne consegue che al posto di riprendere
l’oggetto reale, è possibile utilizzare un modello
in scala dello stesso purché venga ripreso sotto lo
stesso angolo solidoNota 14.
Per ottenere quest’ultima condizione è necessario
che la scena reale e la scena in scala siano viste
dall’obiettivo della macchina da presa sotto lo stesso
angolo di campoNota 15, come illustra la figura 12.
L’angolo di campo di un obiettivo è legato alla
lunghezza focale e alla dimensione della superficie
sensibile alla luce su cui si proietta l’immagine.
Normalmente si dà per scontata la dimensione
della superficie sensibile – è rimasta invariata per
decenni in campo fotografico e cinematografico –
e quindi si considera la lunghezza focale – peraltro
sempre chiaramente indicata sugli obiettivi - come
il parametro da regolare per definire l’inquadratura,
mentre sarebbe più generale, e più vicino alla fisica,
considerare l’angolo di campo.
Fig. 12 – Ripresa dell’oggetto reale e di
una copia in scala
Nota 13 - Per questa ragione nel campo della progettazione si ricorre alle proiezioni parallele o di
Monge
Nota 14 - L’angolo solido è definito come ciascuna delle
due regioni in cui viene suddiviso lo spazio
dalla superficie (cono generico) formata dalle
semirette passanti per uno stesso punto (detto vertice dell’angolo solido) e per i punti di
una curva chiusa semplice tracciata su di una
superficie non contenente il vertice. L’unità di
misura dell’angolo solido è lo steradiante. [18]
22
Nota 15 - In fotografia o in cinematografia l’angolo di campo
indica, per un obiettivo, l’estensione angolare del
suo cerchio di copertura (diametro dell’immagine
prodotta sul piano focale). Ai fini della registrazione dell’immagine l’angolo di campo dipende poi
dalle dimensioni della superficie fotosensibile su
cui l’immagine viene proiettata. In inglese: field of
view o field of vision abbreviato in FOV.
Elettronica e Telecomunicazioni N° 2/2014
www.crit.rai.it
Compositing video 3D
6. Compositing 3D
Quando si effettua un intarsio 3D bisogna non solo
collocare l’immagine intarsiata nella giusta posizione sul piano dell’immagine, ma anche nello spazio
tridimensionale visualizzato in riproduzione.
Il posizionamento sul piano dell’immagine si effettua nelle modalità usuali, tuttavia deve essere
effettuato su ambedue i canali della coppia stereoscopica.
Per il posizionamento in profondità bisogna tenere
conto di tutti gli elementi binoculari e monoculari
che servono al sistema visivo per percepire la profondità.
L’elemento binoculare principale, nonché l’unico
che si possa variare, è la disparità orizzontale (analizzata nella stereopsiNota 16), regolata applicando
all’immagine da intarsiare il valore adatto che dipende non solo dal posizionamento in profondità
desiderato ma anche dall’angolo di campo utilizzato
nella ripresa dell’immagine di sfondo.
Bisogna poi tenere conto anche, tra gli altri, dei
seguenti elementi:
•• della prospettiva lineare: un oggetto di grandezza costante sottende angoli progressivamente
minori (sembra più piccolo), man mano che si
allontana;
•• della dimensione relativa rispetto agli oggetti
che compaiono nell’inquadratura;
•• della familiarità con oggetti noti: la distanza tra
oggetti noti viene giudicata anche in base alla
loro grandezza apparente;
•• di occlusioni o mascherature, ovvero la sovrapposizione dei contorni: un oggetto che interrompa i contorni di un altro viene percepito come
più vicino;
•• della distribuzione delle luci e delle ombre: il
chiaro-scuro genera un’impressione di rilievo e
quindi di profondità relativa;
•• della prospettiva aerea: la foschia atmosferica
influenza il contrasto e il colore degli oggetti
situati più lontano e ne sfuma i contorni;
•• dell’eventuale effetto bakeh (sfocatura selettiva);
•• del movimento parallattico: la velocità di spostamento di un oggetto vicino sembra maggiore
di quella di uno lontano.
Tanto basta per intarsiare elementi per loro natura
piatti come gli elementi grafici perché, in linea di
massima, si richiede solamente:
•• il posizionamento bidimensionale delle immagini di foreground su quelle di background;
•• l’eventuale ridimensionamento delle immagini
di foreground;
•• la regolazione della disparità orizzontale.
Nota 16 - La stereopsi è la capacità visiva dei mammiferi superiori e dei primati di
percepire la profondità dello spazio tramite meccanismi binoculari, ossia
quelli che utilizzano informazioni provenienti dai due occhi. La stereopsi
consente di percepire un oggetto tridimensionale nella sua profondità
spaziale con un’acuità molto maggiore di quella possibile con la sola
visione monoculare (a eccezione della parallasse di movimento), ma
essa ha un limite di distanza entro cui può operare, dell’ordine di 6÷8
m dall’osservatore. La stereopsi è prodotta dall’integrazione, a livello del
sistema nervoso centrale, delle leggere divergenze di formazione delle
immagini retiniche (disparità retiniche) dovute al fatto che i due occhi
osservano il mondo da due punti di vista lievemente differenti. [19]
www.crit.rai.it
Elettronica e Telecomunicazioni N° 2/2014
23
Compositing video 3D
Per intarsiare invece (parti di) immagini riprese dal
vero o generate in CG da modelli 3D, che risultano
tridimensionali alla vista, si deve tenere conto, oltre
degli elementi suindicati, anche della geometria di
ripresa, che sia reale o che si tratti di renderizzazione
in CG.
La situazione più banale dal punto di vista geometrico corrisponde alla situazione in cui le immagini
di background e di foreground sono riprese con la
stessa geometria, in particolare:
•• l’oggetto in foreground è ripreso nelle stesse
posizioni spaziali in cui deve essere inserito nello
spazio di background riprodotto, e cioè:
›› identica distanza dalla telecamera;
›› identico posizionamento spaziale rispetto
alla telecamera;
›› identico posizionamento spaziale rispetto
agli oggetti della scena di background.
Quando si usano dei modelli in scala invece bisogna
scalare non solo il modello, ossia la scena, come visto
in precedenza, ma anche la geometria di ripresa
stereoscopica.
Infatti, come visto precedentemente, la ripresa di
una riproduzione in scala della scena implica il suo
posizionamento lungo l’asse ottico dell’obiettivo
di modo che la distanza tra essa e il centro ottico
dell’obiettivo sia proporzionale allo scalamento.
Questo deve valere contemporaneamente per le
due telecamere del sistema di ripresa stereoscopico,
e siccome l’angolo di rotazione degli assi ottici degli
obiettivi (angolo di convergenza, α) deve rimanere
identico al fine di riprendere l’oggetto scalato dallo
stesso punto di vista adottato per l’oggetto reale,
anche la base stereoscopica, ossia la distanza tra
i centri ottici degli obiettivi, deve essere ridimensionata in proporzione, come illustrato in figura 13.
•• le riprese sono effettuate con lo stesso angolo
di vista.
Fig. 13 – Scalamento della
scena e della
geometria di ripresa
stereoscopica.
24
Elettronica e Telecomunicazioni N° 2/2014
www.crit.rai.it
Compositing video 3D
7. Considerazioni finali
articles/article.aspx?p=1392522 (Ultima visita 10
novembre 2014)
Non c’è alcun motivo perché nelle produzioni 3D
stereoscopiche l’intarsio venga utilizzato in minor
misura rispetto alle usuali produzioni in 2D.
Le tecniche di compositing applicabili al materiale
stereoscopico sono identiche a quelle adottate nelle
normali produzioni 2D ma ovviamente devono essere applicate contemporaneamente sui due canali
costituenti la coppia stereoscopica; peraltro, sia gli
apparati che operano in tempo reale, in particolare
i mixer, sia quelli operanti off line, in particolare le
macchine di NLE, sono predisposte per questo tipo
di elaborazione.
Qualche attenzione deve essere fatta per posizionare correttamente il foreground sul background
perché bisogna tenere conto anche del suo posizionamento sull’asse delle profondità.
Nel caso di modelli in scala l’accorgimento aggiuntivo da adottare è di scalare anche la geometria di
ripresa cioè, sostanzialmente, di ridimensionare
proporzionalmente la base stereoscopica.
Bibliografia
[1] Stampa a caratteri mobili, http://it.wikipedia.org/
wiki/Stampa_a_caratteri_mobili (ultima visita 10
novembre 2014)
[2] Compositing, en.wikipedia.org/wiki/Compositing
(ultima visita 10 novembre 2014)
[3] Immagine tratta da: http://it.wikipedia.org/wiki/
Chroma_key (ultima visita 10 novembre 2014)
[4] Georges Méliès, http://it.wikipedia.org/wiki/Georges_
Méliès (ultima visita 10 novembre 2014)
[5] Immagine tratta da: http://helpx.adobe.com/aftereffects/using/alpha-channels-masks-mattes.html
(ultima visita 10 novembre 2014)
[7] Teo Teocoli, http://it.wikipedia.org/wiki/Teo_Teocoli
(ultima visita 10 novembre 2014)
[8] Chroma key, http://it.wikipedia.org/wiki/Chroma_key
(ultima visita 10 novembre 2014)
[9] Chiave (video), http://it.wikipedia.org/wiki/Chiave_
(video) (ultima visita 10 novembre 2014)
[10]Foro stenopeico, http://it.wikiversity.org/wiki/Foro_
stenopeico (ultima visita 10 novembre 2014)
[11]Jean Victor Poncelet, http://it.wikipedia.org/wiki/
Jean_Victor_Poncelet (ultima visita 10 novembre
2014)
[12]Sito dell’Associazione Macchine Matematiche,
PROSPETTIVA, http://www.macchinematematiche.
org/cataoghi/Tassoni/prospettiva.htm (ultima visita
10 novembre 2014)
[13]Sito BizzarroBazar, Camera obscura, http://bizzarrobazar.com/2010/09/16/camera-obscura (ultima
visita 10 novembre 2014)
[14]Geometria descrittiva, http://it.wikipedia.org/wiki/Geometria_descrittiva (ultima visita 10 novembre 2014)
[15]Geometria proiettiva, http://it.wikipedia.org/wiki/Geometria_proiettiva (ultima visita 10 novembre 2014)
[16]Iniezione, http://www.treccani.it/vocabolario/iniezione/ (ultima visita 10 novembre 2014)
[17]Funzione iniettiva, http://it.wikipedia.org/wiki/Iniettivo (ultima visita 10 novembre 2014)
[18]Angolo solido, http://it.wikipedia.org/wiki/Angoloide
(ultima visita 10 novembre 2014)
[19]Stereopsi, http://www.treccani.it/enciclopedia/stereopsi_(Dizionario-di-Medicina)/ (ultima visita 10
novembre 2014)
[6] Immagine tratta da: http://www.peachpit.com/
www.crit.rai.it
Elettronica e Telecomunicazioni N° 2/2014
25