Studio sulle tecniche di Computer Vision adottate

Studio sulle tecniche di Computer Vision
adottate negli anni nell’ambiente cinematografico
Marco Ciabini
[email protected]
5 marzo 2013
1
Indice
1
Introduzione
4
2 Excursus Storico
2.1 L’evoluzione della Computer graphics . . . . . . . . . . . . . . . .
2.2 L’evoluzione della Computer Vision . . . . . . . . . . . . . . . .
2.3 Evoluzione della tecnologia cinematografica . . . . . . . . . . . .
6
6
7
8
3 Il mondo dell’animazione
3.1 Lo sviluppo dell’animazione . . . . . . . . . . . . . . . . .
3.2 Modelli visuali per l’animazione: la visione e la grafica . .
3.2.1 La Visione incontra la Grafica . . . . . . . . . . . .
3.2.2 Riproduzione dei volti . . . . . . . . . . . . . . . .
3.3 Animazione dall’osservazione: cattura ed editing del moto
3.3.1 Cattura del moto vs. Animazione dall’osservazione
3.3.2 Cattura del moto per l’animazione . . . . . . . . .
3.3.3 Computer Vision e Motion Capture . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
17
21
21
22
25
4 Visione nei film ed effetti speciali
4.1 Gli elementi basilari . . . . . . . . . . .
4.2 Le basi del tracking 3D . . . . . . . . .
4.3 Problemi dovuti alla camera . . . . . . .
4.4 Problemi generici . . . . . . . . . . . . .
4.5 Traking 2D . . . . . . . . . . . . . . . .
4.6 Tracking 3D con assenza di informazioni
4.7 Conclusioni . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
29
29
30
31
32
32
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Le olografie
33
5.1 Il funzionamento dell’olografia . . . . . . . . . . . . . . . . . . . . 34
6 La realtà aumentata
37
6.1 Computer vision e la realtà aumentata . . . . . . . . . . . . . . . 39
7 Il cinema 3D
7.1 La cinematografia 3D . . . . . . . . . . . . . . . . . . .
7.1.1 Cinema Stereoscopico, Cinema 3D . . . . . . . .
7.1.2 Computer Vision, Computer graphics, e Cinema
scopico . . . . . . . . . . . . . . . . . . . . . . .
7.2 Il processo stereo . . . . . . . . . . . . . . . . . . . . . .
7.3 Percezione tridimensionale e affaticamento visivo. . . . .
7.3.1 Sorgenti di affaticamento visivo . . . . . . . . . .
7.4 Trovare la giusta geometria della ripresa . . . . . . . . .
7.4.1 Il punto di vista di Spottiswoode . . . . . . . . .
7.4.2 Ripresa e vista di geometrie . . . . . . . . . . . .
7.4.3 La distorsione in profondità . . . . . . . . . . . .
2
. . . . .
. . . . .
Stereo. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
41
42
42
43
44
45
46
47
47
48
50
7.5
7.6
La post-produzione nei film stereoscopici . . .
7.5.1 Eliminazione della disparità verticale:
stereoscopici . . . . . . . . . . . . . .
Conclusioni . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . .
Rettifica dei film
. . . . . . . . . . .
. . . . . . . . . . .
50
51
52
8 Centri di ricerca e pionieri della computer vision cinematografica
54
9 Conclusioni
56
3
1
Introduzione
Quando tra 1889 e il 1895 furono presentate rispettivamente il Kinetograph, il Kinetoscopio a cura di Thomas Edison e la cinèmatographe
da parte dei fratelli Louis e Auguste Lumière, probabilmente nessuno di coloro che assistette alla presentazione poteva immaginarsi
quello che la cinematografia sarebbe giunta a fare e quale impatto
questa avrebbe avuto sulla cultura moderna. Gli stessi fratelli Lumiere non intuirono il potenziale di questo strumento come mezzo
per fare spettacolo, considerandolo esclusivamente a fini documentaristici, senza per questo sminuirne l’importanza, tanto che si rifiutarono di vendere le loro macchine, limitandosi a darle in locazione.
Con lo scorrere degli anni, fin dalla costruzione del primo studio
cinematografico (Black Maria) nel 1892, la cinematografia si è fatta
portavoce di informazioni, di cultura e di valori da trasmettere nell’arco delle proiezioni.
Da sempre inoltre ha attinto alle fonti di varie discipline per rendere
la proiezione sempre più emozionante, realistica e spettacolare. Il
suo appoggiarsi a ambiti quali quello informatico e quello elettronico
ha reso possibile un cinema che riesce a coinvolgere l’audience a 360
gradi e che ha assottigliato notevolmente la distanza tra la realtà e
la finzione cinematografica.
A titolo del tutto generale possiamo affermare che l’evoluzione cinematografica è sempre andata di pari passo con il continuo svilupparsi
della tecnologia. Quest’ultima infatti, accesa e spinta dall’iniziativa e dall’inventiva umana, ha costantemente concesso ai filmmakers
di produrre lavori sempre più complessi per la rappresentazione di
storie sempre più intricate. Senza l’evoluzione degli strumenti non
sarebbe infatti stato possibile lo sviluppo di distinti stili, movimenti
e metodi di produzione cinematografica.
Tuttavia, mentre la progressione tecnologica è stata lineare, questa
non ha coinciso con una similare evoluzione della qualità cinematografica; l’abilità di un regista infatti non dovrebbe essere giudicata
dalla complessità tecnologica della produzione, ma dalla capacità
dello stesso di brandire gli strumenti del tempo e della sua abilità
nella trasmissione in modo efficace e chiaro della narrazione o nell’evocare un’emozione. Possiamo quindi affermare che è la capacità del
regista di utilizzare efficacemente e sapientemente questa tecnologia
all’interno di un contesto temporale e sociale che ha spinto e spinge
4
tuttora la qualità cinematografica, di cui non vi è stata una chiara
progressione lineare.
Con il progresso nella struttura del cinema, la tecnologia ha sempre
di più inciso nella qualità e negli strumenti, dalle camere al sound,
dal recording all’editing. Ovviamente miglior tecnologia non vuol
dire migliori film, ma solamente vantaggio, in quanto questa amplia
il set di strumenti a disposizione del regista, da cui lui o lei può attingere in ambito di attrezzature e tecniche, scegliendo i più adatti
ad una determinata produzione. [1]
Se da un lato l’evoluzione degli strumenti elettronici ha concesso la
registrazione di pellicole (ormai sempre meno usate per l’avvento del
digitale) con una qualità talmente elevata da mostrare un dettaglio
pari alla percezione umana, lo sviluppo di tecnologie di editing e di
post-processing ha consentito di rappresentare situazioni, scenari e
oggetti altrimenti impossibili da mostrare. Discipline quali la Computer Graphics e la Computer Vision hanno reso reale la fantasia
dei registi.
5
2
Excursus Storico
Come abbiamo indicato la tecnologia è stata di grande aiuto all’ambiente cinematografico, anche secondo quegli aspetti non proprio
nativi dell’ambito del cinema. Se quindi da un lato alcuni strumenti
sono nati propriamente per la ripresa di scene o per la loro registrazione, numerose sono le tecnologie di cui l’ambiente cinematografico
ha fatto uso per rendere il prodotto sempre migliore. Appoggiandosi
al potenziale dei computer, e del loro continuo miglioramento, è stato possibile, soprattutto negli ultimi anni, creare un prodotto in cui
la finzione della trama fosse riprodotta con una realtà dei dettagli
cosı̀ da rendere la linea di separazione sempre più labile.
Il contributo maggiore che in assoluto il cinema ha ricevuto affiancandosi all’evoluzione dei calcolatori, è stato ed è tuttora quello
dato delle discipline della Computer graphics e della Computer Vision. Dalla sua nascita in poi infatti il mondo cinematografico ha
migliorato cosı̀ tanto le apparecchiature di ripresa, da necessitare di
una fase di editing e post-processing all’altezza. Con l’aiuto della
grafica fin dagli anni ’60-’70, e della visione a partire dagli anni ’90,
si è reso possibile il passaggio da un prodotto comunque non privo
di difetti, a riprese quasi perfette e spettacolari.
Rappresentare questo contributo a senso unico tuttavia non è del
tutto corretto. Se infatti da un lato il cinema ha usufruito delle
tecniche sviluppate da una certa disciplina, non minore è stata l’importanza del cinema nello sviluppo di questi approcci. Da quando
infatti si è compreso che in qualche modo queste tecniche potessero essere di successo in ambito cinematografico, l’investimento da
parte dei grandi pilastri del cinema non è stato di certo irrisorio.
Numerosi sono infatti oggi i centri di ricerca ideati e finanziati dalle
grandi case cinematografiche.
2.1
L’evoluzione della Computer graphics
Il 1963 è da considerarsi un anno particolarmente importante nell’ambito dell’evoluzione informatica. Il lavoro di Ivan Sutherland è
infatti considerato come la nascita della Computer graphics. Nella
sua tesi di dottorato Sutherland mostra come sia possibile interagire con un calcolatore per disegnare linee su di un classico monitor
catodico. La rivoluzione proposta dal suo lavoro non si limitava a
riportare elementi a schermo, bensı̀ a fornire la possibilità di una
6
interazione uomo macchina per la rappresentazione di elementi grafici. Ed è proprio grazie al suo lavoro che si sono comprese le reali
potenzialità offerte dalla computer graphics.
Lo sviluppo della disciplina tuttavia ha percorso un tragitto particolarmente lento e tortuoso. Tre sono stati principalmente i motivi
di questa bassa velocità di avanzamento:
• l’alta richiesta di capacità di memoria e potenza di calcolo;
• la mancanza di consapevolezza della necessità di software per
la generazione di immagini sviluppati per sistemi di computer
graphics;
• sottostima della complessità sia dei sistemi software che delle
applicazioni.
Fortunatamente, come successo per molti altre innovazioni tecnologiche, la grafica è stata favorita dal tempo. Il costo dei computer
è andato calando, mentre il lavoro e lo studio fatto è andato crescendo. I sistemi operativi sono stati migliorati, e la nostra capacità
di risolvere problemi con il software complesso è divenuta più sofisticata. Impressionante è stato il progresso fatto nello sviluppo di
algoritmi per generare immagini, in particolare quelli destinati alla
rappresentazione di viste di oggetti tridimensionali. L’ambiente della computer graphics basa il suo funzionamento sia sulla tecnologia
hardware che sul software. Sebbene in un primo momento l’attenzione sia stata posta sull’hardware, oggi l’interesse più grande è rivolto
alle tecnologie software.
Con la consapevolezza che l’industria della grafica avrebbe avuto un
notevole successo, fin dagli anni ’70 i centri di ricerca e le aziende
interessate sono aumentate, cosı̀ come sono incrementati gli investimenti, cosı̀ da rendere la grafica quello che è oggi. In particolar
modo anche le aziende cinematografiche hanno iniziato ad investire
con dei loro specifici centri specializzati, cosı̀ da presentarsi sempre
in prima linea per ogni innovazione.
2.2
L’evoluzione della Computer Vision
Quando nel 1970 per la prima volta si parlò di Computer Vision
si iniziò immediatamente a pensare alla visione come un elemento importante di un ambizioso programma per imitare l’intelligenza
7
umana e porla in dotazione ai robot. Ancora oggi, pionieri dell’intelligenza artificiale sono convinti che risolvere il problema dell’input
visuale sia un semplice passo per la risoluzione successiva di problemi estremamente più complessi.
Basandosi su riferimenti storici tuttavia, quando nel 1966, Marvin
Minsky all’MIT chiese al suo studente di connettere la sua telecamera al pc e far descrivere al computer stesso ciò che aveva visto
attraverso la camera, si rese conto che il problema era molto più
complesso di quanto potesse immaginare.
Ciò che da subito ha contraddistinto la computer vision dagli altri
approcci di analisi delle immagini è stato il desiderio di scoprire la
struttura 3D del mondo a partire dalle immagini e di usarla come
trampolino di lancio per comprendere tutta la scena. Come per la
grafica, anche nel campo della Computer vision si è visto un ingente
investimento, forte della vastità di applicazioni e utilizzi che si sarebbe potuto fare di questa disciplina. In primo luogo le università
e a ruota le aziende hanno investito nella visione enormi quantità
di denaro, al fine di trovare soluzioni a problemi generici non ancora risolti o alternative (in ambito cinematografico ad esempio) che
avrebbero ridotto i costi di produzione.
Nella prima decade di sviluppo della visione l’approccio fu superficiale e semplicistico. Con l’aumentare della consapevolezza e della
conoscenza tuttavia lo studio della struttura dell’ambiente si è sempre maggiormente basato su modelli matematici che hanno condotto
a tecniche e tecnologie utili ed avanzate [3].
2.3
Evoluzione della tecnologia cinematografica
Lo sviluppo della cinematografia è sempre stato accompagnato da
una forte continua evoluzione della tecnologia. Come abbiamo precedentemente indicato la tecnologia non ha fatto i film, ma ha reso
i registi in grado di produrre pellicole sempre più complesse e reali.
La tecnologia non è altro che uno strumento in mano agli autori.
Ovviamente non si può affermare che non sia stata in qualche modo
di aiuto.
Ragionando su questa idea, i primi film possedevano caratteristiche
naturali, non improntate dalla tecnologia avanzata delle ultime generazioni. I primi film possono essere considerati di preparazione,
per come questi presentavano soggetti in un’unica posizione cinema-
8
tica. I primi film di Edison e Dickison erano semplici, presentavano
“brevi scorci” di personaggi famosi dello sport o spettacoli acrobatici o di ballerini. Se da un lato la tecnologia primitiva ha limitato
la produzione di film, non ne ha limitato la durata, in quanto già
con strumenti quali il kinetoscopio si poteva avere una durata non
limitata. L’avanzamento della tecnologia quindi da questo punto di
vista non ha portato a migliori film, ma a film più dettagliati.
Le prime pellicole, che avevano una ripresa a singola scena, hanno
dato vita a film quali To the Moon (1902), composto da diverse
scene riprese singolarmente e poi riprodotte in sequenza, Cecil B.
DeMille The Cheat (1915) che impiegava anche l’editing analitico
utilizzando più riprese a distanza diversa per aumentare dettagli.
Gli effetti di questo continuo evolvere della tecnologia si mostrarono
maggiormente nelle pellicole sovietiche degli anni ’20. La qualità dei
film degli inizi non fu dovuta allo sviluppo di tecniche di editing, ma
piuttosto da strategie più specifiche quali quelle di montaggio, comprensive di una analisi di questioni temporali, spaziali e grafiche.
Mentre i registi sovietici si concentravano sull’editing e su queste
tecniche di montaggio si resero conto dell’importanza di una composizione suggestiva all’interno di ogni singolo scatto. Impressionisti
ed espressionisti avevano intuito questo fatto ed utilizzavano elementi cinematografici per esternare gli stati interiori ed esteriori dei
personaggi. Interpreti di questi movimenti erano portatori di convinzione che il cinema fosse qualcosa a riguardo della photogènie,
ovvero quella proprietà che distingue una ripresa cinematografica
dalla scena reale. L’enfasi su questa caratteristica a portato gli impressionisti del cinema a sviluppare tecniche di ripresa innovative
per esternare la soggettività dei personaggi. L’utilizzo innovativo
di questi strumenti, non tanto gli strumenti in sè, hanno condotto
ad una maggior chiarezza della narrativa. Questo riflette un chiaro
passo evolutivo, guidato dalla facoltà umana e dall’abilità della camera di riprodurre una storia.
Sebbene possa sembrare di poco impatto, l’illuminazione è tuttora un elemento importantissimo nella cinematografia. Thompson e
Bordwell [2] scrivono: “Per la maggior parte, i film espressionisti
usano semplicemente un’illuminazione sulla parte anteriore e sui lati, illuminando la scena in modo uniforme, per sottolineare i legami
tra le figure e il decoro”. L’espressionismo porta con se la semplicità
tecnologica rivolta ad un certo obiettivo conducendo ad una com9
plessità notevole. L’uso di illuminazione più complessa è sempre
stata una cosa voluta, per la creazione di ombre. Anche in questo
contesto tuttavia, il miglioramento definito attraverso la tecnologia
ha alle spalle l’abilità del regista.
L’avvento del suono sincronizzato, utilizzato per la prima volta in
The Jazz Singer (Crosland 1927) nella fine degli anni ’20 fu dapprima visto con apprensione da certi critici e direttori. L’adozione
del suono è stato probabilmente il passo più importante di sempre
nel processo di evoluzione cinematografica. Come per le altre tecnologie, ai suoi albori anche l’audio aveva i suoi limiti. I microfoni
inizialmente erano poco sensibili ed anche gli attori avevano mancanze riguardanti la capacità di parlare a tali strumenti in maniera
chiara sia da vicino che da lontano. I miglioramenti dei microfoni, della ripresa multi-traccia, ed i metodi di sincronizzazione hanno
concesso la possibilità ai registi di utilizzare lo strumento in maniera
efficiente. La combinazione di una migliore sincronizzazione audio
con le immagini ha aperto a nuove vie precedentemente impensabili.
Il film di Fritz Lang M (1931) sfruttava proprio questa possibilità
di dialogo udibile. Quello che risulta comunque importante è che
l’utilizzo dell’audio non sostituisce la narrazione visiva, e non l’ha
sostituita neppure nelle sue prime applicazioni riservando al dialogo
il compito di connettere informazioni visive.
Il suono non solo ha accompagnato e dettagliato la narrazione visiva,
ma da sempre è risultato anche motivo di accompagnamento delle
scene. Utilizzare infatti un motivo di accompagnamento nelle scene
più significative consente di vivere la scena a 360 gradi. Il suono ha
reso le proiezioni uniche ed in certi casi l’audio ha reso possibile il
film. Certe narrazioni, private della componente audio risulterebbero decisamente scarse. Se comunque la tecnologia non ha migliorato
i film, ma ha solamente messo in grado i registi di utilizzare una
tecnologia piuttosto che un‘ altra, di certo non si potrebbe tornare
indietro.
L’avvento del colore è la seconda grande innovazione nelle produzioni cinematografiche che ha condotto ad una evoluzione pari a quella
dovuta all’introduzione del suono. Molti film dell’era del muto utilizzavano un processo di “tintura” che dava un certo tono e colore
alle pellicole. Ovviamente non si trattava del Technicolor. Come riportato in [2], il colore consente di avere un’informazione maggiore
riguardo alla situazione e rende la scena più chiara allo spettatore,
10
più del utilizzo della photogènie e della messa in scena di Impressionisti ed Espressionisti. In film tra i quali The Great Train Robbery
veniva applicato del colore direttamente dalla pellicola dopo aver
ripreso il film. Il colore ha iniziato a dare un forte contributo attraverso l’introduzione del Technicolor negli anni 30’, processo diviso
in tre fasi per la colorazione. Nonostante questo, non tutti i registi
iniziarono immediatamente a produrre film a colori. La motivazione non era ovviamente assente; mentre infatti oggi il colore rende il
tutto più realistico e migliore ai nostri occhi, negli anni 30-40 si pensava che un aumento del costo di produzione cinematografica di circa
il 30% per l’introduzione del colore non valesse la qualit maggiore
della produzione. All’inizio inoltre si associava il colore a momenti fantastici e di spettacolo. Tra i primi film ad introdurre questa
tecnologia vi furono The Garden of Allah (1936), The Adventures
of Robin Hood (1939), Meet Me in St. Louis (1944). Tre tipologie di produzioni completamente diverse che introducevano questo
miglioramento. Come accennato, nei primi tempi non si vedeva nel
colore un miglioramento della qualità dei film, tanto che alcuni film
dei primi anni ’40 erano ancora girati in bianco e nero.
Nonostante questi rari casi in cui si optò per una scelta contraria
alla tecnologia, è sempre risultato chiaro che la cinematografia fosse
figlia della evoluzione tecnologica. L’evoluzione della tecnologia cinematografica è sempre in continuo movimento. Nuove tecnologie si
sono succedute e vengono rapidamente inventate, introdotte, testate
e perfezionate tuttora. Se da un lato inoltre l’evoluzione elettronica e meccanica ha portato a strumenti sempre migliori in tutti gli
aspetti (dall’audio, a strumenti di ripresa, alle pellicole stesse), si è
reso necessario sempre di più avere strumenti software per un editing all’altezza. Negli ultimi tempi inoltre hanno iniziato a prendere
campo attrezzature e tecniche per il cinema digitale surclassando le
vecchie pellicole. Come successo per le precedenti innovazioni questa
nuova tecnologia porta miglioramenti. A differenza dei precedenti
cambiamenti per, il passaggio al digitale è un qualcosa di molto più
forte e drastico, soprattutto per i puristi della pellicola. Se infatti da
un lato alcuni produttori e registi sono entusiasti della cosa, molti
direttori della fotografia, cosı̀ come molti registi, designer ed altri
professionisti sono spaventati.
Gli appassionati di cinema non hanno di che preoccuparsi, perchè
nè l’adozione nè il disprezzo di questa nuova tecnologia può porre
11
fine alla qualità cinematografica. Il potere di farlo è esclusivamente
nelle mani del regista, la qualità finale dei prodotti dipende quasi
esclusivamente dalla sua capacità di utilizzare in modo efficace gli
strumenti cinematografici, qualunque essi siano nei prossimi anni,
per trasmettere in modo chiaro storie, emozioni, stati d’animo, o
idee.
12
3
Il mondo dell’animazione
Con il termine Film Animati si intende quella serie di produzioni formate da una serie di disegni, rappresentazioni o illustrazioni
fotografate frame per frame. Ciascun frame differisce leggermente
dal frame successivo e dal precedente facendo si che, mostrandole
in sequenza, diano la sensazione del movimento. Per un numero
di frame pari 24 per secondo o superiore la sensazione è quella di
un movimento fluido. Le prime animazioni cinematografiche erano
composte frame-by-frame e disegnate a mano. Se combinate con
un movimento, queste immagini davano la sensazione di vitalità e
creavano dinamicità.
L’animazione in realtà, non è considerabile come un vero e proprio genere cinematografico, ma come una tecnologia applicabile
all’ambito del cinema.
3.1
Lo sviluppo dell’animazione
Le prime produzioni di film animati risalgono ai primi anni del 20mo secolo quando il disegnatore di vignette per giornali J. Stuart
Blackton disegnò il primo film animato, proiettato poi a singolo frame, 20 frame al secondo. Sebbene di un semplicità estrema, questo
evento diede il via ad una serie di ricerche nel campo della animazione che negli ultimi 100 anni hanno portato a miglioramenti
impensabili. Nei primi 50-60 anni della sua storia, l’animazione ha
visto la sua evoluzione principalmente negli strumenti di proiezione,
nelle pellicole di disegno e nella qualità della proiezione.
I primi pionieri del genere furono sicuramente i fondatori della Disney che fin dalla sua timida introduzione iniziarono a produrre pellicole. Le prime produzioni, che erano per la qualità della pellicola
in bianco e nero, avevano protagonisti disegnati su due dimensioni.
Sviluppandosi di pari passo con la tecnologia cinematografica, anche le produzioni animate mancarono nel primo periodo di audio.
L’importanza di queste pellicole fu tale che già dai primi anni del secondo decennio del 1900 si produssero film animati disegnati in 3D.
Si passò inoltre da li ad altri 10 anni a produzioni a colori, appoggiandosi a pellicole colorate. John Randolph Bray, con la produzione
The Debut of Thomas Cat, introdusse il processo Brewster Natural
Color con il quale riusci a riprodurre immagini a colori. 10 anni
dopo invece fece il suo debutto l’audio, con la pellicola Steamboat
13
Willie prodotta da Walt Disney, in cui fu introdotto un importante
lavoro di audio applicato come post-production. La pellicola riportava una delle tante avventure del famoso Mickey Mouse.
Il primo e vero film animato completo, più sofisticato degli altri,
contenente dettagli, movimenti fluidi, colori ricchi, protagonisti particolareggiati e una trama complessa fu Biancaneve e i sette nani
rilasciato dalla Disney nel finire del 1937.
Quest’ultima pellicola diede il via ad un insieme di produzioni cinematografiche di forte importanza storica. Gli incassi provenienti
da questa serie di animazioni che si susseguirono per tutti gli anni
40 e 50 spinsero non solo la Disney, ma anche altre compagnie ad
investire dell’animazione ingenti capitali. La prima innovazione che
si ebbe fu con la introduzione della tecnica di dynamation con la
quale si riuscivano ad introdurre caratteri estranei nella scena.
Dagli anni 70-80 in poi, con l’avvento del digitale e dei computer,
il mondo dell’animazione ha iniziato ad appoggiarsi sempre di più
a discipline quali la computer graphic o la computer vision. Con la
disney sempre in prima linea, la computer vision ha avuto negli anni 80-90 una forte crescita ed ha portato nel modo dell’animazione
sempre più realismo.
L’animazione cinematografica deve molto anche all’estro di un uomo quale Steve Jobs. Tra il primo ed il suo secondo periodo alla
Apple Computer infatti, Jobs si fece voce e finanziatore della Pixar.
Con Toy Story nel 1995 la Pixar diede una scossa a tutte le grandi
compagnie cinematografiche impegnate nell’ambito dell’animazione
mostrando come, attraverso il supporto di calcolatori, si potesse proporre realismo e fluidità al mondo animato.
L’animazione tuttavia non ha rappresentato e non rappresenta tuttora un vero e proprio genere cinematografico. E’ piuttosto da considerarsi come una vera e propria tecnica cinematografica applicabile
a produzioni completamente animate o a singole parti di film più
classici. Numerosi sono gli esempi in cui l’animazione diventa parte
integrante di film e consente di rappresentare situazioni altrimenti
irrealizzabili.[9]
3.2
Modelli visuali per l’animazione: la visione e la grafica
Sebbene grafica e visione abbiano numerosi elementi a comune, è
possibile fare un distinzione importante tra le due. La computer
14
graphics è da considerarsi come la risoluzione di problemi in avanti,
di sintesi, da modelli a immagini; la visione invece rappresenta la
risoluzione di problemi che a partire dalle immagini definiscono un
modello, attraverso un processo di analisi inversa. Sebbene distinte,
entrambe possono essere di aiuto l’un l’altra e nel complesso complementari nella risoluzione di problemi di varia entità. Tra i problemi
che insieme riescono a risolvere compare quello dell’animazione con
lo studio riguardante i sistemi visivi di percezione di sistemi reali.
Il primo elemento importante da trattare è riposto nel paradigma
per cui la computer vision possa essere applicata ad un filmato per
acquisire i modelli 3D di oggetti dalle loro immagini. Questi modelli possono in seguito essere animati dinamicamente simulando il
comportamento fisico e ricostruendo la scena a partire da quella reale delle immagini. Come vedremo, questo approccio definisce una
alternativa all’animazione dei modelli geometrici costruiti manualmente.
Secondo ed altrettanto importante aspetto dell’applicazione della
computer vision all’animazione sta nella modellazione di facce umane. L’animazione facciale è un topic particolarmente importante dal
punto di vista dell’animazione. Recuperare informazioni su elementi
del volto e riprodurre elementi funzionali o movimenti biomeccanici attraverso la simulazione consente di riprodurre fedelmente volti
umani anche in ambienti e contesti immaginari.
3.2.1
La Visione incontra la Grafica
La figura 1 mostra una delle possibili applicazioni di animazione ad
oggetti immobili su di una scena reale. L’azione inizia con l’attore che camminando in cucina dispone alcune verdure sul tavolo da
cucina. L’idea dell’animazione è quella di “dare vita” a questi elementi nel momento in cui l’attore non c’è più. Vogliamo cercare di
dare la possibilità a questi elementi di riprodurre tutti i movimenti
e comportamenti che ci potremmo aspettare nella realtà.
Una idea di risoluzione per questo tipo di problema è dato da tecniche di visione conosciute con il nome di Modelli deformabili [10].
Sebbene datati, questi modelli consentono nello specifico di ricostruire la forma 3D di oggetti (dei vegetali in questo caso) a partire dalla loro struttura 2D nell’immagine. Il modello definito a
partire dalla trasformazione dell’immagine in un’insieme di funzioni
potenziale multi-scala. Si tratta di indurre nel modello le forze di
15
(a) Prima immagine
(b) Seconda immagine
(d) Movimento dei corpi
(c) Primo passo di applicazione dell’animazione
(e) Termine dell’animazione
Figura 1: Rappresentazione di un processo di animazione ad oggetti inanimati.
attrazione e vincolare eventuali parti deformabili ad altre, cosi da
riuscire a riprodurre un modello 3D. Gli oggetti cosi ricostruiti definiscono modelli elastici, basati su relazioni fisiche. Questi possono
allora essere animati simulando le equazioni di moto non rigido che
li definiscono e riproducendo movimenti realistici [11]. Con questi
modelli e con l’applicazione di eventuali forze esterne quali quella
gravitazionale, di interazione e di urto tra le superfici, risulta possibile definire una animazione realistica definendo per certi elementi
traiettorie e movimenti coreografici. La sequenza di immagini in
figura 1 mostra proprio l’applicazione di questa teoria alle verdure
sul tavolo da cucina.
Per rendere ancora più reale l’animazione e l’illusione che gli oggetti
si muovano veramente si cerca di studiare i movimenti degli oggetti
immergendoli in uno spazio reale che riprenda quello già esistente.
Nell’esempio della figura lo scopo è quello di illudere chi osserva la
scena che le verdure siano immerse nello spazio 3D della cucina e che
si muovano in questo a partire da un background che risulta essere
piuttosto in 2D. Per ottenere questo effetto, si applica dapprima una
tecnica fotogrammetrica di computer vision per la ricostruzione nella scena 3D semplificata a partire dall’immagine 2D di background.
Si stima poi il punto di vista delle camera in maniera consistente con
quello della scena originaria. In particolare per la stima del punto
16
di vista, uno dei metodi maggiormente usati, si basa il posizionamento di tre piani invisibili nella scena e nella successiva stima dei
parametri di camera finchè questi piani non vengono correttamente
posizionati nell’immagine. Ovviamente questa stima non è perfetta.
Ma l’idea è che attraverso la risoluzione di un problema di minimo si
riesca a stimare la posizione della camera con una accuratezza sufficiente. Tecniche di ottimizzazione non sono utilizzate solamente per
il calcolo della posizione della camera, ma anche per la stima dei
colori, del posizionamento delle luci e di conseguenza delle ombre,
cosi da limitare gli aspetti di irrealtà della scena.
La combinazione di immagini reali e sintetiche è diventata una popolare tecnica anche per gli effetti speciali. In numerosi contesti infatti,
per applicare alla scena oggetti grafici in movimento come sfondo, si
stimano i parametri (posizione, movimento, lunghezza focale, ecc.)
della camera che ha girato il video.
3.2.2
Riproduzione dei volti
Come indicato qualche paragrafo fa, e come è possibile immaginare,
metodi di analisi facciale che consentano di ricostruire dettagliatamente il volto umano è rappresentano un topic dell’animazione
particolarmente caldo. Sia in presenza di animazioni che di film in
cui l’animazione in qualche modo incide, risulta molto spesso necessario utilizzare software di analisi e ricostruzione facciale al fine di
introdurre caratteri estranei o completamente fantasiosi che tuttavia
abbiano aspetti riconducibili a quello umano.
Nella figura 2 si riporta un frame dal film The Avengers in cui
compare il personaggio di Hulk. L’immagine particolarmente significativa mostra il personaggio nel suo dettaglio facciale. Il film, che
non è sviluppato come animazione completa, riporta questo personaggio con l’adattamento del volto del vero attore. Il dettaglio
estremamente elevato rende la figura cosı̀ reale, tanto da consentire
all’audience di immaginarlo effettivamente come la stessa persona
che lo interpreta (figura 3).
Lo studio dell’animazione facciale si suddivide in due sotto-categorie:
quella della modellazione facciale in cui si cerca di riprodurre un
modello di alta qualità del volto e quella di animazione, in cui ci
si concentra in tecniche che consentano di animare modelli di volti
con un realismo il più alto possibile. Questi due aspetti sono strettamente connessi e l’animazione facciale è determinata dalla qualità
17
Figura 2: Ripresa del personaggio di Hulk dal film “The Avengers”
Figura 3: Ripresa del personaggio che interpreta Hulk dal film “The Avengers”
di entrambi gli elementi.
Uno dei primi lavori nell’ambito della cattura dell’espressione e del
dettaglio facciale è quello riportato in [12]. Questo approccio, basato
su immagini, consente di ricostruire un modello facciale anatomicamente accurato attraverso una automatica descrizione di alto livello
dell’immagine catturata. Il processo si sviluppa principalmente in
due fasi: la fase di acquisizione dell’immagine e quella di analisi e
ricostruzione.
Nella prima fase, quella di acquisizione delle immagini della faccia,
si applica dapprima una scansione a 360 gradi del volto della persona attraverso in sensore laser cosı̀ da catturare tutti i dettagli e la
riflettività dell’immagine.
18
Nella fase di analisi dell’immagine invece viene adattata sulla struttura topologica delle immagini acquisite una generica maglia elastica triangolare predefinita. Questa generica maglia, adattabile a
individui differenti, consente di ridurre i dati rilevati attraverso una
efficiente approssimazione poligonale della geometria del volto. Questa maglia inoltre supporta anche una mappatura con trame ad alta
risoluzione per la riflettività della pelle. Le posizioni 2D dei nodi
della maglia servono come mappa di tessitura di coordinate per l’immagine RGB, nonchè gamma dei luoghi di campionamento da cui
vengono calcolate le coordinate dello spazio euclideo 3D per i vertici
dei poligoni. La qualità visiva del modello facciale è paragonabile ad
una visualizzazione 3D dei dati originali ad alta risoluzione, nonostante la geometria a maglia sia significativamente più grossolana.
Una volta ridotta l’immagine proveniente dalla scansione e riprodotta la maglia 3D, si assembla il modello facciale a partire dalle
funzionalità e dai movimenti fisici effettuabili con il volto. La maglia poligonale trovata forma lo strato epidermico di un modello
biomeccanico della faccia. Attraverso un algoritmo si può allora definire uno strato multilayer di “pelle sintetica” e si può stimare una
sotto-struttura per il cranio e per la mascella. Come passo finale
l’algoritmo inserisce i modelli di muscoli sintetici nel layer più profondo del tessuto facciale. Questi ultimi elementi hanno il compito
più delicato in assoluto in quanto devono riproporre il movimento
dei muscoli facciali, cosı̀ da generare espressioni e forze che deformano il tessuto sintetico in modo il più realistiche possibile.
Le prime tecniche per la risoluzione di questo problema erano tecniche che cercavano in qualche modo di funzionare anche con basse
possibilità computazionali. Con il rapido miglioramento dell’hardware, gli approcci rivolti alla performance hanno cominciato a prendere il sopravvento. Primi tra tutti si sono affermate tecniche basate
sull’analisi di immagini già esistenti. Non solo immagini, in quanto
l’analisi di video ha permesso lo studio e la percezione dei movimenti
facciali cosı̀ da ricavare tutte le informazioni necessarie per poterli
riprodurre con un elevato realismo. Dall’altro lato, la sempre maggiore conoscenza della fisica dei movimenti facciali ha portato alla
costituzione di modelli facciali di alta qualità basati sulla anatomia
umana. Tra questi si può menzionare il lavoro di Sifakis [13] che va
a modellare il volto a partire proprio dagli strati definiti dall’anatomia umana.
19
Tra i centri di ricerca più importanti abbiamo menzionato, nella
digressione storica, il longevo studio della Disney. Trattandosi di
una compagnia quasi completamente dedita all’animazione non sorprende il fatto che uno dei lavori più importanti con tema quello
dell’analisi facciale e della animazione facciale sia nato proprio nella
loro sede [14]. Questo importante lavoro introduce una soluzione
al problema dell’individuazione della geometria 3D del volto in un
singolo passo, sotto l’ipotesi di illuminazione standard. Il sistema
sviluppato è di basso costo, semplice da riprodurre e porta a risultati commensurabili con i sistemi che basano il loro funzionamento
su luci attive. Tale paragone è effettuabile in quanto anche questo
sistema produce risultati di livello adeguato all’industria cinematografica. I contributi più importanti che il lavoro porta ai metodi già
esistenti sono principalmente due. Il primo riguarda la modifica del
classico metodo di “raffinamento” per acquisizione della geometria
del volto usando un approccio qualitativo che produce risultati visivamente realistici. Il secondo contributo è definito dal metodo di
calibrazione per l’acquisizione.
Tuttavia, nonostante queste tecniche recenti siano particolarmente
avanzate, alcune applicazioni risultano ancora di difficile soluzione.
Le principali limitazioni provengono dalle limitate risorse computazionali che rendono necessarie importanti semplificazioni del modello anatomico umano. Inoltre, a causa delle limitazioni nella analisi
delle immagini e dei video risultano necessari approcci che tengano
conto di questa in accuratezza. Pertanto l’ambito della modellazione
facciale e dell’animazione facciale risulta ancora un topic di ricerca
caldo e la strada da percorrere per arrivare a risultati soddisfacenti
è ancora lunga [15].
Figura 4: Applicazione di una tecnica single-shot per la cattura facciale,
comprensiva di raffinamenti.
20
3.3
Animazione dall’osservazione: cattura ed editing del
moto
L’animazione può essere considerata una vera e propria forma d’arte. Colui che crea animazione ha infatti il totale controllo su apparenza e sui movimenti dei soggetti. Questa possibilità garantisce
all’“artista” forte libertà che, se ben utilizzata, può portare a lavori
di forte impatto. Questa libertà tuttavia non è fuori dagli schemi,
ma tutto può e deve essere controllato. Tra i task più complessi si
ha proprio il controllo del movimento.
Se nei primi anni dell’animazione gli autori cercavano di riprodurre
i movimenti di creature reali con lo scopo di raggiungere una realtà
elevata semplicemente osservando la natura, ben presto ci si rese
conto che l’osservazione non era sufficiente. Anche nell’animazione
di oggetti immaginari era necessario concepire un modo per gestire il movimento. Con l’avvento dei computer i produttori di film
animati hanno avuto la possibilità di automatizzare il processo e di
creare un movimento per gli oggetti semplicemente a partire dall’osservazione dei movimenti reali. Questo processo di trasmissione dei
movimenti dagli oggetti reali a quelli fantastici è conosciuto come
Motion Capture.
Il processo di cattura del moto è un processo estremamente delicato.
La computer vision tuttavia contribuisce in modo significativo allo
scopo.
3.3.1
Cattura del moto vs. Animazione dall’osservazione
Nella comunità dell’animazione troviamo uno storico conflitto tra gli
“animatori” e i tecnici/users di motion capture. Questa “tensione”
nasce da diversi fattori, alcuni effettivamente reali, altri solamente
percepiti. I motivi principali sono l’irrealistica aspettativa che certi
hanno riguardo la cattura del moto e la difficoltà che lo sviluppo
della cattura del moto ha lasciato nell’interpretazione dei dati.
La distinzione reale che abbiamo tra “Motion Capture” e creazione di animazione sta nell’osservazione. La cattura del moto non
ha come fine solamente quello dell’animazione, ma gli ambiti in cui
può rivelarsi utile sono molteplici. Per ciascuno di questi si ha comunque la necessità di osservare il movimento per interpretarlo e
definirne appunto un modello. La cattura è solamente una delle fasi
per l’animazione. Una volta registrato il moto infatti è necessario
21
interpretare i dati individuati per creare l’animazione.
In prima istanza si potrebbe pensare alla cattura del moto come alla
registrazione del movimento di un soggetto ed alla possibilità di rivederlo. Tuttavia in maniera più corretta si potrebbe intendere come
la creazione di una rappresentazione che differenzia il moto dall’apparenza; questa rappresentazione codifica il moto in una forma che
possa essere disponibile e di facile analisi e processamento. La definizione di “Motion Capture” tuttavia dipende molto dal risultato
che vogliamo ottenere. Nell’animazione il motion capture implica la
presenza di qualcosa che ha portato al cambiamento di qualcos’altro
e che noi abbiamo registrato. A questa ripresa è possibile applicare
un cambiamento di soggetto del moto inserendovi un modello grafico. Per definizione, animare significa dare vita, e ciò tecnicamente
consiste nel fornire la possibilità ad un oggetto anche inesistente di
muoversi. Esistono un certo range di tipologie di motion capture.
Tra le più importanti abbiamo quella real-time e quella su sistemi on-line. Altra distinzione si ha tra la cattura del movimento di
tutto il corpo o solamente di quello facciale(quest’ultimo visto nel
paragrafo precedente).
3.3.2
Cattura del moto per l’animazione
Gli step per la creazione dell’animazione a partire dall’osservazione
sono:
• Pianificazione della cattura del movimento e successiva ripresa.
• Cattura del movimento.
• Pulizia dei dati.
• Edit del moto.
• Mappatura del moto sui caratteri da animare.
L’elemento di maggiore interesse e difficoltà è ovviamente la cattura del moto. Questo processo ha sviluppato nel corso degli anni
vari metodi tutti soddisfacenti. La sua storia è particolarmente lunga e nasce attorno agli anni ’90 quando, per la cattura del moto,
si utilizzavano “armature meccaniche” che misuravano gli angoli di
movimento. Strumenti meccanici sono diventati più recentemente
sistemi di stima del movimento non più con il calcolo di angoli vari,
22
ma solamente come appoggio a sistemi software per il tracciamento
dei movimenti. Gli strumenti meccanici sono quindi diventati dei
semplici “scheletri” sempre meno ingombranti.
Tecnologie di cattura del movimento che si appoggiano a magneti
invece, utilizzano trasmettitori che stabiliscono dei campi magnetici
all’interno di uno spazio ed utilizzano sensori in grado di determinare la posizione e l’orientamento nell’ambiente. Le prime versioni di
questi sistemi magnetici erano afflitte da problemi pratici: i sensori
necessari erano di forte ingombro e creavano problemi di rumore e
di deriva dovuti a campi magnetici di portata limitata e facilmente
disturbabili da oggetti metallici disposti nello spazio. Nei moderni
sistemi a cattura magnetica invece, questi problemi di misura sono
contrastati attraverso trasmettitori wireless posti sul corpo e attraverso sensori di migliori prestazioni, autonomia e robustezza.
Una seconda tipologia di tracciamento è data dai sistemi ottici che
utilizzano dei marcatori visivi ed un certo numero di telecamere
speciali per determinare la posizione 3D. Solitamente questi marcatori sono oggetti passivi quali ad esempio sfere retro-riflettenti. Le
telecamere ad alta velocità composte di dispositivi monocromatici
sintonizzati per rilevare uno specifico colore consentono la loro rilevazione. Questi sistemi necessitano di più telecamere per effettuare
una triangolazione e determinarne la posizione. Il numero di telecamere è ovviamente variabile e in alcuni casi fino a 24 per ridurre al
minimo la possibilità di non individuare i marcatori.
I sistemi ottici tuttavia hanno difficoltà nel riconoscimento dei marcatori. Rilevato un marcatore, non risulta possibile sapere di quale
marcatore si tratta. A differenza dei sistemi magnetici in cui ciascun sensore ha il suo canale di trasmissione, il sistema ottico deve
determinare la corrispondenza di marcatori tra i frame. Solitamente
questa corrispondenza è definita nella fase di post-processing attraverso software che basano il loro funzionamento sulla continuità della
posizione. Per creare questa continuità i sistemi ottici preferiscono
sistemi con un numero elevato di frame anche se successivamente il
risultato dovrà essere ridotto. Vista tuttavia l’imperfezione di queste tecniche software i risultati necessitano anche di pulizia manuale.
Alternativamente sono stati definiti anche metodi in cui i marcatori
si distinguono l’uno dall’altro.
Considerando l’altra notevole difficoltà che accompagna tuttora i
sistemi ottici, dovuta all’occlusione dei marcatori e delle corrispon23
denze in post-processing, i sistemi magnetici sono tradizionalmente
preferiti per la cattura del moto. Software per il processing di sistemi ottici sta tuttavia cambiando questa tendenza, soprattutto per
il basso costo dell’hardware che questi sistemi richiedono. Le figure
5 e 6 mostrano l’applicazione di cattura del moto al personaggio di
Gollum sul film Il signore degli anelli. La figura 7 mostra il sistema
di animazione, compresa la cattura del moto, per i personaggi del
film Avatar.
Figura 5: Applicazione della tecnica di cattura del modo al personaggio di
Gollum nel film The lord of the rings.
Figura 6: Applicazione della tecnica di cattura del modo al personaggio di
Gollum nel film The lord of the rings.
Le tecniche di cattura del moto con tecnologia ottica sono facilmente comparabili con tecnologie di cattura basate sulla visione. Le
tecniche basate sulla visione definiscono quegli approcci che analizzano stream video, applicano certe forme di analisi immagini per
determinare cosa il soggetto sta facendo. Le tecnologie ottiche definiscono una soluzione ingegneristica ai classici problemi della visione
quali il tracking e l’identificazione.
24
Figura 7: Applicazione della tecnica di cattura del modo ad un generico
personaggio del film Avatar.
3.3.3
Computer Vision e Motion Capture
Uno dei crescenti interessi della computer vision è quello nel problema dell’analisi di immagini di soggetti in movimento. Le applicazioni che ne possono derivare sono varie, tra le quali anche soluzioni per
la creazione di oggetti in movimento. Le potenzialità della cattura
del moto attraverso la visione sono molteplici. La tecnologia video
convenzionale è più accessibile, meno costosa, meno ingombrante
della strumentazione più classica di metodi magnetici o ottici e applicabile in una più ampia varietà di ambienti rispetto alle tecnologie
di cattura correnti. Il video standard può essere analizzato ed elaborato per creare animazioni. Il problema più delicato del motion
capture con la computer vision tuttavia sta nel fatto che la tecnologia di acquisizione necessaria per fornire un grado di fedeltà e
qualità adatta all’animazione è limitato(costoso e ancora non troppo
sviluppato).
Generalmente i sistemi di Motion Capture sviluppati attraverso la
computer vision si compongono di quattro fasi: Initialization, Tracking, Pose Estimation e Recognition. Ciascu sistema, prima di essere considerato pronto per il processamento dei dato deve essere
inizializzato, ovvero deve essere stabilito un modello del soggetto.
Successivamente avviene il tracciamento del moto. Questo passo
comporta la necessità di segmentare il soggetto dal background e di
25
trovare corrispondenze tra i segmenti nei frame consecutivi. Il passo successivo consiste nella stima della posa del soggetto che risulta
essere l’output del sistema. Quest’ultimo risulta essere lo strumento
per il controllo di un avatar in un ambiente virtuale o può essere processato successivamente nel passo di riconoscimento. Per la stima
della posa solitamente sono anche utilizzati modelli con un livello di
conoscenza elevata, quali ad esempio modelli umani.
L’ultimo step di questi sistemi è quello che analizza la posa e gli
altri parametri per riconoscere le azioni ed i movimenti effettuati dal soggetto. Ciascuno di questi passi possiede le sue difficoltà
ed i suoi algoritmi risolutivi, tanto che in alcuni casi l’ambito del
Motion Capture si è evoluto distintamente nei quattro diversi passi
[16]. Sebbene i lavori e gli studi riguardo all’argomento siano aumentati notevolmente, ancora oggi rimangono dei problemi che in
qualche modo trattengono l’utilizzo massiccio della computer vision
in merito al motion capture. Tra i più importanti problemi aperti
troviamo il riconoscimento delle parti del corpo che rappresentano
invarianti del punto di vista; il rilevamento dell’abbigliamento è altrettanto richiesto e importante per avere un tracking ed una stima
della posa adeguata. Inoltre, sebbene vi sia un generale miglioramento sulla cattura e sulla ricostruzione del moto, rimangono ancora
poco esplorati il riconoscimento “semantico” dei comportamenti del
soggetto. Riferendosi esplicitamente all’ambito dell’intrattenimento
qual’è quello cinematografico, risulta ancora poco accurata la ricostruzione da più viste [17].
Il tracciamento del movimento umano è quindi tutt’oggi un argomento importante per la computer vision. Tuttavia per la maggior
parte delle applicazioni in questo campo non richiedono la ricostruzione 3D del moto. Tra i più recenti studi nel campo ve ne sono
alcuni in cui sono descritti sistemi che calcolano il moto di figure
complesse utilizzando tecniche di flusso ottico differenziale. Tutti i
prodotti sviluppati fin’ora tuttavia non hanno portato a sistemi che
garantissero una fedeltà sufficiente per il campo dell’animazione.
Le richieste nell’ambiente sono diventate negli ultimi tempi sempre
maggiori, visto il traffico di denaro. Per questo la computer vision
ha pagato fortemente la sua incapacità di risolvere il problema della cattura del moto e della sua elaborazione, vista la sua “giovane
età”.
26
4
Visione nei film ed effetti speciali
Le tecniche di visione hanno avuto ed hanno tuttora un ruolo di crescente importanza nell’ambito degli effetti speciali. L’inserimento di
un effetto speciale all’interno di una scena necessit la conoscenza di
informazioni, quante più possibili, riguardo la scena. Gli effetti speciali si appoggiano a tecniche di visione per il calcolo della posizione
della telecamera, per la costruzione di un modello 3D della scena e
per il tracking degli elementi in movimento nella scena.
Pensando agli anni antecedenti il 1980, in cui la computer graphic
non era molto impegnata nello studio degli effetti speciali, era comune individuare nelle scene dei film il cosi detto shot effect. Il
problema era dovuto proprio alla difficoltà di inserire oggetti estranei alla scena in presenza di camera in movimento. Nel processo
di inserimento di un effetto speciale infatti, deve essere riprodotto
in maniera perfetta il movimento della telecamera anche per questo
nuovo elemento, cosi da ridurre la percezione di finzione.
Per ottenere quindi un risultato adeguato le tecniche principalmente
utilizzate furono due:
• Utilizzare un dispositivo meccanico per codificare il movimento
della camera, ed usare poi questa informazione registrata per
controllare il movimento per l’effetto
• Rilevare il movimento della camera attraverso l’osservazione di
un esperto occhio umano.
Come è tuttavia intuibile entrambe queste tecniche erano particolarmente soggette ad errori e potevano essere utilizzate solamente in
produzioni con budget elevati.
Quando tuttavia negli anni ’90, con l’avvento degli effetti generati
al computer e della scansione digitale dei film, divenne possibile applicare tecniche di visione per estrarre informazioni riguardo il moto
della camera a partire dalla scena consentendo di applicare effetti
speciali come fossero effettivamente parte dell’immagine filmata.
4.1
Gli elementi basilari
Tecniche di visione sono utilizzate per stimare la posizione e l’orientazione della telecamera a partire da uno o più fotogrammi. Queste
27
tecniche sono conosciute come tecniche di tracking 3D. Il miglior modo per conoscere questa informazione è di estrarre la geometria della
scena e utilizzarla per calcolare la posizione della camera. Per capire questo concetto potremmo pensare al fotogramma di una stanza
proveniente dalla camera reale posta in una certa posizione. L’idea
è quella che l’immagine relativa a questa posizione della camera è
univoca e non possono esservi più posizioni che riportano la stessa identica immagine. Si potrebbe allora pensare di definire una
camera immaginaria e attraverso questa trovare le informazioni riguardanti la camera reale, semplicemente concependo la vista della
telecamera immaginaria.
La tecnologia attuale fornisce alcuni software che consentono di applicare effetti speciali a sequenze cinematografiche. Come è possibile
aspettarsi, gli effetti speciali come possono essere ad esempio gli spari, necessitano l’analisi e la modifica non solo di un frame, ma di una
sequenza di immagini. L’idea che sfruttano questi software è quella
di definire una curva che va a considerare la posizione e l’orientazione della camera. Questa curva consente di avere l’informazione
necessaria per l’editing di effetti speciali. A partire dal movimento
della camera, è possibile utilizzare la fotogrammetria per costruire
un modello 3D che rappresenti al meglio la scena. Questo processo
tuttavia è particolarmente oneroso. L’idea del modello 3D nasce
dalla consapevolezza che, poichè gli oggetti estranei alla scena devono integrarsi completamente in essa, è necessario ridurre al minimo
quel distaccamento tra ripresa originale ed effetti speciali stesso. Risulta quindi necessario conoscere l’anatomia della scena per inserirvi
qualunque oggetto estraneo. In particolare, se il movimento della
camera è abbastanza importante, è possibile effettuare la triangolazione per ciascun punto visibile, attraverso due immagini riprese da
posizioni differenti.
Un ultimo metodo per il calcolo della posizione della camera e del
tracking point è definito come Structure from Motion. In questo
contesto, non si ha conoscenza alcuna della struttura della scena.
L’idea sta nel fatto che, muovendo la camera, si ha la possibilità
di vedere la scena da vari punti di vista. Il problema è risolvibile
attraverso la risoluzione di un problema di minimo.
28
4.2
Le basi del tracking 3D
La risoluzione del tracking 3D si basa sulla ottimizzazione di un problema di minimo. A partire dalla posizione 3D dei punti e delle loro
coordinate 2D nell’immagine, lo spazio dei parametri è dato dalla
posizione della camera, dalla sua orientazione rispetto alla scena e
dal suo campo di vista. Risulta quindi un problema di minimizzazione a 7 parametri in cui la misura da rendere minima è l’errore
tra la posizione 2D del punto e la quella 3D a partire dalla conoscenza della orientazione e disposizione della camera. La risoluzione
di questo problema non è banale. Le tecniche per effettuare questo
tracking sono numerose, dipendenti anche dalle possibilità di calcolo
e tempo.
I primi tentativi di risoluzione di questo problema sono degli anni
’90([6],[7]) Tuttavia, nell’applicazione di queste tecniche alla cinematografia, si sono incontrati problemi che in altri contesti invece
non si presentavano. Per avere infatti un buon risultato è necessario
che l’errore effettuato sia limitato. In particolare non è importante solamente che la soluzione sia accurata sul singolo frame, questa
deve essere particolarmente precisa nell’intera ripresa. Vista inoltre
l’alta risoluzione delle riprese cinematografiche, è necessario che gli
elementi aggiunti siano all’altezza della scena primaria. Infine, le
immagini provenienti da una ripresa mostrano spesso caratteristiche non proprio ottimali per l’applicazione di tecniche di Computer
Vision. Spesso e volentieri infatti le scene sono affette da “effetto
di movimento”, luce scarsa è fonte di luce che cambia. Altrettanto
problematico è il cambiamento che può subire il set a seguito dell’evento per cui stato incluso l’effetto speciale(ad esempio a seguito
di uno sparo).
4.3
Problemi dovuti alla camera
La camera non solo rappresenta un vincolo nella modellazione 3D
dell’ambiente e nel calcolo del suo movimento ma, attraverso la lente, questa determina problemi legati al campo di vista. Supponiamo
di voler mostrare un certo soggetto più grande. Le possibili soluzioni
sono due: avvicinare la camera al soggetto stesso o ridurre il campo di vista attraverso lo zoom. Effettuando queste due operazioni
non si ottiene lo stesso risultato anche se simile all’apparenza. Non
avendo quindi conoscenza di quale di queste due tecniche sia stata
29
utilizzata, risulta necessario trovare un modo per la stima del campo
di vista che esuli dall’immagine stessa. A questo scopo possono essere di alta utilità i cosi detti oggetti “sopravvissuti. Questi elementi
consentono di ridurre la complessità del problema di ottimizzazione
aumentandone di conseguenza l’accuratezza. Rappresentano infatti
gli unici invarianti dell’operazione, ed è da questi che si deve partire.
La lente della camera risulta elemento di distorsione anche per altri motivi. In computer graphic la camera è solitamente modellata
come una pinhole camera, ovvero in una sua versione semplicistica
senza lenti. Questo comporta che anche le lenti più costose possono
solamente approssimare questo modello che di conseguenza porta
con se errori intrinseci.
Per questo tipo di errori dovuti alle distorsioni delle lenti è possibile agire in modo analogo al campo di vista finchè il sistema non
è esportato per il rendering. I pacchetti che consentono di lavorare
sul video spesso supportano solamente il modello pinhole mettendo
tuttavia a disposizione la possibilità di scrivere il proprio sistema
per la camera. Cosi, adottando un modello di per se sbagliato, il
calcolo della posizione della camera porta a risultati non corretti.
Il problema è risolvibile se si elimina la distorsione prima di effettuare il tracking. Si risolve la distorsione e si fa in modo che la
camera appaia come fosse una pinhole. Il tracking 3D avviene quindi solamente quando abbiamo un immagine di cui conosciamo bene
il modello.
4.4
Problemi generici
I problemi per la modellazione e per il tracking 3D non nascono solamente dalla presenza della lente e dal modello di camera complesso.
Semplicemente pensando al film ci ritroviamo con scene dinamiche
ed un ambiente piuttosto affollato. Gli attori possono camminare di
fronte alla camera, la camera stessa può muoversi cosi tanto che i
punti subiscono la sfocatura di moto, la luce può cambiare per varie
circostanze. Risulta quindi estremamente complesso seguire punti
di interesse su oggetti naturali come piante o rocce. In questi casi l’idea è quella di utilizzare la metodologia paint them out later.
Inserendo nella scena oggetti colorati(spesso palline da ping pong),
risultano utili tracking point che forniscono sufficiente informazione
della scena.
30
4.5
Traking 2D
Figura 8: 2D tracking utilizzato per applicare digital makeup a Bred Pitt nel
film Intervista col Vampiro(1994).
Immagini appartenenti ad una ripresa possono mostrare, a lavoro
completo, imperfezioni che devono essere eliminate. Il tracking 2D
rappresenta una tecnica sviluppata proprio a questo scopo. Si tratta del processo attraverso il quale si segue una certa feature che si
muove nelle immagini. Attraverso questa tecnica possibile tracciare
una certa parte dell’immagine per rimuoverla o modificarla.
L’immagine 8 mostra l’applicazione del tracking 2D per definire un
“digital makeup” al personaggio di Brad Pitt. Il difetto dell’applicazione del trucco non fu rilevata fino alla visione successiva del film,
quando ormai risultava impossibile ripetere la scena. La tecnica di
tracking 2D ha invece aiutato a individuare il difetto nella faccia del
protagonista ed a modificare il makeup dello stesso.
Ovviamente, affinchè sia possibile applicare queste tecniche di tracking 2D è necessaria una accuratezza a livello di pixel. I software di
tracking 2D più diffusi sono quelli in cui l’utente deve identificare la
feature da seguire. Il software compara la feature con il frame successivo. Trovata la corrispondenza definisce la traslazione subita.
Nel caso in cui vi sia anche una modifica della forma della feature,
il track della feature non sarà particolarmente accurato [8].
31
4.6
Tracking 3D con assenza di informazioni
L’ultima soluzione per il tracking 3D è quella che non richiede alcuna conoscenza della scena. Questo tipo di approccio al tracking
è possibile anche se è necessaria particolare attenzione a mantenere
stabili le soluzioni. L’idea è che individuando alcune features per il
tracking 2D, a seguito del movimento della camera, e quindi con il
passaggio da frame a frame, si possa tracciare la locazione dei punti. Queste posizioni sono utilizzate simultaneamente per risolvere il
problema di minimo.
Questo approccio, come è immaginabile, ha delle limitazioni. Se infatti la camera si muove lentamente è necessario utilizzare altre foto
rilevate da punti di vista differenti per fornire informazioni supplementari. Ovviamente anche informazioni riguardanti la lente possono essere di aiuto. Se l’obiettivo è tarato, effettuando una fotografia
di un oggetto di riferimento, i calcoli sono più precisi. Se inoltre
abbiamo anche conoscenza della geometria della scena, il passo precedente può essere saltato. La lunghezza focale può infatti essere
calcolata con il software. Infine, in presenza di scatti con zoom senza rilevazione di oggetti, il tracking si complica.
Paul Debevec rappresenta uno dei pionieri nel tracking e sulla ricostruzione della scena in assenza di informazioni. Nei suoi lavori
[4],[5] mostra un sistema per la ricostruzione di forme architetturale
a partire dall’assemblaggio di primitive geometriche da parte dell’utente.
4.7
Conclusioni
Per applicare effetti speciali a scene già girate è quindi necessario un
grande lavoro affinchè creature o elementi estranei appaiano come
appartenenti al film stesso. L’audience non deve aver percezione di
questo fatto, e se il lavoro svolto in questa direzione non è ottimo, la
percezione dell’estraneità dell’oggetto è elevata. La computer vision
in questo fornisce un immenso aiuto agli artisti del cinema.
32
5
Le olografie
Per la maggior parte dei tecnofili, la parola ologramma evoca il ricordo dell’immagine della principessa Leia nel film Star Wars (figura
9).
Figura 9: Olografia della principessa Leia tratta dal film Star Wars.
In tono generale l’olografia, o la fotografia senza lenti, è una tecnica che produce immagini tridimensionali. attraverso l’uso del laser.
Il processo inizia con la registrazione di pattern formati da onde di
luce su pellicole fotosensibili le quali, una volta sviluppate ed esposte
nuovamente al laser, ricreano i punti di luce dell’oggetto originale,
producendo cosı̀ un immagine tridimensionale. Le pellicole utilizzate per creare effetti olografici contengono più informazioni rispetto
a quelle utilizzate per le immagini convenzionali.
Gli ologrammi rappresentano vere e proprie immagini tridimensionali con parallasse (la cui vista cambia a seconda dell’angolo da cui
si guardano), proprio come un oggetto tridimensionale. Con la proiezione corretta, un ologramma rappresenta un oggetto sospeso a
mezz’aria.
L’olografia, a differenza di tecnologie quali ad esempio il 3D, consente di osservare l’oggetto proiettato come se fosse generato da un
raggio di luce e disperso direttamente dall’oggetto reale, senza la
necessità di occhiali speciali. Il sistema ricostruisce l’oggetto sia
attraverso informazioni provenienti dall’onda di luce che la genera
33
sia dalla conoscenza della scena. Ciò tuttavia richiede una grande
quantità di dati, il che significa che l’olografia ha, finora, limitato il
suo utilizzo a causa dell’insufficiente potenza dei computer. L’altro
problema è la mancanza di mezzi di visualizzazione grandi abbastanza e sufficientemente veloci, da poter visualizzare e aggiornare
l’immagine olografica per avere una proiezione realistica.[19]
L’applicazione di olografie nell’ambito cinematografico è particolarmente utilizzato. Questo strumento fornisce la possibilità di introdurre nelle produzioni elementi di dettaglio, e non solo, che consentono di rendere i film sempre più affascinanti e stupefacenti. Gli
esempi a riguardo sono numerosi, fin da quando l’era del digitale
ha iniziato il suo percorso. Nel 1977, con la figura della principessa Leia sul film Star Wars si riproduceva in maniera dettagliata la
prima olografia (figura 9). Durante gli anni la tecnologia si è sviluppata e le tecniche sono migliorate a tal punto da avere olografie del
calibro di quelle presenti nel film “Avatar”(figura 10).
Figura 10: Olografia del mondo immaginario del film Avatar.
5.1
Il funzionamento dell’olografia
L’olografia non è semplice da interpretare e capire in termini di ottica geometrica. La luce è manipolata nella sua composizione di
elementi discreti(i fotoni). L’olografia considera la luce come un
onda in movimento ed attraverso la riflessione e la rifrazione della
34
raggio, una camera sfrutta l’intensità dello stesso ma non la sua fase.
Per rappresentare gli oggetti nell’olografia viene sfruttato il carattere ondulatorio della luce. Questo metodo non necessità di lenti,
ma il fattore essenziale è che l’oggetto sia illuminato da un fascio
coerente le cui singole parti abbiano differenza di fase tempo costante. La luce incidente viene dispersa sulla superficie dell’oggetto e,
se incide sulla lastra fotografica, provoca l’annerimento della stessa
in relazione all’ampiezza risultante delle vibrazioni della luce nella
posizione corrispondente. La struttura finale è il risultato di attività
del fascio disperso su tutti i punti del corpo che interferiscono. Tale
registrazione sulla lastra fotografica fornisce informazioni su intensità e sulla fase delle onde disperse su tutto il corpo ([20]).
L’olografia utilizza l’interferenza della luce per registrare immagini in 3D, e quindi richiede l’uso di una sorgente di luce coerente
considerando che l’intero dispositivo deve essere compatto, protetto
contro sbattimenti dal suo ambiente e di solito richiede l’oscuramento del sito di lavoro. L’olografia necessità di sorgenti ottiche
ideali con un elevato livello di coerenza per osservare fenomeni di
interferenza e di diffrazione della luce. Entrambe le coerenze spazio
temporali sono implicate. Più appuntita è la sorgente, maggiore è
la coerenza spaziale, e più la luce risulta monocromatica più grande
è la coerenza temporale. La fonte ideale monocromatica è il laser generatore di radiazioni elettromagnetiche nel campo delle lunghezze d’onda ottiche.
I laser sono risorse di luce caratterizzate da forte intensità, monocromatismo, coerenza e piccola divergenza di radiazioni. L’abbreviazione laser deriva dal nome inglese Light Amplification by Stimulated
Emission of Radiation, che rappresenta lo strumento dove la luce
è amplificata attraverso l’emissione stimolata. Il laser consiste di 3
principali parti: di lavoro (attivi), l’ambiente di origine e il sistema
di risonanza. Il laser assicura coerenze sia temporali che spaziali
che consentono di ottenere una struttura stabile e distinta nel piano
dell’ologramma.
Un ologramma non porta con se simboli che ricordano l’oggetto rappresentato. L’oggetto è rappresentato da un sistema di aree di luce
e di ombra, generate attraverso due raggi, che anche se osservate
attentamente non offrono informazioni riguardo l’oggetto mostrato.
Se illuminato con la luce normale, l’oggetto rappresentato non può
essere identificato da un occhio umano. L’immagine dell’oggetto è
35
allora codificata nell’ologramma.
Come detto sopra, la formazione di una immagine visibile attraverso
l’ologramma viene chiamata ricostruzione dell’immagine. Affinchè
l’immagine dell’oggetto possa essere vista nello spazio, l’ologramma
deve essere illuminato dal fascio di riferimento. L’immagine successivamente viene creata sotto un certo angolo al fascio incidente.
L’osservatore a questo punto vede l’oggetto originale in 3 dimensioni nello spazio. La visibilità dell’oggetto attraverso l’ologramma è
dovuto alla diffrazione del fascio di riferimento sulla struttura del
reticolo dell’ologramma. Tale osservazione è accompagnata dal principio della parallasse - se il punto di osservazione cambia, cambia
la posizione dell’oggetto osservato. Se durante l’esposizione alcuni
oggetti vicini coprono quelli più distanti rimane comunque possibile
vedere questi oggetti coperti semplicemente spostando il punto di
vista.
Olografia significa registrazione della struttura tridimensionale dell’onda di luce dispersa dall’oggetto. Ciò si ottiene attraverso l’immagine di interferenza che mantiene il rapporto delle ampiezze della
luce dispersa. [21]
I metodi interferometrici olografici rappresentano una classe di tecniche che rendono possibile visualizzare oggetti in trasparenza, aiutano
a spiegare l’essenza fisica di eventi investigati, abilitano ed espandono le possibilità di visualizzazione dei campi fisici. Tutto ciò senza
disturbare l’ambiente con sensori o elementi di disturbo.
36
6
La realtà aumentata
Immaginiamo una tecnologia in cui possiamo vedere più di quanto
vedono gli atri, sentire più di quanto sentono gli altri e magari anche
toccare, odorare e gustare cose che gli altri non possono percepire.
Immaginare una tecnologia del genere apre confini tangibili e rende
la finzione qualcosa di più realistico e più vicino a noi. Se avessimo
una tecnologia tale da consentirci di percepire qualunque tipo di oggetto anche non reale secondo la nostra esperienza nel mondo, una
tecnologia tale da consentirci di avere un interazione con strutture
e creature che ci aiutano tutti i giorni anche in maniera inconscia,
gli orizzonti dell’uomo sarebbero decisamente più lontani.
La Realtà Aumentata (AR) è la tecnologia per creare “interfacce di
nuova generazione basate sulla realtà” ed è attualmente studiata in
laboratori di tutto il mondo per applicazioni al mondo industriale
e non. AR sostituisce la realtà con elementi virtuali che appaiono
coesistere nello stesso spazio del mondo reale. [18] definisce l’AR
come una parte dell’area più generale della mixed reality composta
dal mondo virtuale. Minstry et al. mostra la suddivisione in ambienti reale e virtuale e nei loro corrispettivi con realtà aumentata.
AR fornisce una virtualità locale.
Le caratteristiche salienti di sistemi AR sono le seguenti:
• Combina elementi virtuali e reali in un ambiente reale.
• Allinea elementi virtuali e reali l’un l’altro.
• Gli elementi funzionano interattivamente, in tre dimensioni e
in tempo reale.
Tre sono gli aspetti importanti da menzionare riguardo AR. Il primo è che non è ristretta a particolari tipologie di display. Secondo, i
sistemi AR non sono limitati al senso della vista, ma possono essere
estesi anche all’udito, il tatto e tutti gli altri sensi. Infine anche la
cosı̀ detta mediated/diminished reality fa parte di AR.
La realtà aumentata fa parte del cinema da ormai almeno un ventennio, non solamente come strumento per migliorare i film e per
renderli più piacevoli e reali, ma anche come concetto tecnologico
da integrare in certe scene ed in certi personaggi. Tra i primi e più
famosi esempi c’è sicuramente il film Terminator in cui il protagonista, non solo possiede una vista come ogni altra persona, ma
37
spostandosi con gli occhi da persona a persona ne percepisce anche
un numero maggiore di informazioni. [22]
Figura 11: Frame tratto dal film Terminator (1990).
Molto più recentemente, il film Avatar ripropone una tecnologia
simile nelle informazioni che i protagonisti percepiscono in tempo
reale, su tutti gli abitanti di questo mondo (figura 12).
Figura 12: Scena ripresa dal film Avatar con mostrata la tecnologia di realtà
aumentata (2010).
Sebbene questi esempi di come effettivamente la realtà aumentata
sia concepita, questa tecnica cinematografica (e non) ha anche una
serie di altri scopi e di applicazioni nel mondo del cinema. Queste
altre applicazioni non sono sempre cosi evidenti e riconoscibili come
la sua concezione.
38
6.1
Computer vision e la realtà aumentata
La computer vision possiede enormi potenzialità per le applicazioni di realtà aumentata. Forte della sua dipendenza dalle features
visuali presenti nell’ambiente e registrate dalla camera, questa non
richiede una re-ingegnerizzazione dell’ambiente e non ha limitazioni
dovute alla presenza di piccoli volumi, elementi magnetici,meccanici
o sensori ad ultrasuoni. Sarebbe inoltre non presuntuoso pensare che
solamente la computer vision possa garantire una elaborazione della
geometria ed un allineamento tra il mondo reale e quello virtuale a
livello di pixel, proprio perchè è su questa informazione che la computer vision si basa [23].
L’idea del binomio computer vision-realtà aumentata sta nel fatto
che oggetti nel mondo reale possano essere riconosciuti attraverso la
visione e rimpiazzati o modificati direttamente nello stream video.
Ad esempio alcuni ’marcatori’ potrebbero essere disposti nell’ambiente e, riconosciuti dal sistema di visione, sono rimpiazzati con
oggetti virtuali. O analogamente riconoscere un oggetto reale quale
ad esempio una finestra, e rimpiazzare il paesaggio al di fuori con
l’immagine di un paesaggio fantastico.
Le applicazioni basate sulla AR sono numerose e sono disponibili da
diversi anni in campi diversi, tra cui quello del cinema. Tuttavia in
queste applicazioni, la computer vision non ha avuto fin ora molto
successo, e ci si appoggia tuttora ai marcatori. Questa soluzione è
comunque limitativa in quanto si ha necessità di gestire l’ambiente
esterno per potervi immergere questi oggetti estranei.
Le applicazioni su cui effettivamente la computer vision può essere
di una certa utilità sono quelle in cui il tracking 3D può portare informazione maggiore di quella che già si ha nella scena. La ragione
dell’assenza della computer vision dal mondo della realtà aumentata è abbastanza ovvio. Molti degli approcci al tracking 3D sono
basati su sistemi detti di tracking ricorsivo. Sfruttando in maniera
imponente la conoscenza della posizione della telecamera nell’ultimo
fotogramma risultano poco pratici per applicazioni reali. In primo
luogo infatti questi sistemi devono esser inizializzati a mano o richiedono che la telecamera sia molto vicino ad una posizione specificata.
In secondo luogo questo limite li rende sistemi molto fragili. Se infatti qualcosa tra due frame consecutivi non va nel verso giusto a
causa ad esempio di una completa occlusione di un oggetto o a causa
di un movimento troppo rapido, il sistema può perdere l’oggetto e il
39
tracking deve ripartire da capo con tanto di un re-inizializzazione.
Anche sistemi in cui vengono fusi sensori magnetici e di posizione
gps risultano promettenti, anche se limitati ad applicazioni all’esterno.
Recentemente sono state sviluppate diverse tecniche basate interamente sulla computer vision in grado di registrare dalla telecamera
senza necessità di conoscere a priori informazioni sulla posizione
della stessa. Queste nuove tecnologie non solo risolvono il problema
dell’inizializzazione automatica, ma si mostrano veloci anche per l’elaborazione di ciascun frame in tempo reale, rendendo il processo di
monitoraggio molto più robusto e prevenendo la perdita di traccia
e la deriva. Questo tipo di approccio è detto tracking by detection.
Il riconoscimento di oggetti più favorire la realtà aumentata anche
per altri aspetti. Ad esempio può gestire problemi di occlusione tra
oggetti reali e virtuali anche se non in real time. Inoltre questo secondo problema può essere si risolto, ma risulta ancora poco preciso
se non attraverso una buona interpretazione della scena.
40
7
Il cinema 3D
Con il termine “3D” nell’ambito cinematografico ci si riferisce generalmente a due concetti: immagini generate attraverso il computer
(con l’aiuto della computer graphics) con il supporto di modelli virtuali 3D di oggetti; film stereoscopici (s3D), nei quali le immagini,
se viste con appropriati occhiali, sembrano far parte del nostro mondo reale. Questi due concetti di cinematografia 3D possono essere
facilmente distinti, anche se la rinascita del cinema 3D è dovuta alle
dozzine di animazioni. Il 3D, affiancato alla computer graphics e alla
computer vision, è stato utilizzato intensivamente nelle produzioni
2D e nei videogames negli ultimi 15 anni, mentre film completamente in tre dimensioni sono arrivati da due anni a questa parte.
Come molti probabilmente sanno, il cinema 3D rappresenta quella
versione della proiezione in cui le colline si estendono oltre lo schermo e gli oggetti volano all’interno della stanza grazie a proiettori ed
occhiali. In maniera errata, nel 20mo secolo il 3D è stato associato
agli occhiali composti da una lente rossa ed una blu nonostante anche negli anni 50 la visione 3D fosse effettuata attraverso semplici
occhiali grigi che riproponevano fedelmente i colori.
La visione stereoscopica definisce il concetto di visione attraverso un
sistema stereo quale quello umano. Una vista di questo tipo consente di percepire le tre dimensioni, quindi di calcolare traiettorie, e
fornisce al cervello uno strumento per effettuare un calcolo riguardo
il punto di impatto. Animali posti più in basso sulla catena alimentare tendono ad avere ampio angolo di visione, proprio per cercare
di individuare il pericolo il prima possibile. Questo è il motivo per
cui guardare un film in 3D ci dà una sensazione di completezza che
manca nei film in 2D, nonostante gli enormi sforzi e competenze
dei direttori della fotografia. Il 3D nel mondo del cinema ha preso
importanza nel momento in cui produrlo è diventato più economico
per i produttori e più accettabile per l’audience. Prima che ciò accadesse, il cinema 3D ha dovuto affrontare diverse sfide. La prima
è stata quella di scontrarsi con una industria non ancora pronta all’investimento nel mondo di queste produzioni. In secondo luogo la
mancanza di esperienza da parte di direttori della fotografia e di case di post produzione, faceva si che le persone che avrebbero potuto
effettivamente far decollare questa tecnologia si potessero contare su
di una mano. D’altro canto invece, gli strumenti e l’esperienza del
41
cinema classico 2D fornivano uno stimolo all’innovazione decisamente ben fondato anche se passare al 3D da un’area cosi conosciuta e
piacevole era una passo decisamente pericoloso.
Con il termine cinematografia 3D ci si riferisce oggi a tutte quelle
tecniche per generare modelli 3D di scene dinamiche da più camere allo stesso video frame-rates. Gli ultimi sviluppi della computer
vision e della computer graphics, sopratutto nell’area delle multiple
view geometry e del rendering delle immagini, ha reso questo tipo
di cinematografia possibile. Molte aree di applicazione includono la
produzione di film stereoscopici, animazioni completamente in tre
dimensioni a partire da video multipli, e gli effetti speciali per le
produzioni tradizionali.
7.1
La cinematografia 3D
C’è una credenza “popolare” che considera i film 3D solamente come
riprese effettuate con due telecamere. Ciò sarebbe vero se produrre un film in 2D significasse solamente riprendere delle scene con
una singola camera. Quello che distingue un film da un semplice
video di compleanno non è esattamente dato dalla telecamera, ma
da tutto il lavoro che ci sta prima, durante e dopo la ripresa delle
scene. Le persone che parlano del solo sistema a due telecamere o
sono ignoranti in cinematografia , o in qualche modo sminuiscono
il reale lavoro che sta dietro alle produzioni 2D e 3D riducendole
a gesti tecnici e a collaborazione creativa durante la ripresa. La
complessità della cinematografia rimane quindi nascosta sotto l’idea
della semplice ripresa con due telecamere.
7.1.1
Cinema Stereoscopico, Cinema 3D
Si parla di cinema stereoscopico come l’arte di rendere stereoscopici
i film e le immagini in movimento. Nelle produzioni cinematografiche stereoscopiche, la percezione della profondità è maggiore se le
immagini sono diverse alla vista dell’occhio destro e di quello sinistro; in questo modo gli oggetti presenti nei film sono percepiti dagli
spettatori a differenti profondità. Il processo di percezione visuale
che ricostruisce la profondità 3D e la forma degli oggetti a partire
dalle immagini percepite da entrambi gli occhi è detto stereopsi.
In generale, parlando di cinema 3D ci riferiamo a film prodotti nel
seguente modo:
42
• Video free-viewpoint: vengono catturati video da un numero
maggiore di uno di telecamere e combinati insieme in dati che
possono essere utilizzati per costruire un nuovo video con un
punto di vista arbitrario nello spazio.
• Ricostruzione della geometria 3D a partire da punti di vista
multipli e creazione di un video a partire da un punto di vista
arbitrario.
Il nostro interesse si rivolge tuttavia a film ripresi esattamente
con due telecamere disposte nello spazio in una configurazione stereoscopica. In queste produzioni la possibilità di vedere l’effetto 3D
è dato da strumenti quali display 3D che presentano due immagini
differenti. Queste due immagini sono divise da altri strumenti quali
gli occhiali facendo in modo che ciascun occhio veda una soltanto
delle due immagini proiettate. Alcuni di questi schermi, soprattutto
quelli che non necessitano degli occhiali, prendono in input più di
due immagini riprese da più punti di vista, mostrandone comunque
allo spettatore solamente 2.
Le discipline che sono relazionate con il cinema stereoscopico sono
molte tra le quali, forse la più importante, è la computer vision.
7.1.2
Computer Vision, Computer graphics, e Cinema Stereoscopico
La computer vision e la computer graphics sono strumenti particolarmente utili alla produzione di pellicole 3D. La computer vision in
particolare, con le sue tecniche, può essere utilizzata per localizzare
e analizzare i difetti che si possono avere nelle immagini della ripresa
stereoscopica; difetti che sono successivamente corretti attraverso la
computer graphics. Al fine di trattare al meglio la questione è necessario definire alcuni concetti utili alla spiegazione del funzionamento
del cinema stereoscopico [24]:
• Interoculare (anche detto interassiale): si definisce con
interoculare la distanza tra due occhi/camere o tra i loro centri
ottici. E’ spesso utilizzata anche per designare il segmento tra
i centri ottici. La media di questo valore sugli occhi umani è di
65mm con una variazione più o meno amplia.
• Hyperstereo: definisce il processo di ripresa attraverso un
interoculare maggiore di 65mm (può anche arrivare a diverse
43
dozzine di metri), con la conseguenza che la scena appare più
piccola quando questa è vista in maniera stereoscopica da un
soggetto umano.
• Hypostereo: definisce il processo di ripresa cinematografica
con un interoculare più piccolo di 65mm con il risultato che
l’immagine appare molto più grande ad un esser umano.
• Fattore di rotondità: supponiamo che sia filmata una sfera
attraverso una camera stereoscopica. Quando questa viene riprodotta, il fattore di rotondità rappresenta il rapporto tra la
sua profondità apparente e la sua larghezza apparente. A seconda del valore di questo fattore la sfera apparirà come un disco
o come uno sferoide. La particolarità sta nel fatto che questo
fattore dipende dalla posizione dell’oggetto nello spazio.
• Disparità: rappresenta la differenza di posizione tra la proiezione di un punto 3D nell’immagine/retina destra e quella
sinistra. Nella maggior parte delle disposizioni stereo, questo
valore è solamente orizzontale.
• Piano dello schermo: rappresenta la posizione nello spazio
dove è posta la superficie di proiezione, supponendola planare.
• Vergenza, convergenza, divergenza: l’angolo formato dagli
assi ottici dei due occhi nella visione binoculare. L’asse ottico
è la linea 3D corrispondente alla linea-di-vista del centro della
fovea. Questo può essere positivo (convergenza) o negativo
(divergenza).
• Piano di convergenza: il piano verticale parallelo allo schermo contenente il punto cui in cui i due occhi stanno guardando. Se questo è di fronte allo schermo, l’oggetto sembra posto di fronte allo schermo. Utilizzando la camera, il piano di
convergenza è anche il piano a disparità 0.
• Arco di proscenio: rappresenta la profondità percepita dei
bordi dello schermo.
7.2
Il processo stereo
La produzione di pellicole 3D condivide con lo standard 2D diverse
fasi di produzione. Alcune tecniche di computer vision e computer
44
graphics possono essere utilizzate in maniera identica o con qualche
piccola modifica. Altre tecniche invece sono specifiche della produzione stereoscopica e non sono presenti nella produzione 2D. Alcuni di questi processi sono: la correzione geometrica necessaria per
problemi di affaticamento visivo dovuto a disallineamento; bilanciamento del colore tra le immagini di destra e di sinistra; adattamento della proiezione alla dimensione dello schermo; cambiamenti 3D
locali necessari per modificare i contenuti della scena 3D; adattamento della distanza di proiezione; composizione dello scenario con
elementi virtuali. Ciascuno di questi processi rende la cinematografia possibile, con aggiustamenti e modifiche alla ripresa che rendono
le distanze e le misure interessate del valore richiesto.
7.3
Percezione tridimensionale e affaticamento visivo.
Nel tradizionale cinema, finchè il risultato è un film 2D, quasi tutto può essere filmato e riprodotto senza nessun tipo di problema
o effetto sulla “salute” visiva dello spettatore, ed il regista è completamente libero di scegliere che cosa mostrare allo spettatore o
meno. Il risultato apparirà come una figura in movimento su di un
piano posto ad una certa distanza dallo spettatore rendendo il tutto
fisicamente plausibile. Con il cinema stereoscopico tuttavia, le due
immagini necessitano essere mutuamente consistenti, cosi che una
scena 3D, reale o virtuale, possa essere ricostruita dal cervello umano. Questo implica forti vincoli per quanto riguarda la geometria e
la fotometria tra le immagini proiettate all’occhio destro e a quello
sinistro al fine di percepire la scena in maniera esatta e cosi che il
sistema visivo umano non sia affaticato eccessivamente per il processo di ricostruzione della scena. Essendo inoltre la percezione 3D
l’elemento più importante nell’ambito dei film stereoscopici, è necessario capire quale sia la differenza tra le features visuali, definita
dalla percezione della profondità. Queste features sono dette Cues
di profondità e, al di là di ogni aspettativa, queste sono monoscopiche e si possono visualizzare anche osservando le immagini 2D. La
stereoscopia è solamente una delle cue di profondità tra tante altre,
ma senz’altro risulta essere la più complessa. Lo stereografo Phil
Streather, ha detto: “Un buon 3D non è solamente la definizione di
un buon background. E’ necessario prestare attenzione a tutte le 7
cues monoculari.”
45
7.3.1
Sorgenti di affaticamento visivo
L’affaticamento visivo è probabilmente il punto più importate da
considerare nell’ambito del cinema stereoscopico. I primi film stereoscopici risultavano spesso una pessima esperienza visiva. Ukai e
Howarth hanno sviluppato uno studio riguardo l’affaticamento visivo causato dalla vista di film stereoscopici [25]. I sintomi di questo
stato sono mal di testa, assonnamento e arrossamento degli occhi.
Ma anche sintomi non visibili quali ad esempio la perturbazione del
sistema visivo-motore. Ukai and Howarth riportano anche di un
caso in cui un bambino fu danneggiato permanentemente nelle sue
capacità visivo-motorie proprio a causa della visione di un film stereoscopico. Le fonti di affaticamento visivo sono specifiche del moto
stereoscopico e hanno spesso origine nelle asimmetrie binoculari, i.e
differenze fotometriche o geometriche tra le immagini percepite dalla retina destra e dalla sinistra. Importati studi a riguardo hanno
riportato quali siano i valori soglia che portano a questo affaticamento indicando nelle disparità verticali una colpa maggiore. Le
cause principali di questo problema sono principalmente le seguenti:
• Cross-talk: problema presente principalmente in sistemi con
singolo schermo in cui una piccola frazione dell’intensità dell’immagine destra è percepita dall’occhio sinistro e vice-versa;
• Rottura della regola del proscenio: si ha nel momento in cui vi
è un errore di interposizione tra le immagini stereoscopiche e
gli archi del display;
• Disparità orizzontale/verticale: problema dovuto ad una disparità orizzontale/verticale maggiore dei limiti dell’occhio
• Conflitti di convergenza-divergenza: occorrono quando la distanza focale degli occhi non è consistenze con l’angolo di vergenza.
Le asimmetrie geometriche sono molto spesso causate o da un
disallineamento o da una differenza tra l’ottica del sistema di telecamere o tra quello del sistema di proiezione(figura 13)
46
Figura 13: Alcuni esempi di asimmetrie geometriche: a) shift verticale, b) differenza di dimensione o di ingrandimento, c) differenza di distorsione, d) distorsione trapezoidale a causa di convergenza nelle telecamere, e) shift orizzontale.
Tratto da [25]
7.4
7.4.1
Trovare la giusta geometria della ripresa
Il punto di vista di Spottiswoode
Il lavoro di Spottiswoode et al. [26] rappresenta il primo e vero
saggio nell’ambito della percezione geometrica nel cinema stereoscopico. Ciò che mostrano è come la profondità sia distorta attraverso
la “proiezione stereoscopica” e come raggiungere “continuità”, o fare in modo che ci sia una transizione graduale della profondità nel
passaggio da una immagine stereoscopica ad un’altra.
Affermano inoltre che tutti i parametri stereoscopici debbano essere
adattati o durante la ripresa o in fase di post-production a seconda
della dimensione dello schermo e per raggiungere l’effetto desiderato.
In accordo con il loro lavoro il parametro stereoscopico principale è
il fattore di vicinanza N, definito come il rapporto tra la distanza di
vista dallo schermo e la distanza tra le immagini “combinate”. La
continuità spaziale è ottenuta attraverso il lento spostamento per
pochi secondi delle immagini in direzione orizzontale prima o dopo
i cambi. Lo spettatore non nota questo spostamento; l’angolo di
convergenza è infatti adattato al sistema visivo umano e la percezione di profondità persiste. La soluzione proposta da Spottiswoode
è una soluzione completamente matematica che in qualche modo
limita i registi. Il maggior problema della soluzione proposta sta
infatti nel fatto che l’artista è costretto dalla matematica nella sua
creazione; la cinematografia è sempre stata un arte libera, con leggi
leggere. Tuttavia i vincoli del cinema 3D risultano molto più stretti di quelli 2D e questo è dovuto ai problemi che possono nascere
47
da una errata ripresa 3D. Una pessima produzione 3D può anche
risultare un ottimo film 2D, ma aggiungendo la dimensione stereoscopica è necessario anche modificare la qualità del film. La teoria
di Spottiswoode tuttavia porta con se alcuni problemi tra i quali:
• La parametrizzazione per il fattore di vicinanza nasconde il
fatto che distorsioni di profondità e di dimensione possano
verificarsi in alcuni casi, specialmente per punti lontani.
• La divergenza all’infinito compare spesso nello shift delle immagini utilizzato per la continuità spaziale.
• Lo shifting delle immagini può rompere il vincolo di convergenza e portare ad un affaticamento visivo.
7.4.2
Ripresa e vista di geometrie
Il problema maggiormente sottolineato da Spottiswoode è il fatto che
proiettando la ripresa su schermi di diversa dimensione e distanza,
si ha una diversa percezione della profondità da proiezione a proiezione. Una delle prime soluzioni al problema, tra le più evidenti, fu
quella di adottare una ripresa attraverso due camere, e ri-proiettare
le riprese attraverso due proiettori aventi un interoculare simile a
quello umano, cosi da mostrare i punti all’infinito esattamente all’infinito e con divergenza 0. Questa soluzione non è però sempre
applicabile o auspicabile per gli standard dei film stereoscopici. Non
solo infatti richiedono ambienti appositamente definiti, ma in certi
casi è necessario avere ad esempio una convergenza non nulla.
E’ possibile studiare la causa di queste distorsioni dal punto di vista
geometrico. In generale è possibile rappresentare il setup stereoscopico completo solamente con una serie di semplici parametri. La
figura 14 mostra quali siano questi parametri. La particolarità di
questo modello è la semplicità che questo introduce nel suo effetto
per la distorsione. Questo modello assume che le immagini siano
state rettificate, e che quindi il sistema non presenti distorsioni verticali cosı̀ che il piano di convergenza, il piano a disparità 0, sia
verticale e parallelo alla linea che unisce i centri ottici delle camere.
Sotto questa ipotesi si ha che le distorsioni 3D percepite nascono da
differenti ingrandimenti secondo direzioni fronto-parallele.
Siano b, W, H, Z i parametri di camera stereoscopici e b0 , W 0 , H 0 , Z 0
48
i parametri della vista come in figura 14, d la disparità nell’immagine. Sia inoltre d0 la disparità nel display di proiezione tale che
d0 = d + d0 dove d0 rappresenta il possibile shift tra le immagini.
Figura 14: Descrizione della geometria della ripresa e della proiezione attraverso
i parametri.
I triangoli M P M 0 e CP C 0 sono omotetici, di conseguenza :
Z −H
W
b Z −H
H
=
d ⇒ d=
·
o Z=
(1)
Z
b
W
Z
1 − Wb d
Ciò vale sia per la geometria della ripresa che per quella della
proiezione. Da queste è possibile calcolare la disparità d e la reale
profondità Z :
b Z −H
·
(2)
W
Z
Si ottiene allora una profondità Z 0 percepita a partire dalla disparità
d0 definita da
d=
H0
(3)
1 − (d + d0 )
che porta, eliminando la disparità da entrambe le equazioni, a:
Z0 =
Z0 =
H0
1−
W 0 b Z−H
(
b0 W Z
+ d0 )
W0
b0
o
Z=
49
H
1−
W b0 Z 0 −H 0
(
b W 0 Z0
+ d0 )
(4)
7.4.3
La distorsione in profondità
Analizziamo adesso meglio la distorsione che si ha a partire dalla
profondità percepita. In generale, i punti all’infinito (Z → +∞)
sono percepiti come
H0
Z0 =
(5)
0
1 − Wb0 (d + d0 )
L’occhio percepisce la divergenza quando Z 0 diventa negativo. Gli
occhi “divergono” quando guardando alla scena, i punti all’infinito
0
(Z → +∞) sono tali che: Wb 0 < Wb + d0 . In questo caso la profondità
reale mappata su Z 0 = ∞ può essere calcolata come
1
Z0 =
(6)
W b0
1 − b ( W 0 − d0 )
cosi che tutti gli oggetti posti a questa distanza provochino diver0
genza. La relazione tra Z e Z 0 è non lineare, eccetto se Wb = Wb0
e d0 = 0. La situazione in cui questo succede è definita dal setup
canonico. In questo caso, la relazione tra Z e Z 0 si semplifica a:
H0
W
W0
0
Z =Z
Setupcanonico :
= 0 , d0 = 0
(7)
H
b
b
A partire dalla configurazione canonica possiamo capire quali e come
siano fatte le distorsioni in profondità. La modifica del parametro b
soltanto porta al problema dell’hyperstereo e hypostereo: il fattore
di rotondità negli oggetti all’interno dello schermo varia da valori
troppo alti a valori troppo bassi. Supponiamo adesso che il soggetto
ripreso si stia allontanando dalla telecamera e supponiamo di voler
mantenere la sua dimensione costante, regolando zoom e convergenza(i.e W rimanga costante). Per mantenere il fattore di rotondità
dell’oggetto costante, è necessario mantenere il fattore interoculare b proporzionale alla distanza dell’oggetto H. Quello che succede
è che l’ingrandimento di profondità o il fattore di rotondità vicino
al piano dello schermo rimane uguale ad 1, ma la profondità degli
oggetti fuori dallo schermo è distorta.[27]
7.5
La post-produzione nei film stereoscopici
Ripreso un film attraverso una tecnica stereoscopica, nella fase di
post-produzione il film non viene adattato alle condizioni giuste per
la sua visualizzazione perche:
50
• La distanza dallo schermo di proiezione, e la sua dimensione
sono differenti da luogo di proiezione a luogo di proiezione. Ne
risulta quindi un distinto fattore di rotondità da sistemare.
• Uno schermo di proiezione di grandezza maggiore di quella
aspettata porterebbe ad una divergenza causata dai punti all’infinito.
• Vincoli sulla posizione della camera potrebbero causare forti
disparità, divergenze.
• La camera stereoscopica non è parametrizzata opportunamente
durante la ripresa.
Teoricamente, modificare i parametri di ripresa della camera è
possibile anche in fase di post-produzione, anche se questo necessità di tecniche e algoritmi avanzati di computer vision e computer
graphics. A partire inoltre dalla concezione che è possibile ricavare
la struttura 3D attraverso tecniche di visione, certi processi di post
produzione possono essere effettuati attraverso tecniche di computer
vision.
7.5.1
Eliminazione della disparità verticale: Rettifica dei film stereoscopici
La disparità verticale è una delle principali cause di affaticamento
visivo, e nasce da un disallineamento delle camere o dei centri ottici
o da una loro errata configurazione. In Computer Vision, la ricostruzione 3D da immagini stereoscopiche avviene solitamente attraverso
una trasformazione delle immagini originali. Questa trasformazione
è definita come rettifica ed è una deformazione 2D dell’immagine
attraverso l’allineamento di punti di match. La rettifica di coppie
di immagini stereoscopiche è solitamente effettuata attraverso il calcolo della geometria epipolare del sistema di camere stereoscopico
[28],[29]. Conoscendo la geometria epipolare è possibile mappare
punti di un immagine su rette o curve nell’altra immagine che è la
proiezione attraverso il raggio ottico del punto nell’immagine.
La rettifica di una singola immagine acquisita in laboratorio con certe caratteristiche e la rettifica di immagini stereoscopiche provenienti
da una ripresa cinematografica non sono esattamente lo stesso task.
Nel caso dell’ambito cinematografico infatti il processo di rettifica
possiede i seguenti vincoli:
51
• Deve essere in grado di funzionare anche senza conoscenza
dei parametri della camera stereoscopica, dato che queste informazioni non sono sempre disponibili perchè perse o non
fruibili.
• Non deve richiedere pattern di calibrazione dato che la gamma
di configurazioni della camera richiederebbero troppi differenti
pattern di calibrazione calibrazioni di diversa dimensione della
griglia.
• Il rapporto delle distanze nell’immagine rettificata deve essere
quanto più vicina a quello dell’immagine originale
• L’immagine rettificata deve riempire completamente il frame;
non sono tollerate aree “nere” o “sconosciute”.
• La rettifica dell’intero film deve essere liscia in modo che parametri di rettifica siano calcolati un unica volta, o comunque
con una leggera variazione nel tempo.
• I parametri di camera(lunghezza focale, focus) e quelli di tutta l’attrezzatura(interoculare, vergenza) devono essere fissati
durante la ripresa, o possono avere al massimo una leggera
variazione.
• Le immagini possono avere qualità artistiche difficili da mantenere con gli algoritmi di computer vision.
Gli algoritmi sviluppati per la rettifica di immagini di riprese
stereoscopiche sono numerosi e tutti quanti possiedono caratteristiche basilari per una corretta rettifica. Molti sono i centri e le
aziende che si occupano di correzioni e post-processing per riprese
stereoscopiche. Tra le pi importanti citiamo The Foundry[30].
7.6
Conclusioni
Il mondo del cinema 3D si sta sviluppando ad un notevole velocità,
forte del successo avuto sia in ambito cinematografico, sia per quanto riguarda i display dei televisori. Questo mercato particolarmente
fruttuoso è si spinto dalla moda del momento e dalle sue affascinanti
caratteristiche, ma anche dal continuo sviluppo di tecniche per ridurre al minimo i problemi di affaticamento della vista e per rendere
52
questo tipo di riproduzione il meno vincolata possibile a display, occhiali e distanze.
Inoltre è nato un nuovo mercato in campo di fotografia stereoscopica anche in campo privato. Nel 2009 infatti la Fuji ha realizzato
la prima fotocamera binoculare stereoscopica con applicazione di
cornice stereoscopica automatica. Questa attività promette quindi interessanti sviluppi della vista stereoscopica e di dispositivi che
costruiscano in maniera adeguata modelli 3D per la modellazione
dei contenuti stereoscopici. L’ambito della visione stereoscopica in
Computer Vision risulta vivo più che mai.
53
8
Centri di ricerca e pionieri della computer vision cinematografica
Vista la sempre crescente richiesta di tecniche di visione, sia in merito cinematografico che non, dagli anni 80’ in poi si sono sviluppati
numerosi centri di ricerca sia in ambito universitario che aziendale.
Come indicato in precedenza, non è corretto definire il contributo visione/cinema a senso unico. Molte delle tecniche sviluppate infatti
non esisterebbero se il mondo cinematografico non si fosse accorto
del potenziale della disciplina e non vi avesse investito. E non è
neppure sorprendente il fatto che alcuni dei centri di ricerca ad oggi
più attivi e producenti siano parte di aziende del cinema.
Sebbene molto spesso visione e grafica si mescolino in questi centri di ricerca, visto il contesto e il tempo, si può affermare con una
certa certezza che la maggior parte della ricerca sia oggi riguardante la visione. Tra i centri di ricerca più importanti e longevi, nato
negli anni 30’ come struttura di ricerca cinematografica, troviamo
il centro della Disney. I lavori prodotti in merito alla visione sono
conosciuti in tutto il mondo e qui troviamo alcuni dei pionieri in
materia [31].
Tra i centri di ricerca cinematografica molto più giovane, troviamo
quello della Pixar. Sebbene fondato solamente negli anni 90, es anche se specializzato principalmente nell’ambito dell’animazione(ed
in tutto quello che comporta), è particolarmente fruttifero ed importante [32].
Sebbene di importanza assoluta, i centri di ricerca universitari concentrano il loro lavoro sulla visione in generale; solo in alcuni casi
si specificano nella ricerca di una soluzione ad un problema vero e
proprio. L’altro importante e diretto contributo alla cinematografia
proviene quindi da aziende specifiche impegnate esclusivamente nello studio e nella realizzazione di tecniche di visione da applicare al
mondo del cinema. Tra le compagnie più importanti è sicuramente presente 2d3 [33], Mocha [34], e Mova [35]. Queste importanti
aziende non solamente hanno prodotto tecniche di computer vision
di estremo interesse per tutta la comunità, ma hanno rilasciato anche
software estremamente utilizzati nelle produzioni cinematografiche.
Menzionare tutte le aziende ed i centri limita la visione effettiva delle persone che lavorano in questo campo. Non è possibile tuttavia
non menzionare uno dei pionieri della computer vision in ambito
54
cinematografico. Paul Debevec [36] ha partecipato ad un numero
enorme di lavori riguardanti la visione applicata a temi particolarmente cari al cinema. Nella sua pagina web è possibile visualizzare
non solamente tutti i progetti a cui ha partecipato, ma anche tutte
le categorie di tecniche a cui a preso parte.
55
9
Conclusioni
Questo lavoro, senz’altro non esaustivo, ha cercato di porre una panoramica sull’importanza di una disciplina quale la computer vision
nel mondo cinematografico. È stata illustrata l’evoluzione della cinematografia e sono stati presentati alcuni dei temi e degli ambiti
in cui la computer vision è maggiormente applicata. Ovviamente
non si tratta di parti del cinema che fanno del regista un artista
(stesura della storia, scrittura delle battute, scelta degli attori), ma
solamente quegli aspetti legati al mondo dei computer e alla parte
della produzione cinematografica quale l’editing ed il post processing. È stato illustrato come le tecniche di visione possano oggi
risolvere alcuni dei problemi intrinseci nella cinematografia e come
attraverso questa disciplina si possa migliorare la qualità visiva di
una produzione e la sua realtà. Come si è potuto apprezzare la computer vision porta la finzione cinematografica a tangere la realtà, con
un audience sempre meno consapevole di quali effetti siano reali e
di quali siano frutto del lavoro del computer. Si tratta ancora di
una disciplina molto giovane che deve crescere, ma vista la sempre
maggiore richiesta e visto il continuo miglioramento dei dispositivi
di calcolo, sta prendendo sempre più piede, sia in ambiti “limitati”
quali quello della cinematografia, sia in ambiti molto più comuni.
56
Riferimenti bibliografici
[1] Jaramillo, Deborah. History of Cinema. Boston University, Boston, Massachusetts, United States. (2010, October
4)
[2] Thompson, Kristin and David Bordwell. (2010). Film
History: An Introduction. New York, NY: McGraw-Hill
[3] Szeliski, Richard. Computer Vision: Algorithms and
Applications. September 3, 2010. Springer
[4] Debevec, P., C. Taylar, J. Malik.“Modeling and Rendering Architecture from Photographs: A hybrid geometryand image-based approach,” Computer Graphics, August
1996
[5] Debevec, P.“Image-Based 3D Modeling,” Computer
Graphics, 33(4) November 1999.
[6] Bogart, Rod. “View Correlation,” Graphics Gems II, J.
Arvo, Editor, Academic Press, 1991.
[7] Faugeras, O. Three-Dimensional Computer Vision, MIT
Press, 1993.
[8] Mortensen, E. Vision-Assisted Image Editing, Computer
Graphics, 33(4) November 1999
[9] http://www.filmsite.org
[10] Terzopoulos, D., A. Witkin and M. Kass. “Constraints on
deformable models: Recovering 3D shape and nonrigid
motion,” Artificial Intelligence, 36(1):91-123, 1988
[11] Terzopoulos, D. and A. Witkin. “Physically-based models
with rigid and deformable components,” IEEE Computer
Graphics and Applications, 8(6):41-51, 1988
[12] Lee, Y., D. Terzopoulos, K. Waters. “Realistic facial modeling for animation,” Computer Graphics, Los Angeles,
CA, August 1995, p. 55-62.
57
[13] Sifakis, E., Neverov, I., Fedkiw, R.:Automatic determination of facial muscle activations from sparse motion
capture marker data. ACM Trans. Graph. 24(3), 417425
(2005)
[14] T Beeler, B Bickel, P Beardsley, B Sumner, M Gross.
High-Quality Single-Shot Capture of Facial Geometry.
ACM Trans. on Graphics, 2010
[15] N Ersotelos, F Dong. Building highly realistic facial modeling and animation: a survey. The Visual Computer,
2008 - Springer
[16] T.B. Moeslund, E. Granum, A survey of computer visionbased human motion capture, Computer Vision and
Image Understanding. (2001)
[17] T.B. Moeslund, A. Hilton, V. Kruger. A survey of
advances in vision-based human motion capture and
analysis.
[18] P. Mistry, P. Maes, and L. Chang. WUW -wear ur world:
a wearable gestural interface. In [119], pp. 41114116. D.
Mizell. Boeings wire bundle assembly project.
[19] http://www.scientificamerican.com/article.cfm?id=hologramphotoreflective-polymer-film
[20] Ennos AE, Virdee MS (1982) High accuracy profile
measurement of quasi-conical mirror surfaces by laser
autocollimation. Precis Eng 4(1):58
[21] http://www.holografia.wz.cz/holography/
[22] D.W.F. van Krevelen, R. Poelman. A Survey of Augmented Reality Technologies, Applications and Limitations.
The International Journal of Virtual Reality, 2010
[23] Vincent Lepetit. On Computer Vision for Augmented Reality. Ecole Polytechnique Federale de Lausanne
(EPFL). Computer Vision Laboratory
[24] Hummel, R.: 3-D cinematography. American Cinematographer Manual, pp. 5263. American Society of
Cinematographers, Hollywood, CA (2008)
58
[25] Ukai, K., Howarth, P.A.: Visual fatigue caused
by viewing stereoscopic motion images: background,
theories, and observations. Displays 29(2), 106116 (2007)
[26] Spottiswoode,
R.,
Spottiswoode,
N.L.,
Smith,
C.:
Basic
principles
of
the
threedimensional film. SMPTE J. 59, 249286 (1952).
http://www.archive.org/details/journalofsociety59socirich
[27] Rèmi Ronfard, Gabriel Taubin. 3-D Cinematography
Processing for Image and Geometry.
[28] Barreto, J.P., Daniilidis, K.: Fundamental matrix for
cameras with radial distortion. In: Proc. ICCV (2005).
doi:10.1109/ICCV.2005.103.
[29] Hartley, R., Zisserman, A.: Multiple-View Geometry in Computer Vision. Cambridge University Press,
Cambridge (2000)
[30] http://www.thefoundry.co.uk
[31] http://www.disneyresearch.com/research/computer vision.htm
[32] http://graphics.pixar.com/
[33] http://www.2d3.com
[34] http://www.imagineersystems.com/
[35] http://www.mova.com/
[36] http://www.pauldebevec.com/
59