Studio sulle tecniche di Computer Vision adottate negli anni nell’ambiente cinematografico Marco Ciabini [email protected] 5 marzo 2013 1 Indice 1 Introduzione 4 2 Excursus Storico 2.1 L’evoluzione della Computer graphics . . . . . . . . . . . . . . . . 2.2 L’evoluzione della Computer Vision . . . . . . . . . . . . . . . . 2.3 Evoluzione della tecnologia cinematografica . . . . . . . . . . . . 6 6 7 8 3 Il mondo dell’animazione 3.1 Lo sviluppo dell’animazione . . . . . . . . . . . . . . . . . 3.2 Modelli visuali per l’animazione: la visione e la grafica . . 3.2.1 La Visione incontra la Grafica . . . . . . . . . . . . 3.2.2 Riproduzione dei volti . . . . . . . . . . . . . . . . 3.3 Animazione dall’osservazione: cattura ed editing del moto 3.3.1 Cattura del moto vs. Animazione dall’osservazione 3.3.2 Cattura del moto per l’animazione . . . . . . . . . 3.3.3 Computer Vision e Motion Capture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 14 15 17 21 21 22 25 4 Visione nei film ed effetti speciali 4.1 Gli elementi basilari . . . . . . . . . . . 4.2 Le basi del tracking 3D . . . . . . . . . 4.3 Problemi dovuti alla camera . . . . . . . 4.4 Problemi generici . . . . . . . . . . . . . 4.5 Traking 2D . . . . . . . . . . . . . . . . 4.6 Tracking 3D con assenza di informazioni 4.7 Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 29 29 30 31 32 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Le olografie 33 5.1 Il funzionamento dell’olografia . . . . . . . . . . . . . . . . . . . . 34 6 La realtà aumentata 37 6.1 Computer vision e la realtà aumentata . . . . . . . . . . . . . . . 39 7 Il cinema 3D 7.1 La cinematografia 3D . . . . . . . . . . . . . . . . . . . 7.1.1 Cinema Stereoscopico, Cinema 3D . . . . . . . . 7.1.2 Computer Vision, Computer graphics, e Cinema scopico . . . . . . . . . . . . . . . . . . . . . . . 7.2 Il processo stereo . . . . . . . . . . . . . . . . . . . . . . 7.3 Percezione tridimensionale e affaticamento visivo. . . . . 7.3.1 Sorgenti di affaticamento visivo . . . . . . . . . . 7.4 Trovare la giusta geometria della ripresa . . . . . . . . . 7.4.1 Il punto di vista di Spottiswoode . . . . . . . . . 7.4.2 Ripresa e vista di geometrie . . . . . . . . . . . . 7.4.3 La distorsione in profondità . . . . . . . . . . . . 2 . . . . . . . . . . Stereo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 42 42 43 44 45 46 47 47 48 50 7.5 7.6 La post-produzione nei film stereoscopici . . . 7.5.1 Eliminazione della disparità verticale: stereoscopici . . . . . . . . . . . . . . Conclusioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rettifica dei film . . . . . . . . . . . . . . . . . . . . . . 50 51 52 8 Centri di ricerca e pionieri della computer vision cinematografica 54 9 Conclusioni 56 3 1 Introduzione Quando tra 1889 e il 1895 furono presentate rispettivamente il Kinetograph, il Kinetoscopio a cura di Thomas Edison e la cinèmatographe da parte dei fratelli Louis e Auguste Lumière, probabilmente nessuno di coloro che assistette alla presentazione poteva immaginarsi quello che la cinematografia sarebbe giunta a fare e quale impatto questa avrebbe avuto sulla cultura moderna. Gli stessi fratelli Lumiere non intuirono il potenziale di questo strumento come mezzo per fare spettacolo, considerandolo esclusivamente a fini documentaristici, senza per questo sminuirne l’importanza, tanto che si rifiutarono di vendere le loro macchine, limitandosi a darle in locazione. Con lo scorrere degli anni, fin dalla costruzione del primo studio cinematografico (Black Maria) nel 1892, la cinematografia si è fatta portavoce di informazioni, di cultura e di valori da trasmettere nell’arco delle proiezioni. Da sempre inoltre ha attinto alle fonti di varie discipline per rendere la proiezione sempre più emozionante, realistica e spettacolare. Il suo appoggiarsi a ambiti quali quello informatico e quello elettronico ha reso possibile un cinema che riesce a coinvolgere l’audience a 360 gradi e che ha assottigliato notevolmente la distanza tra la realtà e la finzione cinematografica. A titolo del tutto generale possiamo affermare che l’evoluzione cinematografica è sempre andata di pari passo con il continuo svilupparsi della tecnologia. Quest’ultima infatti, accesa e spinta dall’iniziativa e dall’inventiva umana, ha costantemente concesso ai filmmakers di produrre lavori sempre più complessi per la rappresentazione di storie sempre più intricate. Senza l’evoluzione degli strumenti non sarebbe infatti stato possibile lo sviluppo di distinti stili, movimenti e metodi di produzione cinematografica. Tuttavia, mentre la progressione tecnologica è stata lineare, questa non ha coinciso con una similare evoluzione della qualità cinematografica; l’abilità di un regista infatti non dovrebbe essere giudicata dalla complessità tecnologica della produzione, ma dalla capacità dello stesso di brandire gli strumenti del tempo e della sua abilità nella trasmissione in modo efficace e chiaro della narrazione o nell’evocare un’emozione. Possiamo quindi affermare che è la capacità del regista di utilizzare efficacemente e sapientemente questa tecnologia all’interno di un contesto temporale e sociale che ha spinto e spinge 4 tuttora la qualità cinematografica, di cui non vi è stata una chiara progressione lineare. Con il progresso nella struttura del cinema, la tecnologia ha sempre di più inciso nella qualità e negli strumenti, dalle camere al sound, dal recording all’editing. Ovviamente miglior tecnologia non vuol dire migliori film, ma solamente vantaggio, in quanto questa amplia il set di strumenti a disposizione del regista, da cui lui o lei può attingere in ambito di attrezzature e tecniche, scegliendo i più adatti ad una determinata produzione. [1] Se da un lato l’evoluzione degli strumenti elettronici ha concesso la registrazione di pellicole (ormai sempre meno usate per l’avvento del digitale) con una qualità talmente elevata da mostrare un dettaglio pari alla percezione umana, lo sviluppo di tecnologie di editing e di post-processing ha consentito di rappresentare situazioni, scenari e oggetti altrimenti impossibili da mostrare. Discipline quali la Computer Graphics e la Computer Vision hanno reso reale la fantasia dei registi. 5 2 Excursus Storico Come abbiamo indicato la tecnologia è stata di grande aiuto all’ambiente cinematografico, anche secondo quegli aspetti non proprio nativi dell’ambito del cinema. Se quindi da un lato alcuni strumenti sono nati propriamente per la ripresa di scene o per la loro registrazione, numerose sono le tecnologie di cui l’ambiente cinematografico ha fatto uso per rendere il prodotto sempre migliore. Appoggiandosi al potenziale dei computer, e del loro continuo miglioramento, è stato possibile, soprattutto negli ultimi anni, creare un prodotto in cui la finzione della trama fosse riprodotta con una realtà dei dettagli cosı̀ da rendere la linea di separazione sempre più labile. Il contributo maggiore che in assoluto il cinema ha ricevuto affiancandosi all’evoluzione dei calcolatori, è stato ed è tuttora quello dato delle discipline della Computer graphics e della Computer Vision. Dalla sua nascita in poi infatti il mondo cinematografico ha migliorato cosı̀ tanto le apparecchiature di ripresa, da necessitare di una fase di editing e post-processing all’altezza. Con l’aiuto della grafica fin dagli anni ’60-’70, e della visione a partire dagli anni ’90, si è reso possibile il passaggio da un prodotto comunque non privo di difetti, a riprese quasi perfette e spettacolari. Rappresentare questo contributo a senso unico tuttavia non è del tutto corretto. Se infatti da un lato il cinema ha usufruito delle tecniche sviluppate da una certa disciplina, non minore è stata l’importanza del cinema nello sviluppo di questi approcci. Da quando infatti si è compreso che in qualche modo queste tecniche potessero essere di successo in ambito cinematografico, l’investimento da parte dei grandi pilastri del cinema non è stato di certo irrisorio. Numerosi sono infatti oggi i centri di ricerca ideati e finanziati dalle grandi case cinematografiche. 2.1 L’evoluzione della Computer graphics Il 1963 è da considerarsi un anno particolarmente importante nell’ambito dell’evoluzione informatica. Il lavoro di Ivan Sutherland è infatti considerato come la nascita della Computer graphics. Nella sua tesi di dottorato Sutherland mostra come sia possibile interagire con un calcolatore per disegnare linee su di un classico monitor catodico. La rivoluzione proposta dal suo lavoro non si limitava a riportare elementi a schermo, bensı̀ a fornire la possibilità di una 6 interazione uomo macchina per la rappresentazione di elementi grafici. Ed è proprio grazie al suo lavoro che si sono comprese le reali potenzialità offerte dalla computer graphics. Lo sviluppo della disciplina tuttavia ha percorso un tragitto particolarmente lento e tortuoso. Tre sono stati principalmente i motivi di questa bassa velocità di avanzamento: • l’alta richiesta di capacità di memoria e potenza di calcolo; • la mancanza di consapevolezza della necessità di software per la generazione di immagini sviluppati per sistemi di computer graphics; • sottostima della complessità sia dei sistemi software che delle applicazioni. Fortunatamente, come successo per molti altre innovazioni tecnologiche, la grafica è stata favorita dal tempo. Il costo dei computer è andato calando, mentre il lavoro e lo studio fatto è andato crescendo. I sistemi operativi sono stati migliorati, e la nostra capacità di risolvere problemi con il software complesso è divenuta più sofisticata. Impressionante è stato il progresso fatto nello sviluppo di algoritmi per generare immagini, in particolare quelli destinati alla rappresentazione di viste di oggetti tridimensionali. L’ambiente della computer graphics basa il suo funzionamento sia sulla tecnologia hardware che sul software. Sebbene in un primo momento l’attenzione sia stata posta sull’hardware, oggi l’interesse più grande è rivolto alle tecnologie software. Con la consapevolezza che l’industria della grafica avrebbe avuto un notevole successo, fin dagli anni ’70 i centri di ricerca e le aziende interessate sono aumentate, cosı̀ come sono incrementati gli investimenti, cosı̀ da rendere la grafica quello che è oggi. In particolar modo anche le aziende cinematografiche hanno iniziato ad investire con dei loro specifici centri specializzati, cosı̀ da presentarsi sempre in prima linea per ogni innovazione. 2.2 L’evoluzione della Computer Vision Quando nel 1970 per la prima volta si parlò di Computer Vision si iniziò immediatamente a pensare alla visione come un elemento importante di un ambizioso programma per imitare l’intelligenza 7 umana e porla in dotazione ai robot. Ancora oggi, pionieri dell’intelligenza artificiale sono convinti che risolvere il problema dell’input visuale sia un semplice passo per la risoluzione successiva di problemi estremamente più complessi. Basandosi su riferimenti storici tuttavia, quando nel 1966, Marvin Minsky all’MIT chiese al suo studente di connettere la sua telecamera al pc e far descrivere al computer stesso ciò che aveva visto attraverso la camera, si rese conto che il problema era molto più complesso di quanto potesse immaginare. Ciò che da subito ha contraddistinto la computer vision dagli altri approcci di analisi delle immagini è stato il desiderio di scoprire la struttura 3D del mondo a partire dalle immagini e di usarla come trampolino di lancio per comprendere tutta la scena. Come per la grafica, anche nel campo della Computer vision si è visto un ingente investimento, forte della vastità di applicazioni e utilizzi che si sarebbe potuto fare di questa disciplina. In primo luogo le università e a ruota le aziende hanno investito nella visione enormi quantità di denaro, al fine di trovare soluzioni a problemi generici non ancora risolti o alternative (in ambito cinematografico ad esempio) che avrebbero ridotto i costi di produzione. Nella prima decade di sviluppo della visione l’approccio fu superficiale e semplicistico. Con l’aumentare della consapevolezza e della conoscenza tuttavia lo studio della struttura dell’ambiente si è sempre maggiormente basato su modelli matematici che hanno condotto a tecniche e tecnologie utili ed avanzate [3]. 2.3 Evoluzione della tecnologia cinematografica Lo sviluppo della cinematografia è sempre stato accompagnato da una forte continua evoluzione della tecnologia. Come abbiamo precedentemente indicato la tecnologia non ha fatto i film, ma ha reso i registi in grado di produrre pellicole sempre più complesse e reali. La tecnologia non è altro che uno strumento in mano agli autori. Ovviamente non si può affermare che non sia stata in qualche modo di aiuto. Ragionando su questa idea, i primi film possedevano caratteristiche naturali, non improntate dalla tecnologia avanzata delle ultime generazioni. I primi film possono essere considerati di preparazione, per come questi presentavano soggetti in un’unica posizione cinema- 8 tica. I primi film di Edison e Dickison erano semplici, presentavano “brevi scorci” di personaggi famosi dello sport o spettacoli acrobatici o di ballerini. Se da un lato la tecnologia primitiva ha limitato la produzione di film, non ne ha limitato la durata, in quanto già con strumenti quali il kinetoscopio si poteva avere una durata non limitata. L’avanzamento della tecnologia quindi da questo punto di vista non ha portato a migliori film, ma a film più dettagliati. Le prime pellicole, che avevano una ripresa a singola scena, hanno dato vita a film quali To the Moon (1902), composto da diverse scene riprese singolarmente e poi riprodotte in sequenza, Cecil B. DeMille The Cheat (1915) che impiegava anche l’editing analitico utilizzando più riprese a distanza diversa per aumentare dettagli. Gli effetti di questo continuo evolvere della tecnologia si mostrarono maggiormente nelle pellicole sovietiche degli anni ’20. La qualità dei film degli inizi non fu dovuta allo sviluppo di tecniche di editing, ma piuttosto da strategie più specifiche quali quelle di montaggio, comprensive di una analisi di questioni temporali, spaziali e grafiche. Mentre i registi sovietici si concentravano sull’editing e su queste tecniche di montaggio si resero conto dell’importanza di una composizione suggestiva all’interno di ogni singolo scatto. Impressionisti ed espressionisti avevano intuito questo fatto ed utilizzavano elementi cinematografici per esternare gli stati interiori ed esteriori dei personaggi. Interpreti di questi movimenti erano portatori di convinzione che il cinema fosse qualcosa a riguardo della photogènie, ovvero quella proprietà che distingue una ripresa cinematografica dalla scena reale. L’enfasi su questa caratteristica a portato gli impressionisti del cinema a sviluppare tecniche di ripresa innovative per esternare la soggettività dei personaggi. L’utilizzo innovativo di questi strumenti, non tanto gli strumenti in sè, hanno condotto ad una maggior chiarezza della narrativa. Questo riflette un chiaro passo evolutivo, guidato dalla facoltà umana e dall’abilità della camera di riprodurre una storia. Sebbene possa sembrare di poco impatto, l’illuminazione è tuttora un elemento importantissimo nella cinematografia. Thompson e Bordwell [2] scrivono: “Per la maggior parte, i film espressionisti usano semplicemente un’illuminazione sulla parte anteriore e sui lati, illuminando la scena in modo uniforme, per sottolineare i legami tra le figure e il decoro”. L’espressionismo porta con se la semplicità tecnologica rivolta ad un certo obiettivo conducendo ad una com9 plessità notevole. L’uso di illuminazione più complessa è sempre stata una cosa voluta, per la creazione di ombre. Anche in questo contesto tuttavia, il miglioramento definito attraverso la tecnologia ha alle spalle l’abilità del regista. L’avvento del suono sincronizzato, utilizzato per la prima volta in The Jazz Singer (Crosland 1927) nella fine degli anni ’20 fu dapprima visto con apprensione da certi critici e direttori. L’adozione del suono è stato probabilmente il passo più importante di sempre nel processo di evoluzione cinematografica. Come per le altre tecnologie, ai suoi albori anche l’audio aveva i suoi limiti. I microfoni inizialmente erano poco sensibili ed anche gli attori avevano mancanze riguardanti la capacità di parlare a tali strumenti in maniera chiara sia da vicino che da lontano. I miglioramenti dei microfoni, della ripresa multi-traccia, ed i metodi di sincronizzazione hanno concesso la possibilità ai registi di utilizzare lo strumento in maniera efficiente. La combinazione di una migliore sincronizzazione audio con le immagini ha aperto a nuove vie precedentemente impensabili. Il film di Fritz Lang M (1931) sfruttava proprio questa possibilità di dialogo udibile. Quello che risulta comunque importante è che l’utilizzo dell’audio non sostituisce la narrazione visiva, e non l’ha sostituita neppure nelle sue prime applicazioni riservando al dialogo il compito di connettere informazioni visive. Il suono non solo ha accompagnato e dettagliato la narrazione visiva, ma da sempre è risultato anche motivo di accompagnamento delle scene. Utilizzare infatti un motivo di accompagnamento nelle scene più significative consente di vivere la scena a 360 gradi. Il suono ha reso le proiezioni uniche ed in certi casi l’audio ha reso possibile il film. Certe narrazioni, private della componente audio risulterebbero decisamente scarse. Se comunque la tecnologia non ha migliorato i film, ma ha solamente messo in grado i registi di utilizzare una tecnologia piuttosto che un‘ altra, di certo non si potrebbe tornare indietro. L’avvento del colore è la seconda grande innovazione nelle produzioni cinematografiche che ha condotto ad una evoluzione pari a quella dovuta all’introduzione del suono. Molti film dell’era del muto utilizzavano un processo di “tintura” che dava un certo tono e colore alle pellicole. Ovviamente non si trattava del Technicolor. Come riportato in [2], il colore consente di avere un’informazione maggiore riguardo alla situazione e rende la scena più chiara allo spettatore, 10 più del utilizzo della photogènie e della messa in scena di Impressionisti ed Espressionisti. In film tra i quali The Great Train Robbery veniva applicato del colore direttamente dalla pellicola dopo aver ripreso il film. Il colore ha iniziato a dare un forte contributo attraverso l’introduzione del Technicolor negli anni 30’, processo diviso in tre fasi per la colorazione. Nonostante questo, non tutti i registi iniziarono immediatamente a produrre film a colori. La motivazione non era ovviamente assente; mentre infatti oggi il colore rende il tutto più realistico e migliore ai nostri occhi, negli anni 30-40 si pensava che un aumento del costo di produzione cinematografica di circa il 30% per l’introduzione del colore non valesse la qualit maggiore della produzione. All’inizio inoltre si associava il colore a momenti fantastici e di spettacolo. Tra i primi film ad introdurre questa tecnologia vi furono The Garden of Allah (1936), The Adventures of Robin Hood (1939), Meet Me in St. Louis (1944). Tre tipologie di produzioni completamente diverse che introducevano questo miglioramento. Come accennato, nei primi tempi non si vedeva nel colore un miglioramento della qualità dei film, tanto che alcuni film dei primi anni ’40 erano ancora girati in bianco e nero. Nonostante questi rari casi in cui si optò per una scelta contraria alla tecnologia, è sempre risultato chiaro che la cinematografia fosse figlia della evoluzione tecnologica. L’evoluzione della tecnologia cinematografica è sempre in continuo movimento. Nuove tecnologie si sono succedute e vengono rapidamente inventate, introdotte, testate e perfezionate tuttora. Se da un lato inoltre l’evoluzione elettronica e meccanica ha portato a strumenti sempre migliori in tutti gli aspetti (dall’audio, a strumenti di ripresa, alle pellicole stesse), si è reso necessario sempre di più avere strumenti software per un editing all’altezza. Negli ultimi tempi inoltre hanno iniziato a prendere campo attrezzature e tecniche per il cinema digitale surclassando le vecchie pellicole. Come successo per le precedenti innovazioni questa nuova tecnologia porta miglioramenti. A differenza dei precedenti cambiamenti per, il passaggio al digitale è un qualcosa di molto più forte e drastico, soprattutto per i puristi della pellicola. Se infatti da un lato alcuni produttori e registi sono entusiasti della cosa, molti direttori della fotografia, cosı̀ come molti registi, designer ed altri professionisti sono spaventati. Gli appassionati di cinema non hanno di che preoccuparsi, perchè nè l’adozione nè il disprezzo di questa nuova tecnologia può porre 11 fine alla qualità cinematografica. Il potere di farlo è esclusivamente nelle mani del regista, la qualità finale dei prodotti dipende quasi esclusivamente dalla sua capacità di utilizzare in modo efficace gli strumenti cinematografici, qualunque essi siano nei prossimi anni, per trasmettere in modo chiaro storie, emozioni, stati d’animo, o idee. 12 3 Il mondo dell’animazione Con il termine Film Animati si intende quella serie di produzioni formate da una serie di disegni, rappresentazioni o illustrazioni fotografate frame per frame. Ciascun frame differisce leggermente dal frame successivo e dal precedente facendo si che, mostrandole in sequenza, diano la sensazione del movimento. Per un numero di frame pari 24 per secondo o superiore la sensazione è quella di un movimento fluido. Le prime animazioni cinematografiche erano composte frame-by-frame e disegnate a mano. Se combinate con un movimento, queste immagini davano la sensazione di vitalità e creavano dinamicità. L’animazione in realtà, non è considerabile come un vero e proprio genere cinematografico, ma come una tecnologia applicabile all’ambito del cinema. 3.1 Lo sviluppo dell’animazione Le prime produzioni di film animati risalgono ai primi anni del 20mo secolo quando il disegnatore di vignette per giornali J. Stuart Blackton disegnò il primo film animato, proiettato poi a singolo frame, 20 frame al secondo. Sebbene di un semplicità estrema, questo evento diede il via ad una serie di ricerche nel campo della animazione che negli ultimi 100 anni hanno portato a miglioramenti impensabili. Nei primi 50-60 anni della sua storia, l’animazione ha visto la sua evoluzione principalmente negli strumenti di proiezione, nelle pellicole di disegno e nella qualità della proiezione. I primi pionieri del genere furono sicuramente i fondatori della Disney che fin dalla sua timida introduzione iniziarono a produrre pellicole. Le prime produzioni, che erano per la qualità della pellicola in bianco e nero, avevano protagonisti disegnati su due dimensioni. Sviluppandosi di pari passo con la tecnologia cinematografica, anche le produzioni animate mancarono nel primo periodo di audio. L’importanza di queste pellicole fu tale che già dai primi anni del secondo decennio del 1900 si produssero film animati disegnati in 3D. Si passò inoltre da li ad altri 10 anni a produzioni a colori, appoggiandosi a pellicole colorate. John Randolph Bray, con la produzione The Debut of Thomas Cat, introdusse il processo Brewster Natural Color con il quale riusci a riprodurre immagini a colori. 10 anni dopo invece fece il suo debutto l’audio, con la pellicola Steamboat 13 Willie prodotta da Walt Disney, in cui fu introdotto un importante lavoro di audio applicato come post-production. La pellicola riportava una delle tante avventure del famoso Mickey Mouse. Il primo e vero film animato completo, più sofisticato degli altri, contenente dettagli, movimenti fluidi, colori ricchi, protagonisti particolareggiati e una trama complessa fu Biancaneve e i sette nani rilasciato dalla Disney nel finire del 1937. Quest’ultima pellicola diede il via ad un insieme di produzioni cinematografiche di forte importanza storica. Gli incassi provenienti da questa serie di animazioni che si susseguirono per tutti gli anni 40 e 50 spinsero non solo la Disney, ma anche altre compagnie ad investire dell’animazione ingenti capitali. La prima innovazione che si ebbe fu con la introduzione della tecnica di dynamation con la quale si riuscivano ad introdurre caratteri estranei nella scena. Dagli anni 70-80 in poi, con l’avvento del digitale e dei computer, il mondo dell’animazione ha iniziato ad appoggiarsi sempre di più a discipline quali la computer graphic o la computer vision. Con la disney sempre in prima linea, la computer vision ha avuto negli anni 80-90 una forte crescita ed ha portato nel modo dell’animazione sempre più realismo. L’animazione cinematografica deve molto anche all’estro di un uomo quale Steve Jobs. Tra il primo ed il suo secondo periodo alla Apple Computer infatti, Jobs si fece voce e finanziatore della Pixar. Con Toy Story nel 1995 la Pixar diede una scossa a tutte le grandi compagnie cinematografiche impegnate nell’ambito dell’animazione mostrando come, attraverso il supporto di calcolatori, si potesse proporre realismo e fluidità al mondo animato. L’animazione tuttavia non ha rappresentato e non rappresenta tuttora un vero e proprio genere cinematografico. E’ piuttosto da considerarsi come una vera e propria tecnica cinematografica applicabile a produzioni completamente animate o a singole parti di film più classici. Numerosi sono gli esempi in cui l’animazione diventa parte integrante di film e consente di rappresentare situazioni altrimenti irrealizzabili.[9] 3.2 Modelli visuali per l’animazione: la visione e la grafica Sebbene grafica e visione abbiano numerosi elementi a comune, è possibile fare un distinzione importante tra le due. La computer 14 graphics è da considerarsi come la risoluzione di problemi in avanti, di sintesi, da modelli a immagini; la visione invece rappresenta la risoluzione di problemi che a partire dalle immagini definiscono un modello, attraverso un processo di analisi inversa. Sebbene distinte, entrambe possono essere di aiuto l’un l’altra e nel complesso complementari nella risoluzione di problemi di varia entità. Tra i problemi che insieme riescono a risolvere compare quello dell’animazione con lo studio riguardante i sistemi visivi di percezione di sistemi reali. Il primo elemento importante da trattare è riposto nel paradigma per cui la computer vision possa essere applicata ad un filmato per acquisire i modelli 3D di oggetti dalle loro immagini. Questi modelli possono in seguito essere animati dinamicamente simulando il comportamento fisico e ricostruendo la scena a partire da quella reale delle immagini. Come vedremo, questo approccio definisce una alternativa all’animazione dei modelli geometrici costruiti manualmente. Secondo ed altrettanto importante aspetto dell’applicazione della computer vision all’animazione sta nella modellazione di facce umane. L’animazione facciale è un topic particolarmente importante dal punto di vista dell’animazione. Recuperare informazioni su elementi del volto e riprodurre elementi funzionali o movimenti biomeccanici attraverso la simulazione consente di riprodurre fedelmente volti umani anche in ambienti e contesti immaginari. 3.2.1 La Visione incontra la Grafica La figura 1 mostra una delle possibili applicazioni di animazione ad oggetti immobili su di una scena reale. L’azione inizia con l’attore che camminando in cucina dispone alcune verdure sul tavolo da cucina. L’idea dell’animazione è quella di “dare vita” a questi elementi nel momento in cui l’attore non c’è più. Vogliamo cercare di dare la possibilità a questi elementi di riprodurre tutti i movimenti e comportamenti che ci potremmo aspettare nella realtà. Una idea di risoluzione per questo tipo di problema è dato da tecniche di visione conosciute con il nome di Modelli deformabili [10]. Sebbene datati, questi modelli consentono nello specifico di ricostruire la forma 3D di oggetti (dei vegetali in questo caso) a partire dalla loro struttura 2D nell’immagine. Il modello definito a partire dalla trasformazione dell’immagine in un’insieme di funzioni potenziale multi-scala. Si tratta di indurre nel modello le forze di 15 (a) Prima immagine (b) Seconda immagine (d) Movimento dei corpi (c) Primo passo di applicazione dell’animazione (e) Termine dell’animazione Figura 1: Rappresentazione di un processo di animazione ad oggetti inanimati. attrazione e vincolare eventuali parti deformabili ad altre, cosi da riuscire a riprodurre un modello 3D. Gli oggetti cosi ricostruiti definiscono modelli elastici, basati su relazioni fisiche. Questi possono allora essere animati simulando le equazioni di moto non rigido che li definiscono e riproducendo movimenti realistici [11]. Con questi modelli e con l’applicazione di eventuali forze esterne quali quella gravitazionale, di interazione e di urto tra le superfici, risulta possibile definire una animazione realistica definendo per certi elementi traiettorie e movimenti coreografici. La sequenza di immagini in figura 1 mostra proprio l’applicazione di questa teoria alle verdure sul tavolo da cucina. Per rendere ancora più reale l’animazione e l’illusione che gli oggetti si muovano veramente si cerca di studiare i movimenti degli oggetti immergendoli in uno spazio reale che riprenda quello già esistente. Nell’esempio della figura lo scopo è quello di illudere chi osserva la scena che le verdure siano immerse nello spazio 3D della cucina e che si muovano in questo a partire da un background che risulta essere piuttosto in 2D. Per ottenere questo effetto, si applica dapprima una tecnica fotogrammetrica di computer vision per la ricostruzione nella scena 3D semplificata a partire dall’immagine 2D di background. Si stima poi il punto di vista delle camera in maniera consistente con quello della scena originaria. In particolare per la stima del punto 16 di vista, uno dei metodi maggiormente usati, si basa il posizionamento di tre piani invisibili nella scena e nella successiva stima dei parametri di camera finchè questi piani non vengono correttamente posizionati nell’immagine. Ovviamente questa stima non è perfetta. Ma l’idea è che attraverso la risoluzione di un problema di minimo si riesca a stimare la posizione della camera con una accuratezza sufficiente. Tecniche di ottimizzazione non sono utilizzate solamente per il calcolo della posizione della camera, ma anche per la stima dei colori, del posizionamento delle luci e di conseguenza delle ombre, cosi da limitare gli aspetti di irrealtà della scena. La combinazione di immagini reali e sintetiche è diventata una popolare tecnica anche per gli effetti speciali. In numerosi contesti infatti, per applicare alla scena oggetti grafici in movimento come sfondo, si stimano i parametri (posizione, movimento, lunghezza focale, ecc.) della camera che ha girato il video. 3.2.2 Riproduzione dei volti Come indicato qualche paragrafo fa, e come è possibile immaginare, metodi di analisi facciale che consentano di ricostruire dettagliatamente il volto umano è rappresentano un topic dell’animazione particolarmente caldo. Sia in presenza di animazioni che di film in cui l’animazione in qualche modo incide, risulta molto spesso necessario utilizzare software di analisi e ricostruzione facciale al fine di introdurre caratteri estranei o completamente fantasiosi che tuttavia abbiano aspetti riconducibili a quello umano. Nella figura 2 si riporta un frame dal film The Avengers in cui compare il personaggio di Hulk. L’immagine particolarmente significativa mostra il personaggio nel suo dettaglio facciale. Il film, che non è sviluppato come animazione completa, riporta questo personaggio con l’adattamento del volto del vero attore. Il dettaglio estremamente elevato rende la figura cosı̀ reale, tanto da consentire all’audience di immaginarlo effettivamente come la stessa persona che lo interpreta (figura 3). Lo studio dell’animazione facciale si suddivide in due sotto-categorie: quella della modellazione facciale in cui si cerca di riprodurre un modello di alta qualità del volto e quella di animazione, in cui ci si concentra in tecniche che consentano di animare modelli di volti con un realismo il più alto possibile. Questi due aspetti sono strettamente connessi e l’animazione facciale è determinata dalla qualità 17 Figura 2: Ripresa del personaggio di Hulk dal film “The Avengers” Figura 3: Ripresa del personaggio che interpreta Hulk dal film “The Avengers” di entrambi gli elementi. Uno dei primi lavori nell’ambito della cattura dell’espressione e del dettaglio facciale è quello riportato in [12]. Questo approccio, basato su immagini, consente di ricostruire un modello facciale anatomicamente accurato attraverso una automatica descrizione di alto livello dell’immagine catturata. Il processo si sviluppa principalmente in due fasi: la fase di acquisizione dell’immagine e quella di analisi e ricostruzione. Nella prima fase, quella di acquisizione delle immagini della faccia, si applica dapprima una scansione a 360 gradi del volto della persona attraverso in sensore laser cosı̀ da catturare tutti i dettagli e la riflettività dell’immagine. 18 Nella fase di analisi dell’immagine invece viene adattata sulla struttura topologica delle immagini acquisite una generica maglia elastica triangolare predefinita. Questa generica maglia, adattabile a individui differenti, consente di ridurre i dati rilevati attraverso una efficiente approssimazione poligonale della geometria del volto. Questa maglia inoltre supporta anche una mappatura con trame ad alta risoluzione per la riflettività della pelle. Le posizioni 2D dei nodi della maglia servono come mappa di tessitura di coordinate per l’immagine RGB, nonchè gamma dei luoghi di campionamento da cui vengono calcolate le coordinate dello spazio euclideo 3D per i vertici dei poligoni. La qualità visiva del modello facciale è paragonabile ad una visualizzazione 3D dei dati originali ad alta risoluzione, nonostante la geometria a maglia sia significativamente più grossolana. Una volta ridotta l’immagine proveniente dalla scansione e riprodotta la maglia 3D, si assembla il modello facciale a partire dalle funzionalità e dai movimenti fisici effettuabili con il volto. La maglia poligonale trovata forma lo strato epidermico di un modello biomeccanico della faccia. Attraverso un algoritmo si può allora definire uno strato multilayer di “pelle sintetica” e si può stimare una sotto-struttura per il cranio e per la mascella. Come passo finale l’algoritmo inserisce i modelli di muscoli sintetici nel layer più profondo del tessuto facciale. Questi ultimi elementi hanno il compito più delicato in assoluto in quanto devono riproporre il movimento dei muscoli facciali, cosı̀ da generare espressioni e forze che deformano il tessuto sintetico in modo il più realistiche possibile. Le prime tecniche per la risoluzione di questo problema erano tecniche che cercavano in qualche modo di funzionare anche con basse possibilità computazionali. Con il rapido miglioramento dell’hardware, gli approcci rivolti alla performance hanno cominciato a prendere il sopravvento. Primi tra tutti si sono affermate tecniche basate sull’analisi di immagini già esistenti. Non solo immagini, in quanto l’analisi di video ha permesso lo studio e la percezione dei movimenti facciali cosı̀ da ricavare tutte le informazioni necessarie per poterli riprodurre con un elevato realismo. Dall’altro lato, la sempre maggiore conoscenza della fisica dei movimenti facciali ha portato alla costituzione di modelli facciali di alta qualità basati sulla anatomia umana. Tra questi si può menzionare il lavoro di Sifakis [13] che va a modellare il volto a partire proprio dagli strati definiti dall’anatomia umana. 19 Tra i centri di ricerca più importanti abbiamo menzionato, nella digressione storica, il longevo studio della Disney. Trattandosi di una compagnia quasi completamente dedita all’animazione non sorprende il fatto che uno dei lavori più importanti con tema quello dell’analisi facciale e della animazione facciale sia nato proprio nella loro sede [14]. Questo importante lavoro introduce una soluzione al problema dell’individuazione della geometria 3D del volto in un singolo passo, sotto l’ipotesi di illuminazione standard. Il sistema sviluppato è di basso costo, semplice da riprodurre e porta a risultati commensurabili con i sistemi che basano il loro funzionamento su luci attive. Tale paragone è effettuabile in quanto anche questo sistema produce risultati di livello adeguato all’industria cinematografica. I contributi più importanti che il lavoro porta ai metodi già esistenti sono principalmente due. Il primo riguarda la modifica del classico metodo di “raffinamento” per acquisizione della geometria del volto usando un approccio qualitativo che produce risultati visivamente realistici. Il secondo contributo è definito dal metodo di calibrazione per l’acquisizione. Tuttavia, nonostante queste tecniche recenti siano particolarmente avanzate, alcune applicazioni risultano ancora di difficile soluzione. Le principali limitazioni provengono dalle limitate risorse computazionali che rendono necessarie importanti semplificazioni del modello anatomico umano. Inoltre, a causa delle limitazioni nella analisi delle immagini e dei video risultano necessari approcci che tengano conto di questa in accuratezza. Pertanto l’ambito della modellazione facciale e dell’animazione facciale risulta ancora un topic di ricerca caldo e la strada da percorrere per arrivare a risultati soddisfacenti è ancora lunga [15]. Figura 4: Applicazione di una tecnica single-shot per la cattura facciale, comprensiva di raffinamenti. 20 3.3 Animazione dall’osservazione: cattura ed editing del moto L’animazione può essere considerata una vera e propria forma d’arte. Colui che crea animazione ha infatti il totale controllo su apparenza e sui movimenti dei soggetti. Questa possibilità garantisce all’“artista” forte libertà che, se ben utilizzata, può portare a lavori di forte impatto. Questa libertà tuttavia non è fuori dagli schemi, ma tutto può e deve essere controllato. Tra i task più complessi si ha proprio il controllo del movimento. Se nei primi anni dell’animazione gli autori cercavano di riprodurre i movimenti di creature reali con lo scopo di raggiungere una realtà elevata semplicemente osservando la natura, ben presto ci si rese conto che l’osservazione non era sufficiente. Anche nell’animazione di oggetti immaginari era necessario concepire un modo per gestire il movimento. Con l’avvento dei computer i produttori di film animati hanno avuto la possibilità di automatizzare il processo e di creare un movimento per gli oggetti semplicemente a partire dall’osservazione dei movimenti reali. Questo processo di trasmissione dei movimenti dagli oggetti reali a quelli fantastici è conosciuto come Motion Capture. Il processo di cattura del moto è un processo estremamente delicato. La computer vision tuttavia contribuisce in modo significativo allo scopo. 3.3.1 Cattura del moto vs. Animazione dall’osservazione Nella comunità dell’animazione troviamo uno storico conflitto tra gli “animatori” e i tecnici/users di motion capture. Questa “tensione” nasce da diversi fattori, alcuni effettivamente reali, altri solamente percepiti. I motivi principali sono l’irrealistica aspettativa che certi hanno riguardo la cattura del moto e la difficoltà che lo sviluppo della cattura del moto ha lasciato nell’interpretazione dei dati. La distinzione reale che abbiamo tra “Motion Capture” e creazione di animazione sta nell’osservazione. La cattura del moto non ha come fine solamente quello dell’animazione, ma gli ambiti in cui può rivelarsi utile sono molteplici. Per ciascuno di questi si ha comunque la necessità di osservare il movimento per interpretarlo e definirne appunto un modello. La cattura è solamente una delle fasi per l’animazione. Una volta registrato il moto infatti è necessario 21 interpretare i dati individuati per creare l’animazione. In prima istanza si potrebbe pensare alla cattura del moto come alla registrazione del movimento di un soggetto ed alla possibilità di rivederlo. Tuttavia in maniera più corretta si potrebbe intendere come la creazione di una rappresentazione che differenzia il moto dall’apparenza; questa rappresentazione codifica il moto in una forma che possa essere disponibile e di facile analisi e processamento. La definizione di “Motion Capture” tuttavia dipende molto dal risultato che vogliamo ottenere. Nell’animazione il motion capture implica la presenza di qualcosa che ha portato al cambiamento di qualcos’altro e che noi abbiamo registrato. A questa ripresa è possibile applicare un cambiamento di soggetto del moto inserendovi un modello grafico. Per definizione, animare significa dare vita, e ciò tecnicamente consiste nel fornire la possibilità ad un oggetto anche inesistente di muoversi. Esistono un certo range di tipologie di motion capture. Tra le più importanti abbiamo quella real-time e quella su sistemi on-line. Altra distinzione si ha tra la cattura del movimento di tutto il corpo o solamente di quello facciale(quest’ultimo visto nel paragrafo precedente). 3.3.2 Cattura del moto per l’animazione Gli step per la creazione dell’animazione a partire dall’osservazione sono: • Pianificazione della cattura del movimento e successiva ripresa. • Cattura del movimento. • Pulizia dei dati. • Edit del moto. • Mappatura del moto sui caratteri da animare. L’elemento di maggiore interesse e difficoltà è ovviamente la cattura del moto. Questo processo ha sviluppato nel corso degli anni vari metodi tutti soddisfacenti. La sua storia è particolarmente lunga e nasce attorno agli anni ’90 quando, per la cattura del moto, si utilizzavano “armature meccaniche” che misuravano gli angoli di movimento. Strumenti meccanici sono diventati più recentemente sistemi di stima del movimento non più con il calcolo di angoli vari, 22 ma solamente come appoggio a sistemi software per il tracciamento dei movimenti. Gli strumenti meccanici sono quindi diventati dei semplici “scheletri” sempre meno ingombranti. Tecnologie di cattura del movimento che si appoggiano a magneti invece, utilizzano trasmettitori che stabiliscono dei campi magnetici all’interno di uno spazio ed utilizzano sensori in grado di determinare la posizione e l’orientamento nell’ambiente. Le prime versioni di questi sistemi magnetici erano afflitte da problemi pratici: i sensori necessari erano di forte ingombro e creavano problemi di rumore e di deriva dovuti a campi magnetici di portata limitata e facilmente disturbabili da oggetti metallici disposti nello spazio. Nei moderni sistemi a cattura magnetica invece, questi problemi di misura sono contrastati attraverso trasmettitori wireless posti sul corpo e attraverso sensori di migliori prestazioni, autonomia e robustezza. Una seconda tipologia di tracciamento è data dai sistemi ottici che utilizzano dei marcatori visivi ed un certo numero di telecamere speciali per determinare la posizione 3D. Solitamente questi marcatori sono oggetti passivi quali ad esempio sfere retro-riflettenti. Le telecamere ad alta velocità composte di dispositivi monocromatici sintonizzati per rilevare uno specifico colore consentono la loro rilevazione. Questi sistemi necessitano di più telecamere per effettuare una triangolazione e determinarne la posizione. Il numero di telecamere è ovviamente variabile e in alcuni casi fino a 24 per ridurre al minimo la possibilità di non individuare i marcatori. I sistemi ottici tuttavia hanno difficoltà nel riconoscimento dei marcatori. Rilevato un marcatore, non risulta possibile sapere di quale marcatore si tratta. A differenza dei sistemi magnetici in cui ciascun sensore ha il suo canale di trasmissione, il sistema ottico deve determinare la corrispondenza di marcatori tra i frame. Solitamente questa corrispondenza è definita nella fase di post-processing attraverso software che basano il loro funzionamento sulla continuità della posizione. Per creare questa continuità i sistemi ottici preferiscono sistemi con un numero elevato di frame anche se successivamente il risultato dovrà essere ridotto. Vista tuttavia l’imperfezione di queste tecniche software i risultati necessitano anche di pulizia manuale. Alternativamente sono stati definiti anche metodi in cui i marcatori si distinguono l’uno dall’altro. Considerando l’altra notevole difficoltà che accompagna tuttora i sistemi ottici, dovuta all’occlusione dei marcatori e delle corrispon23 denze in post-processing, i sistemi magnetici sono tradizionalmente preferiti per la cattura del moto. Software per il processing di sistemi ottici sta tuttavia cambiando questa tendenza, soprattutto per il basso costo dell’hardware che questi sistemi richiedono. Le figure 5 e 6 mostrano l’applicazione di cattura del moto al personaggio di Gollum sul film Il signore degli anelli. La figura 7 mostra il sistema di animazione, compresa la cattura del moto, per i personaggi del film Avatar. Figura 5: Applicazione della tecnica di cattura del modo al personaggio di Gollum nel film The lord of the rings. Figura 6: Applicazione della tecnica di cattura del modo al personaggio di Gollum nel film The lord of the rings. Le tecniche di cattura del moto con tecnologia ottica sono facilmente comparabili con tecnologie di cattura basate sulla visione. Le tecniche basate sulla visione definiscono quegli approcci che analizzano stream video, applicano certe forme di analisi immagini per determinare cosa il soggetto sta facendo. Le tecnologie ottiche definiscono una soluzione ingegneristica ai classici problemi della visione quali il tracking e l’identificazione. 24 Figura 7: Applicazione della tecnica di cattura del modo ad un generico personaggio del film Avatar. 3.3.3 Computer Vision e Motion Capture Uno dei crescenti interessi della computer vision è quello nel problema dell’analisi di immagini di soggetti in movimento. Le applicazioni che ne possono derivare sono varie, tra le quali anche soluzioni per la creazione di oggetti in movimento. Le potenzialità della cattura del moto attraverso la visione sono molteplici. La tecnologia video convenzionale è più accessibile, meno costosa, meno ingombrante della strumentazione più classica di metodi magnetici o ottici e applicabile in una più ampia varietà di ambienti rispetto alle tecnologie di cattura correnti. Il video standard può essere analizzato ed elaborato per creare animazioni. Il problema più delicato del motion capture con la computer vision tuttavia sta nel fatto che la tecnologia di acquisizione necessaria per fornire un grado di fedeltà e qualità adatta all’animazione è limitato(costoso e ancora non troppo sviluppato). Generalmente i sistemi di Motion Capture sviluppati attraverso la computer vision si compongono di quattro fasi: Initialization, Tracking, Pose Estimation e Recognition. Ciascu sistema, prima di essere considerato pronto per il processamento dei dato deve essere inizializzato, ovvero deve essere stabilito un modello del soggetto. Successivamente avviene il tracciamento del moto. Questo passo comporta la necessità di segmentare il soggetto dal background e di 25 trovare corrispondenze tra i segmenti nei frame consecutivi. Il passo successivo consiste nella stima della posa del soggetto che risulta essere l’output del sistema. Quest’ultimo risulta essere lo strumento per il controllo di un avatar in un ambiente virtuale o può essere processato successivamente nel passo di riconoscimento. Per la stima della posa solitamente sono anche utilizzati modelli con un livello di conoscenza elevata, quali ad esempio modelli umani. L’ultimo step di questi sistemi è quello che analizza la posa e gli altri parametri per riconoscere le azioni ed i movimenti effettuati dal soggetto. Ciascuno di questi passi possiede le sue difficoltà ed i suoi algoritmi risolutivi, tanto che in alcuni casi l’ambito del Motion Capture si è evoluto distintamente nei quattro diversi passi [16]. Sebbene i lavori e gli studi riguardo all’argomento siano aumentati notevolmente, ancora oggi rimangono dei problemi che in qualche modo trattengono l’utilizzo massiccio della computer vision in merito al motion capture. Tra i più importanti problemi aperti troviamo il riconoscimento delle parti del corpo che rappresentano invarianti del punto di vista; il rilevamento dell’abbigliamento è altrettanto richiesto e importante per avere un tracking ed una stima della posa adeguata. Inoltre, sebbene vi sia un generale miglioramento sulla cattura e sulla ricostruzione del moto, rimangono ancora poco esplorati il riconoscimento “semantico” dei comportamenti del soggetto. Riferendosi esplicitamente all’ambito dell’intrattenimento qual’è quello cinematografico, risulta ancora poco accurata la ricostruzione da più viste [17]. Il tracciamento del movimento umano è quindi tutt’oggi un argomento importante per la computer vision. Tuttavia per la maggior parte delle applicazioni in questo campo non richiedono la ricostruzione 3D del moto. Tra i più recenti studi nel campo ve ne sono alcuni in cui sono descritti sistemi che calcolano il moto di figure complesse utilizzando tecniche di flusso ottico differenziale. Tutti i prodotti sviluppati fin’ora tuttavia non hanno portato a sistemi che garantissero una fedeltà sufficiente per il campo dell’animazione. Le richieste nell’ambiente sono diventate negli ultimi tempi sempre maggiori, visto il traffico di denaro. Per questo la computer vision ha pagato fortemente la sua incapacità di risolvere il problema della cattura del moto e della sua elaborazione, vista la sua “giovane età”. 26 4 Visione nei film ed effetti speciali Le tecniche di visione hanno avuto ed hanno tuttora un ruolo di crescente importanza nell’ambito degli effetti speciali. L’inserimento di un effetto speciale all’interno di una scena necessit la conoscenza di informazioni, quante più possibili, riguardo la scena. Gli effetti speciali si appoggiano a tecniche di visione per il calcolo della posizione della telecamera, per la costruzione di un modello 3D della scena e per il tracking degli elementi in movimento nella scena. Pensando agli anni antecedenti il 1980, in cui la computer graphic non era molto impegnata nello studio degli effetti speciali, era comune individuare nelle scene dei film il cosi detto shot effect. Il problema era dovuto proprio alla difficoltà di inserire oggetti estranei alla scena in presenza di camera in movimento. Nel processo di inserimento di un effetto speciale infatti, deve essere riprodotto in maniera perfetta il movimento della telecamera anche per questo nuovo elemento, cosi da ridurre la percezione di finzione. Per ottenere quindi un risultato adeguato le tecniche principalmente utilizzate furono due: • Utilizzare un dispositivo meccanico per codificare il movimento della camera, ed usare poi questa informazione registrata per controllare il movimento per l’effetto • Rilevare il movimento della camera attraverso l’osservazione di un esperto occhio umano. Come è tuttavia intuibile entrambe queste tecniche erano particolarmente soggette ad errori e potevano essere utilizzate solamente in produzioni con budget elevati. Quando tuttavia negli anni ’90, con l’avvento degli effetti generati al computer e della scansione digitale dei film, divenne possibile applicare tecniche di visione per estrarre informazioni riguardo il moto della camera a partire dalla scena consentendo di applicare effetti speciali come fossero effettivamente parte dell’immagine filmata. 4.1 Gli elementi basilari Tecniche di visione sono utilizzate per stimare la posizione e l’orientazione della telecamera a partire da uno o più fotogrammi. Queste 27 tecniche sono conosciute come tecniche di tracking 3D. Il miglior modo per conoscere questa informazione è di estrarre la geometria della scena e utilizzarla per calcolare la posizione della camera. Per capire questo concetto potremmo pensare al fotogramma di una stanza proveniente dalla camera reale posta in una certa posizione. L’idea è quella che l’immagine relativa a questa posizione della camera è univoca e non possono esservi più posizioni che riportano la stessa identica immagine. Si potrebbe allora pensare di definire una camera immaginaria e attraverso questa trovare le informazioni riguardanti la camera reale, semplicemente concependo la vista della telecamera immaginaria. La tecnologia attuale fornisce alcuni software che consentono di applicare effetti speciali a sequenze cinematografiche. Come è possibile aspettarsi, gli effetti speciali come possono essere ad esempio gli spari, necessitano l’analisi e la modifica non solo di un frame, ma di una sequenza di immagini. L’idea che sfruttano questi software è quella di definire una curva che va a considerare la posizione e l’orientazione della camera. Questa curva consente di avere l’informazione necessaria per l’editing di effetti speciali. A partire dal movimento della camera, è possibile utilizzare la fotogrammetria per costruire un modello 3D che rappresenti al meglio la scena. Questo processo tuttavia è particolarmente oneroso. L’idea del modello 3D nasce dalla consapevolezza che, poichè gli oggetti estranei alla scena devono integrarsi completamente in essa, è necessario ridurre al minimo quel distaccamento tra ripresa originale ed effetti speciali stesso. Risulta quindi necessario conoscere l’anatomia della scena per inserirvi qualunque oggetto estraneo. In particolare, se il movimento della camera è abbastanza importante, è possibile effettuare la triangolazione per ciascun punto visibile, attraverso due immagini riprese da posizioni differenti. Un ultimo metodo per il calcolo della posizione della camera e del tracking point è definito come Structure from Motion. In questo contesto, non si ha conoscenza alcuna della struttura della scena. L’idea sta nel fatto che, muovendo la camera, si ha la possibilità di vedere la scena da vari punti di vista. Il problema è risolvibile attraverso la risoluzione di un problema di minimo. 28 4.2 Le basi del tracking 3D La risoluzione del tracking 3D si basa sulla ottimizzazione di un problema di minimo. A partire dalla posizione 3D dei punti e delle loro coordinate 2D nell’immagine, lo spazio dei parametri è dato dalla posizione della camera, dalla sua orientazione rispetto alla scena e dal suo campo di vista. Risulta quindi un problema di minimizzazione a 7 parametri in cui la misura da rendere minima è l’errore tra la posizione 2D del punto e la quella 3D a partire dalla conoscenza della orientazione e disposizione della camera. La risoluzione di questo problema non è banale. Le tecniche per effettuare questo tracking sono numerose, dipendenti anche dalle possibilità di calcolo e tempo. I primi tentativi di risoluzione di questo problema sono degli anni ’90([6],[7]) Tuttavia, nell’applicazione di queste tecniche alla cinematografia, si sono incontrati problemi che in altri contesti invece non si presentavano. Per avere infatti un buon risultato è necessario che l’errore effettuato sia limitato. In particolare non è importante solamente che la soluzione sia accurata sul singolo frame, questa deve essere particolarmente precisa nell’intera ripresa. Vista inoltre l’alta risoluzione delle riprese cinematografiche, è necessario che gli elementi aggiunti siano all’altezza della scena primaria. Infine, le immagini provenienti da una ripresa mostrano spesso caratteristiche non proprio ottimali per l’applicazione di tecniche di Computer Vision. Spesso e volentieri infatti le scene sono affette da “effetto di movimento”, luce scarsa è fonte di luce che cambia. Altrettanto problematico è il cambiamento che può subire il set a seguito dell’evento per cui stato incluso l’effetto speciale(ad esempio a seguito di uno sparo). 4.3 Problemi dovuti alla camera La camera non solo rappresenta un vincolo nella modellazione 3D dell’ambiente e nel calcolo del suo movimento ma, attraverso la lente, questa determina problemi legati al campo di vista. Supponiamo di voler mostrare un certo soggetto più grande. Le possibili soluzioni sono due: avvicinare la camera al soggetto stesso o ridurre il campo di vista attraverso lo zoom. Effettuando queste due operazioni non si ottiene lo stesso risultato anche se simile all’apparenza. Non avendo quindi conoscenza di quale di queste due tecniche sia stata 29 utilizzata, risulta necessario trovare un modo per la stima del campo di vista che esuli dall’immagine stessa. A questo scopo possono essere di alta utilità i cosi detti oggetti “sopravvissuti. Questi elementi consentono di ridurre la complessità del problema di ottimizzazione aumentandone di conseguenza l’accuratezza. Rappresentano infatti gli unici invarianti dell’operazione, ed è da questi che si deve partire. La lente della camera risulta elemento di distorsione anche per altri motivi. In computer graphic la camera è solitamente modellata come una pinhole camera, ovvero in una sua versione semplicistica senza lenti. Questo comporta che anche le lenti più costose possono solamente approssimare questo modello che di conseguenza porta con se errori intrinseci. Per questo tipo di errori dovuti alle distorsioni delle lenti è possibile agire in modo analogo al campo di vista finchè il sistema non è esportato per il rendering. I pacchetti che consentono di lavorare sul video spesso supportano solamente il modello pinhole mettendo tuttavia a disposizione la possibilità di scrivere il proprio sistema per la camera. Cosi, adottando un modello di per se sbagliato, il calcolo della posizione della camera porta a risultati non corretti. Il problema è risolvibile se si elimina la distorsione prima di effettuare il tracking. Si risolve la distorsione e si fa in modo che la camera appaia come fosse una pinhole. Il tracking 3D avviene quindi solamente quando abbiamo un immagine di cui conosciamo bene il modello. 4.4 Problemi generici I problemi per la modellazione e per il tracking 3D non nascono solamente dalla presenza della lente e dal modello di camera complesso. Semplicemente pensando al film ci ritroviamo con scene dinamiche ed un ambiente piuttosto affollato. Gli attori possono camminare di fronte alla camera, la camera stessa può muoversi cosi tanto che i punti subiscono la sfocatura di moto, la luce può cambiare per varie circostanze. Risulta quindi estremamente complesso seguire punti di interesse su oggetti naturali come piante o rocce. In questi casi l’idea è quella di utilizzare la metodologia paint them out later. Inserendo nella scena oggetti colorati(spesso palline da ping pong), risultano utili tracking point che forniscono sufficiente informazione della scena. 30 4.5 Traking 2D Figura 8: 2D tracking utilizzato per applicare digital makeup a Bred Pitt nel film Intervista col Vampiro(1994). Immagini appartenenti ad una ripresa possono mostrare, a lavoro completo, imperfezioni che devono essere eliminate. Il tracking 2D rappresenta una tecnica sviluppata proprio a questo scopo. Si tratta del processo attraverso il quale si segue una certa feature che si muove nelle immagini. Attraverso questa tecnica possibile tracciare una certa parte dell’immagine per rimuoverla o modificarla. L’immagine 8 mostra l’applicazione del tracking 2D per definire un “digital makeup” al personaggio di Brad Pitt. Il difetto dell’applicazione del trucco non fu rilevata fino alla visione successiva del film, quando ormai risultava impossibile ripetere la scena. La tecnica di tracking 2D ha invece aiutato a individuare il difetto nella faccia del protagonista ed a modificare il makeup dello stesso. Ovviamente, affinchè sia possibile applicare queste tecniche di tracking 2D è necessaria una accuratezza a livello di pixel. I software di tracking 2D più diffusi sono quelli in cui l’utente deve identificare la feature da seguire. Il software compara la feature con il frame successivo. Trovata la corrispondenza definisce la traslazione subita. Nel caso in cui vi sia anche una modifica della forma della feature, il track della feature non sarà particolarmente accurato [8]. 31 4.6 Tracking 3D con assenza di informazioni L’ultima soluzione per il tracking 3D è quella che non richiede alcuna conoscenza della scena. Questo tipo di approccio al tracking è possibile anche se è necessaria particolare attenzione a mantenere stabili le soluzioni. L’idea è che individuando alcune features per il tracking 2D, a seguito del movimento della camera, e quindi con il passaggio da frame a frame, si possa tracciare la locazione dei punti. Queste posizioni sono utilizzate simultaneamente per risolvere il problema di minimo. Questo approccio, come è immaginabile, ha delle limitazioni. Se infatti la camera si muove lentamente è necessario utilizzare altre foto rilevate da punti di vista differenti per fornire informazioni supplementari. Ovviamente anche informazioni riguardanti la lente possono essere di aiuto. Se l’obiettivo è tarato, effettuando una fotografia di un oggetto di riferimento, i calcoli sono più precisi. Se inoltre abbiamo anche conoscenza della geometria della scena, il passo precedente può essere saltato. La lunghezza focale può infatti essere calcolata con il software. Infine, in presenza di scatti con zoom senza rilevazione di oggetti, il tracking si complica. Paul Debevec rappresenta uno dei pionieri nel tracking e sulla ricostruzione della scena in assenza di informazioni. Nei suoi lavori [4],[5] mostra un sistema per la ricostruzione di forme architetturale a partire dall’assemblaggio di primitive geometriche da parte dell’utente. 4.7 Conclusioni Per applicare effetti speciali a scene già girate è quindi necessario un grande lavoro affinchè creature o elementi estranei appaiano come appartenenti al film stesso. L’audience non deve aver percezione di questo fatto, e se il lavoro svolto in questa direzione non è ottimo, la percezione dell’estraneità dell’oggetto è elevata. La computer vision in questo fornisce un immenso aiuto agli artisti del cinema. 32 5 Le olografie Per la maggior parte dei tecnofili, la parola ologramma evoca il ricordo dell’immagine della principessa Leia nel film Star Wars (figura 9). Figura 9: Olografia della principessa Leia tratta dal film Star Wars. In tono generale l’olografia, o la fotografia senza lenti, è una tecnica che produce immagini tridimensionali. attraverso l’uso del laser. Il processo inizia con la registrazione di pattern formati da onde di luce su pellicole fotosensibili le quali, una volta sviluppate ed esposte nuovamente al laser, ricreano i punti di luce dell’oggetto originale, producendo cosı̀ un immagine tridimensionale. Le pellicole utilizzate per creare effetti olografici contengono più informazioni rispetto a quelle utilizzate per le immagini convenzionali. Gli ologrammi rappresentano vere e proprie immagini tridimensionali con parallasse (la cui vista cambia a seconda dell’angolo da cui si guardano), proprio come un oggetto tridimensionale. Con la proiezione corretta, un ologramma rappresenta un oggetto sospeso a mezz’aria. L’olografia, a differenza di tecnologie quali ad esempio il 3D, consente di osservare l’oggetto proiettato come se fosse generato da un raggio di luce e disperso direttamente dall’oggetto reale, senza la necessità di occhiali speciali. Il sistema ricostruisce l’oggetto sia attraverso informazioni provenienti dall’onda di luce che la genera 33 sia dalla conoscenza della scena. Ciò tuttavia richiede una grande quantità di dati, il che significa che l’olografia ha, finora, limitato il suo utilizzo a causa dell’insufficiente potenza dei computer. L’altro problema è la mancanza di mezzi di visualizzazione grandi abbastanza e sufficientemente veloci, da poter visualizzare e aggiornare l’immagine olografica per avere una proiezione realistica.[19] L’applicazione di olografie nell’ambito cinematografico è particolarmente utilizzato. Questo strumento fornisce la possibilità di introdurre nelle produzioni elementi di dettaglio, e non solo, che consentono di rendere i film sempre più affascinanti e stupefacenti. Gli esempi a riguardo sono numerosi, fin da quando l’era del digitale ha iniziato il suo percorso. Nel 1977, con la figura della principessa Leia sul film Star Wars si riproduceva in maniera dettagliata la prima olografia (figura 9). Durante gli anni la tecnologia si è sviluppata e le tecniche sono migliorate a tal punto da avere olografie del calibro di quelle presenti nel film “Avatar”(figura 10). Figura 10: Olografia del mondo immaginario del film Avatar. 5.1 Il funzionamento dell’olografia L’olografia non è semplice da interpretare e capire in termini di ottica geometrica. La luce è manipolata nella sua composizione di elementi discreti(i fotoni). L’olografia considera la luce come un onda in movimento ed attraverso la riflessione e la rifrazione della 34 raggio, una camera sfrutta l’intensità dello stesso ma non la sua fase. Per rappresentare gli oggetti nell’olografia viene sfruttato il carattere ondulatorio della luce. Questo metodo non necessità di lenti, ma il fattore essenziale è che l’oggetto sia illuminato da un fascio coerente le cui singole parti abbiano differenza di fase tempo costante. La luce incidente viene dispersa sulla superficie dell’oggetto e, se incide sulla lastra fotografica, provoca l’annerimento della stessa in relazione all’ampiezza risultante delle vibrazioni della luce nella posizione corrispondente. La struttura finale è il risultato di attività del fascio disperso su tutti i punti del corpo che interferiscono. Tale registrazione sulla lastra fotografica fornisce informazioni su intensità e sulla fase delle onde disperse su tutto il corpo ([20]). L’olografia utilizza l’interferenza della luce per registrare immagini in 3D, e quindi richiede l’uso di una sorgente di luce coerente considerando che l’intero dispositivo deve essere compatto, protetto contro sbattimenti dal suo ambiente e di solito richiede l’oscuramento del sito di lavoro. L’olografia necessità di sorgenti ottiche ideali con un elevato livello di coerenza per osservare fenomeni di interferenza e di diffrazione della luce. Entrambe le coerenze spazio temporali sono implicate. Più appuntita è la sorgente, maggiore è la coerenza spaziale, e più la luce risulta monocromatica più grande è la coerenza temporale. La fonte ideale monocromatica è il laser generatore di radiazioni elettromagnetiche nel campo delle lunghezze d’onda ottiche. I laser sono risorse di luce caratterizzate da forte intensità, monocromatismo, coerenza e piccola divergenza di radiazioni. L’abbreviazione laser deriva dal nome inglese Light Amplification by Stimulated Emission of Radiation, che rappresenta lo strumento dove la luce è amplificata attraverso l’emissione stimolata. Il laser consiste di 3 principali parti: di lavoro (attivi), l’ambiente di origine e il sistema di risonanza. Il laser assicura coerenze sia temporali che spaziali che consentono di ottenere una struttura stabile e distinta nel piano dell’ologramma. Un ologramma non porta con se simboli che ricordano l’oggetto rappresentato. L’oggetto è rappresentato da un sistema di aree di luce e di ombra, generate attraverso due raggi, che anche se osservate attentamente non offrono informazioni riguardo l’oggetto mostrato. Se illuminato con la luce normale, l’oggetto rappresentato non può essere identificato da un occhio umano. L’immagine dell’oggetto è 35 allora codificata nell’ologramma. Come detto sopra, la formazione di una immagine visibile attraverso l’ologramma viene chiamata ricostruzione dell’immagine. Affinchè l’immagine dell’oggetto possa essere vista nello spazio, l’ologramma deve essere illuminato dal fascio di riferimento. L’immagine successivamente viene creata sotto un certo angolo al fascio incidente. L’osservatore a questo punto vede l’oggetto originale in 3 dimensioni nello spazio. La visibilità dell’oggetto attraverso l’ologramma è dovuto alla diffrazione del fascio di riferimento sulla struttura del reticolo dell’ologramma. Tale osservazione è accompagnata dal principio della parallasse - se il punto di osservazione cambia, cambia la posizione dell’oggetto osservato. Se durante l’esposizione alcuni oggetti vicini coprono quelli più distanti rimane comunque possibile vedere questi oggetti coperti semplicemente spostando il punto di vista. Olografia significa registrazione della struttura tridimensionale dell’onda di luce dispersa dall’oggetto. Ciò si ottiene attraverso l’immagine di interferenza che mantiene il rapporto delle ampiezze della luce dispersa. [21] I metodi interferometrici olografici rappresentano una classe di tecniche che rendono possibile visualizzare oggetti in trasparenza, aiutano a spiegare l’essenza fisica di eventi investigati, abilitano ed espandono le possibilità di visualizzazione dei campi fisici. Tutto ciò senza disturbare l’ambiente con sensori o elementi di disturbo. 36 6 La realtà aumentata Immaginiamo una tecnologia in cui possiamo vedere più di quanto vedono gli atri, sentire più di quanto sentono gli altri e magari anche toccare, odorare e gustare cose che gli altri non possono percepire. Immaginare una tecnologia del genere apre confini tangibili e rende la finzione qualcosa di più realistico e più vicino a noi. Se avessimo una tecnologia tale da consentirci di percepire qualunque tipo di oggetto anche non reale secondo la nostra esperienza nel mondo, una tecnologia tale da consentirci di avere un interazione con strutture e creature che ci aiutano tutti i giorni anche in maniera inconscia, gli orizzonti dell’uomo sarebbero decisamente più lontani. La Realtà Aumentata (AR) è la tecnologia per creare “interfacce di nuova generazione basate sulla realtà” ed è attualmente studiata in laboratori di tutto il mondo per applicazioni al mondo industriale e non. AR sostituisce la realtà con elementi virtuali che appaiono coesistere nello stesso spazio del mondo reale. [18] definisce l’AR come una parte dell’area più generale della mixed reality composta dal mondo virtuale. Minstry et al. mostra la suddivisione in ambienti reale e virtuale e nei loro corrispettivi con realtà aumentata. AR fornisce una virtualità locale. Le caratteristiche salienti di sistemi AR sono le seguenti: • Combina elementi virtuali e reali in un ambiente reale. • Allinea elementi virtuali e reali l’un l’altro. • Gli elementi funzionano interattivamente, in tre dimensioni e in tempo reale. Tre sono gli aspetti importanti da menzionare riguardo AR. Il primo è che non è ristretta a particolari tipologie di display. Secondo, i sistemi AR non sono limitati al senso della vista, ma possono essere estesi anche all’udito, il tatto e tutti gli altri sensi. Infine anche la cosı̀ detta mediated/diminished reality fa parte di AR. La realtà aumentata fa parte del cinema da ormai almeno un ventennio, non solamente come strumento per migliorare i film e per renderli più piacevoli e reali, ma anche come concetto tecnologico da integrare in certe scene ed in certi personaggi. Tra i primi e più famosi esempi c’è sicuramente il film Terminator in cui il protagonista, non solo possiede una vista come ogni altra persona, ma 37 spostandosi con gli occhi da persona a persona ne percepisce anche un numero maggiore di informazioni. [22] Figura 11: Frame tratto dal film Terminator (1990). Molto più recentemente, il film Avatar ripropone una tecnologia simile nelle informazioni che i protagonisti percepiscono in tempo reale, su tutti gli abitanti di questo mondo (figura 12). Figura 12: Scena ripresa dal film Avatar con mostrata la tecnologia di realtà aumentata (2010). Sebbene questi esempi di come effettivamente la realtà aumentata sia concepita, questa tecnica cinematografica (e non) ha anche una serie di altri scopi e di applicazioni nel mondo del cinema. Queste altre applicazioni non sono sempre cosi evidenti e riconoscibili come la sua concezione. 38 6.1 Computer vision e la realtà aumentata La computer vision possiede enormi potenzialità per le applicazioni di realtà aumentata. Forte della sua dipendenza dalle features visuali presenti nell’ambiente e registrate dalla camera, questa non richiede una re-ingegnerizzazione dell’ambiente e non ha limitazioni dovute alla presenza di piccoli volumi, elementi magnetici,meccanici o sensori ad ultrasuoni. Sarebbe inoltre non presuntuoso pensare che solamente la computer vision possa garantire una elaborazione della geometria ed un allineamento tra il mondo reale e quello virtuale a livello di pixel, proprio perchè è su questa informazione che la computer vision si basa [23]. L’idea del binomio computer vision-realtà aumentata sta nel fatto che oggetti nel mondo reale possano essere riconosciuti attraverso la visione e rimpiazzati o modificati direttamente nello stream video. Ad esempio alcuni ’marcatori’ potrebbero essere disposti nell’ambiente e, riconosciuti dal sistema di visione, sono rimpiazzati con oggetti virtuali. O analogamente riconoscere un oggetto reale quale ad esempio una finestra, e rimpiazzare il paesaggio al di fuori con l’immagine di un paesaggio fantastico. Le applicazioni basate sulla AR sono numerose e sono disponibili da diversi anni in campi diversi, tra cui quello del cinema. Tuttavia in queste applicazioni, la computer vision non ha avuto fin ora molto successo, e ci si appoggia tuttora ai marcatori. Questa soluzione è comunque limitativa in quanto si ha necessità di gestire l’ambiente esterno per potervi immergere questi oggetti estranei. Le applicazioni su cui effettivamente la computer vision può essere di una certa utilità sono quelle in cui il tracking 3D può portare informazione maggiore di quella che già si ha nella scena. La ragione dell’assenza della computer vision dal mondo della realtà aumentata è abbastanza ovvio. Molti degli approcci al tracking 3D sono basati su sistemi detti di tracking ricorsivo. Sfruttando in maniera imponente la conoscenza della posizione della telecamera nell’ultimo fotogramma risultano poco pratici per applicazioni reali. In primo luogo infatti questi sistemi devono esser inizializzati a mano o richiedono che la telecamera sia molto vicino ad una posizione specificata. In secondo luogo questo limite li rende sistemi molto fragili. Se infatti qualcosa tra due frame consecutivi non va nel verso giusto a causa ad esempio di una completa occlusione di un oggetto o a causa di un movimento troppo rapido, il sistema può perdere l’oggetto e il 39 tracking deve ripartire da capo con tanto di un re-inizializzazione. Anche sistemi in cui vengono fusi sensori magnetici e di posizione gps risultano promettenti, anche se limitati ad applicazioni all’esterno. Recentemente sono state sviluppate diverse tecniche basate interamente sulla computer vision in grado di registrare dalla telecamera senza necessità di conoscere a priori informazioni sulla posizione della stessa. Queste nuove tecnologie non solo risolvono il problema dell’inizializzazione automatica, ma si mostrano veloci anche per l’elaborazione di ciascun frame in tempo reale, rendendo il processo di monitoraggio molto più robusto e prevenendo la perdita di traccia e la deriva. Questo tipo di approccio è detto tracking by detection. Il riconoscimento di oggetti più favorire la realtà aumentata anche per altri aspetti. Ad esempio può gestire problemi di occlusione tra oggetti reali e virtuali anche se non in real time. Inoltre questo secondo problema può essere si risolto, ma risulta ancora poco preciso se non attraverso una buona interpretazione della scena. 40 7 Il cinema 3D Con il termine “3D” nell’ambito cinematografico ci si riferisce generalmente a due concetti: immagini generate attraverso il computer (con l’aiuto della computer graphics) con il supporto di modelli virtuali 3D di oggetti; film stereoscopici (s3D), nei quali le immagini, se viste con appropriati occhiali, sembrano far parte del nostro mondo reale. Questi due concetti di cinematografia 3D possono essere facilmente distinti, anche se la rinascita del cinema 3D è dovuta alle dozzine di animazioni. Il 3D, affiancato alla computer graphics e alla computer vision, è stato utilizzato intensivamente nelle produzioni 2D e nei videogames negli ultimi 15 anni, mentre film completamente in tre dimensioni sono arrivati da due anni a questa parte. Come molti probabilmente sanno, il cinema 3D rappresenta quella versione della proiezione in cui le colline si estendono oltre lo schermo e gli oggetti volano all’interno della stanza grazie a proiettori ed occhiali. In maniera errata, nel 20mo secolo il 3D è stato associato agli occhiali composti da una lente rossa ed una blu nonostante anche negli anni 50 la visione 3D fosse effettuata attraverso semplici occhiali grigi che riproponevano fedelmente i colori. La visione stereoscopica definisce il concetto di visione attraverso un sistema stereo quale quello umano. Una vista di questo tipo consente di percepire le tre dimensioni, quindi di calcolare traiettorie, e fornisce al cervello uno strumento per effettuare un calcolo riguardo il punto di impatto. Animali posti più in basso sulla catena alimentare tendono ad avere ampio angolo di visione, proprio per cercare di individuare il pericolo il prima possibile. Questo è il motivo per cui guardare un film in 3D ci dà una sensazione di completezza che manca nei film in 2D, nonostante gli enormi sforzi e competenze dei direttori della fotografia. Il 3D nel mondo del cinema ha preso importanza nel momento in cui produrlo è diventato più economico per i produttori e più accettabile per l’audience. Prima che ciò accadesse, il cinema 3D ha dovuto affrontare diverse sfide. La prima è stata quella di scontrarsi con una industria non ancora pronta all’investimento nel mondo di queste produzioni. In secondo luogo la mancanza di esperienza da parte di direttori della fotografia e di case di post produzione, faceva si che le persone che avrebbero potuto effettivamente far decollare questa tecnologia si potessero contare su di una mano. D’altro canto invece, gli strumenti e l’esperienza del 41 cinema classico 2D fornivano uno stimolo all’innovazione decisamente ben fondato anche se passare al 3D da un’area cosi conosciuta e piacevole era una passo decisamente pericoloso. Con il termine cinematografia 3D ci si riferisce oggi a tutte quelle tecniche per generare modelli 3D di scene dinamiche da più camere allo stesso video frame-rates. Gli ultimi sviluppi della computer vision e della computer graphics, sopratutto nell’area delle multiple view geometry e del rendering delle immagini, ha reso questo tipo di cinematografia possibile. Molte aree di applicazione includono la produzione di film stereoscopici, animazioni completamente in tre dimensioni a partire da video multipli, e gli effetti speciali per le produzioni tradizionali. 7.1 La cinematografia 3D C’è una credenza “popolare” che considera i film 3D solamente come riprese effettuate con due telecamere. Ciò sarebbe vero se produrre un film in 2D significasse solamente riprendere delle scene con una singola camera. Quello che distingue un film da un semplice video di compleanno non è esattamente dato dalla telecamera, ma da tutto il lavoro che ci sta prima, durante e dopo la ripresa delle scene. Le persone che parlano del solo sistema a due telecamere o sono ignoranti in cinematografia , o in qualche modo sminuiscono il reale lavoro che sta dietro alle produzioni 2D e 3D riducendole a gesti tecnici e a collaborazione creativa durante la ripresa. La complessità della cinematografia rimane quindi nascosta sotto l’idea della semplice ripresa con due telecamere. 7.1.1 Cinema Stereoscopico, Cinema 3D Si parla di cinema stereoscopico come l’arte di rendere stereoscopici i film e le immagini in movimento. Nelle produzioni cinematografiche stereoscopiche, la percezione della profondità è maggiore se le immagini sono diverse alla vista dell’occhio destro e di quello sinistro; in questo modo gli oggetti presenti nei film sono percepiti dagli spettatori a differenti profondità. Il processo di percezione visuale che ricostruisce la profondità 3D e la forma degli oggetti a partire dalle immagini percepite da entrambi gli occhi è detto stereopsi. In generale, parlando di cinema 3D ci riferiamo a film prodotti nel seguente modo: 42 • Video free-viewpoint: vengono catturati video da un numero maggiore di uno di telecamere e combinati insieme in dati che possono essere utilizzati per costruire un nuovo video con un punto di vista arbitrario nello spazio. • Ricostruzione della geometria 3D a partire da punti di vista multipli e creazione di un video a partire da un punto di vista arbitrario. Il nostro interesse si rivolge tuttavia a film ripresi esattamente con due telecamere disposte nello spazio in una configurazione stereoscopica. In queste produzioni la possibilità di vedere l’effetto 3D è dato da strumenti quali display 3D che presentano due immagini differenti. Queste due immagini sono divise da altri strumenti quali gli occhiali facendo in modo che ciascun occhio veda una soltanto delle due immagini proiettate. Alcuni di questi schermi, soprattutto quelli che non necessitano degli occhiali, prendono in input più di due immagini riprese da più punti di vista, mostrandone comunque allo spettatore solamente 2. Le discipline che sono relazionate con il cinema stereoscopico sono molte tra le quali, forse la più importante, è la computer vision. 7.1.2 Computer Vision, Computer graphics, e Cinema Stereoscopico La computer vision e la computer graphics sono strumenti particolarmente utili alla produzione di pellicole 3D. La computer vision in particolare, con le sue tecniche, può essere utilizzata per localizzare e analizzare i difetti che si possono avere nelle immagini della ripresa stereoscopica; difetti che sono successivamente corretti attraverso la computer graphics. Al fine di trattare al meglio la questione è necessario definire alcuni concetti utili alla spiegazione del funzionamento del cinema stereoscopico [24]: • Interoculare (anche detto interassiale): si definisce con interoculare la distanza tra due occhi/camere o tra i loro centri ottici. E’ spesso utilizzata anche per designare il segmento tra i centri ottici. La media di questo valore sugli occhi umani è di 65mm con una variazione più o meno amplia. • Hyperstereo: definisce il processo di ripresa attraverso un interoculare maggiore di 65mm (può anche arrivare a diverse 43 dozzine di metri), con la conseguenza che la scena appare più piccola quando questa è vista in maniera stereoscopica da un soggetto umano. • Hypostereo: definisce il processo di ripresa cinematografica con un interoculare più piccolo di 65mm con il risultato che l’immagine appare molto più grande ad un esser umano. • Fattore di rotondità: supponiamo che sia filmata una sfera attraverso una camera stereoscopica. Quando questa viene riprodotta, il fattore di rotondità rappresenta il rapporto tra la sua profondità apparente e la sua larghezza apparente. A seconda del valore di questo fattore la sfera apparirà come un disco o come uno sferoide. La particolarità sta nel fatto che questo fattore dipende dalla posizione dell’oggetto nello spazio. • Disparità: rappresenta la differenza di posizione tra la proiezione di un punto 3D nell’immagine/retina destra e quella sinistra. Nella maggior parte delle disposizioni stereo, questo valore è solamente orizzontale. • Piano dello schermo: rappresenta la posizione nello spazio dove è posta la superficie di proiezione, supponendola planare. • Vergenza, convergenza, divergenza: l’angolo formato dagli assi ottici dei due occhi nella visione binoculare. L’asse ottico è la linea 3D corrispondente alla linea-di-vista del centro della fovea. Questo può essere positivo (convergenza) o negativo (divergenza). • Piano di convergenza: il piano verticale parallelo allo schermo contenente il punto cui in cui i due occhi stanno guardando. Se questo è di fronte allo schermo, l’oggetto sembra posto di fronte allo schermo. Utilizzando la camera, il piano di convergenza è anche il piano a disparità 0. • Arco di proscenio: rappresenta la profondità percepita dei bordi dello schermo. 7.2 Il processo stereo La produzione di pellicole 3D condivide con lo standard 2D diverse fasi di produzione. Alcune tecniche di computer vision e computer 44 graphics possono essere utilizzate in maniera identica o con qualche piccola modifica. Altre tecniche invece sono specifiche della produzione stereoscopica e non sono presenti nella produzione 2D. Alcuni di questi processi sono: la correzione geometrica necessaria per problemi di affaticamento visivo dovuto a disallineamento; bilanciamento del colore tra le immagini di destra e di sinistra; adattamento della proiezione alla dimensione dello schermo; cambiamenti 3D locali necessari per modificare i contenuti della scena 3D; adattamento della distanza di proiezione; composizione dello scenario con elementi virtuali. Ciascuno di questi processi rende la cinematografia possibile, con aggiustamenti e modifiche alla ripresa che rendono le distanze e le misure interessate del valore richiesto. 7.3 Percezione tridimensionale e affaticamento visivo. Nel tradizionale cinema, finchè il risultato è un film 2D, quasi tutto può essere filmato e riprodotto senza nessun tipo di problema o effetto sulla “salute” visiva dello spettatore, ed il regista è completamente libero di scegliere che cosa mostrare allo spettatore o meno. Il risultato apparirà come una figura in movimento su di un piano posto ad una certa distanza dallo spettatore rendendo il tutto fisicamente plausibile. Con il cinema stereoscopico tuttavia, le due immagini necessitano essere mutuamente consistenti, cosi che una scena 3D, reale o virtuale, possa essere ricostruita dal cervello umano. Questo implica forti vincoli per quanto riguarda la geometria e la fotometria tra le immagini proiettate all’occhio destro e a quello sinistro al fine di percepire la scena in maniera esatta e cosi che il sistema visivo umano non sia affaticato eccessivamente per il processo di ricostruzione della scena. Essendo inoltre la percezione 3D l’elemento più importante nell’ambito dei film stereoscopici, è necessario capire quale sia la differenza tra le features visuali, definita dalla percezione della profondità. Queste features sono dette Cues di profondità e, al di là di ogni aspettativa, queste sono monoscopiche e si possono visualizzare anche osservando le immagini 2D. La stereoscopia è solamente una delle cue di profondità tra tante altre, ma senz’altro risulta essere la più complessa. Lo stereografo Phil Streather, ha detto: “Un buon 3D non è solamente la definizione di un buon background. E’ necessario prestare attenzione a tutte le 7 cues monoculari.” 45 7.3.1 Sorgenti di affaticamento visivo L’affaticamento visivo è probabilmente il punto più importate da considerare nell’ambito del cinema stereoscopico. I primi film stereoscopici risultavano spesso una pessima esperienza visiva. Ukai e Howarth hanno sviluppato uno studio riguardo l’affaticamento visivo causato dalla vista di film stereoscopici [25]. I sintomi di questo stato sono mal di testa, assonnamento e arrossamento degli occhi. Ma anche sintomi non visibili quali ad esempio la perturbazione del sistema visivo-motore. Ukai and Howarth riportano anche di un caso in cui un bambino fu danneggiato permanentemente nelle sue capacità visivo-motorie proprio a causa della visione di un film stereoscopico. Le fonti di affaticamento visivo sono specifiche del moto stereoscopico e hanno spesso origine nelle asimmetrie binoculari, i.e differenze fotometriche o geometriche tra le immagini percepite dalla retina destra e dalla sinistra. Importati studi a riguardo hanno riportato quali siano i valori soglia che portano a questo affaticamento indicando nelle disparità verticali una colpa maggiore. Le cause principali di questo problema sono principalmente le seguenti: • Cross-talk: problema presente principalmente in sistemi con singolo schermo in cui una piccola frazione dell’intensità dell’immagine destra è percepita dall’occhio sinistro e vice-versa; • Rottura della regola del proscenio: si ha nel momento in cui vi è un errore di interposizione tra le immagini stereoscopiche e gli archi del display; • Disparità orizzontale/verticale: problema dovuto ad una disparità orizzontale/verticale maggiore dei limiti dell’occhio • Conflitti di convergenza-divergenza: occorrono quando la distanza focale degli occhi non è consistenze con l’angolo di vergenza. Le asimmetrie geometriche sono molto spesso causate o da un disallineamento o da una differenza tra l’ottica del sistema di telecamere o tra quello del sistema di proiezione(figura 13) 46 Figura 13: Alcuni esempi di asimmetrie geometriche: a) shift verticale, b) differenza di dimensione o di ingrandimento, c) differenza di distorsione, d) distorsione trapezoidale a causa di convergenza nelle telecamere, e) shift orizzontale. Tratto da [25] 7.4 7.4.1 Trovare la giusta geometria della ripresa Il punto di vista di Spottiswoode Il lavoro di Spottiswoode et al. [26] rappresenta il primo e vero saggio nell’ambito della percezione geometrica nel cinema stereoscopico. Ciò che mostrano è come la profondità sia distorta attraverso la “proiezione stereoscopica” e come raggiungere “continuità”, o fare in modo che ci sia una transizione graduale della profondità nel passaggio da una immagine stereoscopica ad un’altra. Affermano inoltre che tutti i parametri stereoscopici debbano essere adattati o durante la ripresa o in fase di post-production a seconda della dimensione dello schermo e per raggiungere l’effetto desiderato. In accordo con il loro lavoro il parametro stereoscopico principale è il fattore di vicinanza N, definito come il rapporto tra la distanza di vista dallo schermo e la distanza tra le immagini “combinate”. La continuità spaziale è ottenuta attraverso il lento spostamento per pochi secondi delle immagini in direzione orizzontale prima o dopo i cambi. Lo spettatore non nota questo spostamento; l’angolo di convergenza è infatti adattato al sistema visivo umano e la percezione di profondità persiste. La soluzione proposta da Spottiswoode è una soluzione completamente matematica che in qualche modo limita i registi. Il maggior problema della soluzione proposta sta infatti nel fatto che l’artista è costretto dalla matematica nella sua creazione; la cinematografia è sempre stata un arte libera, con leggi leggere. Tuttavia i vincoli del cinema 3D risultano molto più stretti di quelli 2D e questo è dovuto ai problemi che possono nascere 47 da una errata ripresa 3D. Una pessima produzione 3D può anche risultare un ottimo film 2D, ma aggiungendo la dimensione stereoscopica è necessario anche modificare la qualità del film. La teoria di Spottiswoode tuttavia porta con se alcuni problemi tra i quali: • La parametrizzazione per il fattore di vicinanza nasconde il fatto che distorsioni di profondità e di dimensione possano verificarsi in alcuni casi, specialmente per punti lontani. • La divergenza all’infinito compare spesso nello shift delle immagini utilizzato per la continuità spaziale. • Lo shifting delle immagini può rompere il vincolo di convergenza e portare ad un affaticamento visivo. 7.4.2 Ripresa e vista di geometrie Il problema maggiormente sottolineato da Spottiswoode è il fatto che proiettando la ripresa su schermi di diversa dimensione e distanza, si ha una diversa percezione della profondità da proiezione a proiezione. Una delle prime soluzioni al problema, tra le più evidenti, fu quella di adottare una ripresa attraverso due camere, e ri-proiettare le riprese attraverso due proiettori aventi un interoculare simile a quello umano, cosi da mostrare i punti all’infinito esattamente all’infinito e con divergenza 0. Questa soluzione non è però sempre applicabile o auspicabile per gli standard dei film stereoscopici. Non solo infatti richiedono ambienti appositamente definiti, ma in certi casi è necessario avere ad esempio una convergenza non nulla. E’ possibile studiare la causa di queste distorsioni dal punto di vista geometrico. In generale è possibile rappresentare il setup stereoscopico completo solamente con una serie di semplici parametri. La figura 14 mostra quali siano questi parametri. La particolarità di questo modello è la semplicità che questo introduce nel suo effetto per la distorsione. Questo modello assume che le immagini siano state rettificate, e che quindi il sistema non presenti distorsioni verticali cosı̀ che il piano di convergenza, il piano a disparità 0, sia verticale e parallelo alla linea che unisce i centri ottici delle camere. Sotto questa ipotesi si ha che le distorsioni 3D percepite nascono da differenti ingrandimenti secondo direzioni fronto-parallele. Siano b, W, H, Z i parametri di camera stereoscopici e b0 , W 0 , H 0 , Z 0 48 i parametri della vista come in figura 14, d la disparità nell’immagine. Sia inoltre d0 la disparità nel display di proiezione tale che d0 = d + d0 dove d0 rappresenta il possibile shift tra le immagini. Figura 14: Descrizione della geometria della ripresa e della proiezione attraverso i parametri. I triangoli M P M 0 e CP C 0 sono omotetici, di conseguenza : Z −H W b Z −H H = d ⇒ d= · o Z= (1) Z b W Z 1 − Wb d Ciò vale sia per la geometria della ripresa che per quella della proiezione. Da queste è possibile calcolare la disparità d e la reale profondità Z : b Z −H · (2) W Z Si ottiene allora una profondità Z 0 percepita a partire dalla disparità d0 definita da d= H0 (3) 1 − (d + d0 ) che porta, eliminando la disparità da entrambe le equazioni, a: Z0 = Z0 = H0 1− W 0 b Z−H ( b0 W Z + d0 ) W0 b0 o Z= 49 H 1− W b0 Z 0 −H 0 ( b W 0 Z0 + d0 ) (4) 7.4.3 La distorsione in profondità Analizziamo adesso meglio la distorsione che si ha a partire dalla profondità percepita. In generale, i punti all’infinito (Z → +∞) sono percepiti come H0 Z0 = (5) 0 1 − Wb0 (d + d0 ) L’occhio percepisce la divergenza quando Z 0 diventa negativo. Gli occhi “divergono” quando guardando alla scena, i punti all’infinito 0 (Z → +∞) sono tali che: Wb 0 < Wb + d0 . In questo caso la profondità reale mappata su Z 0 = ∞ può essere calcolata come 1 Z0 = (6) W b0 1 − b ( W 0 − d0 ) cosi che tutti gli oggetti posti a questa distanza provochino diver0 genza. La relazione tra Z e Z 0 è non lineare, eccetto se Wb = Wb0 e d0 = 0. La situazione in cui questo succede è definita dal setup canonico. In questo caso, la relazione tra Z e Z 0 si semplifica a: H0 W W0 0 Z =Z Setupcanonico : = 0 , d0 = 0 (7) H b b A partire dalla configurazione canonica possiamo capire quali e come siano fatte le distorsioni in profondità. La modifica del parametro b soltanto porta al problema dell’hyperstereo e hypostereo: il fattore di rotondità negli oggetti all’interno dello schermo varia da valori troppo alti a valori troppo bassi. Supponiamo adesso che il soggetto ripreso si stia allontanando dalla telecamera e supponiamo di voler mantenere la sua dimensione costante, regolando zoom e convergenza(i.e W rimanga costante). Per mantenere il fattore di rotondità dell’oggetto costante, è necessario mantenere il fattore interoculare b proporzionale alla distanza dell’oggetto H. Quello che succede è che l’ingrandimento di profondità o il fattore di rotondità vicino al piano dello schermo rimane uguale ad 1, ma la profondità degli oggetti fuori dallo schermo è distorta.[27] 7.5 La post-produzione nei film stereoscopici Ripreso un film attraverso una tecnica stereoscopica, nella fase di post-produzione il film non viene adattato alle condizioni giuste per la sua visualizzazione perche: 50 • La distanza dallo schermo di proiezione, e la sua dimensione sono differenti da luogo di proiezione a luogo di proiezione. Ne risulta quindi un distinto fattore di rotondità da sistemare. • Uno schermo di proiezione di grandezza maggiore di quella aspettata porterebbe ad una divergenza causata dai punti all’infinito. • Vincoli sulla posizione della camera potrebbero causare forti disparità, divergenze. • La camera stereoscopica non è parametrizzata opportunamente durante la ripresa. Teoricamente, modificare i parametri di ripresa della camera è possibile anche in fase di post-produzione, anche se questo necessità di tecniche e algoritmi avanzati di computer vision e computer graphics. A partire inoltre dalla concezione che è possibile ricavare la struttura 3D attraverso tecniche di visione, certi processi di post produzione possono essere effettuati attraverso tecniche di computer vision. 7.5.1 Eliminazione della disparità verticale: Rettifica dei film stereoscopici La disparità verticale è una delle principali cause di affaticamento visivo, e nasce da un disallineamento delle camere o dei centri ottici o da una loro errata configurazione. In Computer Vision, la ricostruzione 3D da immagini stereoscopiche avviene solitamente attraverso una trasformazione delle immagini originali. Questa trasformazione è definita come rettifica ed è una deformazione 2D dell’immagine attraverso l’allineamento di punti di match. La rettifica di coppie di immagini stereoscopiche è solitamente effettuata attraverso il calcolo della geometria epipolare del sistema di camere stereoscopico [28],[29]. Conoscendo la geometria epipolare è possibile mappare punti di un immagine su rette o curve nell’altra immagine che è la proiezione attraverso il raggio ottico del punto nell’immagine. La rettifica di una singola immagine acquisita in laboratorio con certe caratteristiche e la rettifica di immagini stereoscopiche provenienti da una ripresa cinematografica non sono esattamente lo stesso task. Nel caso dell’ambito cinematografico infatti il processo di rettifica possiede i seguenti vincoli: 51 • Deve essere in grado di funzionare anche senza conoscenza dei parametri della camera stereoscopica, dato che queste informazioni non sono sempre disponibili perchè perse o non fruibili. • Non deve richiedere pattern di calibrazione dato che la gamma di configurazioni della camera richiederebbero troppi differenti pattern di calibrazione calibrazioni di diversa dimensione della griglia. • Il rapporto delle distanze nell’immagine rettificata deve essere quanto più vicina a quello dell’immagine originale • L’immagine rettificata deve riempire completamente il frame; non sono tollerate aree “nere” o “sconosciute”. • La rettifica dell’intero film deve essere liscia in modo che parametri di rettifica siano calcolati un unica volta, o comunque con una leggera variazione nel tempo. • I parametri di camera(lunghezza focale, focus) e quelli di tutta l’attrezzatura(interoculare, vergenza) devono essere fissati durante la ripresa, o possono avere al massimo una leggera variazione. • Le immagini possono avere qualità artistiche difficili da mantenere con gli algoritmi di computer vision. Gli algoritmi sviluppati per la rettifica di immagini di riprese stereoscopiche sono numerosi e tutti quanti possiedono caratteristiche basilari per una corretta rettifica. Molti sono i centri e le aziende che si occupano di correzioni e post-processing per riprese stereoscopiche. Tra le pi importanti citiamo The Foundry[30]. 7.6 Conclusioni Il mondo del cinema 3D si sta sviluppando ad un notevole velocità, forte del successo avuto sia in ambito cinematografico, sia per quanto riguarda i display dei televisori. Questo mercato particolarmente fruttuoso è si spinto dalla moda del momento e dalle sue affascinanti caratteristiche, ma anche dal continuo sviluppo di tecniche per ridurre al minimo i problemi di affaticamento della vista e per rendere 52 questo tipo di riproduzione il meno vincolata possibile a display, occhiali e distanze. Inoltre è nato un nuovo mercato in campo di fotografia stereoscopica anche in campo privato. Nel 2009 infatti la Fuji ha realizzato la prima fotocamera binoculare stereoscopica con applicazione di cornice stereoscopica automatica. Questa attività promette quindi interessanti sviluppi della vista stereoscopica e di dispositivi che costruiscano in maniera adeguata modelli 3D per la modellazione dei contenuti stereoscopici. L’ambito della visione stereoscopica in Computer Vision risulta vivo più che mai. 53 8 Centri di ricerca e pionieri della computer vision cinematografica Vista la sempre crescente richiesta di tecniche di visione, sia in merito cinematografico che non, dagli anni 80’ in poi si sono sviluppati numerosi centri di ricerca sia in ambito universitario che aziendale. Come indicato in precedenza, non è corretto definire il contributo visione/cinema a senso unico. Molte delle tecniche sviluppate infatti non esisterebbero se il mondo cinematografico non si fosse accorto del potenziale della disciplina e non vi avesse investito. E non è neppure sorprendente il fatto che alcuni dei centri di ricerca ad oggi più attivi e producenti siano parte di aziende del cinema. Sebbene molto spesso visione e grafica si mescolino in questi centri di ricerca, visto il contesto e il tempo, si può affermare con una certa certezza che la maggior parte della ricerca sia oggi riguardante la visione. Tra i centri di ricerca più importanti e longevi, nato negli anni 30’ come struttura di ricerca cinematografica, troviamo il centro della Disney. I lavori prodotti in merito alla visione sono conosciuti in tutto il mondo e qui troviamo alcuni dei pionieri in materia [31]. Tra i centri di ricerca cinematografica molto più giovane, troviamo quello della Pixar. Sebbene fondato solamente negli anni 90, es anche se specializzato principalmente nell’ambito dell’animazione(ed in tutto quello che comporta), è particolarmente fruttifero ed importante [32]. Sebbene di importanza assoluta, i centri di ricerca universitari concentrano il loro lavoro sulla visione in generale; solo in alcuni casi si specificano nella ricerca di una soluzione ad un problema vero e proprio. L’altro importante e diretto contributo alla cinematografia proviene quindi da aziende specifiche impegnate esclusivamente nello studio e nella realizzazione di tecniche di visione da applicare al mondo del cinema. Tra le compagnie più importanti è sicuramente presente 2d3 [33], Mocha [34], e Mova [35]. Queste importanti aziende non solamente hanno prodotto tecniche di computer vision di estremo interesse per tutta la comunità, ma hanno rilasciato anche software estremamente utilizzati nelle produzioni cinematografiche. Menzionare tutte le aziende ed i centri limita la visione effettiva delle persone che lavorano in questo campo. Non è possibile tuttavia non menzionare uno dei pionieri della computer vision in ambito 54 cinematografico. Paul Debevec [36] ha partecipato ad un numero enorme di lavori riguardanti la visione applicata a temi particolarmente cari al cinema. Nella sua pagina web è possibile visualizzare non solamente tutti i progetti a cui ha partecipato, ma anche tutte le categorie di tecniche a cui a preso parte. 55 9 Conclusioni Questo lavoro, senz’altro non esaustivo, ha cercato di porre una panoramica sull’importanza di una disciplina quale la computer vision nel mondo cinematografico. È stata illustrata l’evoluzione della cinematografia e sono stati presentati alcuni dei temi e degli ambiti in cui la computer vision è maggiormente applicata. Ovviamente non si tratta di parti del cinema che fanno del regista un artista (stesura della storia, scrittura delle battute, scelta degli attori), ma solamente quegli aspetti legati al mondo dei computer e alla parte della produzione cinematografica quale l’editing ed il post processing. È stato illustrato come le tecniche di visione possano oggi risolvere alcuni dei problemi intrinseci nella cinematografia e come attraverso questa disciplina si possa migliorare la qualità visiva di una produzione e la sua realtà. Come si è potuto apprezzare la computer vision porta la finzione cinematografica a tangere la realtà, con un audience sempre meno consapevole di quali effetti siano reali e di quali siano frutto del lavoro del computer. Si tratta ancora di una disciplina molto giovane che deve crescere, ma vista la sempre maggiore richiesta e visto il continuo miglioramento dei dispositivi di calcolo, sta prendendo sempre più piede, sia in ambiti “limitati” quali quello della cinematografia, sia in ambiti molto più comuni. 56 Riferimenti bibliografici [1] Jaramillo, Deborah. History of Cinema. Boston University, Boston, Massachusetts, United States. (2010, October 4) [2] Thompson, Kristin and David Bordwell. (2010). Film History: An Introduction. New York, NY: McGraw-Hill [3] Szeliski, Richard. Computer Vision: Algorithms and Applications. September 3, 2010. Springer [4] Debevec, P., C. Taylar, J. Malik.“Modeling and Rendering Architecture from Photographs: A hybrid geometryand image-based approach,” Computer Graphics, August 1996 [5] Debevec, P.“Image-Based 3D Modeling,” Computer Graphics, 33(4) November 1999. [6] Bogart, Rod. “View Correlation,” Graphics Gems II, J. Arvo, Editor, Academic Press, 1991. [7] Faugeras, O. Three-Dimensional Computer Vision, MIT Press, 1993. [8] Mortensen, E. Vision-Assisted Image Editing, Computer Graphics, 33(4) November 1999 [9] http://www.filmsite.org [10] Terzopoulos, D., A. Witkin and M. Kass. “Constraints on deformable models: Recovering 3D shape and nonrigid motion,” Artificial Intelligence, 36(1):91-123, 1988 [11] Terzopoulos, D. and A. Witkin. “Physically-based models with rigid and deformable components,” IEEE Computer Graphics and Applications, 8(6):41-51, 1988 [12] Lee, Y., D. Terzopoulos, K. Waters. “Realistic facial modeling for animation,” Computer Graphics, Los Angeles, CA, August 1995, p. 55-62. 57 [13] Sifakis, E., Neverov, I., Fedkiw, R.:Automatic determination of facial muscle activations from sparse motion capture marker data. ACM Trans. Graph. 24(3), 417425 (2005) [14] T Beeler, B Bickel, P Beardsley, B Sumner, M Gross. High-Quality Single-Shot Capture of Facial Geometry. ACM Trans. on Graphics, 2010 [15] N Ersotelos, F Dong. Building highly realistic facial modeling and animation: a survey. The Visual Computer, 2008 - Springer [16] T.B. Moeslund, E. Granum, A survey of computer visionbased human motion capture, Computer Vision and Image Understanding. (2001) [17] T.B. Moeslund, A. Hilton, V. Kruger. A survey of advances in vision-based human motion capture and analysis. [18] P. Mistry, P. Maes, and L. Chang. WUW -wear ur world: a wearable gestural interface. In [119], pp. 41114116. D. Mizell. Boeings wire bundle assembly project. [19] http://www.scientificamerican.com/article.cfm?id=hologramphotoreflective-polymer-film [20] Ennos AE, Virdee MS (1982) High accuracy profile measurement of quasi-conical mirror surfaces by laser autocollimation. Precis Eng 4(1):58 [21] http://www.holografia.wz.cz/holography/ [22] D.W.F. van Krevelen, R. Poelman. A Survey of Augmented Reality Technologies, Applications and Limitations. The International Journal of Virtual Reality, 2010 [23] Vincent Lepetit. On Computer Vision for Augmented Reality. Ecole Polytechnique Federale de Lausanne (EPFL). Computer Vision Laboratory [24] Hummel, R.: 3-D cinematography. American Cinematographer Manual, pp. 5263. American Society of Cinematographers, Hollywood, CA (2008) 58 [25] Ukai, K., Howarth, P.A.: Visual fatigue caused by viewing stereoscopic motion images: background, theories, and observations. Displays 29(2), 106116 (2007) [26] Spottiswoode, R., Spottiswoode, N.L., Smith, C.: Basic principles of the threedimensional film. SMPTE J. 59, 249286 (1952). http://www.archive.org/details/journalofsociety59socirich [27] Rèmi Ronfard, Gabriel Taubin. 3-D Cinematography Processing for Image and Geometry. [28] Barreto, J.P., Daniilidis, K.: Fundamental matrix for cameras with radial distortion. In: Proc. ICCV (2005). doi:10.1109/ICCV.2005.103. [29] Hartley, R., Zisserman, A.: Multiple-View Geometry in Computer Vision. Cambridge University Press, Cambridge (2000) [30] http://www.thefoundry.co.uk [31] http://www.disneyresearch.com/research/computer vision.htm [32] http://graphics.pixar.com/ [33] http://www.2d3.com [34] http://www.imagineersystems.com/ [35] http://www.mova.com/ [36] http://www.pauldebevec.com/ 59