TELEMATICS LAB Il fenomeno della tridimensionalità Stereoscopia: dal greco "στερεός" (stereòs), “spazio” e "σκοπέω" (skopéo), “vedere” “vedere nello spazio” • Dov’è collocato l’oggetto nello spazio? • In quale direzione e a quale distanza si trova rispetto a noi? Come funziona la vista? La luce riflessa colpisce la retina (superficie bidimensionale) e proietta su di essa le immagini del mondo circostante Come è possibile che il nostro cervello da un’immagine piatta riesca a produrre una rappresentazione tridimensionale del mondo reale? Attraverso gli indizi di profondità che possono distinguersi in: • indizi pittorici (o monoculari) • indizi fisiologici (o binoculari) Storia della stereoscopia • 1838: Wheatstone introduce lo stereoscopio a specchi • 1849: Sir Brewster sostituisce allo stereoscopio a specchi, quello a prisma • 1853: Wilhelm Rollmann sviluppa il primo sistema per produrre immagini anaglifiche • 1891: vengono scoperti i metodi di polarizzazione per la vista stereoscopica • 1903: a Parigi, i fratelli Lumière proiettarono il primo 3D in anaglifo: “L’arrivée du train en gare de La Ciotat”. Il pubblico rimase esterrefatto davanti al treno che effettivamente sembrava uscire dallo schermo • 1903: Ives inventa le barriere di parallasse • 1920: diversi scenziati, Ives compreso, pongono le basi del sistema lenticolare • 1922: Carl Pulfrich illustra l’effetto Pulfrich • 1948: Gabor scopre come realizzare i primi ologrammi • … Percepire la profondità: indizi di profondità • Interposizione • Grandezza relativa e familiare • Ombreggiatura Indizi monoculari • Indizi prospettici • Movimento relativo • Convergenza • Disparità binoculare Indizi binoculari Percepire la profondità: indizi monoculari Interposizione: un oggetto più vicino copre parte di un oggetto più distante Magritte, Le blanc-seing, 1965 Percepire la profondità: indizi monoculari Grandezza relativa e familiare •Grandezza relativa: permette di stabilire la distanza di oggetti fisicamente identici se ci appaiono di diverse grandezze •Grandezza familiare: la conoscenza delle dimensioni “normali” di un oggetto influenza la distanza cui ci appare Magritte, Golconde, 1953 Percepire la profondità: indizi monoculari Ombreggiatura: il rapporto tra luci ed ombre dipende dalla struttura tridimensionale dell’oggetto e crea una forte impressione di profondità in rappresentazioni bidimensionali Percepire la profondità: indizi monoculari Indizi prospettici: le dimensioni relative degli oggetti vengono confrontate in funzione della collocazione degli stessi sulle linee di convergenza Raffaello, Sposalizio della vergine, 1504 Percepire la profondità: indizi monoculari Movimento relativo: i soggetti vicini tendono a spostarsi nel nostro campo visivo più velocemente di quelli lontani Percepire la profondità: indizi binoculari Convergenza • gli occhi convergono secondo un certo angolo (parallasse angolare) in base alla distanza dell’oggetto fissato: più vicino è, maggiore è la rotazione degli occhi • Il sistema visivo calcola tale distanza basandosi sulla tensione dei muscoli oculomotori • Il raggio d’azione della convergenza è limitato a 6 mt, al di là non vi è angolazione Strumento potente per la produzione di contenuti 3D “Stimolando” artificialmente l’avvicinamento degli occhi, lo spettatore percepirà una sensazione di vicinanza e viceversa Percepire la profondità: indizi binoculari Disparità binoculare • Gli occhi sono situati a 6-7 cm di distanza per cui vedono il mondo da due punti di vista lievemente diversi • Alcuni particolari sono visibili solo a uno dei due occhi • La disparità binoculare è un indizio di profondità, perché più lontano si trova l'oggetto più piccola sarà la disparità binoculare Percepire la profondità Stereopsi • Da stereo che significa “spazio” e opsis che significa “comparsa” • Processo attraverso la quale il cervello fonde le due immagini generando la visione tridimensionale • Il cervello sfrutta gli indizi di profondità per trarre informazioni sulla profondità e sulla posizione spaziale dell’oggetto Produzione di contenuti stereoscopici Obiettivo • Stimolare il cervello a riprodurre “artificialmente” il fenomeno della stereopsi: le due immagini L/R vengono fuse in un’unica immagine tridimensionale Mezzo • Disporre di due flussi di immagini che simulino rispettivamente il punto di vista dell’occhio destro e dell’occhio sinistro (v. acquisizione flussi video) • Utilizzare le immagini acquisite per sfruttare gli indizi di profondità binoculare (v. posizionamento delle immagini) • Veicolare a ciascun occhio ESCLUSIVAMENTE il corrispettivo flusso (v. tecniche di visualizzazione) Produzione di contenuti stereoscopici: acquisizione Acquisizione flussi video • Sono necessare due telecamere (distinte o a corpo unico) con i seguenti requisiti: Interaxial Distance di circa 65 mm Allineamento Sincronia di: acquisizione, messa a fuoco, zoom Errori in fase di ripresa Produzione di contenuti stereoscopici: posizionamento Posizionamento degli oggetti nello spazio • Per produrre l’illusione di profondità è necessario stimolare la convergenza degli occhi affinché un oggetto venga messo a fuoco avanti o dietro il piano di proiezione tecnica della parallasse Parallasse positiva l’oggetto presente nell’immagine destinata all’occhio sinistro è posizionato a sinistra dell’oggetto presente nell’immagine destinata all’occhio destro (oggetto più lontano rispetto al piano dello schermo) Parallasse negativa l’oggetto presente nell’immagine destinata all’occhio sinistro è posizionato a destra dell’oggetto presente nell’immagine destinata all’occhio destro (oggetto più vicino rispetto al piano dello schermo) Parallasse neutra l’oggetto presente nell’immagine destinata all’occhio sinistro si sovrappone esattamente con l’oggetto presente nell’immagine destinata all’occhio destro (oggetto posizionato proprio sul piano dello schermo) Parallasse positiva Parallasse negativa Parallasse neutra Tecniche di visualizzazione 3D: introduzione Obiettivo • Date le due immagini (L/R) l’obiettivo comune a tutte le tecniche di visualizzazione è quello di tenere separate le due immagini (canali) permettendo a ciascun occhio di ricevere SOLO quella ad esso indirizzata • I dispositivi devono disporre di specifiche tecniche per tenere separati i due flussi video Principali tecniche di visualizzazione 3D 1. Separazione dei colori (anaglifia) Stereoscopia passiva 2. Polarizzazione 3. Tecnologia shutter Stereoscopia attiva 4. Autostereoscopia Tecniche di visualizzazione 3D: anaglifia Principi di funzionamento • Il principio di fondo per veicolare le singole immagini ai rispettivi occhi si basa sulla separazione cromatica sfruttando la complementarietà dei colori • La somma di un colore primario e del suo complementare danno luogo ad una luce priva di crominanza, (bianca o grigia) Separazione dei canali • Le due immagini acquisite vengono filtrate con due colori tra di loro complementari (es. rosso per la sinistra e ciano per la destra) e successivamente sovrapposte a comporre l’anaglifo • L’anaglifo è un’immagine bidimensionale che, osservata ad occhio nudo, appare sfocata e cromaticamente alterata • Indossando degli occhialini con lenti di colori analoghi (es. rosso per la sinistra e ciano per la destra), ogni occhio vede solo l’immagine con lo stesso colore del filtro che gli è posto di fronte mentre il colore complementare (visto come nero) viene annullato perché assorbito dal filtro Tecniche di visualizzazione 3D: polarizzazione Implementazione • Sfruttando esclusivamente la differenza cromatica tra i due canali, è sufficiente un tradizionale schermo 2D Tecniche di visualizzazione 3D: anaglifia Vantaggi • Rappresentare le immagini su un unico anaglifo (immagine 2D) Rappresentazioni di due immagini su una sola riduzione della dimensione Non richiede particolari dispositivi di visualizzazione • Bassi costi degli occhialini Svantaggi • Forte degradazione della qualità cromatica Tecniche di visualizzazione 3D: polarizzazione Principi di funzionamento • Sfrutta la direzionalità delle onde elettromagnetiche • Le onde luminose si propagano nello spazio in linea retta mediante onde trasversali • I fotoni oscillano su piani trasversali orientati casualmente dando luogo alla cosiddetta luce non polarizzata Tecniche di visualizzazione 3D: polarizzazione Polarizzazione lineare • Un polarizzatore lineare si comporta come un filtro che lascia passare solo le componenti luminose che oscillano su un determinato piano, bloccando le altre secondo la Legge di Malus: I = I0cos2 θi dove I è l'intensità in uscita dal filtro I0 è l'intensità in entrata θi l'angolo compreso tra la direzione di polarizzazione dell'onda incidente e quella del filtro polarizzatore Tecniche di visualizzazione 3D: polarizzazione Polarizzazione lineare: separazione dei canali • Le due immagini acquisite vengono polarizzate l’una verticalmente e l’altra orizzontalmente • Vengono mostrate o proiettate sullo schermo in perfetta sovrapposizione • Lo spettatore viene dotato di occhialetti con lenti polarizzate nelle direzioni corrispondenti: La lente polarizzata orizzontalmente farà passare solo la luce polarizzata orizzontalmente riflettendo completamente quella polarizzata verticalmente La lente polarizzata verticalmente farà passare solo la luce polarizzata verticalmente riflettendo completamente quella polarizzata orizzontalmente • Lo spettatore deve mantenere la testa perfettamente dritta, a costo di una progressiva perdita dell’effetto 3D Tecniche di visualizzazione 3D: polarizzazione Polarizzazione circolare • Utilizzando adeguati filtri, un’onda è polarizzata circolarmente se ruota in un piano perpendicolare alla direzione di propagazione della luce, con velocità angolare costante • Il verso di rotazione può essere orario o antiorario, quindi si possono polarizzare le due immagini, una in un verso e l’altra nel verso opposto, in modo tale che l’occhio con una determinata polarizzazione riesca a ricevere solo quella con polarizzazione analoga • E’ necessario prima polarizzare linearmente il fascio di luce e successivamente filtrarlo attraverso uno strumento ottico Tecniche di visualizzazione 3D: polarizzazione Polarizzazione circolare: separazione dei canali • Le due immagini acquisite vengono polarizzate l’una in senso orario e l’altra in senso antiorario • Vengono mostrate o proiettate sullo schermo in perfetta sovrapposizione • Lo spettatore viene dotato di occhialetti con lenti polarizzate nelle direzioni corrispondenti: La lente polarizzata in senso orario farà passare solo la luce polarizzata in senso orario riflettendo completamente quella polarizzata in senso antiorario La lente polarizzata antiorario farà passare solo la luce polarizzata in senso antiorario riflettendo completamente quella polarizzata in senso orario • Lo spettatore può liberamente inclinare la testa senza perdere l’effetto 3D Tecniche di visualizzazione 3D: polarizzazione Implementazione • Due proiettori con filtri polarizzatori passivi e schermo silver screen • Monitor 3D a due pannelli sovrapposti • Un proiettore a fps doppio con filtri polarizzatori attivi (z-screen) e schermo silver screen Utilizzo di un solo proiettore Qualità sensibilmente migliore per la non sovrapposizione delle due immagini Pol. Circolare RealD Tecniche di visualizzazione 3D: polarizzazione Vantaggi • Consente una riproduzione abbastanza fedele dei colori rispetto all’anaglifo • Basso costo degli occhialini e dei filtri Svantaggi • Riduzione della luminosità proveniente dallo schermo di circa il 50% per ciascun occhio Tecniche di visualizzazione 3D: active shutter Principi di funzionamento • La separazione avviene sfruttando l’alternanza temporale dei frame (alternate frame sequences) • Il principio alla base di questa tecnica sfrutta la capacità del nostro cervello di fondere i frame ricevuti in una successione sufficientemente rapida (persistenza retinica) Separazione dei canali • I frame destinati rispettivamente all’occhio sinistro e all’occhio destro si alternano velocemente • Bloccando opportunamente, per ciascun occhio, la visione delle immagini destinate all’altro occhio, viene ricostruita la scena tridimensionale • A svolgere il compito di “otturatore” sono particolari occhialini le cui lenti sono costituite da schermi LCD i quali, sottoposti ad opportune tensioni elettriche, si oscurano o si schiariscono sopprimendo alternativamente l’una o l’altra immagine • Il sistema di controllo degli occhialini deve essere sincronizzato con il dispositivo di visualizzazione Tecniche di visualizzazione 3D: polarizzazione Implementazione • Monitor 2D ad elevata frequenza di aggiornamento (> 100 Hz) con occhialini attivi sincronizzati • Un proiettore ad elevata frequenza di aggiornamento (> 100 Hz) con occhialini attivi sincronizzati Vantaggi • Facilità di implementazione: non necessita di schermi silver screen, doppio proiettore e filtri • Qualità della visione: la luminosità e la percezione delle immagini non subiscono alcun degrado Svantaggi • Costo elevato degli occhiali attivi • Sfarfallio utilizzando dispositivi di proiezione/visualizzazione con bassa frequenza di aggiornamento Tecniche di visualizzazione 3D: autostereoscopia Principi di funzionamento • E’ possibile ottenere visioni stereoscopiche prescindendo dall’uso di occhialini o di altro hardware • Questo tipo di schermi dispone di una tecnologia che li rende in grado di veicolare essi stessi le immagini della stereo-coppia direttamente ai corrispettivi occhi dell’utente Tecniche di visualizzazione 3D: autostereoscopia • L’immagine destra e sinistra vengono interlacciate a colonne alternate Separazione dei canali Le tecnologie utilizzate sono: • Barriera di parallasse • Rete lenticolare Tecniche di visualizzazione 3D: autostereoscopia Barriera di parallasse • Un particolare filtro elettro-ottico viene sovrapposto alla superficie del display • Il filtro è composto da righe verticali che permettono a ciascun occhio di vedere solo le colonne di pixel ad esso corrispondenti Tecniche di visualizzazione 3D: autostereoscopia Barriera di parallasse: implementazioni La barriera può essere realizzata attraverso: • Componenti fisiche La barriera è realizzata fisicamente all’interno del display Vantaggi: basti costi per grandi distribuzioni Svantaggi: richiede il doppio della luminosità dei normali display • Componenti elettriche: Allo schermo è sovrapposto un display LCD che realizza la barriera di parallasse attivando delle strisce opache verticali Vantaggi: se disattivata consente la retrocompatibilità con filmati 2D consente l’utilizzo di sistemi head-tracking Svantaggi: elevati costi di produzione Tecniche di visualizzazione 3D: autostereoscopia Rete lenticolare • Il filtro è ottenuto disponendo una schiera di microlenti sulla superficie del display • Ogni lente veicola a ciascun occhio solo l’immagine ad esso corrispondente • Vantaggi: incremento della luminosità compatibile con sistemi di head-tracking Inserimento di più viste più punti di visualizzazione, più spettatori • Svantaggi: non è retrocompatibile con filmati 2D Tecniche di visualizzazione 3D: autostereoscopia Problematiche dell’autostereoscopia a due views • l'osservatore deve porsi ad una opportuna distanza dallo schermo ed entro un certo angolo visuale • dimezzamento della risoluzione orizzontale Tecniche di visualizzazione 3D: autostereoscopia Schermi autostereoscopici multiviews • • • • Più telecamere riprendono la stessa scena Migliora l’interazione con lo spettatore Angolo di visione superiore Transizione graduale tra un settore e l’altro Tecniche di visualizzazione 3D: autostereoscopia Schermi autostereoscopici multiviews • Ogni pixel è costituito da tre celle colorate (rosso, verde e blu) • Una matrice di microlenti cilindriche è posizionata sul pannello • Ogni lente cilindrica copre N (<= 8) viste Formati per il video 3D • I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm CSV Formati per il video 3D • I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità V+D Formati per il video 3D • I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità Multi-view: costituiti da frames catturati da più telecamere (opportunamente disposte) inquadranti la stessa scena MVV Formati per il video 3D • I formati video 3D attualmente disponibili possono essere classificati in quattro categorie: Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due telecamere distanziate tra loro di circa 65 mm View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità Multi-view: costituiti da frames catturati da più telecamere (opportunamente disposte) inquadranti la stessa scena Multi-view plus depth: ad ogni vista del multiview è associata una mappa di profondità MV+D Formati per il video 3D • I formati video per il 3D si suddividono a loro volta in due sottocategorie che si riferiscono al modo con cui i due frame sono multiplexati tra di loro Frame compatible: i due frame vengono sottocampionati e poi immagazzinati in un unico frame che avrà le dimensioni di un frame 2D utilizza una compressione spaziale (o sub-sampling) subisce un dimezzamento delle risoluzione riduzione delle dimensioni è compatibile con l’HDMI 1.3 e con la DVI Single-Link Frame incompatible: i due frame, conservando la loro risoluzione originale, vengono immagazzinati in un unico frame che avrà risoluzione maggiore del singolo frame 2D oppure verranno visualizzati in sequenza non prevedono sottocampionamento spaziale visualizzazione full-resolution aumento delle dimensioni richiedono il protocollo HDMI 1.4 Formati per il video 3D: Conventional Stereo Video Il formato video stereo convenzionale si riferisce al modo con cui i due frame di un segnale 3D sono multiplexati tra di loro • Side-by-Side : le immagini destra e sinistra vengono impacchettate una accanto all’altra sulle metà destra e sinistra di un unico frame. Frame-compatible (half): le immagini vengono compresse orizzontalmente di un fattore 2 (utilizzato per trasmissioni satellitari) Frame-packing (full): il frame risultante ha altezza uguale al corrispondente frame 2D e larghezza doppia Half side-by-side Full side-by-side Formati per il video 3D: Conventional Stereo Video • Over-under: le immagini destra e sinistra vengono impacchettate una sopra l’altra sulla metà superiore e inferiore di un unico frame. Frame-compatible (half): le immagini vengono compresse verticalmente di un fattore 2 (utilizzato per trasmissioni satellitari) Frame-packing (full): il frame risultante ha larghezza uguale al corrispondente frame 2D e altezza doppia con risoluzione 1920x1080p, (più 45 pixel di separazione tra le due immagini) è utilizzato per il BluRay 3D Half over-under Full over-under Formati per il video 3D: Conventional Stereo Video • Interleaved: le linee di entrambe le immagini vengono interlacciate tra di loro. E’ un formato di tipo framecompatible Row-interleaved: le righe dispari dell’immagine sinistra e quelle pari dell’immagine destra (o viceversa) sono interlacciate in un frame di dimensioni 2D. Ciascun frame contiene metà delle righe dell’immagine Column-Interleaved: le colonne dispari dell’immagine sinistra e quelle pari dell’immagine destra (o viceversa) sono interlacciate in un frame di dimensioni 2D. Ciascun frame contiene metà delle righe dell’immagine Row interleaved Column interleaved Formati per il video 3D: Conventional Stereo Video • Checkerboard: le due viste sono sottocampionate e multiplexate in un unico frame con layout a scacchiera Formati per il video 3D: Frame sequential • Frame sequential: nella sequenza video si alternano un frame dell’immagine destra con un frame dell’immagine sinistra il video 3D viene direttamente visualizzato sugli schermi con tecnologia active shutter non c’è perdita di risoluzione Formati per il video 3D: Video plus depth • Video plus depth: ad ogni frame (immagine destra o sinistra) viene associata una mappa di profondità Mappa di profondità: immagine in scala di grigi codificabile con 8 bit La mappa può essere ricavata da singola immagine 2D (segmentazione dell’immagine e rilevazione degli oggetti) analisi delle due viste (geometria epipolare) speciali telecamere ad impulsi ad infrarosso (Time Of Flight) Vantaggi: forte riduzione (5 -20 %) della dimensione dei frame rispetto alla stereo-coppia convenzionale Svantaggi: elevato costo computazionale; bassa definizione delle immagini Formati per il video 3D: Multiview video • Multiview: vengono utilizzate più telecamere per acquisire contemporaneamente diverse prospettive della scena Utile per dispositivi autostereoscopici I frame possono essere organizzati in modalità sequenziale o combinata • Multiview plus depth: ad ogni view è associata una mappa di profondità Utile per la trasmissione di più viste ottenendo un grande risparmio di banda Codifica per formati 3D • Stesse codifiche usate per video 2D: i metodi di codifica utilizzati per i video 2D sono applicabili anche ai formati video 3D • Simulcast view coding: Ogni vista viene codificata in maniera indipendente dall’altra usando un codec video scalabile o non scalabile (es. H.264/AVC o SVC) Vantaggio: ogni vista può essere trasmessa indipendentemente dall’altra consentendo al client di ricevere solo le viste desiderate Svantaggio: non vengono sfruttate le dipendenze inter-view Codifica per formati 3D • Multiview Video Coding (MVC): è l’estensione di H.264/AVC che sfruttando la ridondanza inter-vista, garantisce un’alta efficienza di compressione per formati MVV I frame possono essere predetti dalla stessa vista oppure dai frame di altre viste La vista S0 è codificata in maniera indipendente e sfrutta esclusivamente le predizioni temporali (baseview) In tutte le altre viste il frame di tipo I è sostituito da frame P o B. Per i rimanenti frame del GOP lo schema di predizione rimane lo stesso del base-view Consente la retrocompatibilità con i dispositivi 2D Codifica per formati 3D • Asymmetric Stereoscopic Video Coding il sistema visivo umano è in grado di tollerare l’assenza delle componenti in alta frequenza in una della due viste. una delle due può quindi essere presentata ad una qualità più bassa senza degradare la percezione del video 3D. una visione asimmetrica prolungata può provocare fastidio agli occhi. Per risolvere l’inconveniente riscontrato, si è pensato di alternare la qualità di codifica asimmetrica tra i due occhi quando si ha un cambio di scena • Videp plus depth: usa le specifiche di MPEG C - Part 3 • Multiview plus depth Coding: standard ancora in fase di definizione. Combina l’approccio V+D dello MPEG C - Part 3 e l’estensione MVC di H.264/AVC.