Tecniche di visualizzazione 3D

TELEMATICS LAB
Il fenomeno della tridimensionalità
Stereoscopia: dal greco "στερεός" (stereòs), “spazio” e "σκοπέω" (skopéo), “vedere”
 “vedere nello spazio”
• Dov’è collocato l’oggetto nello spazio?
• In quale direzione e a quale distanza si trova rispetto a noi?
Come funziona la vista?
La luce riflessa colpisce la retina (superficie bidimensionale) e proietta su di essa le
immagini del mondo circostante
Come è possibile che il nostro cervello da un’immagine piatta riesca a produrre una
rappresentazione tridimensionale del mondo reale?
Attraverso gli indizi di profondità che possono distinguersi in:
• indizi pittorici (o monoculari)
• indizi fisiologici (o binoculari)
Storia della stereoscopia
• 1838: Wheatstone introduce lo stereoscopio a specchi
• 1849: Sir Brewster sostituisce allo stereoscopio a specchi, quello a prisma
• 1853: Wilhelm Rollmann sviluppa il primo sistema per produrre immagini
anaglifiche
• 1891: vengono scoperti i metodi di polarizzazione per la vista stereoscopica
• 1903: a Parigi, i fratelli Lumière proiettarono il primo 3D in anaglifo: “L’arrivée du
train en gare de La Ciotat”. Il pubblico rimase esterrefatto davanti al treno che
effettivamente sembrava uscire dallo schermo
• 1903: Ives inventa le barriere di parallasse
• 1920: diversi scenziati, Ives compreso, pongono le basi del sistema lenticolare
• 1922: Carl Pulfrich illustra l’effetto Pulfrich
• 1948: Gabor scopre come realizzare i primi ologrammi
• …
Percepire la profondità: indizi di profondità
• Interposizione
• Grandezza relativa e familiare
• Ombreggiatura
Indizi monoculari
• Indizi prospettici
• Movimento relativo
• Convergenza
• Disparità binoculare
Indizi binoculari
Percepire la profondità: indizi monoculari
Interposizione: un oggetto più vicino copre parte di un oggetto più distante
Magritte, Le blanc-seing, 1965
Percepire la profondità: indizi monoculari
Grandezza relativa e familiare
•Grandezza relativa: permette di stabilire la distanza di oggetti fisicamente identici se ci appaiono di diverse grandezze
•Grandezza familiare: la conoscenza delle dimensioni “normali” di un oggetto influenza la distanza cui ci appare
Magritte, Golconde, 1953
Percepire la profondità: indizi monoculari
Ombreggiatura: il rapporto tra luci ed ombre dipende dalla struttura tridimensionale
dell’oggetto e crea una forte impressione di profondità in rappresentazioni
bidimensionali
Percepire la profondità: indizi monoculari
Indizi prospettici: le dimensioni relative degli oggetti vengono confrontate in funzione
della collocazione degli stessi sulle linee di convergenza
Raffaello, Sposalizio della vergine, 1504
Percepire la profondità: indizi monoculari
Movimento relativo: i soggetti vicini tendono a spostarsi nel nostro campo visivo più
velocemente di quelli lontani
Percepire la profondità: indizi binoculari
Convergenza
• gli occhi convergono secondo un certo angolo (parallasse angolare) in base alla
distanza dell’oggetto fissato: più vicino è, maggiore è la rotazione degli occhi
• Il sistema visivo calcola tale distanza basandosi sulla tensione dei muscoli oculomotori
• Il raggio d’azione della convergenza è limitato a 6 mt, al di là non vi è angolazione
Strumento potente per la produzione di contenuti 3D
“Stimolando” artificialmente l’avvicinamento degli occhi, lo spettatore percepirà una
sensazione di vicinanza e viceversa
Percepire la profondità: indizi binoculari
Disparità binoculare
• Gli occhi sono situati a 6-7 cm di distanza per cui vedono il mondo da due punti di vista lievemente diversi
• Alcuni particolari sono visibili solo a uno dei due occhi
• La disparità binoculare è un indizio di profondità, perché più lontano si trova l'oggetto più piccola sarà la
disparità binoculare
Percepire la profondità
Stereopsi
• Da stereo che significa “spazio” e opsis
che significa “comparsa”
• Processo attraverso la quale il cervello
fonde le due immagini generando la
visione tridimensionale
• Il cervello sfrutta gli indizi di profondità
per trarre informazioni sulla profondità
e sulla posizione spaziale dell’oggetto
Produzione di contenuti stereoscopici
Obiettivo
• Stimolare il cervello a riprodurre “artificialmente” il fenomeno della
stereopsi: le due immagini L/R vengono fuse in un’unica immagine
tridimensionale
Mezzo
• Disporre di due flussi di immagini che simulino rispettivamente il punto di
vista dell’occhio destro e dell’occhio sinistro (v. acquisizione flussi video)
• Utilizzare le immagini acquisite per sfruttare gli indizi di profondità
binoculare (v. posizionamento delle immagini)
• Veicolare a ciascun occhio ESCLUSIVAMENTE il corrispettivo flusso (v.
tecniche di visualizzazione)
Produzione di contenuti stereoscopici: acquisizione
Acquisizione flussi video
• Sono necessare due telecamere (distinte o a corpo unico) con i seguenti
requisiti:
Interaxial Distance di circa 65 mm
Allineamento
Sincronia di: acquisizione, messa a fuoco, zoom
Errori in fase di ripresa
Produzione di contenuti stereoscopici: posizionamento
Posizionamento degli oggetti nello spazio
• Per produrre l’illusione di profondità è necessario stimolare la convergenza degli occhi affinché un oggetto
venga messo a fuoco avanti o dietro il piano di proiezione  tecnica della parallasse
 Parallasse positiva  l’oggetto presente nell’immagine destinata all’occhio sinistro è posizionato a
sinistra dell’oggetto presente nell’immagine destinata all’occhio destro (oggetto più lontano rispetto al
piano dello schermo)
 Parallasse negativa  l’oggetto presente nell’immagine destinata all’occhio sinistro è posizionato a
destra dell’oggetto presente nell’immagine destinata all’occhio destro (oggetto più vicino rispetto al
piano dello schermo)
 Parallasse neutra  l’oggetto presente nell’immagine destinata all’occhio sinistro si sovrappone
esattamente con l’oggetto presente nell’immagine destinata all’occhio destro (oggetto posizionato
proprio sul piano dello schermo)
Parallasse positiva
Parallasse negativa
Parallasse neutra
Tecniche di visualizzazione 3D: introduzione
Obiettivo
• Date le due immagini (L/R) l’obiettivo comune a tutte le tecniche di visualizzazione è quello di tenere
separate le due immagini (canali) permettendo a ciascun occhio di ricevere SOLO quella ad esso
indirizzata
• I dispositivi devono disporre di specifiche tecniche per tenere separati i due flussi video
Principali tecniche di visualizzazione 3D
1. Separazione dei colori (anaglifia)
Stereoscopia passiva
2. Polarizzazione
3. Tecnologia shutter
Stereoscopia attiva
4. Autostereoscopia
Tecniche di visualizzazione 3D: anaglifia
Principi di funzionamento
• Il principio di fondo per veicolare le singole immagini ai rispettivi occhi si basa sulla separazione cromatica
sfruttando la complementarietà dei colori
• La somma di un colore primario e del suo complementare danno luogo ad una luce priva di crominanza,
(bianca o grigia)
Separazione dei canali
• Le due immagini acquisite vengono filtrate con due colori tra di loro complementari (es. rosso per la
sinistra e ciano per la destra) e successivamente sovrapposte a comporre l’anaglifo
• L’anaglifo è un’immagine bidimensionale che, osservata ad occhio nudo, appare sfocata e cromaticamente
alterata
• Indossando degli occhialini con lenti di colori analoghi (es. rosso per la sinistra e ciano per la destra), ogni
occhio vede solo l’immagine con lo stesso colore del filtro che gli è posto di fronte mentre il colore
complementare (visto come nero) viene annullato perché assorbito dal filtro
Tecniche di visualizzazione 3D: polarizzazione
Implementazione
• Sfruttando esclusivamente la differenza cromatica tra i due canali, è sufficiente un tradizionale schermo
2D
Tecniche di visualizzazione 3D: anaglifia
Vantaggi
• Rappresentare le immagini su un unico anaglifo (immagine 2D)
 Rappresentazioni di due immagini su una sola  riduzione della
dimensione
 Non richiede particolari dispositivi di visualizzazione
• Bassi costi degli occhialini
Svantaggi
• Forte degradazione della qualità cromatica
Tecniche di visualizzazione 3D: polarizzazione
Principi di funzionamento
• Sfrutta la direzionalità delle onde elettromagnetiche
• Le onde luminose si propagano nello spazio in linea retta mediante onde trasversali
• I fotoni oscillano su piani trasversali orientati casualmente dando luogo alla cosiddetta luce non
polarizzata
Tecniche di visualizzazione 3D: polarizzazione
Polarizzazione lineare
• Un polarizzatore lineare si comporta come un filtro che lascia passare solo le componenti luminose che
oscillano su un determinato piano, bloccando le altre secondo la Legge di Malus: I = I0cos2 θi dove
 I è l'intensità in uscita dal filtro
 I0 è l'intensità in entrata
 θi l'angolo compreso tra la direzione di polarizzazione dell'onda incidente e quella del filtro
polarizzatore
Tecniche di visualizzazione 3D: polarizzazione
Polarizzazione lineare: separazione dei canali
• Le due immagini acquisite vengono polarizzate l’una verticalmente e l’altra orizzontalmente
• Vengono mostrate o proiettate sullo schermo in perfetta sovrapposizione
• Lo spettatore viene dotato di occhialetti con lenti polarizzate nelle direzioni corrispondenti:
 La lente polarizzata orizzontalmente farà passare solo la luce polarizzata orizzontalmente riflettendo
completamente quella polarizzata verticalmente
 La lente polarizzata verticalmente farà passare solo la luce polarizzata verticalmente riflettendo
completamente quella polarizzata orizzontalmente
• Lo spettatore deve mantenere la testa perfettamente dritta, a costo di una progressiva perdita dell’effetto
3D
Tecniche di visualizzazione 3D: polarizzazione
Polarizzazione circolare
• Utilizzando adeguati filtri, un’onda è polarizzata
circolarmente se ruota in un piano perpendicolare alla
direzione di propagazione della luce, con velocità angolare
costante
• Il verso di rotazione può essere orario o antiorario, quindi si
possono polarizzare le due immagini, una in un verso e
l’altra nel verso opposto, in modo tale che l’occhio con una
determinata polarizzazione riesca a ricevere solo quella con
polarizzazione analoga
• E’ necessario prima polarizzare linearmente il fascio di luce e
successivamente filtrarlo attraverso uno strumento ottico
Tecniche di visualizzazione 3D: polarizzazione
Polarizzazione circolare: separazione dei canali
• Le due immagini acquisite vengono polarizzate l’una in senso orario e l’altra in senso antiorario
• Vengono mostrate o proiettate sullo schermo in perfetta sovrapposizione
• Lo spettatore viene dotato di occhialetti con lenti polarizzate nelle direzioni corrispondenti:
 La lente polarizzata in senso orario farà passare solo la luce polarizzata in senso orario riflettendo
completamente quella polarizzata in senso antiorario
 La lente polarizzata antiorario farà passare solo la luce polarizzata in senso antiorario riflettendo
completamente quella polarizzata in senso orario
• Lo spettatore può liberamente inclinare la testa senza perdere l’effetto 3D
Tecniche di visualizzazione 3D: polarizzazione
Implementazione
• Due proiettori con filtri polarizzatori passivi e schermo silver screen
• Monitor 3D a due pannelli sovrapposti
• Un proiettore a fps doppio con filtri polarizzatori attivi (z-screen) e schermo silver screen
 Utilizzo di un solo proiettore
 Qualità sensibilmente migliore per la non sovrapposizione delle due immagini
Pol. Circolare RealD
Tecniche di visualizzazione 3D: polarizzazione
Vantaggi
• Consente una riproduzione abbastanza fedele dei colori rispetto all’anaglifo
• Basso costo degli occhialini e dei filtri
Svantaggi
• Riduzione della luminosità proveniente dallo schermo di circa il 50% per ciascun occhio
Tecniche di visualizzazione 3D: active shutter
Principi di funzionamento
• La separazione avviene sfruttando l’alternanza temporale dei frame (alternate frame sequences)
• Il principio alla base di questa tecnica sfrutta la capacità del nostro cervello di fondere i frame ricevuti in
una successione sufficientemente rapida (persistenza retinica)
Separazione dei canali
• I frame destinati rispettivamente all’occhio sinistro e all’occhio destro si alternano velocemente
• Bloccando opportunamente, per ciascun occhio, la visione delle immagini destinate all’altro occhio, viene
ricostruita la scena tridimensionale
• A svolgere il compito di “otturatore” sono particolari occhialini le cui lenti sono costituite da schermi LCD i
quali, sottoposti ad opportune tensioni elettriche, si oscurano o si schiariscono sopprimendo
alternativamente l’una o l’altra immagine
• Il sistema di controllo degli occhialini deve essere sincronizzato con il dispositivo di visualizzazione
Tecniche di visualizzazione 3D: polarizzazione
Implementazione
• Monitor 2D ad elevata frequenza di aggiornamento (> 100 Hz) con occhialini attivi sincronizzati
• Un proiettore ad elevata frequenza di aggiornamento (> 100 Hz) con occhialini attivi sincronizzati
Vantaggi
• Facilità di implementazione: non necessita di schermi silver screen, doppio proiettore e filtri
• Qualità della visione: la luminosità e la percezione delle immagini non subiscono alcun degrado
Svantaggi
• Costo elevato degli occhiali attivi
• Sfarfallio utilizzando dispositivi di proiezione/visualizzazione con bassa frequenza di aggiornamento
Tecniche di visualizzazione 3D: autostereoscopia
Principi di funzionamento
• E’ possibile ottenere visioni stereoscopiche prescindendo dall’uso di occhialini o di altro hardware
• Questo tipo di schermi dispone di una tecnologia che li rende in grado di veicolare essi stessi le immagini
della stereo-coppia direttamente ai corrispettivi occhi dell’utente
Tecniche di visualizzazione 3D: autostereoscopia
• L’immagine destra e sinistra vengono interlacciate a colonne alternate
Separazione dei canali
Le tecnologie utilizzate sono:
• Barriera di parallasse
• Rete lenticolare
Tecniche di visualizzazione 3D: autostereoscopia
Barriera di parallasse
• Un particolare filtro elettro-ottico viene sovrapposto alla superficie del display
• Il filtro è composto da righe verticali che permettono a ciascun occhio di vedere solo le colonne di pixel ad
esso corrispondenti
Tecniche di visualizzazione 3D: autostereoscopia
Barriera di parallasse: implementazioni
La barriera può essere realizzata attraverso:
• Componenti fisiche
La barriera è realizzata fisicamente all’interno del display
 Vantaggi: basti costi per grandi distribuzioni
 Svantaggi: richiede il doppio della luminosità dei normali display
• Componenti elettriche:
Allo schermo è sovrapposto un display LCD che realizza la barriera di parallasse attivando delle strisce
opache verticali
 Vantaggi:
 se disattivata consente la retrocompatibilità con filmati 2D
 consente l’utilizzo di sistemi head-tracking
 Svantaggi:
 elevati costi di produzione
Tecniche di visualizzazione 3D: autostereoscopia
Rete lenticolare
• Il filtro è ottenuto disponendo una schiera di microlenti sulla superficie del display
• Ogni lente veicola a ciascun occhio solo l’immagine ad esso corrispondente
• Vantaggi:
 incremento della luminosità
 compatibile con sistemi di head-tracking
 Inserimento di più viste  più punti di visualizzazione, più spettatori
• Svantaggi:
 non è retrocompatibile con filmati 2D
Tecniche di visualizzazione 3D: autostereoscopia
Problematiche dell’autostereoscopia a due views
• l'osservatore deve porsi ad una opportuna distanza dallo schermo ed entro un certo angolo visuale
• dimezzamento della risoluzione orizzontale
Tecniche di visualizzazione 3D: autostereoscopia
Schermi autostereoscopici multiviews
•
•
•
•
Più telecamere riprendono la stessa scena
Migliora l’interazione con lo spettatore
Angolo di visione superiore
Transizione graduale tra un settore e l’altro
Tecniche di visualizzazione 3D: autostereoscopia
Schermi autostereoscopici multiviews
• Ogni pixel è costituito da tre celle colorate (rosso, verde e blu)
• Una matrice di microlenti cilindriche è posizionata sul pannello
• Ogni lente cilindrica copre N (<= 8) viste
Formati per il video 3D
• I formati video 3D attualmente disponibili possono essere classificati in quattro categorie:
 Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due
telecamere distanziate tra loro di circa 65 mm
CSV
Formati per il video 3D
• I formati video 3D attualmente disponibili possono essere classificati in quattro categorie:
 Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due
telecamere distanziate tra loro di circa 65 mm
 View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità
V+D
Formati per il video 3D
• I formati video 3D attualmente disponibili possono essere classificati in quattro categorie:
 Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due
telecamere distanziate tra loro di circa 65 mm
 View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità
 Multi-view: costituiti da frames catturati da più telecamere (opportunamente disposte) inquadranti la
stessa scena
MVV
Formati per il video 3D
• I formati video 3D attualmente disponibili possono essere classificati in quattro categorie:
 Conventional stereo video: costituiti da frames provenienti da due inquadrature realizzate con due
telecamere distanziate tra loro di circa 65 mm
 View plus depth: costituito da una singola vista a cui è associata la propria mappa di profondità
 Multi-view: costituiti da frames catturati da più telecamere (opportunamente disposte) inquadranti la
stessa scena
 Multi-view plus depth: ad ogni vista del multiview è associata una mappa di profondità
MV+D
Formati per il video 3D
• I formati video per il 3D si suddividono a loro volta in due sottocategorie che si riferiscono al modo con cui i
due frame sono multiplexati tra di loro
 Frame compatible: i due frame vengono sottocampionati e poi immagazzinati in un unico frame che avrà
le dimensioni di un frame 2D
 utilizza una compressione spaziale (o sub-sampling)
 subisce un dimezzamento delle risoluzione  riduzione delle dimensioni
 è compatibile con l’HDMI 1.3 e con la DVI Single-Link
 Frame incompatible: i due frame, conservando la loro risoluzione originale, vengono immagazzinati in
un unico frame che avrà risoluzione maggiore del singolo frame 2D oppure verranno visualizzati in
sequenza
 non prevedono sottocampionamento spaziale
 visualizzazione full-resolution  aumento delle dimensioni
 richiedono il protocollo HDMI 1.4
Formati per il video 3D: Conventional Stereo Video
Il formato video stereo convenzionale si riferisce al modo con cui i due frame di un segnale 3D sono
multiplexati tra di loro
• Side-by-Side : le immagini destra e sinistra vengono impacchettate una accanto all’altra sulle metà destra e
sinistra di un unico frame.
 Frame-compatible (half): le immagini vengono compresse orizzontalmente di un fattore 2 (utilizzato per
trasmissioni satellitari)
 Frame-packing (full): il frame risultante ha altezza uguale al corrispondente frame 2D e larghezza
doppia
Half side-by-side
Full side-by-side
Formati per il video 3D: Conventional Stereo Video
• Over-under: le immagini destra e sinistra vengono impacchettate una sopra l’altra sulla metà superiore e
inferiore di un unico frame.
 Frame-compatible (half): le immagini vengono compresse verticalmente di un fattore 2 (utilizzato per
trasmissioni satellitari)
 Frame-packing (full): il frame risultante ha larghezza uguale al corrispondente frame 2D e altezza
doppia
 con risoluzione 1920x1080p, (più 45 pixel di separazione tra le due immagini) è utilizzato per il BluRay 3D
Half over-under
Full over-under
Formati per il video 3D: Conventional Stereo Video
• Interleaved: le linee di entrambe le immagini vengono interlacciate tra di loro. E’ un formato di tipo framecompatible
 Row-interleaved: le righe dispari dell’immagine sinistra e quelle pari dell’immagine destra (o viceversa)
sono interlacciate in un frame di dimensioni 2D. Ciascun frame contiene metà delle righe dell’immagine
 Column-Interleaved: le colonne dispari dell’immagine sinistra e quelle pari dell’immagine destra (o
viceversa) sono interlacciate in un frame di dimensioni 2D. Ciascun frame contiene metà delle righe
dell’immagine
Row interleaved
Column interleaved
Formati per il video 3D: Conventional Stereo Video
• Checkerboard: le due viste sono sottocampionate e multiplexate in un unico frame con layout a scacchiera
Formati per il video 3D: Frame sequential
• Frame sequential: nella sequenza video si alternano un frame dell’immagine destra con un frame
dell’immagine sinistra
 il video 3D viene direttamente visualizzato sugli schermi con tecnologia active shutter
 non c’è perdita di risoluzione
Formati per il video 3D: Video plus depth
• Video plus depth: ad ogni frame (immagine destra o sinistra) viene associata una mappa di profondità
 Mappa di profondità: immagine in scala di grigi codificabile con 8 bit
 La mappa può essere ricavata da
 singola immagine 2D (segmentazione dell’immagine e rilevazione degli oggetti)
 analisi delle due viste (geometria epipolare)
 speciali telecamere ad impulsi ad infrarosso (Time Of Flight)
 Vantaggi: forte riduzione (5 -20 %) della dimensione dei frame rispetto alla stereo-coppia convenzionale
 Svantaggi: elevato costo computazionale; bassa definizione delle immagini
Formati per il video 3D: Multiview video
• Multiview: vengono utilizzate più telecamere per acquisire contemporaneamente diverse prospettive della
scena
 Utile per dispositivi autostereoscopici
 I frame possono essere organizzati in modalità sequenziale o combinata
• Multiview plus depth: ad ogni view è associata una mappa di profondità
 Utile per la trasmissione di più viste ottenendo un grande risparmio di banda
Codifica per formati 3D
• Stesse codifiche usate per video 2D: i metodi di codifica utilizzati per i video 2D sono applicabili anche ai
formati video 3D
• Simulcast view coding: Ogni vista viene codificata in maniera indipendente dall’altra usando un codec
video scalabile o non scalabile (es. H.264/AVC o SVC)
 Vantaggio: ogni vista può essere trasmessa indipendentemente dall’altra consentendo al client di
ricevere solo le viste desiderate
 Svantaggio: non vengono sfruttate le dipendenze inter-view
Codifica per formati 3D
• Multiview Video Coding (MVC): è l’estensione di H.264/AVC che sfruttando la ridondanza inter-vista,
garantisce un’alta efficienza di compressione per formati MVV
 I frame possono essere predetti dalla stessa vista oppure dai frame di altre viste
 La vista S0 è codificata in maniera indipendente e sfrutta esclusivamente le predizioni temporali (baseview)
 In tutte le altre viste il frame di tipo I è sostituito da frame P o B. Per i rimanenti frame del GOP lo
schema di predizione rimane lo stesso del base-view
 Consente la retrocompatibilità con i dispositivi 2D
Codifica per formati 3D
•
Asymmetric Stereoscopic Video Coding
 il sistema visivo umano è in grado di tollerare l’assenza delle componenti in alta frequenza in una della
due viste.
 una delle due può quindi essere presentata ad una qualità più bassa senza degradare la percezione del
video 3D.
 una visione asimmetrica prolungata può provocare fastidio agli occhi. Per risolvere l’inconveniente
riscontrato, si è pensato di alternare la qualità di codifica asimmetrica tra i due occhi quando si ha un
cambio di scena
•
Videp plus depth: usa le specifiche di MPEG C - Part 3
•
Multiview plus depth Coding: standard ancora in fase di definizione. Combina l’approccio V+D dello
MPEG C - Part 3 e l’estensione MVC di H.264/AVC.