La percezione dello spazio: stereo e movimento

La percezione dello spazio:
stereo e movimento
Corso di Principi e Modelli della Percezione
Prof. Giuseppe Boccignone
Dipartimento di Informatica
Università di Milano
[email protected]
http://boccignone.di.unimi.it/PMP_2016.html
Visione stereoscopica:
// disparità binoculare
• Le immagini retiniche dei due occhi del mondo esterno non sono esattamente
le stesse!
• Disparità binoculare:
diﬀerenza fra le
immagini retiniche
dei due occhi della
immagine retinica destra
stessa immagine
visiva.
immagine retinica sinistra
Visione stereoscopica:
// disparità binoculare
• Il sistema visivo percepisce
contemporaneamente due immagini retiniche
diverse
• vediamo le due dita e il punto di fissazione a
diﬀerenti profondità nella spazio
• La disparità binoculare ha molto in comune
con la parallasse di movimento:
• la parallasse di movimento confronta due
diverse immagini retiniche in modo sequenziale.
• la disparità binoculare due diverse immagini
retiniche contemporanemente.
• Direzione e grandezza della disparità ci dicono
quali punti sono vicini e quali lontani
Visione stereoscopica:
// disparità binoculare: la corrispondenza
• Posizioni corrispondenti sulla retina:
• Posizioni sulla retina che coincidono se le due fovee sono sovrapposte.
punto di
fissazione
Visione stereoscopica:
// disparità binoculare: la corrispondenza
• Posizioni corrispondenti sulla retina:
• Posizioni sulla retina che coincidono se le due fovee sono sovrapposte.
• La disparità binoculare emerge quando un dato punto nell’ambiente esterno
proietta su punti diﬀerenti sulle due retine.
punto di
fissazione
Visione stereoscopica:
// disparità binoculare: la corrispondenza
punto di
punto di fissazione
(centro fovea)
immagine retinica sinistra
punto di fissazione
(centro fovea)
immagine retinica destra
Visione stereoscopica:
// disparità binoculare: la corrispondenza
disparità = 0
punti retinici
corrispondenti
disparità non nulla
immagine retinica sinistra
immagine retinica destra
Visione stereoscopica:
// disparità binoculare: l’oroptere
• Non tutti i punti nell’ambiente producono disparità sulle retine destra e sinistra. oroptere
immagine retinica
sinistra
immagine retinica
destra
• L’insieme dei punti che stimolano posizioni corrispondenti sulle due retine si dice
Oroptere.
• Dal punto di vista geometrico l’oroptere coincide con il circolo di Vieth-Muller
Visione stereoscopica:
//stereogrammi
Visione stereoscopica:
//stereogrammi
• Fusione libera: La tecnica di incrociare
o divergere gli occhi in modo da
vedere uno stereogramma senza avere
a disposizione uno stereoscopio
• Per fondere stereoscopicamente le
due immagini è necessario
sovrapporre le due immagini percepite
dai due occhi di modo che il cervello
possa fonderle in una.
• CONVERGENZA INCROCIATA
(incrocio gli occhi).
• CONVERGENZA NON INCROCIATA
(guardo l’immagine come se fissassi
un punto più lontano).
Visione stereoscopica:
//stereogrammi
Visione stereoscopica:
//stereogrammi di punti casuali (random dot)
• Bela Julesz (1971).
• La stereopsi può essere utilizzata per
individuare oggetti e superfici
nell’ambiente.
• Negli steregrammi di punti casuali noi
percepiamo una nuova immagine
tridimensionale, che non è rintracciabile
in nessuno delle due immagini fuse
• Gli stereogrammi con random dot
dimostrano che non è indispensabile
sapere quello che si sta osservando
prima di vedere l’immagine in profondità
tramite stereopsi. La sola disparità
binoculare è suﬃciente per la percezione
della forma
Visione stereoscopica:
//stereogrammi di punti casuali
Visione stereoscopica:
//il problema della corrispondenza
• Il problema di trovare quale parte di una immagine nell’occhio sinistro deve
corrispondere ad una parte dell’immagine nell’occhio destro
• Problema: le immagini retiniche sono più numerose degli stimoli distali
Visione stereoscopica:
//il problema della corrispondenza
Visione stereoscopica:
//il problema della corrispondenza
ciò che vediamo
Visione stereoscopica:
//il problema della corrispondenza
1 2 3
ciò che vediamo
1
3
4
5
esistono due possibili interpretazioni
geometriche dello stimolo
Visione stereoscopica:
//il problema della corrispondenza
Cosa succede se l’immagine retinica sinistra del cerchio 2 viene messa in corrispondenza con
l’immagine retinica destra del cerchio 1 e l’immagine retinica sinistra del cerchio 3 viene messa
in corrispondenza con l’immagine retinica destra del cerchio 2?
1 2 3
1
3
4
5
• Si vedono quattro cerchi anziché tre, con i due centrali fluttuanti
Visione stereoscopica:
//il problema della corrispondenza: soluzione
• Il sistema visivo segue un’euristica: confronta
prima le due immagini foveali, poi quelle sulla
destra della fovea, infine quelle sulla sinistra
• Vincolo di unicità (Uniqueness constraint):
• un elemento dell’ambiente viene solitamente
rappresentato una sola volta in un immagine
retinica
• Vincolo di continuità (Continuity constraint) : • i punti nell’ambiente che sono vicini ricadono
a distanze simili dell’osservatore - ad
eccezione dei bordi (in un mondo senza
porcospini)
Visione stereoscopica:
//il problema della corrispondenza: soluzione
• Questa soluzione non funziona per gli
stereogrammi a punti casuali.
• Il sistema visivo dovrebbe confrontare
centinaia di punti casuali identici fra
loro.
• Come potrebbe decidere che il punto
che cade in una regione della retina di
un occhio è proprio lo stesso che cade
in una regione della retina dell’altro
occhio??
Visione stereoscopica:
//il problema della corrispondenza: soluzione (2)
• Il sistema visivo filtra le immagini conservando solo le basse
frequenza spaziali.
• Procede ad un matching nel range delle basse frequenze spaziali
prima di passare a fare una analisi “fine” nello spettro delle frequenze
spaziali più alte
• In questo modo si ottiene una risposta approssimativa, ma suﬃciente
a determinare una certa corrispondenza
Visione stereoscopica:
//il problema della corrispondenza: soluzione (2)
Visione stereoscopica:
//il problema della corrispondenza: soluzione (2)
Visione stereoscopica:
//come funziona la televisione 3D
• Vengono proiettate due diverse immagini
contemporaneamente o in maniera alternata, ogni occhio vede
solo i fotogrammi ad esso destinati
• Necessario un dispositivo di interfaccia tra la fonte delle
trasmissioni e lo spettatore: occhiali 3D
• Soluzione 1 (cinema): viene applicato il principio della polarizzazione della
luce. Sullo schermo vengono proiettate due immagini filtrate attraverso un
filtro polarizzatore. Ogni lente degli occhiali 3D lascia passare solo fasci di
luce di una specifica polarità, filtrando i restanti.
• Soluzione 2 (TV): vengono alternate le immagini destinate all’occhio destro
con quelle destinate all’occhio sinistro. Gli occhiali dovranno essere
sincronizzati con i fotogrammi sullo schermo, e tramite gli otturatori attivi
oscureranno, tramite uno strato di cristalli liquidi, i fotogrammi da non
mostrare.
• frequenza di almeno 120Hz (riscritture complete dello schermo al
secondo).
Visione stereoscopica:
//come funziona la televisione 3D
Visione stereoscopica:
//la corteccia striata: neuroni sensibili alla disparità
Visione stereoscopica:
//la corteccia striata: selezione informazione
Via magnocellulare:
localizzazione e
movimento
(dove)
Vie parvicellulare- blob:
percezione dei colori
e parvicellulare-interblob:
analisi delle forme
(cosa)
Vie binoculari
tridimensionalità
dell’oggetto
Visione stereoscopica:
//la corteccia striata: neuroni sensibili alla disparità
neurone sensibile a disparità 0
Visione stereoscopica:
//la corteccia striata: neuroni sensibili alla disparità
neurone sensibile a disparità non crociata (far cell)
Visione stereoscopica:
//modelli computazionali
Ipotesi:
1. due camere con i loro assi
ottici paralleli e separati da una
distanza d detta baseline B
2. i fuochi alla stessa altezza
3. l'asse x del nostro sistema di
riferimento parallelo alla baseline
un qualsiasi punto nell'immagine
sinistra avrà la stessa ordinata
nella corrispondente immagine
destra
Visione stereoscopica:
//modelli computazionali
il triangolo POF1 e' simile a F1O1P1
il triangolo POF2 e' simile a F2O2P
PO / F1O1 =
F1 F2 / (P1 O1+ O2 P2)
un qualsiasi punto nell'immagine
sinistra avrà la stessa ordinata
nella corrispondente immagine
destra
Visione stereoscopica:
//modelli computazionali
PO / F1O1 =
F1 F2 / (P1 O1+ O2 P2)
distanza del punto dall'immagine / distanza focale =
Baseline / somma delle basi
H/f=
B / delta
Pixel : 0,008333 mm
H = f * B / delta
nota
nota corrispondenza?
6 mm 12,8 mm
Pixel: 0,008333 mm
Visione stereoscopica:
//modelli: ricerca di punti significativi
Visione stereoscopica:
//modelli: ricerca delle corrispondenze
Visione stereoscopica:
//modelli: mappa di profondità
Visione stereoscopica:
//modelli: mappa di disparità
• In generale si cerca di risolvere le corrispondenze inferendo una mappa di
disparità D, osservando le immagini sinistra (left) e destra (right)
D
I= {IL, IR}
Visione stereoscopica:
//modelli: mappa di disparità
• Modello generativo probabilistico
D
D
P(D, I) = P(I | D) P(D)
= P(IL, IR | D) P(D)
I
I= {IL, IR}
Visione stereoscopica:
//modelli: mappa di disparità
• Inferenza con la regola di Bayes
P(D | I) =
P(IL, IR | D) P(D)
P(IL, IR )
D
max P(D | I) = max P(IL, IR | D) P(D)
• se P(D) = costante (e.g., uniforme)
max P(D | I) = max P(I | D)
= max ∏s e-F(s, d(s), I)
max log P(I | D)
min ∑s F(s, d(s), I)
I= {IL, IR}
Visione stereoscopica:
//modelli: mappa di disparità
• Minimizzazione di una funzione di costo min ∑s F(s, d(s), I)
• Un esempio semplice:
• Per ogni punto dell’immagine di riferimento
• si confronta la finestra centrata sul punto corrente con tutte le finestre corrispondenti
nell’altra immagine che rientrano all’interno del range di disparità specifico per la
coppia stereo. • il confronto si eﬀettua usando come misura di matching la funzione SAD (Sum of
Absolute Diﬀerences) su pixel in scala di grigio. • la finestra corrispondente al minimo della SAD determina la disparità per il punto
Visione stereoscopica:
//modelli: mappa di disparità
• Minimizzazione di una funzione di costo min ∑s F(s, d(s), I)
dispMap=zeros(nrLeft, ncLeft); %mappa di disparità
win=(windowSize-1)/2;
%ciclo su tutti i pixel delle immagini IL IR
for(i=1+win:1:nrLeft-win)
for(j=1+win+dispMax:1:ncLeft-win)
prevSAD = 65532;
temp=0.0;
bestMatchSoFar = dispMin;
win
%per tutte le disparità ammissibili
for(dispRange=-dispMin:-1:-dispMax)
%CALCOLA LA DISPARITA A MINIMA SAD
sad=0.0;
for(a=-win:1:win)
leftImage
for(b=-win:1:win)
if (j-win+dispRange > 0)
temp=abs(leftImage(i+a,j+b)-rightImage(i+a,j+b+dispRange));
sad=sad+temp;
end
end
end
if (prevSAD > sad)
prevSAD = sad;
bestMatchSoFar = dispRange;
end
rightImage
end
dispMap(i,j) = -bestMatchSoFar;
end
end
Visione stereoscopica:
//modelli: mappa di disparità
mappa ideale
(ground truth)
mappa inferita
D
I= {IL, IR}
I= {IL, IR}
Percezione del movimento
• L’impressione percettiva che un oggetto nel nostro campo visivo si è mosso o
si sta muovendo
• Perchè è importante il movimento?
• Quali sono le basi neurobiologiche?
• Come è rilevato (motion detection)?
• Come possiamo modellarlo?
Percezione del movimento
//importanza
Percezione del movimento
//livello neurofisiologico
• Come è possibile costruire un detettore per il movimento?
• Va considerato il cambiamento di posizione nel tempo
• Quindi è un buon inizio considerare due recettori adiacenti divisi da una distanza
stabilita e fissa
Percezione del movimento
//livello neurofisiologico: il detettore di Reichardt
Percezione del movimento
//livello neurofisiologico: il detettore di Reichardt
• Il modello di Reichardt è stato costruito per la mosca • Cosa succede nel nostro cervello?
Percezione del movimento
//la corteccia striata: selezione informazione
Via magnocellulare:
localizzazione e
movimento
(dove)
Vie parvicellulare- blob:
percezione dei colori
e parvicellulare-interblob:
analisi delle forme
(cosa)
Vie binoculari
tridimensionalità
dell’oggetto
Percezione del movimento
//Post illusione di movimento
Percezione del movimento
//Post illusione di movimento
Percezione del movimento
//Post illusione di movimento
Percezione del movimento
//Post illusione di movimento
Percezione del movimento
//Post illusione di movimento
Percezione del movimento
//Post illusione di movimento
• L’illusione del movimento di un oggetto stazionario dopo una prolungata
esposizione ad un movimento reale
• L’esistenza di tale illusione implica l’esistenza di processi di opponenza per la
percezione del movimento tipo quelli attivi per la percezione del colore
Percezione del movimento
//il problema dell’apertura
• Apertura: L’apertura è una fessura che permette solamente una visione
parziale dell’oggetto.
• Il problema della corrispondenza (di moto): Il porblema aﬀrontato dai detettori di
movimento per sapere quale feature presente in un frame N, corrisponde ad una
particolare feature del frame N-1
• Il problema dell’apertura: Riguarda il fatto che quando un oggetto in movimento
è visto attraverso una fessura, localmente (a livello dell’analisi di un detettore
cioè) la direzione del movimento può risultare ambigua
Percezione del movimento
//il problema dell’apertura
Percezione del movimento
//il problema dell’apertura
• Apertura: L’apertura è una fessura che permette solamente una visione
parziale dell’oggetto.
• Il problema della corrispondenza (di moto): Il porblema aﬀrontato dai detettori di
movimento per sapere quale feature presente in un frame N, corrisponde ad una
particolare feature del frame N-1
• Il problema dell’apertura: Riguarda il fatto che quando un oggetto in movimento
è visto attraverso una fessura, localmente (a livello dell’analisi di un detettore
cioè) la direzione del movimento può risultare ambigua
• Poiché i neuroni di V1 vedono il mondo attraverso piccole finestre (i loro campi
recettivi) questo porta al ben noto problema dell’apertura
Percezione del movimento
//Detezione del movimento globale
Percezione del movimento
//Detezione del movimento globale
• Abbiamo degli indizi per individuare la posizione nel sistema percettivo dei
detettori di moto globale:
• Lesioni negli strati magnocellulari del Corpo Genicolato Laterale rendono
deficitaria la percezione di oggetti grandi ed in movimento rapido
• Lobo Temporale mediale: Gioca un ruolo molto importante nella percezione del
movimento
• La maggior parte dei neuroni in MT sono sensibili ad una particolare direzione di
movimento
Percezione del movimento
//Detezione del movimento globale
Percezione del movimento
//Detezione del movimento globale
• Lobo Temporale mediale: Gioca un ruolo molto importante nella percezione del
movimento
• La maggior parte dei neuroni in MT sono sensibili ad una particolare direzione di
movimento
Percezione del movimento
//Detezione del movimento globale
• Il paradigma di Newsome e Pare
Percezione del movimento
//Detezione del movimento globale
• Da esperimenti sulle scimmie (Newsome e Pare, 1988)
• Utilizzavano scimmie addestrate a percepire il movimento di punti correlati
• Le aree MT delle scimmie venivano lesionate
• Risultati: Le scimmie necessitavano di un livello di segnale (in termini di
“robustezza” del movimento in una direzione dei pallini) 10 volte più alto
rispetto a prima
• Svantaggi dell’usare i metodi di lesionamento selettivo per lo studio del moto:
• Sono metodi invasivi
• Le lesioni possono essere incomplete o danneggiare altre aree oltre a quelle di
interesse
Percezione del movimento
//Detezione del movimento globale: risultato
• Ci sono prove molto
robuste sia fisiologiche
che comportamentali a
sostegno dell’idea che
l’area MT sia coinvolta
nella percezione globale
del movimento