La percezione dello spazio: stereo e movimento Corso di Principi e Modelli della Percezione Prof. Giuseppe Boccignone Dipartimento di Informatica Università di Milano [email protected] http://boccignone.di.unimi.it/PMP_2015.html Visione stereoscopica: // disparità binoculare • Le immagini retiniche dei due occhi del mondo esterno non sono esattamente le stesse! • Disparità binoculare: differenza fra le immagini retiniche dei due occhi della immagine retinica destra stessa immagine visiva. immagine retinica sinistra Visione stereoscopica: // disparità binoculare • Il sistema visivo percepisce contemporaneamente due immagini retiniche diverse • vediamo le due dita e il punto di fissazione a differenti profondità nella spazio • La disparità binoculare ha molto in comune con la parallasse di movimento: • la parallasse di movimento confronta due diverse immagini retiniche in modo sequenziale. • la disparità binoculare due diverse immagini retiniche contemporanemente. • Direzione e grandezza della disparità ci dicono quali punti sono vicini e quali lontani Visione stereoscopica: // disparità binoculare: la corrispondenza • Posizioni corrispondenti sulla retina: • Posizioni sulla retina che coincidono se le due fovee sono sovrapposte. punto di fissazione Visione stereoscopica: // disparità binoculare: la corrispondenza • Posizioni corrispondenti sulla retina: • Posizioni sulla retina che coincidono se le due fovee sono sovrapposte. • La disparità binoculare emerge quando un dato punto nell’ambiente esterno proietta su punti differenti sulle due retine. punto di fissazione Visione stereoscopica: // disparità binoculare: la corrispondenza punto di punto di fissazione (centro fovea) immagine retinica sinistra punto di fissazione (centro fovea) immagine retinica destra Visione stereoscopica: // disparità binoculare: la corrispondenza disparità = 0 punti retinici corrispondenti disparità non nulla immagine retinica sinistra immagine retinica destra Visione stereoscopica: // disparità binoculare: l’oroptere • Non tutti i punti nell’ambiente producono disparità sulle retine destra e sinistra. oroptere immagine retinica sinistra immagine retinica destra • L’insieme dei punti che stimolano posizioni corrispondenti sulle due retine si dice Oroptere. • Dal punto di vista geometrico l’oroptere coincide con il circolo di Vieth-Muller Visione stereoscopica: //stereogrammi Visione stereoscopica: //stereogrammi • Fusione libera: La tecnica di incrociare o divergere gli occhi in modo da vedere uno stereogramma senza avere a disposizione uno stereoscopio • Per fondere stereoscopicamente le due immagini è necessario sovrapporre le due immagini percepite dai due occhi di modo che il cervello possa fonderle in una. • CONVERGENZA INCROCIATA (incrocio gli occhi). • CONVERGENZA NON INCROCIATA (guardo l’immagine come se fissassi un punto più lontano). Visione stereoscopica: //stereogrammi Visione stereoscopica: //stereogrammi di punti casuali (random dot) • Bela Julesz (1971). • La stereopsi può essere utilizzata per individuare oggetti e superfici nell’ambiente. • Negli steregrammi di punti casuali noi percepiamo una nuova immagine tridimensionale, che non è rintracciabile in nessuno delle due immagini fuse • Gli stereogrammi con random dot dimostrano che non è indispensabile sapere quello che si sta osservando prima di vedere l’immagine in profondità tramite stereopsi. La sola disparità binoculare è sufficiente per la percezione della forma Visione stereoscopica: //stereogrammi di punti casuali Visione stereoscopica: //il problema della corrispondenza • Il problema di trovare quale parte di una immagine nell’occhio sinistro deve corrispondere ad una parte dell’immagine nell’occhio destro • Problema: le immagini retiniche sono più numerose degli stimoli distali Visione stereoscopica: //il problema della corrispondenza Visione stereoscopica: //il problema della corrispondenza ciò che vediamo Visione stereoscopica: //il problema della corrispondenza 1 2 3 ciò che vediamo 1 3 4 5 esistono due possibili interpretazioni geometriche dello stimolo Visione stereoscopica: //il problema della corrispondenza Cosa succede se l’immagine retinica sinistra del cerchio 2 viene messa in corrispondenza con l’immagine retinica destra del cerchio 1 e l’immagine retinica sinistra del cerchio 3 viene messa in corrispondenza con l’immagine retinica destra del cerchio 2? 1 2 3 1 3 4 5 • Si vedono quattro cerchi anziché tre, con i due centrali fluttuanti Visione stereoscopica: //il problema della corrispondenza: soluzione • Il sistema visivo segue un’euristica: confronta prima le due immagini foveali, poi quelle sulla destra della fovea, infine quelle sulla sinistra • Vincolo di unicità (Uniqueness constraint): • un elemento dell’ambiente viene solitamente rappresentato una sola volta in un immagine retinica • Vincolo di continuità (Continuity constraint) : • i punti nell’ambiente che sono vicini ricadono a distanze simili dell’osservatore - ad eccezione dei bordi (in un mondo senza porcospini) Visione stereoscopica: //il problema della corrispondenza: soluzione • Questa soluzione non funziona per gli stereogrammi a punti casuali. • Il sistema visivo dovrebbe confrontare centinaia di punti casuali identici fra loro. • Come potrebbe decidere che il punto che cade in una regione della retina di un occhio è proprio lo stesso che cade in una regione della retina dell’altro occhio?? Visione stereoscopica: //il problema della corrispondenza: soluzione (2) • Il sistema visivo filtra le immagini conservando solo le basse frequenza spaziali. • Procede ad un matching nel range delle basse frequenze spaziali prima di passare a fare una analisi “fine” nello spettro delle frequenze spaziali più alte • In questo modo si ottiene una risposta approssimativa, ma sufficiente a determinare una certa corrispondenza Visione stereoscopica: //il problema della corrispondenza: soluzione (2) Visione stereoscopica: //il problema della corrispondenza: soluzione (2) Visione stereoscopica: //come funziona la televisione 3D • Vengono proiettate due diverse immagini contemporaneamente o in maniera alternata, ogni occhio vede solo i fotogrammi ad esso destinati • Necessario un dispositivo di interfaccia tra la fonte delle trasmissioni e lo spettatore: occhiali 3D • Soluzione 1 (cinema): viene applicato il principio della polarizzazione della luce. Sullo schermo vengono proiettate due immagini filtrate attraverso un filtro polarizzatore. Ogni lente degli occhiali 3D lascia passare solo fasci di luce di una specifica polarità, filtrando i restanti. • Soluzione 2 (TV): vengono alternate le immagini destinate all’occhio destro con quelle destinate all’occhio sinistro. Gli occhiali dovranno essere sincronizzati con i fotogrammi sullo schermo, e tramite gli otturatori attivi oscureranno, tramite uno strato di cristalli liquidi, i fotogrammi da non mostrare. • frequenza di almeno 120Hz (riscritture complete dello schermo al secondo). Visione stereoscopica: //come funziona la televisione 3D Visione stereoscopica: //la corteccia striata: neuroni sensibili alla disparità Visione stereoscopica: //la corteccia striata: selezione informazione Via magnocellulare: localizzazione e movimento (dove) Vie parvicellulare- blob: percezione dei colori e parvicellulare-interblob: analisi delle forme (cosa) Vie binoculari tridimensionalità dell’oggetto Visione stereoscopica: //la corteccia striata: neuroni sensibili alla disparità neurone sensibile a disparità 0 Visione stereoscopica: //la corteccia striata: neuroni sensibili alla disparità neurone sensibile a disparità non crociata (far cell) Visione stereoscopica: //modelli computazionali Ipotesi: 1. due camere con i loro assi ottici paralleli e separati da una distanza d detta baseline B 2. i fuochi alla stessa altezza 3. l'asse x del nostro sistema di riferimento parallelo alla baseline un qualsiasi punto nell'immagine sinistra avrà la stessa ordinata nella corrispondente immagine destra Visione stereoscopica: //modelli computazionali il triangolo POF1 e' simile a F1O1P1 il triangolo POF2 e' simile a F2O2P PO / F1O1 = F1 F2 / (P1 O1+ O2 P2) un qualsiasi punto nell'immagine sinistra avrà la stessa ordinata nella corrispondente immagine destra Visione stereoscopica: //modelli computazionali PO / F1O1 = F1 F2 / (P1 O1+ O2 P2) distanza del punto dall'immagine / distanza focale = Baseline / somma delle basi H/f= B / delta Pixel : 0,008333 mm H = f * B / delta nota 6 mm nota corrispondenza? 12,8 mm Pixel: 0,008333 mm Visione stereoscopica: //modelli: ricerca di punti significativi Visione stereoscopica: //modelli: ricerca delle corrispondenze Visione stereoscopica: //modelli: mappa di profondità Visione stereoscopica: //modelli: mappa di disparità • In generale si cerca di risolvere le corrispondenze inferendo una mappa di disparità D, osservando le immagini sinistra (left) e destra (right) D I= {IL, IR} Visione stereoscopica: //modelli: mappa di disparità • Modello generativo probabilistico D D P(D, I) = P(I | D) P(D) = P(IL, IR | D) P(D) I I= {IL, IR} Visione stereoscopica: //modelli: mappa di disparità • Inferenza con la regola di Bayes P(D | I) = P(IL, IR | D) P(D) P(IL, IR ) D max P(D | I) = max P(IL, IR | D) P(D) • se P(D) = costante (e.g., uniforme) max P(D | I) = max P(I | D) = max ∏s e-F(s, d(s), I) max log P(I | D) min ∑s F(s, d(s), I) I= {IL, IR} Visione stereoscopica: //modelli: mappa di disparità • Minimizzazione di una funzione di costo min ∑s F(s, d(s), I) • Un esempio semplice: • Per ogni punto dell’immagine di riferimento • si confronta la finestra centrata sul punto corrente con tutte le finestre corrispondenti nell’altra immagine che rientrano all’interno del range di disparità specifico per la coppia stereo. • il confronto si effettua usando come misura di matching la funzione SAD (Sum of Absolute Differences) su pixel in scala di grigio. • la finestra corrispondente al minimo della SAD determina la disparità per il punto Visione stereoscopica: //modelli: mappa di disparità • Minimizzazione di una funzione di costo min ∑s F(s, d(s), I) dispMap=zeros(nrLeft, ncLeft); %mappa di disparità win=(windowSize-1)/2; %ciclo su tutti i pixel delle immagini IL IR for(i=1+win:1:nrLeft-win) for(j=1+win+dispMax:1:ncLeft-win) prevSAD = 65532; temp=0.0; bestMatchSoFar = dispMin; win %per tutte le disparità ammissibili for(dispRange=-dispMin:-1:-dispMax) %CALCOLA LA DISPARITA A MINIMA SAD sad=0.0; for(a=-win:1:win) leftImage for(b=-win:1:win) if (j-win+dispRange > 0) temp=abs(leftImage(i+a,j+b)-rightImage(i+a,j+b+dispRange)); sad=sad+temp; end end end if (prevSAD > sad) prevSAD = sad; bestMatchSoFar = dispRange; end rightImage end dispMap(i,j) = -bestMatchSoFar; end end Visione stereoscopica: //modelli: mappa di disparità mappa ideale (ground truth) mappa inferita D I= {IL, IR} I= {IL, IR} Percezione del movimento • L’impressione percettiva che un oggetto nel nostro campo visivo si è mosso o si sta muovendo • Perchè è importante il movimento? • Quali sono le basi neurobiologiche? • Come è rilevato (motion detection)? • Come possiamo modellarlo? Percezione del movimento //importanza Percezione del movimento //livello neurofisiologico • Come è possibile costruire un detettore per il movimento? • Va considerato il cambiamento di posizione nel tempo • Quindi è un buon inizio considerare due recettori adiacenti divisi da una distanza stabilita e fissa Percezione del movimento //livello neurofisiologico: il detettore di Reichardt Percezione del movimento //livello neurofisiologico: il detettore di Reichardt • Il modello di Reichardt è stato costruito per la mosca • Cosa succede nel nostro cervello? Percezione del movimento //la corteccia striata: selezione informazione Via magnocellulare: localizzazione e movimento (dove) Vie parvicellulare- blob: percezione dei colori e parvicellulare-interblob: analisi delle forme (cosa) Vie binoculari tridimensionalità dell’oggetto Percezione del movimento //Post illusione di movimento Percezione del movimento //Post illusione di movimento Percezione del movimento //Post illusione di movimento Percezione del movimento //Post illusione di movimento Percezione del movimento //Post illusione di movimento Percezione del movimento //Post illusione di movimento • L’illusione del movimento di un oggetto stazionario dopo una prolungata esposizione ad un movimento reale • L’esistenza di tale illusione implica l’esistenza di processi di opponenza per la percezione del movimento tipo quelli attivi per la percezione del colore Percezione del movimento //il problema dell’apertura • Apertura: L’apertura è una fessura che permette solamente una visione parziale dell’oggetto. • Il problema della corrispondenza (di moto): Il porblema affrontato dai detettori di movimento per sapere quale feature presente in un frame N, corrisponde ad una particolare feature del frame N-1 • Il problema dell’apertura: Riguarda il fatto che quando un oggetto in movimento è visto attraverso una fessura, localmente (a livello dell’analisi di un detettore cioè) la direzione del movimento può risultare ambigua Percezione del movimento //il problema dell’apertura Percezione del movimento //il problema dell’apertura • Apertura: L’apertura è una fessura che permette solamente una visione parziale dell’oggetto. • Il problema della corrispondenza (di moto): Il porblema affrontato dai detettori di movimento per sapere quale feature presente in un frame N, corrisponde ad una particolare feature del frame N-1 • Il problema dell’apertura: Riguarda il fatto che quando un oggetto in movimento è visto attraverso una fessura, localmente (a livello dell’analisi di un detettore cioè) la direzione del movimento può risultare ambigua • Poiché i neuroni di V1 vedono il mondo attraverso piccole finestre (i loro campi recettivi) questo porta al ben noto problema dell’apertura Percezione del movimento //Detezione del movimento globale Percezione del movimento //Detezione del movimento globale • Abbiamo degli indizi per individuare la posizione nel sistema percettivo dei detettori di moto globale: • Lesioni negli strati magnocellulari del Corpo Genicolato Laterale rendono deficitaria la percezione di oggetti grandi ed in movimento rapido • Lobo Temporale mediale: Gioca un ruolo molto importante nella percezione del movimento • La maggior parte dei neuroni in MT sono sensibili ad una particolare direzione di movimento Percezione del movimento //Detezione del movimento globale Percezione del movimento //Detezione del movimento globale • Lobo Temporale mediale: Gioca un ruolo molto importante nella percezione del movimento • La maggior parte dei neuroni in MT sono sensibili ad una particolare direzione di movimento Percezione del movimento //Detezione del movimento globale • Il paradigma di Newsome e Pare Percezione del movimento //Detezione del movimento globale • Da esperimenti sulle scimmie (Newsome e Pare, 1988) • Utilizzavano scimmie addestrate a percepire il movimento di punti correlati • Le aree MT delle scimmie venivano lesionate • Risultati: Le scimmie necessitavano di un livello di segnale (in termini di “robustezza” del movimento in una direzione dei pallini) 10 volte più alto rispetto a prima • Svantaggi dell’usare i metodi di lesionamento selettivo per lo studio del moto: • Sono metodi invasivi • Le lesioni possono essere incomplete o danneggiare altre aree oltre a quelle di interesse Percezione del movimento //Detezione del movimento globale: risultato • Ci sono prove molto robuste sia fisiologiche che comportamentali a sostegno dell’idea che l’area MT sia coinvolta nella percezione globale del movimento