Da George Clooney ai modelli computazionali di attenzione visiva

Da George Clooney ai modelli
computazionali di attenzione visiva
Corso di Principi e Modelli della Percezione
Prof. Giuseppe Boccignone
Dipartimento di Informatica
Università di Milano
[email protected]
http://boccignone.di.unimi.it/PMP_2015.html
Ma ci serve veramente George Clooney?
Ma ci serve veramente George Clooney?
Attenzione visiva
Che cos’è l’attenzione?
• Una bagliore catturò la mia
attenzione
• Non l’ho veduta, stavo
prestando attenzione alla
partita
• Stai attento a non farti male!
• Questo argomento richiede
molta attenzione
Che cos’è l’attenzione?
• “Everyone knows what
attention is. It is the taking
possession by the mind, in
clear and vivid form, of one out
of what seem several
simultaneously possible objects
or trains of thought.
Focalization, concentration, of
consciousness are of its
essence. It implies withdrawal
from some things in order to
deal effectively with others...”
W. James, 1890
Che cos’è l’attenzione?
• Evidenzia alcune informazioni (il
fuoco dell’attenzione)
• Inibisce altre informazioni (la
periferia
• Una delle ragioni è limitare la
quantità di informazione
elaborata
• abbiamo sistemi sensoriali a
capacità limitata
Vari tipi di attenzione
Attenzione visiva
Attenzione visiva
Attenzione visiva
Attenzione visiva:
//un modo per situarsi nel mondo
• Situarsi nel mondo: opzioni
• Movimenti del corpo
(minuti)
• Movimenti della testa
(secondi)
• Movimenti oculari
(centinaia di millisecondi)
• Covert attention shifts
(decine di millisecondi)
Attenzione visiva:
//movimenti oculari
• I movimenti dei due occhi possono essere uguali (orizzontali, verticali, di
torsione sull'asse antero-posteriore) od opposti (convergenza, divergenza),
dovendo soddisfare molteplici esigenze, quali:
1. mantenere stabile l'asse visivo,
2. rintracciare, inseguire e fissare gli oggetti che entrano nel campo visivo
(mantenendo l’immagine degli oggetti di interesse entro 0.15° della fovea).
3. consentire una visione unica e stereoscopica,
4.permettere una esplorazione attenta dell'ambiente.
I movimenti oculari
//fisiologia dell’occhio
• Complesso meccanismo coordinativo (attivazioni e inibizioni originate da labirinti,
articolazioni e muscoli del collo, retina/fovea, terminazioni sensoriali) correla i
movimenti oculari fra di loro e con le restanti attività motorie somatiche.
I movimenti oculari
//fisiologia dell’occhio
• Complesso meccanismo coordinativo (attivazioni e inibizioni originate da labirinti,
articolazioni e muscoli del collo, retina/fovea, terminazioni sensoriali) correla i
movimenti oculari fra di loro e con le restanti attività motorie somatiche.
I movimenti oculari
//neurofisiologia
• Complesso meccanismo coordinativo (attivazioni e inibizioni originate da labirinti,
articolazioni e muscoli del collo, retina/fovea, terminazioni sensoriali) correla i
movimenti oculari fra di loro e con le restanti attività motorie somatiche.
Attenzione visiva:
//movimenti oculari
Attenzione visiva:
//movimenti oculari
1. smooth pursuit
2. movimenti saccadici
Come misuriamo i movimenti oculari?
Come misuriamo i movimenti oculari?
Come misuriamo i movimenti oculari?
Come misuriamo i movimenti oculari?
• Un diodo (LED) emette raggi
infrarossi (IR) a bassa potenza
ed illumina l’occhio • Pupil Center / Corneal
Relection
• Due fenomeni • retroriflessione
• riflessione corneale
• Video camera + software
tracciano i punti di interesse
Come misuriamo i movimenti oculari?
Come misuriamo i movimenti oculari?
I movimenti oculari
//inseguimento lento (Smooth Pursuit)
• Perché noi percepiamo la penna in movimento nel primo caso ma vediamo il
puntino fermo nel secondo caso?
• Perché in un caso c’è movimento oculare
I movimenti oculari
//inseguimento lento (Smooth Pursuit)
• Un problema molto complesso è quello di
distinguere se un movimento attraverso la
retina è dovuto a movimenti oculari oppure
allo spostamento di un oggetto
• Soppressione saccadica: Una riduzione
della sensibilità nella percezione visiva che
occorre al momento in cui si effettua un
movimento saccadico. • Serve ad eliminare le strisce (come quelle
ottenute fotografando un oggetto in rapido
movimento) dall’immagine retinica durante i
movimenti oculari
• Sembra che il percorso magno ma non
parvo sia soppresso durante la saccade
I movimenti oculari
//inseguimento lento (Smooth Pursuit)
• Il sistema motorio risolve il problema del perché un oggetto statico possa
apparire in movimento mandando due “copie” di ogni ordine per eseguire un
movimento oculare • Una “copia” va ai muscoli oculari • Un altra (“copia afferente”) va ad un area del sistema visivo che è stata nominata
“comparatore”
• Il comparatore può compensare per i cambiamenti dell’immagine dovuti ai
movimenti oculari inibendo il tentativo di qualsiasi altra parte del sistema visivo di
interpretare i cambiamenti come dovuti ad un movimento dell’oggetto
I movimenti oculari
//inseguimento lento (Smooth Pursuit)
I movimenti oculari
//usare l’informazione di movimento
• Come vengono utilizzate le informazioni di moto per gli spostamenti?
• Vettore Ottico: Descrive l’insieme dei raggi luminosi che interagiscono con gli
oggetti del mondo esterno posti di fronte all’osservatore
• Flusso ottico: Cambiamenti nella posizione angolare di punti dell’immagine
prospettiva che vengono percepiti durante gli spostamenti del soggetto
• Esempio di un pilota in fase di atterraggio: “Espansione radiale”
Integrazione di movimenti oculari e movimento
Integrazione di movimenti oculari e movimento
Integrazione di movimenti oculari e movimento
A leftward eye movement channel. All connections are
excitatory.
The retinal image is processed by two types of cells in MT.
MT cells with inhibitory surrounds (MT-) connect to MSTv
cells, with MT cells preferring greater speeds weighted more
heavily.
MT cells with excitatory surrounds (MT+) connect to MSTd
cells.
MSTv cells have excitatory connections with MSTd cells
preferring opposite directions.
MSTv cells drive pursuit eye movements in their preferred
direction, and the resulting eye velocity is fed back to MSTv
and MSTd cells (thick arrows).
Leftward eye rotation causes rightward retinal motionof the
background.
The MT and MST cells are drawn so as to approximate their
relative
receptive field sizes
Analisi del movimento biologico
I movimenti oculari
//movimenti saccadici
I movimenti oculari
//movimenti saccadici
• In regime saccadico, alterniamo
fissazioni a movimenti
saccadici
• Movimenti saccadici:
• 3-4 saccadi al secondo
• 1 saccade ogni 200-300
msec
Attenzione visiva:
//meccanismi neurofisiologici (1)
Attenzione visiva:
//meccanismi neurofisiologici (1)
Attenzione visiva:
//meccanismi neurofisiologici (1)
“… the amount of information coming down the optic
nerve ‐ estimated to be in the range of 108 ~ 109 bits per
second ‐ far exceeds what the brain is capable of fully
processing and assimilating into conscious experience …”
C. Koch, 1982
Come vediamo realmente quando muoviamo gli
occhi?
Come vediamo realmente quando muoviamo gli
occhi?
Attenzione visiva:
//come vediamo realmente il mondo
1 movimento oculare = 1 foto
by David Hockney
Attenzione visiva:
//i primi esperimenti di Yarbus
Attenzione visiva:
//i primi esperimenti di Yarbus
Livello di spiegazione psicologico
• Attenzione esplicita, aperta
(overt attention)
• movimenti oculari
• Attenzione implicita, coperta
(covert attention)
• teoria pre-motoria (Rizzolatti)
Livello di spiegazione psicologico
//chi guida l’attenzione?
• Lo stimolo fisico
• segnali inattesi
(sorprendenti?)
• bottom-up
• Un obiettivo (goal)
• conoscenza, aspettative,
finalità, compiti (task)
• top-down
Livello di spiegazione psicologico
//cosa viene focalizzato?
• Regioni spaziali (spotlight
theory, Posner)
• Features salienti (Treisman)
• Oggetti
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
trovare il disco blu
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
trovare il disco blu
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
trovare il disco blu
• Effetto pop-out:
• ricerca facile
• pre-attentiva
orientazione
• Features salienti (Treisman &
Gelade, 1980):
• codificate in mappe parallele
• ricerca parallela
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
trovare un disco rosso
dimensione
colore
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
trovare un disco rosso
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
• Congiunzione di features:
• ricerca difficile
• attentiva
• L’attenzione è focalizzata
localmente (attentional
spotlight):
• ricerca seriale
trovare un disco rosso
Livello di spiegazione psicologico
//cosa viene focalizzato? Features
• Modello di Treisman
• Congiunzione di features:
• ricerca difficile
• attentiva
• L’attenzione è focalizzata
localmente (attentional
spotlight):
• ricerca seriale
Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti
• O’Craven et al. (1999)
• studio di oggetti sovrapposti
Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti
• O’Craven et al. (1999)
• studio di oggetti sovrapposti
• un oggetto si muove, l’altro
statico
Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti
• Analisi FMRI dell’esperimento
area dei volti =
Fusiform face area
area di altri oggetti =
Parahippocampal place area
Livello di spiegazione psicologico
//cosa viene focalizzato? Oggetti
• Analisi FMRI dell’esperimento
Livello di spiegazione psicologico
//rappresentazione dinamica di scene (Rensink)
Livello di spiegazione psicologico
//rappresentazione dinamica di scene (Rensink)
Livello di spiegazione psicologico
//rappresentazione dinamica di scene (Rensink)
Livello di spiegazione neurofisiologico:
//dalla retina alla V1/V2
Livello di spiegazione neurofisiologico:
//dalla retina alla V1/V2: proto-oggetti
• Chi invia / modula “segnali attentivi”?
spatial index map
Livello di spiegazione neurofisiologico:
//oltre V1/V2
Target
tracking
Target
Positioning
Target
identity,
Faces
Color,
Feature
Invariants
t
AIT: 100 ms
CIT: 80 ms
PIT: 70 ms
V4: 60
Motion
Surfaces
Photometric
stimulus
V2: 20
V1: 10
Input retinico t = 0 ms
Retina: 0
Anatomia dell’attenzione visiva:
//le due vie: dove sono, che cosa sono gli oggetti
Crude functional anatomy of
Dorsal stream (where)
MST
MT
LIP
LGN
IT
V2
V1
V4
Ventral stream (what)
Anatomia dell’attenzione visiva:
//attenzione: effetti neurali
• Qual è il locus della selezione attentiva?
• Aree dei primi stadi di elaborazione (early) vs. aree degli stadi avanzati (late):
• l’attenzione ha effetti non solo sulle aree della corteccia extra-striata (late)...
• ...ma anche ai primi stadi di elaborazione della corteccia striata (early)
Anatomia dell’attenzione visiva:
//effetti neurali
• Chi invia / modula “segnali attentivi”?
spatial index map
attentional
control
thalamocortical
loop
Livello di spiegazione neurofisiologico:
//effetti neurali
• Guadagno moltiplicativo sulla risposta neurale allo stimolo focalizzato
Livello di spiegazione neurofisiologico:
//effetti neurali
• Incremento dell’attività neurale di base (baseline activity)
Modelli computazionali
Qual è il goal della
computazione?
Quale
rappresentazione e
quale algoritmo?
Come realizzarla
fisicamente?
Un semplice modello computazionale
//Itti e Koch
Qual è il goal della
computazione?
Quale
rappresentazione e
quale algoritmo?
Come realizzarla
fisicamente?
Un semplice modello computazionale
//Itti e Koch
che cosa guardo
Qual è il goal della
computazione?
Quale
rappresentazione e
quale algoritmo?
Come realizzarla
fisicamente?
come guardo
Un semplice modello computazionale
//Itti e Koch
• Nella sua formulazione originale è un modello bottom-up: • ha alla base il concetto di salienza degli stimoli fisici
• Basato sul modello psicologico della Treisman (FIT)
Un semplice modello computazionale
//Itti e Koch: teoria computazionale
guardo i punti salienti
Qual è il goal della
computazione?
Quale
rappresentazione e
quale algoritmo?
Come realizzarla
fisicamente?
scelgo il più saliente
Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo
guardo i punti salienti
Qual è il goal della
computazione?
scelgo il più saliente
Quale
rappresentazione e
quale algoritmo?
Come realizzarla
fisicamente?
Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo
Mappa di cospicuità
(contrasto di colore)
Mappa di cospicuità
(contrasto di
orientazione)
Mappa di cospicuità
(contrasto di intensità)
Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo
Mappe di cospicuità
colore
Mappa di salienza S
Color C-map
orientazione
Brightness C-map
Final C-map
intensità
Orientation C-map
arg max S
massimi della Mappa
di salienza
visitati in ordine
decrescente +
Inibizione
Un semplice modello computazionale
//Itti e Koch: rappresentazione e algoritmo
Modelli di attenzione visiva
//livelli di spiegazione
guardo i punti salienti
Qual è il goal della
computazione?
scelgo il più saliente
Quale
rappresentazione e
quale algoritmo?
Come realizzarla
fisicamente?
Un semplice modello computazionale
//Itti e Koch: implementazione neurale
Mappa di salienza
Color C-map
Brightness C-map
Orientation C-map
Mappe di cospicuità
Un semplice modello computazionale
//Itti e Koch: implementazione neurale
Mappe di cospicuità
Mappa di salienza
Color C-map
Brightness C-map
Final C-map
Orientation C-map
Selezione con una rete di neuroni
WTA (Winner Take All)