Filosofia della mente Parte II - Università degli studi di Bergamo

annuncio pubblicitario
Psicologia della percezione
(filosofia della mente-II)
Il costruttivismo
- È «l’approccio classico dominante alla teoria
della visione» (Palmer 1999)
- La percezione visiva è un processo attivo
- L’esperienza visiva è l’esito di un complesso
processo di “ri-costruzione” del mondo a partire
dallo stimolo visivo e dalla conoscenza di cui i
soggetti già dispongono.
- La conoscenza è in parte innata in parte
appresa.
Il costruttivismo
A seconda di come si caratterizza il processo di
ricostruzione, abbiamo diverse versioni di
costruttivismo.
- Helmholtz: i processi percettivi sono inferenze
inconsce.
- Gregory/Rock: i processi percettivi sono
ragionamenti induttivi (inferenze alla miglior
spiegazione)
- teoria computazionale (Marr): i processi
percettivi sono algoritmi
L’argomento della sottodeterminazione
dello stimolo
Oggetti (tridimensionali) diversi possono avere
proiezioni bidimensionali identiche: un’immagine (2-D)
è compatibile con più interpretazioni 3-D.
 È necessario imporre dei vincoli sul processo
percettivo per selezionare, tra le diverse
“interpretazioni” possibili dell’immagine retinica, quella
giusta: lo stimolo deve essere integrato dal sistema
visivo.
I vincoli sono incorporati nella conoscenza già
disponibile al cervello (innata o appresa che essa sia).
Esempi di vincoli al processo visivo
– Normalmente gli oggetti non sono visti dal basso
– La luce proviene dall’alto
– 5 punti sulla superficie di uno stesso oggetto su due
immagini differenti sono sufficienti a stabilirne
l’orientamento
– se si conosce l’orientamento di alcuni punti (superficie
liscia e opaca), si può stabilire la forma
–…
Critiche al costruttivismo
È sbagliato identificare lo stimolo con la sola immagine
retinica, tanto più se considerata staticamente
(Gibson visione ecologica)
La tesi secondo cui i processi visivi sono inferenze alla
miglior spiegazione è contraddetta da taluni casi di
completamento visivo: ciò che si vede non corrisponde
all’ipotesi più probabile/plausibile (Kanizsa 1980)
Le teorie costruttivistiche incorrono nella fallacia
dell’homunculus (Gibson, Pylyshyn, cfr. Calabi 2009)
Completamento amodale
Leggi della Gestalt
- Vicinanza (o prossimità)
- Somiglianza
- Buona continuazione (allineamento)
- Chiusura
- Destino comune
- Buona forma
Vicinanza e somiglianza
Fallacia dell’homunculus?
Se i processi percettivi sono veri e propri ragionamenti
(inferenze alla miglior spiegazione), tali ragionamenti
devono basarsi su premesse interpretate (= a cui è
stato assegnato un significato). Ma chi è l’interprete?
Non possiamo essere noi perché non abbiamo
consapevolezza alcuna di eseguire tali ragionamenti;
ma non può nemmeno essere il cervello.
Replica: i processi visivi sono descrivibili come inferenze
alla spiegazione migliore. È come-se fossero inferenze,
ma, “in realtà”, sono realizzati da meccanismi ciechi al
significato.
La teoria computazionale (Marr 1982)
La visione è un insieme di processi computazionali.
Il processo visivo è ri-costruttivo, ma la ricostruzione è
(in larga parte) a carico di sistemi specializzati
automatici (i “moduli”) che hanno accesso
esclusivamente a informazioni “proprietarie” innate di
cui non siamo consapevoli.
Il processo visivo è (in larga parte) bottom-up, cioè
innescato dallo stimolo e non guidato da scopi o
aspettative. Gli unici effetti top-down sono quelli
attentivi, anche questi automatici (Pylyshyn 2003) -c’è
un’attenzione consapevole ed una inconsapevole.
La teoria computazionale (Marr 1982)
I tre livelli di spiegazione:
1) Livello della teoria computazionale: che cosa fa il
sistema visivo e quali sono i suoi componenti
funzionali.
2) Livello degli algoritmi e rappresentazioni: con quali
programmi il sistema visivo esegue la sua funzione
e in che modo codifica –rappresenta– le
informazioni pertinenti.
3) Livello dell’implementazione: in che modo il
cervello realizza programmi e rappresentazioni
specificati a livello 2.
La teoria computazionale (Marr 1982)
La teoria della visione è un caso paradigmatico di
funzionalismo computazionale. Il carattere astratto delle
computazioni lo rende un tipo di funzionalismo; ma
l’importanza accordata al livello implementativo dimostra
che non si tratta di un funzionalismo antibiologico.
Il livello più importante è il primo (teoria computazionale):
se ci sbagliamo su che cosa fa il sistema (nella fattispecie)
visivo, capiremo ben poco del fenomeno oggetto di studio:
«realizzare un meccanismo (per es. un programma) capace di prestazioni
analoghe a quelle di un agente umano impegnato in un processo cognitivo
non costituisce di per sé una spiegazione di quel processo se non è presente
una descrizione di alto livello dei vincoli che qualsiasi meccanismo deve
soddisfare se deve essere considerato una realizzazione di quel processo
cognitivo.» (Marraffa & Paternoster 2011)
La teoria computazionale (Marr 1982)
Funzione del sistema visivo:
Riconoscimento degli oggetti presenti nel campo visivo
sulla base della loro forma:
Vedere un O come una certa forma geometrica.
Argomento: dati neuropsicologici (Warrington &
Taylor). Dissociazioni tra la capacità di identificare la
forma di un oggetto e la capacità di fare uso
dell’oggetto (oggi questi dati sono stati reinterpretati e
in parte corretti).
Dissociazioni riconoscimento/uso
(Warrington & Taylor)
I pazienti con lesioni (parietali) nell’emisfero destro erano in grado di
riconoscere l’oggetto solo se visto da una prospettiva standard,
convenzionale; per esempio, riconoscevano un secchio solo se visto di
fronte, non se visto dall’alto. Nella prospettiva convenzionale il
paziente era in grado di fare un’elaborazione “semantica” completa
dell’oggetto: era in grado di denominarlo, di spiegarne la funzione e le
modalità d’uso ecc.; nella prospettiva non convenzionale,
l’elaborazione semantica non poteva neanche partire perché il
paziente non sapeva letteralmente ricondurre l’oggetto a una classe
nota, e negava che l’oggetto fosse ciò che di fatto era. I pazienti con
lesioni parietali sinistre, benché esibissero gravi disturbi linguistici,
incluse l’incapacità di denominare l’oggetto e l’incapacità di spiegarne
uso e scopo, erano invece in grado di riconoscere la geometria
dell’oggetto anche in una varietà di prospettive non convenzionali,
inclusi punti di vista fortemente anomali, e ciò anche in condizioni di
illuminazione precarie.
La teoria computazionale (Marr 1982)
Vedere = identificare oggetti sulla base della loro forma
(individuare una forma 3-D nell’ambiente e
ricondurla a una categoria visivo-spaziale).
Lo scopo della visione è «costruire a partire dalle
immagini [retiniche] una descrizione di forma e
posizione delle cose» (Marr 1982, p. 36)
Input del sistema visivo: stimolo esterno
Input del modulo della visione propriamente detto:
immagine retinica
Output del modulo della visione: descrizione strutturale
della porzione di mondo che rientra nel campo
visivo.
Input del processo visivo: l’occhio
• Obiettivo: raccogliere la luce dagli oggetti nella scena e
creare un’immagine a 2-D.
• l’occhio umano e del robot
– un foro (o una lente) che focalizza la luce da più punti
della scena su un singolo punto della retina
– un sistema di elementi fotosensibili che converte la
configurazione di luce in impulsi elettrici (codice
simbolico)
Output del processo visivo
Rappresentazione simbolica del mondo tridimensionale che
guidi il comportamento. Codifica:
- la posizione dell’agente rispetto agli altri oggetti della scena e
la posizione relativa degli oggetti
- i colori, le forme, la disposizione delle superfici
- (nel caso di un sistema che si muove) la rappresentazione
dinamica della scena
 La visione costruisce un modello del mondo a partire dalle
configurazioni di luce sulla retina.
Livelli multipli di elaborazione e
rappresentazione
Rappresentazione iniziale: immagini retiniche
Primo livello di elaborazione  Schizzo primario
Secondo livello di elaborazione  Schizzo 2½ -D
Terzo livello di elaborazione  Modello 3-D
Livello 1 + livello 2 = visione primaria
Livello 3 = visione di alto livello
Immagini retiniche
Matrici di “livelli di grigio”, cioè tabelle di pixel a
ciascuno dei quali è associato un valore
numerico che ne codifica l’intensità luminosa.
La funzione L(x,y) che associa ad ogni pixel il suo
valore di intensità luminosa si chiama funzione
di luminanza.
Rappresentazioni primarie
(costruite dal livello 1)
• Informazioni sui cambi significativi di intensità
luminosa e sui contorni (di oggetti)
– localizzazione
– contrasto
– precisione
• Corrispondono a caratteristiche fisiche
– estremità degli oggetti e contorni delle tessiture
– particolari sulle superfici e limiti delle ombre
• Per scene che cambiano dinamicamente …
– direzione e velocità di movimento dei cambi di
intensità
Rappresentazioni intermedie
(costruite dal livello 2)
• Informazioni sulla forma 3-D degli oggetti dal
punto di vista dell’osservatore
– orientamento di piccole superfici
– distanza dai punti delle superfici dall’osservatore
• Per scene dinamiche …
– movimento delle superfici in 3 direzioni
Rappresentazioni di alto livello
(costruite dal livello 3 o pre-memorizzate)
• Forme 3-D e orientamento in relazione a un
sistema di coordinate indipendente
dall’osservatore (punto di vista)
– sistema basato sull’oggetto stesso
– sistema basato su una locazione fissata nel mondo
Livello 1
Input: immagine retinica
Output: schizzo primario (= distribuzione spaziale di
primitive di basso livello)
Metodo: zero-crossing
Primitive: angoli, parti di contorni, macchie, configurazioni
geometriche elementari potenzialmente significative
Schizzo primario grezzo  schizzo primario ricco
Applicazione ricorsiva di tecniche di risoluzione
dell’immagine
Grado di conferma empirica: (abbastanza) buono
Zero-crossing
Algoritmo che evidenzia le zone a più alta discontinuità
della funzione di luminanza (= differenze molto
elevate di luminanza).
Dove ci sono discontinuità di luminanza più forti, è
probabile che passi un contorno
(ma anche un’ombra…)
È un operatore matematico che consiste nel calcolare la
derivata seconda della funzione di luminanza (che
è una funzione di due variabili).
Livello 1
Livello 1
Livello 2
Input: schizzo primario
Output: schizzo a due dimensioni e mezzo (2½-D)
Metodi: profondità da disparità binoculare, shape from
shading, shape from motion, … ( vedi invarianti di
Gibson)
Primitive: vettori-profondità e vettori-orientamento
Lo schizzo 2½ D è una rappresentazione delle superfici
dell’oggetto centrata sull’osservatore (view-dependent)
Grado di conferma empirica: grossolano
Schizzo 2½-D
Livello 3
Input: schizzo 2½-D
Output: descrizione strutturale (3-D) dell’oggetto
Metodo: ricerca di sottografi in un grafo
Una descrizione strutturale è un grafo in cui i nodi
corrispondono a parti significative dell’oggetto e gli
archi a relazioni spaziali tra le parti.
(es. tavolo = superficie, gamba1, gamba2, gamba3)
Grado di conferma empirica: pressoché nullo (“speculazione
computazionale”)
Modelli 3-D
Modelli 3-D: analisi ricorsiva
Critiche alla teoria computazionale
-
I modelli 3-D non servono. Si possono
riconoscere oggetti esclusivamente sulla base di
diverse immagini 2-D (da diverse prospettive)
Il riconoscimento non è il compito principale
della visione
In molti casi non è necessario costruire un
modello “ricco” del mondo per agire con
efficacia
La percezione non è solo una funzione
cerebrale ma dell’intero organismo
La teoria computazionale è una versione di
teoria del dato sensoriale
Marr: conclusioni
-
Grande potenza teorica
Sottolineatura eccessiva della visione orientata
al riconoscimento
Sottovalutazione del movimento (ma vedi
Ullman 1979)
Sottovalutazione del riconoscimento in 2D?
Fondamentale come paradigma; superato nei
dettagli.
Gibson: la visione ecologica
-
-
-
Il sistema visivo è stato progettato dall’evoluzione
per risolvere problemi significativi biologicamente
Gli esperimenti in laboratorio, quindi, sono
fuorvianti: costringono l’osservatore in una
situazione insolita (condizioni statiche, mancanza di
informazioni adeguate, scenari inverosimili,
devianti dalle situazioni ecologiche)
La percezione (visiva) è una relazione tra un intero
organismo e l’ambiente
Lo scopo primario della visione è il controllo del
movimento ( azione efficace)
Gibson: la visione ecologica
-
-
-
Lo stimolo non è l’immagine retinica, ma la
variazione della struttura di luce riflessa nel punto
di osservazione (“assetto ottico ambiente”)
Nella struttura della luce riflessa c’è tutta
l’informazione necessaria: le variazioni dell’assetto
ottico ambiente determinate dai movimenti
veicolano l’informazione
Il movimento è eseguito dagli occhi, dalla testa e
dall’intero corpo
La percezione (visiva) è una relazione diretta di un
organismo (preso nella sua interezza) col mondo
Gibson: la funzione del sistema visivo
Estrarre dall’assetto ottico ambiente il lay-out
ambientale, cioè la disposizione di superfici
presenti nella porzione di ambiente visibile.
Il lay-out è specificato dagli invarianti, proprietà
visive di ordine superiore.
Il sistema visivo è capace di estrarre dall’assetto
ottico ambiente gli invarianti, perché è
“sintonizzato” su di essi.
Gli invarianti
Sono proprietà visive che restano costanti al variare
delle immagini retiniche.
Esempi:
- Horizon ratio (rapporto di orizzonte  posizione
rispetto all’orizzonte)
- gradiente di tessitura
- flusso ottico in espansione ( parallasse di
movimento)
Gli invarianti
Gli invarianti
Invarianti: indizi prospettici
Tessitura = “irregolarità” delle superfici (non sono quasi mai
perfettamente lisce).
Gradiente di tessitura = il progressivo infittirsi della tessitura in
una particolare direzione indica che la superficie “si
allontana” da noi in quella direzione. Quanto più gli
elementi sono piccoli e fitti, tanto più la superficie è
lontana. Se non c’è gradiente, la superficie è orientata
verticalmente di fronte a noi. Il gradiente è massimo se la
superficie è parallela alla linea dello sguardo.
Horizon ratio = rapporto tra l’altezza di un oggetto e la sua
distanza dalla linea dell’orizzonte  gli oggetti più vicini
alla linea dell’orizzonte tendono ad apparire più lontani e
le loro dimensioni vengono stimate sulla base della
distanza dalla linea dell’orizzonte.
Invarianti: indizi cinetici
Parallasse di movimento = quando ci muoviamo in una
certa direzione a noi gli oggetti vicini sembrano
muoversi rapidamente, quelli lontani lentamente,
quelli molto lontani appaiono pressoché fermi.
Flusso ottico in espansione = Il nostro sistema visivo è
in grado di calcolare le distanze a cui si trovano i
vari oggetti basandosi sulla rapidità con cui
sembrano spostarsi quando ci muoviamo.
Le affordances
Sono le “opportunità” o potenzialità offerte dagli
oggetti presenti nell’ambiente.
(Bozzi parla di “qualità terziarie”)
Es. una pietra è afferrabile e scagliabile, e con una
pietra si può percuotere qualcosa o scalfire una
superficie.
Secondo Gibson le affordances si percepiscono
immediatamente, anziché essere l’esito di processi
di ragionamento/riflessione.
Obiezioni alla visione ecologica
1) Critica alla natura diretta della percezione (Fodor &
Pylyshyn 1981):
una stessa stimolazione luminosa può essere originata
da diversi assetti nel mondo (es. posso produrre
quella stimolazione artificialmente) e, per
converso, uno stesso assetto dell’ambiente può
dare origine a stimolazioni luminose diverse (è
sufficiente interferire sulla luce riflessa o, più
semplicemente, è sufficiente … spegnere la luce!)
 È indispensabile integrare lo stimolo (fare inferenze
o qualcosa di simile)
Replica
-
-
L’argomento è vacuo perché si può riapplicare a
qualsiasi stadio dell’elaborazione percettiva  il
contenuto dell’esperienza percettiva non risulta
determinato da nulla
Nemmeno Gibson nega che ci siano operazioni
sulla stimolazione; il punto è che queste operazioni
sono eseguite dai sistemi della corteccia visiva: non
sono operazioni mentali, psicologiche (Schwartz
1994).
 problema: che cosa rende mentale uno stato o
processo neurofisiologico subcosciente?
Obiezioni alla visione ecologica
2) Gli esperimenti sulle illusioni sono del tutto probanti,
perché anche in quelle circostanze il sistema visivo
è all’opera.
Replica: sì, ma è all’opera in condizioni “degradate”. Il
sistema “sbaglia” perché la stimolazione non
contiene informazioni adeguate.
Obiezioni alla visione ecologica
3) Le affordances non si possono recuperare
dall’assetto ottico ambiente. La “scagliabilità” di
una pietra, ad esempio, non è una proprietà
(puramente) visiva.
Replica (approssimativa): percezione e azione non sono
separabili. Ci sono rappresentazioni visuomotorie
degli oggetti che integano forma e uso.
4) La risonanza agli invarianti è una mera metafora.
Replica: la risonanza agli invarianti è realizzata da certi
sistemi neurofisiologici la cui indagine spetta alle
neuroscienze.
 problema: che cosa è “psicologico”? Importante far
“coevolvere” psicologia e neuroscienza
Il paradigma sensomotorio
(o visione enattiva)
-
La percezione non è separabile dall’azione
-
Competenza (o abilità) sensomotoria = conoscenza di
come ci si deve muovere per modificare la
stimolazione visiva
-
Percepire = esercitare la competenza sensomotoria
-
La competenza sensomotoria è una conoscenza tacita
e corporea (un “sapere del corpo”)
-
Il soggetto della percezione è l’intero organismo, non la
sua mente/cervello.
Il paradigma sensomotorio
(o visione enattiva)
L’argomento dell’esperienza virtuale:
In diversi casi facciamo esperienza di elementi non
presenti nel campo visivo (es. completamento
amodale).
L’esperienza virtuale è possibile perché abbiamo la
capacità di accedere agli elementi non presenti,
facendoli rientrare nel campo visivo.
Conclusioni
Si può integrare la prospettiva computazionale con
quella ecologica, prendendo il meglio da ciascuna
delle due? È la tendenza della ricerca recente (es.
visione-per-l’azione vs. visione-per-lacategorizzazione).
La teoria ecologica è una giustificazione empirica del
realismo diretto?
Scarica