Questa tesi vuole essere un punto d`incontro fra due dei diversi modi

3
1.
INTRODUZIONE
1.1 Una questione di metodo
Lo studio del cervello presenta indubbiamente notevoli difficoltà.
Una di queste, se non la principale, è la scelta del formalismo di indagine
più appropriato. Il sistema mente-cervello, ancor più di qualunque altro
oggetto di osservazione, può essere analizzato da diversi punti di vista. Si
va da un approccio clinico, ad uno studio comportamentale, ad una visione
cognitivo-computazionale, per poi passare a campi alquanto diversi, quelli
appartenenti alle neuroscienze, alla sfera biologica ed alla medicina. Tutti
questi approcci presentano vantaggi e svantaggi, ed uno studente che si
avvicina al momento della tesi è realmente indeciso su quale di essi basare
il proprio lavoro, o la propria vita professionale.
Questa tesi vuole essere un punto d’incontro fra due dei diversi modi
di analizzare il rapporto fra mente e cervello. Un primo approccio, che
chiamerò top-down, è tipico della comunità degli psicologi ed ha radici
profonde nella storia della scienza. Nella visione top-down le funzioni del
cervello vengono definite in base a dati e teorie di carattere psicologico ed
attenendosi ad esigenze computazionali. Il sistema nervoso (SN) viene
quindi esplorato (non sempre, a volte ci si accontenta di postulare un
modello teorico…) alla ricerca di quelle strutture che possano adempiere a
tali funzioni.
L’approccio bottom-up, viceversa, trae ispirazione dall’anatomia e
dalla fisiologia del sistema nervoso: si serve di dati come le proprietà di
scarica dei neuroni, le loro connessioni, la loro dinamica temporale per
ipotizzare (anche qui, non sempre) quale controparte psicologica possa
derivare da questa peculiare organizzazione.
Entrambe le visioni hanno dei limiti evidenti. Nell’approccio topdown, modelli derivanti dalla ricerca psicologica o da altre aree, come dalla
matematica e dalla fisica, vengono “imposti” sul cervello, senza curarsi più
4
di tanto della misura in cui il SN implementi in realtà tali strutture. Ad
esempio, una tipica visione top-down è quella dedita alla ricerca, nel SN, di
quelle zone che possano modellare i concetti di memoria quali memoria
iconica, di lavoro e memoria a breve termine, senza considerare il fatto che
molti neuroni sono in grado di modificare le proprie proprietà di scarica in
base alla loro “esperienza passata”, vale a dire i precedenti pattern di
stimolazione. In sostanza, si può dire che possiedano una memoria, che
risulta quindi distribuita in tutto il SN.
Questo è solo uno nella miriade di casi in cui il cervello viene
“stiracchiato”, spesso violentato, per adattarsi a teorie preconfezionate.
Nonostante il fatto che le teorie cognitive, così come i modelli
computazionali, siano chiaramente cruciali ai fini di studiare le funzioni
cerebrali, non sono di per sé sufficientemente potenti per una completa
comprensione.
Per studiare, ad esempio, la capacità del SN di riconoscere oggetti in
movimento, non è sufficiente avere una visione esauriente di concetti quali
il flusso ottico, ma è necessario tenere conto dell’esistenza e del
funzionamento delle cellule selettive per il movimento e per la direzione, la
loro distribuzione nelle aree visive primarie e secondarie, le loro
interconnessioni, la loro sensibilità. Questi ultimi dati, presi da soli,
avrebbero tuttavia un significato alquanto limitato. Non avrebbe senso
studiare nei dettagli più minuti le caratteristiche dei neuroni senza avere
come fine ultimo quello di correlare questi dati con quelli psicologici. Una
completa comprensione si può avere unicamente integrando i due livelli, in
una costante interazione. Nel presente lavoro utilizzerò lo strumento delle
reti neurali. Le reti rappresentano attualmente, a mio giudizio, la metafora
della mente più vicina alla realtà del sistema nervoso.
5
1.2 Il modello
Fra i tanti dubbi che mi hanno accompagnato durante e prima della
stesura di questo lavoro, forse l’unica certezza ha riguardato il metodo
generale che avrei seguito durante il lavoro: un approccio pragmatico. Le
parole di Alan Perlis, citate all’inizio del paragrafo, sono esemplificative di
questo atteggiamento. Quando sei sicuro di aver capito qualcosa? Quando
l’hai letta? No di certo. Quando l’hai ripetuta, come si fa prima di un
esame? L’esperienza universitaria (vedi oblio post-esame….) mi suggerisce
il contrario. Forse quando puoi insegnare questa cosa a qualcuno? E’
possibile, ma ci sono molti insegnanti inconsapevoli…. Una sicurezza, non
dico matematica, ma approssimativamente tale la puoi avere solo quando
sei in grado di riprodurre il fenomeno, magari simulandolo. In questo
ultimo caso, ogni piccolo dettaglio del problema deve essere reso
massimamente esplicito. Non è possibile barare, a questo livello tutte le
teorie più astratte devono superare la prova più importante: la rimozione, il
meccanismo di difesa tipico della comunità degli psicologi, cade
inesorabilmente di fronte alla cruda realtà dei fatti.
Come simulare, e quindi in una certa misura riprodurre, un sistema
così complesso come quello nervoso? A che livello implementarlo?
Il livello scelto in questa tesi è quello neurale, in quanto i neuroni
sono le unità di “calcolo” alla base delle elaborazioni nervose. Ci si asterrà,
quindi, il più possibile dall’utilizzo di termini quali quelli di “sistema” e
“modulo”, vere e proprie scatole nere ed “assi piglia tutto” impiegati per
sostenere delle teorie traballanti. In questa tesi si affronteranno problemi
forse più circoscritti, meno ambiziosi, ma tutti i postulati teorici dovranno
avere una applicazione a livello di simulazione, senza soluzione di
continuità.
Il formalismo scelto è quello delle reti neurali, in quanto è questo che
si sposa maggiormente con le necessità epistemologiche fin qui evidenziate.
Gran parte della psicologia classica ha fatto ricorso al paradigma
6
dell’associazionismo (sia di concetti che di stimoli e risposte), teorie ben
strutturate già nella filosofia di Hume, ma le cui radici possono essere fatte
risalire ad Aristotele. Le reti neurali possono dare nuova linfa a questo
vecchio concetto fornendo un meccanismo, biologicamente plausibile, per
la formazione delle associazioni, suggerendo nel contempo moltissimi, utili
insight.
Le reti neurali artificiali sono dei sistemi di elaborazione
dell’informazione la cui architettura e modalità di funzionamento trae
ispirazione dai sistemi nervosi biologici (Floreano 1996). Il cervello può
essere considerato come una unica, immensa rete neurale. Per essere più
precisi, è meglio pensare al SN come ad una “rete di reti”, come suggeritoci
dalla ricerca neuroanatomica. Quest’ultima ha evidenziato come il cervello
possa essere visto come un puzzle di reti nervose con caratteristiche
peculiari, si a livello di architettura che di proprietà dei suoi costituenti, i
neuroni. Il ruolo delle reti neurali nel modellare tale, enorme architettura
che è il cervello può essere meglio compreso confrontando quest’ultime con
quello che è stato l’approccio dominante prima del loro avvento,
l’intelligenza artificiale (IA). L’IA studia in che modo i computer possano
essere programmati al fine di produrre comportamenti “intelligenti” senza
la necessità di indicare correlazioni fra strutture del programma (o
dell’elaboratore) e strutture nervose. Negli anni ‘60 e ‘70 la maggior parte
degli psicologi cognitivi formularono le loro teorie in termini di information
processing, ignorando largamente le evidenze sull’organizzazione biologica
del SN. Questo trend ha contribuito ad ampliare lo iato fra biologia e
psicologia, tendenza che sta fortunatamente invertendosi negli ultimi anni.
Rispetto ai classici modelli IA, i sistemi neurali si dimostrano competenti
per quei processi di basso livello (ad esempio, percezione ed azione
motoria) che rappresentano un ostacolo insormontabile per i sistemi basati
su regole esplicite, come i cosiddetti sistemi di produzione. Nella tabella 1
vengono elencate le maggiori differenze fra i modelli cognitivisti basati
sulla IA e quelli ispirati alle reti neurali.
7
Neurone naturale
Neurone
artificiale
Fig. 1. Analogie tra un
neurone biologico ed uno artificiale. Al posto dell'albero dendritico abbiamo una
serie di pesi (Wij) che connettono le unità pre- e post-sinaptica (X1, X2, …Xi).
Ogni peso misura la forza della connessione. Come per i neuroni biologici, quelli
artificiali non fanno altro che "calcolare" la somma degli input: Ai = XiWij - i.
Se questi eccedono la soglia (i), l'unità scarica. In termini matematici, calcola
una semplice funzione di output dell'unità: Yi = f(Ai), dove Yi è l’output
dell’unità, Ai è la sua attivazione ed f è una funzione di trasformazione di
quest’ultima. Le connessioni, la “memoria a lungo termine” della rete, possono
essere soggette ad apprendimento e quindi modificare il pattern di attività del
sistema, la sua “memoria a breve termine”.
L'organizzazione in parallelo delle reti neurali, il fatto che una
determinata rappresentazione, ad esempio quella di un oggetto, è codificata
su più unità simultaneamente (processi paralleli e distribuiti), la possibilità
di apprendere, la somiglianza fra prestazioni umane e simulazioni,
l’opportunità di eseguire osservazioni e manipolazioni altrimenti inattuabili
su substrati biologici: tutti questi fattori fanno si che le reti rappresentino
uno strumento appetibile per la ricerca psicologica e non. Infatti questo
formalismo è applicato con successo in diversi ambiti: informatica,
robotica, difesa, medicina e finanza. L’approccio sembra in grado di
conciliare la visione top-down con quella bottom-up.
8
MODELLI
RETI
CLASSICI
NEURALI
IA
IMMUTABILI: UN SISTEMA
APPRENDONO: SONO APPLICABILI A
SERVE SOLO IN QUEL
PIÙ DOMINI
DETERMINATO AMBITO
IMPLAUSIBILI: SI PUÒ
PLAUSIBILI:
SOSTENERE CHE IL CERVELLO
MENTE PIÙ VICINA ALLE EVIDENZE
FUNZIONI COSÌ?
BIOLOGICHE
LENTI: PROCESSI SERIALI
VELOCI: PROCESSI IN PARALLELO
FRAGILI: UN ERRORE
ROBUSTI: GLI ERRORI ED IL RUMORE
NEL PROGRAMMA CAUSA
DEGRADANO PROGRESSIVAMENTE LA
SPESSO UN BLACK-OUT
PRESTAZIONE
METAFORA
DELLA
DEL SISTEMA
Tab. 1. Principali differenze tra modelli classici dell'IA e reti neurali.
Questa tesi si pone come obiettivo quello di creare una dialettica
interattiva fra queste due visioni, prendendo in considerazione un problema
specifico e concreto, quello dell’attenzione selettiva visiva. Il lavoro
prenderà le mosse da un tentativo di modellare alcune proprietà del sistema
visivo dei vertebrati, al fine di rendere il modello il più possibile
ecologicamente plausibile. La tesi avrà come obiettivo fondamentale la
costruzione di un modello computazionale, basato su una rete neurale ed
implementato su PC. Anzi, si può dire che lo sforzo maggiore sarà dedicato
alla programmazione, piuttosto che alla stesura della parte scritta.
I modelli, per definizione, non possiedono tutta la ricchezza di
particolari delle loro controparti nel mondo reale. La simulazione su
computer ha quindi un limite fondamentale: il suo modello. Una volta che
quest’ultimo, tuttavia, abbia dimostrato una qualche validità, la sua
implementazione presenta dei vantaggi innegabili. Prima di tutto, rende il
tutto maggiormente esplicito, mettendo a nudo eventuali punti deboli o
9
bachi del modello originario. Le simulazioni sono inoltre velocemente
eseguibili e relativamente economiche e sono facilmente “trasportabili” ed
osservabili da chiunque. Esse permettono inoltre un controllo dei parametri
forse maggiore degli stessi esperimenti neurofisiologici, dando la possibilità
allo sperimentatore di eseguire delle manipolazione ed ottenere un grado di
precisione altrimenti impossibili.
1.3 Cosa può fare la rete, e cosa non può fare
La rete neurale che sarà sviluppata nel seguente lavoro simulerà
alcune delle molte proprietà funzionali del SN. Innanzitutto, gli input della
rete saranno costituiti da livelli di luminanza: non avrà alcun significato per
il modello la composizione spettrale del segnale.
La simulazione sarà prevalentemente atemporale. Ciò significa che
non verrà presa in considerazione né la dinamica dell’input ambientale né,
in gran parte, le complesse dinamiche interne della rete (deplezioneaccumulo di neurotrasmettitori, cambiamenti a lungo termine dell’efficacia
sinaptica, decadimento spontaneo dell’attività neurale, ecc.…). Il rumore
verrà trattato unicamente nella sua componente spaziale, non in quella
temporale.
La rete implementa dei processi di feed-back intermodale (interni
alla rete). Non interagisce con l’ambiente esterno e, quindi, non è in grado
di modificare il proprio input (in ogni caso, simulato).
La rete opera inoltre trasformazioni in 2D, non possedendo unità in
grado di supportare analisi in 3D, né tantomeno trattare problemi di
stereopsi. L’immagine elaborata sarà, infatti, singola.
10
1.4 Organizzazione della tesi
Nella stesura di questo lavoro ho cercato di ripercorrere le tappe
concettuali ed operative che hanno portato alla creazione del modello finale.
La rete è stata costruita attenendosi il più possibile ai risultati della ricerca
nel campo delle neuroscienze, in un dialogo costante fra dati funzionali,
osservazioni
anatomiche,
evidenze
sperimentali,
ed
esigenze
computazionali. Ogni capitolo ha quindi un’organizzazione dicotomica, con
una prima parte dedicata ad una ricerca ed alla circoscrizione delle
caratteristiche funzionali da implementare, ed una seconda caratterizzata da
una fase operativa di costruzione della rete.
La tesi può essere concettualmente separata in due parti, con la prima
dedita a modellare gli stadi precoci dell’elaborazione visive e la seconda
che delinea alcuni processi di controllo superiori, in particolare quello
dell’attenzione selettiva.