Reti neurali e applicazioni di interesse biologico

annuncio pubblicitario
Corso di Perfezionamento in
Metodi di Elaborazione di Segnali e Immagini Biomediche
P. Sirabella - A. Colosimo
LE RETI NEURALI ARTIFICIALI
E LORO APPLICAZIONI D'INTERESSE BIOLOGICO
Roma
Maggio 1993
2
INDICE
Presentazione
Capitolo 1.
1.1
1.2
1.3
1.4
1.5
1.6
pag.
2
Gli algoritmi connessionisti e la simulazione dell'apprendimento
Considerazioni preliminari
Il neurone formale e la dinamica delle reti
L'apprendimento hebbiano
L'apprendimento non-hebbiano
L'apprendimento competitivo
Altre classificazioni dei modelli di apprendimento
Appendice A1 Il problema della stabilita-plasticità
Bibliografia Capitolo 1
3
5
10
14
17
20
22
25
Capitolo 2. Una Applicazione di interesse fisiologico
2.1
2.2
2.3
2.4
Le mappe autoorganizzanti di Kohonen (SOM) a conservazione di topologia
La dinamica spazio-temporale delle SOM
Semplificazione ed implementazione dell'algoritmo
Una corteccia somatosensoria simulata
Appendice A2 L'interazione laterale in modelli dinamici d'interesse biologico
Bibliografia Capitolo 2
27
29
36
42
52
54
Capitolo 3. Una Applicazione nello studio delle strutture proteiche
3.1
3.2
3.3
Il percettrone multi-strato e la regola delta generalizzata
La predizione delle strutture proteiche
Implementazione e risultati
Appendice A3 Confronto fra metodi alternativi nella predizione della struttura
secondaria di proteine
Bibliografia Capitolo 3
55
61
67
71
75
3
PRESENTAZIONE
Negli ultimi cinque anni l'argomento 'reti neurali' è ridiventato di
grande attualità dopo circa un ventennio in cui l'approccio numericostrutturale era stato largamente superato in popolarità, presso i cultori
della Intelligenza Artificiale, da quello di tipo logico-simbolico.
Esaminare i motivi di tale rinascita, pur se di grande interesse, non é
nostra intenzione in questa sede* : preferiamo presentare una sintesi
succinta dei principali lavori sull'argomento, o per lo meno di quelli
che ci hanno maggiormente ispirato e guidato nel nostro lavoro, e farla
immediatamente seguire dalla illustrazione di due applicazioni da noi
sviluppate in settori estremamente diversi della biologia quantitativa: la
simulazione di una corteccia somatosensoria e la predizione della
struttura secondaria di una proteina.
La scelta di tali argomenti non é stata, ovviamente, casuale:
innanzi tutto, si voleva sottolineare la grande flessibilità di un insieme
relativamente eterogeneo di algoritmi accomunati dall'obiettivo di
simulare l'apprendimento del S.N.C. come proprietà emergente di
insiemi numerosi di unità computazionali intrisecamente semplici e ad
alta connettività. Secondariamente, oltre che di indiscutibile valore
esplicativo e didattico, esse ci sono sembrate particolarmente adatte ad
ispirare: a) ulteriori approfondimenti negli stessi settori; b)
l'esplorazione, con le stesse tecniche, di problematiche nuove. Infine, ci
premeva dimostrare l'assunto che non é necessario il possesso di
super-specializzazioni o di super-computers per implementare in tempi
ragionevoli reti neurali capaci di affrontare problemi reali.
* Per un approfondimento, vedi la lucida introduzione di D. Parisi alla edizione italiana
del
fondamentale lavoro di Rumelhart e McLelland "PDP, microstruttura dei
processi
cognitivi", Il Mulino, 1992.
4
1. Gli algoritmi connessionisti e la simulazione
dell’apprendimento
1.1 Considerazioni preliminari
" Le Reti Neuronali Artificiali sono reti con interconnessioni ad
alto grado di parallelismo composte da semplici elementi,
generalmente adattivi. Le loro organizzazioni gerarchiche sono
pensate per interagire con il mondo reale allo stesso modo di un
sistema nervoso biologico. " [Kohonen, 1988]
L'osservazione della enorme complessità di un sistema nervoso (nell'uomo
si hanno circa 1011 neuroni e 1015 connessioni) affida alla variabilità e alla
plasticità neuronale un ruolo fondamentale per il funzionamento del cervello:
sono l'apprendimento ed il confronto continuo con il mondo gli agenti che, su
una impalcatura genetica, costruiscono e trasformano continuamente una
individualità epigenetica neuronale [Edelman,1989] [Rosenfield,1988]. Ciò si
manifesta in variazioni sia strutturali (crescita di nuove fibre nervose e nuove
ramificazioni dendritiche) che chimiche (variazioni di accoppiamento sinaptico)
[Changeux,1983]. Solo queste ultime, per il momento, sono considerate nella
progettazioni di reti neuronali artificiali.
L'utilizzo di calcolatori digitali per la realizzazione di tali reti non significa
che, per esse, vengano adottate le regole della logica digitale. Il singolo elemento
di rete, il neurone formale (vedi appresso), svolge una operazione analogica di
trasformazione, di filtraggio adattivo del segnale. La plasticità funzionale
dell’insieme, partendo da oggetti elementari come il neurone, è raggiunta grazie
al grande livello di interconnessione, alla distribuzione di processi di
retroazione, alla non linearità della trasformazione e alla stessa variabilità
adattiva dei suoi parametri.
Sulla base, quindi, delle leggi di attivazione e modificazione neuronale,
frutto della ricerca neurofisiologica, sono stati sviluppati dei modelli fisicomatematici la cui caratteristica principale è la capacità di simulare alcuni dei
comportamenti più elementari delle reti neuronali biologiche nei problemi di
apprendimento
e riconoscimento. La struttura di questi modelli,
differenziandosi dagli algoritmi tradizionali alla von Neumann a carattere
concentrato e sequenziale, è, in analogia con la struttura cerebrale, altamente
parallela : le singole unità di elaborazione, in analogia con le cellule neuronali,
Gli algoritmi connessionisti e la simulazione dell'apprendimento
5
sono caratterizzate da una funzione di trasferimento sostanzialmente semplice e
soprattutto non lineare, in cui sono presenti una soglia di attivazione ed un
valore di saturazione. Infine, l'informazione che essi elaborano è
immagazzinata nello stato dell'intero sistema: è distribuita.
Una conseguenza indiretta delle precedenti assunzioni è la rottura del
concetto di “osservatore interno”, legato spesso all'idea dell'esistenza di un
ipotetico centro di controllo delle attività cerebrali. Tale idea è la stessa che ha
portato alla tesi del calcolatore come modello del cervello: in esso,
tradizionalmente, vi è una periferia ed un centro, l'unità centrale di elaborazione
(la CPU) che governa tutte le operazioni. Il cervello non ha, invece, un centro, e
i neuroscienziati ne hanno fornito indiscutibili prove [Kandel & Schwartz,
1985]. Quello che è alla base dello studio sulle reti neuronali artificiali e perciò
la tesi del cervello come modello del calcolatore : mantenendo l'analogia con
l'esempio biologico, le funzioni fondamentali del soma (o corpo cellulare), dell'
assone e della ramificazione dendritica con le proprie sinapsi vengono
riprodotte rispettivamente dall'unità di elaborazione, dal dispositivo di uscita e
dai dispositivi di ingresso, utilizzando pesi di accoppiamento variabili per le
varie unità, che costituiscono, di fatto, la parte adattiva del sistema.
Primi lavori
1940-1960
-Logica Booleana
-Apprendimento Sinaptico
-Prime Simulazioni
-Percettrone
-Memorie Associative
McCULLOCH & PITTS (1943)
HEBB (1949)
FARLEY & CLARK (1952)
ROSENBLATT (1958)
STEINBUCH, TAYLOR (1961)
Transizione
1960-1980
-Algoritmo LMS
-Modello del Cerebellum CMAC
-Matrici di correlazione
-Apprendimento Competitivo
-Cognitron, Neocognitron
-ART, BCS
WIDROW & HOFF (1960)
ALBUS (1971)
KOHONEN (1972)
VON DER MALSBURG (1973)
FUKUSHIMA (1975)
CARPENTER & GROSSBERG
(1976)
Rinascita
1980-
-Modelli Connessionisti
-RCE
-Mappe Auto-Organizzanti
-Teoria Memorie Associative
-Boltzmann Machine
-Back Propagation
-Il volume PDP
-Darwin III
-ART 2
-Computer neuronali ottici
-Chip neuronali VLSI
-Reti neuronali e Caos
FELDMAN & BALLARD (1982)
REILLY, COOPER et al. (1982)
KOHONEN (1984)
HOPFIELD (1986)
HINTON & SEJNOWSKI (1986)
RUMELHART et al. (1986)
RUMELHART & McCLELLAND (1986)
EDELMAN, REEKE (1987)
CARPENTER & GROSSBERG (1987)
ABU-MOSTAFA & PSALTIS (1987)
GRAF et al. (1988)
FREEMAN et al. (1991)
Tabella 1 - Le tappe fondamentali nella ricerca sulle Reti Neuronali artificiali
Gli algoritmi connessionisti e la simulazione dell'apprendimento
6
Un utilizzo delle reti neuronali fra i più interessanti e accattivanti è quello
nei problemi in cui si richiede una capacità di riconoscimento di oggetti a
struttura complessa (in sostanza forme o, in un termine ormai internazionale,
patterns , principalmente visivi ed acustici), raggiunta grazie alla adattività del
sistema di memoria1.
Le applicazioni si basano principalmente sulla simulazione di processi di
apprendimento, che in base al loro carattere si possono suddividere in tre
categorie fondamentali :
Apprendimento supervisionato, dove è richiesta la presenza di un
“istruttore” esterno che, preparata una serie di esempi, assegni ad ogni stimolo
una configurazione di uscita ideale (target), cioè una rappresentazione interna
imposta. L'errore di rappresentazione generato dalla eventuale discordanza viene
utilizzato, grazie ad un meccanismo di retropropagazione, per la variazione
finalizzata delle sinapsi che, dopo una fase di addestramento, raggiungono una
condizione di equilibrio.
Apprendimento non supervisionato, dove la rete neuronale forma
spontaneamente delle rappresentazioni interne dell'insieme degli ingressi sotto
forma di classificazione.
Apprendimento auto-supervisionato, dove viene creato, sulla base di
determinati parametri interni, un errore di rappresentazione che, retropropagato,
determina le variazioni sinaptiche.
Nei successivi paragrafi saranno impostati alcuni criteri di differenziazione,
in base al sistema dinamico utilizzato, che potranno essere utili per la
comparazione tra i diversi modelli e per l'individuazione delle scelte che li hanno
prodotti. Saranno, quindi, brevemente discussi alcuni di essi in base al tipo di
apprendimento.
1.2 Il neurone formale e la dinamica delle reti
La modellizzazione della cellula neuronale proposta da McCulloch e Pitts
[McCulloch & Pitts,1943] è alla base, con varianti più o meno significative,
dell'equazione di attivazione di praticamente tutti i modelli neuronali tuttora in
1 E’ ben nota la complessità di tale obiettivo: ciò che viene compiuto spontaneamente e senza fatica anche
dai più semplici esseri viventi, viene ancora oggi svolto con estrema difficoltà e in numeri limitati dai casi dai
calcolatori più potenti.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
7
studio. Tale modellizzazione tratta il neurone come sistema binario a soglia, e
cioè a due stati di uscita {+1,0}, ed è stata in parte ispirata dall' osservazione
neurofisiologica per la quale i segnali tra due cellule nervose sembravano essere
caratterizzati da un comportamento di tipo esclusivo : la trasmissione del
neuroimpulso, il potenziale d'azione, è o completa o nulla. *
NEUROIMPULSO
EFFERENTE
Sj = φ(xj )
ASSONE
SOMA
φ(xj )binaria
xj
φ(xj )sigmoide
xj
xj = ∑ Siw ij +θ j
φ(xj ) lineare a soglia
i
SINAPSI
xj
w ij
Si
NEUROIMPULSO
AFFERENTE
Fig 1.1 - Neurone Formale
Nella figura è rappresentato il “neurone formale”, così come viene utilizzato,
generalmente, nei modelli neuronali. Esso è costituito, strutturalmente, dalle
sinapsi w ij che collegano il neurone con gli altri neuroni della rete e che
raccolgono ineuroimpulsi afferenti. Vi è poi ilcorpo cellulare, dove viene
svolta l’operazione di somma pesata di tali segnali in ingresso. Essa, modulata
da una funzionea soglia, costituirà la risposta del neurone, e verrà propagata,
attraverso l’unico dispositivo di uscita, assone
l’
, verso tutti gli altri neuroni ad
esso connessi tramite altre sinapsi.
Nella progettazione di una rete neuronale artificiale ha un'importanza
primaria la scelta del sistema di equazioni dinamiche che ne regolano
l'evoluzione. Nel caso più generale potremo scrivere
dS/dt = f (x , S , W , M)
dW/dt = g (x , S , W)
dM/dt = h (S , W)
(1.1a)
(1.1b)
(1.1c)
* Tale supposizione è, forse, dovuta anche alla contemporaneità storica, nei primi anni '40, tra i primi studi
sul calcolo neuronale e la realizzazione dei primi computers non completamente analogici.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
8
In esse, ed anche in seguito, il termine x è il vettore che rappresenta tutti
gli ingressi della rete (gli stimoli), S è il vettore associato a tutte le attività
neuronali di risposta, e W ed M sono due matrici associate ai termini adattivi di
connettività.
La prima equazione, legata alla risposta immediata del neurone, è detta
equazione di rilassamento o equazione di attivazione : nei sistemi biologici ha
costanti di tempo dell'ordine della decina di millisecondi, descrivendo fenomeni
fisici quali la diffusione di ioni leggeri. Le altre due equazioni descrivono
variazioni proteiche o di struttura anatomica, ed hanno costanti di tempo dell'
ordine di qualche giorno (o anche più). Esse sono dette equazioni di
adattamento o equazioni di apprendimento. L'ultima, in particolare,
descrive le funzioni fondamentali di una memoria associativa [Bottini, 1980,
1984].
Il neurone formale (Figura 1.1) è descritto, in sostanza, dalla legge che
determina l'attività del neurone in funzione dei segnali di ingresso: le varie vie
afferenti al neurone j-esimo portano ciascuna un segnale continuo Si (che
rappresenta l'attività sulla linea i-sima, eventualmente associata ad una
frequenza) che viene moltiplicato per un peso wij di accoppiamento
sinaptico tra il neurone j-simo e la via afferente i-sima. Per un principio di
sovrapposizione l'attività Sj del neurone (il segnale di uscita, inviato sull'assone)
sarà proporzionale alla somma pesata xj dei segnali afferenti, modulata da una
funzione di trasferimento φ(x) non lineare che tiene conto degli effetti di soglia e
di saturazione della risposta del neurone : nel caso particolare del neurone
“binario” φ(x) sarà una funzione di Heaviside a gradino binario. La legge di
McCulloch e Pitts prevede anche la possibilità di un termine di polarizzazione
θ j del neurone che equivale all'opposto di una soglia per la funzione di uscita.
In termini formali si ottiene come legge di attivazione
Sj(t+1) = φ(xj(t+1)) = φ( ΣiwijSi(t)+θ j)
(1.2a)
φ(x) = {+1 se x>0 , 0 se x ≤ 0 }
(1.2b)
dove
Una equazione di questo tipo, rappresentando la risposta immediata del
neurone, è anche nota con il nome di equazione della memoria a breve termine,
o equazione STM (Short Term Memory). Nella Figura 1.1 è illustrato
Gli algoritmi connessionisti e la simulazione dell'apprendimento
9
l'equivalente formale del neurone secondo la schematizzazione di McCulloch e
Pitts.
In realtà, però, il neurone agisce più o meno come un integratore non
lineare dissipativo dei segnali di ingresso, la cui funzione di trasferimento è
descritta da almeno una ventina di variabili di stato. Nelle formalizzazioni,
comunque, si utilizza una più semplice, ma pur sempre realistica, operazione di
trasformazione. Una descrizione più verosimile della precedente considera
l'attività di un neurone come se fosse rappresentabile da una variabile continua S
non negativa descritta da una equazione dinamica del tipo :
dS/dt = I - γ (S)
(1.2c)
della quale la (1.2) rappresenta una particolare soluzione stazionaria. Il termine
I rappresenta l'effetto integrato di tutte le correnti di membrana, mentre il
termine γ(S), di decadimento passivo, si oppone alla variazione di attivazione e
tiene conto degli effetti di non linearità attinenti alle proprietà reali del neurone
biologico, quali saturazione e fenomeni di perdita. Esso è, nel caso della (1.2), l'
inverso della funzione di trasferimento φ prima descritta.
Una espressione più completa dell' equazione STM di attivazione diventa,
nella sua forma più generale nota come modello additivo [Grossberg,1988],
dS j
dt
= - γ(S j ) + ( ∑ φ(S i )w (ij+) + θ j ) - ( ∑ φ(S i )w (ij- ) + θ j ) + I j
i
i
(1.3)
Il secondo ed il terzo termine rappresentano dei segnali di feedback,
positivo e negativo, nei quali si tiene conto delle tracce di memoria contenute
nelle sinapsi eccitatorie wij(+) e in quelle inibitorie wij(-) . Il quarto termine è il
generico input, che arriva direttamente al neurone j-simo senza l'intermediazione
di altri neuroni. L' equazione (1.3), in una variante nota come modello additivo
“shunting” e sempre dovuta a S. Grossberg [Grossberg, 1988], [Carpenter,
1989], limita l'attività del neurone nel range (-B, A)
Gli algoritmi connessionisti e la simulazione dell'apprendimento
10
dS j
dt
= − γ(S j ) + (A − S j )
∑ (eccitazioni) − (B + Sj )∑ (inibizioni)
(1.4) (*)
Tornando alla equazione dinamica semplificata (1.2c), possiamo assumere, solo
per quel che riguarda una rete neuronale artificiale, che la corrente di membrana
sia appunto esprimibile come nell' equazione (1.2)
I = Σi wij Si
(1.2d)
Se, ora, possiamo considerare stazionari, o perlomeno variabili lentamente,
i segnali di ingresso, allora S raggiungerà l'equilibrio asintotico quando dS/dt=0,
e quindi
S = γ -1 (I)
(1.2e)
I fenomeni di saturazione si innescano per alte attività neuronali, quindi il
termine di perdita γ(S) deve essere una funzione progressivamente crescente
dell' attività S. Se, poi, quest'ultima è a valori mai negativi, allora la funzione di
Heaviside è una possibile, seppur eccessivamente semplificata, funzione di
attivazione S(I).
Nei modelli ad apprendimento competitivo (vedi appresso) viene spesso
utilizzata una interpretazione geometrico-vettoriale dell'equazione di attivazione
(1.2) di McCulloch e Pitts: l'attività xj del neurone j-simo (modulata, in genere,
da una funzione di trasferimento lineare, non negativa e senza saturazione) è
vista come prodotto scalare del vettore di input S per il vettore dei pesi wj. Ciò
permette di ricavare il valore di attivazione anche dalla distanza euclidea tra i
punti rappresentativi dei rispettivi vettori : a prodotto scalare massimo
corrisponderà distanza minima, e viceversa (per vettori normalizzati).
Mentre, come già si è detto, tutti i modelli si differenziano assai poco
nell'utilizzo di una particolare equazione STM di attivazione, più rilevante
diventa la scelta di una specifica equazione di apprendimento.
* Essa è significativamente simile a quella ricavata (e che fruttò loro il Premio Nobel) da Huxley ed Hodgkin
[Hodgkin & Huxley,1952] che, nell'ambito di una modellizzazione del comportamento elettrico di una cellula
nervosa, descrive la corrente totale I di membrana come funzione del tempo e della tensione V di
depolarizzazione di membrana
I = CM ( dV ) + (V- VK)g K + (V- VNa )g Na + (V- Vl)g l
dt
dove g K , g Na , g l e VK ,V Na ,V l rappresentano rispettivamente le conduttanze (funzioni del tempo e
del potenziale di membrana) dei canali a corrente ionica di Potassio, di Sodio e a corrente di perdita (leakage
current), e le cadute di tensione su ciascun canale, mentre CM rappresenta la capacità di membrana per unità
di area.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
11
1.3 L’ apprendimento hebbiano
Che l'apprendimento avesse alla sua base un qualche forma di
trasformazione fisica nelle reti cellulari era già stato intuito da diversi
neurofisiologi, ma l'identificazione della natura e delle cause di tali
modificazioni avvenne soltanto grazie a un'intuizione di D. Hebb, alla fine degli
anni '40. Egli, finalmente, propose un meccanismo plausibile in grado di fornire
una base biologica ai processi della memoria: ipotizzò che fossero le sinapsi il
luogo in cui avvengono i cambiamenti strutturali legati all' apprendimento*.
La teoria di Hebb permise quindi di associare al neurone formale di
McCulloch e Pitts una formalizzazione della plasticità sinaptica, che descriva le
modificazioni nei termini di accoppiamento sinaptico. La sinapsi viene quindi
trattata come un rivelatore di correlazione tra l'attività Si del neurone
presinaptico e quella xj del neurone postsinaptico.
Nella teoria proposta da Hebb l'aumento di efficacia di una sinapsi
eccitatoria dipende dalla sincronicità di attivazione del neurone presinaptico e di
quello postsinaptico. Gli esperimenti di deprivazione monoculare di Hubel e
Wiesel indicarono, completando la teoria di Hebb, che la diminuzione di
efficacia di una sinapsi eccitatoria dipende dalla simultanea mancanza di
attivazione del neurone presinaptico e attivazione del neurone postsinaptico.
Ulteriori ricerche, alcune basate su esperimenti di deprivazione binoculare
[Singer,1986], mostrarono che in mancanza di attivazione del neurone
postsinaptico non si ha una variazione della efficacia sinaptica. Ciò dà luogo a
quattro possibili situazioni, mostrate dalla Figura 1.2.
Inoltre, la legge di Hebb aggiunge al modello di McCulloch e Pitts un
carattere adattivo, fondamentale per il verificarsi del processo di apprendimento.
* “Quando un assone della cellula A è abbastanza vicino da eccitare la cellula B, e prende ripetutamente parte
alla sua eccitazione, hanno luogo, in una o in entrambe le cellule, dei processi di crescita o dei mutamenti
strutturali tali da aumentare l'efficienza di A, in quanto cellula scatenante l'attività di B” [Hebb,1949].
Le motivazioni che portarono Hebb a queste conclusioni furono esclusivamente teoriche, e probabilmente
ebbero grande importanza le idee dei filosofi empiristi inglesi Hobbes e Locke sul pensiero come associazione
di idee e sul principio di contiguità : due eventi mentali occorrenti simultaneamente provocheranno un
reciproco legame di associazione, basato sulla contiguità temporale. Recentemente, inoltre, alcuni
neurobiologi hanno ipotizzato che alcuni aspetti caratteristici del fenomeno noto come Potenziamento a Lungo
Termine (LTP) potrebbero essere spiegati da un meccanismo del tipo di quello proposto da Hebb [Kelso et
al.,1986] : si tratta di un processo di fondamentale importanza per la formazione dei ricordi. Esso consiste, in
breve, in un aumento, di lunga durata, della forza di una sinapsi causato da una breve stimolazione ad alta
frequenza ("tetanica") della fibra afferente, ed è stato scoperto nell' ippocampo, che è una struttura
dell'encefalo simile alla corteccia (ma più antica filogeneticamente), implicata nei processi di
memorizzazione e nell' apprendimento dell'orientamento spaziale.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
12
presinapticopostsinaptico
B
Neurone A
Neurone B ∆w
AB
attivo
inattivo
attivo
inattivo
attivo
attivo
inattivo
inattivo
∆wAB=
>0
<0
=0
=0
variazione di
efficacia sinaptica
SINAPSIwAB
A
Figura 1.2 Regole “hebbiane” di modificazione della efficacia sinaptica
La più semplice traduzione in termini formali dell'equazione di
apprendimento (1.1b), in base alla legge di Hebb assume l'espressione
dwij
dt
= α Si x j ≥ 0
(1.5)
Si noti che, in analogia con quanto detto per la (1.2), è consuetudine
riferirsi alle equazioni di apprendimento, e quindi di modifica
dell'accoppiamento sinaptico, con il termine di equazioni LTM (Long Term
Memory). E' ovvio che le dinamiche dei due processi, STM ed LTM, siano
caratterizzate da costanti di tempo significativamente differenti.
Un'altra equazione di apprendimento che deriva strettamente da quella
hebbiana e che ha dato luogo, a sua volta, a numerose varianti è dovuta a
Grossberg [Grossberg,1968]. Con essa viene introdotto, nella legge di Hebb,
un termine di perdita o smemorizzazione
dwij
dt
= α Si x j - w ij
(1.6)
Nel caso più diffuso, per esempio, di uno stadio di ingresso nel quale i
vettori di pesi wiJ = (w1J ,,, wnJ) tendono a riprodurre il segnale afferente Si,
otterremo, per un sistema real-time (vedi appresso) :
Gli algoritmi connessionisti e la simulazione dell'apprendimento
13
dwij
dt
= α(t) Si - w ij
(1.7)
Nel caso, infine, del modello di Kohonen (vedi appresso), non abbiamo,
almeno esplicitamente, la funzione di gate dell'uscita xj del neurone che esiste
nella (1.7), e la dinamica assume la forma
dwij
dt
= α Si x j - β(x j )wij
α >0
(1.8)
dove, mentre il primo termine è tipicamente hebbiano e comporta come effetto
la sensibilizzazione del neurone ad un determinato pattern ed è la base del
comportamento adattivo, il secondo svolge una funzione di smemorizzazione
attiva, stabilzzando l'attività del neurone entro un range opportuno. Si dimostra
infatti che i vettori dei pesi tenderanno a normalizzarsi, assumendo tutti, nell'
apprendimento, la medesima lunghezza [Kohonen,1984]. L'utilizzo della (1.8) è
però generalmemte limitato ad una sua forma semplificata, che verrà descritta in
seguito.
Uno dei primi modelli che adottò la regola di apprendimento hebbiana è
noto con il nome di LEARNING MATRIX ed è dovuto a K. Steinbuch
[Steinbuch, 1961]. Esso è il precursore dei modelli ad apprendimento
competitivo capaci di organizzare e raggruppare i patterns di ingresso in
categorie, imposte dall'addestratore.
La struttura della LEARNING MATRIX è, per sommi capi, la seguente : i
valori delle sinapsi wij sono gli elementi di una matrice che avrà un numero di
colonne pari alla dimensione del vettore binario a di ingresso, e un numero di
righe pari al numero di categorie che si vogliono creare e alle quali sarà
associato un vettore binario di categorie b (tale vettore dovrà avere una ed una
sola componente uguale ad 1, e cioè b=(0..010..0) ), seguendo così il
paradigma di classificazione.
L'apprendimento avviene presentando simultaneamente il vettore di
ingresso a ed il vettore b , avendo scelto in b la categoria alla quale sarà
assegnato a. Se descriviamo il segnale presinaptico come Si = (2a i -1)={+1,-1}
e quello postsinaptico come xj = bj = {+1, 0} possiamo utilizzare, nella fase di
apprendimento, esattamente la legge di Hebb (1.2) (con la differenza che le
variazioni possono anche essere negative). Nella fase di riconoscimento, ad
Gli algoritmi connessionisti e la simulazione dell'apprendimento
14
addestramento avvenuto e a dinamica arrestata, assegneremo il pattern
presentato alla categoria J-sima se il vettore estratto dalla matrice
wJ =(w 1J,,,,,wnJ) è, scelto un criterio di distanza, il più vicino al vettore a . Se,
nella fase di riconoscimento, oltre ad arrestare la dinamica, ridefiniamo il
segnale presinaptico come S i =ai , allora possiamo produrre una risposta della
rete nel vettore b. Questo avrà la componente bJ = 1, e solo quella, se il prodotto
scalare
S x wJ = || S || || wJ || cos (S,wJ )
è il massimo per ogni riga. Tale componente identificherà la categoria alla quale
è stato assegnato il pattern a : il sistema risponderà allo stimolo dichiarandone la
classe di appartenenza.
Un' altra area di ricerca che vide l'utilizzo delle leggi di variazione sinaptica
di derivazione hebbiana è quella sulle Memorie Associative Lineari (Linear
Associative Memory - LAM) [Nakano, 1972] [Kohonen, 1972]. L' idea che è
alla base delle LAM è che, dato un insieme di patterns associati (a(p) ,b(p) ) , sia
possibile memorizzarlo in una matrice di correlazione i cui elementi siano
wij =
Σp ai(p) bj(p)
(1.9)
Nella fase del riconoscimento, presentando un pattern a(p) , otterremo come
risposta dalla rete un vettore x=a(p) Tw proporzionale e, quindi, lineare con il
pattern associato b(p) . Se, infatti, nella xj = a(p) x wj sostituiamo la (1.9)
otteniamo
xj =
Σq
(a (p) x a (q) ) bj (q)
(1.10)
Anche in questo caso la legge di variazione dei coefficienti di correlazione è
del tipo hebbiano (1.2), se consideriamo ai segnale presinaptico e bj segnale
postsinaptico. E' sempre più evidente il senso dell'affermazione per cui,
modificandosi secondo la legge di Hebb, la sinapsi tra due neuroni funga da
rivelatore di correlazione di attività.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
15
1.4 L’apprendimento non-hebbiano
L'equazione dinamica hebbiana non fu l'unica ad essere utilizzata nella
ricerca sulle reti neuronali formali : specialmente nei primi modelli l'equazione
LTM adottata è sensibilmente differente, anche se spesso conduce a risultati
analoghi. Essa, nota come Delta Rule [Rosenblatt,1958], descrive una
variazione del termine sinaptico proporzionale alla differenza Dj tra l'uscita Sj
effettiva del neurone ed un valore di target bj imposto dall' “addestratore”
Dj = (bj - Sj )
dw ij
dt
=
αD jS i
S2
(1.11a)
(1.11b)
o anche nella forma
wij(t+1) = w ij(t) + ∆wij
(1.11c)
∂(∑i Di2 )
(1.11d)
∆wij = −α
∂wij
Le variazioni sinaptiche saranno quindi tanto minori quanto più i segnali di
uscita Sj dei singoli neuroni riprodurranno i segnali di target b j . La necessità di
un valore di target rende i modelli che utilizzano tale equazione di
apprendimento ascrivibili alla classe dei modelli ad apprendimento
supervisionato. Inoltre in essi si richiede la formazione di un termine di
correzione che necessita del confronto con un valore di target : essa non può
essere fatta nelle “immediate vicinanze” delle sinapsi. Questo termine di
correzione deve essere retropropagato dallo strato di uscita agli strati inferiori,
interrompendo così il flusso di informazione (con una verosimiglianza
biologica assai debole). Ciò non succede, invece, in modelli che usano la
dinamica (1.5) di Hebb, o una delle sue molte varianti : in essi non si deve
utilizzare alcuna grandezza che non sia disponibile nella zona sinaptica.
L'assenza di un valore di target, nei modelli di impostazione hebbiana, assegna
allo stato del neurone e al segnale di ingresso la totalità delle variabili in gioco e
la legge di variazione è peculiarmente locale.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
16
In uno dei primi modelli neuronali, il PERCEPTRON, ad opera di
Rosenblatt [Rosenblatt,1958], venne adattata al neurone di McCulloch e Pitts
una legge di apprendimento differente dalla legge di Hebb. Nel PERCEPTRON
il termine di attivazione STM relativo all' uscita Sj del neurone j-simo è simile
a quello di McCulloch e Pitts (1.2), con una funzione di attivazione φ a gradino
di tipo binario
Sj(t+1) = φ(xj(t+1)) = φ( ΣiwijSi(t)+θ j)
(1.2a)
φ(x) = {+1 se x>0 , 0 se x ≤ 0 }
(1.2b)
dove
Per la determinazione del termine di apprendimento LTM l'uscita Sj del
neurone viene confrontata con un valore di target bj imposto dall'
“addestratore” e la differenza Dj viene retropropagata (vedi Figura 1.2), ed
utilizzata per la variazione delle sinapsi con il neurone presinaptico per mezzo
della Delta Rule
Dj = (bj - Sj )
(1.11a)
dw ij
dt
=
αD jS i
S2
(1.11b)
Una limitazione del PERCEPTRON di Rosenblatt venne infatti evidenziata
da Minsky e Papert [Minsky & Papert,1969] e consiste nel fatto che il
PERCEPTRON, nella sua forma originaria a due soli strati, è in grado di
classificare solo gruppi di patterns linearmente separabili : le superfici di
demarcazione sono iperpiani. Il PERCEPTRON di Rosenblatt è stato,
comunque, il capostipite di una lunga serie di modelli, detti anche a
retroaccoppiamento , che da questo hanno derivato, oltre alla Delta Rule anche
la caratteristica struttura del flusso di informazione che segue il paradigma di
classificazione (vedi appresso).
Un modello derivato dal PERCEPTRON è, per esempio, l'ADALINE,
dovuto a Widrow e Hoff [Widrow & Hoff,1960] [Widrow et al., 1988]*. Nell'
ADALINE, però, si abbandona l'approccio binario a vantaggio di quello lineare.
Il segnale che viene confrontato con quello di target viene prelevato dall'uscita
del neurone prima dell'intervento della funzione di trasferimento binaria φ : è
* Esiste un’altra importante variante (vedi appresso) del PERCEPTRON, il MULTILAYER PERCEPTRON
[Rumelhart et al., 1986].
Gli algoritmi connessionisti e la simulazione dell'apprendimento
17
quindi ancora un segnale analogico, e ciò permetterà di ottenere un indice di
errore Dj molto più sensibile allo scostamento dell'uscita xj daltarget bj
Dj = (bj - xj )
(1.11a bis)
Tale valore verrà utilizzato per la variazione delle sinapsi wij, sempre per
mezzo della Delta Rule (1.11), permettendo la minimizzazione dello scarto
quadratico medio
ΣiDi2
tra la configurazione di uscita della rete di neuroni e
quella di target. Questo algoritmo è noto con il nome LMS (Least Mean
Square).
Sj =φ(xj )
supervisore
target
φ(xj )
(perceptron)
bj
φ
(adaline)
xj
Sj = xj
Dj= bj - jS
d wi j
xj = ∑ Siw ij + θ j
calcolo dell' errore
i
wi j
dt
∝Dj
Si
1
2
m
j
Output Layer
Input Layer
1
2
3
i
n-1
n
Figura 1.2 - PERCEPTRON / ADALINE LMS
Gli algoritmi connessionisti e la simulazione dell'apprendimento
18
Nella Figura 1.2 sono rappresentati simultaneamente gli schemi del
PERCEPTRON e dell'ADALINE: da come si vede la struttura è
sostanzialmente simile, e si differenziano soltanto per il diverso utilizzo del
segnale di uscita.
1.5 Modelli ad apprendimento competitivo
Nei modelli ad apprendimento competitivo si deve verificare la condizione
per la quale avremo una configurazione di uscita caratterizzata,
spontaneamente, dalla presenza di un solo neurone attivo alla volta (o,
perlomeno, uno molto più attivo di tutti gli altri, detto neurone vincente). Il
neurone vincente codifica, classifica, comprime, raggruppa o ortogonalizza di
volta in volta gli stimoli in ingresso. Ciò permetterà di ottenere una
compressione di informazione : ad una stessa categoria saranno assegnati tutti
gli stimoli che, fissata una metrica, saranno vicini, e cioè si assomiglieranno.
Viene compiuta quella che si dice una quantizzazione vettoriale adattiva , e
cioè la separazione dei patterns di ingresso in categorie mutuamente esclusive.
I primi modelli di questo tipo furono studiati intorno agli anni '70 sulla
base di lavori dovuti a Malsburg [Malsburg (von der), 1973], Fukushima
[Fukushima,1975] e Grossberg [Grossberg,1976]. In seguito furono sviluppati
da Amari [Amari & Takeuchi,1978], Cooper [Cooper et al.,1982] e,
soprattutto, dal già citato Kohonen [Kohonen,1984].
Il modello a mappe auto-organizzanti di Kohonen (Self Organizing Maps,
SOM) e la ART di Grossberg costituiscono degli esempi paradigmatici di reti
neuronali il cui utilizzo, più che come memorie associative, è legato alla loro
capacità di categorizzazione. Essi permettono di codificare adattivamente un
universo di stimoli sotto forma di categorie; essendo, poi, nella maggior parte,
ad apprendimento non-supervisionato non beneficiano del lavoro di un
istruttore che assegni arbitrariamente la categoria alla quale lo specifico stimolo
va assegnato.
Per ottenere una rete che segua delle regole di tipo competitivo uno degli
algoritmi più usati è quello noto come ON-CENTER / OFF-SURROUND :
esso si riferisce al meccanismo di feedback per il quale ogni neurone invia a sè
stesso e a quelli immediatamente vicini un segnale di tipo eccitatorio (ONCENTER), mentre ne invia uno di tipo inibitorio ai neuroni più lontani (OFFSURROUND). Tale segnale sarà una funzione f(xj ) dell' attività del neurone
Gli algoritmi connessionisti e la simulazione dell'apprendimento
19
stesso: dalla forma di questa funzione dipenderà la maggiore o minore
modulazione della risposta della rete alla presentazione di uno stimolo. Una
delle proprietà più importanti dei modelli ad apprendimento competitivo,
dimostrata matematicamente da Grossberg [Grossberg,1976], è quella di
ottenere la distribuzione ottimale dei termini LTM wij per la rappresentazione
dell' insieme degli stimoli in ingresso.
Le equazioni di modello ad apprendimento competitivo, nella loro forma
più semplice, sono le seguenti
STM - Competitive :
1
se
∑ w ij x i ≥ Ma x {∑k w j k x k : k ≠j
}
∑i w ij x i < Ma x {∑k w j k x k : k ≠j
}
i
xj =
0
se
(1.12)
e, per la variazione delle sinapsi ,
LTM - ON_Center / OFF_Surround :
dw ij
dt
= α x j (x i- w i j )
{s o l o
pe r i l n eu r o ne v inc en t e }
(1 .1 3 )
Rete ad apprendimento
competitivo ONc/OFFs
+φ (x j ) +
- -
-
−φ (x j )
-
Strati ad
apprendimento
competitivo
CONNESSIONI
ECCITATORIE
Si
CONNESSIONI
ECCITATORIE
xi
Strato di input
Strato di
input
elemento della classe
rappresentante della classe
Pattern di
input
Figura 1.3 Possibile architettura di reti ad apprendimento competitivo
Gli algoritmi connessionisti e la simulazione dell'apprendimento
20
Finestra 1.1 - I sistemi ad apprendimento competitivo
Un sistema ad apprendimento competitivo è caratterizzato, in generale, dalle seguenti
proprietà :
a) I neuroni dello strato nel quale avviene la competizione sono raggruppati in diversi
aggregati cellulari. In ciascuno di tali aggregati esiste una rete connettiva (feedback
laterale) che unisce la totalità dei neuroni di quell'aggregato. Le connessioni sono
eccitatorie tra neuroni vicini e inibitorie tra neuroni distanti. Ogni aggregato ha un solo
neurone attivo alla volta, il vincente.
b) Tutti i neuroni dello strato competitivo ricevono lo stesso segnale dallo strato di
input.
c) La variazione sinaptica avviene soltanto sui neuroni attivi.
d) Tale variazione fa in modo che il vettore wi relativo al neurone attivo tenda ad
avvicinarsi, con velocità data dal fattore di guadagno α, al vettore di input x.
I risultati che si ottengono sono caratterizzati dalle seguenti proprietà :
a) Se l'insieme degli stimoli possiede una qualsiasi struttura, e quindi se esistono dei
raggruppamenti, il sistema li individuerà. E' naturalmente importante che tali
raggruppamenti siano riconoscibili dalle grandezze utilizzate per la descrizione dello
stimolo.
b) La particolare classificazione ottenuta sarà dipendente da una serie di condizioni
iniziali : i valori di partenza delle sinapsi - generalmente casuali - e la particolare
“storia” della presentazione degli stimoli.
c) Se la variazione delle sinapsi è tale da rendere minima la potenza r-sima dell'errore
E di ricostruzione
E=
∫
r
x - wc p(x) dx
dove dx è il volume differenziale nello spazio degli degli ingressi, p(x) è la
distibuzione di densità di probabilità degli ingressi e l'indice c=c(x) è relativo al neurone
best match per l'ingresso x, allora si dimostra [Max,1960] che si ottiene una disposizione
dei vettori di codifica w nello spazio dei segnali la cui funzione di densità puntuale è
una approssimazione di [p(x)] n/(n+r), dove n è la dimensione degli spazi di x e w. Nel
caso più frequente abbiamo r=2 e n>>r, ottenendo una approssimazione quasi ottima
della p(x).
d) Più l'insieme degli stimoli è strutturato e più la classificazione sarà stabile. Se
invece tali stimoli non sono rappresentabili in gruppi allora il sistema , ad ogni
presentazione di uno stimolo, continuerà a subire variazioni.
Quest'ultimo punto ha richiesto che venisse risolto, in un modo o nell'altro, e spesso con
soluzioni di compromesso, il dilemma della scelta tra stabilità-rigidità e instabilitàplasticità (vedi Appendice A1).
Gli algoritmi connessionisti e la simulazione dell'apprendimento
21
1.6 Altre classificazioni dei modelli di apprendimento
Modelli real-time e modelli lab-time.
Il tipo di controllo sull'evoluzione della rete e sulle dinamiche di
trasformazione (la legge di iterazione) da essa seguìte permette di individuare
due tipi di modelli : quelli a flusso continuo e controllo interno e quelli a flusso
selezionato e controllo esterno.
Nei primi non c'è una differenza qualitativa, o meglio, algoritmica, tra la
fase di apprendimento e quella di riconoscimento : la dinamica di variazione
sinaptica ha sempre la stessa equazione, che non viene alterata da un controllore
esterno nella fase di riconoscimento. Essa può essere modulata, semmai, da
una funzione α (t) decrescente nel tempo. Inoltre, non esistono controlli esterni
sul flusso di informazione: tutte le grandezze in gioco sono reperibili
localmente, o sono, perlomeno, interne. Tali modelli sono anche detti real-time.
Nei secondi, invece, è necessario un controllo esterno che, per esempio,
interrompa, ad apprendimento concluso, la dinamica delle sinapsi , oppure,
come succede nei modelli che adottano la Delta Rule, diriga il flusso di
informazioni che riporta gli errori di rappresentazione dallo strato di uscita a
quelli sottostanti (“back-propagation”) per la modificazione delle sinapsi: sono
perciò detti lab-time .
E' evidente la maggior potenza descrittiva del fenomeno biologico per i
modelli real-time: il concetto di plasticità neuronale vede una sua traduzione in
termini formali senz'altro più rispondente all'esempio biologico. La capacità di
apprendere di un sistema di tale tipo è, in alcuni modelli (Adaptive Resonance
Theory - ART) [Carpenter & Grossberg, 1987, 1988], addirittura regolata da
meccanismi di vigilanza di tipo attentivo: qualora, ad apprendimento avviato, si
presentasse uno stimolo mai visto, allora il suo contenuto di novità farebbe
attivare una modificazione sinaptica più significativa*.
Quattro paradigmi di apprendimento
Un'altra utile classificazione [Rumelhart & Zipser,1986] dei modelli in
base al tipo di apprendimento è basata sulla individuazione dei seguenti quattro
paradigmi :
* Se ne parlerà più diffusamente nell’ Appendice A1
Gli algoritmi connessionisti e la simulazione dell'apprendimento
22
Autoassociazione . In tali modelli l'addestramento della rete avviene
presentando ripetutamente una serie di patterns , che saranno memorizzati dal
sistema con un processo di autoassociazione. Ciò permetterà il recupero dei
patterns originali, rievocati nella rete con la presentazione, nella fase di
riconoscimento, di un pattern simile a quelli già visti o di un pattern originale,
presentato in forma frammentaria.
Eteroassociazione . Nella fase di apprendimento i patterns vengono
presentati sempre a coppie. Il sistema apprende quindi ad associare i due
patterns in modo tale che, alla presentazione dell'uno viene prodotto l'altro. E'
quindi possibile associare due set arbitrari di patterns. E' palese che tali modelli
siano una variante della classe precedente.
Paradigma di classificazione . Una variante più specifica del precedente, e
quindi anche del primo, permette di assegnare ai patterns di ingresso una
categoria : il pattern, che rappresenta la categoria assegnata dall'addestratore,
verrà associato, con un processo di eteroassociazione, al pattern in ingresso. Il
risultato di tale processo, differente da quelli conseguiti con eteroassociazione
ordinaria, è quello di ottenere una corretta classificazione degli stimoli in
categorie.
Rivelazione di regolarità . In quest'ultima classe, che si differenzia
notevolmente dalle precedenti, è il sistema stesso che, rivelando le caratteristiche
“più importanti” di una popolazione di stimoli, presentati ripetutamente, li
raggruppa in categorie. Esse quindi non sono fissate a priori dall'addestratore
ma vengono ricavate direttamente dall'esperienza sensoria.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
23
Appendice A1:
Il problema della stabilità-plasticità
Un sistema percettivo ideale dovrebbe essere in grado di adattarsi in modo
autonomo alle possibili, impreviste variazioni dell'ambiente informativo nel quale esso
sta evolvendo. Dovrebbe, inoltre, saper modulare la propria adattività in base alla
maggiore o minore rilevanza degli stimoli che riceve, facendo in modo di preservare
dalla distruzione le tracce di quanto già appreso senza però rinunciare alla plasticità.
I modelli ad auto-organizzazione e ad apprendimento competitivo hanno dimostrato
di avere caratteristiche di plasticità assai interessanti, ma un problema che nasce proprio
a causa della natura competitiva di tali sistemi di apprendimento, e che non è esclusivo
di essi, è quello della instabilità dei termini sinaptici. Succede infatti che la rete si
sensibilzza sempre sugli ultimi stimoli ricevuti a discapito dei precedenti (una evidenza
della
necessità
fisiologica
del
meccanismo
di
“rimozione”
?),
spostando,
di
conseguenza, ogni volta i valori dei termini LTM wij. Ciò comporta, per l'appunto, una
instabilità della memoria-rappresentazione : si possono avere delle risposte
assai
differenti per lo stesso stimolo se questo viene ripresentato dopo che ne sono stati visti
altri .
Le tecniche per ovviare a tale instabilità sono differenti e più o meno drastiche :
una consiste nell'utilizzare per l'apprendimento solo delle classi stabili di stimoli, ma
tale limitazione è accettabile solo in un numero limitato di problemi. Un' altra invece è
basata su un guadagno plastico di apprendimento che diminuisce nel tempo, o addirittura
si annulla. Ciò, però, impedisce che nuovi stimoli possano essere codificati ad
apprendimento avviato : si perde la plasticità ed il sistema diviene rigido. Una terza
tecnica compensa la instabilità utilizzando un rate
rendere
il
sistema
poco
sensibile
a
di apprendimento talmente lento da
fluttuazioni
casuali
e
dipendente,
nella
memorizzazione dei patterns, dalla frequenza con la quale questi si presentano : viene
ricordato meglio ciò che si vede più spesso, viene rimosso ciò che non si ripresenta più
e che ha perso la sua importanza informativa e, quindi, vitale . Il sistema sviluppa
meccanismi di tipo gerarchico, ma è necessariamente lento. Naturalmente queste
tecniche possono essere combinate in differenti modi.
Un trattamento della stabilità-plasticità più originale è quello adottato nella già
citata ART (Adaptive Resonance Theory) di S. Grossberg. In ART, che funziona
anch'essa con dinamiche di tipo competitivo, la fase di apprendimento è continuamente
attiva e dipendente, come già si è detto, da un controllo di tipo attentivo : viene così
salvata la plasticità della rete. Avranno degli effetti sulla modifica delle sinapsi solo
quegli stimoli che risultano nuovi
per la memoria. Tale controllo è ottenuto associando
Gli algoritmi connessionisti e la simulazione dell'apprendimento
24
al flusso Bottom-Up di apprendimento competitivo
(che
traduce
lo
stimolo
in
rappresentazione interna), comune anche agli altri tipi di reti, un flusso di tipo Top-Down
per il quale la rappresentazione interna, riconvertita , viene riportata allo stato di
ingresso per simulare un “processo di aspettazione”. Se lo stimolo è noto
la sua
aspettazione lo riproduce. Ciò dovrebbe preservare dalla cancellazione gli stimoli già
appresi, e permetterne, invece, la memorizzazione di nuovi.
Un meccanismo basato sul confronto dell'informazione sensoriale con una sua
immagine d'aspettazione è noto, nel linguaggio della Psicologia della Gestalt, come
“inferenza inconscia” [Rock & Palmer,1991]. Anche dagli studi di Helmholtz
sulla
percezione visiva [Helmholtz, 1866] e musicale [Helmholtz,1885] traspare la necessità di
un fenomeno di risonanza nel processo percettivo : noi percepiamo, in parte, ciò che ci
aspettiamo di percepire e che ci deriva dall'esperienza.
cooperazione
competizione
(Aspettazione)
Apprendimento
Bottom-Down
Apprendimento
Bottom-Up
cooperazione
competizione
Inputs
Sono noti gli studi sulla percezione visiva compiuti da Kanizsa
[Kanizsa,1976] dai
quali risulta che certe combinazioni di figure incomplete danno luogo a contorni
chiaramente visibili anche quando questi ultimi non esistono fisicamente : tali contorni
sono quindi una creazione della nostra percezione, che inferisce l'esistenza di contorni
virtuali, e cioè non presenti nella modalità sensoriale visiva.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
25
Formazione di contorni e superfici anomale [Kanizsa,1976]
La ragione di ciò non è del tutto chiara, anche se palesa una tendenza del sistema
percettivo al completamento amodale di immagini incomplete. Ma chiedersi cosa
significhi, dal punto di vista percettivo, completo e quale configurazione visiva possa
definirsi incompleta
è ben altro problema. Potrebbe essere il risultato stesso del
meccanismo di categorizzazione, ma è solo un'ipotesi, e questa inclinazione spontanea
alla estrazione di regolarità
e al dare forma all'informe
ricorda, forse, il modo di
Cezanne di rappresentare la natura, “come fosse composta da coni, cilindri e sfere”.
Un aspetto del concetto di organizzazione secondo la Gestalt è legato al principio
della pregnanza, il quale stabilisce che, in presenza di stimoli ambigui, la percezione
sarà tanto semplice, regolare
e simmetrica
quanto lo permetteranno le informazioni
raccolte dalla retina. Il concetto di regolarità e, analogamente, di completezza sono stati
associati alla quantità di informazione
contenuta nella percezione : le percezioni
"buone" e regolari contengono poca informazione, quelle "cattive" ne contengono molta.
Torna così di nuovo in gioco il meccanismo della categorizzazione come eliminazione
della ridondanza.
Quello che si verifica, quindi, in ART è un fenomeno di risonanza adattiva nelle
oscillazioni Bottom-Up e Top-Down che, instaurando un meccanismo di rivelazione di
coerenza dello stimolo con le categorie preformate, darà luogo all' apprendimento.
Nella ricerca sulle reti neuronali lo studio sulle memorie associative ha sempre
avuto un ruolo di primaria importanza. Le affinità tra i due campi sono molte, e c'è chi
ritiene che ogni rete neuronale sia, in sostanza, una memoria associativa. Non è sempre
vero, però, il viceversa.
Gli algoritmi connessionisti e la simulazione dell'apprendimento
26
Bibliografia del Capitolo 1
Amari, S. & Takeuchi, A. (1978). Mathematical theory on formation of category
detecting in nerve cells. Biological Cybernetics , 29, 127-136
Bottini, S. (1980) . An algebraic model of an associative noise-like coding memory.
Biological Cybernetics , 36, 221-228
Bottini, S. (1984) . Un modello di memoria associativa. Le Scienze - Quaderni , 19, 4146
Carpenter , G. & Grossberg, S. (1987). ART 2 : Self -organization of stable category
recognition codes for analog input patterns. Applied Optics, 26 , 4919-4930
Carpenter , G. & Grossberg, S. (1988). The ART of adaptive pattern recognition by a self
-organizing neural network. Computer , Marzo 1988, 77-88
Carpenter, G. (1989). Neural network models for pattern recognition and associative
memory. Neural Networks , 2 , 243-257
Changeux, J.P. (1983). L' homme neuronal. Paris : Librairie Artheme Fayard (trad. it.
L'uomo neuronale. Milano : Feltrinelli, 1990)
Cooper, L. et al. (1982). A theory for the developement of neuron selectivity : orientation
specificity and binocular interaction in the visual cortex. Journal of Neuroscience , 2
, 32-48
Edelman, G. (1989). The remembered present : a biological theory of consciousness. New
York: Basic Books (trad. it. Il presente ricordato, Milano : Rizzoli, 1991)
Fukushima, K. (1975). Cognitron : A self-organizing multilayered neural network.
Biological Cybernetics , 20, 121-136
Grossberg, S. (1968). Some nonlinear networks capable of learning a spatial pattern of
arbitrary complexity. Proceedings of the National Accademy of Sciences USA, 59,
368-372
Grossberg, S. (1976). Adaptive pattern classification and universal recoding, I part :
Parallel development and coding of neural feature detectors. Biological Cybernetics ,
23, 121-134
Grossberg, S. (1988). Nonlinear neural networks : Principles, mechanisms, and
architectures. Neural Networks , 1 , 17-61
Hebb, D.O. (1949). The organization of behavior. New York : Wiley (trad. it.
L'organizzazione del comportamento, Milano: Ed. F. Angeli, 1975)
Helmholtz, H. von (1885). On the Sensations of Tone as physiological basis for the
theory of music. London : Longmans,Green, and Co.
Helmholtz, H. von (1866). Treatise on physiological optics. New York : Dover, 1962.
Hodgkin, A.L. & Huxley, A.F. (1952). A quantitative description of membrane current
and its application to conduction and excitation in nerve. Journal of Physiology, 117,
500-544
Kandel, E.R. & Schwartz, J.H. (1985) . Principles of neural sciences, Elsevier Science
Publishing Co., Inc., New York (trad. ital. Principi di neuroscienze, Casa Editrice
Ambrosiana, 1988 Milano)
Kanizsa, G. (1976) . Contorni soggettivi. Le Scienze , 96 , 30-36
Kelso, S. et al. (1986). Hebbian synapses in hippocampus. Proc. Natl. Acad. Sci. USA ,
83 , 5326-5330
Kohonen, T. (1972) . Correlation Matrix Memories. IEEE Transactions on Computers ,
C-21, 353-359
Kohonen, T. (1984). Self -organization and associative memory. Berlin : Springer-Verlag
Kohonen, T. (1988). An introduction to neural computing. Neural Networks, 1 , 3-16
Malsburg (von der), C. (1973). Self -organization of orientation sensitive cells in the
striate cortex. Kybernetik , 14, 85-100
Max, J. (1960). Quantizing for minimum distortion. IRE Trans. Inform. Theory, IT-6, 2, 712
McCulloch, W.S. & Pitts, W. (1943). A logical calculus of the ideas immanent in
nervous activity. Bullettin of Mathematical Biophysics , 9 , 127-147
Minsky, M. & Papert, S. (1969). Perceptron. Cambridge , MA : MIT Press
Nakano, N. (1972). Associatron : A model of associative memory. IEEE Transactions on
Systems,Man, and Cybernetics , SMC-2, 381-388
Rock, I. & Palmer, S. (1991). L'eredità della psicologia della Gestalt. Le Scienze, 270 ,
60-66
Gli algoritmi connessionisti e la simulazione dell'apprendimento
27
Rosenblatt, F. (1958). The perceptron : A probabilistic model for information storage and
organization in the brain. Psychological Review , 65 , 386-408
Rosenfield, I. (1988). The invention of memory. New York: Basic Books (trad. it.
L'invenzione della memoria, Milano : Rizzoli,1989)
Rumelhart, D. et al. (1986). Learning representations by back-propagating errors. Nature,
323, 833-836
Rumelhart, D. & Zipser,D. (1986). Feature discovery by competitive learning.
pubblicato in Parallel Distributed Processing : Explorations in the microstructure of
cognition, I , 152-193
Singer, W. (1986). Sviluppo cerebrale e ambiente. Le Scienze - Quaderni, 31, 58-70
Steinbuch, K. (1961). Die Lernmatrix. Kybernetik , 1, 36-45
Widrow, B. & Hoff, M.E. (1960). Adaptive switching circuits.1960 IRE WESCON
Convention Record , Part 4 , 96-104
Widrow, B. et al. (1988). Layered neural nets for pattern recognition. IEEE Transactions
on acoustics,speech, and signal processing, ASSP- 36,7,1109-1118
Gli algoritmi connessionisti e la simulazione dell'apprendimento
28
2. Una applicazione di interesse fisiologico
2.1 Le mappe autoorganizzanti (SOM) di Kohonen a conservazione
di topologia
Una codifica appropriata del segnale sensorio, in base alle sue
caratteristiche più rilevanti, è certamente un presupposto fondamentale nei
problemi di riconoscimento delle forme e di elaborazione dei segnali. Si ha
spesso la necessità di rappresentare tali segnali, descritti all’origine in uno
spazio parametrico multidimensionale, in uno spazio di dimensionalità
inferiore, mantenendone però invariate le relazioni di correlazione. Si richiede,
in pratica, una operazione di riduzione di dimensionalità che conservi al meglio,
nello spazio immagine, la topologia dello spazio di partenza. Qualcosa di simile
avviene nella corteccia cerebrale, dove l'organizzazione dei neuroni è, con buona
approssimazione, bidimensionale e gli oggetti rappresentati sono descritti da
ben più di due variabili. Sono stati sviluppati diversi algoritmi in grado di
riprodurre* tale comportamento peculiare della corteccia.
Uno in particolare ha permesso di ottenere risultati interessanti, pur avendo
una struttura particolarmente semplice e, forse per questo, assai elegante. Esso è
dovuto a Teuvo Kohonen (Helsinki University of Technology, Laboratory of
Computer and Information Science) ed è noto con il nome di Self Organizing
Maps, o SOM ; esso nasce, nel 1981, inserendosi in una linea di ricerca sui
modelli ad apprendimento competitivo avviatasi con i lavori di Malsburg
[Malsburg,1973], di Amari e Takeuchi [Amari & Takeuchi,1978] [Takeuchi &
Amari , 1979]. Prima di tutto in esso si adotta uno schema ad apprendimento
non supervisionato, che lo rende indipendente dalle istruzioni di un eventuale
addestratore con un set di esempi preparati. Solo quando la rete di neuroni è già
stata addestrata, qualora sia richiesta una definizione più netta delle categorie
formate, si ricorre, in genere, ad un algoritmo di tipo supervisionato (Learning
Vector Quantization, LVQ).
Un'altra caratteristica peculiare, forse la più rilevante, è nella concezione
della rete interconnettiva tra i neuroni intrastrato, cioè nella definizione della
funzione che descrive il tipo di interazione tra i vari neuroni della rete:
l'efficienza di interconnessione è completamente indipendente dalla posizione
assoluta (le coordinate i,j) dei neuroni, mentre dipende fortemente dalla distanza
* Si noti che non sempre, anzi piuttosto raramente, la riproduzione di alcuni aspetti delle funzioni corticali
elementari è ottenuta con metodi che simulano anche la struttura stessa della corteccia.
Una applicazione di interesse fisiologico
29
Finestra 2.1 - L' ispirazione neurofisiologica delle SOM
La capacità del cervello di rappresentare economicamente il mondo esterno per
mezzo di processi di eliminazione della ridondanza informativa e di astrazioni
successive è forse alla base del suo buon funzionamento. E' inoltre documentata
sperimentalmente l'organizzazione topografica di alcune aree sensoriali primarie, dedotta
dallo studio di alcune patologie funzionali caratteristiche provocate da danni localizzati
in zone precise della corteccia. La ricerca neurofisiologica, poi, sfruttando
tecniche
di
visualizzazione sempre più raffinate e non invasive (Tomografia ad Emissione di
Positroni, MagnetoEncefaloGrafia , ecc.), fornisce esempi sempre più chiari del
verificarsi della formazione di mappe topografiche, specialmente negli animali superiori
[Knudsen et al.,1987] : nella corteccia visiva (area V4) si formano raggruppamenti
cellulari a mappe e strie (microstrutture colonnari di non più di 5 mm di diametro) che
rispondono a particolari colori, organizzati per frequenza e saturazione [Zeki,1980], a
particolari orientamenti (nell' area V1) [Ts'o et al., 1990], o a patterns più complessi,
come ad esempio volti umani, [Damasio et al.,1982], [Rolls,1984]; nella corteccia uditiva
è stata osservata una precisa organizzazione tonotopica, quasi logaritmica con la
frequenza, dei campi recettivi [Oldfield,1988], o una rappresentazione ordinata dei ritardi
nell'eco e degli spostamenti Doppler nella corteccia uditiva del pipistrello [Suga &
O'Neill,1979]; nell'ippocampo
è stata osservata una forma di rappresentazione dello
spazio ambientale più o meno come una carta geografica [Olton,1977], anche se in studi
più recenti [Eichenbaum & Cohen,1988] è stata rilevata, sempre nell'ippocampo, una
corrispondenza non biunivoca tra l'informazione spaziale e la sua
rappresentazione
interna, in virtù di una multimodalità di codifica dei neuroni ippocampali; nella corteccia
somato-sensoria esiste una rappresentazione recettoriale dell'intero corpo organizzata
spazialmente [Kaas,1979], ed è inoltre stata osservata una capacità riorganizzativa in
seguito a lesioni che rende, quindi, la struttura topografica di tali mappe somato-sensorie
una conquista della plasticità, e non una semplice eredità genetica
[Merzenich et al.,
1983].
Questa organizzazione topografico-localizzata è riscontrabile solo nelle mappe
sensoriali primarie, anche se esistono studi che dimostrerebbero l'organizzazione di
alcune regioni dei centri del linguaggio in base al contenuto semantico delle parole
[Petersen et al., 1988] ed altri che evidenzierebbero la rappresentazione spaziale di
grafemi e relazioni ortografiche [Caramazza & Hillis, 1990]. Gli strati della corteccia
che svolgono funzioni associative più elevate, come, per esempio, la corteccia
entorinale (dove vengono svolte le funzioni di associazione tra i vari segnali sensori),
non mostrano, infatti, una organizzazione spaziale evidente.
Una applicazione di interesse fisiologico
30
tra di essi sulla corteccia simulata, e la distribuzione dei “feedback” laterali
all'interno della corteccia dovrebbe, in prima approssimazione, essere la stessa
intorno ad ogni neurone. Questa modifica permette di ottenere una rete ordinata
spazialmente, che, nella costruzione di una rappresentazione degli stimoli,
conservi, sulla corteccia, la topologia dello spazio nel quale tali stimoli sono
descritti : stimoli simili attivano zone della corteccia adiacenti.
Infine, nelle equazioni differenziali non lineari di attivazione e di
apprendimento sono contenute delle semplici, ma importanti, modifiche che
contribuiscono a stabilizzare il processo di apprendimento.
2.2 La dinamica spazio-temporale delle S.O.M.
L'interazione laterale e le connessioni tempo-invarianti
I primi modelli ad apprendimento competitivo, che adottavano un
algoritmo di interazione laterale del tipo ON-CENTER/OFF-SURROUND
espresso dalle (1.12) e (1.13)*, mostravano già una capacità auto-organizzativa.
Nell'equazione di apprendimento il termine di guadagno plastico α può avere un
andamento temporalmente decrescente e sempre limitato da 0<α(t)<1. La
scelta del “neurone vincente” può essere fatta in base a criteri di similitudine,
che generalmente si riducono alla misura di una distanza d(x,wi) : il vincente è
il neurone per il quale
d(x,wc ) = min i{d(x,wi)}
In un modello come quello appena descritto si verifica il fatto, però, che
tutte le cellule agiscono indipendentemente, non essendoci una vera e propria
interazione spaziale tra i neuroni. L'ordine con il quale essi sono assegnati a
dominii differenti dello spazio dei segnali di ingresso è più o meno casuale, e
fortemente dipendente dai valori iniziali wi(0) delle sinapsi. Il fenomeno di
ordinamento osservato è locale.
* STM - Competitive :


x j = 1 se ∑ w ij xi ≥ Max∑ w jkx k :k ≠ j
k

i
;


x j = 0 se ∑ w ij x i < Max∑ w jk xk :k ≠ j
 k

i
e, per la variazione delle sinapsi,
LTM - ON_Center / OFF_Surround :
dw ij
dt
= α x j (x i − w ij )
(solo per il neurone vincente
)
Una applicazione di interesse fisiologico
31
L'introduzione di un più forte carattere auto-organizzante, massimizzato
nella prima fase dell'addestramento in modo da indirizzare la rete ad un
ordinamento prima della formazione di una qualsiasi mappa stabile, venne
adottato nelle prime versioni delle SOM di Kohonen (1981). L'ordinamento
finale della mappa perde così il carattere locale per assumerne uno globale, a
lungo raggio* .
Nel modello di Kohonen, infatti, l'utilizzo di una particolare funzione di
feedback laterale, coinvolgente i neuroni di tutta la corteccia, permette un
ordinamento coerente a largo raggio : questa funzione di interazione (Figura
2.1), nota con il nome di “Mexican Hat”, si ritrova nello studio di molti sistemi
sensorii biologici come, per esempio, quelli attinenti alla percezione visiva. La
sua funzione è fondamentale nei processi di esaltazione di contrasto. Una sua
applicazione caratteristica è, come filtro numerico, nelle tecniche di trattamento
delle immagini [Smith et al.,1988].
E' nota una versione analitica dell’interazione laterale, dovuta a D.Marr
(famoso per le sue ricerche sulla visione umana) e E.Hildreth [Marr &
Hildreth,1980], nella quale si ottiene il kernel del filtro dal Laplaciano di un
filtro Gaussiano. L'assunto principale di tale scelta è che il contorno di una
immagine G(x,y) dovrebbe essere associato a zone con massimo gradiente in
intensità. Se i punti di massima e minima pendenza si trovano in
corrispondenza dei punti di flesso, dove si annulla la derivata seconda della
funzione, essi potranno essere in corrispondenza dei punti di annullamento del
Laplaciano Λ della funzione G(x,y)
G′′(x,y) = ΛG(x,y) =
∂2 G ∂2 G
+
=0
∂x2 ∂y2
(2.1)
Nel caso, appunto, del Laplaciano di una Gaussiana Marr e Hildreth
ottennero una funzione di interazione laterale del tipo
 1-(x 2 + y2 ) 
F(x,y) = 
 exp
2s2

 (x 2 + y 2 ) 
 −
2s2 
(2.2)
* La maggior parte delle reti neuronali biologiche ha una organizzazione di tipo bidimensionale, in “fogli”. In
ciascuno di essi esiste una rete interconnettiva laterale che collega densamente le singole cellule - si stima
che ogni neurone sia collegato sinapticamente con altri 103÷104 neuroni dello stesso strato e che altrettante
siano le connessioni interstrato. Si è già vista l'importanza dell'informazione spaziale nei modelli ad
apprendimento competitivo : essa, però, rimane latente, e, forse, inefficiente, in algoritmi semplificati come
quello ON-CENTER / OFF-SURROUND.
Una applicazione di interesse fisiologico
32
Essi sostennero, inoltre, che tali filtri dovevano estendersi in modo tale da
ricoprire l'intero “range” di gradazioni e frequenze spaziali dell'immagine da
filtrare, come avviene nel sistema visivo.
1
F(x,y)
1
0,8
feedback laterale
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0
0
-0,2
-0,2
Y
spazio neurale
X
Nella figura è riportato il grafico del nucleo del filtro di convoluzione utilizzato da
Marr e Hildreth per risolvere i problemi di esaltazione del contrasto ed estrazione dei
bordi nella visione artificiale (eq. 2.2). La stessa relazione è stata proposta da altri
ricercatori nel campo delle neuroscienze come funzione di interazione laterale (con
inibizione laterale) per spiegare il meccanismo dell'autoorganizzazione con
conservazione di topologia che si osserva in molte strutture corticali. Secondo questa
ipotesi due neuroni vicini sulla corteccia (che ha una struttura in prima
approssimazione bidimensionale) sarebbero accoppiati sinapticamente in modo
eccitatorio, mentre due neeuroni più lontani subirebbero una interazione di tipo
inibitorio. L'intensità (in valore assoluto) dell'interazione diminuisce con la distanza.
Tipi di interazione laterale di questa natura sono stati osservati sperimentalmente.
Figura 2.1 - Mexican Hat
Nelle SOM i termini di accoppiamento di interazione laterale non sono
adattivi, dipendendo dalla sola distanza, ma sono, per semplicità, costanti nel
tempo. Le sinapsi adattive wij , invece, sono quelle che accoppiano ogni
neurone della “corteccia” con gli assoni afferenti che portano il segnale
sensorio: si assume che tutti i neuroni appartenenti a questa corteccia ricevano
simultaneamente tale segnale, e che, cosa importante, tale segnale sia a valori
continui. Ogni neurone avrà quindi un numero di sinapsi adattive pari alla
dimensione del vettore che descrive lo stimolo sensorio. Una rappresentazione
unidimensionale è riportata nella Figura 2.2 :
Una applicazione di interesse fisiologico
33
Segnali X di input
Sinapsi adattive
ij w
di input
Sinapsi di
feedback
laterale
Segnali Y di output
Figura 2.2
La funzione di attivazione Sij(t) del neurone i,j-simo terrà conto perciò sia
degli ingressi relativi al segnale sensorio, mediati dalle sinapsi adattive, che di
quelli dovuti alle attività degli altri neuroni del suo stesso strato, mediati questi
ultimi dalla funzione F(x,y) di feedback laterale
n =+ k m =+K



Sij (t) = φ ηij (t) + ∑ ∑ F(n,m)Si + n,j + m(t − 1)


n =− k m =−K
(2.3)
dove il primo termine ηij (t) rappresenta l'eccitazione sensoria di ingresso,
mentre il secondo tiene conto degli effetti di feedback : le sommatorie sono da
intendersi estese a tutta la rete. La funzione di attivazione φ è generalmente una
sigmoide, ed è importante dire che lo stesso Kohonen non pone particolari
vincoli nella scelta della funzione F(x,y) di feedback laterale. E’ sufficiente che
essa risponda a caratteristiche abbastanza generali, affinchè si ottenga il risultato
sperato : una parte centrale eccitatoria ed una periferica inibitoria.
Tale risultato, raggiunto con il ricalcolo ciclico delle attività Sij (t) dei
neuroni per mezzo della (2.3) per gli intervalli successivi alla formazione dell'
eccitazione di ingresso ηij (t) (che, per ora, si considera limitata al tempo t=0), è
appunto una progressiva organizzazione di tali attività Sij (t) in “bolle”, e cioè in
raggruppamenti di neuroni attivi intorno al più attivo di tutti (per quel
determinato stimolo xi(t) ).
Una applicazione di interesse fisiologico
34
t=500
t=300
t=200
t=90
"Bolla" di attività su un array
bidimensionale di neuroni
Formazione di una "bolla" di attività
su un array monodimensionale di neuroni
Nelle simulazioni riprodotte in figura è stata utilizzata una rete di neuroni, non
ancora “organizzati”, ad attività iniziale casuale; si è quindi applicata
ripetutamente la (2.3) per il ricalcolo ciclico delle attività - senza presentare
alcuno stimolo -, e sono stati ottenuti i “clusters” mostrati. Quindi, tale fenomeno
di “clusterizzazione” avviene anche se gli stimoli sono “noise like”, e cioè quelli
relativi unicamente all'interazione laterale, senza l’intervento di uno stimolo
strutturato.
Nota:
Una analogia interessante, anche se azzardata, è quella con gli esperimenti fatti
sulla formazione di mappe e strie nella corteccia visiva : si è osservata, infatti, la
formazione di strutture ordinate - in particolare, striate - nella disposizione delle
cellule corticali rispondenti a stimoli visivi per l'occhio destro e per l'occhio
sinistro [Constantine-Paton & Law, 1983]. Un fenomeno interessante si verifica
quando viene indotta una deprivazione monoculare : un occhio riceverà segnale
“noise like” mentre l'altro riceverà stimoli visivi ordinari e correlati. In questo
caso non si osserva più, sulla corteccia, la formazione di strie, a causa di
meccanismi di tipo competitivo. Se, invece, la deprivazione è binoculare allora
torna a formarsi la struttura striata, con due sorgenti “noise like“.
Figura 2.3
La dimensione di tali bolle è in qualche modo legata al rapporto E/I tra la
parte eccitatoria e quella inibitoria della F(x,y), e, più precisamente, le bolle
avranno il raggio tanto minore quanto maggiore sarà il contributo inibitorio. Il
verificarsi del meccanismo di “clusterizzazione” è dipendente dalla scelta di
alcuni parametri, quali appunto il rapporto E/I, la larghezza della F(x,y) e la sua
forma : essi sono pertanto da determinarsi empiricamente.
Un’osservazione importante è che si può ottenere una prima
organizzazione delle attività neuronali semplicemente utilizzando la sola
equazione di attivazione, riapplicata ciclicamente: non si è ancora parlato, infatti,
di una particolare equazione di apprendimento per le sinapsi adattive.
Il requisito fondamentale di tale equazione deve essere quello di portare i
vettori w sinaptici N-dimensionali a riprodurre, ordinatamente e in modo
Una applicazione di interesse fisiologico
35
ottimale, l'insieme dei vettori di stimolo. La distanza d(x,wi) deve decrescere
monotonamente, e la variazione δwi deve essere tale da verificare
[ gradwi d(x,wi) ]T • δwi < 0
(2.4)
Inoltre, nel processo di apprendimento, la fase della variazione delle sinapsi
dovrebbe avere una costante di tempo sensibilmente maggiore di quella della
elaborazione delle attività neuronali : come si è detto, nei circuiti biologici il
verificarsi dell'attivazione ha tempi caratteristici dell'ordine della decina di
millisecondi, mentre le variazioni proteiche e strutturali, nell'apprendimento,
hanno tipicamente tempi dell'ordine di qualche settimana. Ciò si traduce, per la
legge di iterazione del modello, nella necessità di due fasi : la prima, di
convoluzione spaziale delle attività neuronali, con la quale - per mezzo della
(2.3) - si produce una prima organizzazione nella rete. Dopo aver atteso la
convergenza della prima fase si avvia la seconda, più lenta, nella quale, per
mezzo di una equazione di apprendimento, si modificano i valori delle sinapsi
adattive. Nel prossimo paragrafo sarà descritta l'equazione di apprendimento
usata, tenendo presente che è solo una delle possibili.
Le connessioni tempo-varianti
L'equazione di apprendimento LTM utilizzata da Kohonen nelle SOM
[Kohonen,1984] appartiene alla classe generica del tipo
dw/dt ≡ w' = Φ(x;w;S)x - Θ(x;w;S)w
(2.5)
x = stimolo = (x 1 ,,, xn )T
S = risposta = wTx
w = sinapsi = (w 1 ,,, wn )T
dove Φ e Θ sono funzioni scalari, eventualmente non lineari, dello stimolo x,
della risposta S e dello stato stesso della sinapsi w. Sostanzialmente le
variazioni sinaptiche avverranno soltanto nella direzione di x, w o una loro
combinazione lineare. La (2.5), per una scelta opportuna della funzione Φ ed
eliminando il termine di smemorizzazione Θ(•)w, riproduce la forma generale
della legge di Hebb vista precedentemente. Partendo, poi, dal fatto che abbiamo
definito l'attività neuronale S dipendente dal prodotto wTx, si possono
considerare le funzioni Φ e Θ proprio come Φ =Φ(S) e Θ=Θ(S), e si può
Una applicazione di interesse fisiologico
36
ritenere che le variazioni sinaptiche siano proporzionali a tali funzioni
dell'attività. Il requisito principale per una legge che descrive un sistema fisico è
che ne garantisca la stabilità, e cioè che per x(t) limitati rimanga finita la
soluzione w(t), per ogni t. Si deve, inoltre, considerare non significativa la
situazione per la quale w(t) → 0 per t→∞.
Esistono diverse possibili soluzioni del tipo (2.4) [Kohonen,1984 (cap.4)].
In questa sede ci si limiterà ad una discussione, per sommi capi, della
particolare soluzione adottata nel modello studiato :
dw/dt ≡ w' = α S x - β S w =
= α xxTw - βww Tx
(2.6)
α, β> 0
( n.b. : il prodotto wwT è una matrice n x n )
Se chiamiamo X il valore aspettato di x condizionato da w, e cioè
E{ x|w}= X
e Cxx l'elemento della matrice di correlazione di x, ottenuto da
E { xxT | w } = C xx
allora otteniamo una espressione della (2.5) come equazione differenziale di
Bernoulli di secondo grado
<w'> = α Cxxw - β(XTw)w
(2.7)
Come si vede, una possibile soluzione stazionaria di <w'>=0 è quella che si
ottiene per w* = 0. Si dimostra anche che un qualsiasi autovettore della matrice
di correlazione Cxx rappresenta un punto fisso del sistema : se ci è un
autovettore con autovalore λ i, allora l'eventuale soluzione sarà w*= kci, con k
costante scalare. Infatti
Cxx ci = λ ici
0 = k α λ ici - k2β(XTw)ci
αλ i
k=
β(X T w)
e quindi
w* =
c i αλ i
β(XTw)
(2.8)
Si dimostra pure [Kohonen,1984 (cap. 4)], però, che non tutti i punti fissi
rappresentano soluzioni stabili ; comunque, la “traiettoria” w(t) sarà rallentata
Una applicazione di interesse fisiologico
37
in corrispondenza di un punto fisso e, se il prodotto scalare tra l'autovettore
cmax associato all'autovalore massimo e il vettore w si mantiene positivo per
ogni t, si dimostra che la soluzione tenderà a convergere verso l'autovettore di
Cxx avente il massimo autovalore. In questo modello, infine, esiste la
probabilità non nulla che w(t) converga a zero anche per ingressi non nulli*.
A partire dalla (2.6), espressa nella sua forma più generale, vengono
introdotte delle varianti che, nel prossimo paragrafo, permetteranno di realizzare
un algoritmo semplificato.
2.3 Semplificazione e implementazione dell’algoritmo
L'equazione di attivazione STM (2.3) tende, come si è visto, a stabilizzare
l'attività Sj del neurone ad un valore “alto” o “basso”, in funzione della propria
eccitazione al segnale sensorio e dell' attività dei neuroni adiacenti. In pratica si
verifica che, una volta assegnati i valori iniziali (generalmente casuali) delle
connessioni sinaptiche, i neuroni che formeranno la bolla ad attività alta sono
quelli che - insieme con i vicini in un intorno di dimensioni determinate dalla
forma della F(x,y) di feedback laterale - hanno, al momento dell'arrivo dello
stimolo, una attività di gruppo massima. Ciò permette di fare delle
semplificazioni : senza attendere la formazione della bolla per effetto di
convoluzione spaziale delle attività neuronali di tutta la rete (cosa
computazionalente dispendiosa) si può imporre che questa si formi intorno al
neurone che, da solo, ha attività iniziale massima. Una ulteriore semplificazione
consiste nel considerare tale attività, che nell'equazione classica di McCulloch e
Pitts (1.2) è data sostanzialmente dal prodotto scalare tra il vettore sinaptico w e
il vettore di ingresso x, funzione di un criterio di similitudine nello spazio
vettoriale n-dimensionale. La scelta più semplice, ma non per questo riduttiva, è
quella della distanza euclidea, adottata in molti modelli ad apprendimento
* Da quanto si è detto si ricava la seguente proposizione:
Se gli ingressi x i sono variabili stocastiche con proprietà statistiche stazionarie, allora i valori wi , in accordo
con l'equazione (2.6), convergeranno a valori asintotici tali che il vettore w rappresenterà l'autovettore di Cxx
associato al maggior autovalore.
Studi sullo stato stazionario del modello di Kohonen sono stati sviluppati da H. Ritter e K. Schulten, nei quali
si ottiene anche una espressione esplicita del fattore di ingrandimento locale della mappa (e cioè della
proprietà della mappa di assegnare alla decodifica del segnale un numero di neuroni legato alla importanza
statistica di quest'ultimo) [Ritter & Schulten, 1986]. Sempre Ritter e Schulten ne hanno studiato le proprietà
di convergenza e le fluttuazioni dalla situazione di equilibrio, descrivendo il processo di apprendimento per
mezzo di una equivalente equazione di Fokker-Planck [Ritter & Schulten, 1988].
Una applicazione di interesse fisiologico
38
competitivo : con essa si può calcolare il “matching score” tra i due vettori
senza che essi debbano essere normalizzati. Il neurone che avrà quindi attività
iniziale massima sarà quello che misurerà distanza euclidea minima e, cioè, che
realizzerà, con il proprio vettore sinaptico w, il “best match” con il vettore di
ingresso x
|| x - wc || = min i || x - wi ||
(2.9)
Dopo aver individuato il neurone “best match”, si avvia, in un suo intorno
Nc , il processo di variazione delle sinapsi : la correlazione a largo raggio che si
osserva nelle SOM dipende proprio dalla scelta di tale intorno. I neuroni che
subiranno un adattamento delle sinapsi, alla presentazione di uno stimolo,
saranno quelli che misureranno una distanza (ora la distanza non è più nello
spazio parametrico N-dimensionale delle sinapsi, ma nello spazio fisico 2dimensionale della “corteccia”) dal neurone “best match” minore di un raggio
di interazione R(t), decrescente nel tempo. Avremo così un intorno N c (t) la cui
dimensione iniziale dovrà essere tale da coinvolgere, nei primi processi, tutti i
neuroni della corteccia. Il suo andamento temporale può essere rappresentato da
una funzione lineare, esponenziale, etc. : la scelta, pure in questo caso, non è
estremamente vincolante. Eccone alcuni esempi


( R − R 0 )t
R(t) = max R 0 + min
, R min 
T0




−t
R(t) = max R 0
, R min 
 T0

(2.10a)
(2.10b)
Il valore di T0 stabilisce una costante di tempo del processo di
clusterizzazione che verrà discussa tra breve. Il valore di Rmin stabilisce il
raggio minimo di interazione, in genere unitario o nullo, che si vuole mantenere
tra i neuroni nella fase asintotica dell'apprendimento. In alcune simulazioni,
discusse nel prossimo capitolo, è risultato importante mantenere un raggio
minimo di interazione non minore di due unità, allo scopo di garantire una certa
plasticità anche nella fase avviata del programma di apprendimento e permettere
alla rete di riassestarsi, qualora si verificassero mutazioni significative
nell'insieme di stimoli da apprendere. La scelta della forma geometrica
dell'intorno è, anche questa, abbastanza arbitraria e condizionata da fattori di
semplicità computazionale. Eccone alcune possibili
Una applicazione di interesse fisiologico
39
Esempi di intorni temporalmente decrescenti
Anche per l'equazione di apprendimento possono essere fatte
semplificazioni. Partendo dalla
delle
dw/dt = α S x - β(S) w
possiamo, nel limite di saturazione per il quale l'attività S si stabilizza su valori
alti (dentro la bolla) o bassi (fuori dalla bolla), assegnare alla funzione non
lineare monotona β(S) degli analoghi valori di saturazione. Riscalando le
variabili x e w abbiamo la possibilità di definire S∈{0,1} e β(S)∈{0,α}, e
quindi di riscrivere l'equazione di apprendimento come
dw/dt = α (x - w)
(2.11a)
se S = 1 e β = α (dentro la bolla )
dw/dt = 0
(2.11b)
se S = 0 e β = 0 (fuori dalla bolla )
Si è osservato, inoltre, che per avere buoni risultati nell'autoorganizzazione, dobbiamo fare in modo che anche il guadagno plastico α sia
una funzione monotòna decrescente nel tempo, anche questa determinata sulla
base di prove empiriche. Unico vincolo, come gia si è detto, è che sia compresa
tra 0 e 1. Una scelta tra le più comuni è
α(t) = α 0 (1 - t / T0)
(2.12)
α 0 = 0.1 ÷ 0.9
Nel corso delle simulazioni si è visto che i migliori risultati si ottengono
con valori di α 0 ≈ 0.1. Il valore T0, trovato anche nella (2.10) che descrive
l'andamento temporale del raggio R(t) di interazione, regola la durata della fase
di prima organizzazione della rete, durante la quale il raggio decrescerà dal
valore di massimo ricoprimento R0 al valore Rmin di interazione con i primi
Una applicazione di interesse fisiologico
40
vicini. Si è notato, sempre empiricamente, che migliori risultati si ottengono se,
una volta raggiunto il raggio minimo, si continua il programma di
apprendimento per un tempo T1 ≥ 10 T0. In questa seconda fase, nella quale
ogni gruppo di neuroni che risponde ad un certo stimolo si specializza, il
termine di guadagno plastico a viene mantenuto costante, o al più leggermente
decrescente nel tempo, intorno ad un valore che, nei casi studiati, è di
α ≈ 0.02 ÷ 0.06. Nel caso pratico, il termine temporale t (così come i termini T1
e T0 ) è, in realtà, un contatore di stimoli che misura la maturazione di una rete
in termini di esperienze : assume pertanto valori discreti. Risultati accettabili nel
processo di auto-organizzazione si ottengono se il programma di
apprendimento prevede complessivamente almeno qualche migliaio di stimoli
presentati alla rete (e cioè T1+T0 ≈103÷104) : ciò, però, dipende dalla
dimensione della rete stessa. Passando alle differenze finite si ottiene, così, la
forma ultima delle equazioni di apprendimento semplificate
|| x - wc || = min i || x - wi ||
wi(t+1) = wi(t) + α(t)[ x(t) - w(t) ]
per i ∈ Nc (t)
wi(t+1) = wi(t)
per i ∉ Nc(t)
(2.13a)
(2.13b)
Un’alternativa possibile al sistema appena visto prevede l'introduzione di
una funzione scalare Hci = Hci (t), che modula la variazione sinaptica del
neurone i-esimo, in funzione della distanza dal neurone c-esimo di “best
match”
wi(t+1) = wi(t) + Hci (t) [ x(t) - w(t) ]
(2.14)
Una delle funzioni che possono descrivere la Hci (t) di modulazione del
guadagno può essere la
− r −r 2
Hci (t) = H0 exp  i 2 c 
(2.15)
 s (t) 
che palesemente descrive una curva a “campana”, centrata in rc , la cui larghezza
è controllata dalla funzione s(t), decrescente nel tempo.
I risultati che si ottengono utilizzando l'algoritmo semplificato appena
descritto (Finestra 2.2), sia per la (2.14) che per la (2.15) (più onerosa dal punto
Una applicazione di interesse fisiologico
41
di vista computazionale), evidenziano le proprietà già note di questo modello: il
mapping a conservazione di topologia, la riduzione di dimensionalità e la
selezione delle dimensioni del segnale di ingresso più rilevanti dal punto di vista
informativo (quelle a massima varianza).
A titolo dimostrativo vengono riportati, nella figura seguente, i risultati
relativi alle diverse fasi di auto-organizzazione delle sinapsi di un array
bidimensionale di 225 neuroni, ai quali vengono presentati dei vettori di
patterns bidimensionali. La distribuzione di probabilità di questi ultimi ha una
forma particolare (vedi figura seguente), che, al termine del processo di
apprendimento, verrà riprodotta dai vettori associati alle sinapsi. Nelle figure
riportate sono rappresentati, nello stesso spazio parametrico, i punti
rappresentativi dei vettori di ingresso e dei vettori sinaptici.
Figura 2.4 Mapping in riduzione di dimensionalità
Esempio di mapping in riduzione di dimensionalità : lo spazio parametrico dei
patterns di ingresso è 4-dimensionale, e viene mappato nello spazio fisico 2dimensioanle di un array di 400 neuroni. Le figure rappresentano la proiezione
dello spazio parametrico sul piano individuato dalle sue prime due proiezioni.
Una applicazione di interesse fisiologico
42
2.4 Una corteccia somatosensoria simulata
Il sistema sensorio che per primo si sviluppa nei mammiferi è il sistema
somato-sensitivo. E' ormai assodato che udito e, soprattutto, vista non
costituiscano, almeno nei primi mesi di vita, un efficiente sistema di
comunicazione con il mondo esterno. L'esperienza tattile, invece, offre un grado
di risoluzione e discriminazione, nella percezione sensibile, fin dai primi
momenti elevato, tanto da ritenere chesia la cute a permettere la realizzazionedel
primo «rapporto oggettuale».
Ciò che differenzia questo sistema dagli altri sistemi sensori è la
distribuzione dei suoi recettori : i recettori per la sensibilità somatica non sono
localizzati in piccole regioni del corpo (come avviene, invece, nell'occhio o nella
coclea) ma sono distribuiti su tutta la superficie corporea, la cute. Diversi tipi di
sensazioni somatiche sono possibili : tatto (che ci permette di riconoscere la
grandezza, la forma e le caratteristiche superficiali degli oggetti ed il loro
movimento sulla cute), propriocezione (senso della posizione statica e dinamica
del corpo e degli arti), dolore e senso termico ; ciascuna di queste è, inoltre,
descritta da altre submodalità. Un aspetto di profondo interesse è la capacità di
discriminazione tattile differente in funzione della particolare regione del corpo
coinvolta : l'assunzione che non tutte le parti del corpo sono egualmente
sensibili e la conseguente indagine sui meccanismi stessi di sensibilizzazione ha
messo in evidenza che la maggiore o minore sensibilità tattile di una regione
corporea è collegata alla sua relativa rappresentazione corticale: la nostra
sensibilità non è dovuta tanto all'organo di senso periferico, quanto al cervello e
alla rappresentazione interna che in esso si ha dell'esperienza sensibile.
L'intensità di una sensazione somatica è legata sia all'intensità della risposta dei
neuroni corticali coinvolti che al numero stesso di questi ultimi. Sono frequenti
casi di assoluta insensibilità periferica dovuta a lesioni corticali, pur rimanendo
perfettamente funzionanti gli organi periferici.
Dallo studio di alcune patologie sono risultati estremamente interessanti
alcuni fenomeni di riorganizzazione della rappresentazione somatosensitiva
corticale in seguito a lesioni (in genere, dell'innervazione afferente, che dalla
periferia conduce il segnale sensorio al cervello), anche in soggetti adulti. Tale
capacità rende assolutamente indiscutibile che i meccanismi di sensibilizzazione,
che permettono di ottenere livelli di discriminazione tattile differenti, siano di
tipo epigenetico : anche se su una struttura predeterminata geneticamente, essi si
Una applicazione di interesse fisiologico
43
evolvono e mantengono il cervello plastico grazie alla continua e sempre
differente attività percettiva.
Finestra 2.3 - La rappresentazione corticale della superficie corporea
La rappresentazione sensoria della superficie corporea che si ha nel sistema
nervoso centrale è organizzata in mappe topografiche, come si è gia accennato, e le
regioni corticali coinvolte (vedi figura seguente) sono individuate nel giro postcentrale
(aree 1, 2, 3b e 3a di Brodmann).
corteccia motoria
giro postcentrale
giro postcentrale
solco centrale solco
solco centrale
solco postcentrale
postcentrale
1
3b
Corteccia somatosensoria e aree di
Brodmann del giro postcentrale
2
3a
La rappresentazione interna corticale con conservazione di topologia che si ottiene
con il processo di auto-organizzazione permette una minimizzazione quasi ottima del
costo di connessione
tra cellule corticali : quelle rispondenti a stimoli simili sono più
vicine tra loro.
Moderni studi elettrofisiologici hanno dimostrato, oltre all'esistenza di una
relazione reciproca tra
aree corporee e aree corticali, che esiste una distorsione di
rappresentazione che si evidenzia nella diversità delle aree cerebrali destinate alla
rappresentazione di parti differenti del corpo: le proporzioni tra l'estensione superficiale
della parte descritta e l'estensione corticale della sua rappresentazione non sono
assolutamente rispettate. Queste distorsioni sono invece in relazione con l'importanza di
una particolare regione della superficie corporea per la
sensibilità tattile. Nell' essere
umano, in cui la manipolazione degli oggetti ed il linguaggio sono funzioni di
importanza vitale, la mano e la lingua occupano un ruolo predominante, e le loro
rappresentazioni corticali sono molto più grandi delle altre. Per definire il concetto di
«importanza», motivandolo biologicamente, si può attribuire un ruolo fondamentale alla
frequenza con la quale viene svolta un certa funzione: data la particolare configurazione
Una applicazione di interesse fisiologico
44
anatomica e "ingegneristica" della mano umana, è statisticamente più probabile, per
esempio, che vengano sollecitati di più i cuscinetti digitali distali (i polpastrelli !) che
non i cuscinetti palmari : ciò che si osserva è infatti una area di rappresentazione
corticale sensibilmente maggiore nei primi.
La spiegazione di tale distorsione è nella differente concentrazione superficiale e
dimensione dei campi recettivi. Si ricorda che il campo recettivo
di un neurone è
costituito da quella zona della superficie recettoriale, in questo caso la cute, la cui
stimolazione è in grado di eccitare o di inibire la scarica della cellula stessa. Nel
formalismo dei modelli neuronali teorici, esso descrive quella regione dello spazio
parametrico del segnale di ingresso che ha come effetto l'attivazione di
uno specifico
neurone formale dello strato di uscita. Possiamo dire che ciascun neurone corticale, o
ciascuna microstruttura colonnare di neuroni, ha uno specifico campo recettivo. A regioni
di corteccia a rappresentazione distorta che hanno maggiore estensione saranno
associati, sulla superficie recettoriale, campi recettivi più piccoli la cui densità
superficiale è maggiore : ingrandimento corticale e dimensione dei campi recettivi sono
quindi inversamente correlati.
L'ingrandimento corticale che ne deriva permette di ottenere, per tali zone, una
discriminazione spaziale senza dubbio migliore : una sorta di lente di ingrandimento che
sfrutta la .... minor lunghezza d'onda della sonda. La dimensione limitata del campo
recettivo di un neurone ha, infatti, conseguenze funzionali di grande rilievo. Se
applichiamo uno stimolo ad un punto della cute, verranno eccitati i neuroni connessi con
le fibre afferenti che innervano il punto stimolato. Se, successivamente, lo stimolo viene
portato in un nuovo punto della cute, verrà attivata un'altra popolazione di neuroni. La
discriminazione spaziale cosciente tra i due stimoli sarà inversamente proporzionale alla
grandezza dei campi recettivi coinvolti : il rapporto, per esempio, tra l'ingrandimento
corticale della rappresentazione delle dita e quello della rappresentazione del tronco è,
nell'essere umano, di circa 100:1. Ciò permette di comprendere perchè sia, in fin dei
conti, più facile leggere la scrittura Braille con i polpastrelli che non con il gomito.
Allo scopo di dimostrare la capacità delle SOM di Kohonen di conservare
la topologia e, soprattutto, di organizzare in maniera gerarchica la risposta
neuronale, una di tali reti è stata utilizzata per simulare la formazione dei campi
recettivi tattili di una mano nella corteccia somatosensoria [Kaas et al.,1979] e
la successiva riorganizzazione corticale in seguito a lesione di un nervo afferente
[Merzenich & Kaas, 1982]. Nel caso in esame non c'è una riduzione di
dimensionalità poichè lo stimolo x è descritto in uno spazio
parametrico bidimensionale (la distribuzione dei "somatomeri" - i recettori al
Una applicazione di interesse fisiologico
45
tatto - sulla cute) ed è «mappato» conformemente sullo spazio, anch'esso
bidimensionale, della corteccia somatosensoriale.
Descrizione dell' esperimento :
1) Si è prodotto artificialmente un repertorio di base di circa 300
«stimoli» x=(x1,x2) (con xi∈{0,100} e xi∈N ) facendo in modo che la
proiezione sul piano x1,x2 della distribuzione di probabilità P(x1,x2) avesse, più
o meno, la forma di una mano (vedere figure seguenti). Nell' ambito, poi, di tale
repertorio di stimoli, si è fatto in modo che P(x1,x2) fosse leggermente
maggiore in corrispondenza dei polpastrelli. Con lo stesso principio si è
prodotto un secondo repertorio, sempre di circa 300 «stimoli», relativo ad una
mano lesionata, nella quale viene a mancare il segnale afferente da un dito
centrale. La procedura di realizzazione di questi insiemi di stimoli, anche se
decisamente «artigianale», si è dimostrata efficiente ai fini dell'esperimento, e la
sua descrizione non sembra sufficientemente interessante.
2) Si è inizializzata la matrice w degli accoppiamenti sinaptici dei 400
neuroni della corteccia (un reticolo 20x20), in modo tale che tutti i neuroni
avessero i valori iniziali delle sinapsi disposti casualmente intorno al punto
centrale dello spazio parametrico di ingresso, e cioè wi,j,1 , wi,j,2 ≈ 50 , con
i,j=1,...,20. Una scelta alternativa sarebbe stata quella di assegnare a wi,j,1 , wi,j,2
dei valori casuali tra 0 e 100, ma si è osservata, in questo caso, una minor
velocità di organizzazione. Il numero di neuroni utilizzati si è preso dell'ordine
del numero di stimoli di base del repertorio (come verrà detto in seguito, su
ciascuno stimolo di base sarà prodotta, nel corso del programma di
apprendimento, una «nuvola» di rumore).
3) Viene avviato il processo di apprendimento, descritto dalle equazioni
|| x - wc || = min i || x - wi ||
neurone "best match"
wi,j,k (t+1) = w i,j,k(t) + α (t)[ x k (t) - wi,j,k(t) ]
per i,j ∈ Nc (t)
(2.16a)
i,j = 1,,20 k=1,,2
wi,j,k (t+1) = w i,j,k(t)
per i,j ∉ Nc (t)
i,j = 1,,20 k=1,,2
(2.16b)
dove Nc (t) è un intorno circolare di raggio R(t) del neurone "best match" per lo
stimolo x al tempo t (si ricorda che t è diventato un contatore di stimoli) ; per gli
andamenti temporali di α(t) e R(t) si sono adottate le seguenti
Una applicazione di interesse fisiologico
46
R (t) = max { R 0 + \F((Rmin -R0)t;To) , Rmin }
α (t) = α 0 (1 - \F(t;To) )
per t < To
α (t) = α 1
per t > To
con la seguente scelta dei parametri, dettata puramente dall'esperienza,
R 0 = 10
R min = 2
a 0 = 0.1
a 1 = 0.06
T0 = 500
raggio iniziale di interazione (comprende tutta la rete)
raggio minimo di interazione (mantenuto costante nella
seconda fase, di «specializzazione» )
valore iniziale del fattore di guadagno plastico
valore finale del fattore di guadagno plastico
(mantenuto costante fase di «specializzazione» )
durata, in "stimoli",della fase di «prima organizzazione»
Poichè il numero di stimoli a disposizione (300) è minore del numero
richiesto per l'intero programma di apprendimento (103 ÷104 «stimolazioni»),
come capita di frequente in problemi di questo tipo, si è riutilizzato ciclicamente
il repertorio a disposizione, sommando ogni volta allo stimolo un rumore a
media nulla di dinamica pari al 5% di quella del segnale (100).
4) Dopo aver raggiunto, in circa 2000 «stimolazioni», una situazione di
stabilità evidenziata dalla formazione di campi recettivi ordinati spazialmente
con densità direttamente proporzionale all'importanza informativa dello stimolo
descritto, si è sostituito al repertorio originale di stimoli quello descrivente la
«mano lesionata», senza il «dito» centrale. Si è continuato, quindi, il processo di
apprendimento, che, seppur nella fase di specializzazione, si è fatto in modo che
mantenesse una certa plasticità. Per ottenere ciò è stato fondamentale che il
raggio minimo di interazione Rmin non fosse unitario o, ancor peggio, nullo
così come non dovesse essere indefinitamente decrescente il guadagno plastico
α(t) (cose che invece si verificano nella maggior parte delle realizzazioni del
modello di Kohonen).
I risultati ottenuti sono stati tradotti in forma grafica, di grande aiuto nello
studio di questo modello. La prima serie di immagini (Fig. 2.5, vedi appresso)
rappresenta i vari stadi del processo di auto-organizzazione: vi sono riportati,
sovrapposti e descritti nello stesso spazio parametrico (in questo caso
bidimensionale), i punti corrispondenti ai 300 stimoli di base x di repertorio e i
valori istantanei degli accoppiamenti sinaptici w. Per evidenziare l'effetto di
organizzazione spaziale, questi ultimi sono stati collegati da linee rette se relativi
a neuroni adiacenti sulla corteccia simulata. Quello che succede, nel corso
dell'apprendimento, è che la distribuzione dei valori di accoppiamento sinaptico
Una applicazione di interesse fisiologico
47
nello spazio parametrico dei patterns di ingresso tende a riprodurre la
distribuzione di probabilità di questi ultimi. Tale processo avviene in due fasi.
Prima si verifica un ordinamento grossolano, ma rapido: si ha un grande
raggio di interazione R(t) ed un alto valore di guadagno plastico. Dopo avviene
la specializzazione, più lenta, nella quale i dominii di interazione hanno
raggiunto il valore minimo asintotico ed il guadagno plastico si è stabilizzato su
di un valore di regime, inferiore ai valori iniziali, e tale da permettere variazioni
sinaptiche piccole ma, a tempi lunghi, significative. E', infatti, interessante
notare la plasticità e la dinamicità della rete che, successivamente alla «lesione»,
ridistribuisce i campi recettivi dei neuroni associati al dito «inibito» in modo tale
da aumentare il numero di neuroni attivati dalle zone recettoriali rimaste
funzionanti, ottenendo quindi un aumento di sensibilità e di discriminazione
spaziale per le dita rimaste : è la manifestazione di quel comportamento
gerarchico prima accennato, per il quale quando una particolare afferenza
diviene inattiva, il suo territorio di rappresentazione sulla corteccia può venire
invaso dalle afferenze che provengono dalle zone rimaste attive.
Successivamente, con metodi analoghi a quelli che si usano in
elettrofisiologia per la determinazione delle mappature corticali, si sono prodotti
degli «stimoli» sulla superficie recettoriale (quindi, sulla cute della mano
formale), e cioè sono stati utilizzati dei vettori appartenenti all'insieme P(x1,x2)
per sollecitare una risposta nella rete. Alcune delle attività misurate con questa
serie di «stimolazioni» sono state riportate nella Fig. 2.6. Per evidenziare il
miglioramento in risoluzione ottenuto con il processo di apprendimento viene
mostrato anche uno stato di attivazione attinente alla fase iniziale
dell'apprendimento (t=30), nel quale la risposta non è ancora localizzata. Da tali
figure si evidenzia ulteriormente la corrispondenza tra stimoli simili e zone
attivate adiacenti. Dopo aver registrato una sufficiente quantità di attivazioni,
relative a tutta la superficie della mano, se ne è ricavata una mappa corticale.
Una analoga mappa è stata ricavata (Fig. 2.7), con lo stesso procedimento,
a seguito della riorganizzazione dopo la «lesione»: da quest'ultima si può notare
la ridistribuzione dei campi recettivi, originariamente associati al dito lesionato,
tale da migliorare la sensibilità residua. Insieme con queste ultime, vengono
riprodotti (Fig. 2.8) alcuni risultati delle ricerche di Kaas e Merzenich sulla
rappresentazione della mano nella corteccia somato-sensoria delle scimmie
nictipiteco [Kaas et al.,1979][Merzenich et al.,1983] [Merzenich & Kaas,1982].
Le analogie, soprattutto, nella forma della mappa corticale nell'area di
Brodmann 3b, sono abbastanza evidenti.
Una applicazione di interesse fisiologico
48
Fig. 2.5 Autoorganizzazione della rappresentazione corticale
Fasi successive del processo di autoorganizzazione della rappresentazione corticale
di una mano. Dopo 2000 stimolazioni viene eliminato il segnale sensorio
proveniente dal terzo dito: la rappresentazione corticale si riorganizza e i neuroni
diventati inattivi vengono riutilizzati per la rappresentazione della dita superstiti.
Una applicazione di interesse fisiologico
49
Fig. 2.6 Risposte corticali in conservazione di topologia
La serie di immagini rappresenta la risposta corticale ad una serie di stimolazioni
(•) sulla mano simulata. La prima immagine é stata ottenuta con una corteccia non
ancora sufficientemente addestrata (30 stimolazioni): é evidente la scarsa
risoluzione di rappresentazione. Una migliore risoluzione si ottiene invece con la
corteccia più addestrata (2000 stimolazioni), utilizzata per le immagini successiva.
E', inoltre, fortemente evidente la conservazione di topologia nella
rappresentazione.
Una applicazione di interesse fisiologico
50
Fig. 2.7 Variazioni nella risposta corticale in seguito a lesione
La figura riporta le mappe della rappresentazione corticale della mano ottenute con
l'addestramento della rete neuronale. La prima mappa é precedente la lesione al
terzo dito, la seconda é successiva. I numeri riportati nelle mappe sono associati a
ciascuna delle dita (0 é associato ai cuscinetti palmari, '-' é associato a neuroni con
risposta debole). A seguito della lesione si osserva una evidente riorganizzazione
della rappresentazione, che conduce ad una rappresentazione più sensibile delle dita
superstiti adiacenti.
Una applicazione di interesse fisiologico
51
Una ulteriore simulazione potrebbe essere quella della formazione delle
microstrutture colonnari della corteccia visiva sensibili alla orientazione nello
spazio di semplici stimoli visivi.
In conclusione, il modello delle Self Organizing Maps di Kohonen si
dimostra notevolmente interessante, oltre che per le sue possibili applicazioni,
anche per la sua innegabile interpretazione descrittiva (e non esclusivamente
strumentale) dei sistemi sensoriali biologici.
Figura 2.8 (da Kandel & Schwartz, op. cit.)
Rappresentazione della mano nella corteccia somato-sensoria di scimmie
Gli esperimenti di mappatura di Kaas, Merzenich e coll. indicano cha ciascuna delle
quattro subregioni del giro postcentrale (3a, 3b, 1 e 2) contiene una propria
rappresentazione. A) Veduta dorsolaterale della corteccia di un nictipiteco che
documenta come, sia nell'area 3b che nell'area 1, esista una rappresentazione cutanea
distinta. La rappresentazione delle superfici fornite di peli del piede e della mano sono
ombreggiate. Le dita della mano e dei piedi sono numerate. B1) E' una mappa più
espansa e più dettagliata delle aree della mano della corteccia della scimmia riportata in
A. In B2) le distorsioni di rappresentazione del palmo della mano sono in relazione con
l'estensione delle rappresentazioni di ciascuna zona a livello corticale. I cuscinetti
palmari, quindi, sono numerati da P4 a P1; vi sono due cuscinetti insulari (I), uno
ipotenare (H) e due tenari (T). I cinque cuscinetti digitali sono anch'essi numerati.
Una applicazione di interesse fisiologico
52
Appendice A2:
L’interazione laterale in modelli dinamici di interesse biologico
Studi di fondamentale importanza che portarono alla teorizzazione di una forma di
interazione spaziale di questo tipo, sono dovuti a A.M. Turing [Turing,1952] e a A.
Gierer e H. Meinhardt [Gierer & Meinhardt,1972] (che elaborarono una teoria biologica
sulla
formazione
di
patterns).
morphogenesis", ipotizzò
Turing,
nell'
articolo
"The
chemical
basis
of
che l'azione combinata di un processo di diffusione con
opportune cinetiche di reazione chimica avrebbe potuto destabilizzare uno stato
stazionario omogeneo e provocare la formazione spontanea di strutture temporalmente
stabili e spazialmente disomogenee. Egli suggerì che tale processo avrebbe potuto
spiegare una grande varietà di fenomeni morfogenetici. Successive ricerche in chimica,
fisica e biologia dimostrarono la possibilità di tali meccanismi morfogenetici [Castets et
al.,1990]. Alcuni ricercatori, lavorando sull'ipotesi di Turing, giunsero alla conclusione
che, al fine di creare dei patterns di concentrazioni stazionare in sistemi di reagenti
chimici, era necessario rispettare una condizione : che il reagente chimico inibitore
dovesse diffondersi nel sistema molto più rapidamente dell' agente eccitatore. Questo
potrebbe essere in analogia, traducendone l'effetto in coordinate spaziali, con la
inibizione a lungo raggio e con la eccitazione a corto raggio della “Mexican Hat”
già
vista. Un'ulteriore, recente, conferma sperimentale del modello di Turing è ad opera di I.
R. Epstein e I. Lengyel [Epstein & Lengyel, 1991], che, in breve, osservarono la
formazione di strutture di Turing ottenute dalla reazione di agenti chimici diffusi in un
gel: le molecole inibitrici (ioni ClO2-) non erano interagenti con il gel, e potevano
muoversi liberamente in esso; quelle, invece, attivatorie (ioni I-) formavano dei
complessi più o meno stabili e venivano, quindi rallentate. Ciò diede luogo a fluttuazioni
di densità del reagente, evidenziate da grumi di colore su un fondo omogeneo.
Un'evidenza sperimentale di tali forme di inibizione laterale è nella struttura, per
esempio, dei campi recettivi
dei neuroni parvocellulari ad opposizione di colore
nel
corpo genicolato laterale (sistema visivo) : essi sono eccitati su una piccola regione
centrale da luce di un determinato colore (rosso) ed inibiti su un anello periferico
omocentrico da luce di un colore complementare (verde). Analoga è la struttura dei
neuroni magnocellulari a banda estesa, eccitati da tutte le lunghezze d'onda nella zona
centrale e inibiti da tutte le lunghezze d'onda nella zona periferica. I primi sviluppano un
sistema sensibile al colore, lento, poco sensibile ai contrasti e ad alta risoluzione; i
secondi, invece, sono ciechi al colore, veloci, fortemente sensibile ai contrasti e a bassa
risoluzione [Hubel & Livingstone,1988]. Questi neuroni, insieme con quelli gangliari
della retina, fungono da primi stadi di filtraggio dell'informazione visiva nel percorso
dalla retina alla corteccia.
Mountcastle [Mountcastle,1957,1968], infine, propose un
Una applicazione di interesse fisiologico
53
modello per la discriminazione spaziale di due punti basato sulla ricostruzione degli
eventi
neuronali
che
hanno
luogo
nella
corteccia
somato-sensoria
a
seguito
dell'applicazione di un lieve stimolo tattile. Il meccanismo che, secondo questo modello
(Figura A2.1), permette di riconoscere due stimoli puntiformi, applicati l'uno vicino
all'altro, come due punti distinti piuttosto che uno solo ha come sua base la stessa teoria
dell'inibizione laterale. Due stimoli applicati su parti distinte della cute producono due
gradienti di attività eccitatoria in ogni nucleo del sistema somato-sensitivo. L'attività di
ciascuna popolazione ha un picco distinto, e la popolazione cellulare circostante, che
viene inibita, accentua ed aumenta maggiormente la distinzione tra i due picchi. Questa
inibizione laterale non si presenta al livello dei recettori, ma compare in tutte le stazioni
di ritrasmissione successive, per cui la popolazione neuronale eccitata dallo stimolo è
circondata da una cintura di neuroni inibiti : ciò impedirà la fusione delle zone
eccitatorie determinate dai due stimoli, mantenendo così i picchi di attività distinti a
livello corticale ed aumentando il contrasto tra le due zone eccitatorie. E' facile vedere
come una organizzazione neuronale di questo tipo, presente in tutti i sistemi sensoriali e
motori, possa condurre al riconoscimento delle forme e dei contorni delle figure.
attivita'
neuronale
senza
inibizione
laterale
spazio neurale
attivita'
neuronale
con
inibizione
laterale
attivita' evocata
dalla stimolazione di
un singolo punto
somma delle attivita'
evocate dalla stimolazione
simultanea di due punti
spazio neurale
Schema proposto da Mountcastle per spiegare in che modo
l'inibizione laterale puo' contribuire alla discriminazione
tattile tra due punti .
Figura A2.1 Il modello per l’inibizione laterale proposto da Mountcastle
Una applicazione di interesse fisiologico
54
Bibliografia del Capitolo 2
Amari, S. & Takeuchi, A. (1978). Mathematical theory on formation of category
detecting in nerve cells. Biological Cybernetics, 29, 127-136
Caramazza, A. & Hillis, A. (1990) . Spatial representation of words in the brain implied
by studies of a unilateral neglect patient. Nature, 346, 267-269
Castets, V. et al. (1990). Experimental evidence of a sustained standing Turing-type
nonequilibrium chemical pattern. Physic Review Letters, 64, 2953
Damasio, A.R. et al. (1982). Prosopagnosia: Anatomic basis and behavioral mechanisms.
Neurology, 32, 331-341
Eichenbaum, H. & Cohen, N.J. (1988). Representation in the hippocampus : what do
hippocampal neurons code ?, Trends in Neurosciences, 11, 244-248
Gierer, A. & Meinhardt, H. (1971). A theory of biological pattern formation. Kybernetik,
12, 30-39
Hubel, D. & Livingstone, M. (1988). Segregation of form, color, movement and depth :
anatomy, physiology, and perception. Science, 240, 740-749
Kaas, J.H. et al. (1979). Multiple representations of the body within the primary
somatosensory cortex of primates. Science, 204, 521-523
Knudsen, E.I. et al. (1987). Computational maps in the brain. Annual Review in
Neuroscience, 10, 41-65
Kohonen, T. (1984). Self-organization and associative memory. Springer Verlag, Berlin
: 1984 (2nd 1988)
Malsburg, (von der) C. (1973). Self-organization of orientation sensitive cells in the
striate cortex. Kybernetik, 14, 85-100
Marr, D. & Hildreth, E. (1980) Theory of the edge detection. Proc. R. Soc. London
Ser. B, 207, 187-217
Merzenich, M.M. et al. (1983) . The reorganization of somatosensory cortex following
peripheral nerve damage in adult and developing animals . Annu. Rev. of Neurosci.,
6, 325-356
Merzenich, M.M. & Kaas, J.H. (1982). Reorganization of mammalian somatosensory
cortex following peripheral nerve injury. Trends in Neurosciences, 5, 434-436
Mountcastle, V.B. (1957) . Modality and topographic properties of single neurons of cat’s
somatic sensory cortex. J. Neurophysiol., 20, 408-434
Mountcastle, V.B. & Darian-Smith, I. (1968) . Neural mechanisms in somesthesia. In V.B.
Mountcastle (ed.), Medical Physiology, 12th ed., Vol. II St. Louis, Mosby, 13721423
Oldfield, B.P. (1988). Tonotopic organization of the insect auditory pathway. Trends in
Neuroscences, 11, 267-270
Olton, D.S. (1977). Spatial representation in the hippocampus. Scientific American, 236,
82 1977
Petersen, S.E. et al. (1988). Positron emission tomographic studies of the cortical
anatomy of single-word processing, Nature, 331, 585-589
Ritter, H. & Kohonen, T. (1989). Self-organizing semantic maps. Biological Cybernetics,
61, 241-254
Ritter, H. & Schulten, K. (1986). On the stationary state of Kohonen's Self-Organizing
sensory mapping. Biological Cybernetics, 54, 99-106
Ritter, H. & Schulten, K. (1988). Convergence properties of Kohonen's topology
conserving maps : fluctuations, stability and dimension selection. Biological
Cybernetics, 60, 59-71
Rolls, E.T. (1984). Neurons in the cortex of the temporal lobe and in the amygdala of the
monkey that responses selective for faces. Human Neurobiology, 3, 209-222
Smith, T.G. Jr et al. (1988). Edge detection in images using Marr-Hildreth filtering
techniques. Journal of Neurosciences Methods, 26, 75-82
Suga, N. & O'Neill, W.E. (1979). Neural axis representing target range in the auditory
cortex of the mustache bat. Science, 206, 351-353
Takeuchi, A. & Amari, S. (1979). Formation of topographic maps and columnar
microstructures, Biological Cybenetics, 35, 63-72
Ts'o, D.Y. et al. (1990). Functional organization of primate visual cortex by high
resolution optical imaging. Science, 249, 417-420
Turing, A.M. (1952). The chemical basis of morphogenesis. Philos. Trans. R. Soc.
London Ser. B, 237, 37
Zeki, S. (1980). The representation of colours in the cerebral cortex. Nature, 284, 412418
Una applicazione di interesse fisiologico
55
3. Una applicazione allo studio delle strutture
proteiche
3.1 Il percettrone multistrato e la regola delta generalizzata
Il perceptron si é dimostrato degno di studio a dispetto (o, forse,
a causa!) dei suoi seri limiti. Esso ha molte proprietà attraenti:
la sua linearità, il suo affascinante teorema d'apprendimento, la
sua limpida ed esemplare semplicità come modello di
computazione parallela.
Non c'é ragione di supporre che
nessuno di questi pregi sia ereditato dalla versione a più strati
....
[Minski e Papert, 1969]
Ricordiamo (vedi Cap. 1) che i percettroni costituiscono una classe di
sistemi connessionisti così denominati da Rosenblatt nel 1962 in cui si realizza
un apprendimento di tipo supervisionato modificando l'entità delle connessioni
sinaptiche fra i neuroni per mezzo della "regola delta". Secondo tale regola, la
variazione (∆W kj) fra il j-esimo ed il k-esimo neurone dei livelli di input e di
output, rispettivamente*, è proporzionale al prodotto del valore del neurone di
input per la differenza fra il valore atteso e quello effettivo del neurone di
output:
regola delta :
∆W kj = ηδk inj
(3.1)
dove η é il fattore di proporzionalità denominato "tasso" o "velocità di
apprendimento"; δk = U k - Ok é l'errore relativo al k-esimo neurone di output,
dato dalla differenza fra il valore atteso (Uk) e quello prodotto (Ok); e inj é il
valore del j-esimo neurone di input.
Nel loro famoso libro del 1969, Minski e Papert dimostrarono che i
percettroni ad un solo strato di sinapsi modificabili non sono in grado di
risolvere problemi interessanti come quelli della parità, della connettività o
dell'XOR (vedi Finestra 3.1): da qui lo scemare dell'interesse, negli anni
successivi, verso i sistemi connessionisti. Anche se gli stessi autori
riconoscevano che le limitazioni suddette non si applicano ai percettroni
multistrato, tuttavia l'uso di questi ultimi era molto limitato, ai loro occhi, dalla
mancanza di un adeguato algoritmo di apprendimento.
* nei percettroni i neuroni formali sono disposti in livelli ordinati, e le connessioni hanno luogo solo fra
neuroni appartenenti a livelli diversi. Il più semplice percettrone di Rosenblatt possedeva due livelli di neuroni
(input ed output) connessi da uno 'strato' di sinapsi.
Una applicazione allo studio delle strutture proteiche
56
FINESTRA 3.1
Le unità nascoste incrementano le performance dei percettroni:
il caso della funzione logica XOR (= OR disgiuntivo).
Il mapping
Input
(corrispondenza) Input
0
0
1
1
-> Output secondo la Tavola di verità a
lato non é possibile
utilizzando due sole
unità binarie per l'Input ed una per
Output
0
1
0
1
0
1
1
0
l'Output (percettrone ad uno strato di
connessioni).
Il problema consiste nel fatto che i patterns d'ingresso meno simili fra loro (il
primo e l'ultimo) devono generare lo stesso output.
La soluzione é possibile solo inserendo una ulteriore unità di elaborazione, per
esempio in un livello intermedio fra l'Input e l'Output secondo lo schema in basso, in cui
i valori all'interno dei neuroni
indicano la soglia di attivazione, e quelli sulle
connessioni la forza delle medesime.
Output
In_1
0.5
Int.
2
In_2
Int
Out
0
0
0
0
0
1
0
1
1
0
0
1
1
1
1
0
1.5
1
1
1
1
La soglia di 1.5 per l'unità intermedia
la rende attiva solo quando sono entrambe
attive In_1 e In_2; In tal caso, il peso
di -2 per la connessione con l'unità di
uscita fa sì che l'output complessivo
di quest'ultima sia pari a zero.
In_1, In_2
Una applicazione allo studio delle strutture proteiche
57
Figura 3.1
Rappresentazione schematica di un percettrone multistrato.
L - 1
L + 1
L
i-1
j-1
wj i
i
net k
(L)
(L+1)
j
)
w
k-1
(L
1
ji+
i+1
k
j+1
Sono rappresentati tre livelli di neuroni, L-1, L ed L+1, caratterizzati
rispettivamente dagli indici i, j e k. I due livelli esterni possono considerarsi l'Input (L1) e l'Output (L+1) della rete. Le connessioni sinaptiche hanno luogo solo fra neuroni
di livelli diversi: nella figura sono rappresentate, per semplicità, solo due connessioni
(W j,i (L) e Wj,i+1(L) ) fra tre neuroni dei livelli L-1 ed L. L'output del generico (kesimo) neurone del generico (L+1 esimo) livello é fornito da una
funzione di trasformazione non lineare :
Ok (L +1) = f (net k (L +1) )
al cui argomento, netk (L+1) , contribuiscono le uscite dei neuroni del livello precedente,
Oj (L) , pesati dalle corrispondenti connessioni, Wkj (L+1), e dal valore di soglia specifico
del neurone, θk (L+1) :
net k (L +1) =
∑W
(L +1)
kj
O j(L ) + θ k (L +1)
j
Una applicazione allo studio delle strutture proteiche
k+1
58
Oggi tale algoritmo esiste, va sotto il nome di 'retropropagazione degli
errori', e costituisce una naturale evoluzione della regola delta. Ciò, insieme alla
verifica dei limiti intrinseci dell'approccio simbolico-sequenziale, ha contribuito
a cambiare radicalmente, in questi anni, l'atteggiamento di diffidenza nei
confronti dell'approccio connessionista.
L'algoritmo di retropropagazione dell'errore
Estendere l'applicazione della regola delta al caso del percettrone
multistrato (schematizzato in Figura 3.1) comporta la definizione adeguata del
segnale d'errore (δ) per le unità degli strati intermedi, per le quali non é
immediatamente disponibile il valore del segnale atteso (Uk).
Un metodo generale per risolvere il problema é basato sull'osservazione
che la regola delta corrisponde all'applicazione dell'algoritmo di ricerca dello
'steepest descent' (=massimo gradiente) nella minimizzazione di una
funzione di costo : C =
1
(U k − O k )2 .
∑
2 k
La derivata di tale funzione rispetto alle sinapsi che connettono due generici
livelli R ed S, si può scrivere:
∂C
∂C ∂OS ∂netS
=
(3.2)
∂WSR ∂OS ∂netS ∂WSR
• Nel caso che i neuroni d'indice S appartengano all'ultimo livello
(Output) della rete, la (3.2) diventa*, con gli indici in accordo allo schema di
Fig. 3.1,
∂C
∂C ∂Ok ∂net k
=
= −(Uk − Ok ) f ' (net k ) Oj
∂Wkj ∂Ok ∂net k ∂W kj
(3.3)
• Nel caso che i neuroni d'indice S appartengano ad un livello intermedio
della rete, la (3.2) diventa, con gli indici in accordo allo schema di Fig. 3.1,
∂C
∂C ∂Oj ∂net j
∂C
=
=
f '( net j ) Oi
∂W ji ∂O j ∂net j ∂W ji ∂O j
(3.4)
* Si noti che nel caso in cui la funzione di trasformazione sia lineare, ovvero O = ∑ W O , la (3.2) si
k
j kj j
semplifica e fornisce direttamente la regola delta:
∂C
∂C ∂O k
=
= −(U k − Ok ) Oj
∂Wkj ∂Ok ∂W kj
Una applicazione allo studio delle strutture proteiche
59
in cui il primo termine del membro di destra (∂C / ∂Oj ) può essere calcolato
dalla:
∂C
=
∂Oj
∂C ∂Ok ∂net k
∂C
=∑
f '( net k ) Wkj
k ∂O k
k ∂net k ∂O j
∑ ∂O
k
(3.5)
La (3.5) sta al cuore dell'algoritmo ricorsivo di retropropagazione
dell'errore, perché fornisce la dipendenza della C (funzione di costo) dall'Output
delle unità di livello intermedio (j) in funzione della dipendenza dalle unità del
livello successivo (k) e dallo strato sinaptico interposto (Wji).
Nella Finestra 3.2 viene fornito, sempre con riferimento allo schema di
Figura 3.1, il diagramma di flusso usato per implementare in uno spreadsheet
programmabile l'algoritmo suddetto nella predizione della struttura secondaria
della nitrito-reduttasi di Ps. aeruginosa (vedi appresso). I punti seguenti
commentano i vari stadi del diagramma* . Per semplicità, si farà riferimento ai
singoli elementi di vettori e matrici.
1. Per la inizializzazione delle matrici sinaptiche si utilizza in genere un
generatore di numeri casuali compresi fra 0 ed 1.
2. Netj si ricava dai valori generati dal livello di Input Oi (che codifica
l'informazione in ingresso) e dai valori della matrice sinaptica del primo strato.
La funzione di trasformazione non lineare usata, f(net), é la:
Oj =
1+e
−(
1
∑j W jiO i + θ j )
Con operazioni analoghe vengono calcolate Netk e Ok ed i valori dei
successivi altri livelli (se presenti).
3. Ottenuto l'output dell'ultimo livello (Ok nel presente caso), se il valore
della funzione di costo é sufficientemente piccolo rispetto ad un riferimento
prefissato, si interrompono le iterazioni.
4. L'aggiornamento delle matrici sinaptiche nel corso di ogni iterazione
(apprendimento) avviene strato dopo strato a partire dall'ultimo, per il quale il
calcolo é particolarmente semplice. Negli altri casi si procede come descritto.
* I valori delle soglie di attivazione dei neuroni di tutti gli strati (θ) sono anch'essi suscettibili di
ottimizzazione con un procedimento del tutto analogo, che procede in parallelo a quello descritto per le
matrici sinaptiche.
Una applicazione allo studio delle strutture proteiche
60
Finestra 3.2
Diagramma di flusso per l'apprendimento supervisionato di un percettrone a
due strati con retropropagazione degli errori
(La nomenclatura e gli indici si riferiscono allo schema della Fig. 3.1)
1 Inizializza Wji e Wkj
Oj = f (netj )
2.1
Calcola
netj
e
2.2
Calcola
netk
e Ok = f (netk )
concatenazione in avanti
3
Calcola
la
se piccola
C = ∑ (Uk − Ok )
FINE
k
se grande
4.1
Calcola
la f '(net k )
4.2
Calcola
4.3
Calcola
4.4
Aggiorna
∂ k = η (U k − Ok ) f
∆W kj = η ∂k Ok
W kj
4.5
Calcola
la f ' (net j )
4.6
Calcola
4.7
Calcola
4.8
Aggiorna
∂j = f (net j ) ∑k ∂ k W kj
∆W ji = η ∂ j O j
W ji
'
(net k )
'
Retropropagazione dell'errore su due strati
Una applicazione allo studio delle strutture proteiche
61
3.2 La predizione delle strutture proteiche
Il problema
Le proteine costituiscono la componente di gran lunga preponderante fra le
macromolecole costituenti le cellule. Questo sia dal punto di vista ponderale che
in considerazione dell'importanza e varietà delle funzioni svolte. Capire in che
modo tali funzioni siano legate alla struttura molecolare costituisce uno degli
argomenti centrali dell'odierna ricerca in Biologia Molecolare, Biochimica e
Biofisica [Branden and Tooze, 1992].
Le proteine sono polimeri lineari formati da centinaia di unità elementari,
gli aminoacidi, caratterizzati da una estremità carbossilica (acida) ed una
amminica (basica) ed esistenti in natura in 20 diverse varietà (Finestra 3.3). Lo
studio della organizzazione strutturale delle proteine avviene a 4 diversi livelli :
- Struttura Primaria: corrisponde alla sequenza degli aminoacidi e alla
posizione dei legami disolfuro, quando ve ne sono, e riflette quindi l’insieme
dei legami covalenti di una proteina.
- Struttura Secondaria: si riferisce alla disposizione nello spazio dei residui di
aminoacidi adiacenti nella sequenza lineare. Alcune di queste relazioni steriche
sono di tipo regolare e danno origine a strutture periodiche: l’ α-elica e la
struttura β sono elementi di struttura secondaria. Quando le relazioni non sono
di tipo regolare, esse si dicono random-coil.
- Struttura Terziaria: riguarda la disposizione nello spazio dei residui di
aminoacidi lontani fra loro nella sequenza lineare. La linea di divisione fra
struttura secondaria e terziaria non è netta.
- Struttura Quaternaria: le proteine che contengono più di una catena
polipeptidica hanno un ulteriore livello di organizzazione strutturale: ciascuna
catena polipeptidica viene chiamata subunità e la struttura quaternaria si riferisce
alla disposizione nello spazio di queste subunità.
Predire l'arrangiamento tridimensionale delle proteine, cioé le loro strutture
secondaria e terziaria, dalla sequenza lineare degli aminoacidi componenti
(struttura primaria), è diventato un argomento di grande attualità da quando le
tecniche di biologia molecolare (DNA ricombinante) consentono di accumulare
informazione sulle strutture primarie ad una velocità molto maggiore di quanto
non facciano, relativamente alle strutture tridimensionali, le tecniche
spettroscopiche (diffrazione dei raggi X, NMR, etc.).
Bisogna inoltre considerare che per le proteine cosidette "intrinseche di
membrana", molte delle quali svolgono un ruolo chiave in processi
fondamentali come la respirazione (citocromi b, c1, a, etc.) o il riconoscimento
Una applicazione allo studio delle strutture proteiche
62
(maggior complesso di istocompatibilità, etc.) cellulare, l'uso delle tecniche
diffrattometriche é fortemente ostacolato dalla difficile cristallizzabilità. D'altra
parte, le basi-dati su cui si fondano le tecniche predittive sono costituite nella
quasi totalità da proteine solubili: ci si trova insomma nella sfavorevole
situazione per cui proprio laddove dei metodi predittivi si avrebbe più bisogno
(proteine di membrana), essi sono meno efficienti per la squilibrata
composizione della base dati.
I metodi statistici tradizionali
Mentre non é possibile, al momento, fare a meno dell'informazione
sperimentale diretta nello studio delle strutture terziarie e quaternarie, per la
predizione delle strutture secondarie un considerevole numero di proposte
[Pascarella et al., 1990], basate su metodi di tipo statistico, sono apparse in
letteratura a partire dal classico lavoro di Chou e Fasman [Chou & Fasman,
1978]. Il metodo tradizionale attualmente più popolare per facilità d'uso e
affidabilità dei risultati é dovuto a Garnier e collaboratori [Garnier et al., 1987].
Esso, dal punto di vista dell'utilizzatore finale, si riduce all'uso di tavole di
“propensità” a formare le tre principali strutture secondarie (α -eliche, foglietti β
e strutture disordinate) da parte dei residui all'interno di una finestra di ampiezza
arbitraria. Di considerevole interesse per la sua originalità appare il metodo
suggerito da Lim [Lim, 1974] basato sull'identificazione di 'patterns' locali di
idrofobicità lungo la sequenza.
Non va dimenticato, comunque, che lo scopo finale di ogni metodo
predittivo é di chiarire l'arrangiamento tridimensionale della proteina e che, in
questa prospettiva, percentuali di correttezza nella predizione delle strutture
secondarie dell'ordine del 65-70%, quali si ottengono con i metodi succitati,
sono ancora inadeguate. Tali prestazioni migliorano quando ci si riferisce a
condizioni particolarmente favorevoli, cioé quando le proteine di “test” sono
omogenee alla gran maggioranza delle proteine contenute nel data-base. In
mancanza di tale omogeneità la “performance” del metodo é drasticamente
ridotta.
L’approccio connessionista
L'uso di reti neurali ad apprendimento supervisionato nei problemi relativi
allo studio della struttura tridimensionale di proteine è relativamente recente e
limitato alla predizione delle strutture secondarie, ed i lavori specifici
sull'argomento sono pochi.
Una applicazione allo studio delle strutture proteiche
63
Finestra 3.3
A. Natura chimica degli aminoacidi
Aminoacidi
Naturali
Simbolo
Simbolo
abbreviato
Formula
Alanina
Cisteina
Ac. Aspartico
Ac. glutammico
Fenilalanina
Glicina
Istidina
Isoleucina
Lisina
Leucina
Metionina
Asparagina
Prolina
Glutammina
Arginina
Serina
Treonina
Valina
Triptofano
Tirosina
Ala
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Tyr
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
R-CH 3
R-CH 2-SH
R-CH 2-COOH
R-CH 2-CH 2-COOH
R-CH 2-Ph
R-H
R-CH 2-Imidazolo
R-CH(CH3)-CH 2-CH 3
R-(CH 2)4-NH 2
R-CH 2-CH(CH 3)2
R-CH 2-CH 2-S-CH 3
R-CH 2-CO-NH 2
2-carbossi Pirrolidina(*)
R-CH 2-CH 2-CO-NH 2
R-(CH 2)2-NH-CH(NH2)2
R-CH 2-OH
R-CH(OH)-C(H)3
R-CH(CH3)2
R-CH 2-Indolo
R-CH 2-Ph-OH
Nota: R = -CH(NH2)-COOH ; Ph = -C6H5 ; PhOH = -C6H4-OH
B. Relazioni fra strutture primaria, secondaria e terziaria.
Struttura Primaria
(1 quadratino = 1
AminoAcido)
Elemento di
StrutturaSecondaria Struttura Terziaria
(alpha-elica)
Una applicazione allo studio delle strutture proteiche
64
Alcuni di essi, tuttavia, riportano i risultati dell'applicazione del metodo in
forma tabulare, analoga alle tavole dei valori di “propensità” degli amminoacidi
per le varie conformazioni, prodotte da alcuni dei metodi statistici. Ciò mette in
grado chiunque di utilizzare tali risultati ai fini della predizione della struttura
secondaria di un qualunque polipeptide. Lo schema funzionale per un
percettrone impiegato nella predizione di strutture secondarie proteiche é
comunque basato sulle due fasi seguenti:
Fase 1 (apprendimento): Si sottopongono alla rete un certo numero di casi
significativi, per i quali si conosce l’esatta corrispondenza fra struttura primaria
e secondaria della proteina, ottimizzando in base a questa corrispondenza la
geometria e l’intensità delle connessioni e il valore di soglia per i neuroni.
Questa fase, assolutamente peculiare di questo approccio, viene schematizzata
nella Figura 3.2.
Fase 2 (interrogazione): Si sottopone allo strato di input della rete una
struttura primaria lasciando che, in base ai valori relativi alle connessioni e alle
soglie, ottimizzati nella precedente fase di “Apprendimento”, lo strato di Output
proponga una struttura secondaria corrispondente.
La Figura 3.3 illustra l'architettura di un generico percettrone usabile nella
predizione della struttura secondaria di proteine. Numerose varianti rispetto a
tale schema di massima sono state, tuttavia, ampiamente sperimentate.
Un'osservazione di rilievo è che le prestazioni di una rete non dipendono in
modo semplice dalle dimensioni del "training set" usato nella fase di
apprendimento. In particolare:
- grande importanza riveste il grado di omologia esistente fra le proteine del
“training set” e quelle del “testing set” (usate nella fase di interrogazione );
- tanto meglio la rete “impara a riconoscere” le proteine del training set, tanto
peggiore sarà la sua abilità predittiva nei confronti di proteine “non note” .
Considerazioni conclusive
Le peculiarità dell'uso di reti neurali nella predizione delle strutture
proteiche che sembrano particolarmente promettenti rispetto agli approcci di
tipo tradizionale sono:
- la non necessità di assunzioni teoriche preliminari;
- la flessibilità nella definizione dell'architettura delle reti, che consente di trovare
arrangiamenti ottimali per problemi/situazioni particolari;
- la prospettiva di sfruttare appieno alcuni recenti sviluppi nelle tecnologie
informatiche come l'uso contemporaneo di numerosi processori "in parallelo",
Una applicazione allo studio delle strutture proteiche
65
con conseguenti miglioramenti nella efficienza computazionale misurabili in
ordini di grandezza.
I limiti riscontrati nelle applicazioni realizzate finora indicano tuttavia che
non ci si puo' aspettare miglioramenti sostanziali nella soluzione del problema
da un uso indiscriminato del metodo in termini di scatola nera. Esso va visto,
a nostro parere, come un ulteriore strumento di indagine, potente e flessibile,
che si aggiunge agli altri già in nostro possesso, complementandoli con
caratteristiche nuove ed originali.
Figura 3.2
L'algoritmo ciclico di apprendimento per un percettrone
da usare nella predizione di strutture secondarie di proteine
Lo strato di
Input codifica
la sequenza
Lo strato di
Output codifica la strutt.
secondaria
Loop 1
Si ottimizzano la forza
delle sinapsi
e le soglie
Esempio iesimo di
corrispondenza nota
fra strutture primaria e secondaria.
Calcolo di C(i)
N
Y
FINE
La riduzione
in ∆C è
asintotica?
Loop 2
Calcolo di
∆C = C(i)-C(i-1)
Nota: L'apprendimento consiste nel minimizzare una funzione (C) delle differenza fra
risultati attesi e risultati ottenuti (cfr. diagramma di flusso in Finestra 3.2) delle unità di
output di ogni livello neuronico (i = numero di iterazione)
Una applicazione allo studio delle strutture proteiche
66
Figura 3.3
Generica architettura di un percettrone multistrato utilizzato nella
predizione della struttura secondaria di proteine.
G1 G2
G7
G12 G13
1
2
3
Strato di
Input
19
20
(Ala)
(Phe)
(Trp)
Sinapsi
Strato
intermedio
Sinapsi
Strato di
Output
α
β
coil
Legenda:
Lo strato di “input” è costituito da gruppi di neuroni (G1....G13) il cui numero è
pari all'estensione della" finestra mobile" lungo la sequenza da esaminare. I
neuroni all'interno di un gruppo (in genere 20) codificano un singolo residuo
secondo uno schema binario (Es.: 10000000000000000000 = Ala;
00000000000000000001 = Trp).
Lo strato di “output” contiene in genere tanti neuroni quante sono le
conformazioni (tipicamente a-elica, b-sheet e random-coil) fra le quali si vuole
identificare quella del residuo centrale nella finestra. Sono tuttavia possibili
soluzioni alternative (vedi appresso).
Lo strato intermedio, se presente, contiene un numero variabile di unità
collegate agli strati di input ed output da sinapsi (indicate solo in forma generica
nello schema), le cui posizioni e intensità vengono definite nel corso del processo
di apprendimento.
Una applicazione allo studio delle strutture proteiche
67
3.3 Implementazione e Risultati
Il caso della Nitrito-reduttasi di Pseudomonas aeruginosa
In questo paragrafo viene descritto un caso interessante di applicazione del
metodo di predizione della struttura secondaria di una proteina che utilizza un
percettrone ad uno strato di sinapsi e l'algoritmo di retropropagazione
dell'errore riportato nella Finestra 3.2. La proteina é la nitrito-reduttasi di
Pseudomonas aeruginosa , un enzima che catalizza la reazione:
2 H + + 1e- + NO2-
------->
H 2O + NO
all'interno della catena respiratoria batterica che opera la denitrificazione
dissimilativa ovvero la trasformazione metabolica del nitrato ad azoto [Horio et
al., 1958; Yamanaka, 1961]* .
L'enzima é un omodimero di P.M. 120 KDalton contenente 4 gruppi
prostetici, due emi di tipo c e due emi di tipo d1 [Gudat et al., 1963; Kuronen
and Ellfolk, 1972; Kuronen et al., 1975; Silvestrini et al., 1978], responsabili
dei caratteristici spettri di assorbimento nel visibile dell'enzima. L'eme c
costituisce il sito di interazione con i substrati macromolecolari riducenti
(citocromo c551 ed azzurrina) [Horio, 1960], mentre al livello dell'eme d1
avviene la riduzione del nitrito e l'interazione con altri ligandi tipici delle
emoproteine (NO, CO, O2, etc.). I potenziali redox dei due emi sono poco
diversi fra loro e fortemente dipendenti dalle condizioni sperimentali : pH,
ligandi, etc.
Nuovi motivi d'interesse nello studio di tale enzima sono costituiti da:
A) la disponibilità della struttura primaria, recentemente ottenuta
[Silvestrini et al., 1989];
B) la conoscenza del gene corrispondente, che é stato clonato,
sequenziato e recentemente espresso in un sistema eterologo
(Pseudomonas putida ) [Silvestrini et al., 1992].
* E' interessante notare che l'enzima é anche in grado di catalizzare la riduzione dell'ossigeno molecolare ad
acqua, secondo la:
4 H+ + O 2 + 4e --------> 2H 2O
nonostante ciò avvenga con efficienza minore (e sicuramente con diverso meccanismo) rispetto alla reazione
fisiologica (Greenwood et al., 1978). Per questo motivo tale enzima é stato a lungo considerato come un
modello semplificato (perché idrosolubile e meno complesso strutturalmente) della citocromo ossidasi
mitocondriale.
Una applicazione allo studio delle strutture proteiche
68
Informazioni strutturali disponibili
L'enzima é sintetizzato come una pre-proteina di 567 aminoacidi i primi
22 dei quali costituiscono il peptide segnale che dirige la proteina nello spazio
periplasmatico e che viene successivamente proteolizzato. La proteina matura é
quindi costituita da 543 residui aminoacidici (Figura 3.4 A). Il sito dell'eme c
é situato vicino all'estremità aminico-terminale della catena polipeptidica; nulla
si sa, viceversa, del sito di legame dell'eme d1.
Per quanto riguarda la struttura secondaria, studi di dicroismo circolare
hanno mostrato una rilevante percentuale di foglietto-β, circa il 48%, ed una
minore percentuale di α-elica, circa il 16% [Tordi et al., 1984].
La bassa qualità dei cristalli finora ottenuti ha impedito qualunque studio
diretto della struttura tridimensionale con la diffrattometria a raggi X. Studi a
bassa risoluzione [Berger and Wharton, 1980; Saraste et al., 1977] indicano
una struttura dimerica le cui dimensioni sono di circa 40 x 80 Å; studi di
fluorescenza [Mitra and Bersohn, 1980] indicano che i quattro emi si trovano ad
un polo del dimero (Figura 3.4 A). Numerose evidenze (studi di denaturazione
termica e di proteolisi in condizioni controllate) suggeriscono variazioni
conformazionali sull'enzima dipendenti dallo stato redox e dalla presenza di
ligandi sugli emi.
Risultati
La osservazione, ampiamente documentata in letteratura [Quian &
Sejnowskj, 1988] e da noi riprodotta che la performance funzionale di un
percettrone dipenda strettamente dalla composizione del 'training set', ci ha
indotto ad esaminare l'efficacia predittiva di un semplice percettrone a 2 livelli,
implementato su un foglio elettronico programmabile (Wingz1.1), ed
addestrato con tre diversi training-sets. I risultati ottenuti, riportati nella
Tabella 3.1, mostrano che in uno dei tre casi la predizione é in accordo
soddisfacente con le stime ottenute dagli spettri di dicroismo circolare delle
percentuali di α-elica e foglietto β esistenti nell'enzima completamente ridotto.
Una applicazione allo studio delle strutture proteiche
69
F igura
3.4
Informazione strutturale disponibile sulla nitrito
reduttasi da P seudomonas aeruginosa
A.
Struttura P rimaria :
543 Aminoacidi
1234567890123456789012345678901234567890123456789
0
|
|
|
|
|
K
C
K
P
G
W
I
T
V
G
S
V
D
H
E
N
R
P
V
G
I
T
Q
W
B.
D
G
Q
L
D
P
N
K
D
D
S
N
M
V
I
F
A
Q
V
V
S
P
V
G
K
L
T
S
R
F
K
L
K
K
A
K
A
R
L
V
I
A
E
L
D
N
V
N
A
K
M
T
D
I
E
G
A
L
M
M
Q
A
K
R
I
D
Y
T
Y
D
D
G
Q
G
I
A
L
E
G
K
Q
G
W
T
A
P
H
Q
A
L
A
L
T
I
K
E
S
T
P
A
E
P
A
P
P
L
P
K
V
D
Q
V
T
Q
D
I
P
D
K
I
P
T
P
G
V
V
A
Q
E
D
A
S
H
Q
W
S
E
T
V
R
G
K
I
R
V
G
M
K
K
G
R
Q
P
I
I
M
T
Q
E
V
G
T
N
Y
M
K
I
V
G
L
R
V
E
D
A
E
E
I
A
T
P
A
S
D
R
Q
D
L
W
T
S
T
M
I
K
G
V
Y
S
T
V
Y
E
H
E
Y
L
A
S
P
S
G
V
V
S
E
E
T
K
H
K
P
F
P
P
I
F
R
N
L
E
S
K
V
E
G
D
R
G
A
A
M
R
M
Y
A
K
P
P
S
E
I
Q
N
K
A
D
I
I
W
K
S
R
A
Y
G
Q
G
Y
S
F
S
L
R
T
H
Q
S
N
Y
I
E
R
G
D
L
A
H
C
E
L
L
G
P
A
L
D
V
A
E
G
S
L
I
Y
F
V
R
H
F
D
N
R
P
D
S
Y
L
Q
L
S
K
S
Y
K
A
D
A
A
N
L
I
L
W
L
V
D
V
K
D
V
N
D
K
A
V
L
V
V
K
D
T
G
A
Y
D
V
K
E
Q
K
T
T
L
V
T
S
P
Q
L
L
I
H
G
P
K
G
P
Q
I
L
A
G
G
A
K
A
R
G
E
A
P
G
G
W
V
F
A
S
A
V
L
N
L
D
K
H
F
F
L
D
D
V
I
G
P
G
H
K
E
R
G
P
T
G
L
W
K
H
A
I
D
Y
P
K
T
S
G
K
R
P
S
P
S
V
T
H
V
S
V
G
R
W
H
Q
K
Y
S
L
P
F
F
T
Y
E
N
M
S
V
Y
V
T
H
D
N
Y
A
L
T
K
N
A
G
T
R
T
N
D
F
G
Q
N
G
N
D
H
S
S
P
E
D
N
I
D
V
V
K
S
A
W
Y
V
L
R
F
A
I
I
S
Struttura Q uaternaria a Bassa risoluzione
Una applicazione allo studio delle strutture proteiche
70
Tabella 3.1
Influenza della composizione del 'training set' sulla predizione della struttura secondaria
della nitrito reduttasi di Pseudomonas da parte di un percettrone.
TRAINING SET 1 TRAINING SET 2 TRAINING SET 3
($)
(§)
(&)
dicroismo circolare
(*)
(100% riduzione)
HELIX(%
)
0.07
0.23
0.20
0.16 ± 0.01
BETA (%)
0.42
0.37
0.50
0.48 ± 0.02
COIL (%)
0.50
0.41
0.29
n. d.
(*) Da Tordi et al. (1984 )
($) training set 1 = Bence-Jones protein + SOD (from erythrocytes)
(§) training set 2 = b-trypsin + ferredoxin
(&) training set 3 = subtilisin inhibitor + plastocyanin
---------------------------------------Tali risultati indicano che la miglior strategia per ottimizzare la
performance di un percettrone nella predizione delle strutture secondarie
incognite consista non tanto nell'amplificare il più possibile le dimensioni del
training set usato nella fase di addestramento, quanto nello scegliere con
estrema cura la sua composizione. Questo, ovviamente, assegna una
responsabilità primaria al ricercatore, che deve utilizzare tutta l'informazione
disponibile sul sistema in studio e su quelli ad esso in qualche modo correlati e
di struttura nota*. Laddove ciò si rivelasse un compito difficile o impossibile,
tuttavia, si dovrebbe ancora poter sfruttare le capacità classificatorie delle mappe
di Kohonen per individuare automaticamente, sulla base della conoscenza della
sola struttura primaria, i migliori candidati per la composizione del training-set.
* Numerosi autori hanno già suggerito, del resto, di ricorrere sistematicamente alla considerazione delle
omologia di sequenza e di struttura secondaria, per risolvere il problema - ben più complesso - della
determinazione della struttura terziaria.
Una applicazione allo studio delle strutture proteiche
71
Appendice A.3:
Confronto fra metodi statistici e connessionisti
1. METODI STATISTICI
Chou e Fasman (1978)
Tale metodo si basa sulla definizione del cosiddetto
“parametro conformazionale”
P j,k per ogni residuo J ed ogni conformazione k, corrispondente alle frequenze con cui il
residuo appare in quella configurazione all'interno di un data-base, normalizzate rispetto
alla frequenza media della configurazione: Pj,k = fj,k / <fk>. In tal modo é possibile
individuare, lungo una struttura polipeptidica qualsiasi, dei siti di nucleazione specifici
per ogni configurazione usando il metodo della finestra mobile: <Ps> = Ps,j / (n+1) ,
dove Ps,j é la propensità per la conformazione k del residuo in posizione j lungo un
frammento di sequenza lungo n+1.
Così, ad esempio, le due coppie di condizioni
seguenti:
<P β> ≤ <P α > e 1.03 ≤ <P α >, all'interno di un esapeptide; e
<P α > ≤ <P β> e 1.05 ≤ <P β>, all'interno di un pentapeptide,
indicano, rispettivamente, siti di nucleazione per un'alfa elica e un foglietto beta.
I maggiori problemi, con tale metodo,
lunghezza dei tratti in una specifica struttura
nascono dalla difficile definizione della
e dalla predizione dei "beta-turns"
o
"hairpines", che spesso si sovrappongono e distruggono le altre strutture. E' stato notato
che perfino la diretta implementazione della più semplice e primitiva versione del
metodo originale, non fornisce risultati riproducibili per l'ambiguita delle regole suggerite
nel definire i casi dubbi.
Garnier (1987).
L'idea di base sviluppata da Garnier
statistiche
esistenti
consiste nel mappare
fra strutture primaria e secondaria
la correlazioni
sotto forma di
"tavole"
contenenti i cosiddetti "indici di propensità" di un dato residuo per una data struttura
secondaria sulla base della natura chimica del residuo e dei suoi immediati vicini nella
sequenza.
Più specificamente, il metodo é basato sulla valutazione della funzione
seguente:
I = (Sj = X : <X> ; Rj-w , ... Rj-w)
Una applicazione allo studio delle strutture proteiche
72
dove
I
residuo
rappresenta
l'informazione relativa allo stato conformazionale
del j-esimo
(Sj) e incorporata nella natura chimica dei 2*W+1 residui (Rj-w , ... Rj-w)
all'interno di una finestra di mezza-larghezza = W e centrata sul residuo j-esimo. X é
una specifica struttura secondaria
(α-elica,
rappresenta le altre strutture diverse da X.
foglietto-β o random-coil)
Nell'articolo originale di
(1987), il modo di ricavare rigorosamente I dalle frequenze
e
<X>
Garnier et al.
osservate nelle strutture di
proteine note é descritto nei partifcolari. Gli "indici di propensità" forniti nell'articolo in
effetti si riferiscono alla seguente espressione semplificata:
m = +8
∑
m =
-8
I (S j = X : X ; R j + m )
in cui l'influenza esercitata sui residui contenuti in una finestra di mezza-larghezza=8
vengono assunti come indipendenti l'uno dall'altro, e quindi semplicemente additivi.
autori sottolineano, d'altra parte,
Gli
che qualunque altra approssimazione meno drastica
sarebbe resa inutile dalla scarsità dei dati sperimentali disponibili.
2. METODI CONNESSIONISTI
Holley and Karplus (1989)
Lo strato di Input consiste in una finestra di 17 gruppi. Ogni gruppo è costituito da
21 neuroni, uno per ciascuno dei 20 aminoacidi, più uno usato quando la finestra mobile
si sovrappone con l'estremità della catena polipeptidica. Lo strato intermedio contiene
due soli neuroni. Anche lo strato di output contiene due soli neuroni, che codificano le
strutture secondarie secondo lo schema : (1,0) = a ; (0,1) = b ; (0,0) = coil. I reali
positivi compresi fra 0 ed 1 che costituiscono i valori effettivamente assunti dalle unità
di output (vedi Tavola I), vengono discretizzati in
0
o 1
con l'uso di un valore di
soglia, anch'esso ottimizzato durante il processo di apprendimento. In definitiva, l' aelica è assegnata a quei gruppi di almeno quattro residui contingui che abbiano valori
della prima unità di output maggiori sia della seconda, sia della soglia; il b-sheet è
assegnato ai gruppi di almeno due residui contigui per i quali i valori della seconda unità
di output siano maggiori sia della prima sia della soglia; il random-coil é assegnato a
tutti i rimanenti valori.
Una applicazione allo studio delle strutture proteiche
73
Qian and Sejnowski (1988)
La rete standard usata da questi autori comprende: uno strato di output
corrispondente ad una finestra di 13 residui, ognuno dei quali codificato da 20 neuroni;
uno strato di output formato da 3 unità, ciascuna rappresentante una possibile
conformazione secondaria da assegnare al residuo centrale della finestra;
uno strato
intermedio formato da 40 unità nascoste. Un piccolo ma significativo miglioramento
nelle prestazioni è stato notato da questi autori utilizzando due reti in serie, in modo che,
a parità di tutte le altre condizioni, l'output della prima divenga l'input della seconda.
Quest'ultimo risulta in tal modo costituito da 13 gruppi con tre unità per gruppo, e
contiene tutta l'informazione relativa alla struttura secondaria derivante dalla prima rete.
Bohr et al. (1988)
Le particolarità nelle reti usate da questi autori, consistono in:
ampie, comprendenti 25 residui per lato;
a) finestre molto
b) strato di output composto da 2 unità
codificanti (il livello di confidenza per) la presenza o l'assenza di una singola
configurazione secondaria. Cio' significa che ottenere il quadro completo della struttura
secondaria di una proteina comporta l'uso di tante reti, ciascuna specializzata per una
particolare configurazione. Per il resto, le reti usate da questi autori sono molto simili a
quelle usate da Qian e Sejnowski.
3. CONFRONTO TRA METODI DIVERSI
La stime dell'efficienza predittiva di un qualunque metodo viene effettuata
utilizzando degli indici di affidabilità, alcuni dei quali sono riportati nella Tabella 3.2.
Tabella 3.2
Q3 = (percentuale di predizione corretta) = (P α +
Pβ + Pcoil) / N in cui
P i = residui previsti correttamente nella configurazione i-esima;
N = numero totale di residui.
Ci = (coefficiente di correlazione relativo alla configurazione i-esima ) =
=
in
Pi
ni
oi
ui
Pin i − uio i
(n i + u i )(n i + o i )(Pi + ui )(P i + o i )
cui : i puo' essere una qualunque configurazione ( α, β, coil, ... ) ;
= numero di residui previsti correttamente in configurazione iesima;
=
"
" non previsti
"
"
" ;
=
"
" previsti non correttamente
"
" ;
=
"
" non previsti non correttamente "
" .
Una applicazione allo studio delle strutture proteiche
74
Un confronto fra i due approcci alternativi (statistico e connessionista) che tenga
conto soltanto dell'affidabilità dei risultati ottenuti in uno o più casi particolari é, a nostro
parere, scarsamente convincente, perché é difficile garantire che il confronto avvenga in
condizioni esattamente comparabili.
Nella Tabella 3.3 vengono comunque riportati i
risultati di due analisi di questo tipo che indicano prestazioni significativamente migliori
nel caso dei percettroni.
Tabella 3.3
Confronto fra metodi statistici e connessionisti
in base agli indici della Tabella 3.2: Q3 ; (Ca, Cb, Ccoil)
autori del
metodo
autori del
confronto
Quian &
Sejnowski, 1988
(#)
Holley &
Karplus, 1989
($)
Chou Fasman
Robson
Lim
NN (1)
NN (2)
50.0
(.25;.19;.24)
53.0
(.31;.24;.24)
50.0
(.35;.12;.20)
62.7
(.35;.29;.28)
64.3
(.41;.31;.41)
48.0
55.0
54.0
63.0
(.41;.32;.36)
Note:
NN (1) e NN (2) si riferiscono rispettivamente a una e due reti neuronali (in serie). In tutti i casi
l’assegnazione delle strutture secondarie è basata sull’algoritmo di Kabsch and Sander (1983).
(#) “training” = 18105 residui / 91 proteine ; “test” = 2441 residui / 15 proteine
($) “training” = 8315 residui / 48 proteine ; “test” = 2441 residui / 14 proteine
Una applicazione allo studio delle strutture proteiche
75
Bibliografia del Capitolo 3
Berger H. and Wharton D. C. (1980) Biochim. Biophys. Acta, 622,355-359.
Branden C. and Tooze J., (1991), "Introduction to protein strucure", Garland Pub., N.Y.
and London.
Chou P.Y. and Fasman G.D., (1978) , Adv. Enzymol. 47, 45-148
Cohen F.E., Abarbanel R.M., Kuntz I.D. and Fletterick R.J.; (1986), Biochemistry 25,
266-275.
Ferràn E. A. and Ferrara P. (1991), Biol. Cybern. 65, 451-458
Gibrat J.-F., Garnier J. and Robson B; (1987), "Further developments of protein secondary
structure prediction using information theory", J. Mol. Biol. 198, 425-443.
Greenwood C.,Barber D., Parr S.R.,Antonini E.,Brunori M. and Colosimo A.(1978),
Biochem. J. 173, 11-17.
Gudat J.C., Singh J. and Wharton D.C. (1973) Biochim. Biophys. Acta 292, 376-390.
Horio T., Higashi T., Matsubara H., Kusai K., Nakai M. and Okunuki K.(1958) Biochim.
Biophys. Acta 29, 297-302.
Horio T., Higashi T., Sasagawa M., Kusai K., Nakai M. and Okunuki K. (1960) Biochem.
J. 77, 194-201
Kabsch W. and Sander C. , (1983), Biopolymers, 22, 2577-2637.
Kuronen T., and Ellfolk N. (1972) Biochim. Biophys. Acta 275, 308-318.
Kuronen T., Saraste M. and Ellfolk N. (1975) Biochim. Biophys. Acta 393, 48-54.
Lesk A.M., (1991), "Protein Architecture: a practical approach", IRL Press, Oxford.
Lim V.L., J. Mol. Biol., 88, 873, 1974.
Parr S.R., Barber D., Greenwood C., Phillips B.W. and Melling J. (1976) Biochem. J.
157, 423-430.
Pascarella S., Colosimo A. and Bossa F., (1990), "Computational analysis of protein
sequencing data", in "Laboratory methodology in Biochemistry", (Fini C. and
Wittman-Liebold B. eds.), CRC Press, Boca Raton (USA)
Qian N. and Sejnowski T.J. (1988) . Predicting the secondary structure of globular
proteins using neural networks models. J. Mol. Biol. 202, 865-884
Saraste M., Virtanen I. and Kuronen T. (1977) Biochim. Biophys. Acta 492, 156-162.
Silvestrini M. C., Colosimo A., Brunori M., Walsh T.A., Barber D. and Greenwood C.
(1978) Biochem. J. 183, 701-709.
Silvestrini M.C., Cutruzzolà F., D' Alessandro R., Brunori M., Fochesato N. and Zennaro
E., Biochem. J. (1992) 285, 661-666.
Silvestrini M.C., Galeotti C.L., Gervais M., Schininà E. , Barra D. , Bossa F. and Brunori
M., FEBS Letters (1989), 254, 33-38.
Silvestrini M.C., Tordi M.G., Musci G. and Brunori M. (1990) J. Biol. Chem. 265, 1178311787.
Tordi M.G., Silvestrini M.C., Colosimo A., Provencher S. and Brunori M., (1984),
Biochem. J., 218, 907-912.
Tordi M.G., Silvestrini M.C., Colosimo A., Provencher S., and Brunori M., (1984),
Biochem.J., 218, 907-912.
Tordi M.G., Silvestrini M.C., Colosimo A., Tuttobello L., and Brunori M., (1985),
Biochem.J., 230, 797-805.
Yamanaka T. (1972) Adv. Biophys. 3, 227-276.
Yamanaka T., Ota A. and Okunuki K. (1961) Biochim. Biophys. Acta 53, 294-308.
Una applicazione allo studio delle strutture proteiche
Scarica