Corso di Perfezionamento in Metodi di Elaborazione di Segnali e Immagini Biomediche P. Sirabella - A. Colosimo LE RETI NEURALI ARTIFICIALI E LORO APPLICAZIONI D'INTERESSE BIOLOGICO Roma Maggio 1993 2 INDICE Presentazione Capitolo 1. 1.1 1.2 1.3 1.4 1.5 1.6 pag. 2 Gli algoritmi connessionisti e la simulazione dell'apprendimento Considerazioni preliminari Il neurone formale e la dinamica delle reti L'apprendimento hebbiano L'apprendimento non-hebbiano L'apprendimento competitivo Altre classificazioni dei modelli di apprendimento Appendice A1 Il problema della stabilita-plasticità Bibliografia Capitolo 1 3 5 10 14 17 20 22 25 Capitolo 2. Una Applicazione di interesse fisiologico 2.1 2.2 2.3 2.4 Le mappe autoorganizzanti di Kohonen (SOM) a conservazione di topologia La dinamica spazio-temporale delle SOM Semplificazione ed implementazione dell'algoritmo Una corteccia somatosensoria simulata Appendice A2 L'interazione laterale in modelli dinamici d'interesse biologico Bibliografia Capitolo 2 27 29 36 42 52 54 Capitolo 3. Una Applicazione nello studio delle strutture proteiche 3.1 3.2 3.3 Il percettrone multi-strato e la regola delta generalizzata La predizione delle strutture proteiche Implementazione e risultati Appendice A3 Confronto fra metodi alternativi nella predizione della struttura secondaria di proteine Bibliografia Capitolo 3 55 61 67 71 75 3 PRESENTAZIONE Negli ultimi cinque anni l'argomento 'reti neurali' è ridiventato di grande attualità dopo circa un ventennio in cui l'approccio numericostrutturale era stato largamente superato in popolarità, presso i cultori della Intelligenza Artificiale, da quello di tipo logico-simbolico. Esaminare i motivi di tale rinascita, pur se di grande interesse, non é nostra intenzione in questa sede* : preferiamo presentare una sintesi succinta dei principali lavori sull'argomento, o per lo meno di quelli che ci hanno maggiormente ispirato e guidato nel nostro lavoro, e farla immediatamente seguire dalla illustrazione di due applicazioni da noi sviluppate in settori estremamente diversi della biologia quantitativa: la simulazione di una corteccia somatosensoria e la predizione della struttura secondaria di una proteina. La scelta di tali argomenti non é stata, ovviamente, casuale: innanzi tutto, si voleva sottolineare la grande flessibilità di un insieme relativamente eterogeneo di algoritmi accomunati dall'obiettivo di simulare l'apprendimento del S.N.C. come proprietà emergente di insiemi numerosi di unità computazionali intrisecamente semplici e ad alta connettività. Secondariamente, oltre che di indiscutibile valore esplicativo e didattico, esse ci sono sembrate particolarmente adatte ad ispirare: a) ulteriori approfondimenti negli stessi settori; b) l'esplorazione, con le stesse tecniche, di problematiche nuove. Infine, ci premeva dimostrare l'assunto che non é necessario il possesso di super-specializzazioni o di super-computers per implementare in tempi ragionevoli reti neurali capaci di affrontare problemi reali. * Per un approfondimento, vedi la lucida introduzione di D. Parisi alla edizione italiana del fondamentale lavoro di Rumelhart e McLelland "PDP, microstruttura dei processi cognitivi", Il Mulino, 1992. 4 1. Gli algoritmi connessionisti e la simulazione dell’apprendimento 1.1 Considerazioni preliminari " Le Reti Neuronali Artificiali sono reti con interconnessioni ad alto grado di parallelismo composte da semplici elementi, generalmente adattivi. Le loro organizzazioni gerarchiche sono pensate per interagire con il mondo reale allo stesso modo di un sistema nervoso biologico. " [Kohonen, 1988] L'osservazione della enorme complessità di un sistema nervoso (nell'uomo si hanno circa 1011 neuroni e 1015 connessioni) affida alla variabilità e alla plasticità neuronale un ruolo fondamentale per il funzionamento del cervello: sono l'apprendimento ed il confronto continuo con il mondo gli agenti che, su una impalcatura genetica, costruiscono e trasformano continuamente una individualità epigenetica neuronale [Edelman,1989] [Rosenfield,1988]. Ciò si manifesta in variazioni sia strutturali (crescita di nuove fibre nervose e nuove ramificazioni dendritiche) che chimiche (variazioni di accoppiamento sinaptico) [Changeux,1983]. Solo queste ultime, per il momento, sono considerate nella progettazioni di reti neuronali artificiali. L'utilizzo di calcolatori digitali per la realizzazione di tali reti non significa che, per esse, vengano adottate le regole della logica digitale. Il singolo elemento di rete, il neurone formale (vedi appresso), svolge una operazione analogica di trasformazione, di filtraggio adattivo del segnale. La plasticità funzionale dell’insieme, partendo da oggetti elementari come il neurone, è raggiunta grazie al grande livello di interconnessione, alla distribuzione di processi di retroazione, alla non linearità della trasformazione e alla stessa variabilità adattiva dei suoi parametri. Sulla base, quindi, delle leggi di attivazione e modificazione neuronale, frutto della ricerca neurofisiologica, sono stati sviluppati dei modelli fisicomatematici la cui caratteristica principale è la capacità di simulare alcuni dei comportamenti più elementari delle reti neuronali biologiche nei problemi di apprendimento e riconoscimento. La struttura di questi modelli, differenziandosi dagli algoritmi tradizionali alla von Neumann a carattere concentrato e sequenziale, è, in analogia con la struttura cerebrale, altamente parallela : le singole unità di elaborazione, in analogia con le cellule neuronali, Gli algoritmi connessionisti e la simulazione dell'apprendimento 5 sono caratterizzate da una funzione di trasferimento sostanzialmente semplice e soprattutto non lineare, in cui sono presenti una soglia di attivazione ed un valore di saturazione. Infine, l'informazione che essi elaborano è immagazzinata nello stato dell'intero sistema: è distribuita. Una conseguenza indiretta delle precedenti assunzioni è la rottura del concetto di “osservatore interno”, legato spesso all'idea dell'esistenza di un ipotetico centro di controllo delle attività cerebrali. Tale idea è la stessa che ha portato alla tesi del calcolatore come modello del cervello: in esso, tradizionalmente, vi è una periferia ed un centro, l'unità centrale di elaborazione (la CPU) che governa tutte le operazioni. Il cervello non ha, invece, un centro, e i neuroscienziati ne hanno fornito indiscutibili prove [Kandel & Schwartz, 1985]. Quello che è alla base dello studio sulle reti neuronali artificiali e perciò la tesi del cervello come modello del calcolatore : mantenendo l'analogia con l'esempio biologico, le funzioni fondamentali del soma (o corpo cellulare), dell' assone e della ramificazione dendritica con le proprie sinapsi vengono riprodotte rispettivamente dall'unità di elaborazione, dal dispositivo di uscita e dai dispositivi di ingresso, utilizzando pesi di accoppiamento variabili per le varie unità, che costituiscono, di fatto, la parte adattiva del sistema. Primi lavori 1940-1960 -Logica Booleana -Apprendimento Sinaptico -Prime Simulazioni -Percettrone -Memorie Associative McCULLOCH & PITTS (1943) HEBB (1949) FARLEY & CLARK (1952) ROSENBLATT (1958) STEINBUCH, TAYLOR (1961) Transizione 1960-1980 -Algoritmo LMS -Modello del Cerebellum CMAC -Matrici di correlazione -Apprendimento Competitivo -Cognitron, Neocognitron -ART, BCS WIDROW & HOFF (1960) ALBUS (1971) KOHONEN (1972) VON DER MALSBURG (1973) FUKUSHIMA (1975) CARPENTER & GROSSBERG (1976) Rinascita 1980- -Modelli Connessionisti -RCE -Mappe Auto-Organizzanti -Teoria Memorie Associative -Boltzmann Machine -Back Propagation -Il volume PDP -Darwin III -ART 2 -Computer neuronali ottici -Chip neuronali VLSI -Reti neuronali e Caos FELDMAN & BALLARD (1982) REILLY, COOPER et al. (1982) KOHONEN (1984) HOPFIELD (1986) HINTON & SEJNOWSKI (1986) RUMELHART et al. (1986) RUMELHART & McCLELLAND (1986) EDELMAN, REEKE (1987) CARPENTER & GROSSBERG (1987) ABU-MOSTAFA & PSALTIS (1987) GRAF et al. (1988) FREEMAN et al. (1991) Tabella 1 - Le tappe fondamentali nella ricerca sulle Reti Neuronali artificiali Gli algoritmi connessionisti e la simulazione dell'apprendimento 6 Un utilizzo delle reti neuronali fra i più interessanti e accattivanti è quello nei problemi in cui si richiede una capacità di riconoscimento di oggetti a struttura complessa (in sostanza forme o, in un termine ormai internazionale, patterns , principalmente visivi ed acustici), raggiunta grazie alla adattività del sistema di memoria1. Le applicazioni si basano principalmente sulla simulazione di processi di apprendimento, che in base al loro carattere si possono suddividere in tre categorie fondamentali : Apprendimento supervisionato, dove è richiesta la presenza di un “istruttore” esterno che, preparata una serie di esempi, assegni ad ogni stimolo una configurazione di uscita ideale (target), cioè una rappresentazione interna imposta. L'errore di rappresentazione generato dalla eventuale discordanza viene utilizzato, grazie ad un meccanismo di retropropagazione, per la variazione finalizzata delle sinapsi che, dopo una fase di addestramento, raggiungono una condizione di equilibrio. Apprendimento non supervisionato, dove la rete neuronale forma spontaneamente delle rappresentazioni interne dell'insieme degli ingressi sotto forma di classificazione. Apprendimento auto-supervisionato, dove viene creato, sulla base di determinati parametri interni, un errore di rappresentazione che, retropropagato, determina le variazioni sinaptiche. Nei successivi paragrafi saranno impostati alcuni criteri di differenziazione, in base al sistema dinamico utilizzato, che potranno essere utili per la comparazione tra i diversi modelli e per l'individuazione delle scelte che li hanno prodotti. Saranno, quindi, brevemente discussi alcuni di essi in base al tipo di apprendimento. 1.2 Il neurone formale e la dinamica delle reti La modellizzazione della cellula neuronale proposta da McCulloch e Pitts [McCulloch & Pitts,1943] è alla base, con varianti più o meno significative, dell'equazione di attivazione di praticamente tutti i modelli neuronali tuttora in 1 E’ ben nota la complessità di tale obiettivo: ciò che viene compiuto spontaneamente e senza fatica anche dai più semplici esseri viventi, viene ancora oggi svolto con estrema difficoltà e in numeri limitati dai casi dai calcolatori più potenti. Gli algoritmi connessionisti e la simulazione dell'apprendimento 7 studio. Tale modellizzazione tratta il neurone come sistema binario a soglia, e cioè a due stati di uscita {+1,0}, ed è stata in parte ispirata dall' osservazione neurofisiologica per la quale i segnali tra due cellule nervose sembravano essere caratterizzati da un comportamento di tipo esclusivo : la trasmissione del neuroimpulso, il potenziale d'azione, è o completa o nulla. * NEUROIMPULSO EFFERENTE Sj = φ(xj ) ASSONE SOMA φ(xj )binaria xj φ(xj )sigmoide xj xj = ∑ Siw ij +θ j φ(xj ) lineare a soglia i SINAPSI xj w ij Si NEUROIMPULSO AFFERENTE Fig 1.1 - Neurone Formale Nella figura è rappresentato il “neurone formale”, così come viene utilizzato, generalmente, nei modelli neuronali. Esso è costituito, strutturalmente, dalle sinapsi w ij che collegano il neurone con gli altri neuroni della rete e che raccolgono ineuroimpulsi afferenti. Vi è poi ilcorpo cellulare, dove viene svolta l’operazione di somma pesata di tali segnali in ingresso. Essa, modulata da una funzionea soglia, costituirà la risposta del neurone, e verrà propagata, attraverso l’unico dispositivo di uscita, assone l’ , verso tutti gli altri neuroni ad esso connessi tramite altre sinapsi. Nella progettazione di una rete neuronale artificiale ha un'importanza primaria la scelta del sistema di equazioni dinamiche che ne regolano l'evoluzione. Nel caso più generale potremo scrivere dS/dt = f (x , S , W , M) dW/dt = g (x , S , W) dM/dt = h (S , W) (1.1a) (1.1b) (1.1c) * Tale supposizione è, forse, dovuta anche alla contemporaneità storica, nei primi anni '40, tra i primi studi sul calcolo neuronale e la realizzazione dei primi computers non completamente analogici. Gli algoritmi connessionisti e la simulazione dell'apprendimento 8 In esse, ed anche in seguito, il termine x è il vettore che rappresenta tutti gli ingressi della rete (gli stimoli), S è il vettore associato a tutte le attività neuronali di risposta, e W ed M sono due matrici associate ai termini adattivi di connettività. La prima equazione, legata alla risposta immediata del neurone, è detta equazione di rilassamento o equazione di attivazione : nei sistemi biologici ha costanti di tempo dell'ordine della decina di millisecondi, descrivendo fenomeni fisici quali la diffusione di ioni leggeri. Le altre due equazioni descrivono variazioni proteiche o di struttura anatomica, ed hanno costanti di tempo dell' ordine di qualche giorno (o anche più). Esse sono dette equazioni di adattamento o equazioni di apprendimento. L'ultima, in particolare, descrive le funzioni fondamentali di una memoria associativa [Bottini, 1980, 1984]. Il neurone formale (Figura 1.1) è descritto, in sostanza, dalla legge che determina l'attività del neurone in funzione dei segnali di ingresso: le varie vie afferenti al neurone j-esimo portano ciascuna un segnale continuo Si (che rappresenta l'attività sulla linea i-sima, eventualmente associata ad una frequenza) che viene moltiplicato per un peso wij di accoppiamento sinaptico tra il neurone j-simo e la via afferente i-sima. Per un principio di sovrapposizione l'attività Sj del neurone (il segnale di uscita, inviato sull'assone) sarà proporzionale alla somma pesata xj dei segnali afferenti, modulata da una funzione di trasferimento φ(x) non lineare che tiene conto degli effetti di soglia e di saturazione della risposta del neurone : nel caso particolare del neurone “binario” φ(x) sarà una funzione di Heaviside a gradino binario. La legge di McCulloch e Pitts prevede anche la possibilità di un termine di polarizzazione θ j del neurone che equivale all'opposto di una soglia per la funzione di uscita. In termini formali si ottiene come legge di attivazione Sj(t+1) = φ(xj(t+1)) = φ( ΣiwijSi(t)+θ j) (1.2a) φ(x) = {+1 se x>0 , 0 se x ≤ 0 } (1.2b) dove Una equazione di questo tipo, rappresentando la risposta immediata del neurone, è anche nota con il nome di equazione della memoria a breve termine, o equazione STM (Short Term Memory). Nella Figura 1.1 è illustrato Gli algoritmi connessionisti e la simulazione dell'apprendimento 9 l'equivalente formale del neurone secondo la schematizzazione di McCulloch e Pitts. In realtà, però, il neurone agisce più o meno come un integratore non lineare dissipativo dei segnali di ingresso, la cui funzione di trasferimento è descritta da almeno una ventina di variabili di stato. Nelle formalizzazioni, comunque, si utilizza una più semplice, ma pur sempre realistica, operazione di trasformazione. Una descrizione più verosimile della precedente considera l'attività di un neurone come se fosse rappresentabile da una variabile continua S non negativa descritta da una equazione dinamica del tipo : dS/dt = I - γ (S) (1.2c) della quale la (1.2) rappresenta una particolare soluzione stazionaria. Il termine I rappresenta l'effetto integrato di tutte le correnti di membrana, mentre il termine γ(S), di decadimento passivo, si oppone alla variazione di attivazione e tiene conto degli effetti di non linearità attinenti alle proprietà reali del neurone biologico, quali saturazione e fenomeni di perdita. Esso è, nel caso della (1.2), l' inverso della funzione di trasferimento φ prima descritta. Una espressione più completa dell' equazione STM di attivazione diventa, nella sua forma più generale nota come modello additivo [Grossberg,1988], dS j dt = - γ(S j ) + ( ∑ φ(S i )w (ij+) + θ j ) - ( ∑ φ(S i )w (ij- ) + θ j ) + I j i i (1.3) Il secondo ed il terzo termine rappresentano dei segnali di feedback, positivo e negativo, nei quali si tiene conto delle tracce di memoria contenute nelle sinapsi eccitatorie wij(+) e in quelle inibitorie wij(-) . Il quarto termine è il generico input, che arriva direttamente al neurone j-simo senza l'intermediazione di altri neuroni. L' equazione (1.3), in una variante nota come modello additivo “shunting” e sempre dovuta a S. Grossberg [Grossberg, 1988], [Carpenter, 1989], limita l'attività del neurone nel range (-B, A) Gli algoritmi connessionisti e la simulazione dell'apprendimento 10 dS j dt = − γ(S j ) + (A − S j ) ∑ (eccitazioni) − (B + Sj )∑ (inibizioni) (1.4) (*) Tornando alla equazione dinamica semplificata (1.2c), possiamo assumere, solo per quel che riguarda una rete neuronale artificiale, che la corrente di membrana sia appunto esprimibile come nell' equazione (1.2) I = Σi wij Si (1.2d) Se, ora, possiamo considerare stazionari, o perlomeno variabili lentamente, i segnali di ingresso, allora S raggiungerà l'equilibrio asintotico quando dS/dt=0, e quindi S = γ -1 (I) (1.2e) I fenomeni di saturazione si innescano per alte attività neuronali, quindi il termine di perdita γ(S) deve essere una funzione progressivamente crescente dell' attività S. Se, poi, quest'ultima è a valori mai negativi, allora la funzione di Heaviside è una possibile, seppur eccessivamente semplificata, funzione di attivazione S(I). Nei modelli ad apprendimento competitivo (vedi appresso) viene spesso utilizzata una interpretazione geometrico-vettoriale dell'equazione di attivazione (1.2) di McCulloch e Pitts: l'attività xj del neurone j-simo (modulata, in genere, da una funzione di trasferimento lineare, non negativa e senza saturazione) è vista come prodotto scalare del vettore di input S per il vettore dei pesi wj. Ciò permette di ricavare il valore di attivazione anche dalla distanza euclidea tra i punti rappresentativi dei rispettivi vettori : a prodotto scalare massimo corrisponderà distanza minima, e viceversa (per vettori normalizzati). Mentre, come già si è detto, tutti i modelli si differenziano assai poco nell'utilizzo di una particolare equazione STM di attivazione, più rilevante diventa la scelta di una specifica equazione di apprendimento. * Essa è significativamente simile a quella ricavata (e che fruttò loro il Premio Nobel) da Huxley ed Hodgkin [Hodgkin & Huxley,1952] che, nell'ambito di una modellizzazione del comportamento elettrico di una cellula nervosa, descrive la corrente totale I di membrana come funzione del tempo e della tensione V di depolarizzazione di membrana I = CM ( dV ) + (V- VK)g K + (V- VNa )g Na + (V- Vl)g l dt dove g K , g Na , g l e VK ,V Na ,V l rappresentano rispettivamente le conduttanze (funzioni del tempo e del potenziale di membrana) dei canali a corrente ionica di Potassio, di Sodio e a corrente di perdita (leakage current), e le cadute di tensione su ciascun canale, mentre CM rappresenta la capacità di membrana per unità di area. Gli algoritmi connessionisti e la simulazione dell'apprendimento 11 1.3 L’ apprendimento hebbiano Che l'apprendimento avesse alla sua base un qualche forma di trasformazione fisica nelle reti cellulari era già stato intuito da diversi neurofisiologi, ma l'identificazione della natura e delle cause di tali modificazioni avvenne soltanto grazie a un'intuizione di D. Hebb, alla fine degli anni '40. Egli, finalmente, propose un meccanismo plausibile in grado di fornire una base biologica ai processi della memoria: ipotizzò che fossero le sinapsi il luogo in cui avvengono i cambiamenti strutturali legati all' apprendimento*. La teoria di Hebb permise quindi di associare al neurone formale di McCulloch e Pitts una formalizzazione della plasticità sinaptica, che descriva le modificazioni nei termini di accoppiamento sinaptico. La sinapsi viene quindi trattata come un rivelatore di correlazione tra l'attività Si del neurone presinaptico e quella xj del neurone postsinaptico. Nella teoria proposta da Hebb l'aumento di efficacia di una sinapsi eccitatoria dipende dalla sincronicità di attivazione del neurone presinaptico e di quello postsinaptico. Gli esperimenti di deprivazione monoculare di Hubel e Wiesel indicarono, completando la teoria di Hebb, che la diminuzione di efficacia di una sinapsi eccitatoria dipende dalla simultanea mancanza di attivazione del neurone presinaptico e attivazione del neurone postsinaptico. Ulteriori ricerche, alcune basate su esperimenti di deprivazione binoculare [Singer,1986], mostrarono che in mancanza di attivazione del neurone postsinaptico non si ha una variazione della efficacia sinaptica. Ciò dà luogo a quattro possibili situazioni, mostrate dalla Figura 1.2. Inoltre, la legge di Hebb aggiunge al modello di McCulloch e Pitts un carattere adattivo, fondamentale per il verificarsi del processo di apprendimento. * “Quando un assone della cellula A è abbastanza vicino da eccitare la cellula B, e prende ripetutamente parte alla sua eccitazione, hanno luogo, in una o in entrambe le cellule, dei processi di crescita o dei mutamenti strutturali tali da aumentare l'efficienza di A, in quanto cellula scatenante l'attività di B” [Hebb,1949]. Le motivazioni che portarono Hebb a queste conclusioni furono esclusivamente teoriche, e probabilmente ebbero grande importanza le idee dei filosofi empiristi inglesi Hobbes e Locke sul pensiero come associazione di idee e sul principio di contiguità : due eventi mentali occorrenti simultaneamente provocheranno un reciproco legame di associazione, basato sulla contiguità temporale. Recentemente, inoltre, alcuni neurobiologi hanno ipotizzato che alcuni aspetti caratteristici del fenomeno noto come Potenziamento a Lungo Termine (LTP) potrebbero essere spiegati da un meccanismo del tipo di quello proposto da Hebb [Kelso et al.,1986] : si tratta di un processo di fondamentale importanza per la formazione dei ricordi. Esso consiste, in breve, in un aumento, di lunga durata, della forza di una sinapsi causato da una breve stimolazione ad alta frequenza ("tetanica") della fibra afferente, ed è stato scoperto nell' ippocampo, che è una struttura dell'encefalo simile alla corteccia (ma più antica filogeneticamente), implicata nei processi di memorizzazione e nell' apprendimento dell'orientamento spaziale. Gli algoritmi connessionisti e la simulazione dell'apprendimento 12 presinapticopostsinaptico B Neurone A Neurone B ∆w AB attivo inattivo attivo inattivo attivo attivo inattivo inattivo ∆wAB= >0 <0 =0 =0 variazione di efficacia sinaptica SINAPSIwAB A Figura 1.2 Regole “hebbiane” di modificazione della efficacia sinaptica La più semplice traduzione in termini formali dell'equazione di apprendimento (1.1b), in base alla legge di Hebb assume l'espressione dwij dt = α Si x j ≥ 0 (1.5) Si noti che, in analogia con quanto detto per la (1.2), è consuetudine riferirsi alle equazioni di apprendimento, e quindi di modifica dell'accoppiamento sinaptico, con il termine di equazioni LTM (Long Term Memory). E' ovvio che le dinamiche dei due processi, STM ed LTM, siano caratterizzate da costanti di tempo significativamente differenti. Un'altra equazione di apprendimento che deriva strettamente da quella hebbiana e che ha dato luogo, a sua volta, a numerose varianti è dovuta a Grossberg [Grossberg,1968]. Con essa viene introdotto, nella legge di Hebb, un termine di perdita o smemorizzazione dwij dt = α Si x j - w ij (1.6) Nel caso più diffuso, per esempio, di uno stadio di ingresso nel quale i vettori di pesi wiJ = (w1J ,,, wnJ) tendono a riprodurre il segnale afferente Si, otterremo, per un sistema real-time (vedi appresso) : Gli algoritmi connessionisti e la simulazione dell'apprendimento 13 dwij dt = α(t) Si - w ij (1.7) Nel caso, infine, del modello di Kohonen (vedi appresso), non abbiamo, almeno esplicitamente, la funzione di gate dell'uscita xj del neurone che esiste nella (1.7), e la dinamica assume la forma dwij dt = α Si x j - β(x j )wij α >0 (1.8) dove, mentre il primo termine è tipicamente hebbiano e comporta come effetto la sensibilizzazione del neurone ad un determinato pattern ed è la base del comportamento adattivo, il secondo svolge una funzione di smemorizzazione attiva, stabilzzando l'attività del neurone entro un range opportuno. Si dimostra infatti che i vettori dei pesi tenderanno a normalizzarsi, assumendo tutti, nell' apprendimento, la medesima lunghezza [Kohonen,1984]. L'utilizzo della (1.8) è però generalmemte limitato ad una sua forma semplificata, che verrà descritta in seguito. Uno dei primi modelli che adottò la regola di apprendimento hebbiana è noto con il nome di LEARNING MATRIX ed è dovuto a K. Steinbuch [Steinbuch, 1961]. Esso è il precursore dei modelli ad apprendimento competitivo capaci di organizzare e raggruppare i patterns di ingresso in categorie, imposte dall'addestratore. La struttura della LEARNING MATRIX è, per sommi capi, la seguente : i valori delle sinapsi wij sono gli elementi di una matrice che avrà un numero di colonne pari alla dimensione del vettore binario a di ingresso, e un numero di righe pari al numero di categorie che si vogliono creare e alle quali sarà associato un vettore binario di categorie b (tale vettore dovrà avere una ed una sola componente uguale ad 1, e cioè b=(0..010..0) ), seguendo così il paradigma di classificazione. L'apprendimento avviene presentando simultaneamente il vettore di ingresso a ed il vettore b , avendo scelto in b la categoria alla quale sarà assegnato a. Se descriviamo il segnale presinaptico come Si = (2a i -1)={+1,-1} e quello postsinaptico come xj = bj = {+1, 0} possiamo utilizzare, nella fase di apprendimento, esattamente la legge di Hebb (1.2) (con la differenza che le variazioni possono anche essere negative). Nella fase di riconoscimento, ad Gli algoritmi connessionisti e la simulazione dell'apprendimento 14 addestramento avvenuto e a dinamica arrestata, assegneremo il pattern presentato alla categoria J-sima se il vettore estratto dalla matrice wJ =(w 1J,,,,,wnJ) è, scelto un criterio di distanza, il più vicino al vettore a . Se, nella fase di riconoscimento, oltre ad arrestare la dinamica, ridefiniamo il segnale presinaptico come S i =ai , allora possiamo produrre una risposta della rete nel vettore b. Questo avrà la componente bJ = 1, e solo quella, se il prodotto scalare S x wJ = || S || || wJ || cos (S,wJ ) è il massimo per ogni riga. Tale componente identificherà la categoria alla quale è stato assegnato il pattern a : il sistema risponderà allo stimolo dichiarandone la classe di appartenenza. Un' altra area di ricerca che vide l'utilizzo delle leggi di variazione sinaptica di derivazione hebbiana è quella sulle Memorie Associative Lineari (Linear Associative Memory - LAM) [Nakano, 1972] [Kohonen, 1972]. L' idea che è alla base delle LAM è che, dato un insieme di patterns associati (a(p) ,b(p) ) , sia possibile memorizzarlo in una matrice di correlazione i cui elementi siano wij = Σp ai(p) bj(p) (1.9) Nella fase del riconoscimento, presentando un pattern a(p) , otterremo come risposta dalla rete un vettore x=a(p) Tw proporzionale e, quindi, lineare con il pattern associato b(p) . Se, infatti, nella xj = a(p) x wj sostituiamo la (1.9) otteniamo xj = Σq (a (p) x a (q) ) bj (q) (1.10) Anche in questo caso la legge di variazione dei coefficienti di correlazione è del tipo hebbiano (1.2), se consideriamo ai segnale presinaptico e bj segnale postsinaptico. E' sempre più evidente il senso dell'affermazione per cui, modificandosi secondo la legge di Hebb, la sinapsi tra due neuroni funga da rivelatore di correlazione di attività. Gli algoritmi connessionisti e la simulazione dell'apprendimento 15 1.4 L’apprendimento non-hebbiano L'equazione dinamica hebbiana non fu l'unica ad essere utilizzata nella ricerca sulle reti neuronali formali : specialmente nei primi modelli l'equazione LTM adottata è sensibilmente differente, anche se spesso conduce a risultati analoghi. Essa, nota come Delta Rule [Rosenblatt,1958], descrive una variazione del termine sinaptico proporzionale alla differenza Dj tra l'uscita Sj effettiva del neurone ed un valore di target bj imposto dall' “addestratore” Dj = (bj - Sj ) dw ij dt = αD jS i S2 (1.11a) (1.11b) o anche nella forma wij(t+1) = w ij(t) + ∆wij (1.11c) ∂(∑i Di2 ) (1.11d) ∆wij = −α ∂wij Le variazioni sinaptiche saranno quindi tanto minori quanto più i segnali di uscita Sj dei singoli neuroni riprodurranno i segnali di target b j . La necessità di un valore di target rende i modelli che utilizzano tale equazione di apprendimento ascrivibili alla classe dei modelli ad apprendimento supervisionato. Inoltre in essi si richiede la formazione di un termine di correzione che necessita del confronto con un valore di target : essa non può essere fatta nelle “immediate vicinanze” delle sinapsi. Questo termine di correzione deve essere retropropagato dallo strato di uscita agli strati inferiori, interrompendo così il flusso di informazione (con una verosimiglianza biologica assai debole). Ciò non succede, invece, in modelli che usano la dinamica (1.5) di Hebb, o una delle sue molte varianti : in essi non si deve utilizzare alcuna grandezza che non sia disponibile nella zona sinaptica. L'assenza di un valore di target, nei modelli di impostazione hebbiana, assegna allo stato del neurone e al segnale di ingresso la totalità delle variabili in gioco e la legge di variazione è peculiarmente locale. Gli algoritmi connessionisti e la simulazione dell'apprendimento 16 In uno dei primi modelli neuronali, il PERCEPTRON, ad opera di Rosenblatt [Rosenblatt,1958], venne adattata al neurone di McCulloch e Pitts una legge di apprendimento differente dalla legge di Hebb. Nel PERCEPTRON il termine di attivazione STM relativo all' uscita Sj del neurone j-simo è simile a quello di McCulloch e Pitts (1.2), con una funzione di attivazione φ a gradino di tipo binario Sj(t+1) = φ(xj(t+1)) = φ( ΣiwijSi(t)+θ j) (1.2a) φ(x) = {+1 se x>0 , 0 se x ≤ 0 } (1.2b) dove Per la determinazione del termine di apprendimento LTM l'uscita Sj del neurone viene confrontata con un valore di target bj imposto dall' “addestratore” e la differenza Dj viene retropropagata (vedi Figura 1.2), ed utilizzata per la variazione delle sinapsi con il neurone presinaptico per mezzo della Delta Rule Dj = (bj - Sj ) (1.11a) dw ij dt = αD jS i S2 (1.11b) Una limitazione del PERCEPTRON di Rosenblatt venne infatti evidenziata da Minsky e Papert [Minsky & Papert,1969] e consiste nel fatto che il PERCEPTRON, nella sua forma originaria a due soli strati, è in grado di classificare solo gruppi di patterns linearmente separabili : le superfici di demarcazione sono iperpiani. Il PERCEPTRON di Rosenblatt è stato, comunque, il capostipite di una lunga serie di modelli, detti anche a retroaccoppiamento , che da questo hanno derivato, oltre alla Delta Rule anche la caratteristica struttura del flusso di informazione che segue il paradigma di classificazione (vedi appresso). Un modello derivato dal PERCEPTRON è, per esempio, l'ADALINE, dovuto a Widrow e Hoff [Widrow & Hoff,1960] [Widrow et al., 1988]*. Nell' ADALINE, però, si abbandona l'approccio binario a vantaggio di quello lineare. Il segnale che viene confrontato con quello di target viene prelevato dall'uscita del neurone prima dell'intervento della funzione di trasferimento binaria φ : è * Esiste un’altra importante variante (vedi appresso) del PERCEPTRON, il MULTILAYER PERCEPTRON [Rumelhart et al., 1986]. Gli algoritmi connessionisti e la simulazione dell'apprendimento 17 quindi ancora un segnale analogico, e ciò permetterà di ottenere un indice di errore Dj molto più sensibile allo scostamento dell'uscita xj daltarget bj Dj = (bj - xj ) (1.11a bis) Tale valore verrà utilizzato per la variazione delle sinapsi wij, sempre per mezzo della Delta Rule (1.11), permettendo la minimizzazione dello scarto quadratico medio ΣiDi2 tra la configurazione di uscita della rete di neuroni e quella di target. Questo algoritmo è noto con il nome LMS (Least Mean Square). Sj =φ(xj ) supervisore target φ(xj ) (perceptron) bj φ (adaline) xj Sj = xj Dj= bj - jS d wi j xj = ∑ Siw ij + θ j calcolo dell' errore i wi j dt ∝Dj Si 1 2 m j Output Layer Input Layer 1 2 3 i n-1 n Figura 1.2 - PERCEPTRON / ADALINE LMS Gli algoritmi connessionisti e la simulazione dell'apprendimento 18 Nella Figura 1.2 sono rappresentati simultaneamente gli schemi del PERCEPTRON e dell'ADALINE: da come si vede la struttura è sostanzialmente simile, e si differenziano soltanto per il diverso utilizzo del segnale di uscita. 1.5 Modelli ad apprendimento competitivo Nei modelli ad apprendimento competitivo si deve verificare la condizione per la quale avremo una configurazione di uscita caratterizzata, spontaneamente, dalla presenza di un solo neurone attivo alla volta (o, perlomeno, uno molto più attivo di tutti gli altri, detto neurone vincente). Il neurone vincente codifica, classifica, comprime, raggruppa o ortogonalizza di volta in volta gli stimoli in ingresso. Ciò permetterà di ottenere una compressione di informazione : ad una stessa categoria saranno assegnati tutti gli stimoli che, fissata una metrica, saranno vicini, e cioè si assomiglieranno. Viene compiuta quella che si dice una quantizzazione vettoriale adattiva , e cioè la separazione dei patterns di ingresso in categorie mutuamente esclusive. I primi modelli di questo tipo furono studiati intorno agli anni '70 sulla base di lavori dovuti a Malsburg [Malsburg (von der), 1973], Fukushima [Fukushima,1975] e Grossberg [Grossberg,1976]. In seguito furono sviluppati da Amari [Amari & Takeuchi,1978], Cooper [Cooper et al.,1982] e, soprattutto, dal già citato Kohonen [Kohonen,1984]. Il modello a mappe auto-organizzanti di Kohonen (Self Organizing Maps, SOM) e la ART di Grossberg costituiscono degli esempi paradigmatici di reti neuronali il cui utilizzo, più che come memorie associative, è legato alla loro capacità di categorizzazione. Essi permettono di codificare adattivamente un universo di stimoli sotto forma di categorie; essendo, poi, nella maggior parte, ad apprendimento non-supervisionato non beneficiano del lavoro di un istruttore che assegni arbitrariamente la categoria alla quale lo specifico stimolo va assegnato. Per ottenere una rete che segua delle regole di tipo competitivo uno degli algoritmi più usati è quello noto come ON-CENTER / OFF-SURROUND : esso si riferisce al meccanismo di feedback per il quale ogni neurone invia a sè stesso e a quelli immediatamente vicini un segnale di tipo eccitatorio (ONCENTER), mentre ne invia uno di tipo inibitorio ai neuroni più lontani (OFFSURROUND). Tale segnale sarà una funzione f(xj ) dell' attività del neurone Gli algoritmi connessionisti e la simulazione dell'apprendimento 19 stesso: dalla forma di questa funzione dipenderà la maggiore o minore modulazione della risposta della rete alla presentazione di uno stimolo. Una delle proprietà più importanti dei modelli ad apprendimento competitivo, dimostrata matematicamente da Grossberg [Grossberg,1976], è quella di ottenere la distribuzione ottimale dei termini LTM wij per la rappresentazione dell' insieme degli stimoli in ingresso. Le equazioni di modello ad apprendimento competitivo, nella loro forma più semplice, sono le seguenti STM - Competitive : 1 se ∑ w ij x i ≥ Ma x {∑k w j k x k : k ≠j } ∑i w ij x i < Ma x {∑k w j k x k : k ≠j } i xj = 0 se (1.12) e, per la variazione delle sinapsi , LTM - ON_Center / OFF_Surround : dw ij dt = α x j (x i- w i j ) {s o l o pe r i l n eu r o ne v inc en t e } (1 .1 3 ) Rete ad apprendimento competitivo ONc/OFFs +φ (x j ) + - - - −φ (x j ) - Strati ad apprendimento competitivo CONNESSIONI ECCITATORIE Si CONNESSIONI ECCITATORIE xi Strato di input Strato di input elemento della classe rappresentante della classe Pattern di input Figura 1.3 Possibile architettura di reti ad apprendimento competitivo Gli algoritmi connessionisti e la simulazione dell'apprendimento 20 Finestra 1.1 - I sistemi ad apprendimento competitivo Un sistema ad apprendimento competitivo è caratterizzato, in generale, dalle seguenti proprietà : a) I neuroni dello strato nel quale avviene la competizione sono raggruppati in diversi aggregati cellulari. In ciascuno di tali aggregati esiste una rete connettiva (feedback laterale) che unisce la totalità dei neuroni di quell'aggregato. Le connessioni sono eccitatorie tra neuroni vicini e inibitorie tra neuroni distanti. Ogni aggregato ha un solo neurone attivo alla volta, il vincente. b) Tutti i neuroni dello strato competitivo ricevono lo stesso segnale dallo strato di input. c) La variazione sinaptica avviene soltanto sui neuroni attivi. d) Tale variazione fa in modo che il vettore wi relativo al neurone attivo tenda ad avvicinarsi, con velocità data dal fattore di guadagno α, al vettore di input x. I risultati che si ottengono sono caratterizzati dalle seguenti proprietà : a) Se l'insieme degli stimoli possiede una qualsiasi struttura, e quindi se esistono dei raggruppamenti, il sistema li individuerà. E' naturalmente importante che tali raggruppamenti siano riconoscibili dalle grandezze utilizzate per la descrizione dello stimolo. b) La particolare classificazione ottenuta sarà dipendente da una serie di condizioni iniziali : i valori di partenza delle sinapsi - generalmente casuali - e la particolare “storia” della presentazione degli stimoli. c) Se la variazione delle sinapsi è tale da rendere minima la potenza r-sima dell'errore E di ricostruzione E= ∫ r x - wc p(x) dx dove dx è il volume differenziale nello spazio degli degli ingressi, p(x) è la distibuzione di densità di probabilità degli ingressi e l'indice c=c(x) è relativo al neurone best match per l'ingresso x, allora si dimostra [Max,1960] che si ottiene una disposizione dei vettori di codifica w nello spazio dei segnali la cui funzione di densità puntuale è una approssimazione di [p(x)] n/(n+r), dove n è la dimensione degli spazi di x e w. Nel caso più frequente abbiamo r=2 e n>>r, ottenendo una approssimazione quasi ottima della p(x). d) Più l'insieme degli stimoli è strutturato e più la classificazione sarà stabile. Se invece tali stimoli non sono rappresentabili in gruppi allora il sistema , ad ogni presentazione di uno stimolo, continuerà a subire variazioni. Quest'ultimo punto ha richiesto che venisse risolto, in un modo o nell'altro, e spesso con soluzioni di compromesso, il dilemma della scelta tra stabilità-rigidità e instabilitàplasticità (vedi Appendice A1). Gli algoritmi connessionisti e la simulazione dell'apprendimento 21 1.6 Altre classificazioni dei modelli di apprendimento Modelli real-time e modelli lab-time. Il tipo di controllo sull'evoluzione della rete e sulle dinamiche di trasformazione (la legge di iterazione) da essa seguìte permette di individuare due tipi di modelli : quelli a flusso continuo e controllo interno e quelli a flusso selezionato e controllo esterno. Nei primi non c'è una differenza qualitativa, o meglio, algoritmica, tra la fase di apprendimento e quella di riconoscimento : la dinamica di variazione sinaptica ha sempre la stessa equazione, che non viene alterata da un controllore esterno nella fase di riconoscimento. Essa può essere modulata, semmai, da una funzione α (t) decrescente nel tempo. Inoltre, non esistono controlli esterni sul flusso di informazione: tutte le grandezze in gioco sono reperibili localmente, o sono, perlomeno, interne. Tali modelli sono anche detti real-time. Nei secondi, invece, è necessario un controllo esterno che, per esempio, interrompa, ad apprendimento concluso, la dinamica delle sinapsi , oppure, come succede nei modelli che adottano la Delta Rule, diriga il flusso di informazioni che riporta gli errori di rappresentazione dallo strato di uscita a quelli sottostanti (“back-propagation”) per la modificazione delle sinapsi: sono perciò detti lab-time . E' evidente la maggior potenza descrittiva del fenomeno biologico per i modelli real-time: il concetto di plasticità neuronale vede una sua traduzione in termini formali senz'altro più rispondente all'esempio biologico. La capacità di apprendere di un sistema di tale tipo è, in alcuni modelli (Adaptive Resonance Theory - ART) [Carpenter & Grossberg, 1987, 1988], addirittura regolata da meccanismi di vigilanza di tipo attentivo: qualora, ad apprendimento avviato, si presentasse uno stimolo mai visto, allora il suo contenuto di novità farebbe attivare una modificazione sinaptica più significativa*. Quattro paradigmi di apprendimento Un'altra utile classificazione [Rumelhart & Zipser,1986] dei modelli in base al tipo di apprendimento è basata sulla individuazione dei seguenti quattro paradigmi : * Se ne parlerà più diffusamente nell’ Appendice A1 Gli algoritmi connessionisti e la simulazione dell'apprendimento 22 Autoassociazione . In tali modelli l'addestramento della rete avviene presentando ripetutamente una serie di patterns , che saranno memorizzati dal sistema con un processo di autoassociazione. Ciò permetterà il recupero dei patterns originali, rievocati nella rete con la presentazione, nella fase di riconoscimento, di un pattern simile a quelli già visti o di un pattern originale, presentato in forma frammentaria. Eteroassociazione . Nella fase di apprendimento i patterns vengono presentati sempre a coppie. Il sistema apprende quindi ad associare i due patterns in modo tale che, alla presentazione dell'uno viene prodotto l'altro. E' quindi possibile associare due set arbitrari di patterns. E' palese che tali modelli siano una variante della classe precedente. Paradigma di classificazione . Una variante più specifica del precedente, e quindi anche del primo, permette di assegnare ai patterns di ingresso una categoria : il pattern, che rappresenta la categoria assegnata dall'addestratore, verrà associato, con un processo di eteroassociazione, al pattern in ingresso. Il risultato di tale processo, differente da quelli conseguiti con eteroassociazione ordinaria, è quello di ottenere una corretta classificazione degli stimoli in categorie. Rivelazione di regolarità . In quest'ultima classe, che si differenzia notevolmente dalle precedenti, è il sistema stesso che, rivelando le caratteristiche “più importanti” di una popolazione di stimoli, presentati ripetutamente, li raggruppa in categorie. Esse quindi non sono fissate a priori dall'addestratore ma vengono ricavate direttamente dall'esperienza sensoria. Gli algoritmi connessionisti e la simulazione dell'apprendimento 23 Appendice A1: Il problema della stabilità-plasticità Un sistema percettivo ideale dovrebbe essere in grado di adattarsi in modo autonomo alle possibili, impreviste variazioni dell'ambiente informativo nel quale esso sta evolvendo. Dovrebbe, inoltre, saper modulare la propria adattività in base alla maggiore o minore rilevanza degli stimoli che riceve, facendo in modo di preservare dalla distruzione le tracce di quanto già appreso senza però rinunciare alla plasticità. I modelli ad auto-organizzazione e ad apprendimento competitivo hanno dimostrato di avere caratteristiche di plasticità assai interessanti, ma un problema che nasce proprio a causa della natura competitiva di tali sistemi di apprendimento, e che non è esclusivo di essi, è quello della instabilità dei termini sinaptici. Succede infatti che la rete si sensibilzza sempre sugli ultimi stimoli ricevuti a discapito dei precedenti (una evidenza della necessità fisiologica del meccanismo di “rimozione” ?), spostando, di conseguenza, ogni volta i valori dei termini LTM wij. Ciò comporta, per l'appunto, una instabilità della memoria-rappresentazione : si possono avere delle risposte assai differenti per lo stesso stimolo se questo viene ripresentato dopo che ne sono stati visti altri . Le tecniche per ovviare a tale instabilità sono differenti e più o meno drastiche : una consiste nell'utilizzare per l'apprendimento solo delle classi stabili di stimoli, ma tale limitazione è accettabile solo in un numero limitato di problemi. Un' altra invece è basata su un guadagno plastico di apprendimento che diminuisce nel tempo, o addirittura si annulla. Ciò, però, impedisce che nuovi stimoli possano essere codificati ad apprendimento avviato : si perde la plasticità ed il sistema diviene rigido. Una terza tecnica compensa la instabilità utilizzando un rate rendere il sistema poco sensibile a di apprendimento talmente lento da fluttuazioni casuali e dipendente, nella memorizzazione dei patterns, dalla frequenza con la quale questi si presentano : viene ricordato meglio ciò che si vede più spesso, viene rimosso ciò che non si ripresenta più e che ha perso la sua importanza informativa e, quindi, vitale . Il sistema sviluppa meccanismi di tipo gerarchico, ma è necessariamente lento. Naturalmente queste tecniche possono essere combinate in differenti modi. Un trattamento della stabilità-plasticità più originale è quello adottato nella già citata ART (Adaptive Resonance Theory) di S. Grossberg. In ART, che funziona anch'essa con dinamiche di tipo competitivo, la fase di apprendimento è continuamente attiva e dipendente, come già si è detto, da un controllo di tipo attentivo : viene così salvata la plasticità della rete. Avranno degli effetti sulla modifica delle sinapsi solo quegli stimoli che risultano nuovi per la memoria. Tale controllo è ottenuto associando Gli algoritmi connessionisti e la simulazione dell'apprendimento 24 al flusso Bottom-Up di apprendimento competitivo (che traduce lo stimolo in rappresentazione interna), comune anche agli altri tipi di reti, un flusso di tipo Top-Down per il quale la rappresentazione interna, riconvertita , viene riportata allo stato di ingresso per simulare un “processo di aspettazione”. Se lo stimolo è noto la sua aspettazione lo riproduce. Ciò dovrebbe preservare dalla cancellazione gli stimoli già appresi, e permetterne, invece, la memorizzazione di nuovi. Un meccanismo basato sul confronto dell'informazione sensoriale con una sua immagine d'aspettazione è noto, nel linguaggio della Psicologia della Gestalt, come “inferenza inconscia” [Rock & Palmer,1991]. Anche dagli studi di Helmholtz sulla percezione visiva [Helmholtz, 1866] e musicale [Helmholtz,1885] traspare la necessità di un fenomeno di risonanza nel processo percettivo : noi percepiamo, in parte, ciò che ci aspettiamo di percepire e che ci deriva dall'esperienza. cooperazione competizione (Aspettazione) Apprendimento Bottom-Down Apprendimento Bottom-Up cooperazione competizione Inputs Sono noti gli studi sulla percezione visiva compiuti da Kanizsa [Kanizsa,1976] dai quali risulta che certe combinazioni di figure incomplete danno luogo a contorni chiaramente visibili anche quando questi ultimi non esistono fisicamente : tali contorni sono quindi una creazione della nostra percezione, che inferisce l'esistenza di contorni virtuali, e cioè non presenti nella modalità sensoriale visiva. Gli algoritmi connessionisti e la simulazione dell'apprendimento 25 Formazione di contorni e superfici anomale [Kanizsa,1976] La ragione di ciò non è del tutto chiara, anche se palesa una tendenza del sistema percettivo al completamento amodale di immagini incomplete. Ma chiedersi cosa significhi, dal punto di vista percettivo, completo e quale configurazione visiva possa definirsi incompleta è ben altro problema. Potrebbe essere il risultato stesso del meccanismo di categorizzazione, ma è solo un'ipotesi, e questa inclinazione spontanea alla estrazione di regolarità e al dare forma all'informe ricorda, forse, il modo di Cezanne di rappresentare la natura, “come fosse composta da coni, cilindri e sfere”. Un aspetto del concetto di organizzazione secondo la Gestalt è legato al principio della pregnanza, il quale stabilisce che, in presenza di stimoli ambigui, la percezione sarà tanto semplice, regolare e simmetrica quanto lo permetteranno le informazioni raccolte dalla retina. Il concetto di regolarità e, analogamente, di completezza sono stati associati alla quantità di informazione contenuta nella percezione : le percezioni "buone" e regolari contengono poca informazione, quelle "cattive" ne contengono molta. Torna così di nuovo in gioco il meccanismo della categorizzazione come eliminazione della ridondanza. Quello che si verifica, quindi, in ART è un fenomeno di risonanza adattiva nelle oscillazioni Bottom-Up e Top-Down che, instaurando un meccanismo di rivelazione di coerenza dello stimolo con le categorie preformate, darà luogo all' apprendimento. Nella ricerca sulle reti neuronali lo studio sulle memorie associative ha sempre avuto un ruolo di primaria importanza. Le affinità tra i due campi sono molte, e c'è chi ritiene che ogni rete neuronale sia, in sostanza, una memoria associativa. Non è sempre vero, però, il viceversa. Gli algoritmi connessionisti e la simulazione dell'apprendimento 26 Bibliografia del Capitolo 1 Amari, S. & Takeuchi, A. (1978). Mathematical theory on formation of category detecting in nerve cells. Biological Cybernetics , 29, 127-136 Bottini, S. (1980) . An algebraic model of an associative noise-like coding memory. Biological Cybernetics , 36, 221-228 Bottini, S. (1984) . Un modello di memoria associativa. Le Scienze - Quaderni , 19, 4146 Carpenter , G. & Grossberg, S. (1987). ART 2 : Self -organization of stable category recognition codes for analog input patterns. Applied Optics, 26 , 4919-4930 Carpenter , G. & Grossberg, S. (1988). The ART of adaptive pattern recognition by a self -organizing neural network. Computer , Marzo 1988, 77-88 Carpenter, G. (1989). Neural network models for pattern recognition and associative memory. Neural Networks , 2 , 243-257 Changeux, J.P. (1983). L' homme neuronal. Paris : Librairie Artheme Fayard (trad. it. L'uomo neuronale. Milano : Feltrinelli, 1990) Cooper, L. et al. (1982). A theory for the developement of neuron selectivity : orientation specificity and binocular interaction in the visual cortex. Journal of Neuroscience , 2 , 32-48 Edelman, G. (1989). The remembered present : a biological theory of consciousness. New York: Basic Books (trad. it. Il presente ricordato, Milano : Rizzoli, 1991) Fukushima, K. (1975). Cognitron : A self-organizing multilayered neural network. Biological Cybernetics , 20, 121-136 Grossberg, S. (1968). Some nonlinear networks capable of learning a spatial pattern of arbitrary complexity. Proceedings of the National Accademy of Sciences USA, 59, 368-372 Grossberg, S. (1976). Adaptive pattern classification and universal recoding, I part : Parallel development and coding of neural feature detectors. Biological Cybernetics , 23, 121-134 Grossberg, S. (1988). Nonlinear neural networks : Principles, mechanisms, and architectures. Neural Networks , 1 , 17-61 Hebb, D.O. (1949). The organization of behavior. New York : Wiley (trad. it. L'organizzazione del comportamento, Milano: Ed. F. Angeli, 1975) Helmholtz, H. von (1885). On the Sensations of Tone as physiological basis for the theory of music. London : Longmans,Green, and Co. Helmholtz, H. von (1866). Treatise on physiological optics. New York : Dover, 1962. Hodgkin, A.L. & Huxley, A.F. (1952). A quantitative description of membrane current and its application to conduction and excitation in nerve. Journal of Physiology, 117, 500-544 Kandel, E.R. & Schwartz, J.H. (1985) . Principles of neural sciences, Elsevier Science Publishing Co., Inc., New York (trad. ital. Principi di neuroscienze, Casa Editrice Ambrosiana, 1988 Milano) Kanizsa, G. (1976) . Contorni soggettivi. Le Scienze , 96 , 30-36 Kelso, S. et al. (1986). Hebbian synapses in hippocampus. Proc. Natl. Acad. Sci. USA , 83 , 5326-5330 Kohonen, T. (1972) . Correlation Matrix Memories. IEEE Transactions on Computers , C-21, 353-359 Kohonen, T. (1984). Self -organization and associative memory. Berlin : Springer-Verlag Kohonen, T. (1988). An introduction to neural computing. Neural Networks, 1 , 3-16 Malsburg (von der), C. (1973). Self -organization of orientation sensitive cells in the striate cortex. Kybernetik , 14, 85-100 Max, J. (1960). Quantizing for minimum distortion. IRE Trans. Inform. Theory, IT-6, 2, 712 McCulloch, W.S. & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bullettin of Mathematical Biophysics , 9 , 127-147 Minsky, M. & Papert, S. (1969). Perceptron. Cambridge , MA : MIT Press Nakano, N. (1972). Associatron : A model of associative memory. IEEE Transactions on Systems,Man, and Cybernetics , SMC-2, 381-388 Rock, I. & Palmer, S. (1991). L'eredità della psicologia della Gestalt. Le Scienze, 270 , 60-66 Gli algoritmi connessionisti e la simulazione dell'apprendimento 27 Rosenblatt, F. (1958). The perceptron : A probabilistic model for information storage and organization in the brain. Psychological Review , 65 , 386-408 Rosenfield, I. (1988). The invention of memory. New York: Basic Books (trad. it. L'invenzione della memoria, Milano : Rizzoli,1989) Rumelhart, D. et al. (1986). Learning representations by back-propagating errors. Nature, 323, 833-836 Rumelhart, D. & Zipser,D. (1986). Feature discovery by competitive learning. pubblicato in Parallel Distributed Processing : Explorations in the microstructure of cognition, I , 152-193 Singer, W. (1986). Sviluppo cerebrale e ambiente. Le Scienze - Quaderni, 31, 58-70 Steinbuch, K. (1961). Die Lernmatrix. Kybernetik , 1, 36-45 Widrow, B. & Hoff, M.E. (1960). Adaptive switching circuits.1960 IRE WESCON Convention Record , Part 4 , 96-104 Widrow, B. et al. (1988). Layered neural nets for pattern recognition. IEEE Transactions on acoustics,speech, and signal processing, ASSP- 36,7,1109-1118 Gli algoritmi connessionisti e la simulazione dell'apprendimento 28 2. Una applicazione di interesse fisiologico 2.1 Le mappe autoorganizzanti (SOM) di Kohonen a conservazione di topologia Una codifica appropriata del segnale sensorio, in base alle sue caratteristiche più rilevanti, è certamente un presupposto fondamentale nei problemi di riconoscimento delle forme e di elaborazione dei segnali. Si ha spesso la necessità di rappresentare tali segnali, descritti all’origine in uno spazio parametrico multidimensionale, in uno spazio di dimensionalità inferiore, mantenendone però invariate le relazioni di correlazione. Si richiede, in pratica, una operazione di riduzione di dimensionalità che conservi al meglio, nello spazio immagine, la topologia dello spazio di partenza. Qualcosa di simile avviene nella corteccia cerebrale, dove l'organizzazione dei neuroni è, con buona approssimazione, bidimensionale e gli oggetti rappresentati sono descritti da ben più di due variabili. Sono stati sviluppati diversi algoritmi in grado di riprodurre* tale comportamento peculiare della corteccia. Uno in particolare ha permesso di ottenere risultati interessanti, pur avendo una struttura particolarmente semplice e, forse per questo, assai elegante. Esso è dovuto a Teuvo Kohonen (Helsinki University of Technology, Laboratory of Computer and Information Science) ed è noto con il nome di Self Organizing Maps, o SOM ; esso nasce, nel 1981, inserendosi in una linea di ricerca sui modelli ad apprendimento competitivo avviatasi con i lavori di Malsburg [Malsburg,1973], di Amari e Takeuchi [Amari & Takeuchi,1978] [Takeuchi & Amari , 1979]. Prima di tutto in esso si adotta uno schema ad apprendimento non supervisionato, che lo rende indipendente dalle istruzioni di un eventuale addestratore con un set di esempi preparati. Solo quando la rete di neuroni è già stata addestrata, qualora sia richiesta una definizione più netta delle categorie formate, si ricorre, in genere, ad un algoritmo di tipo supervisionato (Learning Vector Quantization, LVQ). Un'altra caratteristica peculiare, forse la più rilevante, è nella concezione della rete interconnettiva tra i neuroni intrastrato, cioè nella definizione della funzione che descrive il tipo di interazione tra i vari neuroni della rete: l'efficienza di interconnessione è completamente indipendente dalla posizione assoluta (le coordinate i,j) dei neuroni, mentre dipende fortemente dalla distanza * Si noti che non sempre, anzi piuttosto raramente, la riproduzione di alcuni aspetti delle funzioni corticali elementari è ottenuta con metodi che simulano anche la struttura stessa della corteccia. Una applicazione di interesse fisiologico 29 Finestra 2.1 - L' ispirazione neurofisiologica delle SOM La capacità del cervello di rappresentare economicamente il mondo esterno per mezzo di processi di eliminazione della ridondanza informativa e di astrazioni successive è forse alla base del suo buon funzionamento. E' inoltre documentata sperimentalmente l'organizzazione topografica di alcune aree sensoriali primarie, dedotta dallo studio di alcune patologie funzionali caratteristiche provocate da danni localizzati in zone precise della corteccia. La ricerca neurofisiologica, poi, sfruttando tecniche di visualizzazione sempre più raffinate e non invasive (Tomografia ad Emissione di Positroni, MagnetoEncefaloGrafia , ecc.), fornisce esempi sempre più chiari del verificarsi della formazione di mappe topografiche, specialmente negli animali superiori [Knudsen et al.,1987] : nella corteccia visiva (area V4) si formano raggruppamenti cellulari a mappe e strie (microstrutture colonnari di non più di 5 mm di diametro) che rispondono a particolari colori, organizzati per frequenza e saturazione [Zeki,1980], a particolari orientamenti (nell' area V1) [Ts'o et al., 1990], o a patterns più complessi, come ad esempio volti umani, [Damasio et al.,1982], [Rolls,1984]; nella corteccia uditiva è stata osservata una precisa organizzazione tonotopica, quasi logaritmica con la frequenza, dei campi recettivi [Oldfield,1988], o una rappresentazione ordinata dei ritardi nell'eco e degli spostamenti Doppler nella corteccia uditiva del pipistrello [Suga & O'Neill,1979]; nell'ippocampo è stata osservata una forma di rappresentazione dello spazio ambientale più o meno come una carta geografica [Olton,1977], anche se in studi più recenti [Eichenbaum & Cohen,1988] è stata rilevata, sempre nell'ippocampo, una corrispondenza non biunivoca tra l'informazione spaziale e la sua rappresentazione interna, in virtù di una multimodalità di codifica dei neuroni ippocampali; nella corteccia somato-sensoria esiste una rappresentazione recettoriale dell'intero corpo organizzata spazialmente [Kaas,1979], ed è inoltre stata osservata una capacità riorganizzativa in seguito a lesioni che rende, quindi, la struttura topografica di tali mappe somato-sensorie una conquista della plasticità, e non una semplice eredità genetica [Merzenich et al., 1983]. Questa organizzazione topografico-localizzata è riscontrabile solo nelle mappe sensoriali primarie, anche se esistono studi che dimostrerebbero l'organizzazione di alcune regioni dei centri del linguaggio in base al contenuto semantico delle parole [Petersen et al., 1988] ed altri che evidenzierebbero la rappresentazione spaziale di grafemi e relazioni ortografiche [Caramazza & Hillis, 1990]. Gli strati della corteccia che svolgono funzioni associative più elevate, come, per esempio, la corteccia entorinale (dove vengono svolte le funzioni di associazione tra i vari segnali sensori), non mostrano, infatti, una organizzazione spaziale evidente. Una applicazione di interesse fisiologico 30 tra di essi sulla corteccia simulata, e la distribuzione dei “feedback” laterali all'interno della corteccia dovrebbe, in prima approssimazione, essere la stessa intorno ad ogni neurone. Questa modifica permette di ottenere una rete ordinata spazialmente, che, nella costruzione di una rappresentazione degli stimoli, conservi, sulla corteccia, la topologia dello spazio nel quale tali stimoli sono descritti : stimoli simili attivano zone della corteccia adiacenti. Infine, nelle equazioni differenziali non lineari di attivazione e di apprendimento sono contenute delle semplici, ma importanti, modifiche che contribuiscono a stabilizzare il processo di apprendimento. 2.2 La dinamica spazio-temporale delle S.O.M. L'interazione laterale e le connessioni tempo-invarianti I primi modelli ad apprendimento competitivo, che adottavano un algoritmo di interazione laterale del tipo ON-CENTER/OFF-SURROUND espresso dalle (1.12) e (1.13)*, mostravano già una capacità auto-organizzativa. Nell'equazione di apprendimento il termine di guadagno plastico α può avere un andamento temporalmente decrescente e sempre limitato da 0<α(t)<1. La scelta del “neurone vincente” può essere fatta in base a criteri di similitudine, che generalmente si riducono alla misura di una distanza d(x,wi) : il vincente è il neurone per il quale d(x,wc ) = min i{d(x,wi)} In un modello come quello appena descritto si verifica il fatto, però, che tutte le cellule agiscono indipendentemente, non essendoci una vera e propria interazione spaziale tra i neuroni. L'ordine con il quale essi sono assegnati a dominii differenti dello spazio dei segnali di ingresso è più o meno casuale, e fortemente dipendente dai valori iniziali wi(0) delle sinapsi. Il fenomeno di ordinamento osservato è locale. * STM - Competitive : x j = 1 se ∑ w ij xi ≥ Max∑ w jkx k :k ≠ j k i ; x j = 0 se ∑ w ij x i < Max∑ w jk xk :k ≠ j k i e, per la variazione delle sinapsi, LTM - ON_Center / OFF_Surround : dw ij dt = α x j (x i − w ij ) (solo per il neurone vincente ) Una applicazione di interesse fisiologico 31 L'introduzione di un più forte carattere auto-organizzante, massimizzato nella prima fase dell'addestramento in modo da indirizzare la rete ad un ordinamento prima della formazione di una qualsiasi mappa stabile, venne adottato nelle prime versioni delle SOM di Kohonen (1981). L'ordinamento finale della mappa perde così il carattere locale per assumerne uno globale, a lungo raggio* . Nel modello di Kohonen, infatti, l'utilizzo di una particolare funzione di feedback laterale, coinvolgente i neuroni di tutta la corteccia, permette un ordinamento coerente a largo raggio : questa funzione di interazione (Figura 2.1), nota con il nome di “Mexican Hat”, si ritrova nello studio di molti sistemi sensorii biologici come, per esempio, quelli attinenti alla percezione visiva. La sua funzione è fondamentale nei processi di esaltazione di contrasto. Una sua applicazione caratteristica è, come filtro numerico, nelle tecniche di trattamento delle immagini [Smith et al.,1988]. E' nota una versione analitica dell’interazione laterale, dovuta a D.Marr (famoso per le sue ricerche sulla visione umana) e E.Hildreth [Marr & Hildreth,1980], nella quale si ottiene il kernel del filtro dal Laplaciano di un filtro Gaussiano. L'assunto principale di tale scelta è che il contorno di una immagine G(x,y) dovrebbe essere associato a zone con massimo gradiente in intensità. Se i punti di massima e minima pendenza si trovano in corrispondenza dei punti di flesso, dove si annulla la derivata seconda della funzione, essi potranno essere in corrispondenza dei punti di annullamento del Laplaciano Λ della funzione G(x,y) G′′(x,y) = ΛG(x,y) = ∂2 G ∂2 G + =0 ∂x2 ∂y2 (2.1) Nel caso, appunto, del Laplaciano di una Gaussiana Marr e Hildreth ottennero una funzione di interazione laterale del tipo 1-(x 2 + y2 ) F(x,y) = exp 2s2 (x 2 + y 2 ) − 2s2 (2.2) * La maggior parte delle reti neuronali biologiche ha una organizzazione di tipo bidimensionale, in “fogli”. In ciascuno di essi esiste una rete interconnettiva laterale che collega densamente le singole cellule - si stima che ogni neurone sia collegato sinapticamente con altri 103÷104 neuroni dello stesso strato e che altrettante siano le connessioni interstrato. Si è già vista l'importanza dell'informazione spaziale nei modelli ad apprendimento competitivo : essa, però, rimane latente, e, forse, inefficiente, in algoritmi semplificati come quello ON-CENTER / OFF-SURROUND. Una applicazione di interesse fisiologico 32 Essi sostennero, inoltre, che tali filtri dovevano estendersi in modo tale da ricoprire l'intero “range” di gradazioni e frequenze spaziali dell'immagine da filtrare, come avviene nel sistema visivo. 1 F(x,y) 1 0,8 feedback laterale 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 -0,2 -0,2 Y spazio neurale X Nella figura è riportato il grafico del nucleo del filtro di convoluzione utilizzato da Marr e Hildreth per risolvere i problemi di esaltazione del contrasto ed estrazione dei bordi nella visione artificiale (eq. 2.2). La stessa relazione è stata proposta da altri ricercatori nel campo delle neuroscienze come funzione di interazione laterale (con inibizione laterale) per spiegare il meccanismo dell'autoorganizzazione con conservazione di topologia che si osserva in molte strutture corticali. Secondo questa ipotesi due neuroni vicini sulla corteccia (che ha una struttura in prima approssimazione bidimensionale) sarebbero accoppiati sinapticamente in modo eccitatorio, mentre due neeuroni più lontani subirebbero una interazione di tipo inibitorio. L'intensità (in valore assoluto) dell'interazione diminuisce con la distanza. Tipi di interazione laterale di questa natura sono stati osservati sperimentalmente. Figura 2.1 - Mexican Hat Nelle SOM i termini di accoppiamento di interazione laterale non sono adattivi, dipendendo dalla sola distanza, ma sono, per semplicità, costanti nel tempo. Le sinapsi adattive wij , invece, sono quelle che accoppiano ogni neurone della “corteccia” con gli assoni afferenti che portano il segnale sensorio: si assume che tutti i neuroni appartenenti a questa corteccia ricevano simultaneamente tale segnale, e che, cosa importante, tale segnale sia a valori continui. Ogni neurone avrà quindi un numero di sinapsi adattive pari alla dimensione del vettore che descrive lo stimolo sensorio. Una rappresentazione unidimensionale è riportata nella Figura 2.2 : Una applicazione di interesse fisiologico 33 Segnali X di input Sinapsi adattive ij w di input Sinapsi di feedback laterale Segnali Y di output Figura 2.2 La funzione di attivazione Sij(t) del neurone i,j-simo terrà conto perciò sia degli ingressi relativi al segnale sensorio, mediati dalle sinapsi adattive, che di quelli dovuti alle attività degli altri neuroni del suo stesso strato, mediati questi ultimi dalla funzione F(x,y) di feedback laterale n =+ k m =+K Sij (t) = φ ηij (t) + ∑ ∑ F(n,m)Si + n,j + m(t − 1) n =− k m =−K (2.3) dove il primo termine ηij (t) rappresenta l'eccitazione sensoria di ingresso, mentre il secondo tiene conto degli effetti di feedback : le sommatorie sono da intendersi estese a tutta la rete. La funzione di attivazione φ è generalmente una sigmoide, ed è importante dire che lo stesso Kohonen non pone particolari vincoli nella scelta della funzione F(x,y) di feedback laterale. E’ sufficiente che essa risponda a caratteristiche abbastanza generali, affinchè si ottenga il risultato sperato : una parte centrale eccitatoria ed una periferica inibitoria. Tale risultato, raggiunto con il ricalcolo ciclico delle attività Sij (t) dei neuroni per mezzo della (2.3) per gli intervalli successivi alla formazione dell' eccitazione di ingresso ηij (t) (che, per ora, si considera limitata al tempo t=0), è appunto una progressiva organizzazione di tali attività Sij (t) in “bolle”, e cioè in raggruppamenti di neuroni attivi intorno al più attivo di tutti (per quel determinato stimolo xi(t) ). Una applicazione di interesse fisiologico 34 t=500 t=300 t=200 t=90 "Bolla" di attività su un array bidimensionale di neuroni Formazione di una "bolla" di attività su un array monodimensionale di neuroni Nelle simulazioni riprodotte in figura è stata utilizzata una rete di neuroni, non ancora “organizzati”, ad attività iniziale casuale; si è quindi applicata ripetutamente la (2.3) per il ricalcolo ciclico delle attività - senza presentare alcuno stimolo -, e sono stati ottenuti i “clusters” mostrati. Quindi, tale fenomeno di “clusterizzazione” avviene anche se gli stimoli sono “noise like”, e cioè quelli relativi unicamente all'interazione laterale, senza l’intervento di uno stimolo strutturato. Nota: Una analogia interessante, anche se azzardata, è quella con gli esperimenti fatti sulla formazione di mappe e strie nella corteccia visiva : si è osservata, infatti, la formazione di strutture ordinate - in particolare, striate - nella disposizione delle cellule corticali rispondenti a stimoli visivi per l'occhio destro e per l'occhio sinistro [Constantine-Paton & Law, 1983]. Un fenomeno interessante si verifica quando viene indotta una deprivazione monoculare : un occhio riceverà segnale “noise like” mentre l'altro riceverà stimoli visivi ordinari e correlati. In questo caso non si osserva più, sulla corteccia, la formazione di strie, a causa di meccanismi di tipo competitivo. Se, invece, la deprivazione è binoculare allora torna a formarsi la struttura striata, con due sorgenti “noise like“. Figura 2.3 La dimensione di tali bolle è in qualche modo legata al rapporto E/I tra la parte eccitatoria e quella inibitoria della F(x,y), e, più precisamente, le bolle avranno il raggio tanto minore quanto maggiore sarà il contributo inibitorio. Il verificarsi del meccanismo di “clusterizzazione” è dipendente dalla scelta di alcuni parametri, quali appunto il rapporto E/I, la larghezza della F(x,y) e la sua forma : essi sono pertanto da determinarsi empiricamente. Un’osservazione importante è che si può ottenere una prima organizzazione delle attività neuronali semplicemente utilizzando la sola equazione di attivazione, riapplicata ciclicamente: non si è ancora parlato, infatti, di una particolare equazione di apprendimento per le sinapsi adattive. Il requisito fondamentale di tale equazione deve essere quello di portare i vettori w sinaptici N-dimensionali a riprodurre, ordinatamente e in modo Una applicazione di interesse fisiologico 35 ottimale, l'insieme dei vettori di stimolo. La distanza d(x,wi) deve decrescere monotonamente, e la variazione δwi deve essere tale da verificare [ gradwi d(x,wi) ]T • δwi < 0 (2.4) Inoltre, nel processo di apprendimento, la fase della variazione delle sinapsi dovrebbe avere una costante di tempo sensibilmente maggiore di quella della elaborazione delle attività neuronali : come si è detto, nei circuiti biologici il verificarsi dell'attivazione ha tempi caratteristici dell'ordine della decina di millisecondi, mentre le variazioni proteiche e strutturali, nell'apprendimento, hanno tipicamente tempi dell'ordine di qualche settimana. Ciò si traduce, per la legge di iterazione del modello, nella necessità di due fasi : la prima, di convoluzione spaziale delle attività neuronali, con la quale - per mezzo della (2.3) - si produce una prima organizzazione nella rete. Dopo aver atteso la convergenza della prima fase si avvia la seconda, più lenta, nella quale, per mezzo di una equazione di apprendimento, si modificano i valori delle sinapsi adattive. Nel prossimo paragrafo sarà descritta l'equazione di apprendimento usata, tenendo presente che è solo una delle possibili. Le connessioni tempo-varianti L'equazione di apprendimento LTM utilizzata da Kohonen nelle SOM [Kohonen,1984] appartiene alla classe generica del tipo dw/dt ≡ w' = Φ(x;w;S)x - Θ(x;w;S)w (2.5) x = stimolo = (x 1 ,,, xn )T S = risposta = wTx w = sinapsi = (w 1 ,,, wn )T dove Φ e Θ sono funzioni scalari, eventualmente non lineari, dello stimolo x, della risposta S e dello stato stesso della sinapsi w. Sostanzialmente le variazioni sinaptiche avverranno soltanto nella direzione di x, w o una loro combinazione lineare. La (2.5), per una scelta opportuna della funzione Φ ed eliminando il termine di smemorizzazione Θ(•)w, riproduce la forma generale della legge di Hebb vista precedentemente. Partendo, poi, dal fatto che abbiamo definito l'attività neuronale S dipendente dal prodotto wTx, si possono considerare le funzioni Φ e Θ proprio come Φ =Φ(S) e Θ=Θ(S), e si può Una applicazione di interesse fisiologico 36 ritenere che le variazioni sinaptiche siano proporzionali a tali funzioni dell'attività. Il requisito principale per una legge che descrive un sistema fisico è che ne garantisca la stabilità, e cioè che per x(t) limitati rimanga finita la soluzione w(t), per ogni t. Si deve, inoltre, considerare non significativa la situazione per la quale w(t) → 0 per t→∞. Esistono diverse possibili soluzioni del tipo (2.4) [Kohonen,1984 (cap.4)]. In questa sede ci si limiterà ad una discussione, per sommi capi, della particolare soluzione adottata nel modello studiato : dw/dt ≡ w' = α S x - β S w = = α xxTw - βww Tx (2.6) α, β> 0 ( n.b. : il prodotto wwT è una matrice n x n ) Se chiamiamo X il valore aspettato di x condizionato da w, e cioè E{ x|w}= X e Cxx l'elemento della matrice di correlazione di x, ottenuto da E { xxT | w } = C xx allora otteniamo una espressione della (2.5) come equazione differenziale di Bernoulli di secondo grado <w'> = α Cxxw - β(XTw)w (2.7) Come si vede, una possibile soluzione stazionaria di <w'>=0 è quella che si ottiene per w* = 0. Si dimostra anche che un qualsiasi autovettore della matrice di correlazione Cxx rappresenta un punto fisso del sistema : se ci è un autovettore con autovalore λ i, allora l'eventuale soluzione sarà w*= kci, con k costante scalare. Infatti Cxx ci = λ ici 0 = k α λ ici - k2β(XTw)ci αλ i k= β(X T w) e quindi w* = c i αλ i β(XTw) (2.8) Si dimostra pure [Kohonen,1984 (cap. 4)], però, che non tutti i punti fissi rappresentano soluzioni stabili ; comunque, la “traiettoria” w(t) sarà rallentata Una applicazione di interesse fisiologico 37 in corrispondenza di un punto fisso e, se il prodotto scalare tra l'autovettore cmax associato all'autovalore massimo e il vettore w si mantiene positivo per ogni t, si dimostra che la soluzione tenderà a convergere verso l'autovettore di Cxx avente il massimo autovalore. In questo modello, infine, esiste la probabilità non nulla che w(t) converga a zero anche per ingressi non nulli*. A partire dalla (2.6), espressa nella sua forma più generale, vengono introdotte delle varianti che, nel prossimo paragrafo, permetteranno di realizzare un algoritmo semplificato. 2.3 Semplificazione e implementazione dell’algoritmo L'equazione di attivazione STM (2.3) tende, come si è visto, a stabilizzare l'attività Sj del neurone ad un valore “alto” o “basso”, in funzione della propria eccitazione al segnale sensorio e dell' attività dei neuroni adiacenti. In pratica si verifica che, una volta assegnati i valori iniziali (generalmente casuali) delle connessioni sinaptiche, i neuroni che formeranno la bolla ad attività alta sono quelli che - insieme con i vicini in un intorno di dimensioni determinate dalla forma della F(x,y) di feedback laterale - hanno, al momento dell'arrivo dello stimolo, una attività di gruppo massima. Ciò permette di fare delle semplificazioni : senza attendere la formazione della bolla per effetto di convoluzione spaziale delle attività neuronali di tutta la rete (cosa computazionalente dispendiosa) si può imporre che questa si formi intorno al neurone che, da solo, ha attività iniziale massima. Una ulteriore semplificazione consiste nel considerare tale attività, che nell'equazione classica di McCulloch e Pitts (1.2) è data sostanzialmente dal prodotto scalare tra il vettore sinaptico w e il vettore di ingresso x, funzione di un criterio di similitudine nello spazio vettoriale n-dimensionale. La scelta più semplice, ma non per questo riduttiva, è quella della distanza euclidea, adottata in molti modelli ad apprendimento * Da quanto si è detto si ricava la seguente proposizione: Se gli ingressi x i sono variabili stocastiche con proprietà statistiche stazionarie, allora i valori wi , in accordo con l'equazione (2.6), convergeranno a valori asintotici tali che il vettore w rappresenterà l'autovettore di Cxx associato al maggior autovalore. Studi sullo stato stazionario del modello di Kohonen sono stati sviluppati da H. Ritter e K. Schulten, nei quali si ottiene anche una espressione esplicita del fattore di ingrandimento locale della mappa (e cioè della proprietà della mappa di assegnare alla decodifica del segnale un numero di neuroni legato alla importanza statistica di quest'ultimo) [Ritter & Schulten, 1986]. Sempre Ritter e Schulten ne hanno studiato le proprietà di convergenza e le fluttuazioni dalla situazione di equilibrio, descrivendo il processo di apprendimento per mezzo di una equivalente equazione di Fokker-Planck [Ritter & Schulten, 1988]. Una applicazione di interesse fisiologico 38 competitivo : con essa si può calcolare il “matching score” tra i due vettori senza che essi debbano essere normalizzati. Il neurone che avrà quindi attività iniziale massima sarà quello che misurerà distanza euclidea minima e, cioè, che realizzerà, con il proprio vettore sinaptico w, il “best match” con il vettore di ingresso x || x - wc || = min i || x - wi || (2.9) Dopo aver individuato il neurone “best match”, si avvia, in un suo intorno Nc , il processo di variazione delle sinapsi : la correlazione a largo raggio che si osserva nelle SOM dipende proprio dalla scelta di tale intorno. I neuroni che subiranno un adattamento delle sinapsi, alla presentazione di uno stimolo, saranno quelli che misureranno una distanza (ora la distanza non è più nello spazio parametrico N-dimensionale delle sinapsi, ma nello spazio fisico 2dimensionale della “corteccia”) dal neurone “best match” minore di un raggio di interazione R(t), decrescente nel tempo. Avremo così un intorno N c (t) la cui dimensione iniziale dovrà essere tale da coinvolgere, nei primi processi, tutti i neuroni della corteccia. Il suo andamento temporale può essere rappresentato da una funzione lineare, esponenziale, etc. : la scelta, pure in questo caso, non è estremamente vincolante. Eccone alcuni esempi ( R − R 0 )t R(t) = max R 0 + min , R min T0 −t R(t) = max R 0 , R min T0 (2.10a) (2.10b) Il valore di T0 stabilisce una costante di tempo del processo di clusterizzazione che verrà discussa tra breve. Il valore di Rmin stabilisce il raggio minimo di interazione, in genere unitario o nullo, che si vuole mantenere tra i neuroni nella fase asintotica dell'apprendimento. In alcune simulazioni, discusse nel prossimo capitolo, è risultato importante mantenere un raggio minimo di interazione non minore di due unità, allo scopo di garantire una certa plasticità anche nella fase avviata del programma di apprendimento e permettere alla rete di riassestarsi, qualora si verificassero mutazioni significative nell'insieme di stimoli da apprendere. La scelta della forma geometrica dell'intorno è, anche questa, abbastanza arbitraria e condizionata da fattori di semplicità computazionale. Eccone alcune possibili Una applicazione di interesse fisiologico 39 Esempi di intorni temporalmente decrescenti Anche per l'equazione di apprendimento possono essere fatte semplificazioni. Partendo dalla delle dw/dt = α S x - β(S) w possiamo, nel limite di saturazione per il quale l'attività S si stabilizza su valori alti (dentro la bolla) o bassi (fuori dalla bolla), assegnare alla funzione non lineare monotona β(S) degli analoghi valori di saturazione. Riscalando le variabili x e w abbiamo la possibilità di definire S∈{0,1} e β(S)∈{0,α}, e quindi di riscrivere l'equazione di apprendimento come dw/dt = α (x - w) (2.11a) se S = 1 e β = α (dentro la bolla ) dw/dt = 0 (2.11b) se S = 0 e β = 0 (fuori dalla bolla ) Si è osservato, inoltre, che per avere buoni risultati nell'autoorganizzazione, dobbiamo fare in modo che anche il guadagno plastico α sia una funzione monotòna decrescente nel tempo, anche questa determinata sulla base di prove empiriche. Unico vincolo, come gia si è detto, è che sia compresa tra 0 e 1. Una scelta tra le più comuni è α(t) = α 0 (1 - t / T0) (2.12) α 0 = 0.1 ÷ 0.9 Nel corso delle simulazioni si è visto che i migliori risultati si ottengono con valori di α 0 ≈ 0.1. Il valore T0, trovato anche nella (2.10) che descrive l'andamento temporale del raggio R(t) di interazione, regola la durata della fase di prima organizzazione della rete, durante la quale il raggio decrescerà dal valore di massimo ricoprimento R0 al valore Rmin di interazione con i primi Una applicazione di interesse fisiologico 40 vicini. Si è notato, sempre empiricamente, che migliori risultati si ottengono se, una volta raggiunto il raggio minimo, si continua il programma di apprendimento per un tempo T1 ≥ 10 T0. In questa seconda fase, nella quale ogni gruppo di neuroni che risponde ad un certo stimolo si specializza, il termine di guadagno plastico a viene mantenuto costante, o al più leggermente decrescente nel tempo, intorno ad un valore che, nei casi studiati, è di α ≈ 0.02 ÷ 0.06. Nel caso pratico, il termine temporale t (così come i termini T1 e T0 ) è, in realtà, un contatore di stimoli che misura la maturazione di una rete in termini di esperienze : assume pertanto valori discreti. Risultati accettabili nel processo di auto-organizzazione si ottengono se il programma di apprendimento prevede complessivamente almeno qualche migliaio di stimoli presentati alla rete (e cioè T1+T0 ≈103÷104) : ciò, però, dipende dalla dimensione della rete stessa. Passando alle differenze finite si ottiene, così, la forma ultima delle equazioni di apprendimento semplificate || x - wc || = min i || x - wi || wi(t+1) = wi(t) + α(t)[ x(t) - w(t) ] per i ∈ Nc (t) wi(t+1) = wi(t) per i ∉ Nc(t) (2.13a) (2.13b) Un’alternativa possibile al sistema appena visto prevede l'introduzione di una funzione scalare Hci = Hci (t), che modula la variazione sinaptica del neurone i-esimo, in funzione della distanza dal neurone c-esimo di “best match” wi(t+1) = wi(t) + Hci (t) [ x(t) - w(t) ] (2.14) Una delle funzioni che possono descrivere la Hci (t) di modulazione del guadagno può essere la − r −r 2 Hci (t) = H0 exp i 2 c (2.15) s (t) che palesemente descrive una curva a “campana”, centrata in rc , la cui larghezza è controllata dalla funzione s(t), decrescente nel tempo. I risultati che si ottengono utilizzando l'algoritmo semplificato appena descritto (Finestra 2.2), sia per la (2.14) che per la (2.15) (più onerosa dal punto Una applicazione di interesse fisiologico 41 di vista computazionale), evidenziano le proprietà già note di questo modello: il mapping a conservazione di topologia, la riduzione di dimensionalità e la selezione delle dimensioni del segnale di ingresso più rilevanti dal punto di vista informativo (quelle a massima varianza). A titolo dimostrativo vengono riportati, nella figura seguente, i risultati relativi alle diverse fasi di auto-organizzazione delle sinapsi di un array bidimensionale di 225 neuroni, ai quali vengono presentati dei vettori di patterns bidimensionali. La distribuzione di probabilità di questi ultimi ha una forma particolare (vedi figura seguente), che, al termine del processo di apprendimento, verrà riprodotta dai vettori associati alle sinapsi. Nelle figure riportate sono rappresentati, nello stesso spazio parametrico, i punti rappresentativi dei vettori di ingresso e dei vettori sinaptici. Figura 2.4 Mapping in riduzione di dimensionalità Esempio di mapping in riduzione di dimensionalità : lo spazio parametrico dei patterns di ingresso è 4-dimensionale, e viene mappato nello spazio fisico 2dimensioanle di un array di 400 neuroni. Le figure rappresentano la proiezione dello spazio parametrico sul piano individuato dalle sue prime due proiezioni. Una applicazione di interesse fisiologico 42 2.4 Una corteccia somatosensoria simulata Il sistema sensorio che per primo si sviluppa nei mammiferi è il sistema somato-sensitivo. E' ormai assodato che udito e, soprattutto, vista non costituiscano, almeno nei primi mesi di vita, un efficiente sistema di comunicazione con il mondo esterno. L'esperienza tattile, invece, offre un grado di risoluzione e discriminazione, nella percezione sensibile, fin dai primi momenti elevato, tanto da ritenere chesia la cute a permettere la realizzazionedel primo «rapporto oggettuale». Ciò che differenzia questo sistema dagli altri sistemi sensori è la distribuzione dei suoi recettori : i recettori per la sensibilità somatica non sono localizzati in piccole regioni del corpo (come avviene, invece, nell'occhio o nella coclea) ma sono distribuiti su tutta la superficie corporea, la cute. Diversi tipi di sensazioni somatiche sono possibili : tatto (che ci permette di riconoscere la grandezza, la forma e le caratteristiche superficiali degli oggetti ed il loro movimento sulla cute), propriocezione (senso della posizione statica e dinamica del corpo e degli arti), dolore e senso termico ; ciascuna di queste è, inoltre, descritta da altre submodalità. Un aspetto di profondo interesse è la capacità di discriminazione tattile differente in funzione della particolare regione del corpo coinvolta : l'assunzione che non tutte le parti del corpo sono egualmente sensibili e la conseguente indagine sui meccanismi stessi di sensibilizzazione ha messo in evidenza che la maggiore o minore sensibilità tattile di una regione corporea è collegata alla sua relativa rappresentazione corticale: la nostra sensibilità non è dovuta tanto all'organo di senso periferico, quanto al cervello e alla rappresentazione interna che in esso si ha dell'esperienza sensibile. L'intensità di una sensazione somatica è legata sia all'intensità della risposta dei neuroni corticali coinvolti che al numero stesso di questi ultimi. Sono frequenti casi di assoluta insensibilità periferica dovuta a lesioni corticali, pur rimanendo perfettamente funzionanti gli organi periferici. Dallo studio di alcune patologie sono risultati estremamente interessanti alcuni fenomeni di riorganizzazione della rappresentazione somatosensitiva corticale in seguito a lesioni (in genere, dell'innervazione afferente, che dalla periferia conduce il segnale sensorio al cervello), anche in soggetti adulti. Tale capacità rende assolutamente indiscutibile che i meccanismi di sensibilizzazione, che permettono di ottenere livelli di discriminazione tattile differenti, siano di tipo epigenetico : anche se su una struttura predeterminata geneticamente, essi si Una applicazione di interesse fisiologico 43 evolvono e mantengono il cervello plastico grazie alla continua e sempre differente attività percettiva. Finestra 2.3 - La rappresentazione corticale della superficie corporea La rappresentazione sensoria della superficie corporea che si ha nel sistema nervoso centrale è organizzata in mappe topografiche, come si è gia accennato, e le regioni corticali coinvolte (vedi figura seguente) sono individuate nel giro postcentrale (aree 1, 2, 3b e 3a di Brodmann). corteccia motoria giro postcentrale giro postcentrale solco centrale solco solco centrale solco postcentrale postcentrale 1 3b Corteccia somatosensoria e aree di Brodmann del giro postcentrale 2 3a La rappresentazione interna corticale con conservazione di topologia che si ottiene con il processo di auto-organizzazione permette una minimizzazione quasi ottima del costo di connessione tra cellule corticali : quelle rispondenti a stimoli simili sono più vicine tra loro. Moderni studi elettrofisiologici hanno dimostrato, oltre all'esistenza di una relazione reciproca tra aree corporee e aree corticali, che esiste una distorsione di rappresentazione che si evidenzia nella diversità delle aree cerebrali destinate alla rappresentazione di parti differenti del corpo: le proporzioni tra l'estensione superficiale della parte descritta e l'estensione corticale della sua rappresentazione non sono assolutamente rispettate. Queste distorsioni sono invece in relazione con l'importanza di una particolare regione della superficie corporea per la sensibilità tattile. Nell' essere umano, in cui la manipolazione degli oggetti ed il linguaggio sono funzioni di importanza vitale, la mano e la lingua occupano un ruolo predominante, e le loro rappresentazioni corticali sono molto più grandi delle altre. Per definire il concetto di «importanza», motivandolo biologicamente, si può attribuire un ruolo fondamentale alla frequenza con la quale viene svolta un certa funzione: data la particolare configurazione Una applicazione di interesse fisiologico 44 anatomica e "ingegneristica" della mano umana, è statisticamente più probabile, per esempio, che vengano sollecitati di più i cuscinetti digitali distali (i polpastrelli !) che non i cuscinetti palmari : ciò che si osserva è infatti una area di rappresentazione corticale sensibilmente maggiore nei primi. La spiegazione di tale distorsione è nella differente concentrazione superficiale e dimensione dei campi recettivi. Si ricorda che il campo recettivo di un neurone è costituito da quella zona della superficie recettoriale, in questo caso la cute, la cui stimolazione è in grado di eccitare o di inibire la scarica della cellula stessa. Nel formalismo dei modelli neuronali teorici, esso descrive quella regione dello spazio parametrico del segnale di ingresso che ha come effetto l'attivazione di uno specifico neurone formale dello strato di uscita. Possiamo dire che ciascun neurone corticale, o ciascuna microstruttura colonnare di neuroni, ha uno specifico campo recettivo. A regioni di corteccia a rappresentazione distorta che hanno maggiore estensione saranno associati, sulla superficie recettoriale, campi recettivi più piccoli la cui densità superficiale è maggiore : ingrandimento corticale e dimensione dei campi recettivi sono quindi inversamente correlati. L'ingrandimento corticale che ne deriva permette di ottenere, per tali zone, una discriminazione spaziale senza dubbio migliore : una sorta di lente di ingrandimento che sfrutta la .... minor lunghezza d'onda della sonda. La dimensione limitata del campo recettivo di un neurone ha, infatti, conseguenze funzionali di grande rilievo. Se applichiamo uno stimolo ad un punto della cute, verranno eccitati i neuroni connessi con le fibre afferenti che innervano il punto stimolato. Se, successivamente, lo stimolo viene portato in un nuovo punto della cute, verrà attivata un'altra popolazione di neuroni. La discriminazione spaziale cosciente tra i due stimoli sarà inversamente proporzionale alla grandezza dei campi recettivi coinvolti : il rapporto, per esempio, tra l'ingrandimento corticale della rappresentazione delle dita e quello della rappresentazione del tronco è, nell'essere umano, di circa 100:1. Ciò permette di comprendere perchè sia, in fin dei conti, più facile leggere la scrittura Braille con i polpastrelli che non con il gomito. Allo scopo di dimostrare la capacità delle SOM di Kohonen di conservare la topologia e, soprattutto, di organizzare in maniera gerarchica la risposta neuronale, una di tali reti è stata utilizzata per simulare la formazione dei campi recettivi tattili di una mano nella corteccia somatosensoria [Kaas et al.,1979] e la successiva riorganizzazione corticale in seguito a lesione di un nervo afferente [Merzenich & Kaas, 1982]. Nel caso in esame non c'è una riduzione di dimensionalità poichè lo stimolo x è descritto in uno spazio parametrico bidimensionale (la distribuzione dei "somatomeri" - i recettori al Una applicazione di interesse fisiologico 45 tatto - sulla cute) ed è «mappato» conformemente sullo spazio, anch'esso bidimensionale, della corteccia somatosensoriale. Descrizione dell' esperimento : 1) Si è prodotto artificialmente un repertorio di base di circa 300 «stimoli» x=(x1,x2) (con xi∈{0,100} e xi∈N ) facendo in modo che la proiezione sul piano x1,x2 della distribuzione di probabilità P(x1,x2) avesse, più o meno, la forma di una mano (vedere figure seguenti). Nell' ambito, poi, di tale repertorio di stimoli, si è fatto in modo che P(x1,x2) fosse leggermente maggiore in corrispondenza dei polpastrelli. Con lo stesso principio si è prodotto un secondo repertorio, sempre di circa 300 «stimoli», relativo ad una mano lesionata, nella quale viene a mancare il segnale afferente da un dito centrale. La procedura di realizzazione di questi insiemi di stimoli, anche se decisamente «artigianale», si è dimostrata efficiente ai fini dell'esperimento, e la sua descrizione non sembra sufficientemente interessante. 2) Si è inizializzata la matrice w degli accoppiamenti sinaptici dei 400 neuroni della corteccia (un reticolo 20x20), in modo tale che tutti i neuroni avessero i valori iniziali delle sinapsi disposti casualmente intorno al punto centrale dello spazio parametrico di ingresso, e cioè wi,j,1 , wi,j,2 ≈ 50 , con i,j=1,...,20. Una scelta alternativa sarebbe stata quella di assegnare a wi,j,1 , wi,j,2 dei valori casuali tra 0 e 100, ma si è osservata, in questo caso, una minor velocità di organizzazione. Il numero di neuroni utilizzati si è preso dell'ordine del numero di stimoli di base del repertorio (come verrà detto in seguito, su ciascuno stimolo di base sarà prodotta, nel corso del programma di apprendimento, una «nuvola» di rumore). 3) Viene avviato il processo di apprendimento, descritto dalle equazioni || x - wc || = min i || x - wi || neurone "best match" wi,j,k (t+1) = w i,j,k(t) + α (t)[ x k (t) - wi,j,k(t) ] per i,j ∈ Nc (t) (2.16a) i,j = 1,,20 k=1,,2 wi,j,k (t+1) = w i,j,k(t) per i,j ∉ Nc (t) i,j = 1,,20 k=1,,2 (2.16b) dove Nc (t) è un intorno circolare di raggio R(t) del neurone "best match" per lo stimolo x al tempo t (si ricorda che t è diventato un contatore di stimoli) ; per gli andamenti temporali di α(t) e R(t) si sono adottate le seguenti Una applicazione di interesse fisiologico 46 R (t) = max { R 0 + \F((Rmin -R0)t;To) , Rmin } α (t) = α 0 (1 - \F(t;To) ) per t < To α (t) = α 1 per t > To con la seguente scelta dei parametri, dettata puramente dall'esperienza, R 0 = 10 R min = 2 a 0 = 0.1 a 1 = 0.06 T0 = 500 raggio iniziale di interazione (comprende tutta la rete) raggio minimo di interazione (mantenuto costante nella seconda fase, di «specializzazione» ) valore iniziale del fattore di guadagno plastico valore finale del fattore di guadagno plastico (mantenuto costante fase di «specializzazione» ) durata, in "stimoli",della fase di «prima organizzazione» Poichè il numero di stimoli a disposizione (300) è minore del numero richiesto per l'intero programma di apprendimento (103 ÷104 «stimolazioni»), come capita di frequente in problemi di questo tipo, si è riutilizzato ciclicamente il repertorio a disposizione, sommando ogni volta allo stimolo un rumore a media nulla di dinamica pari al 5% di quella del segnale (100). 4) Dopo aver raggiunto, in circa 2000 «stimolazioni», una situazione di stabilità evidenziata dalla formazione di campi recettivi ordinati spazialmente con densità direttamente proporzionale all'importanza informativa dello stimolo descritto, si è sostituito al repertorio originale di stimoli quello descrivente la «mano lesionata», senza il «dito» centrale. Si è continuato, quindi, il processo di apprendimento, che, seppur nella fase di specializzazione, si è fatto in modo che mantenesse una certa plasticità. Per ottenere ciò è stato fondamentale che il raggio minimo di interazione Rmin non fosse unitario o, ancor peggio, nullo così come non dovesse essere indefinitamente decrescente il guadagno plastico α(t) (cose che invece si verificano nella maggior parte delle realizzazioni del modello di Kohonen). I risultati ottenuti sono stati tradotti in forma grafica, di grande aiuto nello studio di questo modello. La prima serie di immagini (Fig. 2.5, vedi appresso) rappresenta i vari stadi del processo di auto-organizzazione: vi sono riportati, sovrapposti e descritti nello stesso spazio parametrico (in questo caso bidimensionale), i punti corrispondenti ai 300 stimoli di base x di repertorio e i valori istantanei degli accoppiamenti sinaptici w. Per evidenziare l'effetto di organizzazione spaziale, questi ultimi sono stati collegati da linee rette se relativi a neuroni adiacenti sulla corteccia simulata. Quello che succede, nel corso dell'apprendimento, è che la distribuzione dei valori di accoppiamento sinaptico Una applicazione di interesse fisiologico 47 nello spazio parametrico dei patterns di ingresso tende a riprodurre la distribuzione di probabilità di questi ultimi. Tale processo avviene in due fasi. Prima si verifica un ordinamento grossolano, ma rapido: si ha un grande raggio di interazione R(t) ed un alto valore di guadagno plastico. Dopo avviene la specializzazione, più lenta, nella quale i dominii di interazione hanno raggiunto il valore minimo asintotico ed il guadagno plastico si è stabilizzato su di un valore di regime, inferiore ai valori iniziali, e tale da permettere variazioni sinaptiche piccole ma, a tempi lunghi, significative. E', infatti, interessante notare la plasticità e la dinamicità della rete che, successivamente alla «lesione», ridistribuisce i campi recettivi dei neuroni associati al dito «inibito» in modo tale da aumentare il numero di neuroni attivati dalle zone recettoriali rimaste funzionanti, ottenendo quindi un aumento di sensibilità e di discriminazione spaziale per le dita rimaste : è la manifestazione di quel comportamento gerarchico prima accennato, per il quale quando una particolare afferenza diviene inattiva, il suo territorio di rappresentazione sulla corteccia può venire invaso dalle afferenze che provengono dalle zone rimaste attive. Successivamente, con metodi analoghi a quelli che si usano in elettrofisiologia per la determinazione delle mappature corticali, si sono prodotti degli «stimoli» sulla superficie recettoriale (quindi, sulla cute della mano formale), e cioè sono stati utilizzati dei vettori appartenenti all'insieme P(x1,x2) per sollecitare una risposta nella rete. Alcune delle attività misurate con questa serie di «stimolazioni» sono state riportate nella Fig. 2.6. Per evidenziare il miglioramento in risoluzione ottenuto con il processo di apprendimento viene mostrato anche uno stato di attivazione attinente alla fase iniziale dell'apprendimento (t=30), nel quale la risposta non è ancora localizzata. Da tali figure si evidenzia ulteriormente la corrispondenza tra stimoli simili e zone attivate adiacenti. Dopo aver registrato una sufficiente quantità di attivazioni, relative a tutta la superficie della mano, se ne è ricavata una mappa corticale. Una analoga mappa è stata ricavata (Fig. 2.7), con lo stesso procedimento, a seguito della riorganizzazione dopo la «lesione»: da quest'ultima si può notare la ridistribuzione dei campi recettivi, originariamente associati al dito lesionato, tale da migliorare la sensibilità residua. Insieme con queste ultime, vengono riprodotti (Fig. 2.8) alcuni risultati delle ricerche di Kaas e Merzenich sulla rappresentazione della mano nella corteccia somato-sensoria delle scimmie nictipiteco [Kaas et al.,1979][Merzenich et al.,1983] [Merzenich & Kaas,1982]. Le analogie, soprattutto, nella forma della mappa corticale nell'area di Brodmann 3b, sono abbastanza evidenti. Una applicazione di interesse fisiologico 48 Fig. 2.5 Autoorganizzazione della rappresentazione corticale Fasi successive del processo di autoorganizzazione della rappresentazione corticale di una mano. Dopo 2000 stimolazioni viene eliminato il segnale sensorio proveniente dal terzo dito: la rappresentazione corticale si riorganizza e i neuroni diventati inattivi vengono riutilizzati per la rappresentazione della dita superstiti. Una applicazione di interesse fisiologico 49 Fig. 2.6 Risposte corticali in conservazione di topologia La serie di immagini rappresenta la risposta corticale ad una serie di stimolazioni (•) sulla mano simulata. La prima immagine é stata ottenuta con una corteccia non ancora sufficientemente addestrata (30 stimolazioni): é evidente la scarsa risoluzione di rappresentazione. Una migliore risoluzione si ottiene invece con la corteccia più addestrata (2000 stimolazioni), utilizzata per le immagini successiva. E', inoltre, fortemente evidente la conservazione di topologia nella rappresentazione. Una applicazione di interesse fisiologico 50 Fig. 2.7 Variazioni nella risposta corticale in seguito a lesione La figura riporta le mappe della rappresentazione corticale della mano ottenute con l'addestramento della rete neuronale. La prima mappa é precedente la lesione al terzo dito, la seconda é successiva. I numeri riportati nelle mappe sono associati a ciascuna delle dita (0 é associato ai cuscinetti palmari, '-' é associato a neuroni con risposta debole). A seguito della lesione si osserva una evidente riorganizzazione della rappresentazione, che conduce ad una rappresentazione più sensibile delle dita superstiti adiacenti. Una applicazione di interesse fisiologico 51 Una ulteriore simulazione potrebbe essere quella della formazione delle microstrutture colonnari della corteccia visiva sensibili alla orientazione nello spazio di semplici stimoli visivi. In conclusione, il modello delle Self Organizing Maps di Kohonen si dimostra notevolmente interessante, oltre che per le sue possibili applicazioni, anche per la sua innegabile interpretazione descrittiva (e non esclusivamente strumentale) dei sistemi sensoriali biologici. Figura 2.8 (da Kandel & Schwartz, op. cit.) Rappresentazione della mano nella corteccia somato-sensoria di scimmie Gli esperimenti di mappatura di Kaas, Merzenich e coll. indicano cha ciascuna delle quattro subregioni del giro postcentrale (3a, 3b, 1 e 2) contiene una propria rappresentazione. A) Veduta dorsolaterale della corteccia di un nictipiteco che documenta come, sia nell'area 3b che nell'area 1, esista una rappresentazione cutanea distinta. La rappresentazione delle superfici fornite di peli del piede e della mano sono ombreggiate. Le dita della mano e dei piedi sono numerate. B1) E' una mappa più espansa e più dettagliata delle aree della mano della corteccia della scimmia riportata in A. In B2) le distorsioni di rappresentazione del palmo della mano sono in relazione con l'estensione delle rappresentazioni di ciascuna zona a livello corticale. I cuscinetti palmari, quindi, sono numerati da P4 a P1; vi sono due cuscinetti insulari (I), uno ipotenare (H) e due tenari (T). I cinque cuscinetti digitali sono anch'essi numerati. Una applicazione di interesse fisiologico 52 Appendice A2: L’interazione laterale in modelli dinamici di interesse biologico Studi di fondamentale importanza che portarono alla teorizzazione di una forma di interazione spaziale di questo tipo, sono dovuti a A.M. Turing [Turing,1952] e a A. Gierer e H. Meinhardt [Gierer & Meinhardt,1972] (che elaborarono una teoria biologica sulla formazione di patterns). morphogenesis", ipotizzò Turing, nell' articolo "The chemical basis of che l'azione combinata di un processo di diffusione con opportune cinetiche di reazione chimica avrebbe potuto destabilizzare uno stato stazionario omogeneo e provocare la formazione spontanea di strutture temporalmente stabili e spazialmente disomogenee. Egli suggerì che tale processo avrebbe potuto spiegare una grande varietà di fenomeni morfogenetici. Successive ricerche in chimica, fisica e biologia dimostrarono la possibilità di tali meccanismi morfogenetici [Castets et al.,1990]. Alcuni ricercatori, lavorando sull'ipotesi di Turing, giunsero alla conclusione che, al fine di creare dei patterns di concentrazioni stazionare in sistemi di reagenti chimici, era necessario rispettare una condizione : che il reagente chimico inibitore dovesse diffondersi nel sistema molto più rapidamente dell' agente eccitatore. Questo potrebbe essere in analogia, traducendone l'effetto in coordinate spaziali, con la inibizione a lungo raggio e con la eccitazione a corto raggio della “Mexican Hat” già vista. Un'ulteriore, recente, conferma sperimentale del modello di Turing è ad opera di I. R. Epstein e I. Lengyel [Epstein & Lengyel, 1991], che, in breve, osservarono la formazione di strutture di Turing ottenute dalla reazione di agenti chimici diffusi in un gel: le molecole inibitrici (ioni ClO2-) non erano interagenti con il gel, e potevano muoversi liberamente in esso; quelle, invece, attivatorie (ioni I-) formavano dei complessi più o meno stabili e venivano, quindi rallentate. Ciò diede luogo a fluttuazioni di densità del reagente, evidenziate da grumi di colore su un fondo omogeneo. Un'evidenza sperimentale di tali forme di inibizione laterale è nella struttura, per esempio, dei campi recettivi dei neuroni parvocellulari ad opposizione di colore nel corpo genicolato laterale (sistema visivo) : essi sono eccitati su una piccola regione centrale da luce di un determinato colore (rosso) ed inibiti su un anello periferico omocentrico da luce di un colore complementare (verde). Analoga è la struttura dei neuroni magnocellulari a banda estesa, eccitati da tutte le lunghezze d'onda nella zona centrale e inibiti da tutte le lunghezze d'onda nella zona periferica. I primi sviluppano un sistema sensibile al colore, lento, poco sensibile ai contrasti e ad alta risoluzione; i secondi, invece, sono ciechi al colore, veloci, fortemente sensibile ai contrasti e a bassa risoluzione [Hubel & Livingstone,1988]. Questi neuroni, insieme con quelli gangliari della retina, fungono da primi stadi di filtraggio dell'informazione visiva nel percorso dalla retina alla corteccia. Mountcastle [Mountcastle,1957,1968], infine, propose un Una applicazione di interesse fisiologico 53 modello per la discriminazione spaziale di due punti basato sulla ricostruzione degli eventi neuronali che hanno luogo nella corteccia somato-sensoria a seguito dell'applicazione di un lieve stimolo tattile. Il meccanismo che, secondo questo modello (Figura A2.1), permette di riconoscere due stimoli puntiformi, applicati l'uno vicino all'altro, come due punti distinti piuttosto che uno solo ha come sua base la stessa teoria dell'inibizione laterale. Due stimoli applicati su parti distinte della cute producono due gradienti di attività eccitatoria in ogni nucleo del sistema somato-sensitivo. L'attività di ciascuna popolazione ha un picco distinto, e la popolazione cellulare circostante, che viene inibita, accentua ed aumenta maggiormente la distinzione tra i due picchi. Questa inibizione laterale non si presenta al livello dei recettori, ma compare in tutte le stazioni di ritrasmissione successive, per cui la popolazione neuronale eccitata dallo stimolo è circondata da una cintura di neuroni inibiti : ciò impedirà la fusione delle zone eccitatorie determinate dai due stimoli, mantenendo così i picchi di attività distinti a livello corticale ed aumentando il contrasto tra le due zone eccitatorie. E' facile vedere come una organizzazione neuronale di questo tipo, presente in tutti i sistemi sensoriali e motori, possa condurre al riconoscimento delle forme e dei contorni delle figure. attivita' neuronale senza inibizione laterale spazio neurale attivita' neuronale con inibizione laterale attivita' evocata dalla stimolazione di un singolo punto somma delle attivita' evocate dalla stimolazione simultanea di due punti spazio neurale Schema proposto da Mountcastle per spiegare in che modo l'inibizione laterale puo' contribuire alla discriminazione tattile tra due punti . Figura A2.1 Il modello per l’inibizione laterale proposto da Mountcastle Una applicazione di interesse fisiologico 54 Bibliografia del Capitolo 2 Amari, S. & Takeuchi, A. (1978). Mathematical theory on formation of category detecting in nerve cells. Biological Cybernetics, 29, 127-136 Caramazza, A. & Hillis, A. (1990) . Spatial representation of words in the brain implied by studies of a unilateral neglect patient. Nature, 346, 267-269 Castets, V. et al. (1990). Experimental evidence of a sustained standing Turing-type nonequilibrium chemical pattern. Physic Review Letters, 64, 2953 Damasio, A.R. et al. (1982). Prosopagnosia: Anatomic basis and behavioral mechanisms. Neurology, 32, 331-341 Eichenbaum, H. & Cohen, N.J. (1988). Representation in the hippocampus : what do hippocampal neurons code ?, Trends in Neurosciences, 11, 244-248 Gierer, A. & Meinhardt, H. (1971). A theory of biological pattern formation. Kybernetik, 12, 30-39 Hubel, D. & Livingstone, M. (1988). Segregation of form, color, movement and depth : anatomy, physiology, and perception. Science, 240, 740-749 Kaas, J.H. et al. (1979). Multiple representations of the body within the primary somatosensory cortex of primates. Science, 204, 521-523 Knudsen, E.I. et al. (1987). Computational maps in the brain. Annual Review in Neuroscience, 10, 41-65 Kohonen, T. (1984). Self-organization and associative memory. Springer Verlag, Berlin : 1984 (2nd 1988) Malsburg, (von der) C. (1973). Self-organization of orientation sensitive cells in the striate cortex. Kybernetik, 14, 85-100 Marr, D. & Hildreth, E. (1980) Theory of the edge detection. Proc. R. Soc. London Ser. B, 207, 187-217 Merzenich, M.M. et al. (1983) . The reorganization of somatosensory cortex following peripheral nerve damage in adult and developing animals . Annu. Rev. of Neurosci., 6, 325-356 Merzenich, M.M. & Kaas, J.H. (1982). Reorganization of mammalian somatosensory cortex following peripheral nerve injury. Trends in Neurosciences, 5, 434-436 Mountcastle, V.B. (1957) . Modality and topographic properties of single neurons of cat’s somatic sensory cortex. J. Neurophysiol., 20, 408-434 Mountcastle, V.B. & Darian-Smith, I. (1968) . Neural mechanisms in somesthesia. In V.B. Mountcastle (ed.), Medical Physiology, 12th ed., Vol. II St. Louis, Mosby, 13721423 Oldfield, B.P. (1988). Tonotopic organization of the insect auditory pathway. Trends in Neuroscences, 11, 267-270 Olton, D.S. (1977). Spatial representation in the hippocampus. Scientific American, 236, 82 1977 Petersen, S.E. et al. (1988). Positron emission tomographic studies of the cortical anatomy of single-word processing, Nature, 331, 585-589 Ritter, H. & Kohonen, T. (1989). Self-organizing semantic maps. Biological Cybernetics, 61, 241-254 Ritter, H. & Schulten, K. (1986). On the stationary state of Kohonen's Self-Organizing sensory mapping. Biological Cybernetics, 54, 99-106 Ritter, H. & Schulten, K. (1988). Convergence properties of Kohonen's topology conserving maps : fluctuations, stability and dimension selection. Biological Cybernetics, 60, 59-71 Rolls, E.T. (1984). Neurons in the cortex of the temporal lobe and in the amygdala of the monkey that responses selective for faces. Human Neurobiology, 3, 209-222 Smith, T.G. Jr et al. (1988). Edge detection in images using Marr-Hildreth filtering techniques. Journal of Neurosciences Methods, 26, 75-82 Suga, N. & O'Neill, W.E. (1979). Neural axis representing target range in the auditory cortex of the mustache bat. Science, 206, 351-353 Takeuchi, A. & Amari, S. (1979). Formation of topographic maps and columnar microstructures, Biological Cybenetics, 35, 63-72 Ts'o, D.Y. et al. (1990). Functional organization of primate visual cortex by high resolution optical imaging. Science, 249, 417-420 Turing, A.M. (1952). The chemical basis of morphogenesis. Philos. Trans. R. Soc. London Ser. B, 237, 37 Zeki, S. (1980). The representation of colours in the cerebral cortex. Nature, 284, 412418 Una applicazione di interesse fisiologico 55 3. Una applicazione allo studio delle strutture proteiche 3.1 Il percettrone multistrato e la regola delta generalizzata Il perceptron si é dimostrato degno di studio a dispetto (o, forse, a causa!) dei suoi seri limiti. Esso ha molte proprietà attraenti: la sua linearità, il suo affascinante teorema d'apprendimento, la sua limpida ed esemplare semplicità come modello di computazione parallela. Non c'é ragione di supporre che nessuno di questi pregi sia ereditato dalla versione a più strati .... [Minski e Papert, 1969] Ricordiamo (vedi Cap. 1) che i percettroni costituiscono una classe di sistemi connessionisti così denominati da Rosenblatt nel 1962 in cui si realizza un apprendimento di tipo supervisionato modificando l'entità delle connessioni sinaptiche fra i neuroni per mezzo della "regola delta". Secondo tale regola, la variazione (∆W kj) fra il j-esimo ed il k-esimo neurone dei livelli di input e di output, rispettivamente*, è proporzionale al prodotto del valore del neurone di input per la differenza fra il valore atteso e quello effettivo del neurone di output: regola delta : ∆W kj = ηδk inj (3.1) dove η é il fattore di proporzionalità denominato "tasso" o "velocità di apprendimento"; δk = U k - Ok é l'errore relativo al k-esimo neurone di output, dato dalla differenza fra il valore atteso (Uk) e quello prodotto (Ok); e inj é il valore del j-esimo neurone di input. Nel loro famoso libro del 1969, Minski e Papert dimostrarono che i percettroni ad un solo strato di sinapsi modificabili non sono in grado di risolvere problemi interessanti come quelli della parità, della connettività o dell'XOR (vedi Finestra 3.1): da qui lo scemare dell'interesse, negli anni successivi, verso i sistemi connessionisti. Anche se gli stessi autori riconoscevano che le limitazioni suddette non si applicano ai percettroni multistrato, tuttavia l'uso di questi ultimi era molto limitato, ai loro occhi, dalla mancanza di un adeguato algoritmo di apprendimento. * nei percettroni i neuroni formali sono disposti in livelli ordinati, e le connessioni hanno luogo solo fra neuroni appartenenti a livelli diversi. Il più semplice percettrone di Rosenblatt possedeva due livelli di neuroni (input ed output) connessi da uno 'strato' di sinapsi. Una applicazione allo studio delle strutture proteiche 56 FINESTRA 3.1 Le unità nascoste incrementano le performance dei percettroni: il caso della funzione logica XOR (= OR disgiuntivo). Il mapping Input (corrispondenza) Input 0 0 1 1 -> Output secondo la Tavola di verità a lato non é possibile utilizzando due sole unità binarie per l'Input ed una per Output 0 1 0 1 0 1 1 0 l'Output (percettrone ad uno strato di connessioni). Il problema consiste nel fatto che i patterns d'ingresso meno simili fra loro (il primo e l'ultimo) devono generare lo stesso output. La soluzione é possibile solo inserendo una ulteriore unità di elaborazione, per esempio in un livello intermedio fra l'Input e l'Output secondo lo schema in basso, in cui i valori all'interno dei neuroni indicano la soglia di attivazione, e quelli sulle connessioni la forza delle medesime. Output In_1 0.5 Int. 2 In_2 Int Out 0 0 0 0 0 1 0 1 1 0 0 1 1 1 1 0 1.5 1 1 1 1 La soglia di 1.5 per l'unità intermedia la rende attiva solo quando sono entrambe attive In_1 e In_2; In tal caso, il peso di -2 per la connessione con l'unità di uscita fa sì che l'output complessivo di quest'ultima sia pari a zero. In_1, In_2 Una applicazione allo studio delle strutture proteiche 57 Figura 3.1 Rappresentazione schematica di un percettrone multistrato. L - 1 L + 1 L i-1 j-1 wj i i net k (L) (L+1) j ) w k-1 (L 1 ji+ i+1 k j+1 Sono rappresentati tre livelli di neuroni, L-1, L ed L+1, caratterizzati rispettivamente dagli indici i, j e k. I due livelli esterni possono considerarsi l'Input (L1) e l'Output (L+1) della rete. Le connessioni sinaptiche hanno luogo solo fra neuroni di livelli diversi: nella figura sono rappresentate, per semplicità, solo due connessioni (W j,i (L) e Wj,i+1(L) ) fra tre neuroni dei livelli L-1 ed L. L'output del generico (kesimo) neurone del generico (L+1 esimo) livello é fornito da una funzione di trasformazione non lineare : Ok (L +1) = f (net k (L +1) ) al cui argomento, netk (L+1) , contribuiscono le uscite dei neuroni del livello precedente, Oj (L) , pesati dalle corrispondenti connessioni, Wkj (L+1), e dal valore di soglia specifico del neurone, θk (L+1) : net k (L +1) = ∑W (L +1) kj O j(L ) + θ k (L +1) j Una applicazione allo studio delle strutture proteiche k+1 58 Oggi tale algoritmo esiste, va sotto il nome di 'retropropagazione degli errori', e costituisce una naturale evoluzione della regola delta. Ciò, insieme alla verifica dei limiti intrinseci dell'approccio simbolico-sequenziale, ha contribuito a cambiare radicalmente, in questi anni, l'atteggiamento di diffidenza nei confronti dell'approccio connessionista. L'algoritmo di retropropagazione dell'errore Estendere l'applicazione della regola delta al caso del percettrone multistrato (schematizzato in Figura 3.1) comporta la definizione adeguata del segnale d'errore (δ) per le unità degli strati intermedi, per le quali non é immediatamente disponibile il valore del segnale atteso (Uk). Un metodo generale per risolvere il problema é basato sull'osservazione che la regola delta corrisponde all'applicazione dell'algoritmo di ricerca dello 'steepest descent' (=massimo gradiente) nella minimizzazione di una funzione di costo : C = 1 (U k − O k )2 . ∑ 2 k La derivata di tale funzione rispetto alle sinapsi che connettono due generici livelli R ed S, si può scrivere: ∂C ∂C ∂OS ∂netS = (3.2) ∂WSR ∂OS ∂netS ∂WSR • Nel caso che i neuroni d'indice S appartengano all'ultimo livello (Output) della rete, la (3.2) diventa*, con gli indici in accordo allo schema di Fig. 3.1, ∂C ∂C ∂Ok ∂net k = = −(Uk − Ok ) f ' (net k ) Oj ∂Wkj ∂Ok ∂net k ∂W kj (3.3) • Nel caso che i neuroni d'indice S appartengano ad un livello intermedio della rete, la (3.2) diventa, con gli indici in accordo allo schema di Fig. 3.1, ∂C ∂C ∂Oj ∂net j ∂C = = f '( net j ) Oi ∂W ji ∂O j ∂net j ∂W ji ∂O j (3.4) * Si noti che nel caso in cui la funzione di trasformazione sia lineare, ovvero O = ∑ W O , la (3.2) si k j kj j semplifica e fornisce direttamente la regola delta: ∂C ∂C ∂O k = = −(U k − Ok ) Oj ∂Wkj ∂Ok ∂W kj Una applicazione allo studio delle strutture proteiche 59 in cui il primo termine del membro di destra (∂C / ∂Oj ) può essere calcolato dalla: ∂C = ∂Oj ∂C ∂Ok ∂net k ∂C =∑ f '( net k ) Wkj k ∂O k k ∂net k ∂O j ∑ ∂O k (3.5) La (3.5) sta al cuore dell'algoritmo ricorsivo di retropropagazione dell'errore, perché fornisce la dipendenza della C (funzione di costo) dall'Output delle unità di livello intermedio (j) in funzione della dipendenza dalle unità del livello successivo (k) e dallo strato sinaptico interposto (Wji). Nella Finestra 3.2 viene fornito, sempre con riferimento allo schema di Figura 3.1, il diagramma di flusso usato per implementare in uno spreadsheet programmabile l'algoritmo suddetto nella predizione della struttura secondaria della nitrito-reduttasi di Ps. aeruginosa (vedi appresso). I punti seguenti commentano i vari stadi del diagramma* . Per semplicità, si farà riferimento ai singoli elementi di vettori e matrici. 1. Per la inizializzazione delle matrici sinaptiche si utilizza in genere un generatore di numeri casuali compresi fra 0 ed 1. 2. Netj si ricava dai valori generati dal livello di Input Oi (che codifica l'informazione in ingresso) e dai valori della matrice sinaptica del primo strato. La funzione di trasformazione non lineare usata, f(net), é la: Oj = 1+e −( 1 ∑j W jiO i + θ j ) Con operazioni analoghe vengono calcolate Netk e Ok ed i valori dei successivi altri livelli (se presenti). 3. Ottenuto l'output dell'ultimo livello (Ok nel presente caso), se il valore della funzione di costo é sufficientemente piccolo rispetto ad un riferimento prefissato, si interrompono le iterazioni. 4. L'aggiornamento delle matrici sinaptiche nel corso di ogni iterazione (apprendimento) avviene strato dopo strato a partire dall'ultimo, per il quale il calcolo é particolarmente semplice. Negli altri casi si procede come descritto. * I valori delle soglie di attivazione dei neuroni di tutti gli strati (θ) sono anch'essi suscettibili di ottimizzazione con un procedimento del tutto analogo, che procede in parallelo a quello descritto per le matrici sinaptiche. Una applicazione allo studio delle strutture proteiche 60 Finestra 3.2 Diagramma di flusso per l'apprendimento supervisionato di un percettrone a due strati con retropropagazione degli errori (La nomenclatura e gli indici si riferiscono allo schema della Fig. 3.1) 1 Inizializza Wji e Wkj Oj = f (netj ) 2.1 Calcola netj e 2.2 Calcola netk e Ok = f (netk ) concatenazione in avanti 3 Calcola la se piccola C = ∑ (Uk − Ok ) FINE k se grande 4.1 Calcola la f '(net k ) 4.2 Calcola 4.3 Calcola 4.4 Aggiorna ∂ k = η (U k − Ok ) f ∆W kj = η ∂k Ok W kj 4.5 Calcola la f ' (net j ) 4.6 Calcola 4.7 Calcola 4.8 Aggiorna ∂j = f (net j ) ∑k ∂ k W kj ∆W ji = η ∂ j O j W ji ' (net k ) ' Retropropagazione dell'errore su due strati Una applicazione allo studio delle strutture proteiche 61 3.2 La predizione delle strutture proteiche Il problema Le proteine costituiscono la componente di gran lunga preponderante fra le macromolecole costituenti le cellule. Questo sia dal punto di vista ponderale che in considerazione dell'importanza e varietà delle funzioni svolte. Capire in che modo tali funzioni siano legate alla struttura molecolare costituisce uno degli argomenti centrali dell'odierna ricerca in Biologia Molecolare, Biochimica e Biofisica [Branden and Tooze, 1992]. Le proteine sono polimeri lineari formati da centinaia di unità elementari, gli aminoacidi, caratterizzati da una estremità carbossilica (acida) ed una amminica (basica) ed esistenti in natura in 20 diverse varietà (Finestra 3.3). Lo studio della organizzazione strutturale delle proteine avviene a 4 diversi livelli : - Struttura Primaria: corrisponde alla sequenza degli aminoacidi e alla posizione dei legami disolfuro, quando ve ne sono, e riflette quindi l’insieme dei legami covalenti di una proteina. - Struttura Secondaria: si riferisce alla disposizione nello spazio dei residui di aminoacidi adiacenti nella sequenza lineare. Alcune di queste relazioni steriche sono di tipo regolare e danno origine a strutture periodiche: l’ α-elica e la struttura β sono elementi di struttura secondaria. Quando le relazioni non sono di tipo regolare, esse si dicono random-coil. - Struttura Terziaria: riguarda la disposizione nello spazio dei residui di aminoacidi lontani fra loro nella sequenza lineare. La linea di divisione fra struttura secondaria e terziaria non è netta. - Struttura Quaternaria: le proteine che contengono più di una catena polipeptidica hanno un ulteriore livello di organizzazione strutturale: ciascuna catena polipeptidica viene chiamata subunità e la struttura quaternaria si riferisce alla disposizione nello spazio di queste subunità. Predire l'arrangiamento tridimensionale delle proteine, cioé le loro strutture secondaria e terziaria, dalla sequenza lineare degli aminoacidi componenti (struttura primaria), è diventato un argomento di grande attualità da quando le tecniche di biologia molecolare (DNA ricombinante) consentono di accumulare informazione sulle strutture primarie ad una velocità molto maggiore di quanto non facciano, relativamente alle strutture tridimensionali, le tecniche spettroscopiche (diffrazione dei raggi X, NMR, etc.). Bisogna inoltre considerare che per le proteine cosidette "intrinseche di membrana", molte delle quali svolgono un ruolo chiave in processi fondamentali come la respirazione (citocromi b, c1, a, etc.) o il riconoscimento Una applicazione allo studio delle strutture proteiche 62 (maggior complesso di istocompatibilità, etc.) cellulare, l'uso delle tecniche diffrattometriche é fortemente ostacolato dalla difficile cristallizzabilità. D'altra parte, le basi-dati su cui si fondano le tecniche predittive sono costituite nella quasi totalità da proteine solubili: ci si trova insomma nella sfavorevole situazione per cui proprio laddove dei metodi predittivi si avrebbe più bisogno (proteine di membrana), essi sono meno efficienti per la squilibrata composizione della base dati. I metodi statistici tradizionali Mentre non é possibile, al momento, fare a meno dell'informazione sperimentale diretta nello studio delle strutture terziarie e quaternarie, per la predizione delle strutture secondarie un considerevole numero di proposte [Pascarella et al., 1990], basate su metodi di tipo statistico, sono apparse in letteratura a partire dal classico lavoro di Chou e Fasman [Chou & Fasman, 1978]. Il metodo tradizionale attualmente più popolare per facilità d'uso e affidabilità dei risultati é dovuto a Garnier e collaboratori [Garnier et al., 1987]. Esso, dal punto di vista dell'utilizzatore finale, si riduce all'uso di tavole di “propensità” a formare le tre principali strutture secondarie (α -eliche, foglietti β e strutture disordinate) da parte dei residui all'interno di una finestra di ampiezza arbitraria. Di considerevole interesse per la sua originalità appare il metodo suggerito da Lim [Lim, 1974] basato sull'identificazione di 'patterns' locali di idrofobicità lungo la sequenza. Non va dimenticato, comunque, che lo scopo finale di ogni metodo predittivo é di chiarire l'arrangiamento tridimensionale della proteina e che, in questa prospettiva, percentuali di correttezza nella predizione delle strutture secondarie dell'ordine del 65-70%, quali si ottengono con i metodi succitati, sono ancora inadeguate. Tali prestazioni migliorano quando ci si riferisce a condizioni particolarmente favorevoli, cioé quando le proteine di “test” sono omogenee alla gran maggioranza delle proteine contenute nel data-base. In mancanza di tale omogeneità la “performance” del metodo é drasticamente ridotta. L’approccio connessionista L'uso di reti neurali ad apprendimento supervisionato nei problemi relativi allo studio della struttura tridimensionale di proteine è relativamente recente e limitato alla predizione delle strutture secondarie, ed i lavori specifici sull'argomento sono pochi. Una applicazione allo studio delle strutture proteiche 63 Finestra 3.3 A. Natura chimica degli aminoacidi Aminoacidi Naturali Simbolo Simbolo abbreviato Formula Alanina Cisteina Ac. Aspartico Ac. glutammico Fenilalanina Glicina Istidina Isoleucina Lisina Leucina Metionina Asparagina Prolina Glutammina Arginina Serina Treonina Valina Triptofano Tirosina Ala Cys Asp Glu Phe Gly His Ile Lys Leu Met Asn Pro Gln Arg Ser Thr Val Trp Tyr A C D E F G H I K L M N P Q R S T V W Y R-CH 3 R-CH 2-SH R-CH 2-COOH R-CH 2-CH 2-COOH R-CH 2-Ph R-H R-CH 2-Imidazolo R-CH(CH3)-CH 2-CH 3 R-(CH 2)4-NH 2 R-CH 2-CH(CH 3)2 R-CH 2-CH 2-S-CH 3 R-CH 2-CO-NH 2 2-carbossi Pirrolidina(*) R-CH 2-CH 2-CO-NH 2 R-(CH 2)2-NH-CH(NH2)2 R-CH 2-OH R-CH(OH)-C(H)3 R-CH(CH3)2 R-CH 2-Indolo R-CH 2-Ph-OH Nota: R = -CH(NH2)-COOH ; Ph = -C6H5 ; PhOH = -C6H4-OH B. Relazioni fra strutture primaria, secondaria e terziaria. Struttura Primaria (1 quadratino = 1 AminoAcido) Elemento di StrutturaSecondaria Struttura Terziaria (alpha-elica) Una applicazione allo studio delle strutture proteiche 64 Alcuni di essi, tuttavia, riportano i risultati dell'applicazione del metodo in forma tabulare, analoga alle tavole dei valori di “propensità” degli amminoacidi per le varie conformazioni, prodotte da alcuni dei metodi statistici. Ciò mette in grado chiunque di utilizzare tali risultati ai fini della predizione della struttura secondaria di un qualunque polipeptide. Lo schema funzionale per un percettrone impiegato nella predizione di strutture secondarie proteiche é comunque basato sulle due fasi seguenti: Fase 1 (apprendimento): Si sottopongono alla rete un certo numero di casi significativi, per i quali si conosce l’esatta corrispondenza fra struttura primaria e secondaria della proteina, ottimizzando in base a questa corrispondenza la geometria e l’intensità delle connessioni e il valore di soglia per i neuroni. Questa fase, assolutamente peculiare di questo approccio, viene schematizzata nella Figura 3.2. Fase 2 (interrogazione): Si sottopone allo strato di input della rete una struttura primaria lasciando che, in base ai valori relativi alle connessioni e alle soglie, ottimizzati nella precedente fase di “Apprendimento”, lo strato di Output proponga una struttura secondaria corrispondente. La Figura 3.3 illustra l'architettura di un generico percettrone usabile nella predizione della struttura secondaria di proteine. Numerose varianti rispetto a tale schema di massima sono state, tuttavia, ampiamente sperimentate. Un'osservazione di rilievo è che le prestazioni di una rete non dipendono in modo semplice dalle dimensioni del "training set" usato nella fase di apprendimento. In particolare: - grande importanza riveste il grado di omologia esistente fra le proteine del “training set” e quelle del “testing set” (usate nella fase di interrogazione ); - tanto meglio la rete “impara a riconoscere” le proteine del training set, tanto peggiore sarà la sua abilità predittiva nei confronti di proteine “non note” . Considerazioni conclusive Le peculiarità dell'uso di reti neurali nella predizione delle strutture proteiche che sembrano particolarmente promettenti rispetto agli approcci di tipo tradizionale sono: - la non necessità di assunzioni teoriche preliminari; - la flessibilità nella definizione dell'architettura delle reti, che consente di trovare arrangiamenti ottimali per problemi/situazioni particolari; - la prospettiva di sfruttare appieno alcuni recenti sviluppi nelle tecnologie informatiche come l'uso contemporaneo di numerosi processori "in parallelo", Una applicazione allo studio delle strutture proteiche 65 con conseguenti miglioramenti nella efficienza computazionale misurabili in ordini di grandezza. I limiti riscontrati nelle applicazioni realizzate finora indicano tuttavia che non ci si puo' aspettare miglioramenti sostanziali nella soluzione del problema da un uso indiscriminato del metodo in termini di scatola nera. Esso va visto, a nostro parere, come un ulteriore strumento di indagine, potente e flessibile, che si aggiunge agli altri già in nostro possesso, complementandoli con caratteristiche nuove ed originali. Figura 3.2 L'algoritmo ciclico di apprendimento per un percettrone da usare nella predizione di strutture secondarie di proteine Lo strato di Input codifica la sequenza Lo strato di Output codifica la strutt. secondaria Loop 1 Si ottimizzano la forza delle sinapsi e le soglie Esempio iesimo di corrispondenza nota fra strutture primaria e secondaria. Calcolo di C(i) N Y FINE La riduzione in ∆C è asintotica? Loop 2 Calcolo di ∆C = C(i)-C(i-1) Nota: L'apprendimento consiste nel minimizzare una funzione (C) delle differenza fra risultati attesi e risultati ottenuti (cfr. diagramma di flusso in Finestra 3.2) delle unità di output di ogni livello neuronico (i = numero di iterazione) Una applicazione allo studio delle strutture proteiche 66 Figura 3.3 Generica architettura di un percettrone multistrato utilizzato nella predizione della struttura secondaria di proteine. G1 G2 G7 G12 G13 1 2 3 Strato di Input 19 20 (Ala) (Phe) (Trp) Sinapsi Strato intermedio Sinapsi Strato di Output α β coil Legenda: Lo strato di “input” è costituito da gruppi di neuroni (G1....G13) il cui numero è pari all'estensione della" finestra mobile" lungo la sequenza da esaminare. I neuroni all'interno di un gruppo (in genere 20) codificano un singolo residuo secondo uno schema binario (Es.: 10000000000000000000 = Ala; 00000000000000000001 = Trp). Lo strato di “output” contiene in genere tanti neuroni quante sono le conformazioni (tipicamente a-elica, b-sheet e random-coil) fra le quali si vuole identificare quella del residuo centrale nella finestra. Sono tuttavia possibili soluzioni alternative (vedi appresso). Lo strato intermedio, se presente, contiene un numero variabile di unità collegate agli strati di input ed output da sinapsi (indicate solo in forma generica nello schema), le cui posizioni e intensità vengono definite nel corso del processo di apprendimento. Una applicazione allo studio delle strutture proteiche 67 3.3 Implementazione e Risultati Il caso della Nitrito-reduttasi di Pseudomonas aeruginosa In questo paragrafo viene descritto un caso interessante di applicazione del metodo di predizione della struttura secondaria di una proteina che utilizza un percettrone ad uno strato di sinapsi e l'algoritmo di retropropagazione dell'errore riportato nella Finestra 3.2. La proteina é la nitrito-reduttasi di Pseudomonas aeruginosa , un enzima che catalizza la reazione: 2 H + + 1e- + NO2- -------> H 2O + NO all'interno della catena respiratoria batterica che opera la denitrificazione dissimilativa ovvero la trasformazione metabolica del nitrato ad azoto [Horio et al., 1958; Yamanaka, 1961]* . L'enzima é un omodimero di P.M. 120 KDalton contenente 4 gruppi prostetici, due emi di tipo c e due emi di tipo d1 [Gudat et al., 1963; Kuronen and Ellfolk, 1972; Kuronen et al., 1975; Silvestrini et al., 1978], responsabili dei caratteristici spettri di assorbimento nel visibile dell'enzima. L'eme c costituisce il sito di interazione con i substrati macromolecolari riducenti (citocromo c551 ed azzurrina) [Horio, 1960], mentre al livello dell'eme d1 avviene la riduzione del nitrito e l'interazione con altri ligandi tipici delle emoproteine (NO, CO, O2, etc.). I potenziali redox dei due emi sono poco diversi fra loro e fortemente dipendenti dalle condizioni sperimentali : pH, ligandi, etc. Nuovi motivi d'interesse nello studio di tale enzima sono costituiti da: A) la disponibilità della struttura primaria, recentemente ottenuta [Silvestrini et al., 1989]; B) la conoscenza del gene corrispondente, che é stato clonato, sequenziato e recentemente espresso in un sistema eterologo (Pseudomonas putida ) [Silvestrini et al., 1992]. * E' interessante notare che l'enzima é anche in grado di catalizzare la riduzione dell'ossigeno molecolare ad acqua, secondo la: 4 H+ + O 2 + 4e --------> 2H 2O nonostante ciò avvenga con efficienza minore (e sicuramente con diverso meccanismo) rispetto alla reazione fisiologica (Greenwood et al., 1978). Per questo motivo tale enzima é stato a lungo considerato come un modello semplificato (perché idrosolubile e meno complesso strutturalmente) della citocromo ossidasi mitocondriale. Una applicazione allo studio delle strutture proteiche 68 Informazioni strutturali disponibili L'enzima é sintetizzato come una pre-proteina di 567 aminoacidi i primi 22 dei quali costituiscono il peptide segnale che dirige la proteina nello spazio periplasmatico e che viene successivamente proteolizzato. La proteina matura é quindi costituita da 543 residui aminoacidici (Figura 3.4 A). Il sito dell'eme c é situato vicino all'estremità aminico-terminale della catena polipeptidica; nulla si sa, viceversa, del sito di legame dell'eme d1. Per quanto riguarda la struttura secondaria, studi di dicroismo circolare hanno mostrato una rilevante percentuale di foglietto-β, circa il 48%, ed una minore percentuale di α-elica, circa il 16% [Tordi et al., 1984]. La bassa qualità dei cristalli finora ottenuti ha impedito qualunque studio diretto della struttura tridimensionale con la diffrattometria a raggi X. Studi a bassa risoluzione [Berger and Wharton, 1980; Saraste et al., 1977] indicano una struttura dimerica le cui dimensioni sono di circa 40 x 80 Å; studi di fluorescenza [Mitra and Bersohn, 1980] indicano che i quattro emi si trovano ad un polo del dimero (Figura 3.4 A). Numerose evidenze (studi di denaturazione termica e di proteolisi in condizioni controllate) suggeriscono variazioni conformazionali sull'enzima dipendenti dallo stato redox e dalla presenza di ligandi sugli emi. Risultati La osservazione, ampiamente documentata in letteratura [Quian & Sejnowskj, 1988] e da noi riprodotta che la performance funzionale di un percettrone dipenda strettamente dalla composizione del 'training set', ci ha indotto ad esaminare l'efficacia predittiva di un semplice percettrone a 2 livelli, implementato su un foglio elettronico programmabile (Wingz1.1), ed addestrato con tre diversi training-sets. I risultati ottenuti, riportati nella Tabella 3.1, mostrano che in uno dei tre casi la predizione é in accordo soddisfacente con le stime ottenute dagli spettri di dicroismo circolare delle percentuali di α-elica e foglietto β esistenti nell'enzima completamente ridotto. Una applicazione allo studio delle strutture proteiche 69 F igura 3.4 Informazione strutturale disponibile sulla nitrito reduttasi da P seudomonas aeruginosa A. Struttura P rimaria : 543 Aminoacidi 1234567890123456789012345678901234567890123456789 0 | | | | | K C K P G W I T V G S V D H E N R P V G I T Q W B. D G Q L D P N K D D S N M V I F A Q V V S P V G K L T S R F K L K K A K A R L V I A E L D N V N A K M T D I E G A L M M Q A K R I D Y T Y D D G Q G I A L E G K Q G W T A P H Q A L A L T I K E S T P A E P A P P L P K V D Q V T Q D I P D K I P T P G V V A Q E D A S H Q W S E T V R G K I R V G M K K G R Q P I I M T Q E V G T N Y M K I V G L R V E D A E E I A T P A S D R Q D L W T S T M I K G V Y S T V Y E H E Y L A S P S G V V S E E T K H K P F P P I F R N L E S K V E G D R G A A M R M Y A K P P S E I Q N K A D I I W K S R A Y G Q G Y S F S L R T H Q S N Y I E R G D L A H C E L L G P A L D V A E G S L I Y F V R H F D N R P D S Y L Q L S K S Y K A D A A N L I L W L V D V K D V N D K A V L V V K D T G A Y D V K E Q K T T L V T S P Q L L I H G P K G P Q I L A G G A K A R G E A P G G W V F A S A V L N L D K H F F L D D V I G P G H K E R G P T G L W K H A I D Y P K T S G K R P S P S V T H V S V G R W H Q K Y S L P F F T Y E N M S V Y V T H D N Y A L T K N A G T R T N D F G Q N G N D H S S P E D N I D V V K S A W Y V L R F A I I S Struttura Q uaternaria a Bassa risoluzione Una applicazione allo studio delle strutture proteiche 70 Tabella 3.1 Influenza della composizione del 'training set' sulla predizione della struttura secondaria della nitrito reduttasi di Pseudomonas da parte di un percettrone. TRAINING SET 1 TRAINING SET 2 TRAINING SET 3 ($) (§) (&) dicroismo circolare (*) (100% riduzione) HELIX(% ) 0.07 0.23 0.20 0.16 ± 0.01 BETA (%) 0.42 0.37 0.50 0.48 ± 0.02 COIL (%) 0.50 0.41 0.29 n. d. (*) Da Tordi et al. (1984 ) ($) training set 1 = Bence-Jones protein + SOD (from erythrocytes) (§) training set 2 = b-trypsin + ferredoxin (&) training set 3 = subtilisin inhibitor + plastocyanin ---------------------------------------Tali risultati indicano che la miglior strategia per ottimizzare la performance di un percettrone nella predizione delle strutture secondarie incognite consista non tanto nell'amplificare il più possibile le dimensioni del training set usato nella fase di addestramento, quanto nello scegliere con estrema cura la sua composizione. Questo, ovviamente, assegna una responsabilità primaria al ricercatore, che deve utilizzare tutta l'informazione disponibile sul sistema in studio e su quelli ad esso in qualche modo correlati e di struttura nota*. Laddove ciò si rivelasse un compito difficile o impossibile, tuttavia, si dovrebbe ancora poter sfruttare le capacità classificatorie delle mappe di Kohonen per individuare automaticamente, sulla base della conoscenza della sola struttura primaria, i migliori candidati per la composizione del training-set. * Numerosi autori hanno già suggerito, del resto, di ricorrere sistematicamente alla considerazione delle omologia di sequenza e di struttura secondaria, per risolvere il problema - ben più complesso - della determinazione della struttura terziaria. Una applicazione allo studio delle strutture proteiche 71 Appendice A.3: Confronto fra metodi statistici e connessionisti 1. METODI STATISTICI Chou e Fasman (1978) Tale metodo si basa sulla definizione del cosiddetto “parametro conformazionale” P j,k per ogni residuo J ed ogni conformazione k, corrispondente alle frequenze con cui il residuo appare in quella configurazione all'interno di un data-base, normalizzate rispetto alla frequenza media della configurazione: Pj,k = fj,k / <fk>. In tal modo é possibile individuare, lungo una struttura polipeptidica qualsiasi, dei siti di nucleazione specifici per ogni configurazione usando il metodo della finestra mobile: <Ps> = Ps,j / (n+1) , dove Ps,j é la propensità per la conformazione k del residuo in posizione j lungo un frammento di sequenza lungo n+1. Così, ad esempio, le due coppie di condizioni seguenti: <P β> ≤ <P α > e 1.03 ≤ <P α >, all'interno di un esapeptide; e <P α > ≤ <P β> e 1.05 ≤ <P β>, all'interno di un pentapeptide, indicano, rispettivamente, siti di nucleazione per un'alfa elica e un foglietto beta. I maggiori problemi, con tale metodo, lunghezza dei tratti in una specifica struttura nascono dalla difficile definizione della e dalla predizione dei "beta-turns" o "hairpines", che spesso si sovrappongono e distruggono le altre strutture. E' stato notato che perfino la diretta implementazione della più semplice e primitiva versione del metodo originale, non fornisce risultati riproducibili per l'ambiguita delle regole suggerite nel definire i casi dubbi. Garnier (1987). L'idea di base sviluppata da Garnier statistiche esistenti consiste nel mappare fra strutture primaria e secondaria la correlazioni sotto forma di "tavole" contenenti i cosiddetti "indici di propensità" di un dato residuo per una data struttura secondaria sulla base della natura chimica del residuo e dei suoi immediati vicini nella sequenza. Più specificamente, il metodo é basato sulla valutazione della funzione seguente: I = (Sj = X : <X> ; Rj-w , ... Rj-w) Una applicazione allo studio delle strutture proteiche 72 dove I residuo rappresenta l'informazione relativa allo stato conformazionale del j-esimo (Sj) e incorporata nella natura chimica dei 2*W+1 residui (Rj-w , ... Rj-w) all'interno di una finestra di mezza-larghezza = W e centrata sul residuo j-esimo. X é una specifica struttura secondaria (α-elica, rappresenta le altre strutture diverse da X. foglietto-β o random-coil) Nell'articolo originale di (1987), il modo di ricavare rigorosamente I dalle frequenze e <X> Garnier et al. osservate nelle strutture di proteine note é descritto nei partifcolari. Gli "indici di propensità" forniti nell'articolo in effetti si riferiscono alla seguente espressione semplificata: m = +8 ∑ m = -8 I (S j = X : X ; R j + m ) in cui l'influenza esercitata sui residui contenuti in una finestra di mezza-larghezza=8 vengono assunti come indipendenti l'uno dall'altro, e quindi semplicemente additivi. autori sottolineano, d'altra parte, Gli che qualunque altra approssimazione meno drastica sarebbe resa inutile dalla scarsità dei dati sperimentali disponibili. 2. METODI CONNESSIONISTI Holley and Karplus (1989) Lo strato di Input consiste in una finestra di 17 gruppi. Ogni gruppo è costituito da 21 neuroni, uno per ciascuno dei 20 aminoacidi, più uno usato quando la finestra mobile si sovrappone con l'estremità della catena polipeptidica. Lo strato intermedio contiene due soli neuroni. Anche lo strato di output contiene due soli neuroni, che codificano le strutture secondarie secondo lo schema : (1,0) = a ; (0,1) = b ; (0,0) = coil. I reali positivi compresi fra 0 ed 1 che costituiscono i valori effettivamente assunti dalle unità di output (vedi Tavola I), vengono discretizzati in 0 o 1 con l'uso di un valore di soglia, anch'esso ottimizzato durante il processo di apprendimento. In definitiva, l' aelica è assegnata a quei gruppi di almeno quattro residui contingui che abbiano valori della prima unità di output maggiori sia della seconda, sia della soglia; il b-sheet è assegnato ai gruppi di almeno due residui contigui per i quali i valori della seconda unità di output siano maggiori sia della prima sia della soglia; il random-coil é assegnato a tutti i rimanenti valori. Una applicazione allo studio delle strutture proteiche 73 Qian and Sejnowski (1988) La rete standard usata da questi autori comprende: uno strato di output corrispondente ad una finestra di 13 residui, ognuno dei quali codificato da 20 neuroni; uno strato di output formato da 3 unità, ciascuna rappresentante una possibile conformazione secondaria da assegnare al residuo centrale della finestra; uno strato intermedio formato da 40 unità nascoste. Un piccolo ma significativo miglioramento nelle prestazioni è stato notato da questi autori utilizzando due reti in serie, in modo che, a parità di tutte le altre condizioni, l'output della prima divenga l'input della seconda. Quest'ultimo risulta in tal modo costituito da 13 gruppi con tre unità per gruppo, e contiene tutta l'informazione relativa alla struttura secondaria derivante dalla prima rete. Bohr et al. (1988) Le particolarità nelle reti usate da questi autori, consistono in: ampie, comprendenti 25 residui per lato; a) finestre molto b) strato di output composto da 2 unità codificanti (il livello di confidenza per) la presenza o l'assenza di una singola configurazione secondaria. Cio' significa che ottenere il quadro completo della struttura secondaria di una proteina comporta l'uso di tante reti, ciascuna specializzata per una particolare configurazione. Per il resto, le reti usate da questi autori sono molto simili a quelle usate da Qian e Sejnowski. 3. CONFRONTO TRA METODI DIVERSI La stime dell'efficienza predittiva di un qualunque metodo viene effettuata utilizzando degli indici di affidabilità, alcuni dei quali sono riportati nella Tabella 3.2. Tabella 3.2 Q3 = (percentuale di predizione corretta) = (P α + Pβ + Pcoil) / N in cui P i = residui previsti correttamente nella configurazione i-esima; N = numero totale di residui. Ci = (coefficiente di correlazione relativo alla configurazione i-esima ) = = in Pi ni oi ui Pin i − uio i (n i + u i )(n i + o i )(Pi + ui )(P i + o i ) cui : i puo' essere una qualunque configurazione ( α, β, coil, ... ) ; = numero di residui previsti correttamente in configurazione iesima; = " " non previsti " " " ; = " " previsti non correttamente " " ; = " " non previsti non correttamente " " . Una applicazione allo studio delle strutture proteiche 74 Un confronto fra i due approcci alternativi (statistico e connessionista) che tenga conto soltanto dell'affidabilità dei risultati ottenuti in uno o più casi particolari é, a nostro parere, scarsamente convincente, perché é difficile garantire che il confronto avvenga in condizioni esattamente comparabili. Nella Tabella 3.3 vengono comunque riportati i risultati di due analisi di questo tipo che indicano prestazioni significativamente migliori nel caso dei percettroni. Tabella 3.3 Confronto fra metodi statistici e connessionisti in base agli indici della Tabella 3.2: Q3 ; (Ca, Cb, Ccoil) autori del metodo autori del confronto Quian & Sejnowski, 1988 (#) Holley & Karplus, 1989 ($) Chou Fasman Robson Lim NN (1) NN (2) 50.0 (.25;.19;.24) 53.0 (.31;.24;.24) 50.0 (.35;.12;.20) 62.7 (.35;.29;.28) 64.3 (.41;.31;.41) 48.0 55.0 54.0 63.0 (.41;.32;.36) Note: NN (1) e NN (2) si riferiscono rispettivamente a una e due reti neuronali (in serie). In tutti i casi l’assegnazione delle strutture secondarie è basata sull’algoritmo di Kabsch and Sander (1983). (#) “training” = 18105 residui / 91 proteine ; “test” = 2441 residui / 15 proteine ($) “training” = 8315 residui / 48 proteine ; “test” = 2441 residui / 14 proteine Una applicazione allo studio delle strutture proteiche 75 Bibliografia del Capitolo 3 Berger H. and Wharton D. C. (1980) Biochim. Biophys. Acta, 622,355-359. Branden C. and Tooze J., (1991), "Introduction to protein strucure", Garland Pub., N.Y. and London. Chou P.Y. and Fasman G.D., (1978) , Adv. Enzymol. 47, 45-148 Cohen F.E., Abarbanel R.M., Kuntz I.D. and Fletterick R.J.; (1986), Biochemistry 25, 266-275. Ferràn E. A. and Ferrara P. (1991), Biol. Cybern. 65, 451-458 Gibrat J.-F., Garnier J. and Robson B; (1987), "Further developments of protein secondary structure prediction using information theory", J. Mol. Biol. 198, 425-443. Greenwood C.,Barber D., Parr S.R.,Antonini E.,Brunori M. and Colosimo A.(1978), Biochem. J. 173, 11-17. Gudat J.C., Singh J. and Wharton D.C. (1973) Biochim. Biophys. Acta 292, 376-390. Horio T., Higashi T., Matsubara H., Kusai K., Nakai M. and Okunuki K.(1958) Biochim. Biophys. Acta 29, 297-302. Horio T., Higashi T., Sasagawa M., Kusai K., Nakai M. and Okunuki K. (1960) Biochem. J. 77, 194-201 Kabsch W. and Sander C. , (1983), Biopolymers, 22, 2577-2637. Kuronen T., and Ellfolk N. (1972) Biochim. Biophys. Acta 275, 308-318. Kuronen T., Saraste M. and Ellfolk N. (1975) Biochim. Biophys. Acta 393, 48-54. Lesk A.M., (1991), "Protein Architecture: a practical approach", IRL Press, Oxford. Lim V.L., J. Mol. Biol., 88, 873, 1974. Parr S.R., Barber D., Greenwood C., Phillips B.W. and Melling J. (1976) Biochem. J. 157, 423-430. Pascarella S., Colosimo A. and Bossa F., (1990), "Computational analysis of protein sequencing data", in "Laboratory methodology in Biochemistry", (Fini C. and Wittman-Liebold B. eds.), CRC Press, Boca Raton (USA) Qian N. and Sejnowski T.J. (1988) . Predicting the secondary structure of globular proteins using neural networks models. J. Mol. Biol. 202, 865-884 Saraste M., Virtanen I. and Kuronen T. (1977) Biochim. Biophys. Acta 492, 156-162. Silvestrini M. C., Colosimo A., Brunori M., Walsh T.A., Barber D. and Greenwood C. (1978) Biochem. J. 183, 701-709. Silvestrini M.C., Cutruzzolà F., D' Alessandro R., Brunori M., Fochesato N. and Zennaro E., Biochem. J. (1992) 285, 661-666. Silvestrini M.C., Galeotti C.L., Gervais M., Schininà E. , Barra D. , Bossa F. and Brunori M., FEBS Letters (1989), 254, 33-38. Silvestrini M.C., Tordi M.G., Musci G. and Brunori M. (1990) J. Biol. Chem. 265, 1178311787. Tordi M.G., Silvestrini M.C., Colosimo A., Provencher S. and Brunori M., (1984), Biochem. J., 218, 907-912. Tordi M.G., Silvestrini M.C., Colosimo A., Provencher S., and Brunori M., (1984), Biochem.J., 218, 907-912. Tordi M.G., Silvestrini M.C., Colosimo A., Tuttobello L., and Brunori M., (1985), Biochem.J., 230, 797-805. Yamanaka T. (1972) Adv. Biophys. 3, 227-276. Yamanaka T., Ota A. and Okunuki K. (1961) Biochim. Biophys. Acta 53, 294-308. Una applicazione allo studio delle strutture proteiche