Sulla classificazione di famiglie proteiche attraverso Self Organizing Maps Dalla scoperta della struttura del DNA nel 1953, la cosiddetta era genomica persegue come obiettivo il sequenziamento del genoma di un organismo e la comprensione delle sue funzioni biologiche: un gene, codificando una proteina, conserva in sé stesso l’informazione necessaria per esplicare una specifica funzione. La costruzione di modelli per la predizione delle strutture secondarie e terziarie, e quindi della funzione di una proteina, a partire dall’allineamento multiplo di sequenze proteiche e dal riconoscimento di regioni aminoacidiche ben conservate ad elevata similarità, appare come un passaggio estremamente seducente, oltre che praticamente utile. Ricercare similarità ed omologie fra proteine permette un loro raggruppamento in famiglie, e la possibilità di inferire proprietà dalla definizione stessa della famiglia di appartenenza, partendo da una dato effetto per predirre un’ipotesi casuale, che a sua volta può essere verificata con il metodo sperimentale. Scopo di questa Tesi è costruire una Self Organizing Map o Rete di Kohonen, dedicata alla classificazione di famiglie proteiche: addestrando questo particolare tipo di Rete Neurale Artificiale non supervisionata su classi proteiche già riconosciute, è possibile determinare un loro rappresentante, ed usare la similitudine ai clusters così costruiti per predirre l’omologia di nuove proteine. Un tale approccio è ragionevole in virtù del fatto che i processi evolutivi tendono a conservare la struttura e la funzione di una proteina, e quindi la similarità fra proteine può effettivamente indicare la loro omologia. Si può già intuire come l’affidabilità di un tale metodo predittivo risieda nella definizione di una funzione di similarità per sequenze proteiche, nel riconoscimento di opportune features caratterizzanti, e nell’indicazione di un valore soglia discriminante l’appartenenza ad una famiglia. Le cosiddette Self Organizing Maps, o SOMs, sono state introdotte da T. Kohonen tra il 1979 e il 1982, ispirandosi agli studi biologici sul cervello umano: sono reti neurali a due strati non supervisionate ad apprendimento competitivo, costituite da uno Strato di Input, e da uno Strato di Kohonen. Ogni neurone di uscita è collegato con tutti i neuroni di ingresso, e con tutti quei neuroni di uscita che rientrano in suo intorno; i pesi inter-strato sono modificabili, mentre i pesi intra-stato sono fissi e dipendono dalla distanza dei neuroni connessi. I neuroni dello strato di Kohonen sono utilizzati in competizione, rispondendo ad ogni ingresso con un dato neurone vincente, ovvero quello i cui pesi sinaptici sono più vicini agli ingressi, autoorganizzandosi per rappresentare differenti classi di ingresso e specializzandosi nel riconoscere uno stimolo: attraverso l’inibizione o l’eccitazione laterale, neuroni vicini a quelli attivi rinforzano i legami in modo tale che ad input simili rispondano neuroni vicini. 1 In altre parole, la Mappa tenta di rappresentare le caratteristiche topologiche dello spazio vettoriale di Ingresso, cogliendone alcune regolarità ed effettuando un raggruppamento o cluster dei dati, con riduzione di dimensionalità e cardinalità sullo spazio di Uscita. Il valore di uscita di una SOM può essere rappresentato sia dalla posizione nella griglia del neurone vincente, realizzando una quantizzazione vettoriale adattiva da un vettore reale in ingresso ad un valore discreto intero, sia dal vettore dei pesi sinaptici del neurone vincente, implementando un codificatore vettoriale con una compressione delle coordinate di ingresso. Per poter impiegare la SOM come classificatore di famiglie proteiche è necessario rappresentare le famiglie in un qualche Spazio Vettoriale Normato, dove poter utilizzare una funzione distanza come misura di similitudine. Alternativamente, ricollegandosi agli studi sulla cosiddetta Protein Homology Network (PHN), potrebbe essere interessante rappresentare la topologia di famiglie proteiche in un dominio strutturato gerarchico, da proiettare su un piano bidimensionale come Training Set per una SOM. In entrambi i casi, il punto di partenza è la similarità proteica espressa in termini di similitudine di sequenze. Mentre i primi studi connessionisti sui metodi predittivi della struttura secondaria e terziaria di una proteina si fondano su Sistemi Esperti come il Multi Layer Perceptron, il nostro lavoro ha esplorato la possibilità di utilizzare algoritmi di Clustering, in particolare le Self Organizing Maps, nella speranza di preservare la topologia dello spazio di Ingresso nello spazio di Uscita a ridotta dimensionalità e cardinalità. Un incoraggiamento a proseguire è dato dal limite degli approcci classici connessionisti, dove la Back Propagation richiede in fase di apprendimento un’enorme mole di calcoli sia in modalità on-line, con aggiornamento iterativo su ogni ingresso, sia in modalità batch, con aggiornamento iterativo dopo la presentazione dell’intero Training Set. La strada che sembra più promettente, ma anche più complessa, è quella di combinare più metodologie, integrando conoscenze biologiche, Soft Computing, algoritmi di Clustering. Uno sviluppo di questa Tesi potrebbe combinare le varie tecniche di Soft Computing, costruendo una SOM fuzzy, che possa sfruttare il calcolo parallelo intrinseco nelle Reti Neurali Artificiali, e possa rilevare le sfumature di appartenenza di elementi multi-dominio, come spesso accade per le proteine: una SOM con vicinato fuzzy sulla mappa ed uscite fuzzy, da ottimizzare attraverso algoritmi genetici e da validare attraverso metodi statistici. D’altra parte, dobbiamo osservare un limite intrinseco alle SOMs: la necessità di conoscere preventivamente il numero di clusters. Per questo motivo, usualmente una SOM viene utilizzata per ridurre la dimensionalità e la cardinalità di un Training Set, i cui dati così compressi sono successivamente classificati attraverso un Multi Layer Perceptron. 2 Sebbene i metodi connessionisti riscuotano attualmente un successo maggiore di quelli classici logicosimbolici, vogliamo concludere suggerendo la possibilità di una loro rivalutazione. In particolare, il Calcolo della Riscrittura di Termini, diretta semplificazione del Calcolo del Rimpiazzamento di Eguali con Eguali, con il suo motore inferenziale basato sulla Riduzione di un termine in forma normale rispetto ad un sistema di riscrittura, potrebbe adattarsi naturalmente a dati strutturati in grafi, siano essi sequenze aminoacidiche o grafi etichettati rappresentati relazioni di omologia: una Macchina a Riduzione che tenesse traccia del suo stato precedente potrebbe proporsi come un’interessante implementazione delle cosiddette Reti Neurali Ricorrenti 1 , ed in particolare delle Reti di Elman. 1 Le Reti Neurali Ricorrenti sono caratterizzate da più cicli di retroazione, con 1 o più strati, e connessioni fra tutti i nodi, dove il flusso di propagazione dei segnali è bidirezionale fra i vari nodi o addirittura ricorsivo su un stesso nodo. 3