Analisi delle risorse disponibili per il caso di studio relativo alla genomica Indice 1 Introduzione 2 2 Campi di ricerca della genomica 3 3 Database esistenti per la genomica 5 3.1 eggNOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 3.2 InterPro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.3 Pfam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.4 PRINTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 3.5 PROSITE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.6 SMART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3.7 SUPERFAMILY 3.8 UniProt . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 4 Strutture tassonomiche per la genomica 10 4.1 Funtional Catalogue (FunCat) . . . . . . . . . . . . . . . . . . . . 10 4.2 Gene Ontology (GO) . . . . . . . . . . . . . . . . . . . . . . . . . 10 5 Considerazioni nali sul progetto di ricerca 11 Riferimenti bibliograci 12 1 1 Introduzione La genomica è una branca della biologia molecolare che si occupa dello studio del genoma. Nella moderna accezione il termine genoma indica la totalità del materiale genetico di un organismo, sia pluricellulare sia unicellulare, composto dal DNA o dal RNA. Il genoma di un organismo comprende sia i geni, ossia la porzione codicante, sia il resto del materiale (non codicante) degli organismi viventi. Gli obiettivi che si pone la genomica sono lo studio della struttura, del contenuto, della funzione e della possibile evoluzione del genoma. Per perseguire tale studio si estraggono le varie sequenze dalle mappe genetiche del DNA e RNA degli organismi e entità viventi. Tali sequenze vengono annotate in maniera organizzata in appositi database, normalmente accessibili via Internet gratuitamente (vedi la sezione 3). Per ogni sequenza genetica vengono identicati e segnalati tutti i geni e le altre porzioni di sequenza signicative, insieme a tutte le informazioni conosciute su tali geni. Di conseguenza, nello studio del genoma per elaborare e visualizzare l'enorme quantità di dati da analizzare si utilizzano sistemi informatici. In particolare l'utilizzo del computer nello studio della genomica ha contribuito allo sviluppo della bioinformatica. Tale disciplina scientica permette la descrizione dal punto di vista numerico e statistico dei fenomeni biologici, fornendo un insieme di strumenti analitici e numerici che integrano e migliorano i risultati ottenuti dalla analisi biochimica e dalla biologia molecolare. La bioinformatica principalmente si occupa di: • Fornire modelli statistici validi per l'interpretazione dei dati provenienti da esperimenti di biologia molecolare e biochimica al ne di identicare tendenze e leggi numeriche. • Generare nuovi modelli e strumenti matematici per l'analisi di sequenze genetiche estratte da DNA o RNA e proteine al ne di creare un corpus di conoscenze relative alla frequenza di sequenze rilevanti, la loro evoluzione ed eventuale funzione. • Organizzare le conoscenze acquisite a livello globale su genoma e proteoma in basi di dati al ne di rendere tali dati accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei dati stessi per migliorarne l'accessibilità. 2 2 Campi di ricerca della genomica L'obiettivo primario della bioinformatica è quindi quello di migliorare la comprensione dei processi biologici tramite tecniche computazionali intensive come pattern recognition, data mining e machine learning. I principali ambiti di ricerca della bioinformatica nel campo della genomica includono: • Allineamento di sequenze (sequence alignment): si confrontano e allineano due o più sequenze primarie di amminoacidi tratte da DNA o RNA. L'allineamento permette di individuare regioni identiche o simili che possono avere relazioni funzionali, strutturali o evolutive (si veda ad esempio [1]). • Allineamento strutturale delle proteine (protein structure align- ment): studia l'omologia tra due o più strutture polimeriche basandosi sulla loro forma e conformazione tridimensionale. L'allineamento strutturale può essere usato per scoprire relazioni evolutive tra proteine aventi poche sequenza in comune (si veda ad esempio [2]). • Assemblaggio del genoma (genome assembly): si studiano come si uniscono tra loro le diverse sequenze del codice genetico in una unica sequenza genomica continua, che, in condizioni ideali, è costituita da tante sequenze indipendenti quanti sono i cromosomi (si veda ad esempio [3]). • Interazioni proteina-proteina (proteinprotein interactions): si studiano, identicandole e catalogandole, le interazioni tra due o più gruppi di proteine (si veda ad esempio [4]). • Predizione della funzione della proteina (protein function predic- tion): si studiano i metodi per assegnare una funzione alle proteine scar- samente analizzate o per predire il funzionamento di proteine basandosi su dati di sequenza genomiche (si veda ad esempio [5]). • Predizione della struttura proteica (protein structure predic- tion): si predice la struttura tridimensionale d'una proteina a partire dalla sua sequenza degli amminoacidi, ossia la predizione, partendo dalla sua struttura primaria, del ripiegamento proteico e della sua struttura secondaria, terziaria e quaternaria (si veda ad esempio [6]). • Predizione dell'espressione genetica (prediction of gene expres- sion): si studia il processo attraverso cui l'informazione contenuta in un gene viene convertita in una macromolecola funzionale, tipicamente una proteina (si veda ad esempio [7]). • Predizione genetica (gene prediction/gene nding): si identicano e predicono i geni codicanti proteine, a partire da sequenze genomiche note (si veda ad esempio [8]). • Studio di associazione genome-wide (GWAS o genome-wide asso- ciation studies): si studiano i geni di diversi individui di una particolare specie per determinare le variazioni geniche tra gli individui in esame, in modo da associare le dierenze osservate con alcuni tratti particolari come una malattia o una patologia (si veda ad esempio [9]). 3 • Sviluppo di nuove medicine (drug design, drug discovery): si stu- diano i processi per scoprire nuove medicine basandosi sulla conoscenza del soggetto da curare, basandosi sul principio che in generale ogni medicina è una molecola che attiva o inibisce la funzione di una biomolecola come una proteina (si veda ad esempio [10]). 4 3 Database esistenti per la genomica Come é stato accennato nell'introduzione le sequenze dei geni vengono annotate in appositi database. Tali database sono composti da una grande collezione di sequenze del DNA, RNA, proteine o altre sequenze di polimeri. Storicamente le sequenze venivano pubblicate su materiale cartaceo, ma il rapido aumentare del numero di sequenze ha reso tale soluzione ingestibile. Per tale motivo i database sono completamente digitalizzati ed accessibili via software. Ogni database si focalizza su alcune possibili annotazioni del genoma, per cui si hanno database specici per ogni esigenza di ricerca. I record dei database di sequenze sono estratti da una vasta gamma di fonti, che vanno dai singoli ricercatori a grandi centri di sequenziamento del genoma. Di conseguenza le sequenze stesse, e soprattutto le annotazioni biologiche collegate a tali sequenze, tendono ad essere qualitativamente diverse tra loro. C'è molta ridondanza in quanto più laboratori possono presentare numerose sequenze identiche, o quasi identiche, ad altre sequenze contenute nei database [11]. Molte delle annotazioni menzionate in precedenza non si basano su esperimenti di laboratorio, ma sui risultati della ricerca di similarità tra la sequenza esaminata nell'annotazione e le sequenze precedentemente annotate. Una volta che una sequenza è stata annotata in base alla somiglianza con altre sequenze e viene depositata nel database, può quindi diventare una base per le annotazioni future. Questo può portare a un problema di annotazione transitiva in quanto possono essere esaminati vari cambi di annotazione a causa della similarità di sequenza tra un particolare record di database e informazioni sperimentali ottenute in laboratorio [12]. Pertanto si deve prestare attenzione quando si interpretano i dati annotati nei database di sequenze. Di seguito riportiamo, tra tutti i database per la genomica esistenti, quelli di nostro interesse per la ricerca. 3.1 eggNOG L'eggNOG (evolutionary genealogy of genes: Non-supervised Orthologous Groups) 2 3 4 [13] è, assieme al COG /KOG /arCOG da cui deriva, l'unico database che fornisce una annotazione funzionale esplicita per le relazioni ortologhe tra gruppi di geni. In genomica vengono deniti ortologhi i geni che si dierenziano nel processo di speciazione (evoluzione), mentre vengono deniti paraloghi i geni che si dierenziano nel processo di duplicazione. A causa del ruolo centrale dei geni ortologhi sia nel ricostruire la storia delle specie che nel trasferimento delle informazioni funzionali tra le specie (quest'ultimo si basa sull'osservazione che i geni ortologhi sembrano più propensi a mantenere la funzione del gene ancestrale) si sono concentrati gli sforzi sullo studio dell'inferenza in ortologia e sono stati sviluppati a tale scopo più strumenti. 1 2 3 4 http://eggnog.embl.de/ http://www.ncbi.nlm.nih.gov/COG/ http://genome.jgi.doe.gov/Tutorial/tutorial/kog.html http://archaea.ucsc.edu/arcogs/ 5 1 L'ortologia, nonostante il ruolo centrale nella biologia evolutiva e genetica, resta dicile da denire nell'ambito della evoluzione a mosaico 5 in quanto il riassetto a livello di dominio dei geni spezza il concetto di storia dei singoli geni. 3.2 InterPro L'InterPro 6 [14] è un database che riordina varie informazioni sulle famiglie, sui domini e sui siti funzionali di proteine provenienti da più repository (tra cui Pfam (vedi sezione 3.3), PRINTS (vedi sezione 3.4), PROSITE (vedi sezione 3.5), SMART (vedi sezione 3.6)). I vari dati vengono ordinati in modo semiautomatico o manuale in modo da essere compatibili coi termini della Gene Ontology (vedi sezione 4.2) seguendo l'UniProt Knowledge (vedi sezione 3.8). Un ruolo centrale per il database viene occupato dai modelli diagnostici, noti come signature, tramite i quali si possono eettuare ricerche nelle sequenze delle proteine per determinare la loro funzione potenziale. InterPro fornisce inoltre degli strumenti utili sia per l'analisi a larga scala dell'intero genoma e metagenoma che per la caratterizzazione delle sequenze di proteine individuali. 3.3 Pfam Il Pfam 7 [15] è un database delle famiglie di proteine. Ciascuna famiglia viene denita da due allineamenti e dal prolo di un modello di Markov nascosto (Hidden Markov Model o HMM) [16]. I proli HMM sono modelli probabilistici utilizzati per l'inferenza statistica dell'omologia costruita a partire da una serie allineata di sequenze rappresentative per la famiglia denite da un curatore. È essenziale selezionare allineamenti di alta qualità in quanto fornisce la base per speciche posizioni delle frequenze di amminoacidi, gap e parametri di lunghezza per il prolo HMM. In Pfam il prolo HMM viene ricercato in una grande collezione di sequenze, basate sulla UniProt Knowledgebase (vedi sezione 3.8), per trovare tutte le istanze della famiglia. Le regioni delle sequenze che superano la soglia impostata per ogni famiglia (tale soglia viene chiamata gathering threshold e permette di eliminare i falsi positivi) sono allineati al prolo HMM per produrre l'allineamento completo. 3.4 PRINTS 8 [17] è un database di impronte delle proteine. Una impronta è un PRINTS gruppo di motivi conservati utilizzati per caratterizzare la famiglia di una proteina. Tramite scansioni iterative di un insieme composito SWISS-PROT/TrEMBL (vedi sezione 3.8) viene anata la sua capacità diagnostica. Solitamente i motivi non si sovrappongono ma sono suddivisi tramite una sequenza, nonostante possano essere adiacenti nello spazio tridimensionale. Le impronte possono codicare le pieghe e le funzioni delle proteine in modo più essibile e potente rispetto ad un singolo motivo a causa del grande potere diagnostico derivante dal mutuo contesto fornito dai motivi adiacenti. 5 Concetto secondo il quale il cambiamento evolutivo avviene in alcune parti del corpo, o in generale nei sistemi, senza che ci siano variazioni simultanee in altre parti 6 http://www.ebi.ac.uk/interpro/ 7 http://pfam.xfam.org/ 8 http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/ 6 3.5 PROSITE PROSITE 9 [18] viene utilizzato per determinare la funzione delle proteine non caratterizzate estratte da sequenze genomiche. Tale database contiene siti biologicamente signicativi e modelli formulati in modo tale con gli appropriati strumenti computazionali si possano identicare rapidamente in modo adabile a quale famiglia conosciuta di proteina (se esiste) appartiene la nuova sequenza. In alcuni casi la sequenza di una proteina sconosciuta è poco relazionata a qualunque proteina dalla struttura conosciuta per notare la somiglianza esclusivamente eettuando l'allineamento della sequenza, ma può essere identicata dal manifestarsi nella sequenza di un particolare cluster di tipi residui conosciuti col nome di pattern, motivi, signature o impronte. Questi motivi si presentano a causa di particolari requisiti nella struttura delle speciche regioni della proteina che possono essere importanti, per esempio per le loro proprietà di legame o per la loro attività enzimatica. Questi requisiti impongono dei vincoli molto stretti sull'evoluzione delle porzioni, piccole ma limitate, della sequenze delle proteine. Ci sono un numero di famiglie di proteine e di domini funzionali o strutturali che non possono essere scoperte tramite l'utilizzo di pattern a causa della loro estrema divergenza di sequenza. Per risolvere tale problema in PROSITE si utilizzano tecniche basate su matrici pesate (note anche come proli) che permettono la localizzazione di tali proteine o domini. 3.6 SMART 10 è un database che Il Simple Modular Architecture Research Tool o SMART viene utilizzato per l'identicazione e l'analisi dei domini contenuti nelle sequenze delle proteine. SMART utilizza i proli HMM [16] costruiti a partire da allineamenti di sequenze multiple per scoprire i domini delle proteine nelle sequenze. Ogni nuovo dominio scoperto viene memorizzato, assieme ai parametri di ricerca e le informazioni sulla tassonomia, in un sistema di database relazionali. L'interfaccia utente al database permette in seguito di ricercare proteine contenenti speciche combinazioni dei domini nelle tassonomie denite. 3.7 SUPERFAMILY 11 [20] è un database di annotazioni strutturali, funzionali e SUPERFAMILY evoluzionarie delle proteine di tutti i genomi completamente sequenziati e di tutte le grandi collezioni di sequenze come UniProt (vedi sezione 3.8). Tali annotazioni sono basate su una collezione di HMM [16] che rappresentano i domini strutturali delle proteine al livello di superfamiglia. Una superfamiglia raggruppa assieme domini aventi un legame evoluzionario. Le annotazioni sono prodotte scannerizzando le sequenze di proteine estratte dalle sequenze complete dei genomi tramite i HMM. 9 http://prosite.expasy.org/ 10 http://smart.embl.de/ 11 http://supfam.org/SUPERFAMILY/ 7 3.8 UniProt 12 è il più grande database per le La Universal Protein Resource o UniProt sequenze proteiche e le sue relative annotazioni. È suddiviso in diversi database: • UniProt Knowledgebase (UniProtKB)Swiss-Prot: è un database di sequenze proteiche di alta qualità, annotato manualmente, non ridondante. Esso combina le informazioni estratte dalla letteratura scientica e l'analisi computazionale valutata da un curatore. Le sequenze dello stesso gene e della stessa specie vengono fuse nella stessa voce del database. Le dierenze tra le sequenze vengono identicate e la loro causa documentata. Previsioni computerizzate sono valutate manualmente e i risultati pertinenti vengono selezionati per essere inclusi nella voce. Le voci an- notate vengono sottoposte al controllo di qualità, prima dell'inclusione nell'UniProtKB/Swiss-Prot. Quando i nuovi dati sono disponibili, le voci vengono aggiornate. • UniProtKB TrEMBL: contiene record di alta qualità analizzati computazionalmente e arricchiti con annotazioni automatiche. È stato introdotto in risposta al grande usso di dati generati dai progetti sulla genomica, in quanto l'annotazione manuale della UniProtKB/Swiss-Prot non può essere allargato per includere tutte le sequenze proteiniche disponibili. Vengono inseriti in questo database tutte le sequenze annotate scoperte nei 13 , PDB14 , Ensembl15 , vari database come EMBL-Bank/GenBank/DDBJ 16 e CCDS17 . RefSeq • UniProt Reference Clusters (UniRef): è composto da tre database di sequenze di proteine provenienti da UniProtKB e da record selezionati da UniParc. Il database UniRef100 combina sequenze identiche e frammenti di sequenza (da qualsiasi organismo) in una singola voce UniRef. Tali sequenze sono raggruppate usando l'algoritmo CD-HIT per costruire UniRef90 e UniRef50, in cui ogni cluster è composto da sequenze che hanno, rispettivamente, almeno il 90 % o 50 % di identità tra la sequenza e la sequenza più lunga. Il clustering delle sequenze riduce signicativamente le dimensioni del database, consentendo ricerche delle sequenze più veloci. • UniProt Archive (UniParc): è un database completo e non ridondante contenente tutte le sequenze proteiche (senza annotazioni) dai principali database di sequenze proteiche disponibili pubblicamente. Per evitare la ridondanza UniParc memorizza ogni sequenza una sola volta. Le sequenze identiche vengono unite, indipendentemente dal fatto che provengano o meno dalla stessa specie. Ad ogni sequenza viene assegnato un identicatore univoco (UPI) che permette di identicare la stessa proteina nei dierenti database. Quando le sequenze dei database di origine cambiano, queste modiche vengono rilevate da UniParc e vengono archiviate tutte le modiche apportate. 12 13 14 15 16 17 http://www.uniprot.org/ http://www.insdc.org/documents/feature-table http://www.rcsb.org/ http://www.ensembl.org/ http://www.ncbi.nlm.nih.gov/refseq/ http://www.ncbi.nlm.nih.gov/CCDS 8 • UniProt Metagenomic and Environmental Sequences (UniMES): è un repository specicamente sviluppato per i dati metagenomici e ambientali. Le proteine previste di questo dataset sono combinate con la classicazione automatica InterPro per migliorare l'informazione originale con ulteriori analisi. UniProtKB contiene sequenze proteiche di specie conosciute, i dati derivanti da studi metagenomici provengono da campioni dell'ambiente per cui alcune specie possono non essere conosciuti o identicati. I dati di UniMES non sono inclusi nel UniProtKB o UniRef, ma sono inclusi nell'UniParc. 9 4 Strutture tassonomiche per la genomica I seguenti database sono specializzati nella descrizione funzionale delle proteine. A causa della loro natura esclusivamente descrittiva è possibile utilizzarle come tassonomie nel nostro progetto di ricerca. 4.1 Funtional Catalogue (FunCat) Il Funtional Catalogue o FunCat 18 [21], come si può facilmente intuire dal nome, è un database utilizzato per delineare la descrizione funzionale delle proteine di qualsiasi tipo di organismo. FunCat consiste di 28 categorie principali che coprono funzioni generali come trasporto cellulare, metabolismo e comunicazione cellulare/trasduzione dei segnali. È gerarchicamente strutturato in un albero in cui le classi funzionali sono organizzate su 6 livelli. In cima troviamo le classi più generali e, scendendo lungo la gerarchia, le classi diventano sempre più speciche. I geni possono di conseguenza appartenere contemporaneamente a molteplici classi funzionali: ad esempio molte classi sono sottoclassi di una stessa classe più generale oppure i geni possono sia partecipare a diversi processi biologici che eseguire dierenti funzioni biologiche. 4.2 Gene Ontology (GO) 19 [22] è un database strutturato secondo un grafo aciclico. Gene Ontology (GO) È organizzato in tre ontologie che descrivono i geni secondo i processi biologici, le funzioni molecolari e i componenti cellulari in maniera indipendente tra le varie specie. Per questo motivo un gene può partecipare ad uno specico processo biologico e allo stesso tempo eseguire una specica componente cellulare. GO punta a descrivere minuziosamente come i geni si comportano nel contesto cellulare. Tuttavia una tale obiettivo è di dicile realizzazione. Una descrizione minuziosa porta necessariamente ad un elevato numero di termini, il che può sia rallentare il lavoro di annotazione dei geni che, nel caso di annotazioni errate, permettere il propagarsi di errori. 18 http://www.helmholtz-muenchen.de/en/ibis/resourcesservices/services/ funcat-the-functional-catalogue/ 19 http://www.geneontology.org/ 10 5 Considerazioni nali sul progetto di ricerca Abbiamo visto in breve quali sono i campi di ricerca della genomica e quali sono i principali database utilizzati in questo ambito. Tra i vari campi di ricerca il nostro interesse è rivolto alla predizione della funzione dei geni. La predizione della funzione dei geni è un problema computazionale complesso, caratterizzato da diversi punti: • Il numero delle classi funzionali sono grandi. • I geni possono appartenere a più classi contemporaneamente. • Le classi funzionali sono strutturate in una struttura gerarchica. • Le classi sono solitamente sbilanciate. • Le etichette delle classi possono essere incerte. • Le annotazioni delle classi possono essere altamente incomplete. Per migliorare la predizione si utilizzano quindi più database per integrare correttamente le molteplici fonti di dati [23]. In tale modo ogni database ci sarà utile ai ni della ricerca per i metodi della predizione della funzione dei geni. Per questo motivo suddividiamo l'insieme dei database presentati nel documento in due gruppi, le tassonomie e i dataset. Utilizzeremo FunCat e/o GO come tassonomie, mentre utilizzeremo i restanti database come dataset. Sarà necessario riuscire a trovare un metodo per discretizzare i valori continui del dataset. Tale necessità è critica, in quanto l'algoritmo che si sta sviluppando per il progetto lavora esclusivamente con valori discreti e non continui. Se non si riuscirà a trovare un metodo per discretizzare i valori contenuti nel dataset non si potrà quindi procedere con gli esperimenti in ambito genomico nel progetto di ricerca. Se si riuscirà a discretizzare il dataset sperimenteremo il software sviluppato per il progetto con la genomica. In particolare genereremo, a partire dai dataset, una tassonomia. Una volta generata, tale tassonomia sarà valutata e convalidata. Inne confronteremo i risultati ottenuti tra la tassonomia generata automaticamente con quelli ottenuti utilizzando FunCat e/o GO. Sulla base di tali risultati si vericheranno sia l'adeguatezza delle tecniche che degli algoritmi deniti e implementati nel corso del progetto per il caso di studio relativo alla genomica, in modo da poter sia rimuovere comportamenti indesiderati che migliorare le caratteristiche e le prestazioni. 11 Riferimenti bibliograci [1] Phillips A., Janies D., Wheeler W., Multiple Sequence Alignment in Phylogenetic Analysis, 2000 [2] Kolbeck B., May P., Schmidt-Goenner T., Steinke T., Knapp E., Connectivity independent protein-structure alignment: a hierarchical approach, 2006 [3] Istraila S., Suttona G.G., Floreaa L., Halpernb A.L., Mobarrya C.M., Lipperta R., Walenza B., Shatkaya H., Dewa I., Millera J.R. et al., Whole-genome shotgun assembly and comparison of human genome assemblies, 2003 [4] Fertin G., Rizzi R., Vialette S., Finding occurrences of protein complexes in proteinprotein interaction graphs, 2009 [5] Sharan R., Ulitsky I., Shamir R., Network-based prediction of protein function, 2007 [6] Cheng J., Tegge A.N., Baldi P., Machine learning methods for protein structure prediction, 2008 [7] Beer M.A., Tavazoie S., Predicting Gene Expression from Sequence, 2004 [8] Wang Z., Chen Y., Li Y., A Brief Review of Computational Gene Prediction Methods, 2004 [9] Moore J.H., Asselbergs F.W., Williams S.M., Bioinformatics challenges for genome-wide association studies, 2010 [10] Kerrigan J.E., Molecular Dynamics Simulations in Drug Design, 2013 [11] Sikic K., Carugo O., Protein sequence redundancy reduction: comparison of various method, 2010 [12] Iliopoulos I., Tsoka S., Andrade M.A., Enright A.J., Carroll M., Poullet P., Promponas V., Liakopoulos T., Palaios G., Pasquier C. et al., Evaluation of annotation strategies using an entire genome sequence, 2003 [13] Powell S., Forslund K., Szklarczyk D., Trachana K., Roth A., HuertaCepas J., Gabaldon T., Rattei T., Creevey C., Kuhn M. et al., eggNOG v4.0: nested orthology inference across 3686 organisms, 2013 [14] Hunter S., Jones P., Mitchell A., Apweiler R., Attwood T.K., Bateman A., Bernard T., Binns D., Bork P., Burge S. et al., InterPro in 2011: new developments in the family and domain prediction database, 2011 [15] Finn R.D., Bateman A., Clements J., Coggill P., Eberhardt R.Y., Eddy S.R. Heger A., Hetherington K., Holm L., Mistry J. et al., Pfam: the protein families database, 2013 12 [16] Gough J., Karplus K., Hughey R., Chothia C., Assignment of Homology to Genome Sequences using a Library of Hidden Markov Models that Represent all Proteins of Known Structure, 2001 [17] Attwood T.K., Bradley P., Flower D.R., Gaulton A., Maudling N., Mitchell A.L., Moulton G., Nordle A., Paine K., Taylor P. et al., PRINTS and its automatic supplement, prePRINTS, 2003 [18] Sigrist C.J.A., de Castro E., Cerutti L., Cuche B.A., Hulo N., Bridge A., Bougueleret L., Xenarios I., New and continuing developments at PROSITE, 2012 [19] Letunic I., Doerks T., Bork P., SMART 7: recent updates to the protein domain annotation resource, 2012 [20] Wilson D., Pethica R., Zhou Y., Talbot C., Vogel C., Madera M., Chothia C., Gough J., SUPERFAMILY sophisticated comparative genomics, data mining, visualization and phylogeny, 2008 [21] Ruepp A., Zollner A., Maier D., Albermann K,. Hani J., Mokrejs M., Tetko I., Güldener U., Mannhaupt G., Münsterkötter M., Mewes H.W., The FunCat, a functional annotation scheme for systematic classication of proteins from whole genomes, 2004 [22] Ashburner M., Ball C.A., Blake J.A., Botstein D., Butler H., Cherry J.M., Davis I.P., Dolinski K., Dwight S.S., Eppig J.T. et al., Gene Ontology: Tool for the unication of biology, 2000 [23] Valentini G., True Path Rule Hierarchical Ensembles for Genome-Wide Gene Function Prediction, 2011 13