Analisi delle risorse disponibili per il caso di studio relativo alla

Analisi delle risorse disponibili per il caso
di studio relativo alla genomica
Indice
1 Introduzione
2
2 Campi di ricerca della genomica
3
3 Database esistenti per la genomica
5
3.1
eggNOG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
3.2
InterPro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.3
Pfam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.4
PRINTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
3.5
PROSITE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3.6
SMART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
3.7
SUPERFAMILY
3.8
UniProt
. . . . . . . . . . . . . . . . . . . . . . . . . . .
7
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
4 Strutture tassonomiche per la genomica
10
4.1
Funtional Catalogue (FunCat) . . . . . . . . . . . . . . . . . . . .
10
4.2
Gene Ontology (GO) . . . . . . . . . . . . . . . . . . . . . . . . .
10
5 Considerazioni nali sul progetto di ricerca
11
Riferimenti bibliograci
12
1
1 Introduzione
La genomica è una branca della biologia molecolare che si occupa dello studio
del genoma. Nella moderna accezione il termine genoma indica la totalità del
materiale genetico di un organismo, sia pluricellulare sia unicellulare, composto
dal DNA o dal RNA. Il genoma di un organismo comprende sia i geni, ossia la
porzione codicante, sia il resto del materiale (non codicante) degli organismi
viventi.
Gli obiettivi che si pone la genomica sono lo studio della struttura, del contenuto, della funzione e della possibile evoluzione del genoma. Per perseguire tale
studio si estraggono le varie sequenze dalle mappe genetiche del DNA e RNA
degli organismi e entità viventi.
Tali sequenze vengono annotate in maniera
organizzata in appositi database, normalmente accessibili via Internet gratuitamente (vedi la sezione 3). Per ogni sequenza genetica vengono identicati e
segnalati tutti i geni e le altre porzioni di sequenza signicative, insieme a tutte
le informazioni conosciute su tali geni.
Di conseguenza, nello studio del genoma per elaborare e visualizzare l'enorme
quantità di dati da analizzare si utilizzano sistemi informatici.
In particolare
l'utilizzo del computer nello studio della genomica ha contribuito allo sviluppo
della bioinformatica. Tale disciplina scientica permette la descrizione dal punto
di vista numerico e statistico dei fenomeni biologici, fornendo un insieme di
strumenti analitici e numerici che integrano e migliorano i risultati ottenuti dalla
analisi biochimica e dalla biologia molecolare. La bioinformatica principalmente
si occupa di:
•
Fornire modelli statistici validi per l'interpretazione dei dati provenienti
da esperimenti di biologia molecolare e biochimica al ne di identicare
tendenze e leggi numeriche.
•
Generare nuovi modelli e strumenti matematici per l'analisi di sequenze
genetiche estratte da DNA o RNA e proteine al ne di creare un corpus di
conoscenze relative alla frequenza di sequenze rilevanti, la loro evoluzione
ed eventuale funzione.
•
Organizzare le conoscenze acquisite a livello globale su genoma e proteoma
in basi di dati al ne di rendere tali dati accessibili a tutti, e ottimizzare
gli algoritmi di ricerca dei dati stessi per migliorarne l'accessibilità.
2
2 Campi di ricerca della genomica
L'obiettivo primario della bioinformatica è quindi quello di migliorare la comprensione dei processi biologici tramite tecniche computazionali intensive come
pattern recognition, data mining e machine learning.
I principali ambiti di
ricerca della bioinformatica nel campo della genomica includono:
• Allineamento di sequenze (sequence alignment):
si confrontano e
allineano due o più sequenze primarie di amminoacidi tratte da DNA o
RNA. L'allineamento permette di individuare regioni identiche o simili
che possono avere relazioni funzionali, strutturali o evolutive (si veda ad
esempio [1]).
• Allineamento strutturale delle proteine (protein structure align-
ment):
studia l'omologia tra due o più strutture polimeriche basandosi
sulla loro forma e conformazione tridimensionale. L'allineamento strutturale può essere usato per scoprire relazioni evolutive tra proteine aventi
poche sequenza in comune (si veda ad esempio [2]).
• Assemblaggio del genoma (genome assembly):
si studiano come
si uniscono tra loro le diverse sequenze del codice genetico in una unica
sequenza genomica continua, che, in condizioni ideali, è costituita da tante
sequenze indipendenti quanti sono i cromosomi (si veda ad esempio [3]).
• Interazioni proteina-proteina (proteinprotein interactions):
si
studiano, identicandole e catalogandole, le interazioni tra due o più
gruppi di proteine (si veda ad esempio [4]).
• Predizione della funzione della proteina (protein function predic-
tion):
si studiano i metodi per assegnare una funzione alle proteine scar-
samente analizzate o per predire il funzionamento di proteine basandosi
su dati di sequenza genomiche (si veda ad esempio [5]).
• Predizione della struttura proteica (protein structure predic-
tion):
si predice la struttura tridimensionale d'una proteina a partire
dalla sua sequenza degli amminoacidi, ossia la predizione, partendo dalla sua struttura primaria, del ripiegamento proteico e della sua struttura
secondaria, terziaria e quaternaria (si veda ad esempio [6]).
• Predizione dell'espressione genetica (prediction of gene expres-
sion):
si studia il processo attraverso cui l'informazione contenuta in un
gene viene convertita in una macromolecola funzionale, tipicamente una
proteina (si veda ad esempio [7]).
• Predizione genetica (gene prediction/gene nding):
si identicano
e predicono i geni codicanti proteine, a partire da sequenze genomiche
note (si veda ad esempio [8]).
• Studio di associazione genome-wide (GWAS o genome-wide asso-
ciation studies):
si studiano i geni di diversi individui di una particolare
specie per determinare le variazioni geniche tra gli individui in esame, in
modo da associare le dierenze osservate con alcuni tratti particolari come
una malattia o una patologia (si veda ad esempio [9]).
3
• Sviluppo di nuove medicine (drug design, drug discovery):
si stu-
diano i processi per scoprire nuove medicine basandosi sulla conoscenza
del soggetto da curare, basandosi sul principio che in generale ogni medicina è una molecola che attiva o inibisce la funzione di una biomolecola
come una proteina (si veda ad esempio [10]).
4
3 Database esistenti per la genomica
Come é stato accennato nell'introduzione le sequenze dei geni vengono annotate
in appositi database. Tali database sono composti da una grande collezione di
sequenze del DNA, RNA, proteine o altre sequenze di polimeri. Storicamente le
sequenze venivano pubblicate su materiale cartaceo, ma il rapido aumentare del
numero di sequenze ha reso tale soluzione ingestibile. Per tale motivo i database
sono completamente digitalizzati ed accessibili via software. Ogni database si
focalizza su alcune possibili annotazioni del genoma, per cui si hanno database
specici per ogni esigenza di ricerca.
I record dei database di sequenze sono estratti da una vasta gamma di fonti,
che vanno dai singoli ricercatori a grandi centri di sequenziamento del genoma. Di conseguenza le sequenze stesse, e soprattutto le annotazioni biologiche
collegate a tali sequenze, tendono ad essere qualitativamente diverse tra loro.
C'è molta ridondanza in quanto più laboratori possono presentare numerose sequenze identiche, o quasi identiche, ad altre sequenze contenute nei database
[11].
Molte delle annotazioni menzionate in precedenza non si basano su esperimenti di laboratorio, ma sui risultati della ricerca di similarità tra la sequenza
esaminata nell'annotazione e le sequenze precedentemente annotate. Una volta
che una sequenza è stata annotata in base alla somiglianza con altre sequenze e
viene depositata nel database, può quindi diventare una base per le annotazioni
future. Questo può portare a un problema di annotazione transitiva in quanto possono essere esaminati vari cambi di annotazione a causa della similarità
di sequenza tra un particolare record di database e informazioni sperimentali ottenute in laboratorio [12]. Pertanto si deve prestare attenzione quando si
interpretano i dati annotati nei database di sequenze.
Di seguito riportiamo, tra tutti i database per la genomica esistenti, quelli
di nostro interesse per la ricerca.
3.1
eggNOG
L'eggNOG (evolutionary genealogy of genes: Non-supervised Orthologous Groups)
2
3
4
[13] è, assieme al COG /KOG /arCOG da cui deriva, l'unico database che fornisce una annotazione funzionale esplicita per le relazioni ortologhe tra gruppi
di geni.
In genomica vengono deniti ortologhi i geni che si dierenziano nel
processo di speciazione (evoluzione), mentre vengono deniti paraloghi i geni
che si dierenziano nel processo di duplicazione.
A causa del ruolo centrale dei geni ortologhi sia nel ricostruire la storia delle
specie che nel trasferimento delle informazioni funzionali tra le specie (quest'ultimo si basa sull'osservazione che i geni ortologhi sembrano più propensi a mantenere la funzione del gene ancestrale) si sono concentrati gli sforzi sullo studio
dell'inferenza in ortologia e sono stati sviluppati a tale scopo più strumenti.
1
2
3
4
http://eggnog.embl.de/
http://www.ncbi.nlm.nih.gov/COG/
http://genome.jgi.doe.gov/Tutorial/tutorial/kog.html
http://archaea.ucsc.edu/arcogs/
5
1
L'ortologia, nonostante il ruolo centrale nella biologia evolutiva e genetica,
resta dicile da denire nell'ambito della evoluzione a mosaico
5 in quanto il
riassetto a livello di dominio dei geni spezza il concetto di storia dei singoli geni.
3.2
InterPro
L'InterPro
6 [14] è un database che riordina varie informazioni sulle famiglie,
sui domini e sui siti funzionali di proteine provenienti da più repository (tra
cui Pfam (vedi sezione 3.3), PRINTS (vedi sezione 3.4), PROSITE (vedi sezione 3.5), SMART (vedi sezione 3.6)).
I vari dati vengono ordinati in modo
semiautomatico o manuale in modo da essere compatibili coi termini della Gene
Ontology (vedi sezione 4.2) seguendo l'UniProt Knowledge (vedi sezione 3.8).
Un ruolo centrale per il database viene occupato dai modelli diagnostici, noti
come signature, tramite i quali si possono eettuare ricerche nelle sequenze
delle proteine per determinare la loro funzione potenziale.
InterPro fornisce
inoltre degli strumenti utili sia per l'analisi a larga scala dell'intero genoma e
metagenoma che per la caratterizzazione delle sequenze di proteine individuali.
3.3
Pfam
Il Pfam
7 [15] è un database delle famiglie di proteine. Ciascuna famiglia viene
denita da due allineamenti e dal prolo di un modello di Markov nascosto
(Hidden Markov Model o HMM) [16]. I proli HMM sono modelli probabilistici
utilizzati per l'inferenza statistica dell'omologia costruita a partire da una serie
allineata di sequenze rappresentative per la famiglia denite da un curatore. È
essenziale selezionare allineamenti di alta qualità in quanto fornisce la base per
speciche posizioni delle frequenze di amminoacidi, gap e parametri di lunghezza
per il prolo HMM.
In Pfam il prolo HMM viene ricercato in una grande collezione di sequenze,
basate sulla UniProt Knowledgebase (vedi sezione 3.8), per trovare tutte le istanze della famiglia. Le regioni delle sequenze che superano la soglia impostata per
ogni famiglia (tale soglia viene chiamata gathering threshold e permette di eliminare i falsi positivi) sono allineati al prolo HMM per produrre l'allineamento
completo.
3.4
PRINTS
8 [17] è un database di impronte delle proteine. Una impronta è un
PRINTS
gruppo di motivi conservati utilizzati per caratterizzare la famiglia di una proteina. Tramite scansioni iterative di un insieme composito SWISS-PROT/TrEMBL
(vedi sezione 3.8) viene anata la sua capacità diagnostica. Solitamente i motivi non si sovrappongono ma sono suddivisi tramite una sequenza, nonostante
possano essere adiacenti nello spazio tridimensionale. Le impronte possono codicare le pieghe e le funzioni delle proteine in modo più essibile e potente
rispetto ad un singolo motivo a causa del grande potere diagnostico derivante
dal mutuo contesto fornito dai motivi adiacenti.
5
Concetto secondo il quale il cambiamento evolutivo avviene in alcune parti del corpo, o
in generale nei sistemi, senza che ci siano variazioni simultanee in altre parti
6 http://www.ebi.ac.uk/interpro/
7 http://pfam.xfam.org/
8 http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/
6
3.5
PROSITE
PROSITE
9 [18] viene utilizzato per determinare la funzione delle proteine non
caratterizzate estratte da sequenze genomiche. Tale database contiene siti biologicamente signicativi e modelli formulati in modo tale con gli appropriati
strumenti computazionali si possano identicare rapidamente in modo adabile
a quale famiglia conosciuta di proteina (se esiste) appartiene la nuova sequenza.
In alcuni casi la sequenza di una proteina sconosciuta è poco relazionata a
qualunque proteina dalla struttura conosciuta per notare la somiglianza esclusivamente eettuando l'allineamento della sequenza, ma può essere identicata
dal manifestarsi nella sequenza di un particolare cluster di tipi residui conosciuti
col nome di pattern, motivi, signature o impronte. Questi motivi si presentano
a causa di particolari requisiti nella struttura delle speciche regioni della proteina che possono essere importanti, per esempio per le loro proprietà di legame
o per la loro attività enzimatica. Questi requisiti impongono dei vincoli molto
stretti sull'evoluzione delle porzioni, piccole ma limitate, della sequenze delle
proteine.
Ci sono un numero di famiglie di proteine e di domini funzionali o strutturali che non possono essere scoperte tramite l'utilizzo di pattern a causa della
loro estrema divergenza di sequenza. Per risolvere tale problema in PROSITE
si utilizzano tecniche basate su matrici pesate (note anche come proli) che
permettono la localizzazione di tali proteine o domini.
3.6
SMART
10 è un database che
Il Simple Modular Architecture Research Tool o SMART
viene utilizzato per l'identicazione e l'analisi dei domini contenuti nelle sequenze delle proteine. SMART utilizza i proli HMM [16] costruiti a partire da
allineamenti di sequenze multiple per scoprire i domini delle proteine nelle sequenze. Ogni nuovo dominio scoperto viene memorizzato, assieme ai parametri
di ricerca e le informazioni sulla tassonomia, in un sistema di database relazionali. L'interfaccia utente al database permette in seguito di ricercare proteine
contenenti speciche combinazioni dei domini nelle tassonomie denite.
3.7
SUPERFAMILY
11 [20] è un database di annotazioni strutturali, funzionali e
SUPERFAMILY
evoluzionarie delle proteine di tutti i genomi completamente sequenziati e di
tutte le grandi collezioni di sequenze come UniProt (vedi sezione 3.8).
Tali
annotazioni sono basate su una collezione di HMM [16] che rappresentano i
domini strutturali delle proteine al livello di superfamiglia. Una superfamiglia
raggruppa assieme domini aventi un legame evoluzionario. Le annotazioni sono
prodotte scannerizzando le sequenze di proteine estratte dalle sequenze complete
dei genomi tramite i HMM.
9 http://prosite.expasy.org/
10 http://smart.embl.de/
11 http://supfam.org/SUPERFAMILY/
7
3.8
UniProt
12 è il più grande database per le
La Universal Protein Resource o UniProt
sequenze proteiche e le sue relative annotazioni. È suddiviso in diversi database:
• UniProt Knowledgebase (UniProtKB)Swiss-Prot:
è un database
di sequenze proteiche di alta qualità, annotato manualmente, non ridondante. Esso combina le informazioni estratte dalla letteratura scientica e
l'analisi computazionale valutata da un curatore. Le sequenze dello stesso
gene e della stessa specie vengono fuse nella stessa voce del database. Le
dierenze tra le sequenze vengono identicate e la loro causa documentata.
Previsioni computerizzate sono valutate manualmente e i risultati
pertinenti vengono selezionati per essere inclusi nella voce.
Le voci an-
notate vengono sottoposte al controllo di qualità, prima dell'inclusione
nell'UniProtKB/Swiss-Prot. Quando i nuovi dati sono disponibili, le voci
vengono aggiornate.
• UniProtKB TrEMBL: contiene record di alta qualità analizzati computazionalmente e arricchiti con annotazioni automatiche. È stato introdotto
in risposta al grande usso di dati generati dai progetti sulla genomica, in
quanto l'annotazione manuale della UniProtKB/Swiss-Prot non può essere allargato per includere tutte le sequenze proteiniche disponibili. Vengono inseriti in questo database tutte le sequenze annotate scoperte nei
13 , PDB14 , Ensembl15 ,
vari database come EMBL-Bank/GenBank/DDBJ
16 e CCDS17 .
RefSeq
• UniProt Reference Clusters (UniRef):
è composto da tre database
di sequenze di proteine provenienti da UniProtKB e da record selezionati
da UniParc. Il database UniRef100 combina sequenze identiche e frammenti di sequenza (da qualsiasi organismo) in una singola voce UniRef.
Tali sequenze sono raggruppate usando l'algoritmo CD-HIT per costruire
UniRef90 e UniRef50, in cui ogni cluster è composto da sequenze che hanno, rispettivamente, almeno il 90 % o 50 % di identità tra la sequenza e la
sequenza più lunga. Il clustering delle sequenze riduce signicativamente
le dimensioni del database, consentendo ricerche delle sequenze più veloci.
• UniProt Archive (UniParc):
è un database completo e non ridondante
contenente tutte le sequenze proteiche (senza annotazioni) dai principali
database di sequenze proteiche disponibili pubblicamente. Per evitare la
ridondanza UniParc memorizza ogni sequenza una sola volta. Le sequenze identiche vengono unite, indipendentemente dal fatto che provengano
o meno dalla stessa specie. Ad ogni sequenza viene assegnato un identicatore univoco (UPI) che permette di identicare la stessa proteina nei
dierenti database. Quando le sequenze dei database di origine cambiano,
queste modiche vengono rilevate da UniParc e vengono archiviate tutte
le modiche apportate.
12
13
14
15
16
17
http://www.uniprot.org/
http://www.insdc.org/documents/feature-table
http://www.rcsb.org/
http://www.ensembl.org/
http://www.ncbi.nlm.nih.gov/refseq/
http://www.ncbi.nlm.nih.gov/CCDS
8
• UniProt Metagenomic and Environmental Sequences (UniMES):
è un repository specicamente sviluppato per i dati metagenomici e ambientali.
Le proteine previste di questo dataset sono combinate con la
classicazione automatica InterPro per migliorare l'informazione originale
con ulteriori analisi. UniProtKB contiene sequenze proteiche di specie conosciute, i dati derivanti da studi metagenomici provengono da campioni
dell'ambiente per cui alcune specie possono non essere conosciuti o identicati. I dati di UniMES non sono inclusi nel UniProtKB o UniRef, ma
sono inclusi nell'UniParc.
9
4 Strutture tassonomiche per la genomica
I seguenti database sono specializzati nella descrizione funzionale delle proteine.
A causa della loro natura esclusivamente descrittiva è possibile utilizzarle come
tassonomie nel nostro progetto di ricerca.
4.1
Funtional Catalogue (FunCat)
Il Funtional Catalogue o FunCat
18 [21], come si può facilmente intuire dal nome,
è un database utilizzato per delineare la descrizione funzionale delle proteine di
qualsiasi tipo di organismo.
FunCat consiste di 28 categorie principali che coprono funzioni generali come trasporto cellulare, metabolismo e comunicazione cellulare/trasduzione dei
segnali. È gerarchicamente strutturato in un albero in cui le classi funzionali
sono organizzate su 6 livelli. In cima troviamo le classi più generali e, scendendo
lungo la gerarchia, le classi diventano sempre più speciche. I geni possono di
conseguenza appartenere contemporaneamente a molteplici classi funzionali: ad
esempio molte classi sono sottoclassi di una stessa classe più generale oppure i
geni possono sia partecipare a diversi processi biologici che eseguire dierenti
funzioni biologiche.
4.2
Gene Ontology (GO)
19 [22] è un database strutturato secondo un grafo aciclico.
Gene Ontology (GO)
È organizzato in tre ontologie che descrivono i geni secondo i processi biologici, le
funzioni molecolari e i componenti cellulari in maniera indipendente tra le varie
specie.
Per questo motivo un gene può partecipare ad uno specico processo
biologico e allo stesso tempo eseguire una specica componente cellulare.
GO punta a descrivere minuziosamente come i geni si comportano nel contesto cellulare. Tuttavia una tale obiettivo è di dicile realizzazione. Una descrizione minuziosa porta necessariamente ad un elevato numero di termini, il che
può sia rallentare il lavoro di annotazione dei geni che, nel caso di annotazioni
errate, permettere il propagarsi di errori.
18
http://www.helmholtz-muenchen.de/en/ibis/resourcesservices/services/
funcat-the-functional-catalogue/
19 http://www.geneontology.org/
10
5 Considerazioni nali sul progetto di ricerca
Abbiamo visto in breve quali sono i campi di ricerca della genomica e quali sono
i principali database utilizzati in questo ambito. Tra i vari campi di ricerca il
nostro interesse è rivolto alla predizione della funzione dei geni. La predizione
della funzione dei geni è un problema computazionale complesso, caratterizzato
da diversi punti:
•
Il numero delle classi funzionali sono grandi.
•
I geni possono appartenere a più classi contemporaneamente.
•
Le classi funzionali sono strutturate in una struttura gerarchica.
•
Le classi sono solitamente sbilanciate.
•
Le etichette delle classi possono essere incerte.
•
Le annotazioni delle classi possono essere altamente incomplete.
Per migliorare la predizione si utilizzano quindi più database per integrare
correttamente le molteplici fonti di dati [23]. In tale modo ogni database ci sarà
utile ai ni della ricerca per i metodi della predizione della funzione dei geni.
Per questo motivo suddividiamo l'insieme dei database presentati nel documento in due gruppi, le tassonomie e i dataset. Utilizzeremo FunCat e/o GO
come tassonomie, mentre utilizzeremo i restanti database come dataset.
Sarà necessario riuscire a trovare un metodo per discretizzare i valori continui
del dataset. Tale necessità è critica, in quanto l'algoritmo che si sta sviluppando
per il progetto lavora esclusivamente con valori discreti e non continui. Se non si
riuscirà a trovare un metodo per discretizzare i valori contenuti nel dataset non
si potrà quindi procedere con gli esperimenti in ambito genomico nel progetto
di ricerca.
Se si riuscirà a discretizzare il dataset sperimenteremo il software sviluppato per il progetto con la genomica.
In particolare genereremo, a partire dai
dataset, una tassonomia. Una volta generata, tale tassonomia sarà valutata e
convalidata. Inne confronteremo i risultati ottenuti tra la tassonomia generata
automaticamente con quelli ottenuti utilizzando FunCat e/o GO.
Sulla base di tali risultati si vericheranno sia l'adeguatezza delle tecniche
che degli algoritmi deniti e implementati nel corso del progetto per il caso di
studio relativo alla genomica, in modo da poter sia rimuovere comportamenti
indesiderati che migliorare le caratteristiche e le prestazioni.
11
Riferimenti bibliograci
[1] Phillips A., Janies D., Wheeler W., Multiple Sequence Alignment in
Phylogenetic Analysis, 2000
[2] Kolbeck B., May P., Schmidt-Goenner T., Steinke T., Knapp E.,
Connectivity independent protein-structure alignment: a hierarchical
approach, 2006
[3] Istraila S., Suttona G.G., Floreaa L., Halpernb A.L., Mobarrya C.M.,
Lipperta R., Walenza B., Shatkaya H., Dewa I., Millera J.R. et al.,
Whole-genome shotgun assembly and comparison of human genome
assemblies, 2003
[4] Fertin G.,
Rizzi R.,
Vialette S.,
Finding occurrences of protein
complexes in proteinprotein interaction graphs, 2009
[5] Sharan R., Ulitsky I., Shamir R., Network-based prediction of protein
function, 2007
[6] Cheng J., Tegge A.N., Baldi P., Machine learning methods for protein
structure prediction, 2008
[7] Beer M.A., Tavazoie S., Predicting Gene Expression from Sequence,
2004
[8] Wang Z., Chen Y., Li Y., A Brief Review of Computational Gene
Prediction Methods, 2004
[9] Moore
J.H.,
Asselbergs
F.W.,
Williams
S.M.,
Bioinformatics
challenges for genome-wide association studies, 2010
[10] Kerrigan J.E., Molecular Dynamics Simulations in Drug Design, 2013
[11] Sikic
K.,
Carugo
O.,
Protein
sequence
redundancy
reduction:
comparison of various method, 2010
[12] Iliopoulos I., Tsoka S., Andrade M.A., Enright A.J., Carroll M., Poullet P., Promponas V., Liakopoulos T., Palaios G., Pasquier C. et al.,
Evaluation of annotation strategies using an entire genome sequence,
2003
[13] Powell S., Forslund K., Szklarczyk D., Trachana K., Roth A., HuertaCepas J., Gabaldon T., Rattei T., Creevey C., Kuhn M. et al., eggNOG
v4.0: nested orthology inference across 3686 organisms, 2013
[14] Hunter S., Jones P., Mitchell A., Apweiler R., Attwood T.K., Bateman
A., Bernard T., Binns D., Bork P., Burge S. et al., InterPro in 2011:
new developments in the family and domain prediction database, 2011
[15] Finn R.D., Bateman A., Clements J., Coggill P., Eberhardt R.Y., Eddy
S.R. Heger A., Hetherington K., Holm L., Mistry J. et al., Pfam: the
protein families database, 2013
12
[16] Gough J., Karplus K., Hughey R., Chothia C., Assignment of Homology to Genome Sequences using a Library of Hidden Markov Models
that Represent all Proteins of Known Structure, 2001
[17] Attwood T.K., Bradley P., Flower D.R., Gaulton A., Maudling N., Mitchell A.L., Moulton G., Nordle A., Paine K., Taylor P. et al., PRINTS
and its automatic supplement, prePRINTS, 2003
[18] Sigrist C.J.A., de Castro E., Cerutti L., Cuche B.A., Hulo N., Bridge
A., Bougueleret L., Xenarios I., New and continuing developments at
PROSITE, 2012
[19] Letunic I., Doerks T., Bork P., SMART 7:
recent updates to the
protein domain annotation resource, 2012
[20] Wilson D., Pethica R., Zhou Y., Talbot C., Vogel C., Madera M.,
Chothia C., Gough J., SUPERFAMILY sophisticated comparative
genomics, data mining, visualization and phylogeny, 2008
[21] Ruepp A., Zollner A., Maier D., Albermann K,. Hani J., Mokrejs
M., Tetko I., Güldener U., Mannhaupt G., Münsterkötter M., Mewes
H.W., The FunCat, a functional annotation scheme for systematic
classication of proteins from whole genomes, 2004
[22] Ashburner M., Ball C.A., Blake J.A., Botstein D., Butler H., Cherry
J.M., Davis I.P., Dolinski K., Dwight S.S., Eppig J.T. et al., Gene
Ontology: Tool for the unication of biology, 2000
[23] Valentini G., True Path Rule Hierarchical Ensembles for Genome-Wide
Gene Function Prediction, 2011
13