Metodi basati sulle similitudini per dedurre la
funzione di un gene
La conclusione del progetto ‘Genoma Umano’ ha identificato molti potenziali geni ma
capire la funzione di ognuno di essi per via sperimentale è lungo e costoso. Una volta
si diceva ‘un gene una carriera’ e questo indica quanto fosse ‘dispendiosa’ la
caratterizzazione di un gene.
Oggi sulla base delle conoscenze dei geni caratterizzati sperimentalmente e con l’aiuto
dell’informatica, si vorrebbe dedurre la funzione di un gene a partire dalla sua
sequenza.
metodi
Caratterizzazione
dalla letteratura
Similarità
di sequenza
Vicinanza
e lontananza
Similarità
di struttura
Riconoscimento
di interazioni
tra moduli peptidici
Profili
filogenetici
Conservazione
della posizione
nel cromosoma
Sequenze
caratteristiche
correlate
Fusione genica
Raggruppamento
dei dati di
microarray
Imputazione
per
associazione
Annotazione
funzionale
transitiva
Il principio di questo metodo è:
Conoscendo un gene (sequenza e funzione) posso ipotizzare che quelli con sequenza simile
avranno funzione simile.
Per ricercare le omologie si usano programmi di allineamento, questi possono operare in due
modi:
1. cercando l’allineamento globale, cioè tra tutta la sequenza dei due geni
2. cercando il miglior allineamento locale
atgacagttgctggaattcaaaacccgaactttcggaattgttaa
____atgtagcgagatccaagaaccgttctatcctttatgcagacgatttacagaactag
atgacagttgctggaattcaaaacccgaactttcggaattgttaa
_______________atgccgttcgaattgattcggaattgttagaacttctag
Purtroppo non si sa qual è la minima soglia di similarità di sequenza per poter ipotizzare
una similarità funzionale
Un altro metodo cerca similitudini nella struttura tridimensionale delle proteine prodotte dai
due geni oggetto di confronto
La ricerca delle similitudini avviene secondo due criteri:
1. si confrontano le distanze intermolecolari tra gli amminoacidi della proteina
2. si considerano le due proteine come corpi rigidi e si cerca di sovrapporle prima
globalmente poi localmente
struttura 3D
della proteina
Sequenza
del gene
funzione
della proteina
An Example
Structure Comparison Algorithm
RMS è il parametro
da minimizzare
(root mean square)
Al termine dell’allineamento abbiamo due o più parametri che descrivono la similarità
strutturale delle proteine da punti di vista diversi.
Noi dobbiamo attribuire un peso a ciascun parametro e decidere la soglia minima di
similitudine oltre la quale ipotizzare una similarità funzionale.
La struttura tridimensionale della proteina dei due geni deve essere nota (per via
sperimentale e non predetta da programmi di protein folding). Le strutture predette
hanno un grado di incertezza non trascurabile.
Purtroppo a volte un’elevata omologia di struttura non implica un’omologia
funzionale, es. la famiglia dei geni della serpina ha domini funzionali relativamente
conservati ma funzioni biologiche molto diverse.
Un tipo di approccio è quello di confrontare l’intero insieme di geni di un organismo
con quello di altri organismi.
Il principio è che geni con funzioni correlate (ad esempio per la stessa funzione
metabolica) sono comparsi nel genoma di diverse specie nello stesso periodo. Questi
gruppi di geni tenderanno a evolvere in maniera simile.
Si cerca di correlare la presenza o l’assenza di geni omologhi tra specie: un’alta
correlazione implica che i geni sono associati nella funzione.
Es. ci si aspetta di trovare proteine flagellari in quei batteri che posseggono flagelli e
non in altri organismi,
Con questo metodo si è visto che almeno in alcuni casi, geni con funzioni simili si
trovano in posizioni relativamente vicine
Un altro approccio si rifà al funzionamento degli operoni nei procarioti, il principio è
che geni di organismi diversi che si trovano nella stessa posizione del cromosoma,
possano avere funzione simile.
Questo metodo è valido solo per i procarioti e per gli archea.
Il metodo della fusione genica si riconduce all’osservazione che certe proteine in una
specie corrispondono a più proteine singole in un’altra specie. Si presume che queste
proteine singole svolgano insieme la funzione della proteina di maggior lunghezza
Il metodo del raggrupamento dei geni da dati di microarray raggruppa geni che sono
co-espressi in diversi tessuti e condizioni, i geni di uno stesso gruppo potrebbero
svolgere la stessa funzione. In generale questa supposizione è vera quanto più i gruppi
sono composti da un minor numero di elementi.
Il metodo dell’imputazione per associazione è simile al precedente metodo (microarray)
ma utilizza i dati delle sequenze EST e non tiene conto del livello di espressione ma solo
della presenza o meno di un trascritto
Il metodo dell’annotazione funzionale transitiva tiene conto che geni con funzione simile
potrebbero non avere lo stesso profilo di espressione, ad esempio perché vengono espressi
con un certo ritardo uno dall’altro o non sono sensibili a perturbazioni molto piccole.
Con questo metodo si possono individuare i geni la cui espressione non è direttamente
correlata ma è correlata attraverso altri geni
a
b
a
b
c
c
Il metodo delle sequenze caratteristiche correlate si basa sul fatto che se c’è un’interazione
fisica tra una proteina conosciuta e una non conosciuta, quest’ultima potrebbe avere una
funzione correlata alla prima.
La predizione di queste interazioni viene fatta individuando sequenze caratteristiche delle
sequenze proteiche, che compaiono nelle interazioni note.
Si conoscono queste sequenze caratteristiche in numero limitato e si devono fare i conti
con non pochi falsi positive e falsi negativi.
Si legge per righe, ogni riga è l’interazione tra due proteine
Il metodo della vicinanza e della lontananza si basa sull’estrazione della conoscenza
contenuta in letteratura. Un programma estrae dalle banche dati tutti gli articoli che
descrivono due geni. Mediante un confronto intelligente tra le parole degli articoli
(tecniche di processamento del linguaggio e della semantica) si può determinare la
vicinanza tra essi.
Il principio è che se due geni hanno funzioni comuni allora gli articoli che descrivono
queste funzioni useranno una semantica simile cioè saranno vicini dal punto di vista del
linguaggio.
L’approcio della
caratterizzazione
della letteratura è
molto simile al
precedente ma
qui si
considerano i
singoli termini
presenti negli
articoli
Questi metodi forniscono solo una potenziale relazione tra geni ma è comunque un
punto di partenza che indica tra quali elementi iniziare a cercare una funzione
comune
i risultati sono dipendenti dal metodo e dalla bontà dei dati di partenza
manca un metodo generale da considerare come riferimento per valutare gli altri
approcci
spesso si usano più metodi con gli stessi dati di partenza ma i risultati non
coincidono, quindi possiamo essere di fronte a falsi positivi o a falsi negativi
è positivo che in questi approcci si integrino i dati provenienti dalla genomica e
dalla proteomica, due settori spesso complementari della bioinformatica
in questo campo la ricerca è aperta