ricerca di pattern e di motivi definizione di motivo

RICERCA DI PATTERN E DI MOTIVI
Uno dei primi scopi della biologia computazionale consiste nel rispondere alla
domanda: data una nuova sequenza, cosa si può dire sulla funzione, o sulle funzioni,
in essa codificata?
Sono disponibili vari strumenti, ognuno caratterizzato da limiti di applicabilità e
affidabilità ben precisi. Il più valido strumento attualmente a disposizione è una
ricerca per similarità di sequenza in una banca dati di acidi nucleici o di proteine
(vista nel capitolo precedente). Se tale ricerca non porta all'identificazione di geni o
proteine simili e già caratterizzati, bisogna necessariamente utilizzare altri strumenti,
altrettanto potenti anche se talvolta, meno affidabili: la ricerca di pattern e di motivi
funzionali.
La ricerca di pattern (pattern recognition) è un'importante area di ricerca
dell'informatica e della fisica applicata. Tale branca di ricerca studia l'organizzazione
e il disegno di sistemi che riconoscano motivi e regolarità nei dati a disposizione.
DEFINIZIONE DI MOTIVO
Un motivo di interesse biologico è costituito da un insieme di caratteri nucleotidi o
residui amminoacidici non contigui in sequenza, ma che si trovino sempre o spesso
associati a una precisa struttura o funzione biologica.
I motivi possono essere codificati in semplici espressioni regolari o con
allineamenti, consensus, profili, matrici, e Hidden Markov Models).
Le espressioni regolari sono formule che si possono usare per definire pattern
testuali utilizzando le lettere dell’alfabeto e meta-caratteri, quali per es. < $ + * [ { ( )
?. ai quali è associata una determinata funzione.
La sequenza consensus riporta in ogni posizione la base più rappresentata in un
allineamento di sequenze che sicuramente codificano la funzione. Le sequenze
consensus sono molto utili dal punto di vista mnemonico, ma il loro contenuto
informativo non è sufficiente a identificare in modo univoco tutte e sole le sequenze
che possiedono la funzione ad esse associata.
Un motivo funzionale è ideale se può sempre e univocamente essere associato a una
precisa struttura o funzione. Nella realtà invece molti motivi si trovano anche in
sequenze che non presentano la funzione specificata e sono assenti in sequenze che
invece sono funzionalmente correlate al motivo.
Un ramo importante della bioinformatica si occupa di sviluppare metodi per il
riconoscimento di pattern di interesse biologico e di curare banche dati in cui tali
1
pattern siano organizzati e resi disponibili per l'analisi strutturale e funzionale di
nuove sequenze.
RICERCA DI PATTERN E DI MOTIVI
FUNZIONALI IN SEQUENZE NUCLEOTIDICHE
E PROTEICHE
Non ci sono stumenti che possano essere utilizzati indifferentemente per l'analisi di
qualsiasi tipo di sequenza nucleotidica. Nello studio dei segnali importanti per
l'identificazione di singoli geni, ci sono alcuni punti fondamentali che devono essere
considerati:



per tutte le sequenze, ma soprattutto per quelle eucariotiche, è necessario un
filtro che escluda le sequenze ripetitive dall'analisi;
molti programmi per la ricerca di pattern di nucleotidi vengono sviluppati per
un unico organismo o per un numero limitato di organismi simili;
alcuni programmi sono sviluppati solo per sequenze genomiche o,
alternativamente, per cDNA.
Spesso per l'analisi di un'unica sequenza di DNA è necessario utilizzare diversi
strumenti che utilizzino vari tipi di informazione, perché l'uso di un solo tipo di dati
non sarebbe sufficiente a ottenere una predizione sicura della funzione.
Spesso l'informazione per identificare un segnale in una sequenza di DNA è
codificata in una consensus. Talvolta le informazioni vengono invece raccolte in
espressioni regolari o in matrici posizionali di peso (PWMs: Position Weight
Matrices), matrici in cui viene associato un punteggio proporzionale alla frequenza di
ogni nucleotide presente a ogni possibile posizione della sequenza segnale
considerata.
Come già visto la maggior parte delle proteine note può essere raggruppata in un
numero relativamente limitato di famiglie sulla base della similarità di sequenza. In
generale, inoltre, le proteine appartenenti a una stessa famiglia condividono attributi
funzionali e/o strutturali derivanti da un progenitore comune. Dallo studio degli
allineamenti multipli delle sequenze appartenenti a una stessa famiglia di proteine è
evidente che alcune regioni sono più conservate di altre. Queste regioni sono in
generale importanti per la funzione o per la struttura di una proteina.
Inoltre è importante notare che, mentre gli acidi nucleici sono composti da sequenze
di 4 caratteri, le sequenze proteiche sono formate da 20 diversi residui aminoacidici.
Se ne deduce che motivi proteici, anche corti, hanno un contenuto informazionale
sempre maggiore di quello relativo a un motivo di nucleotidi della stessa lunghezza.
In rete si trova la banca dati PROSITE per l'individuazione di motivi funzionali.
2
PROSITE è stata a lungo l'unico strumento in grado di stabilire la funzione di una
proteina. In Prosite ogni motivo è catalogato insieme con un’approfondita
documentazione di carattere bibliografico e a informazioni sulla sensitività e
specificità del motivo stesso.
La banca dati PROSITE contiene motivi codificati in due modi diversi: i pattern e le
matrici. I pattern sono motivi definiti con una sintassi riconducibile a espressioni
regolari. Le matrici sono invece definite facendo ricorso alle matrici posizionali di
peso. La sintassi usata è molto flessibile e consente l'utilizzo di altri descrittori di
motivi, compresi gli Hidden Markov Models che saranno trattati nel prossimo
paragrafo.
CATENE DI MARKOV E HIDDEN MARKOV
MODELS (HMM)
Le catene di Markov sono semplici successioni di numeri o di caratteri in cui
l’identità di un elemento dipende solo dall’identità degli elementi precedenti.
Le catene di Markov possono essere utilizzate per calcolare il numero atteso di
occorrenze di una certa stringa oligonucleotidica.
Schema superiore : Rappresentazione grafica di una catena di Markov, in cui ogni elemento
dipende dall’elemento precedente. Possibili sequenze di stati generate da questa catena di Markov:
1234; 234; 14; 12121214; 21234.
3
Schema inferiore: Catena di Markov con probabilità di transizione. La probabilità che una
determinata successione di stati venga generata è data dal prodotto delle varrie probabilità di
transizione che si succedono nel corso dell'emissione.
Le catene di Markov nascoste (Hidden Markov Models o HMM) sono composte da
un certo numero di stati che possono, per esempio, corrispondere a residui di una
sequenza, a colonne di un allineamento multiplo oppure a posizioni in una struttura
proteica tridimensionale. I vari stati sono interconnessi tramite precise probabilità di
transizione. La sequenza di stati è una catena di Markov, in quanto la scelta
dell'elemento successivo dipende dallo stato attuale. Gli stati sono però nascosti da
cui il nome Hidden Markov Models.
Gli HMM sono strettamente correlati alle reti neurali, in quanto ne rappresentano
una particolare realizzazione. Un semplice esempio di HMM è riportato nella figura
sottostante. I due riquadri in colore rappresentano stati dell'HMM in grado di
emmettere nucleotidi, con le loro probabilità.
I riquadri a sinistra e a destra rappresentano gli stati iniziale (I) e finale (F) e le
probabilità di transizione da uno stato all'altro sono riportate accanto alle frecce che li
uniscono. Questo semplice esempio presenta solo due stati nascosti completamente
interconnessi e non l'HMM che più frequentemente viene usato nelle applicazioni
biologiche.
Catena di Markov che genera sequenze di acidi nucleici
Gli Hidden Markov Models sono, quindi, strutture computazionali utilizzate per
descrivere pattern precisi che definiscono le famiglie di sequenze omologhe. Gli
HMM sono strumenti potenti per identificare correlazioni lontane e per predire i
4
pattern di ripiegamento delle proteine. Essi sono gli unici metodi basati interamente
su sequenze (che cioè non utilizzano esplicitamente informazioni strutturali) che
possono competere con PSI-BLAST nell'identificare omologie lontane. Gli HMM
forniscono buone prestazioni anche a livello di riconoscimento dei motivi di folding,
come dimostrato nei programmi CASP.
All'interno di un HMM, si trova un allineamento multiplo di sequenza. Tuttavia, gli
HMM vengono solitamente presentati come procedure per produrre sequenze. Anche
una tabella convenzionale di allineamenti multipli di sequenze può essere utilizzata
per produrre sequenze, selezionando gli aminoacidi in posizioni successive, ciascuno
dei quali viene scelto a partire da una distribuzione di probabilità posizione-specifica
ottenuta da un profilo. Tuttavia, gli HMM hanno un carattere più generale rispetto ai
profili.
1. Essi comprendono la possibilità di introdurre dei gap nelle sequenze prodotte, con
delle penalità che dipendono dalla posizione del gap stesso.
2. L'applicazione dei profili richiede che l'allineamento multiplo di sequenza sia
specificato preliminarmente; i pattern statistici vengono successivamente dedotti
dagli allineamenti. Gli HMM eseguono l'allineamento e l'assegnazione delle
probabilità contemporaneamente
La struttura interna di un HMM mostra il meccanismo utilizzato per produrre le
sequenze (vedi Figure). Cominciate da i "Inizio" e seguite alcune delle frecce fino ad
arrivare a f "Fine". Ogni freccia vi conduce in uno stato del sistema. In
corrispondenza di ogni stato, dovete (1) compiere qualche azione (estrarre un residuo
per esempio) e (2) scegliere una freccia che vi porti a uno stato successivo. L'azione e
la scelta dello stato successivo sono governati da un insieme di probabilità. Associati
a ogni stato che produce un residuo sono: una distribuzione di probabilità per i venti
aminoacidi e una seconda distribuzione di probabilità per la scelta dello stato
successivo. Entrambe queste distribuzioni di probabilità sono calibrate in modo da
codificare un'informazione riguardo a una particolare famiglia di sequenze. In questo
modo, la stessa cornice generale matematica può adattarsi a molte famiglie di
sequenze diverse.
Le dinamiche del sistema sono tali che solo lo stato attuale influenza la scelta dello
stato successivo: il sistema non ha "memoria della propria storia". Ciò è caratteristico
dei processi studiati nel XIX secolo dal matematico russo A.A. Markov. Occorre
distinguere la successione degli stati dalla successione degli amminoacidi forniti per
formare la sequenza output. Percorsi diversi attraverso il sistema possono produrre la
stessa sequenza. Solo la successione dei caratteri emessi è visibile; la sequenza di uno
stato che ha prodotto i caratteri rimane interna al sistema, cioè nascosta (in inglese,
hidden). In base alla distribuzione delle probabilità associate ai singoli stati, il sistema
5
cattura, o modella, i pattern inerenti a una famiglia di sequenze. Da qui il nome di
Hidden Markov Models.
Il software per applicare gli HMM all'analisi delle sequenze biologiche permette di
ottenere:
1. L'allineamento. Dato un insieme di sequenze omologhe, esso può allinearle e
aggiustare le probabilità di transizione e di emissione dei residui in modo da definire
un HMM che permetta di identificare i pattern inerenti alle sequenze sottoposte.
I.J. Gough, K. Karplus, R. Hughey e C. Chothia hanno prodotto HMM per tutte le
superfamiglie contenute in PDB: http://stash.mrc-lmb.cam.ac.uk/SUPERFAMILY/
2. L'individuazione di omologie lontane. Dato un HMM e una sequenza di prova, si
può calcolare la probabilità che un HMM produca la sequenza di prova stessa. Se un
HMM allenato su una famiglia nota di sequenze produce la sequenza di prova con
una probabilità relativamente elevata, è probabile che la sequenza di prova
appartenga alla famiglia.
3. L'allineamento di sequenze addizionali. La probabilità di qualunque sequenza di
stati viene computata a partire dalle probabilità delle singole transizioni da stato a
stato. Trovare la sequenza più probabile di stati che l'HMM utilizzerebbe per produrre
una o più sequenze di prova rivela l'allineamento ottimale con la famiglia di
sequenze.
ALGORITMI GENETICI
Gli algoritmi genetici sono metodi di ottimizzazione che utilizzano una strategia di
esplorazione delle possibili varianti simile a quella utilizzata dall'evoluzione genetica.
L'algoritmo genetico consente di risparmiare sui tempi di calcolo e di trovare una
buona approssimazione dei parmametri che offrirebbero la migliore soluzione al
problema senza affrontarne l'esplorazione totale.
Nell'algoritmo genetico l'evoluzione di cromosomi, i cui geni rappresentano i
parametri del problema, si provoca con metodi computazionali. Mediante
quest'algoritmo si può esplorare solo una parte dei cromosomi possibili e riuscire a
individuare i valori dei parametri che ottimizzano il problema affrontato.
Per ogni cromosoma viene calcolato l'accordo (la fitness) con un campione di dati
per i quali si conosce la risposta desiderata. Il cromosoma, o l'insieme dei cromosomi,
con migliore fitness viene selezionato e parteciperà a eventi computazionali. I nuovi
6
cromosomi ottenuti vengono quindi utilizzati per rigenerare una popolazione di n
cromosomi che parteciperanno alla seconda generazione dell'algoritmo genetico, e
così via.
L'algoritmo viene fatto procedere per un numero predeterminato di generazioni o
finché non sia raggiunta una fitness sufficientemente buona.
Rappresentazione grafica di un algoritmo genetico. Le generazioni possono procedere per un
numero prefissato di cicli o fino a che non si sia raggiunta una determinata fitness.
7