Analisi bioinformatiche di sequenze regolatorie

Andrea Telatin
Anno Accademico 2010/2011 – Esercitazioni di Biologia Molecolare II
Analisi bioinformatiche di sequenze regolatorie
Lo scarabeo d’oro
In un racconto di Edgar Allan Poe, “lo scarabeo d’oro”, il protagonista si imbatte nel seguente
messaggio cifrato:
53‡‡†305))6*;4826)4‡.)4‡);806*;48†8
¶60))85;1‡(;:‡*8†83(88)5*†;46(;88*96
*?;8)*‡(;485);5*†2:*‡(;4956*2(5*—4)8
¶8*;4069285);)6†8)4‡‡;1(‡9;48081;8:8‡
1;48†85;4)485†528806*81(‡9;48;(88;4
(‡?34;48)4‡;161;:188;‡?;
Un primo approccio per scoprire l’alfabeto nascosto con cui poi decifrare il messaggio è sfruttare
alcune proprietà della lingua in cui il messaggio è scritto (l’inglese). Ogni lettera appare nei testi con
frequenza diversa, e questo può servire a decifrare messaggi in cui la cifratura si basi su sostituzioni di
caratteri. Ordinando i caratteri per frequenza decrescente otteniamo il seguente codice:
Messaggio:
8 ; 4 ) + * 5 6 ( ! 1 0 2 9 3 : ? ' - ] .
English:
e t a o i n s r h l d c u m f p g w y b v …
E una volta applicate le opportune sostituzioni…
sfiilfcsoorntaeuroaikoaiotecrntaeleyrcooestvenpinelefheeosnltarhtee
nmrnwteonihtaesotsnlupnihtamsrnuhsnbaoeyentacrmuesotorleoaiitdhimta
ecedtepeidtaelestaoaeslsueecrnedhimtaetheetahiwfataeoaitdrdtpdeetiw
t
Questo primo tentativo non ha portato ad un risultato intelleggibile. Un approccio un po’ più raffinato
prevede di utilizzare la frequenza non dei caratteri, bensì delle parole che compongono i testi. La parola
più frequente – sempre nella lingua inglese – è ‘the’. Nel testo cifrato è ’48;’. Sostituendolo in tutto il
testo otteniamo:
53‡‡†305))6*the26)h‡.)h‡)te06*the†e
¶60))e5t1‡(t:‡*e†e3(ee)5*†th6(tee*96
*?te)*‡(the5)t5*†2:*‡(th956*2(5*—h)e
¶e*th0692e5)t)6†e)h‡‡t1(‡9the0e1te:e‡
1the†e5th)he5†52ee06*e1(‡9thet(eeth
(‡?3hthe)h‡t161t:1eet‡?t
Compare 4 volte la parola ‘the’, ma troviamo anche ‘t(ee’ che potrebbe celare la parola inglese ‘tree’.
Procedendo per passi il protagonista del racconto riesce a decifrare l’intero messaggio (lo puoi trovare
online!). Cercare motivi nel DNA è sicuramente più difficile, eppure una lezione appresa dalla
decifrazione di questo messaggio (ovvero di misurare le frequenze con cui appaiono singole lettere o
parole intere) può essere utile...
Analisi di promotori eucariotici
La trascrizione è un evento finemente regolato da una classe di proteine (i fattori di trascrizione) che
formano complessi di attivazione o repressione della trascrizione in prossimità del promotore (spesso
coinvolgendo elementi diverse migliaia di basi a monte (gli enhancer).
Un possibile quadro del complesso di reclutamento dell’RNA polimerasi potrebbe essere come questo:
Come si nota, alcuni fattori di trascrizione hanno la proprietà di legare il DNA, mentre altri, interagendo
con i primi, partecipano alla formazione del complesso di attivazione.
Analizzando la sequenza di DNA che si ritiene essere il promotore di un gene, pertanto, dovremmo
essere in grado di trovare le “impronte” di questo complesso… anzi, di più di un possibile complesso,
perché ogni promotore può reclutare – in tempi e tessuti diversi – un diverso macchinario molecolare.
Descrizione e ricerca di motivi
Il sito di legame di un fattore di trascrizione (TFBS secondo l’acronimo inglese) è la sequenza specifica
riconosciuta dalla proteina nel DNA. Un primo obiettivo per un biologo computazionale è quello di
riuscire a descrivere nel modo migliore la preferenza di un fattore di trascrizione (Fig. 1).
Un approccio naïve come quello di annotare il “consensus” spesso non è sufficientemente sensibile:
spesso un TF si lega a siti con diverse modifiche rispetto al “consensus”. Possiamo quindi iniziare
valutando tutti i siti di legami noti per il TF in esame, e annotando la frequenza con cui ciascuna base
compare in una determinata posizione otteniamo una “matrice di peso” (PFM, Position Frequence
Matrix), che passando al logaritmo (come descritto nella review di Wasserman e Sandelin) diventa una
matrice pesata. Il vantaggio di pasare al logaritmo è che possiamo sommare i valori, anziché fare le
moltiplicazioni.
Con una matrice siamo in grado di dare un punteggio ad una data stringa di DNA e valutare quanto sia
distante dalla preferenza del fattore di trascrizione. Se notate, l’ottava sequenza di Fig. 1 è la più
distante dalle altre. Quel sito di legame certo avrà un punteggio alto ma non massimo se valutato alla
luce della matrice di peso.
Con questa descrizione del sito di legame possiamo scorrere il genoma alla ricerca di altri siti di legame
per lo stesso fattore. La lunghezza limitata e la forte degenerazione fanno sì che troveremo un largo
numero di siti spesso inesatti… ovvero senza un significato funzionale. Gli autori della review chiamano
questo fenomeno “Futility Theorem”, ovvero la sensibilità dei metodi fin’ora messi in pratica è alta, ma la
specificità è drammaticamente bassa, e >90% delle predizioni non ha alcun senso.
Figura 1 – Descrizione di motivi (da Wasserman e Sandelin 2004). Provate a fare da voi i conti per costruire la matrice
di peso, siete d’accordo con quella riportata nell’articolo?
Dimostrare il “Futility theorem”
Esiste un database che raccoglie i siti di legame a fattori di trascrizione: JASPAR. Se lo consultate potete
sfogliare i siti in base alla clade o alla singola specie, vi verranno date le sequenze che lo hanno
originato, la matrice e – visivamente – il “sequence logo” come quello di figura 1f. Se provate a scrivere
nel box di sinistra una sequenza di DNA puramente casuale e lanciate la ricerca di uno o più motivi con
ogni probabilità riuscirete a trovarne qualcuno.
Se anziché poche righe mettete 500 basi di un promotore, e selezionate tutti i fattori della specie da cui
proviene il DNA, troverete centinaia di hit. Chissà che fra queste non ci sia qualche “predizione” corretta!
In fig. 2-3 trovate un esempio di JASPAR all’opera.
Fig 2. JASPAR: un database di motivi regolatori.
Fig 3. Ricerca del motivo “TFAP2A” in tre righe di nucleotidi a caso… Bingo! Trovato il sito di legame.
Va sottolineato che JASPAR è un database, non un programma per effettuare predizioni. I programmi
che cercano regioni regolatorie devono combinare l’uso delle matrici ad altre informazioni. L’idea
generale è di ridurre le posizioni in cui effettuare la ricerca cercando in qualche modo di evidenziare le
regioni promotoriali e mascherare le altre.
Un setaccio per filtrare i siti corretti
Man mano che si accumulano maggiori dettagli sulla biologia molecolare del gene, il numero di
predizioni errate cala. Evidentemente non è il solo riconoscimento di un motivo nel DNA a dare avvio
alla trascrizione, ma una complessa rete di eventi e di segnali. Ad esempio lo stato di condensazione
della cromatina rende alcuni siti accessibili e impedisce l’accesso ad altri. Esistono quindi segnali di
rimodellamento della cromatina che rendono, in un certo tessuto ed in un certo momento dello
sviluppo, alcuni promotori accessibili ed altri no.
Un metodo sperimentale per descrivere questo fenomeno è la ricerca di siti ipersensibili alla Dnasi I. Se
mappiamo in un browser genomico queste regioni, possiamo rafforzare le predizioni di siti che cadono
al suo interno e scartare (o ridurre il punteggio) per i siti di regioni che apparentemente sono
condensate.
Un altro setaccio, molto potente e molto usato, si chiama phylogenetic footprinting. La probabilità che
una sequenza di DNA rimanga conservata nel corso dell’evoluzione dipende dai vincoli che questa
impone. Un sito di legame per fattori di trascrizione tenderà ad essere conservato molto di più che una
regione “spaziatrice”. Scegliendo quindi un set di geni ortologhi e confrontando le regioni a monte
degli stessi, dovremmo essere in grado di individuare regioni putativamente regolatorie
In fig. 4 trovate una schermata di un browser genomico centrata nel gene IL4. Trovate evidenziate tre
tracce (PipMaker, VISTA e UCSC Conservation) che con approcci diversi indicano il grado di
conservazione del DNA se confrontato con regioni omologhe. Sono evidenziati, inoltre, i siti di
ipersensibilità alla DNasi I. Si nota, a monte del gene, un picco di conservazione.
Figura 4 – Browser genomico centrato sul gene IL4 con in evidenza tracce di conservazione. (2)
Questo può aiutarci a fare predizioni corrette? Per lo meno riduciamo drammaticamente il numero di
fasi positivi: in figura qui sotto si vede che dei tanti siti predetti per il fattore MEF2, solo 2 cadono in
regioni altamente conservate.
Figura 5 – Allineamento genomico Uomo-Topo per evidenziare il grado di conservazione. (1)
Ricerca di motivi regolatori ab initio
Se cercare motivi conosciuti è un impresa ardua, predire l’esistenza di siti nuovi lo è ancora di più.
Esistono situazioni in cui può aver senso tentare un approccio di ricerca di motivi sconosciuti, il caso
tipico è l’aver determinato che un set di geni viene co-regolato.
Da esperimenti di microarray o di RNA-Seq potete confrontare i livelli di espressione di tutti i geni di un
organismo in un determinato tessuto. Dal confronto dei profili di espressione di più tessuti o condizioni
diverse (stress, somministrazione di un farmaco,…) potete ricavare dei set di geni che mostranolo stesso
andamento in situazioni diverse, per questo ritenuti co-regolati.
Se prendiamo le regioni a monte di questi geni, possiamo tentare un approccio tipo “scarabeo d’oro”. In
poche parole si tratta di contare la frequenza con cui appaiono tutte le parole di n caratteri in un
genoma, e poi applicare la medesima procedura solo sulle regioni coregolate. L’ipotesi è che queste
celino una parola che sarà sovrarappresentata.
Un sistema per applicare questo approccio è stato sviluppato nel gruppo Pesole (vedi il paper di Pavesi
et al.). Il programma sviluppato si chiama “Weeder” ed è di provata fama(4) nel difficile panorama della
ricerca di motivi ab initio.
Bibliografia
1)
2)
3)
4)
Wasserman and Sandelin, “Applied bioinformatics for the identification of regulatory elements”
(2004, Nat. Rev. Genet.)
Nardone, Lee, Ansel and Rao, “Bioinformatics for the ‘bench biologist’: how to find regulatory
regions in genomic DNA” (2004, Nat. Immunol.)
Pavesi et al., MoD Tools: regulatory motif discovery... (2006, Nucleic Acids Research)
Tompa et al., “Assessing computational tools for the discovery of transcription factor binding sites”
(2005, Nat. Biotech.)