Lezione 4 Identificazione di segnali nel genoma

Genomics Session
Lezione 4
Identificazione di segnali
nel genoma
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Segnali nel genoma
Segnale:
Una sottosequenza (sottostringa), con un pattern particolare, nel DNA o
RNA, che riveste un ruolo biologico. Generalmente, è riconosciuto da una
proteina o da un'altra molecola e si ritrova in varie locazioni nel genoma.
Esempi:
- Sequenze riconosciute da endonucleasi di restrizione (es. GAATTC per
EcoRI);
- Sequenze nei promotori;
- Sequenze segnale dei geni;
- Elementi dell'origine di replicazione e terminatori.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Segnali nel genoma
Il segnale può essere rappresentato da particolari sequenze di nucleotidi, ma
queste sono solo approssimazioni di ciò che è effettivamente riconosciuto
dall'interattore.
Ad esempio, una proteina riconoscerà particolari gruppi chimici del DNA in una
particolare conformazione nello spazio. Il riconoscimento è sempre dettato da
leggi fisiche.
Alcune di queste interazioni sono transienti, altre possono essere più durature.
L'interazione non è quasi mai covalente.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Interazione DNA-proteine
Come le proteine riconoscono il DNA:
Le proteine riconoscono DNA o RNA per
mezzo di legami idrogeno ed interazioni
elettrostatiche principalmente con la
catena proncipale dll'acido nucleico.
Il riconoscimento specifico dei siti di
interazione avviene mediante legami con
i bordi degli anelli della base che
sporgono nel solco maggiore o minore
della doppia elica.
Ci possono essere anche interazioni
idrofobiche mediate da catene laterali
che si intercalano fra due coppie di basi.
[Sun et al., 2004]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Interazione DNA-proteine
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Interazione DNA-proteine
Come le proteine riconoscono il DNA:
I siti di interazione possono avere strutture
semplici o complesse.
Ci può essere simmetria interna (ad es.,
ripetizioni invertite di motivi, sequenze
palindromiche).
Questo è dovuto al fatto che le proteine
leganti DNA sono spesso oligomeri (dimeri, o
tetrameri).
Se l'oligomero è ad esempio un dimero con
struttura “testa-a-testa“, la posizione relativa
die due siti di legame del dimero si rifletterà
sulla sequenza riconsciuta nel genoma.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Interazione DNA-proteine
Gal4: attivatore di geni relativi al metabolismo del galattosio
L'unità biologica funzionale è un omodimero
5'-NNNTCGGNNNACTNTNNNCCGANNN-3'
3'-NNNAGCCNNNTGANANNNGGCTNNN-5'
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Segnali nel genoma
- Segnali nel DNA possono essere identificati con tecniche sperimentali;
- Analisi genetica classica
- Sfruttando le modificazioni delle proprietà del DNA duplex quando
legato all'interattore;
- gel-shift assay
- Sfruttando la “protezione“ che l'interattore offre al sito
- chromatin immunoprecipitation
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Chromatin immunoprecipitation (ChIP)
Immunoprecipitazione (IP): tecnica per
isolare un antigene (es. una proteina)
mediante il legame di un anticorpo che ci si
leghi specificamente.
Chromatin immunoprecipitation (ChIP):
tecnica per identificare dove una data
proteina si lega su una sequenza genomica
in vivo.
Procedura:
1. Si induce la formazione di legami covalenti
fra proteine e DNA (usando formaldeide o
DTBP);
2. Si lisano le cellule e si frammenta il DNA;
3. Con un anticorpo specifico per la proteina
di interesse, si isolano i frammenti di DNA
legati alla proteina stessa.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Chromatin immunoprecipitation (ChIP)
4. Il legame fra DNA e agente di cross-linking
è rotto (ad es. usando alte temperature) e il
DNA purificato;
5. La sequenza di frammenti di DNA è
determinata;
6. I frammenti sono mappati sul genoma;
7. Si può una stima quantitativa di quante
sequenze sono trovate per ogni sito.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
Lo studio ed identificazione di segnali nel DNA è spesso
applicato per l'analisi dell'espressione genica.
●
Cosa attiva o disattiva un gene?
●
Quando un gene è attivato o disattivato?
●
Dove (in quali cellule, tessuti, organi) un gene è attivo?
●
Lezione 4
Quanto è attivo un gene (quante copie del suo prodotto
sono sintetizzate)?
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
Restrizione spaziale e temporale dell’espressione genica:
 Geni housekeeping

 Geni con espressione ristretta nello spazio
• Espressione in piu’ organi/tessuti diversi
Stesso ruolo in piu’ tessuti
Il gene codifica per diverse isoforme (promotori alternativi e/o
splicing alternativo tessuto
specifico)
• Espressione specifica per tessuto, linea o tipo cellulare
• Espressione solo in singole cellule
• Distribuzione intracellulare o extracellulare
•
 Geni con espressione ristretta nel tempo
 Stadio di sviluppo
 Stadio di differenziamento
 Momento del ciclo cellulare
 Espressione inducibile da parte di fattori ambientali o extracellulari
[source: Stefania Bortoluzzi 2003]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Controllo dell'espressione genica
L'espressione di un gene è regolata a vari livelli, con meccanismi
diversi;
La maggior parte di questi controlli è mediata da motivi di
sequenza, sul DNA, RNA o sulla proteina.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
●
●
●
●
Lezione 4
La trascrizione di ogni gene è controllata da una regione
regolatoria intorno al sito di inizio della trascrizione (transcription
start site, TSS);
Regioni che esercitano influenza sulla trascrizione possono però
essere anche molto lontane dal TSS;
La regolazione è dovuta a due tipi di componenti:
●
Sequenze (corte) di DNA regolatorio;
●
Proteine che vi si legano specificamente;
La combinazione di diversi componenti determina l'effetto
complessivo di regolazione;
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
[Wasserman, Nature Rev. 2004]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
POL II PROMOTER ELEMENTS
●
●
●
CORE PROMOTER ELEMENTS
● TATA box
● Initiator
● Downstream promoter element
TRANSCRIPTION FACTORS (TF) BINDING SITES
● CAAT box
● GC box
● Sp-1 sites
● GAGA boxes
ENHANCER(S) SITES
[source: Stefania Bortoluzzi 2003]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
PROMOTORE CORE
→
PROM. PROSSIMALE
→
PROMOTORE DISTALE
→
regione sufficiente a deteminare
il TSS esatto
200-300 bp upstream al TSS,
responsabile, almeno in parte,
della modulazione
dell’espressione
100 bp – 2 Mb
[source: Stefania Bortoluzzi 2003]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
[source: Stefania Bortoluzzi 2003]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Regolazione della trascrizione
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Motivi di sequenza
●
Segnali regolatori della trascrizione:
●
Riconosciuti da proteine (fattori di trascrizione, TF);
●
Sequenze corte (5-25 bp);
●
A corta o lunga distanza dal TSS, fino a 1000 bp (o più);
●
Lezione 4
Sequenza, distanza dal TSS, e orientamento di un
motivo riconosciuto dall stesso TF sono variabili.
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
TRANSFAC matrix entry: TATA box
Campi:
Accession
ID
Descrizione
TF associati a questa entry
Matrice pesata
Numero di siti usati
Altre info
Referenze
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Banche dati di TF e motivi di sequenza
Banche dati specie-specifiche:
SCPD (yeast) http://rulai.cshl.edu/SCPD/
DPInteract (e. coli) http://arep.med.harvard.edu/dpinteract/
Drosophila DNase I Footprint Database (v2.0) http://www.flyreg.org/
Motivi di sequenza
Come si rappresenta un motivo
●
●
●
●
●
Lezione 4
Sequenza consenso: stringa con la sequenza più frequente
posizione per posizione (+/- wildcards);
Espressione regolare;
Profilo;
Modello statistico;
Logo.
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Matrici pesate
[Wasserman, Nature Rev. 2004]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Matrici pesate
[Wasserman, Nature Rev. 2004]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Matrici pesate
Scanning a sequence against a PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (sum of column scores)
Relative score
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Max_score = 15.2 (sum of highest column scores)
A
C
G
T
[-0.2284
-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
Min_score = -11.0 (sum of lowest column scores)
Abs_score - Min_score
⋅ 100 %
Max_score - Min_score
13.4 - (-11.0)
=
⋅ 100% = 93%
15.2 − (− 11.0)
Rel_score =
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Logo della sequenza
●
●
●
●
●
L'altezza relativa di ogni lettera riflette la sua abbondanza nell'allineamento
multiplo; l'altezza della pila di lettere è una basata su una misura della
conservazione basata sull'entropia;
Entropia(i) = -SUM { p(base, i)* ln[p(base, i)] }
Conservazione(i) = 2- Entropia(i)
Si esprime in bits di informazione
Posizione molto conservata -> bassa entropia -> pila alta
Posizione poco conservata -> alta entropia -> pila bassa
[Wasserman, Nature Rev. 2004]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione di motivi di sequenza
Scanning a sequence against a PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (sum of column scores)
Problema: enorme numero di predizioni positive
Quante sono false predizioni?
Livello basale di trascrizione e binding dei TF
Come ridurre il numero di false predizioni?
Analizzare il contesto in cui il sito si viene a trovare (isole CpG)
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione di motivi di sequenza
Se la specificità di un TF è nota, si tratta di analizzare sequenze
genomiche con il modello di specificità.
Se la specificità del TF non è nota, o se si vogliono identificare
nuovi motivi di interazione, il problema diventa più difficile
Alcuni fattori possono facilitare la loro identificazione:
- over-rappresentati in prossimità di TSS;
- conservazione evolutiva;
- caratteristiche strutturali.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione di motivi di sequenza
Motivi over-rappresentati in prossimità di TSS
daf-19 Binding Sites in C. elegans
-150
GTTGTCATGGTGAC
GTTTCCATGGAAAC
GCTACCATGGCAAC
GTTACCATAGTAAC
GTTTCCATGGTAAC
-1
che-2
daf-19
osm-1
osm-6
F02D8.3
[source: Peter Swoboda]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Analisi del promotore di geni co-regolati
●
●
●
Geni espressi in maniera simile e coordinata possono essere
identificati sperimentalmente (microarrays, RT-PCR, etc.);
Supponiamo di avere a disposizione la regione del promotore di n
geni G1, G2, … Gn;
Problema: trovare siti di legame di TF senza necessariamente
conoscerne la specificità. Due approcci:
●
Ricerca esaustiva di parole;
●
Lezione 4
Modelli probabilistici;
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Consensus, Wconsensus (Hertz & Stormo, 1999)
Si cerca il motivo che conduce alla
matrice pesata con più altro
contenuto di informazione
1. Si parte da un dataset di
promotori G1, G2, … Gn
2. Si seleziona un k-mero da un
promotore Gi
3. Si costruisce una matrice dal kmero
4. Per ogni altra sequenza Gj, si
usa ogni k-mero per aggiornare la
matrice
5. Si sceglie la matrice a maggiore
contenuto di informazione
6. Si riparte dal punto 4 fino ad
esaurimento delle sequenze
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
Algoritmo di EM: Expectation-Maximization
Un algoritmo EM è un metodo per trovare la stima della massima verosimiglianza
dei parametri di un modello statistico. EM funziona iterativamente, alternando una
fase E (Expectation), in cui la verosmiglianza è calcolata stanti i parametri correnti,
e una fase M (Maximization) dove nuovi parametri sono calcolati cercando di
massimizzare la funzione usata in E.
Funziona iterativamente:
1. Generazione di un modello del motivo di sequenza
a. Inizia con un motivo (k-mero) da una posizione casuale o specificata
b. Costruisce una matrice incorporando frequenze stimate di
background
2. Identifica esempi del motivo usando il modello
a. Per ogni k-mero nel set di geni, calcola la probabilità dato il modello
b. Seleziona i k-meri a più alta probabilità
3. Revisione del modello
a. Costruisce una nuova matrice, basata sulle frequenze pesate di tutti i
k-meri pescati nel dataset
4. Continua fino a convergenza
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
EM algorithm
●
Iterative EM algorithm
●
●
●
E-step
●
●
Lezione 4
Compute expected posterior probability of binding
locations, based on current preferences
M-step
●
●
Exact binding locations for all protein-DNA pairs
recognition preferences: Pp(N|A)
Update DNA-recognition preferences to maximize the
likelihood of current binding locations based on the
distribution of possible binding locations in previous Estep
Local optima
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
1. Si parte da una serie di k-meri e si calcola la matrice pesata
[source: Benos 2007]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
2. Si identificano nuovi k-meri (blu) e si ri-calcola la matrice pesata
[source: Benos 2007]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
3. Usando la nuova matrice pesata, alcuni dei k-meri di partenza (verdi) saranno
non più sufficientemente simili
4. Si continua finchè non si aggiungono/scartano più k-meri e i punteggi
rimangono simili
[source: Benos 2007]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
5. Una volta trovato un motivo, si cancella dalle sequenze del dataset e si
ricomincia
6. Si finisce una volta che i motivi trovati scendono sotto una soglia di punteggio,
e si ripete per tutti i valori di k
[source: Benos 2007]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
http://meme.sdsc.edu/meme/website/meme.html
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
MEME (Bailey & Elkan, 1995)
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Gibbs samplers
Altra strategia per esplorare ampi spazi conformazionali
1. Dati una serie di promotori G1, G2, … Gn, seleziona un k-mero
s1,s2, ... ,sn da ciascuno di essi
[source: Benos 2007]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Gibbs samplers
2. Scarta un k-mero si a caso dall'insieme s1,s2, ... ,sn
3. Calcola una matrice pesata dai rimanenti n-1
4. Usa la matrice per analizzare un altro k-mero si' dalla sequenza i da
cui era stato pescato si
5. Se lo score di si' è migliore di quello di si, prendi si', altrimenti prendi si'
con probabilità score(si')/score(si), e ricomincia
[source: Benos 2007]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su conservazione evolutiva
Approccio: usare la conservazione fra specie per migliorare la predizione di
segnali
Si basa su alcune ipotesi:
1. La funzione e la specificità di legame dei TF è ben conservata in specie
diverse sufficientemente vicine;
2. Siti funzionali nel DNA (non codificanti) sono sottoposti a una diversa
pressione selettiva rispetto alle sequenze che li circondano;
3. Geni ortologhi di specie diverse hanno espressione simile, e
necessariamente sono controllati da un simile set di TF
I metodi più usati appartengono alla classe dei metodi per phylogenetic
footprinting
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su conservazione evolutiva
Omologhi: sequenze che hanno origine comune, posono avere o no una funzione simile;
Ortologhi: omologhi prodotti da speciazione. Sono geni derivati da un ancestore comune la cui
divergenza deriva dalla divergenza delle due specie in cui si trovano. Tendono ad avere funzioni simili;
Paraloghi: omologhi prodotti da duplicazione genica. Sono geni derivati da un ancestore comune che si
è duplicato. Le due copie accumulano mutazioni e non sono soggette alla stessa pressione evolutiva.
Tendono ad avere funzioni diverse (poco o anche molto).
[Baxevanis and Ouellette, 2001]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su conservazione evolutiva
[Baxevanis & Ouellette 2005]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su conservazione evolutiva
Quali specie scegliere?
Bilanciare fra:
- specie abbastanza vicine tali che:
1) Ci sia sufficiente similarità da garantire un buon
allineamento di sequenze
2) Si possa assumere conservazione funzionale e regolativa
degli ortologhi
- specie abbastanza lontane tali che:
1) le sequenze non funzionali abbiano avuto tempo di
divergere
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su conservazione evolutiva
- Si parte da motivi corti perfettamente conservati (ad es. Triplette, o coppie di
triplette separate da uno spaziatore);
- Si estendono questi seeds consentendo minore conservazione;
- Si combinano motivi simili identificati in tutto il genoma e si costruiscono le
matrici pesate.
[Kellis et al. 2003]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su alberi filogenetici
●
Dati:
●
●
●
●
●
Una lunghezza stipulata del motivo k
Il punteggio massimo consentito di parsimonia d
Problema
●
Lezione 4
n sequenze ortologhe S1, S2, S3, …, Sn
un albero filogenetico T che mette in relazione
queste sequenze
Trovare il set di k-meri con score di parsimonia <= d
in T
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su alberi filogenetici
AGTCGTACGTGAC... (Human)
AGTAGACGTGCCG... (Chimp)
ACGTGAGATACGT... (Rabbit)
GAACGGAGTACGT... (Mouse)
TCGTGACGGTGAT... (Rat)
k=4
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su alberi filogenetici
ACGT
AGTCGTACGTGAC...
AGTAGACGTGCCG...
ACGT
ACGTGAGATACGT...
GAACGGAGTACGT...
ACGT
ACGG
TCGTGACGGTGAT...
Parsimony score: 1 mutazione
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi basati su conservazione evolutiva
Problemi:
- Bisogna scegliere le specie giuste;
- Genomi diversi evolvono a tassi diversi;
- Regioni diverse nello stesso genoma evolvono a tassi diversi;
- L'allineamento di regioni con scarsa pressione selettiva può essere
problematico;
- Ancora pochi genomi.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi ibridi
- Metodi sia basati su modelli statistici del motivo, sia basati su conservazione
evolutiva, soffrono di un elevato numero di predizioni false
- Metodi ibridi combinano i due approcci per ridurre il numero di falsi positivi
- Questo a discapito della sensibilità della precisione (molti veri positivi sono persi)
Alcuni lavori:
- Sinha et al. 2004 “PhyME: A probabalistic algorithm for finding motifs in
sets of orthologous sequences”
- Moses et al. 2004 “Monkey: identification of transcription factor binding sites
in multiple alignments using a binding site-specific evolutionary model
- Siddharthan et al. 2005 “PhyloGibbs: A Gibbs sampling motif finder that
incorporates phylogeny.”
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
ConSite (Adams, 2000)
[Wasserman, Nature Rev. 2004]
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Predizione usando informazioni strutturali (Kaplan, 2005)
Approccio: sfruttare la conoscenza sulla modalità di legame del TF per
predizione di siti di legame;
Applicazione: Cys2His2 Zinc Finger
- Famiglia più numerosa di proteine leganti il DNA;
- Solitamente monomerica, ma contenente diverse ripetizione del ”dito“
- Il dito interagisce con il solco maggiore del DNA
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Predizione usando informazioni strutturali (Kaplan, 2005)
Assunzioni:
- proteine della stessa famiglia hanno la stessa modalità di riconoscimento;
- la specificità dipende da quali aminoacidi si trovano nelle posizioni di contatto e dal
loro contesto;
- si possono estrarre regole dai membri della famiglia già ben caratterizzati, ed
estrapolarle a membri meno noti per determinarne la specificità.
Modo di legame canonico del dito di zinco sul DNA
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Predizione usando informazioni strutturali (Kaplan, 2005)
- Per molti zinc-fingers, sono noti solo i
promotori che essi regolano, ma non gli
esatti siti di legame
- Si identificano le matrici di specificità di
questi zinc-fingers con algoritmi EM
- Le specificità di ogni zinc-finger sono
combinate in una matrice che riporta
posizione per posizione le preferenze (cioè
quale nucleotide è trovato più
frequentemente quando in quella posizione
c'è uno specifico aminoacido)
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Predizione usando informazioni strutturali (Kaplan, 2005)
Dall'allineamento di tutti gli zinc-finger
in Transfac si determinano le
frequenze di riconoscimento
posizione-specifiche
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Predizione usando informazioni strutturali (Kaplan, 2005)
Dato un nuovo zinc-finger a specificità ignota, si identificano le posizioni di contatto, e si
usa la matrice di interazione per stimarne la specificità.
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Predizione usando informazioni strutturali (Kaplan, 2005)
- In Drosophila sono stati trovati 29 zinc-fingers con struttura canonica ma specificità
sconosciuta;
- Per ciascuno di essi, se ne è stimata la specificità e si e' usata la matrice ottenuta per
analizzare il promotore di tutti i geni noti di Drosophila;
- Di tutti i geni aventi un sito putativo di legame per un dato zinc-finger, si sono valutate
caratteristiche comuni.
Celle blu: arricchimento significativo di termini GO
Lezione 4
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010