Lezione6_GenomicaComputazionale_2011 (3.17

Genomics Session
Lezione 6
microRNA
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
MicroRNAs (miRNAs): piccoli RNA non codificanti coinvolti nella
regulazione di molti (forse tutti) i processi cellulari;
●
Sono note molti stati patologici correlati con alterazioni delle funzioni di
miRNA specifici;
●
●
Grande potenziale in applicazioni biotecnologiche;
Difficili da caratterizzare sperimentalmente: non ci sono ancora tecniche
high-throughput;
●
Approcci computazionali possono coadiuvare ed integrare gli approcci
sperimentali;
●
●
Lezione 6
Gli algoritmi attualmente disponibili non sono molto accurati.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
RNA che regolano la traduzione




Lezione 6
L'espressione genica a livello post-trascrizionale è regolata da molti
fattori, ed è spesso mediata da RNA regolatori;
Gli RNA regolatori si legano al RNA messaggero, impedendone la
traduzione (in vari modi);
Gli RNA regulatori interagiscono con i loro mRNA target via
complementarità di basi;
Gli RNA regulatori sono solitamente di piccole dimensioni, e
caratterizzati da una struttura secondaria e terziaria molto specifica.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Che cos'è un miRNA?


microRNAs (miRNAs): piccole (lunghezza di 21-23 nt) molecole endogene
di RNA a singolo filamento;
regolano l'espressione genica a livello post-trascrizionale legandosi a
specifiche sequenze nelle regioni al 3'UTR del mRNA, e promuovendone
la degradazione oppure sequestrandolo in specifici compartimenti subcellulari;

sono trascritti da specifici geni, ma non tradotti in proteina;

si trovano nel genoma di piante e animali (e anche in virus);

Lezione 6
2/3 di tutti i geni umani codificanti si pensa siano regolati da miRNA; ogni
miRNA regola in media 300 targets.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Funzioni dei miRNA
I miRNAs giocano un ruolo centrale nel controllare I seguenti processi:
➔ Sviluppo
➔ Differenziamento
➔ Apoptosi

Varie malattie sono causate da alterazioni dell'espressione di miRNA
(perdita completa, sotto- o sovra-espressione), o in alterazioni della loro
specificità:
➔ Cancro
➔ Malattie neuro-degenerative
➔ Patologie cardiache


Altro???
Lezione 2
6
Genomica
GenomicaComputazionale,
Computazionale,Laurea
LaureaMagistrale
MagistraleA.A.
A.A.2010/2011
2010/2011
miRNA
1. Trascrizione
→ miRNA pimario (primiRNA)
2. Processamento
→ miRNA precursore (premiRNA)
3. Esporto: Exportin-5
4. Taglio (Dicer)
→ miRNA duplex
5. Separazione dell'elica
6. Caricamento nel RISC
→ miRNA maturo
7. Selezione del target
8. taglio del mRNA/
repressione della
traduzione
9. degradazione del mRNA
He & Hannon, Nat Rev. Genet. 2004
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Il destino del mRNA bersaglio
Filipowicz et al., Nat Rev. Genet. 2008
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Classi di siti target di miRNA
Brennecke et al., PLOS Biology 2005
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Geni per microRNA
Mendell, Cell Cycle 2005
Griffiths-Jones et al., Nucleic Acids Res. 2008
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA

miRBase è la banca dati “ufficiale” per i miRNA
http://microrna.sanger.ac.uk/

Lezione 6
Immagazzina sequenze di miRNA maturi e loro precursori, e strutture
dei loro stem-loop. Inoltre fornisce informazione sui loro target
(principalmente ottenute mediante predittori) e referenze bibliografiche;

> 5000 sequenze di miRNA in 58 specie;

> 500000 predizioni di target di miRNA in 24 specie.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA

Il database è organizzato in specie:
http://microrna.sanger.ac.uk
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
....pre-miRNA stem-loop…

Per ogni miRNA l'utente può ottenere:
....miRNA maturo...
....e predizione dei target.
http://microrna.sanger.ac.uk
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
TarBase:database di target identificati sperimentalmente
http://microrna.gr/tarbase
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
TarBase:database di target identificati sperimentalmente
Identificazione dei target
Evidenza diretta: reporter gene
assay, mutagenesi sito-specifica
➔
Evidenza indiretta: Microarrays, dati
di proteomica (SILAC)
➔
http://microrna.gr/tarbase
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Metodi computazionali applicati allo studio dei miRNA:


Lezione 6
Predizione di miRNA mature e precursori nel genoma:
➔ Prestazioni relativamente buone, supportate da una quantità
sufficiente di dati sperimentali
Predizione di geni bersaglio di miRNA:
➔ Prestazioni scarse, pochi esempi verificati sperimentalmente
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di geni per miRNA
Possono essere identificati grazie alle caratteristice strutturali dei premiRNA, cioè la capacità di formare delle forcine

Si possono identificare circa 11 milioni di tratti di sequenza che possono
ripiegarsi in forcine nel genoma umano:
●
Bisona ridurre i falsi positivi (conservazione, segnali associati alla
maturazione, espressione della forma matura, etc.)

Lindow & Gorodkin, DNA Cell. Biol. 2007
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di geni per miRNA
Lindow & Gorodkin, DNA Cell. Biol. 2007
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA

La caratterizzazione funzionale di un miRNA dipende fortemente da quali
geni target esso controlla.
Nelle piante
I miRNA sono quasi perfettamente complementari ai loro mRNA targets
➔ La predizione bioinformatica è semplice (ad es. con semplici ricerche con
BLAST)

Negli animali
Le coppie miRNA-target non sono perfettamente complementari
➔ La predizione si basa sulla complementarità parziale fra miRNA e target e
sulla conservazione evolutiva del sito target in gruppi di organismi
sufficientemente vicini (ad es. nei vertebrati).

Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Come trovare i target dei microRNA?
I siti di legame dei microRNA si trovano nelle 3’ UTRs dei mRNA target, e sono
complementari a:
➔ Nelle piante, tutta la lunghezza delmiRNA maturo è coinvolta;
➔ Negli animali, la complementarità è di solito limitata ad un breve tratto al
5' del miRNA maturo (il seed)
➔
➔
Il seed è molto corto (~7-8 nt)
Se si prendono in considerazione anche coppie G-U, mismatch, gaps
(bulges), algoritmi di allineamento di sequenze standard troverebbero un
enorme numero di falsi match.
Come rimuovere questi falsi positivi?
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Bartel, Cell 2009
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Algoritmi per predizione di target di miRNA
Regole comuni:
➔
➔
➔
➔
Lezione 6
Complementarità: ad es. l'estremità 5’del
complementari al target dell'estremità al 3’;
miRNAs
ha
più
basi
Calcolo dell'energia libera: l'interazione miRNA:mRNA è forte;
Considerazioni evoluzionistiche: i siti di legame nei target sono conservati
nei genomi di specie vicine;
Legame cooperativo: molti miRNAs possono regolare lo stesso gene, e lo
stesso miRNA può legarsi a più siti nella stessa 3'UTR.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“miRanda” - Enright et al., Genome Biology 2003
Usa un sistema di
punteggi che pesa
maggiormente
complementarità al 5'
del miRNA;

Considera
conservazione
evoluzionaria;

Utilizza un modello
energetico semplice per
l'ibrido miRNA-target;

Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“TargetScan” - Lewis et al., Cell 2003
Dato un miRNA conservato in
allineamenti multipli di genomi di
specie diverse e un set di sequenze
di 3'UTR ortologhe:
1. Cerca regioni di complementarità
perfetta fra il segmento seed del
miRNA (7 nt) e l'UTR;
2. Verifica che i siti di legame nelle
UTR siano conservati;
3. Estende il match e ne calcola
l'energia;
4. Valuta la significatività del match
confrontandolo con la
distribuzione di match in
sequenze random che "mimano"
veri miRNA.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“Profile based target search” - Stark et al., PLOS Biol. 2003
1.Costruisce un profilo per ogni famiglia di microRNA family (usando
HMMer) per i primi 8 residui, considerando appaiamenti G:U;
2.Cerca in regioni conservate di 3’ UTRs (in genomi di Drosophila) con
questi profili;
3.Estende I match trovati a tutta la lunghezza del miRNA + 5nt;
4.Calcola l'energia con Mfold e ne valuta lo z-score.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“PicTar” - Krek et al., Nat. Genet. 2005
Dato un miRNA conservato in
allineamenti multipli di genomi di specie
diverse e un set di sequenze di 3'UTR
ortologhe:
1. Usa il seed di 7 nt per trovare tutti I
match perfetti e imperfetti nelle
UTR ;
2. Predice l'energia
dell'ibrido;
libera
ottimale
3. Calcola la probabilità che la
sequenza del target sia un sito di
legame;
4. Valuta favorevolmente la presenza di
più siti di legame sulla stessa UTR.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“Pita” - Kertesz et al., Nat. Genet. 2007
Dato un miRNA conservato in allineamenti multipli di genomi di specie
diverse e un set di sequenze di 3'UTR ortologhe:
1. Usa un seed di 6-8 nt cercando complementarità perfetta nelle UTR;
2. Calcola la differenza fra il guadagno energetico fornito dal legame
miRNA:mRNA e l'energia persa nel rendere il sito accessibile;
3. Integra i punteggi di siti di legame multipli, se ci sono.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Quale metodo è il migliore?
Dataset did benchmark: 84 interazioni di mammifero in TarBase
Sethupathy et al., Nat. Methods 2006
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Quale metodo è il migliore?
Sethupathy et al., Nat. Methods 2006
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Quale metodo è il migliore?
PicTar e TargetScan forniscono il miglior compromesso fra sensibilità e tasso di
falsi positivi;


Circa un terzo delle interazioni nel benchmark non sono conservate;

La maggior parte dei metodi over-predice: enrome numero di falsi positivi;

I vari metodi sono raramente in accordo;
C'è bisogno di più dati: il numero di interazioni note miRNA-target è ancora troppo
piccolo;


Bisogna capire meglio come avviene l'interazione:
➔ Qual'è il ruolo del complesso RISC nel riconoscimento?
➔ Come avviene la cooperatività fra diversi siti di legame di miRNA?
➔ C'è interazione con altri siti regolativi nelle 3'UTR?
➔ Come usare dati di espressione trascrittomica e/o proteomica?
Sethupathy et al., Nat. Methods 2006
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genomics Session
Lezione 6
Identificazione di
elementi regolatori
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Segnali nel genoma
Segnale:
Una sottosequenza (sottostringa), con un pattern particolare, nel DNA
o RNA, che riveste un ruolo biologico. Generalmente, è riconosciuto
da una proteina o da un'altra molecola e si ritrova in varie locazioni
nel genoma.
Esempi:
- Sequenze riconosciute da endonucleasi di restrizione (es. GAATTC
per EcoRI);
- Sequenze nei promotori;
- Sequenze segnale dei geni;
- Elementi dell'origine di replicazione e terminatori.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Segnali nel genoma
Il segnale può essere rappresentato da particolari sequenze di
nucleotidi, ma queste sono solo approssimazioni di ciò che è
effettivamente riconosciuto dall'interattore.
Ad esempio, una proteina riconoscerà particolari gruppi chimici del
DNA in una particolare conformazione nello spazio. Il riconoscimento è
sempre dettato da leggi fisiche.
Alcune di queste interazioni sono transienti, altre possono essere più
durature. L'interazione non è quasi mai covalente.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Come le proteine riconoscono il DNA:
Le proteine riconoscono DNA o RNA per
mezzo di legami idrogeno ed interazioni
elettrostatiche principalmente con la
catena proncipale dll'acido nucleico.
Il riconoscimento specifico dei siti di
interazione avviene mediante legami con
i bordi degli anelli della base che
sporgono nel solco maggiore o minore
della doppia elica.
Ci possono essere anche interazioni
idrofobiche mediate da catene laterali
che si intercalano fra due coppie di basi.
[Sun et al., 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Come le proteine riconoscono il DNA:
I siti di interazione possono avere strutture
semplici o complesse.
Ci può essere simmetria interna (ad es.,
ripetizioni invertite di motivi, sequenze
palindromiche).
Questo è dovuto al fatto che le proteine
leganti DNA sono spesso oligomeri (dimeri, o
tetrameri).
Se l'oligomero è ad esempio un dimero con
struttura “testa-a-testa“, la posizione relativa
die due siti di legame del dimero si rifletterà
sulla sequenza riconsciuta nel genoma.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Gal4: attivatore di geni relativi al metabolismo del galattosio
L'unità biologica funzionale è un omodimero
5'-NNNTCGGNNNACTNTNNNCCGANNN-3'
3'-NNNAGCCNNNTGANANNNGGCTNNN-5'
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Segnali nel genoma
- Segnali nel DNA possono essere identificati con tecniche sperimentali;
- Analisi genetica classica
- Sfruttando le modificazioni delle proprietà del DNA duplex quando
legato all'interattore;
- gel-shift assay
- Sfruttando la “protezione“ che l'interattore offre al sito
- chromatin immunoprecipitation
- Chip-Seq
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Chromatin immunoprecipitation (ChIP)
Immunoprecipitazione (IP): tecnica per
isolare un antigene (es. una proteina)
mediante il legame di un anticorpo che ci si
leghi specificamente.
Chromatin immunoprecipitation (ChIP):
tecnica per identificare dove una data
proteina si lega su una sequenza genomica
in vivo.
Procedura:
1. Si induce la formazione di legami covalenti
fra proteine e DNA (usando formaldeide o
DTBP);
2. Si lisano le cellule e si frammenta il DNA;
3. Con un anticorpo specifico per la proteina
di interesse, si isolano i frammenti di DNA
legati alla proteina stessa.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Chromatin immunoprecipitation (ChIP)
4. Il legame fra DNA e agente di cross-linking
è rotto (ad es. usando alte temperature) e il
DNA purificato;
5. La sequenza di frammenti di DNA è
determinata;
6. I frammenti sono mappati sul genoma;
7. Si può una stima quantitativa di quante
sequenze sono trovate per ogni sito.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
●
Proteine leganti il DNA controllano le funzioni del genoma;
●
Gli istoni determinano la struttura della cromatina;
●
Attivatori e repressori determinano l'espressione genica;
●
●
●
Lezione 6
Sapere dove queste proteine si legano aiuta a comprendere come
funziona il genoma;
Si possono selezionare (e identificare) segmenti di DNA che
interagiscono specificamente con proteine quali:
●
Fattori di trascrizione
●
Istoni
●
RNA Polimerasi (per investigare la trascrizione del DNA)
●
DNA Polimerasi (per investigare la replicazione del DNA)
●
Enzimi di riparo del DNA
Si possono anche studiare modificazioni del DNA (ad esempio la
metilazione delle C).
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
Lo studio ed identificazione di segnali nel DNA è spesso
applicato per l'analisi dell'espressione genica.
●
Cosa attiva o disattiva un gene?
●
Quando un gene è attivato o disattivato?
●
Dove (in quali cellule, tessuti, organi) un gene è attivo?
●
Lezione 6
Quanto è attivo un gene (quante copie del suo prodotto
sono sintetizzate)?
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
Restrizione spaziale e temporale dell’espressione genica:
 Geni housekeeping

 Geni con espressione ristretta nello spazio
• Espressione in piu’ organi/tessuti diversi
Stesso ruolo in piu’ tessuti
Il gene codifica per diverse isoforme (promotori alternativi e/o
splicing alternativo tessuto
specifico)
• Espressione specifica per tessuto, linea o tipo cellulare
• Espressione solo in singole cellule
• Distribuzione intracellulare o extracellulare
•
 Geni con espressione ristretta nel tempo
 Stadio di sviluppo
 Stadio di differenziamento
 Momento del ciclo cellulare
 Espressione inducibile da parte di fattori ambientali o extracellulari
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Controllo dell'espressione genica
L'espressione di un gene è regolata a vari livelli, con meccanismi
diversi;
La maggior parte di questi controlli è mediata da motivi di
sequenza, sul DNA, RNA o sulla proteina.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
●
●
●
●
Lezione 6
La trascrizione di ogni gene è controllata da una regione
regolatoria intorno al sito di inizio della trascrizione (transcription
start site, TSS);
Regioni che esercitano influenza sulla trascrizione possono però
essere anche molto lontane dal TSS;
La regolazione è dovuta a due tipi di componenti:
●
Sequenze (corte) di DNA regolatorio;
●
Proteine che vi si legano specificamente;
La combinazione di diversi componenti determina l'effetto
complessivo di regolazione;
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
ELEMENTI DEL PROMOTORE DELLA POL II
●
●
●
ELEMENTI COMUNI DEL PROMOTORE (CORE)
● TATA box
● Iniziatore
● Downstream promoter element
SITI DI LEGAME DI FATTORI DI TRASCRIZIONE
● CAAT box
● GC box
● Sp-1 sites
● GAGA boxes
SITI ENHANCER
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
PROMOTORE CORE
→
PROM. PROSSIMALE
→
PROMOTORE DISTALE
→
regione sufficiente a deteminare
il TSS esatto
200-300 bp upstream al TSS,
responsabile, almeno in parte,
della modulazione
dell’espressione
100 bp – 2 Mb
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Motivi di sequenza
●
Segnali regolatori della trascrizione:
●
Riconosciuti da proteine (fattori di trascrizione, TF);
●
Sequenze corte (5-25 bp);
●
A corta o lunga distanza dal TSS, fino a 1000 bp (o più);
●
Lezione 6
Sequenza, distanza dal TSS, e orientamento di un
motivo riconosciuto dall stesso TF sono variabili.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
TRANSFAC matrix entry: TATA box
Campi:
Accession
ID
Descrizione
TF associati a questa entry
Matrice pesata
Numero di siti usati
Altre info
Referenze
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
Banche dati specie-specifiche:
SCPD (yeast) http://rulai.cshl.edu/SCPD/
DPInteract (e. coli) http://arep.med.harvard.edu/dpinteract/
Drosophila DNase I Footprint Database (v2.0) http://www.flyreg.org/
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Motivi di sequenza
Come si rappresenta un motivo
●
●
●
●
●
Lezione 6
Sequenza consenso: stringa con la sequenza più frequente
posizione per posizione (+/- wildcards);
Espressione regolare;
Profilo;
Modello statistico;
Logo.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate
Scanning a sequence against a PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (sum of column scores)
Relative score
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Max_score = 15.2 (sum of highest column scores)
A
C
G
T
[-0.2284
-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
Min_score = -11.0 (sum of lowest column scores)
Abs_score - Min_score
⋅ 100 %
Max_score - Min_score
13.4 - (-11.0)
=
⋅ 100% = 93%
15.2 − (− 11.0)
Rel_score =
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Logo della sequenza
●
●
●
●
●
L'altezza relativa di ogni lettera riflette la sua abbondanza nell'allineamento
multiplo; l'altezza della pila di lettere è una basata su una misura della
conservazione basata sull'entropia;
Entropia(i) = -SUM { p(base, i)* ln[p(base, i)] }
Conservazione(i) = 2- Entropia(i)
Si esprime in bits di informazione
Posizione molto conservata -> bassa entropia -> pila alta
Posizione poco conservata -> alta entropia -> pila bassa
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Identificazione di motivi di sequenza
Scanning a sequence against a PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (sum of column scores)
Problema: enorme numero di predizioni positive
Quante sono false predizioni?
Livello basale di trascrizione e binding dei TF
Come ridurre il numero di false predizioni?
Analizzare il contesto in cui il sito si viene a trovare (isole CpG)
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Identificazione di motivi di sequenza
Se la specificità di un TF è nota, si tratta di analizzare sequenze
genomiche con il modello di specificità.
Se la specificità del TF non è nota, o se si vogliono identificare
nuovi motivi di interazione, il problema diventa più difficile
Alcuni fattori possono facilitare la loro identificazione:
- over-rappresentati in prossimità di TSS;
- conservazione evolutiva;
- caratteristiche strutturali.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Identificazione di motivi di sequenza
Motivi over-rappresentati in prossimità di TSS
daf-19 Binding Sites in C. elegans
-150
GTTGTCATGGTGAC
GTTTCCATGGAAAC
GCTACCATGGCAAC
GTTACCATAGTAAC
GTTTCCATGGTAAC
-1
che-2
daf-19
osm-1
osm-6
F02D8.3
[source: Peter Swoboda]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Analisi del promotore di geni co-regolati
●
●
●
Geni espressi in maniera simile e coordinata possono essere
identificati sperimentalmente (microarrays, RT-PCR, etc.);
Supponiamo di avere a disposizione la regione del promotore di n
geni G1, G2, … Gn;
Problema: trovare siti di legame di TF senza necessariamente
conoscerne la specificità. Due approcci:
●
Ricerca esaustiva di parole;
●
Lezione 6
Modelli probabilistici;
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Consensus, Wconsensus (Hertz & Stormo, 1999)
Si cerca il motivo che conduce alla
matrice pesata con più altro
contenuto di informazione
1. Si parte da un dataset di
promotori G1, G2, … Gn
2. Si seleziona un k-mero da un
promotore Gi
3. Si costruisce una matrice dal kmero
4. Per ogni altra sequenza Gj, si
usa ogni k-mero per aggiornare la
matrice
5. Si sceglie la matrice a maggiore
contenuto di informazione
6. Si riparte dal punto 4 fino ad
esaurimento delle sequenze
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
Algoritmo di EM: Expectation-Maximization
Un algoritmo EM è un metodo per trovare la stima della massima verosimiglianza
dei parametri di un modello statistico. EM funziona iterativamente, alternando una
fase E (Expectation), in cui la verosmiglianza è calcolata stanti i parametri correnti,
e una fase M (Maximization) dove nuovi parametri sono calcolati cercando di
massimizzare la funzione usata in E.
Funziona iterativamente:
1. Generazione di un modello del motivo di sequenza
a. Inizia con un motivo (k-mero) da una posizione casuale o specificata
b. Costruisce una matrice incorporando frequenze stimate di
background
2. Identifica esempi del motivo usando il modello
a. Per ogni k-mero nel set di geni, calcola la probabilità dato il modello
b. Seleziona i k-meri a più alta probabilità
3. Revisione del modello
a. Costruisce una nuova matrice, basata sulle frequenze pesate di tutti i
k-meri pescati nel dataset
4. Continua fino a convergenza
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
1. Si parte da una serie di k-meri e si calcola la matrice pesata
[source: Benos 2007]
Lezione 4
6
GenomicaComputazionale,
Computazionale,Laurea
LaureaMagistrale
MagistraleA.A.
A.A.2010/2011
2009/2010
Genomica
MEME (Bailey & Elkan, 1995)
2. Si identificano nuovi k-meri (blu) e si ri-calcola la matrice pesata
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
3. Usando la nuova matrice pesata, alcuni dei k-meri di partenza (verdi) saranno
non più sufficientemente simili
4. Si continua finchè non si aggiungono/scartano più k-meri e i punteggi
rimangono simili
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
5. Una volta trovato un motivo, si cancella dalle sequenze del dataset e si
ricomincia
6. Si finisce una volta che i motivi trovati scendono sotto una soglia di punteggio,
e si ripete per tutti i valori di k
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
http://meme.sdsc.edu/meme/website/meme.html
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Gibbs samplers
Altra strategia per esplorare ampi spazi conformazionali
1. Dati una serie di promotori G1, G2, … Gn, seleziona un k-mero
s1,s2, ... ,sn da ciascuno di essi
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Gibbs samplers
2. Scarta un k-mero si a caso dall'insieme s1,s2, ... ,sn
3. Calcola una matrice pesata dai rimanenti n-1
4. Usa la matrice per analizzare un altro k-mero si' dalla sequenza i da
cui era stato pescato si
5. Se lo score di si' è migliore di quello di si, prendi si', altrimenti prendi si'
con probabilità score(si')/score(si), e ricomincia
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati su conservazione evolutiva
Approccio: usare la conservazione fra specie per migliorare la predizione di
segnali
Si basa su alcune ipotesi:
1. La funzione e la specificità di legame dei TF è ben conservata in specie
diverse sufficientemente vicine;
2. Siti funzionali nel DNA (non codificanti) sono sottoposti a una diversa
pressione selettiva rispetto alle sequenze che li circondano;
3. Geni ortologhi di specie diverse hanno espressione simile, e
necessariamente sono controllati da un simile set di TF
I metodi più usati appartengono alla classe dei metodi per phylogenetic
footprinting
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati su conservazione evolutiva
Omologhi: sequenze che hanno origine comune, posono avere o no una funzione simile;
Ortologhi: omologhi prodotti da speciazione. Sono geni derivati da un ancestore comune la cui
divergenza deriva dalla divergenza delle due specie in cui si trovano. Tendono ad avere funzioni simili;
Paraloghi: omologhi prodotti da duplicazione genica. Sono geni derivati da un ancestore comune che si
è duplicato. Le due copie accumulano mutazioni e non sono soggette alla stessa pressione evolutiva.
Tendono ad avere funzioni diverse (poco o anche molto).
[Baxevanis and Ouellette, 2001]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati su alberi filogenetici
●
Dati:
●
●
●
●
●
Una lunghezza stipulata del motivo k
Il punteggio massimo consentito di parsimonia d
Problema
●
Lezione 6
n sequenze ortologhe S1, S2, S3, …, Sn
un albero filogenetico T che mette in relazione
queste sequenze
Trovare il set di k-meri con score di parsimonia <= d
in T
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011