Genomics Session
Lezione 3
Predizione di geni
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
Zhang, Nature 2002
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Identificazione dei geni
•
Metodi Diretti
– Mediante ricerca di match perfetti o quasi perfetti con EST,
cDNA o sequenze proteiche dello stesso organismo
(allineamento cis)
–
–
•
Metodi Indiretti
– Mediante ricerca di somiglianze con un gene noto (allineamento
trans);
– Mediante ricerca di strutture simili a un gene ideale (ab initio o
de novo)
Metodi Ibridi
1. Mediante l' unione di tecniche per omologia, ab initio e metodi
diretti
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Librerie di cDNA
Brent, Nature Reviews Genetics 2008
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Librerie di EST
Cell or tissue
Isolate mRNA and
reverse transcribe into cDNA
Analyze
Clone cDNA into a vector
to make a cDNA library
5' EST
3' EST
cDNA
vector
Lezione 3
Pick individual
clones
Sequence the
5' and 3' ends
of cDNA inserts
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Librerie di EST
Librerie di ESTs
Brent, Nature Reviews Genetics 2008
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Librerie di EST
Limiti delle librerie di EST:
•
Contaminazioni
•
Bassa qualità – errori di sequenza sono frequenti
•
Altamente ridondanti – geni altamente espressi saranno rappresentati molto
più di geni espressi poco
•
Possono non coprire tutta la sequenza del trascritto e limitarsi alle estremità
•
Non tengono conto di varianti di splicing
•
Geni che si sovrappongono possono risultare indistinguibili
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
RNA-seq
- Tecniche di NGS
possono essere applicate
al sequenziamento del
trascrittoma. Si parla in
questo caso di RNA-seq;
- La mappatura di reads
esoniche è semplice, più
problematiche sono le
reads che scavallano la
giunzione fra due esoni (le
junction reads);
- Il numero di reads che
cadono in un locus, diviso
per la lunghezza del locus
e per il numero totale di
reads ottenute nella corsa,
danno una stima della sua
espressione.
[Wang et al. 2009]
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Allineamento trans
Limiti dell'allineamento cis:
Dati disponibili solo per alcuni organismi
Allineamento trans:
Usare sequenze geniche note di altri organismi;
Problema: ricerca efficiente di match non perfetti fra un gene (cDNA,
mRNA, proteina) di un organismo e un intero genoma evolutivamente
vicino;
Diversi approcci:
BLAT (variante di BLAST)
Exonerate
GeneWise (usato per generare Ensembl)
Brent, Nature Reviews Genetics 2008
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
Zhang, Nature 2002
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
atg
tga
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
atg
caggtg
ggtgag
tga
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Struttura dei geni negli eucarioti
atg
caggtg
ggtgag
cagatg
ggtgag
cagttg
ggtgag
caggcc
ggtgag
tga
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi ab initio
Si basano su:
Identificazione di segnali che permettono l'identificazione di un gene
e della sua struttura (splicing, inizio e fine traduzione, etc.)
Modelli statistici che incorporano questi segnali
I segnali sono calcolati su un dataset di riferimento, cioè geni
possibilmente dello stesso organismo già noti
Possono includere considerazioni evolutive (nell'ipotesi che
sequenze genomiche corrispondenti a geni siano piu' conservate,
e/o mostrino patterns di conservazione caratteristici).
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
Giunzioni di splicing
Donor site
5’
3’
Position
%
-8 … -2 -1
A
C
G
T
26
26
25
23
Lezione 3
…
…
…
…
0
1
2
… 17
60 9 0 1 54 … 21
15 5 0 1 2 … 27
12 78 99 0 41 … 27
13 8 1 98 3 … 25
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate (PSSM)
[Wasserman, Nature Rev. 2004]
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate (PSSM)
[Wasserman, Nature Rev. 2004]
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate (PSSM)
Analizzando una sequenza con una PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (somma dei punteggi per ogni posizione)
Punteggio relativo
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Max_score = 15.2 (somma dei punteggi maggiori
di ogni colonna)
A
C
G
T
[-0.2284
-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
Min_score = -11.0 (somma dei punteggi minori
di ogni colonna)
Abs_score - Min_score
⋅ 100 %
Max_score - Min_score
13.4 - (-11.0)
=
⋅ 100% = 93%
15.2 − (− 11.0)
Rel_score =
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Logo della sequenza
●
●
●
●
●
L'altezza relativa di ogni lettera riflette la sua abbondanza nell'allineamento
multiplo; l'altezza della pila di lettere è una basata su una misura della
conservazione basata sull'entropia;
Entropia(i) = -SUM { p(base, i)* ln[p(base, i)] }
Conservazione(i) = 2- Entropia(i)
Si esprime in bits di informazione
Posizione molto conservata -> bassa entropia -> pila alta
Posizione poco conservata -> alta entropia -> pila bassa
[Wasserman, Nature Rev. 2004]
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
Tratto di poli-pirimidine
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
(codone di stop)
(codone di inizio)
A T G
(sito donatore di splicing)
G T
Lezione 3
T G A
T A A
T A G
(sito accettore di splicing)
A G
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
I segmenti codificanti (CDS) di un gene sono delimitati da 4 tipi di segnale:
codone di inizio (ATG negli eucarioti), codone di stop (TAG, TGA, o TAA), siti
donatori di splicing (solitamente GT), e siti accettori di splicing (AG)
exon
ATG . . . GT
start codon
Lezione 3
intron
exon
AG
donor site acceptor
site
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
complete mRNA
coding segment
ATG
exon
ATG . . . GT
start codon
intron
TGA
exon
AG
donor site acceptor
site
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
In realtà, il primo esone si estende anche a monte del codone di inizio, e
l'ultimo esone si estende a valle del codone di stop. Queste regioni non
tradotte (untranslated regions, UTRs) sono spesso ignorate dagli algoritmi
per identificazione di geni.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
Si definiscono 4 tipi di esoni:
Esoni iniziali, dal sito di inizio della trascrizione al primo sito donatore;
Esoni interni, da un sito accettore al sito donatore successivo;
Esoni terminali, dall'ultimo sito accettore al sito di poliadenilazione;
Esoni singoli, dal codone di inizio al codone di stop (in geni senza introni).
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
Il problema dell'identificazione di geni in una sequenza genomica
può essere ricondotto all'identificazione di intervalli nella sequenza
genomica, delimitando gli esoni putativi e le altre regioni della
struttura del gene:
exon
ATG . . . GT
start codon
intron
exon
AG
donor site acceptor
site
TATTCCGATCGATCGATCTCTCTAGCGTCTACG
CTATCATCGCTCTCTATTATCGCGCGATCGTCG
ATCGCGCGAGAGTATGCTACGTCGATCGAATTG
Lezione 3
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
gene
finder
(6,39), (107-250), (1089-1167), ...
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
La sintassi dei geni eucariotici può essere rappresentata da una serie di
segnali (ATG = codone di inizio; TAG = uno dei tre codoni di stop; GT = sito
donatore di splicing; AG= sito accettore). Si possono definire delle regole
sintattiche:
Ad esempio, una regione che inizia con un codone di inizio ATG può finire
con o uno stop TAG, o con un donatore GT, definendo rispettivamente un
codone singolo o uno iniziale.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
Dopo aver identificato i segnali a punteggio più alto nella
sequenza input, si possono connetter questi segnali usando le
regole sintattiche ottenendo un ORF graph:
L' ORF graph rappresenta tutti i possibili percorsi, e vi associa un
punteggio. Ogni percorso corrisponde ad un putativo gene.
Lezione 2
3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modelli di un gene
TATTCCGATCGATCGATCTCTCTAGCGTCTACG
CTATCATCGCTCTCTATTATCGCGCGATCGTCG
ATCGCGCGAGAGTATGCTACGTCGATCGAATTG
Identificare e valutare i segnali, e se possibile
le regioni fra di loro; indurre un ORF graph sul
set dei segnali
Trovare il percorso con punteggio massimo
attraverso l'ORF graph; questo può essere
convertito nella struttura di un gene
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Codon bias
Mutazioni sinonime — che non alterano il tipo di aminoacido codificato – non
hanno effetto sulla sequenza della proteina risultante, quindi non dovrebbero
avere effetto sulle funzioni della cellula, sulla fitness dell'individuo o
sull'evoluzione della popolazione.
Tuttavia, nella maggior parte dei genomi i codoni sinonimi non sono utilizzato
con la stessa frequenza. Questo fenomeno è noto come codon usage bias
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Codon bias
The Human Codon Usage Table
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Codon bias
Utlizzo dei codoni:
- non tutti i codoni sono usati
con la stessa frequenza;
- specie differenti possono
usare preferenzialmente un
diverso set di codoni;
- geni differenti della stessa
specie possono preferire
codoni diversi per lo stesso
aminoacido;
- la forza del codon usage bias
varia da specie a specie e
all'interno dello stesso
genoma.
[Plotkin & Kudla, Nat. Rev. Genet. 2010]
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Misure del codon bias
Il relative synonymous codon usage (RSCU) è la frequenza del codone in
un gene diviso per il numero di occorerenze attese se tutti i codoni fossero
utilizzati con la stessa frequenza.
RSCU i =
fi
1
N
N
∑fj
1
N = numero di codoni sinonimi (1 ≤ N ≤ 6) per un dato aminoacido, fi =
frequenza del codone i.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Misure del codon bias
Il Codon adaptation index (CAI) misura quanto i geni usano codoni preferiti.
Si può compilare una tabella dei valori RSCU per geni altamente espressi.
Da questa tabella si identificano I codoni preferiti per ogni aminoacido.Il
relative adaptiveness of a codon (wi) è definito come
RSCU i
wi =
RSCU max
dove RSCUmax = valore di RSCU del codone più frequente per un dato
aminoacido.
Il CAI è calcolato come la media geometrica dei valori di wi per tutti I codoni
di un dato gene:
CAI ( gene ) =
L
L
∏
i= 1
Lezione 3
wi
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Come mai si osserva un codon-usage bias?
- Correlazioni fra livelli di
espressione genica e codon
biassono state spesso osservate
(in E. coli, S. cerevisiae, C.
elegans, Arabidopsis thaliana, D.
melanogaster);
[Ikemura Mol. Biol. Evol. 1985]
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Codoni preferiti sono spesso associati a tRNA più abbondanti
- Ogni codone è riconosciuto da
almeno un tRNA, caricato con il
corrispondente aminoacido;
- Un tRNA è spesso codificato da
più di un gene;
- C'è buona correlazione fra la
preferenza di un dato codone e il
numero di geni codificanti per I
supoi tRNA;
- Più di recente, si è visto che
l'espressione di molecole di un
dato tRNA è ben correlata con il
numero di geni che lo codificano,
e quindi con la preferenza per il
codone da esso riconosciuto;
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Il codon usage bias può aumentare la velocità di traduzione
Geni che utilizzano codoni
riconosciuti da tRNA più
abbondanti possono essere
tradotti a maggiore efficienza.
Quindi la selezione naturale
può favorire l'utilizzo di
particolari codoni sinonimi.
Questa selezione sarà
maggiore per geni espressi
ad alti livelli.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Altri segnali
Contenuto in G+C
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Altri segnali
Mediana delle lunghezze di introni ed esoni in funzione del contenuto in G+C
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Catene di Markov
Una catena di Markov è un modello per la generazione stocastica di fenomeni
sequenziali.
L'ordine della catena di Markov equivale al numero di posizioni precedenti dalle
quali la posizione corrente dipende. Ad esempio, in sequenze di acidi nucleici, una
catena di ordine-0 considera le frequenze dei nucleotidi, una catena di 1-ordine
considera le frequenze di coppie di nucleotidi, etc.
I parametri del modello sono le frequenze dei vari elementi ad ogni posizione
(possibilmente funzione degli elementi precedenti).
s = ttacggt
s = s1s2 s3s4 ⋯
0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
Lezione 2
3
N
∏ p( s )
i= 1
i
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
2010/2011
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
Lezione 3
N
∏ p( s )
i= 1
i
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
• 1st-order
N
∏ p( s )
i
i= 1
N
P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
N
P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
• 1st-order
N
∏ p( s )
i
i= 1
N
P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
N
P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
• 2nd-order
N
P2 ( s ) = p( s1s2 ) ⋅ p( s3 | s1s2 ) ⋅ p( s4 | s2 s3 ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 )
i= 3 N
P2 ( s ) = p( tt ) ⋅ p( a | tt ) ⋅ p( c | ta ) ⋅ p( g | ac ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 )
i= 3
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Catene di Markov
GCGCTAGCGCCGATCATCTACTCG
GCGCTAGCGCCGATCATCTACTCG
GCGCTAGCGCCGATCATCTACTCG
GCGCTAGCGCCGATCATCTACTCG
GCGCTAGCGCCGATCATCTACTCG
GCGCTAGCGCCGATCATCTACTCG
GCGCTAGCGCCGATCATCTACTCG
Lezione 3
}
}
}
primo ordine
secondo ordine
quinto ordine
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
Ingredienti del modello:
Insieme degli stati
{S1, S2, …,SN}
Probabilità di transizione fra stati (matrice di
transizioni)
Aij = P(qt+1 = Si | qt = Sj)
Distribuzione degli stati iniziali
π = P(q
i
Lezione 3
1
= Si)
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
Insieme degli stati
{Ssole, Spioggia, Sneve}
Probabilità di transizione fra stati (matrice di
transizioni)
.08 .15 .05
A=
.38 .6
.02
.75 .05 .2
Distribuzione degli stati iniziali
π = (.7
i
Lezione 3
.25 .05)
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
P(Ssole) x P(Spioggia | Ssole) x P(Spioggia | Spioggia) x P(Spioggia | Spioggia) x
P(Sneve | Spiggia) x P(Sneve | Sneve) = 0.7 x 0.15 x 0.6 x 0.6 x 0.02 x
0.2 = 0.0001512
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
Stati: {S1, S2,…,SN}
Matrice delle transizioni Aij = P(qt+1 = Si | qt = Sj)
Stati iniziali
π = P(q
i
1
= Si)
Osservazioni: {O1, O2,…,OM}
Probabilità delle osservazioni: Bj(k) = P(vt = Ok | qt = Sj)
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
P(O) = P(Oguanti, Oguanti, Oombrello,…, Oombrello)
= Σ P(O | Q)P(Q) = Σ P(O | q1,…,q7)
= 0.7 x 0.86 x 0.32 x 0.14 x 0.6 + …
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
0
0
0
 0
 0.5 0.998 0.002 0

Φ = 
 0.5 0.001 0.996 0


 0 0.001 0.002 0
 0.28
 0.22
H = 
 0.25

 0.25
Un HMM è completamente definito da:
●
Matrice delle transizioni fra stati (Φ)
● Matrice delle emissioni (H)
● Vettore di stato (x)
0.32
0.18 

0.18 

0.32
xm(i) = probabilità di essere nello stato m al momento i;
H(m,yi) = probabilità di emettere un carattere yi nello stato m;
Φmk = probabilità della transizione dallo stato k allo stato m.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
•
•
•
•
•
•
•
Lezione 3
Algoritmo forward: Dati i parametri del modello, qual' è la
probabilità di una particolare sequenza osservata?
(dynamic programming)
Algoritmo di Viterbi: Dati i parametri del modello, qual' è
la sequenza di stati che più verosimilmente ha condotto alla
sequenza di osservazioni?
Baum-Welch: dato un insieme di osservazioni, e le
corrispondenti sequenze di stati, quali sono i parametri del
modello?
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
Un HMM può essere costruito come un generatore di regioni genomiche:
Osservazioni: sequenza dei nucleotidi;
Stati: ruolo svolto dal nucleotide (ad es. se è il secondo nucleotide di
una giunzione di splicing, se è nel mezzo della sequenza di un
introne, se è nella prima posizione di un codone, etc.);
Data una sequenza nucleotidica genomica (un cromosoma, un contig), si
può usare l'algoritmo di Viterbi per ottenere la più probabile sequenza di
stati che l'ha prodotta -> identificare la struttura di eventuali geni presenti
nella sequenza.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
[Brent, 2008]
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Hidden Markov Models
Sequenza dell'introne
Donatore
Lezione 3
Accettore
[Brent, 2008]
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Generalized Hidden Markov Models (GHMM)
Un GHMM (detto anche explicit state duration HMM) è una variante degli
HMM per il quale le osservazioni non sono singoli nucleotidi, ma interi
segmenti:
Osservazioni: sequenza di vari segmenti;
Stati: ruolo svolto dal segmento (ad es. se è un sito donatore di una
giunzione di splicing, se è la regione centrale di un introne);
Ogni stato è definito da un modello che definisce la probabilità di ogni
osservazione.
Una variante dell'algoritmo di Viterbi può essere usata per ottenere la più
probabile segmentazione che l'ha prodotta -> identificare la struttura di
eventuali geni presenti nella sequenza.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Generalized Hidden Markov Models (GHMM)
Esempi di modello di stato (segmento):
Siti di poliadenilazione:
PSSM di sei posizioni compilata su un dataset di training
Accettore di splicing:
Catena di Markov del 1-ordine
Sequenza nel mezzo di un introne:
Catena di Markov del 5-ordine
(la probabilità di un segmento è il prodotto delle probabilità di ogni
suo nucleotide, dati i 5 nucleotidi precedenti; ad es. la probabilità
dell'ultima A dell'esapeptide TGCATA è data dalla frequenza con
cui i pentapetidi TGCAT terminano in A nel dataset di training)
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Generalized Hidden Markov Models (GHMM)
Fase 0
Fase 1
Fase 2
Lezione 3
CTA GGT AAT CGTCGT .... AAA CTC AGT
CTA GGT AAT CGT CG ........... A CTC AGT
CTA GGT AAT CGT C ........... AA CTC AGT
Zhang, Nature 2002
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Generalized Hidden Markov Models (GHMM)
Duration d
T A A T A T G T C C A C G G G T A T T G AG C A T T G T A C A C G G G G T A T T G A G C A T G T A A T G A A
Exon1
Lezione 3
Exon2
Exon3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genscan (Burge, 1997)
Disegnato per predirre la struttura completa di un gene:
Introni, esoni, promotori, siti di poliadenilazione;
Include:
Descrizioni di segnali di inizio e fine della trascrizione, e splicing;
Distribuzione delle lugnhezze delle varie sottoregioni;
Frequenze di composizione di esoni, introni, regioni intergeniche,
regioni C+G;
Può predirre
Geni interi o frammenti;
Geni multipli separati da regioni intergeniche;
Geni su entrambi i filamenti della sequenza;
Basato su un modello generale probabilistico della struttura e
composizione di un gene (Explicit State Duration HMMs).
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genscan (Burge, 1997)
N – regione intergenica
P - promotore
F - 5’ UTR
T – 3'UTR
Esngl - esone singolo (codone di inizio ->
codone di stop)
Einit - esone iniziale (codone di inizio -> sito
donatore di splicing)
Ek - esone interno con fase k (sito accettore
di splicing -> sito donatore)
Eterm - esone terminale (sito accettore ->
codone di stop)
Ik - introne con fase k: 0 – fra due codoni; 1
– dopo la prima base di un codone; 2 – dopo
la seconda base di un codone
Zhang, Nature 2002
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genscan (Burge, 1997)
 0.06 


0
.
04



Π = 0.60 


 0.12 
 ⋮ 


1
0
0
 0

0
1
0
 0
A =  0.28 0.33 0 0.39

 0.28 0.41 0.31 0
 ⋮
⋮
⋮
⋮

⋯

⋯
⋯

⋯
⋱ 
Sequenza di stati assunti dal sistema:
q = {q1, q2, q3 ,.., qn}
Sequenza di durate della permanenza in ogni stato:
d = {d1, d2, d3 ,.., dn}
A C G C G A C T A G G C G C A G G T .. T A T G A T
Exoninit
Intron0
Exon0
Intron0
Exonterm
3’UTR
P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn}
stato iniziale
probabilità di transizione
segmento di sequenza
durata dello stato iniziale
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genscan (Burge, 1997)
Probabilità di una sequenza S usando un particolare percorso:
P(Фi,S) = πq1(d1)Pq1{s1|q ,d } * Aq1,q2(d2)Pq2{s2|q ,d } * ..… * Aqn-1,qn(dn)Pqn{sn|q ,d }
1
1
2
2
n
n
Probabilità di un percorso data una sequenza S?
P(Φ i, S)
P(Φ i , S)
P(Φ i | S) =
=
P(S)
Σ Φ j ∈ Φ LP(Φ j , S)
Lezione 3
Teorema di Bayes
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Twinscan (Korf, 2001)
Twinscan – Dual genome Gene Predictor
Basato su Genscan, cui aggiunge un modello di conservazione evolutiva
Dato un genoma target, e un genoma di supporto (informant sequences), BLAST è
utilizzato per identificare regioni di similarità locale.
Ogni base allineata nella sequenza target è segnata come gap (.), mismatch (:), o match
(|).
Ad esempio:
Uomo:
Topo:
Allineamento:
ACGGCGA-GUGCACGU
ACUGUGACGUGCACUU
||:|:||.||||||:|
Si definisce un nuovo alfabeto di 12 lettere = { A., A:, A|, C., C:, C|, G., G:, G|, U., U:, U| }
Sequenze di questi simboli sono modellati come catene di Markov del quinto
ordine.
Si usa lo stesso modello di Genscan, ma che calcola anche la probabilità della stringa di
conservazione. Una variante dell'algoritmo di Viterbi è applicata per calcolare la
probabilità di osservare la data sequenza di simboli.
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Twinscan (Korf, 2001)
?
Brent, Nature Biotechnology 2007
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Twinscan (Korf, 2001)
?
Brent, Nature Biotechnology 2007
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Twinscan (Korf, 2001)
Brent, Nature Biotechnology 2007
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Twinscan (Korf, 2001)
Brent, Nature Biotechnology 2007
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
N-scan (Gross, 2006)
NSCAN - Multiple Species Gene Predictor
•
GENSCAN
Target
Target
•
GGTGAGGTGACCAAGAACGTGTTGACAGTA
GGTGAGGTGACCAAGAACGTGTTGACAGTA
|||:||:||:|||||:||||||||......
|||:||:||:|||||:||||||||......
Emette una sequenza e la sua
conservazione
GGTGAGGTGACCAAGAACGTGTTGACAGTA
GGTGAGGTGACCAAGAACGTGTTGACAGTA
GGTCAGC___CCAAGAACGTGTAG......
GGTCAGC___CCAAGAACGTGTAG......
GATCAGC___CCAAGAACGTGTAG......
GATCAGC___CCAAGAACGTGTAG......
GGTGAGCTGACCAAGATCGTGTTGACACAA
GGTGAGCTGACCAAGATCGTGTTGACACAA
Emette colonne di un
allineamento multiplo
N-SCAN
Target
Target
Informant1
Informant1
Informant2
Informant2
Informant3
Informant3
Lezione 3
Emette una sequenza
TWINSCAN
Target
Target
Conservation
Conservation
sequence
sequence
•
GGTGAGGTGACCAAGAACGTGTTGACAGTA
GGTGAGGTGACCAAGAACGTGTTGACAGTA
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Contast (Gross, 2007)
Basato sui Conditional Random Fields (CRF);
I CRF sono modelli discriminativi, per l'etichettatura di una sequenza di
input (mentre gli HMM sono generativi);
E' rappresentato da un modello grafico, in cui i vertici sono le variabili, e gli
archi descrivono un rapporto di dipendenza fra variabili;
L'input è un allinamento multiplo fra la sequenza target e una serie di
genomi (informants);
Può includere anche dati di espressione (ad es. ESTs);
Brent, Nature Reviews Genetics 2008
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Contast (Gross, 2007)
Lezione 3
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011