Genomics Session
Lezione 2
Dove sono i geni?
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione dei geni
Annotazione del genoma:
Assegnare ad ogni nucleotide del genoma un possibile
ruolo. Principalmente (ma non solo) riguarda l'annotazione
dei geni.
Diversi tipi di geni:
Geni per RNA non codificante
tRNA, rRNA, snRNA, snoRNA, microRNA
Geni codificanti proteine:
Procarioti
Niente introni
Regioni intergeniche corte
Eucarioti
Alternanza esoni-introni
Bassa densità nel genoma
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Quanti geni nel genoma umano?
●
2000: ci devono essere almeno 100000 geni (il riso ne ha 40000,
C.elegans ne ha 19000)
●
2001: solo 35000?
●
2005, Dicembre: Ensembl release 35: 22218 geni (33869 trascritti)
●
2006, Aprile: Ensembl release 36: 23710 geni (48851 trascritti)
●
2010, Marzo: Ensembl release 57: 25643 geni (>100000 trascritti):
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione dei geni
•
Metodi Diretti
– Mediante ricerca di match perfetti o quasi perfetti con EST,
cDNA o sequenze proteiche dello stesso organismo
(allineamento cis)
–
–
•
Metodi Indiretti
– Mediante ricerca di somiglianze con un gene noto (allineamento
trans);
– Mediante ricerca di strutture simili a un gene ideale (ab initio o
de novo)
Metodi Ibridi
1. Mediante l' unione di tecniche per omologia, ab initio e metodi
diretti
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
Zhang, Nature 2002
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
Zhang, Nature 2002
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
atg
tga
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
atg
caggtg
ggtgag
tga
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
atg
caggtg
ggtgag
cagatg
ggtgag
cagttg
ggtgag
caggcc
ggtgag
tga
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Allineamento cis
Librerie di cDNA
Brent, Nature Reviews Genetics 2008
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Allineamento cis
Librerie di ESTs
Brent, Nature Reviews Genetics 2008
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
EST_GENOME (Mott, 1997)
Output:
1. Ogni esone
2. Ogni introne (marcato con ? Se non comincia con GT e finisce con AG)
3. L'allineamento completo (Span)
4. Ogni segmento (rgione senza gaps)
Viene calcolato un punteggio per ogni esone, che equivale allo score dell'allineamento di
Smith-Waterman. Lo Span score è il punteggio totale di tutti gli esoni, includendo le
penalità per gli introni.
Type
Lezione 2
score
%
gstart gstop genome
estart estop EST
EST doc
Note Best alignment is between forward est and forward genome, but splice sites
Exon
168 92.3 25669 25874 CNFG9
20
220 yo13c02.s1
519
-Intron
-20
0.0 25875 26278 CNFG9
Exon
208 98.6 26279 26492 CNFG9
221
435 yo13c02.s1
519
-Intron
-20
0.0 26493 27390 CNFG9
Exon
62 87.4 27391 27477 CNFG9
436
518 yo13c02.s1
519
imply REVERSED GENE
0
519 SCF
Span
398
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
Segment
4
36
1
5
7
53
65
11
33
177
24
18
19
4
5
94.1 25669 27477 CNFG9
83.3
95.0
66.7
85.7
100.0
96.5
100.0
86.7
100.0
98.9
96.2
90.9
87.5
100.0
85.7
25669
25676
25717
25721
25729
25737
25795
25860
26279
26312
27391
27418
27441
27466
27471
25674
25715
25719
25727
25735
25793
25859
25874
26311
26492
27416
27439
27464
27469
27477
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
CNFG9
20
20
26
66
69
76
83
140
206
221
255
436
462
484
508
512
0
519
SCF
0
519
SCF
518 yo13c02.s1
519
0
519
SCF
25
65
68
75
82
139
204
220
253
435
461
483
507
511
518
519
519
519
519
519
519
519
519
519
519
519
519
519
519
519
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
519
519
519
519
519
519
519
519
519
519
519
519
519
519
519
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
SCF
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
yo13c02.s1
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
EST_GENOME (Mott, 1997)
CNFG9 vs yo13c02.s1:
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
CNFG9
yo13c02.s1
Lezione 2
25669 ATCAGCGCTGCGGCCGCCCGGAAGCTCATCTTGGCCACCGACTCTCGCTT
|| ||| |||| |||||||||||||||||||||||||||||||||| |
20 ATAAGC-TTGCGACCGCCCGGAAGCTCATCTTGGCCACCGACTCTCG-AT
25718
25719 GCGCCGCCGCGGGAGCCGGTGGAAACCTGAGCGGGAGCTGGAGAAGGAGC
| | ||||| ||||||| |||||||||||||||||| ||||||||||||
68 G-GTCGCCG-GGGAGCC-GTGGAAACCTGAGCGGGACGTGGAGAAGGAGC
25768
25769 AGAGGGAGGCAGCACCCGGCGTGACGGGAGTGTGTGGGGCACTCAGGCCT
||||||||||||||||||||||||| ||||||||||||||||||||||||
115 AGAGGGAGGCAGCACCCGGCGTGAC-GGAGTGTGTGGGGCACTCAGGCCT
25818
25819 TCCGCAGTGTCATCTGCCACACGGAAGGCACGGCCACGGGC-CAGGGGGT
|||||||||||||||||||||||||||||||||||||||||
||||||
164 TCCGCAGTGTCATCTGCCACACGGAAGGCACGGCCACGGGCAGGGGGGGT
25867
25868 CTATGATctgga.....catacCTTCTGCATGCCCAGCTGGCATGGCCCC
|||||||<<<<< 404 <<<<<||||||||||||||||||||||||||||
214 CTATGAT...............CTTCTGCATGCCCAGCTGGCATGGCCCC
26306
26307 ACGTA-GAGTGGGGGTGGCGTCTCGGTGCTGGTCAGCGACACGTTGTCCT
||||| |||||||| |||||||||||||||||||||||||||||||||||
249 ACGTAGGAGTGGGGTTGGCGTCTCGGTGCTGGTCAGCGACACGTTGTCCT
26355
26356 GGCTGGGCAGGTCCAGCTCCCGGAGGACCTGGGGCTTCAGCTTCCCGTAG
||||||||||||||||||||||||||||||||||||||||||||||||||
299 GGCTGGGCAGGTCCAGCTCCCGGAGGACCTGGGGCTTCAGCTTCCCGTAG
26405
26406 CGCTGGCTGCAGTGACGGATGCTCTTGCGCTGCCATTTCTGGGTGCTGTC
||||||||||||||||||||||||||||||||||||||||||||||||||
349 CGCTGGCTGCAGTGACGGATGCTCTTGCGCTGCCATTTCTGGGTGCTGTC
26455
26456 ACTGTCCTTGCTCACTCCAAACCAGTCGGCGGTCCCCctggc.....ggt
|||||||||||||| ||||||||||||||||||||||<<<<< 898 <<<
399 ACTGTCCTTGCTCATTCCAAACCAGTCGGCGGTCCCC.............
26492
26492 acCTGCGGATGGTCTGTGTGATGGACGTCTGGCGTTGCAGCACCGGCCGC
<<||||||||||| |||||||||||||| ||| ||||||||||||||||
435 ..CTGCGGATGGTTTGTGTGATGGACGT-TGGGCTTGCAGCACCGGCCGC
27438
27439 CGGAGCTCATGGTGGGGTGAAGAGATGTGGGCTGTCTCG
| ||| |||||| |||||||||||| |||| | |||||
483 C-GAGTCCATGGTNGGGTGAAGAGAT-TGGG-TTTCTCG
67
114
163
213
248
298
348
398
435
482
27477
518
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Allineamento trans
Limiti dell'allineamento cis:
Dati disponibili solo per alcuni organismi
Allineamento trans:
Usare sequenze geniche note di altri organismi;
Problema: ricerca efficiente di match non perfetti fra un gene (cDNA,
mRNA, proteina) di un organismo e un intero genoma evolutivamente
vicino;
Diversi approcci:
BLAT (variante di BLAST)
Exonerate
GeneWise (usato per generare Ensembl)
Brent, Nature Reviews Genetics 2008
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Metodi ab initio
Si basano su:
Identificazione di segnali che permettono l'identificazione di un gene
e della sua struttura (splicing, inizio e fine traduzione, etc.)
Modelli statistici che incorporano questi segnali
I segnali sono calcolati su un dataset di riferimento, cioè geni
possibilmente dello stesso organismo già noti
Possono includere considerazioni evolutive (nell'ipotesi che
sequenze genomiche corrispondenti a geni siano piu' conservate,
e/o mostrino patterns di conservazione caratteristici).
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
Giunzioni di splicing
Donor site
5’
3’
Position
%
-8 … -2 -1
A
C
G
T
26
26
25
23
Lezione 2
…
…
…
…
60
15
12
13
0
1
2
… 17
9 0 1
5 0 1
78 99 0
8 1 98
54
2
41
3
…
…
…
…
21
27
27
25
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
Position-specific scoring matrix (PSSM)
Pos
-3
-2
-1
+1
+2
+3
+4
+5
+6
A
C
G
0.3
0.4
0.2
0.6
0.1
0.2
0.1
0.0
0.8
0.0
0.0
1.0
0.0
0.0
0.0
0.4
0.1
0.4
0.7
0.1
0.1
0.1
0.1
0.8
0.1
0.2
0.2
T
0.1
0.1
0.1
0.0
1.0
0.1
0.1
0.0
0.5
Odds Ratio R =
P(S|+)
P(S|-)
Score s = log2R
=
P-3(S1)P-2(S2)P-1(S3) ... P5(S8)P6(S9)
Pbg(S1)Pbg(S2)Pbg(S3) ... Pbg(S8)Pbg(S9)
Modelli di un gene
Giunzioni di splicing
Tratto di poli-pirimidine
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
(codone di stop)
(codone di inizio)
A T G
(sito donatore di splicing)
G T
Lezione 2
T G A
T A A
T A G
(sito accettore di splicing)
A G
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
I segmenti codificanti (CDS) di un gene sono delimitati da 4 tipi di segnale:
codone di inizio (ATG negli eucarioti), codone di stop (TAG, TGA, o TAA), siti
donatori di splicing (solitamente GT), e siti accettori di splicing (AG)
exon
ATG . . . GT
start codon
Lezione 2
intron
exon
AG
donor site acceptor
site
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
complete mRNA
coding segment
ATG
exon
ATG . . . GT
start codon
intron
TGA
exon
AG
donor site acceptor
site
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
In realtà, il primo esone si estende anche a monte del codone di inizio, e
l'ultimo esone si estende a valle del codone di stop. Queste regioni non
tradotte (untranslated regions, UTRs) sono spesso ignorate dagli algoritmi
per identificazione di geni.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modello di un gene
Si definiscono 4 tipi di esoni:
• Esoni iniziali, dal codone di inizio al primo sito donatore;
• Esoni interni, da un sito accettore al sito donatore
successivo;
• Esoni terminali, dall'ultimo sito accettore al codone di stop;
• Esoni singoli, dal codone di inizio al codone di stop (in geni
senza introni).
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genscan (Burge, 1997)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modello di un gene
Il problema dell'identificazione di geni in una sequenza genomica
può essere ricondotto all'identificazione di intervalli nella sequenza
genomica, delimitando gli esoni putativi e le altre regioni della
struttura del gene:
exon
ATG . . . GT
start codon
intron
exon
AG
donor site acceptor
site
TATTCCGATCGATCGATCTCTCTAGCGTCTACG
CTATCATCGCTCTCTATTATCGCGCGATCGTCG
ATCGCGCGAGAGTATGCTACGTCGATCGAATTG
Lezione 2
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
gene
finder
(6,39), (107-250), (1089-1167), ...
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
La sintassi dei geni eucariotici può essere rappresentata da un
aserie di segnali (ATG = codone di inizio; TAG = uno dei tre
codoni di stop; GT = sito donatore di splicing; AG= sito accettore).
Si possono definire delle regole sintattiche:
Ad esempio, una regione che inizia con un codone di inizio ATG
può finire con o uno stop TAG, o con un donatore GT, deifinendo
rispettivamente un codone singolo o uno iniziale.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
Dopo aver identificato i segnali a punteggio più alto nella
sequenza input, si possono connetter questi segnali usando le
regole sintattiche ottenendo un ORF graph:
L' ORF graph rappresenta tutti i possibili percorsi, e vi associa un
punteggio. Ogni percorso corrisponde ad un putativo gene.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modelli di un gene
TATTCCGATCGATCGATCTCTCTAGCGTCTACG
CTATCATCGCTCTCTATTATCGCGCGATCGTCG
ATCGCGCGAGAGTATGCTACGTCGATCGAATTG
Identificare e valutare i segnali, e se possibile
le regioni fra di loro; indurre un ORF graph sul
set dei segnali
Trovare il percorso con punteggio massimo
attraverso l'ORF graph; questo può essere
convertito nella struttura di un gene
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione dei geni
A standard shortest-path algorithm can be trivially adapted to find
the highest-scoring parse in an ORF graph:
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Altri segnali
Codon Bias
L'utilizzo non uniforme di aminoacidi e codoni è una caratteristica ricorrente
nei genomi e proteomi noti;
C'è utlizzo non uniforme dei vari aminoacidi;
C'è utilizzo non uniforme dei codoni sinonimi (codificanti lo stesso
aminoacido), spesso correlato con l'abbondanza dei rispettivi tRNA;
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Altri segnali
The Human Codon Usage Table
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Altri segnali
Contenuto in G+C
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Altri segnali
Mediana delle lunghezze di introni ed esoni in funzione del contenuto in G+C
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Catene di Markov
Una catena di Markov è un modello per la generazione stocastica di fenomeni
sequenziali.
L'ordine della catena di Markov equivale al numero di posizioni precedenti dalle
quali la posizione corrente dipende. Ad esempio, in sequenze di acidi nucleici, una
catena di ordine-0 considera le frequenze dei nucleotidi, una catena di 1-ordine
considera le frequenze di coppie di nucleotidi, etc.
I parametri del modello sono le frequenze dei vari elementi ad ogni posizione
(possibilmente funzione degli elementi precedenti).
s = ttacggt
s = s1s2 s3s4 ⋯
0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
Lezione 2
N
∏ p( s )
i= 1
i
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
Lezione 2
N
∏ p( s )
i= 1
i
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
• 1st-order
N
∏ p( s )
i
i= 1
N
P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
N
P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Catene di Markov
s = ttacggt
s = s1s2 s3s4 ⋯
• 0th-order
P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ =
N
∏ p( s )
i= 1
i
P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ =
• 1st-order
N
∏ p( s )
i
i= 1
N
P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
N
P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 )
i= 2
• 2nd-order
N
P2 ( s ) = p( s1s2 ) ⋅ p( s3 | s1s2 ) ⋅ p( s4 | s2 s3 ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 )
i= 3 N
P2 ( s ) = p( tt ) ⋅ p( a | tt ) ⋅ p( c | ta ) ⋅ p( g | ac ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 )
Lezione 2
i= 3
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Hidden Markov Models
0
0
0
 0
 0.5 0.998 0.002 0

Φ = 
 0.5 0.001 0.996 0


 0 0.001 0.002 0
 0.28
 0.22
H = 
 0.25

 0.25
Un HMM è completamente definito da:
●
Matrice delle transizioni fra stati (Φ)
● Matrice delle emissioni (H)
● Vettore di stato (x)
0.32
0.18 

0.18 

0.32
xm(i) = probabilità di essere nello stato m al momento i;
H(m,yi) = probabilità di emettere un carattere yi nello stato m;
Φmk = probabilità della transizione dallo stato k allo stato m.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Hidden Markov Models
•
•
•
•
•
•
•
Lezione 2
Algoritmo forward: Dati i parametri del modello, qual' è la
probabilità di una particolare sequenza osservata?
(dynamic programming)
Algoritmo di Viterbi: Dati i parametri del modello, qual' è
la sequenza di stati che più verosimilmente ha condotto alla
sequenza di osservazioni?
Baum-Welch: dato un insieme di osservazioni, e le
corrispondenti sequenze di stati, quali sono i parametri del
modello?
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Hidden Markov Models
Un HMM può essere costruito come un generatore di regioni genomiche:
Osservazioni: sequenza dei nucleotidi;
Stati: ruolo svolto dal nucleotide (ad es. se è il secondo nucleotide di
una giunzione di splicing, se è nel mezzo della sequenza di un
introne, se è nella prima posizione di un codone, etc.);
Data una sequenza nucleotidica genomica (un cromosoma, un contig), si
può usare l'algoritmo di Viterbi per ottenere la più probabile sequenza di
stati che l'ha prodotta -> identificare la struttura di eventuali geni presenti
nella sequenza.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Generalized Hidden Markov Models (GHMM)
Un GHMM (detto anche explicit state duration HMM) è una variante degli
HMM per il quale le osservazioni non sono singoli nucleotidi, ma interi
segmenti:
Osservazioni: sequenza di vari segmenti;
Stati: ruolo svolto dal segmento (ad es. se è un sito donatore di una
giunzione di splicing, se è la regione centrale di un introne);
Ogni stato è definito da un modello che definisce la probabilità di ogni
osservazione.
Una variante dell'algoritmo di Viterbi può essere usata per ottenere la più
probabile segmentazione che l'ha prodotta -> identificare la struttura di
eventuali geni presenti nella sequenza.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Generalized Hidden Markov Models (GHMM)
Esempi di modello di stato (segmento):
Siti di poliadenilazione:
PSSM di sei posizioni compilata su un dataset di training
Accettore di splicing:
Catena di Markov del 1-ordine
Sequenza nel mezzo di un introne:
Catena di Markov del 5-ordine
(la probabilità di un segmento è il prodotto delle probabilità di ogni
suo nucleotide, dati i 5 nucleotidi precedenti; ad es. la probabilità
dell'ultima A dell'esapeptide TGCATA è data dalla frequenza con
cui i pentapetidi TGCAT terminano in A nel dataset di training)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Generalized Hidden Markov Models (GHMM)
Fase 0
Fase 1
Fase 2
Lezione 2
CTA GGT AAT CGTCGT .... AAA CTC AGT
CTA GGT AAT CGT CG ........... A CTC AGT
CTA GGT AAT CGT C ........... AA CTC AGT
Zhang, Nature 2002
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Generalized Hidden Markov Models (GHMM)
Duration d
T A A T A T G T C C A C G G G T A T T G AG C A T T G T A C A C G G G G T A T T G A G C A T G T A A T G A A
Exon1
Lezione 2
Exon2
Exon3
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genscan (Burge, 1997)
Disegnato per predirre la struttura completa di un gene:
Introni, esoni, promotori, siti di poliadenilazione;
Include:
Descrizioni di segnali di inizio e fine della trascrizione, e splicing;
Distribuzione delle lugnhezze delle varie sottoregioni;
Frequenze di composizione di esoni, introni, regioni intergeniche,
regioni C+G;
Può predirre
Geni interi o frammenti;
Geni multipli separati da regioni intergeniche;
Geni su entrambi i filamenti della sequenza;
Basato su un modello generale probabilistico della struttura e
composizione di un gene (Explicit State Duration HMMs).
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genscan (Burge, 1997)
N – regione intergenica
P - promotore
F - 5’ UTR
T – 3'UTR
Esngl - esone singolo (codone di inizio ->
codone di stop)
Einit - esone iniziale (codone di inizio -> sito
donatore di splicing)
Ek - esone interno con fase k (sito accettore
di splicing -> sito donatore)
Eterm - esone terminale (sito accettore ->
codone di stop)
Ik - introne con fase k: 0 – fra due codoni; 1
– dopo la prima base di un codone; 2 – dopo
la seconda base di un codone
Zhang, Nature 2002
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genscan (Burge, 1997)
 0.06

 0.04
Π =  0.60

 0.12
 ⋮









1
0
0
 0

0
1
0
 0
A =  0.28 0.33 0 0.39

 0.28 0.41 0.31 0
 ⋮
⋮
⋮
⋮

⋯

⋯
⋯

⋯
⋱ 
Sequenza di stati assunti dal sistema:
q = {q1, q2, q3 ,.., qn}
Sequenza di durate della permanenza in ogni stato:
d = {d1, d2, d3 ,.., dn}
A C G C G A C T A G G C G C A G G T .. T A T G A T
Exoninit
Intron0
Exon0
Intron0
Exonterm
3’UTR
P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn}
stato iniziale
probabilità di transizione
segmento di sequenza
durata dello stato iniziale
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genscan (Burge, 1997)
Probabilità di una sequenza S usando un particolare percorso:
P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn}
Probabilità di un percorso data una sequenza S?
P(Φ i,S)
P(Φ i , S)
P(Φ i | S) =
=
P(S) Σ Φ j ∈ Φ LP(Φ j , S)
Lezione 2
Teorema di Bayes
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genscan (Burge, 1997)
Teorema di Bayes
posterior
P(D | M ) P( M )
P( M | D ) =
P( D )
marginal
P( D ) =
=
∑ P(D | M ) P( M ) ⋅ discrete
∫ P(D | M ) P( M )dM ⋅ continuous
M = modello
D = dati
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genscan (Burge, 1997)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Twinscan (Korf, 2001)
Twinscan – Dual genome Gene Predictor
Basato su Genscan, cui aggiunge un modello di conservazione evolutiva
Dato un genoma target, e un genoma di supporto (informant sequences), BLAST è
utilizzato per identificare regioni di similarità locale.
Ogni base allineata nella sequenza target è segnata come gap (.), mismatch (:), o match
(|).
Ad esempio:
Uomo:
Topo:
Allineamento:
ACGGCGA-GUGCACGU
ACUGUGACGUGCACUU
||:|:||.||||||:|
Si definisce un nuovo alfabeto di 12 lettere = { A., A:, A|, C., C:, C|, G., G:, G|, U., U:, U| }
Sequenze di questi simboli sono modellati come catene di Markov del quinto
ordine.
Si usa lo stesso modello di Genscan, ma che calcola anche la probabilità della stringa di
conservazione. Una variante dell'algoritmo di Viterbi è applicata per calcolare la
probabilità...
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Twinscan (Korf, 2001)
?
Brent, Nature Biotechnology 2007
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Twinscan (Korf, 2001)
?
Brent, Nature Biotechnology 2007
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Twinscan (Korf, 2001)
Brent, Nature Biotechnology 2007
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Twinscan (Korf, 2001)
Brent, Nature Biotechnology 2007
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
N-scan (Gross, 2006)
NSCAN - Multiple Species Gene Predictor
• GENSCAN
Target
GGTGAGGTGACCAAGAACGTGTTGACAGTA
Emette una sequenza
GGTGAGGTGACCAAGAACGTGTTGACAGTA
|||:||:||:|||||:||||||||......
Emette una sequenza e la sua
conservazione
GGTGAGGTGACCAAGAACGTGTTGACAGTA
GGTCAGC___CCAAGAACGTGTAG......
GATCAGC___CCAAGAACGTGTAG......
GGTGAGCTGACCAAGATCGTGTTGACACAA
Emette colonne di un
allineamento multiplo
• TWINSCAN
Target
Conservation
sequence
• N-SCAN
Target
Informant1
Informant2
Informant3
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
N-scan (Gross, 2006)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
N-scan (Gross, 2006)
Lezione 2
Target sequence:
P (Ti | Ti − 1 ,..., Ti − o )
Informant sequences:
P (I i | Ti ,..., Ti − o , I i − 1 ,...I i − o )
Joint prediction (use phylo-HMM):
P (Ti , I i | Ti − 1 ,..., Ti − o , I i − 1 ,..., I i − o )
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Contast (Gross, 2007)
Basato sui Conditional Random Fields (CRF);
I CRF sono modelli discriminativi, per l'etichettatura di una sequenza di
input (mentre gli HMM sono generativi);
E' rappresentato da un modello grafico, in cui i vertici sono le variabili, e gli
archi descrivono un rapporto di dipendenza fra variabili;
L'input è un allinamento multiplo fra la sequenza target e una serie di
genomi (informants);
Può includere anche dati di espressione (ad es. ESTs);
Brent, Nature Reviews Genetics 2008
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Contast (Gross, 2007)
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Valutazione dei vari metodi
A livello di nucleotide:
TN
FN
TP
FP
TN
FN
TP
FN
TN
Realtà
Predizione
Realtà
Lezione 2
TP
nc
FP
Sensitività
Sn = TP / (TP + FN)
Specificità
nc
Predizione
c
c
FN
TN
Sp = TP / (TP + FP)
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Valutazione dei vari metodi
A livello di esone:
Esone
sbagliato
Esone
corretto
Esone
mancante
Realtà
Predizione
Sensitività
Sn =
Numero di esoni correttamente predetti
Numero di esoni nel dataset
Numero di esoni correttamente predetti
Specificità
Lezione 2
Sp =
Numero di esoni predetti
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Valutazione dei vari metodi
A livello di gene:
Si considera una predizione corretta a livello di gene se tutti I suoi esoni
sono stati correttamnete predetti.
Sensitività
Sn =
numero di geni correttamente predetti
numbero di geni nel dataset
numero di geni correttamente predetti
Specificità
Lezione 2
Sp =
numero di geni predetti
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Valutazione dei vari metodi
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Valutazione dei vari metodi
Brent, Nature Reviews Genetics 2008
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Strategia per l'annotazione di un genoma
Brent, Nature Reviews Genetics 2008
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Limiti degli algoritmi per identificazione di geni
Non possono identificare:
Geni sovrapposti;
Geni annidati;
Frame-shifts o errori di sequenziamento;
Codoni di inizio e stop alternativi;
Giunzioni di splicing non canoniche;
Splicing alternativo;
Salto del codone di stop (TGA) causato da selenocisteine;
Sono in genere organismo-specifici;
Identificano bene geni simili a qualcosa visto in precedenza;
Sono disegnati per identificare solo geni codificanti per proteine.
Lezione 2
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010