Genomics Session Lezione 3 Predizione di geni Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Struttura dei geni negli eucarioti Zhang, Nature 2002 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Identificazione dei geni • Metodi Diretti – Mediante ricerca di match perfetti o quasi perfetti con EST, cDNA o sequenze proteiche dello stesso organismo (allineamento cis) – – • Metodi Indiretti – Mediante ricerca di somiglianze con un gene noto (allineamento trans); – Mediante ricerca di strutture simili a un gene ideale (ab initio o de novo) Metodi Ibridi 1. Mediante l' unione di tecniche per omologia, ab initio e metodi diretti Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Librerie di cDNA Brent, Nature Reviews Genetics 2008 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Librerie di EST Cell or tissue Isolate mRNA and reverse transcribe into cDNA Analyze Clone cDNA into a vector to make a cDNA library 5' EST 3' EST cDNA vector Lezione 3 Pick individual clones Sequence the 5' and 3' ends of cDNA inserts Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Librerie di EST Librerie di ESTs Brent, Nature Reviews Genetics 2008 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Librerie di EST Limiti delle librerie di EST: • Contaminazioni • Bassa qualità – errori di sequenza sono frequenti • Altamente ridondanti – geni altamente espressi saranno rappresentati molto più di geni espressi poco • Possono non coprire tutta la sequenza del trascritto e limitarsi alle estremità • Non tengono conto di varianti di splicing • Geni che si sovrappongono possono risultare indistinguibili Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 RNA-seq - Tecniche di NGS possono essere applicate al sequenziamento del trascrittoma. Si parla in questo caso di RNA-seq; - La mappatura di reads esoniche è semplice, più problematiche sono le reads che scavallano la giunzione fra due esoni (le junction reads); - Il numero di reads che cadono in un locus, diviso per la lunghezza del locus e per il numero totale di reads ottenute nella corsa, danno una stima della sua espressione. [Wang et al. 2009] Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Allineamento trans Limiti dell'allineamento cis: Dati disponibili solo per alcuni organismi Allineamento trans: Usare sequenze geniche note di altri organismi; Problema: ricerca efficiente di match non perfetti fra un gene (cDNA, mRNA, proteina) di un organismo e un intero genoma evolutivamente vicino; Diversi approcci: BLAT (variante di BLAST) Exonerate GeneWise (usato per generare Ensembl) Brent, Nature Reviews Genetics 2008 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Struttura dei geni negli eucarioti Zhang, Nature 2002 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Struttura dei geni negli eucarioti Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Struttura dei geni negli eucarioti Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Struttura dei geni negli eucarioti atg tga Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Struttura dei geni negli eucarioti atg caggtg ggtgag tga Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Struttura dei geni negli eucarioti atg caggtg ggtgag cagatg ggtgag cagttg ggtgag caggcc ggtgag tga Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi ab initio Si basano su: Identificazione di segnali che permettono l'identificazione di un gene e della sua struttura (splicing, inizio e fine traduzione, etc.) Modelli statistici che incorporano questi segnali I segnali sono calcolati su un dataset di riferimento, cioè geni possibilmente dello stesso organismo già noti Possono includere considerazioni evolutive (nell'ipotesi che sequenze genomiche corrispondenti a geni siano piu' conservate, e/o mostrino patterns di conservazione caratteristici). Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene Giunzioni di splicing Donor site 5’ 3’ Position % -8 … -2 -1 A C G T 26 26 25 23 Lezione 3 … … … … 0 1 2 … 17 60 9 0 1 54 … 21 15 5 0 1 2 … 27 12 78 99 0 41 … 27 13 8 1 98 3 … 25 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Matrici pesate (PSSM) [Wasserman, Nature Rev. 2004] Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Matrici pesate (PSSM) [Wasserman, Nature Rev. 2004] Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Matrici pesate (PSSM) Analizzando una sequenza con una PWM Sp1 ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC A C G T [-0.2284 0.4368 [-0.2284 -0.2284 [ 1.2348 1.2348 [ 0.4368 -0.2284 -1.5 -1.5 2.1222 -1.5 -1.5 -1.5 -1.5 1.5128 2.1222 0.4368 -1.5 -0.2284 0.4368 -1.5 -1.5 -0.2284 1.2348 1.5128 0.4368 0.4368 -1.5 -0.2284 -1.5 -0.2284 1.7457 1.7457 0.4368 -1.5 0.4368 -1.5 -1.5 1.7457 ] ] ] ] Abs_score = 13.4 (somma dei punteggi per ogni posizione) Punteggio relativo A C G T [-0.2284 0.4368 [-0.2284 -0.2284 [ 1.2348 1.2348 [ 0.4368 -0.2284 -1.5 -1.5 2.1222 -1.5 -1.5 -1.5 -1.5 1.5128 2.1222 0.4368 -1.5 -0.2284 0.4368 -1.5 -1.5 -0.2284 1.2348 1.5128 0.4368 0.4368 -1.5 -0.2284 -1.5 -0.2284 1.7457 1.7457 0.4368 -1.5 0.4368 -1.5 -1.5 1.7457 ] ] ] ] 0.4368 -1.5 -1.5 1.7457 ] ] ] ] Max_score = 15.2 (somma dei punteggi maggiori di ogni colonna) A C G T [-0.2284 -0.2284 0.4368 [-0.2284 -0.2284 [ 1.2348 1.2348 [ 0.4368 -0.2284 -1.5 -1.5 2.1222 -1.5 -1.5 -1.5 -1.5 1.5128 2.1222 0.4368 -1.5 -0.2284 0.4368 -1.5 -1.5 -0.2284 1.2348 1.5128 0.4368 0.4368 -1.5 -0.2284 -1.5 -0.2284 1.7457 1.7457 0.4368 -1.5 Min_score = -11.0 (somma dei punteggi minori di ogni colonna) Abs_score - Min_score ⋅ 100 % Max_score - Min_score 13.4 - (-11.0) = ⋅ 100% = 93% 15.2 − (− 11.0) Rel_score = Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Logo della sequenza ● ● ● ● ● L'altezza relativa di ogni lettera riflette la sua abbondanza nell'allineamento multiplo; l'altezza della pila di lettere è una basata su una misura della conservazione basata sull'entropia; Entropia(i) = -SUM { p(base, i)* ln[p(base, i)] } Conservazione(i) = 2- Entropia(i) Si esprime in bits di informazione Posizione molto conservata -> bassa entropia -> pila alta Posizione poco conservata -> alta entropia -> pila bassa [Wasserman, Nature Rev. 2004] Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene Tratto di poli-pirimidine Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene (codone di stop) (codone di inizio) A T G (sito donatore di splicing) G T Lezione 3 T G A T A A T A G (sito accettore di splicing) A G Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene I segmenti codificanti (CDS) di un gene sono delimitati da 4 tipi di segnale: codone di inizio (ATG negli eucarioti), codone di stop (TAG, TGA, o TAA), siti donatori di splicing (solitamente GT), e siti accettori di splicing (AG) exon ATG . . . GT start codon Lezione 3 intron exon AG donor site acceptor site ... intron GT exon AG . . . TGA donor site acceptor stop codon site Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene complete mRNA coding segment ATG exon ATG . . . GT start codon intron TGA exon AG donor site acceptor site ... intron GT exon AG . . . TGA donor site acceptor stop codon site In realtà, il primo esone si estende anche a monte del codone di inizio, e l'ultimo esone si estende a valle del codone di stop. Queste regioni non tradotte (untranslated regions, UTRs) sono spesso ignorate dagli algoritmi per identificazione di geni. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene Si definiscono 4 tipi di esoni: Esoni iniziali, dal sito di inizio della trascrizione al primo sito donatore; Esoni interni, da un sito accettore al sito donatore successivo; Esoni terminali, dall'ultimo sito accettore al sito di poliadenilazione; Esoni singoli, dal codone di inizio al codone di stop (in geni senza introni). Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene Il problema dell'identificazione di geni in una sequenza genomica può essere ricondotto all'identificazione di intervalli nella sequenza genomica, delimitando gli esoni putativi e le altre regioni della struttura del gene: exon ATG . . . GT start codon intron exon AG donor site acceptor site TATTCCGATCGATCGATCTCTCTAGCGTCTACG CTATCATCGCTCTCTATTATCGCGCGATCGTCG ATCGCGCGAGAGTATGCTACGTCGATCGAATTG Lezione 3 ... intron GT exon AG . . . TGA donor site acceptor stop codon site gene finder (6,39), (107-250), (1089-1167), ... Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene La sintassi dei geni eucariotici può essere rappresentata da una serie di segnali (ATG = codone di inizio; TAG = uno dei tre codoni di stop; GT = sito donatore di splicing; AG= sito accettore). Si possono definire delle regole sintattiche: Ad esempio, una regione che inizia con un codone di inizio ATG può finire con o uno stop TAG, o con un donatore GT, definendo rispettivamente un codone singolo o uno iniziale. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene Dopo aver identificato i segnali a punteggio più alto nella sequenza input, si possono connetter questi segnali usando le regole sintattiche ottenendo un ORF graph: L' ORF graph rappresenta tutti i possibili percorsi, e vi associa un punteggio. Ogni percorso corrisponde ad un putativo gene. Lezione 2 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modelli di un gene TATTCCGATCGATCGATCTCTCTAGCGTCTACG CTATCATCGCTCTCTATTATCGCGCGATCGTCG ATCGCGCGAGAGTATGCTACGTCGATCGAATTG Identificare e valutare i segnali, e se possibile le regioni fra di loro; indurre un ORF graph sul set dei segnali Trovare il percorso con punteggio massimo attraverso l'ORF graph; questo può essere convertito nella struttura di un gene Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Codon bias Mutazioni sinonime — che non alterano il tipo di aminoacido codificato – non hanno effetto sulla sequenza della proteina risultante, quindi non dovrebbero avere effetto sulle funzioni della cellula, sulla fitness dell'individuo o sull'evoluzione della popolazione. Tuttavia, nella maggior parte dei genomi i codoni sinonimi non sono utilizzato con la stessa frequenza. Questo fenomeno è noto come codon usage bias Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Codon bias The Human Codon Usage Table Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Codon bias Utlizzo dei codoni: - non tutti i codoni sono usati con la stessa frequenza; - specie differenti possono usare preferenzialmente un diverso set di codoni; - geni differenti della stessa specie possono preferire codoni diversi per lo stesso aminoacido; - la forza del codon usage bias varia da specie a specie e all'interno dello stesso genoma. [Plotkin & Kudla, Nat. Rev. Genet. 2010] Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Misure del codon bias Il relative synonymous codon usage (RSCU) è la frequenza del codone in un gene diviso per il numero di occorerenze attese se tutti i codoni fossero utilizzati con la stessa frequenza. RSCU i = fi 1 N N ∑fj 1 N = numero di codoni sinonimi (1 ≤ N ≤ 6) per un dato aminoacido, fi = frequenza del codone i. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Misure del codon bias Il Codon adaptation index (CAI) misura quanto i geni usano codoni preferiti. Si può compilare una tabella dei valori RSCU per geni altamente espressi. Da questa tabella si identificano I codoni preferiti per ogni aminoacido.Il relative adaptiveness of a codon (wi) è definito come RSCU i wi = RSCU max dove RSCUmax = valore di RSCU del codone più frequente per un dato aminoacido. Il CAI è calcolato come la media geometrica dei valori di wi per tutti I codoni di un dato gene: CAI ( gene ) = L L ∏ i= 1 Lezione 3 wi Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Come mai si osserva un codon-usage bias? - Correlazioni fra livelli di espressione genica e codon biassono state spesso osservate (in E. coli, S. cerevisiae, C. elegans, Arabidopsis thaliana, D. melanogaster); [Ikemura Mol. Biol. Evol. 1985] Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Codoni preferiti sono spesso associati a tRNA più abbondanti - Ogni codone è riconosciuto da almeno un tRNA, caricato con il corrispondente aminoacido; - Un tRNA è spesso codificato da più di un gene; - C'è buona correlazione fra la preferenza di un dato codone e il numero di geni codificanti per I supoi tRNA; - Più di recente, si è visto che l'espressione di molecole di un dato tRNA è ben correlata con il numero di geni che lo codificano, e quindi con la preferenza per il codone da esso riconosciuto; Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Il codon usage bias può aumentare la velocità di traduzione Geni che utilizzano codoni riconosciuti da tRNA più abbondanti possono essere tradotti a maggiore efficienza. Quindi la selezione naturale può favorire l'utilizzo di particolari codoni sinonimi. Questa selezione sarà maggiore per geni espressi ad alti livelli. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Altri segnali Contenuto in G+C Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Altri segnali Mediana delle lunghezze di introni ed esoni in funzione del contenuto in G+C Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Catene di Markov Una catena di Markov è un modello per la generazione stocastica di fenomeni sequenziali. L'ordine della catena di Markov equivale al numero di posizioni precedenti dalle quali la posizione corrente dipende. Ad esempio, in sequenze di acidi nucleici, una catena di ordine-0 considera le frequenze dei nucleotidi, una catena di 1-ordine considera le frequenze di coppie di nucleotidi, etc. I parametri del modello sono le frequenze dei vari elementi ad ogni posizione (possibilmente funzione degli elementi precedenti). s = ttacggt s = s1s2 s3s4 ⋯ 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = Lezione 2 3 N ∏ p( s ) i= 1 i Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 2010/2011 Catene di Markov s = ttacggt s = s1s2 s3s4 ⋯ • 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = Lezione 3 N ∏ p( s ) i= 1 i Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Catene di Markov s = ttacggt s = s1s2 s3s4 ⋯ • 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = • 1st-order N ∏ p( s ) i i= 1 N P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 N P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Catene di Markov s = ttacggt s = s1s2 s3s4 ⋯ • 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = • 1st-order N ∏ p( s ) i i= 1 N P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 N P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 • 2nd-order N P2 ( s ) = p( s1s2 ) ⋅ p( s3 | s1s2 ) ⋅ p( s4 | s2 s3 ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 ) i= 3 N P2 ( s ) = p( tt ) ⋅ p( a | tt ) ⋅ p( c | ta ) ⋅ p( g | ac ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 ) i= 3 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Catene di Markov GCGCTAGCGCCGATCATCTACTCG GCGCTAGCGCCGATCATCTACTCG GCGCTAGCGCCGATCATCTACTCG GCGCTAGCGCCGATCATCTACTCG GCGCTAGCGCCGATCATCTACTCG GCGCTAGCGCCGATCATCTACTCG GCGCTAGCGCCGATCATCTACTCG Lezione 3 } } } primo ordine secondo ordine quinto ordine Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models Ingredienti del modello: Insieme degli stati {S1, S2, …,SN} Probabilità di transizione fra stati (matrice di transizioni) Aij = P(qt+1 = Si | qt = Sj) Distribuzione degli stati iniziali π = P(q i Lezione 3 1 = Si) Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models Insieme degli stati {Ssole, Spioggia, Sneve} Probabilità di transizione fra stati (matrice di transizioni) .08 .15 .05 A= .38 .6 .02 .75 .05 .2 Distribuzione degli stati iniziali π = (.7 i Lezione 3 .25 .05) Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models P(Ssole) x P(Spioggia | Ssole) x P(Spioggia | Spioggia) x P(Spioggia | Spioggia) x P(Sneve | Spiggia) x P(Sneve | Sneve) = 0.7 x 0.15 x 0.6 x 0.6 x 0.02 x 0.2 = 0.0001512 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models Stati: {S1, S2,…,SN} Matrice delle transizioni Aij = P(qt+1 = Si | qt = Sj) Stati iniziali π = P(q i 1 = Si) Osservazioni: {O1, O2,…,OM} Probabilità delle osservazioni: Bj(k) = P(vt = Ok | qt = Sj) Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models P(O) = P(Oguanti, Oguanti, Oombrello,…, Oombrello) = Σ P(O | Q)P(Q) = Σ P(O | q1,…,q7) = 0.7 x 0.86 x 0.32 x 0.14 x 0.6 + … Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models 0 0 0 0 0.5 0.998 0.002 0 Φ = 0.5 0.001 0.996 0 0 0.001 0.002 0 0.28 0.22 H = 0.25 0.25 Un HMM è completamente definito da: ● Matrice delle transizioni fra stati (Φ) ● Matrice delle emissioni (H) ● Vettore di stato (x) 0.32 0.18 0.18 0.32 xm(i) = probabilità di essere nello stato m al momento i; H(m,yi) = probabilità di emettere un carattere yi nello stato m; Φmk = probabilità della transizione dallo stato k allo stato m. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models • • • • • • • Lezione 3 Algoritmo forward: Dati i parametri del modello, qual' è la probabilità di una particolare sequenza osservata? (dynamic programming) Algoritmo di Viterbi: Dati i parametri del modello, qual' è la sequenza di stati che più verosimilmente ha condotto alla sequenza di osservazioni? Baum-Welch: dato un insieme di osservazioni, e le corrispondenti sequenze di stati, quali sono i parametri del modello? Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models Un HMM può essere costruito come un generatore di regioni genomiche: Osservazioni: sequenza dei nucleotidi; Stati: ruolo svolto dal nucleotide (ad es. se è il secondo nucleotide di una giunzione di splicing, se è nel mezzo della sequenza di un introne, se è nella prima posizione di un codone, etc.); Data una sequenza nucleotidica genomica (un cromosoma, un contig), si può usare l'algoritmo di Viterbi per ottenere la più probabile sequenza di stati che l'ha prodotta -> identificare la struttura di eventuali geni presenti nella sequenza. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models [Brent, 2008] Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Hidden Markov Models Sequenza dell'introne Donatore Lezione 3 Accettore [Brent, 2008] Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Generalized Hidden Markov Models (GHMM) Un GHMM (detto anche explicit state duration HMM) è una variante degli HMM per il quale le osservazioni non sono singoli nucleotidi, ma interi segmenti: Osservazioni: sequenza di vari segmenti; Stati: ruolo svolto dal segmento (ad es. se è un sito donatore di una giunzione di splicing, se è la regione centrale di un introne); Ogni stato è definito da un modello che definisce la probabilità di ogni osservazione. Una variante dell'algoritmo di Viterbi può essere usata per ottenere la più probabile segmentazione che l'ha prodotta -> identificare la struttura di eventuali geni presenti nella sequenza. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Generalized Hidden Markov Models (GHMM) Esempi di modello di stato (segmento): Siti di poliadenilazione: PSSM di sei posizioni compilata su un dataset di training Accettore di splicing: Catena di Markov del 1-ordine Sequenza nel mezzo di un introne: Catena di Markov del 5-ordine (la probabilità di un segmento è il prodotto delle probabilità di ogni suo nucleotide, dati i 5 nucleotidi precedenti; ad es. la probabilità dell'ultima A dell'esapeptide TGCATA è data dalla frequenza con cui i pentapetidi TGCAT terminano in A nel dataset di training) Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Generalized Hidden Markov Models (GHMM) Fase 0 Fase 1 Fase 2 Lezione 3 CTA GGT AAT CGTCGT .... AAA CTC AGT CTA GGT AAT CGT CG ........... A CTC AGT CTA GGT AAT CGT C ........... AA CTC AGT Zhang, Nature 2002 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Generalized Hidden Markov Models (GHMM) Duration d T A A T A T G T C C A C G G G T A T T G AG C A T T G T A C A C G G G G T A T T G A G C A T G T A A T G A A Exon1 Lezione 3 Exon2 Exon3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genscan (Burge, 1997) Disegnato per predirre la struttura completa di un gene: Introni, esoni, promotori, siti di poliadenilazione; Include: Descrizioni di segnali di inizio e fine della trascrizione, e splicing; Distribuzione delle lugnhezze delle varie sottoregioni; Frequenze di composizione di esoni, introni, regioni intergeniche, regioni C+G; Può predirre Geni interi o frammenti; Geni multipli separati da regioni intergeniche; Geni su entrambi i filamenti della sequenza; Basato su un modello generale probabilistico della struttura e composizione di un gene (Explicit State Duration HMMs). Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genscan (Burge, 1997) N – regione intergenica P - promotore F - 5’ UTR T – 3'UTR Esngl - esone singolo (codone di inizio -> codone di stop) Einit - esone iniziale (codone di inizio -> sito donatore di splicing) Ek - esone interno con fase k (sito accettore di splicing -> sito donatore) Eterm - esone terminale (sito accettore -> codone di stop) Ik - introne con fase k: 0 – fra due codoni; 1 – dopo la prima base di un codone; 2 – dopo la seconda base di un codone Zhang, Nature 2002 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genscan (Burge, 1997) 0.06 0 . 04 Π = 0.60 0.12 ⋮ 1 0 0 0 0 1 0 0 A = 0.28 0.33 0 0.39 0.28 0.41 0.31 0 ⋮ ⋮ ⋮ ⋮ ⋯ ⋯ ⋯ ⋯ ⋱ Sequenza di stati assunti dal sistema: q = {q1, q2, q3 ,.., qn} Sequenza di durate della permanenza in ogni stato: d = {d1, d2, d3 ,.., dn} A C G C G A C T A G G C G C A G G T .. T A T G A T Exoninit Intron0 Exon0 Intron0 Exonterm 3’UTR P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn} stato iniziale probabilità di transizione segmento di sequenza durata dello stato iniziale Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genscan (Burge, 1997) Probabilità di una sequenza S usando un particolare percorso: P(Фi,S) = πq1(d1)Pq1{s1|q ,d } * Aq1,q2(d2)Pq2{s2|q ,d } * ..… * Aqn-1,qn(dn)Pqn{sn|q ,d } 1 1 2 2 n n Probabilità di un percorso data una sequenza S? P(Φ i, S) P(Φ i , S) P(Φ i | S) = = P(S) Σ Φ j ∈ Φ LP(Φ j , S) Lezione 3 Teorema di Bayes Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Twinscan (Korf, 2001) Twinscan – Dual genome Gene Predictor Basato su Genscan, cui aggiunge un modello di conservazione evolutiva Dato un genoma target, e un genoma di supporto (informant sequences), BLAST è utilizzato per identificare regioni di similarità locale. Ogni base allineata nella sequenza target è segnata come gap (.), mismatch (:), o match (|). Ad esempio: Uomo: Topo: Allineamento: ACGGCGA-GUGCACGU ACUGUGACGUGCACUU ||:|:||.||||||:| Si definisce un nuovo alfabeto di 12 lettere = { A., A:, A|, C., C:, C|, G., G:, G|, U., U:, U| } Sequenze di questi simboli sono modellati come catene di Markov del quinto ordine. Si usa lo stesso modello di Genscan, ma che calcola anche la probabilità della stringa di conservazione. Una variante dell'algoritmo di Viterbi è applicata per calcolare la probabilità di osservare la data sequenza di simboli. Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Twinscan (Korf, 2001) ? Brent, Nature Biotechnology 2007 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Twinscan (Korf, 2001) ? Brent, Nature Biotechnology 2007 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Twinscan (Korf, 2001) Brent, Nature Biotechnology 2007 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Twinscan (Korf, 2001) Brent, Nature Biotechnology 2007 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 N-scan (Gross, 2006) NSCAN - Multiple Species Gene Predictor • GENSCAN Target Target • GGTGAGGTGACCAAGAACGTGTTGACAGTA GGTGAGGTGACCAAGAACGTGTTGACAGTA |||:||:||:|||||:||||||||...... |||:||:||:|||||:||||||||...... Emette una sequenza e la sua conservazione GGTGAGGTGACCAAGAACGTGTTGACAGTA GGTGAGGTGACCAAGAACGTGTTGACAGTA GGTCAGC___CCAAGAACGTGTAG...... GGTCAGC___CCAAGAACGTGTAG...... GATCAGC___CCAAGAACGTGTAG...... GATCAGC___CCAAGAACGTGTAG...... GGTGAGCTGACCAAGATCGTGTTGACACAA GGTGAGCTGACCAAGATCGTGTTGACACAA Emette colonne di un allineamento multiplo N-SCAN Target Target Informant1 Informant1 Informant2 Informant2 Informant3 Informant3 Lezione 3 Emette una sequenza TWINSCAN Target Target Conservation Conservation sequence sequence • GGTGAGGTGACCAAGAACGTGTTGACAGTA GGTGAGGTGACCAAGAACGTGTTGACAGTA Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Contast (Gross, 2007) Basato sui Conditional Random Fields (CRF); I CRF sono modelli discriminativi, per l'etichettatura di una sequenza di input (mentre gli HMM sono generativi); E' rappresentato da un modello grafico, in cui i vertici sono le variabili, e gli archi descrivono un rapporto di dipendenza fra variabili; L'input è un allinamento multiplo fra la sequenza target e una serie di genomi (informants); Può includere anche dati di espressione (ad es. ESTs); Brent, Nature Reviews Genetics 2008 Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Contast (Gross, 2007) Lezione 3 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011