Genomics Session Lezione 2 Dove sono i geni? Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione dei geni Annotazione del genoma: Assegnare ad ogni nucleotide del genoma un possibile ruolo. Principalmente (ma non solo) riguarda l'annotazione dei geni. Diversi tipi di geni: Geni per RNA non codificante tRNA, rRNA, snRNA, snoRNA, microRNA Geni codificanti proteine: Procarioti Niente introni Regioni intergeniche corte Eucarioti Alternanza esoni-introni Bassa densità nel genoma Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Quanti geni nel genoma umano? ● 2000: ci devono essere almeno 100000 geni (il riso ne ha 40000, C.elegans ne ha 19000) ● 2001: solo 35000? ● 2005, Dicembre: Ensembl release 35: 22218 geni (33869 trascritti) ● 2006, Aprile: Ensembl release 36: 23710 geni (48851 trascritti) ● 2010, Marzo: Ensembl release 57: 25643 geni (>100000 trascritti): Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione dei geni • Metodi Diretti – Mediante ricerca di match perfetti o quasi perfetti con EST, cDNA o sequenze proteiche dello stesso organismo (allineamento cis) – – • Metodi Indiretti – Mediante ricerca di somiglianze con un gene noto (allineamento trans); – Mediante ricerca di strutture simili a un gene ideale (ab initio o de novo) Metodi Ibridi 1. Mediante l' unione di tecniche per omologia, ab initio e metodi diretti Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti Zhang, Nature 2002 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti Zhang, Nature 2002 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti atg tga Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti atg caggtg ggtgag tga Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti atg caggtg ggtgag cagatg ggtgag cagttg ggtgag caggcc ggtgag tga Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Allineamento cis Librerie di cDNA Brent, Nature Reviews Genetics 2008 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Allineamento cis Librerie di ESTs Brent, Nature Reviews Genetics 2008 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 EST_GENOME (Mott, 1997) Output: 1. Ogni esone 2. Ogni introne (marcato con ? Se non comincia con GT e finisce con AG) 3. L'allineamento completo (Span) 4. Ogni segmento (rgione senza gaps) Viene calcolato un punteggio per ogni esone, che equivale allo score dell'allineamento di Smith-Waterman. Lo Span score è il punteggio totale di tutti gli esoni, includendo le penalità per gli introni. Type Lezione 2 score % gstart gstop genome estart estop EST EST doc Note Best alignment is between forward est and forward genome, but splice sites Exon 168 92.3 25669 25874 CNFG9 20 220 yo13c02.s1 519 -Intron -20 0.0 25875 26278 CNFG9 Exon 208 98.6 26279 26492 CNFG9 221 435 yo13c02.s1 519 -Intron -20 0.0 26493 27390 CNFG9 Exon 62 87.4 27391 27477 CNFG9 436 518 yo13c02.s1 519 imply REVERSED GENE 0 519 SCF Span 398 Segment Segment Segment Segment Segment Segment Segment Segment Segment Segment Segment Segment Segment Segment Segment 4 36 1 5 7 53 65 11 33 177 24 18 19 4 5 94.1 25669 27477 CNFG9 83.3 95.0 66.7 85.7 100.0 96.5 100.0 86.7 100.0 98.9 96.2 90.9 87.5 100.0 85.7 25669 25676 25717 25721 25729 25737 25795 25860 26279 26312 27391 27418 27441 27466 27471 25674 25715 25719 25727 25735 25793 25859 25874 26311 26492 27416 27439 27464 27469 27477 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 CNFG9 20 20 26 66 69 76 83 140 206 221 255 436 462 484 508 512 0 519 SCF 0 519 SCF 518 yo13c02.s1 519 0 519 SCF 25 65 68 75 82 139 204 220 253 435 461 483 507 511 518 519 519 519 519 519 519 519 519 519 519 519 519 519 519 519 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 519 519 519 519 519 519 519 519 519 519 519 519 519 519 519 SCF SCF SCF SCF SCF SCF SCF SCF SCF SCF SCF SCF SCF SCF SCF yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 yo13c02.s1 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 EST_GENOME (Mott, 1997) CNFG9 vs yo13c02.s1: CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 CNFG9 yo13c02.s1 Lezione 2 25669 ATCAGCGCTGCGGCCGCCCGGAAGCTCATCTTGGCCACCGACTCTCGCTT || ||| |||| |||||||||||||||||||||||||||||||||| | 20 ATAAGC-TTGCGACCGCCCGGAAGCTCATCTTGGCCACCGACTCTCG-AT 25718 25719 GCGCCGCCGCGGGAGCCGGTGGAAACCTGAGCGGGAGCTGGAGAAGGAGC | | ||||| ||||||| |||||||||||||||||| |||||||||||| 68 G-GTCGCCG-GGGAGCC-GTGGAAACCTGAGCGGGACGTGGAGAAGGAGC 25768 25769 AGAGGGAGGCAGCACCCGGCGTGACGGGAGTGTGTGGGGCACTCAGGCCT ||||||||||||||||||||||||| |||||||||||||||||||||||| 115 AGAGGGAGGCAGCACCCGGCGTGAC-GGAGTGTGTGGGGCACTCAGGCCT 25818 25819 TCCGCAGTGTCATCTGCCACACGGAAGGCACGGCCACGGGC-CAGGGGGT ||||||||||||||||||||||||||||||||||||||||| |||||| 164 TCCGCAGTGTCATCTGCCACACGGAAGGCACGGCCACGGGCAGGGGGGGT 25867 25868 CTATGATctgga.....catacCTTCTGCATGCCCAGCTGGCATGGCCCC |||||||<<<<< 404 <<<<<|||||||||||||||||||||||||||| 214 CTATGAT...............CTTCTGCATGCCCAGCTGGCATGGCCCC 26306 26307 ACGTA-GAGTGGGGGTGGCGTCTCGGTGCTGGTCAGCGACACGTTGTCCT ||||| |||||||| ||||||||||||||||||||||||||||||||||| 249 ACGTAGGAGTGGGGTTGGCGTCTCGGTGCTGGTCAGCGACACGTTGTCCT 26355 26356 GGCTGGGCAGGTCCAGCTCCCGGAGGACCTGGGGCTTCAGCTTCCCGTAG |||||||||||||||||||||||||||||||||||||||||||||||||| 299 GGCTGGGCAGGTCCAGCTCCCGGAGGACCTGGGGCTTCAGCTTCCCGTAG 26405 26406 CGCTGGCTGCAGTGACGGATGCTCTTGCGCTGCCATTTCTGGGTGCTGTC |||||||||||||||||||||||||||||||||||||||||||||||||| 349 CGCTGGCTGCAGTGACGGATGCTCTTGCGCTGCCATTTCTGGGTGCTGTC 26455 26456 ACTGTCCTTGCTCACTCCAAACCAGTCGGCGGTCCCCctggc.....ggt |||||||||||||| ||||||||||||||||||||||<<<<< 898 <<< 399 ACTGTCCTTGCTCATTCCAAACCAGTCGGCGGTCCCC............. 26492 26492 acCTGCGGATGGTCTGTGTGATGGACGTCTGGCGTTGCAGCACCGGCCGC <<||||||||||| |||||||||||||| ||| |||||||||||||||| 435 ..CTGCGGATGGTTTGTGTGATGGACGT-TGGGCTTGCAGCACCGGCCGC 27438 27439 CGGAGCTCATGGTGGGGTGAAGAGATGTGGGCTGTCTCG | ||| |||||| |||||||||||| |||| | ||||| 483 C-GAGTCCATGGTNGGGTGAAGAGAT-TGGG-TTTCTCG 67 114 163 213 248 298 348 398 435 482 27477 518 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Allineamento trans Limiti dell'allineamento cis: Dati disponibili solo per alcuni organismi Allineamento trans: Usare sequenze geniche note di altri organismi; Problema: ricerca efficiente di match non perfetti fra un gene (cDNA, mRNA, proteina) di un organismo e un intero genoma evolutivamente vicino; Diversi approcci: BLAT (variante di BLAST) Exonerate GeneWise (usato per generare Ensembl) Brent, Nature Reviews Genetics 2008 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Metodi ab initio Si basano su: Identificazione di segnali che permettono l'identificazione di un gene e della sua struttura (splicing, inizio e fine traduzione, etc.) Modelli statistici che incorporano questi segnali I segnali sono calcolati su un dataset di riferimento, cioè geni possibilmente dello stesso organismo già noti Possono includere considerazioni evolutive (nell'ipotesi che sequenze genomiche corrispondenti a geni siano piu' conservate, e/o mostrino patterns di conservazione caratteristici). Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene Giunzioni di splicing Donor site 5’ 3’ Position % -8 … -2 -1 A C G T 26 26 25 23 Lezione 2 … … … … 60 15 12 13 0 1 2 … 17 9 0 1 5 0 1 78 99 0 8 1 98 54 2 41 3 … … … … 21 27 27 25 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene Position-specific scoring matrix (PSSM) Pos -3 -2 -1 +1 +2 +3 +4 +5 +6 A C G 0.3 0.4 0.2 0.6 0.1 0.2 0.1 0.0 0.8 0.0 0.0 1.0 0.0 0.0 0.0 0.4 0.1 0.4 0.7 0.1 0.1 0.1 0.1 0.8 0.1 0.2 0.2 T 0.1 0.1 0.1 0.0 1.0 0.1 0.1 0.0 0.5 Odds Ratio R = P(S|+) P(S|-) Score s = log2R = P-3(S1)P-2(S2)P-1(S3) ... P5(S8)P6(S9) Pbg(S1)Pbg(S2)Pbg(S3) ... Pbg(S8)Pbg(S9) Modelli di un gene Giunzioni di splicing Tratto di poli-pirimidine Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene (codone di stop) (codone di inizio) A T G (sito donatore di splicing) G T Lezione 2 T G A T A A T A G (sito accettore di splicing) A G Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene I segmenti codificanti (CDS) di un gene sono delimitati da 4 tipi di segnale: codone di inizio (ATG negli eucarioti), codone di stop (TAG, TGA, o TAA), siti donatori di splicing (solitamente GT), e siti accettori di splicing (AG) exon ATG . . . GT start codon Lezione 2 intron exon AG donor site acceptor site ... intron GT exon AG . . . TGA donor site acceptor stop codon site Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene complete mRNA coding segment ATG exon ATG . . . GT start codon intron TGA exon AG donor site acceptor site ... intron GT exon AG . . . TGA donor site acceptor stop codon site In realtà, il primo esone si estende anche a monte del codone di inizio, e l'ultimo esone si estende a valle del codone di stop. Queste regioni non tradotte (untranslated regions, UTRs) sono spesso ignorate dagli algoritmi per identificazione di geni. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modello di un gene Si definiscono 4 tipi di esoni: • Esoni iniziali, dal codone di inizio al primo sito donatore; • Esoni interni, da un sito accettore al sito donatore successivo; • Esoni terminali, dall'ultimo sito accettore al codone di stop; • Esoni singoli, dal codone di inizio al codone di stop (in geni senza introni). Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genscan (Burge, 1997) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modello di un gene Il problema dell'identificazione di geni in una sequenza genomica può essere ricondotto all'identificazione di intervalli nella sequenza genomica, delimitando gli esoni putativi e le altre regioni della struttura del gene: exon ATG . . . GT start codon intron exon AG donor site acceptor site TATTCCGATCGATCGATCTCTCTAGCGTCTACG CTATCATCGCTCTCTATTATCGCGCGATCGTCG ATCGCGCGAGAGTATGCTACGTCGATCGAATTG Lezione 2 ... intron GT exon AG . . . TGA donor site acceptor stop codon site gene finder (6,39), (107-250), (1089-1167), ... Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene La sintassi dei geni eucariotici può essere rappresentata da un aserie di segnali (ATG = codone di inizio; TAG = uno dei tre codoni di stop; GT = sito donatore di splicing; AG= sito accettore). Si possono definire delle regole sintattiche: Ad esempio, una regione che inizia con un codone di inizio ATG può finire con o uno stop TAG, o con un donatore GT, deifinendo rispettivamente un codone singolo o uno iniziale. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene Dopo aver identificato i segnali a punteggio più alto nella sequenza input, si possono connetter questi segnali usando le regole sintattiche ottenendo un ORF graph: L' ORF graph rappresenta tutti i possibili percorsi, e vi associa un punteggio. Ogni percorso corrisponde ad un putativo gene. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modelli di un gene TATTCCGATCGATCGATCTCTCTAGCGTCTACG CTATCATCGCTCTCTATTATCGCGCGATCGTCG ATCGCGCGAGAGTATGCTACGTCGATCGAATTG Identificare e valutare i segnali, e se possibile le regioni fra di loro; indurre un ORF graph sul set dei segnali Trovare il percorso con punteggio massimo attraverso l'ORF graph; questo può essere convertito nella struttura di un gene Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione dei geni A standard shortest-path algorithm can be trivially adapted to find the highest-scoring parse in an ORF graph: Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Altri segnali Codon Bias L'utilizzo non uniforme di aminoacidi e codoni è una caratteristica ricorrente nei genomi e proteomi noti; C'è utlizzo non uniforme dei vari aminoacidi; C'è utilizzo non uniforme dei codoni sinonimi (codificanti lo stesso aminoacido), spesso correlato con l'abbondanza dei rispettivi tRNA; Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Altri segnali The Human Codon Usage Table Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Altri segnali Contenuto in G+C Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Altri segnali Mediana delle lunghezze di introni ed esoni in funzione del contenuto in G+C Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Catene di Markov Una catena di Markov è un modello per la generazione stocastica di fenomeni sequenziali. L'ordine della catena di Markov equivale al numero di posizioni precedenti dalle quali la posizione corrente dipende. Ad esempio, in sequenze di acidi nucleici, una catena di ordine-0 considera le frequenze dei nucleotidi, una catena di 1-ordine considera le frequenze di coppie di nucleotidi, etc. I parametri del modello sono le frequenze dei vari elementi ad ogni posizione (possibilmente funzione degli elementi precedenti). s = ttacggt s = s1s2 s3s4 ⋯ 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = Lezione 2 N ∏ p( s ) i= 1 i Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Catene di Markov s = ttacggt s = s1s2 s3s4 ⋯ • 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = Lezione 2 N ∏ p( s ) i= 1 i Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Catene di Markov s = ttacggt s = s1s2 s3s4 ⋯ • 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = • 1st-order N ∏ p( s ) i i= 1 N P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 N P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Catene di Markov s = ttacggt s = s1s2 s3s4 ⋯ • 0th-order P0 ( s ) = p( s1 ) ⋅ p( s2 ) ⋅ p( s3 ) ⋯ = N ∏ p( s ) i= 1 i P0 ( s ) = p( t ) ⋅ p( t ) ⋅ p( a ) ⋅ p( c ) ⋅ p( g ) ⋯ = • 1st-order N ∏ p( s ) i i= 1 N P1 ( s ) = p( s1 ) ⋅ p( s2 | s1 ) ⋅ p( s3 | s2 ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 N P1 ( s ) = p( t ) ⋅ p( t | t ) ⋅ p( a | t ) ⋅ p( c | a ) ⋯ = p( s1 ) ⋅ ∏ p( si | si − 1 ) i= 2 • 2nd-order N P2 ( s ) = p( s1s2 ) ⋅ p( s3 | s1s2 ) ⋅ p( s4 | s2 s3 ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 ) i= 3 N P2 ( s ) = p( tt ) ⋅ p( a | tt ) ⋅ p( c | ta ) ⋅ p( g | ac ) ⋯ = p( s1s2 ) ⋅ ∏ p( si | si − 2 si − 1 ) Lezione 2 i= 3 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Hidden Markov Models 0 0 0 0 0.5 0.998 0.002 0 Φ = 0.5 0.001 0.996 0 0 0.001 0.002 0 0.28 0.22 H = 0.25 0.25 Un HMM è completamente definito da: ● Matrice delle transizioni fra stati (Φ) ● Matrice delle emissioni (H) ● Vettore di stato (x) 0.32 0.18 0.18 0.32 xm(i) = probabilità di essere nello stato m al momento i; H(m,yi) = probabilità di emettere un carattere yi nello stato m; Φmk = probabilità della transizione dallo stato k allo stato m. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Hidden Markov Models • • • • • • • Lezione 2 Algoritmo forward: Dati i parametri del modello, qual' è la probabilità di una particolare sequenza osservata? (dynamic programming) Algoritmo di Viterbi: Dati i parametri del modello, qual' è la sequenza di stati che più verosimilmente ha condotto alla sequenza di osservazioni? Baum-Welch: dato un insieme di osservazioni, e le corrispondenti sequenze di stati, quali sono i parametri del modello? Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Hidden Markov Models Un HMM può essere costruito come un generatore di regioni genomiche: Osservazioni: sequenza dei nucleotidi; Stati: ruolo svolto dal nucleotide (ad es. se è il secondo nucleotide di una giunzione di splicing, se è nel mezzo della sequenza di un introne, se è nella prima posizione di un codone, etc.); Data una sequenza nucleotidica genomica (un cromosoma, un contig), si può usare l'algoritmo di Viterbi per ottenere la più probabile sequenza di stati che l'ha prodotta -> identificare la struttura di eventuali geni presenti nella sequenza. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Generalized Hidden Markov Models (GHMM) Un GHMM (detto anche explicit state duration HMM) è una variante degli HMM per il quale le osservazioni non sono singoli nucleotidi, ma interi segmenti: Osservazioni: sequenza di vari segmenti; Stati: ruolo svolto dal segmento (ad es. se è un sito donatore di una giunzione di splicing, se è la regione centrale di un introne); Ogni stato è definito da un modello che definisce la probabilità di ogni osservazione. Una variante dell'algoritmo di Viterbi può essere usata per ottenere la più probabile segmentazione che l'ha prodotta -> identificare la struttura di eventuali geni presenti nella sequenza. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Generalized Hidden Markov Models (GHMM) Esempi di modello di stato (segmento): Siti di poliadenilazione: PSSM di sei posizioni compilata su un dataset di training Accettore di splicing: Catena di Markov del 1-ordine Sequenza nel mezzo di un introne: Catena di Markov del 5-ordine (la probabilità di un segmento è il prodotto delle probabilità di ogni suo nucleotide, dati i 5 nucleotidi precedenti; ad es. la probabilità dell'ultima A dell'esapeptide TGCATA è data dalla frequenza con cui i pentapetidi TGCAT terminano in A nel dataset di training) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Generalized Hidden Markov Models (GHMM) Fase 0 Fase 1 Fase 2 Lezione 2 CTA GGT AAT CGTCGT .... AAA CTC AGT CTA GGT AAT CGT CG ........... A CTC AGT CTA GGT AAT CGT C ........... AA CTC AGT Zhang, Nature 2002 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Generalized Hidden Markov Models (GHMM) Duration d T A A T A T G T C C A C G G G T A T T G AG C A T T G T A C A C G G G G T A T T G A G C A T G T A A T G A A Exon1 Lezione 2 Exon2 Exon3 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genscan (Burge, 1997) Disegnato per predirre la struttura completa di un gene: Introni, esoni, promotori, siti di poliadenilazione; Include: Descrizioni di segnali di inizio e fine della trascrizione, e splicing; Distribuzione delle lugnhezze delle varie sottoregioni; Frequenze di composizione di esoni, introni, regioni intergeniche, regioni C+G; Può predirre Geni interi o frammenti; Geni multipli separati da regioni intergeniche; Geni su entrambi i filamenti della sequenza; Basato su un modello generale probabilistico della struttura e composizione di un gene (Explicit State Duration HMMs). Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genscan (Burge, 1997) N – regione intergenica P - promotore F - 5’ UTR T – 3'UTR Esngl - esone singolo (codone di inizio -> codone di stop) Einit - esone iniziale (codone di inizio -> sito donatore di splicing) Ek - esone interno con fase k (sito accettore di splicing -> sito donatore) Eterm - esone terminale (sito accettore -> codone di stop) Ik - introne con fase k: 0 – fra due codoni; 1 – dopo la prima base di un codone; 2 – dopo la seconda base di un codone Zhang, Nature 2002 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genscan (Burge, 1997) 0.06 0.04 Π = 0.60 0.12 ⋮ 1 0 0 0 0 1 0 0 A = 0.28 0.33 0 0.39 0.28 0.41 0.31 0 ⋮ ⋮ ⋮ ⋮ ⋯ ⋯ ⋯ ⋯ ⋱ Sequenza di stati assunti dal sistema: q = {q1, q2, q3 ,.., qn} Sequenza di durate della permanenza in ogni stato: d = {d1, d2, d3 ,.., dn} A C G C G A C T A G G C G C A G G T .. T A T G A T Exoninit Intron0 Exon0 Intron0 Exonterm 3’UTR P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn} stato iniziale probabilità di transizione segmento di sequenza durata dello stato iniziale Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genscan (Burge, 1997) Probabilità di una sequenza S usando un particolare percorso: P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn} Probabilità di un percorso data una sequenza S? P(Φ i,S) P(Φ i , S) P(Φ i | S) = = P(S) Σ Φ j ∈ Φ LP(Φ j , S) Lezione 2 Teorema di Bayes Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genscan (Burge, 1997) Teorema di Bayes posterior P(D | M ) P( M ) P( M | D ) = P( D ) marginal P( D ) = = ∑ P(D | M ) P( M ) ⋅ discrete ∫ P(D | M ) P( M )dM ⋅ continuous M = modello D = dati Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genscan (Burge, 1997) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Twinscan (Korf, 2001) Twinscan – Dual genome Gene Predictor Basato su Genscan, cui aggiunge un modello di conservazione evolutiva Dato un genoma target, e un genoma di supporto (informant sequences), BLAST è utilizzato per identificare regioni di similarità locale. Ogni base allineata nella sequenza target è segnata come gap (.), mismatch (:), o match (|). Ad esempio: Uomo: Topo: Allineamento: ACGGCGA-GUGCACGU ACUGUGACGUGCACUU ||:|:||.||||||:| Si definisce un nuovo alfabeto di 12 lettere = { A., A:, A|, C., C:, C|, G., G:, G|, U., U:, U| } Sequenze di questi simboli sono modellati come catene di Markov del quinto ordine. Si usa lo stesso modello di Genscan, ma che calcola anche la probabilità della stringa di conservazione. Una variante dell'algoritmo di Viterbi è applicata per calcolare la probabilità... Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Twinscan (Korf, 2001) ? Brent, Nature Biotechnology 2007 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Twinscan (Korf, 2001) ? Brent, Nature Biotechnology 2007 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Twinscan (Korf, 2001) Brent, Nature Biotechnology 2007 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Twinscan (Korf, 2001) Brent, Nature Biotechnology 2007 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 N-scan (Gross, 2006) NSCAN - Multiple Species Gene Predictor • GENSCAN Target GGTGAGGTGACCAAGAACGTGTTGACAGTA Emette una sequenza GGTGAGGTGACCAAGAACGTGTTGACAGTA |||:||:||:|||||:||||||||...... Emette una sequenza e la sua conservazione GGTGAGGTGACCAAGAACGTGTTGACAGTA GGTCAGC___CCAAGAACGTGTAG...... GATCAGC___CCAAGAACGTGTAG...... GGTGAGCTGACCAAGATCGTGTTGACACAA Emette colonne di un allineamento multiplo • TWINSCAN Target Conservation sequence • N-SCAN Target Informant1 Informant2 Informant3 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 N-scan (Gross, 2006) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 N-scan (Gross, 2006) Lezione 2 Target sequence: P (Ti | Ti − 1 ,..., Ti − o ) Informant sequences: P (I i | Ti ,..., Ti − o , I i − 1 ,...I i − o ) Joint prediction (use phylo-HMM): P (Ti , I i | Ti − 1 ,..., Ti − o , I i − 1 ,..., I i − o ) Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Contast (Gross, 2007) Basato sui Conditional Random Fields (CRF); I CRF sono modelli discriminativi, per l'etichettatura di una sequenza di input (mentre gli HMM sono generativi); E' rappresentato da un modello grafico, in cui i vertici sono le variabili, e gli archi descrivono un rapporto di dipendenza fra variabili; L'input è un allinamento multiplo fra la sequenza target e una serie di genomi (informants); Può includere anche dati di espressione (ad es. ESTs); Brent, Nature Reviews Genetics 2008 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Contast (Gross, 2007) Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Valutazione dei vari metodi A livello di nucleotide: TN FN TP FP TN FN TP FN TN Realtà Predizione Realtà Lezione 2 TP nc FP Sensitività Sn = TP / (TP + FN) Specificità nc Predizione c c FN TN Sp = TP / (TP + FP) Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Valutazione dei vari metodi A livello di esone: Esone sbagliato Esone corretto Esone mancante Realtà Predizione Sensitività Sn = Numero di esoni correttamente predetti Numero di esoni nel dataset Numero di esoni correttamente predetti Specificità Lezione 2 Sp = Numero di esoni predetti Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Valutazione dei vari metodi A livello di gene: Si considera una predizione corretta a livello di gene se tutti I suoi esoni sono stati correttamnete predetti. Sensitività Sn = numero di geni correttamente predetti numbero di geni nel dataset numero di geni correttamente predetti Specificità Lezione 2 Sp = numero di geni predetti Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Valutazione dei vari metodi Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Valutazione dei vari metodi Brent, Nature Reviews Genetics 2008 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Strategia per l'annotazione di un genoma Brent, Nature Reviews Genetics 2008 Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Limiti degli algoritmi per identificazione di geni Non possono identificare: Geni sovrapposti; Geni annidati; Frame-shifts o errori di sequenziamento; Codoni di inizio e stop alternativi; Giunzioni di splicing non canoniche; Splicing alternativo; Salto del codone di stop (TGA) causato da selenocisteine; Sono in genere organismo-specifici; Identificano bene geni simili a qualcosa visto in precedenza; Sono disegnati per identificare solo geni codificanti per proteine. Lezione 2 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010