Lezione 6 Annotazione del genoma Annotazione del genoma • Assegnare ad ogni nucleotide del genoma un possibile ruolo. • Principalmente (ma non solo) riguarda l'annotazione dei geni. • Geni – Codificanti proteine – Geni per RNA – Retrogeni • Elementi regolatori – Promotori – Enhancers – siRNA • Elementi repetitivi – LINES – SINES – Simple repeats Identificazione dei geni • Metodi Dire* – Mediante ricerca di match perfetti o quasi perfetti con EST, cDNA o sequenze proteiche dello stesso organismo (allineamento cis) Metodi Indiretti – Mediante ricerca di somiglianze con un gene noto (allineamento trans); – Mediante ricerca di strutture simili a un gene ideale (ab initio o de novo) – Metodi basati sul contesto (contenuto in GC, frequenze codoni, etc.) dei – Metodi basati su segnali (siti accettori e donatori di splicing, promotori, codoni di start/stop, segnali di poliadenilazione, etc.) – Modelli basati su contesto e segnali Metodi Ibridi 1. Mediante l' unione di tecniche per omologia, ab initio e metodi diretti Metodi ab initio Metodi di predizione di geni ab initio si basano su: Identificazione di segnali che permettono l'identificazione di un gene e della sua struttura (splicing, inizio e fine traduzione, etc.) " " Modelli statistici che incorporano questi segnali I segnali sono calcolati su un dataset di riferimento, cioè geni possibilmente dello stesso organismo già noti " Possono includere considerazioni evolutive (nell'ipotesi che sequenze genomiche corrispondenti a geni siano piu' conservate, e/o mostrino patterns di conservazione caratteristici). " Modelli di un gene complete mRNA coding segment ATG exon ATG . . . GT start codon intron TGA exon AG donor site acceptor site ... intron GT exon AG . . . TGA donor site acceptor stop codon site I segmenti codificanti (CDS) di un gene sono delimitati da 4 tipi di segnale: codone di inizio (ATG negli eucarioti), codone di stop (TAG, TGA, o TAA), siti donatori di splicing (solitamente GT), e siti accettori di splicing (AG) Modelli di un gene Il problema dell'identificazione di geni in una sequenza genomica può essere ricondotto all'identificazione di intervalli nella sequenza genomica, delimitando gli esoni putativi e le altre regioni della struttura del gene: exon ATG . . . GT start codon intron exon AG ... donor site acceptor site TATTCCGATCGATCGATCTCTCTAGCGTCTAC GCTATCATCGCTCTCTATTATCGCGCGATCGT CGATCGCGCGAGAGTATGCTACGTCGATCGAA TTG intron GT exon AG . . . TGA donor site acceptor stop codon site gene finder (6,39), (107-250), (1089-1167), ... Modelli di un gene Tratto di poli-pirimidine Modelli di un gene Codon bias Mutazioni sinonime — che non alterano il tipo di aminoacido codificato – non hanno effetto sulla sequenza della proteina risultante, quindi non dovrebbero avere effetto sulle funzioni della cellula, sulla fitness dell'individuo o sull'evoluzione della popolazione. Tuttavia, nella maggior parte dei genomi i codoni sinonimi non sono utilizzato con la stessa frequenza. Questo fenomeno è noto come codon usage bias Altri segnali Contenuto in G+C Catene di Markov s = ttacggt s = s1s2 s3s4 • 0th-­‐order N P0 (s ) = p(s1 ) ⋅ p(s2 ) ⋅ p(s3 ) = p(si ) i =1 N p(si ) P0 (s ) = p(t ) ⋅ p(t ) ⋅ p(a ) ⋅ p(c ) ⋅ p(g ) = i =1 • 1st-­‐order N p(si | si −1 ) P1 (s ) = p(s1 ) ⋅ p(s2 | s1 ) ⋅ p(s3 | s2 ) = p(s1 ) ⋅ i =2 N P (s ) = p(t ) ⋅ p(t | t ) ⋅ p(a | t ) ⋅ p(c | a ) = p(s1 ) ⋅ p(si | si −1 ) 1 i =2 • 2nd-­‐order N ∏ ∏ ∏ ∏ P2 (s ) = p(s1s2 ) ⋅ p(s3 | s1s2 ) ⋅ p(s4 | s2 s3 ) = p(s1s2 ) ⋅ ∏ p(si | si −2 si −1 ) i =3 N P2 (s ) = p(tt ) ⋅ p(a | tt ) ⋅ p(c | ta ) ⋅ p(g | ac ) = p(s1s2 ) ⋅ ∏ p(si | si −2 si −1 ) i =3 Hidden Markov Models Hidden Markov Models Hidden Markov Models Stati: {S1, S2,…,SN} Matrice delle transizioni Aij = P(qt+1 = Si | qt = Sj) Stati iniziali πi = P(q1 = Si) Osservazioni: {O1, O2,…,OM} Probabilità delle osservazioni: Bj(k) = P(vt = Ok | qt = Sj) Modelli di un gene • Algoritmo forward: Dati i parametri del modello, qual' è la probabilità di una particolare sequenza osservata? • Algoritmo di Viterbi: Dati i parametri del modello, qual' è la sequenza di stati che più verosimilmente ha condotto alla sequenza di osservazioni? • Baum-Welch: dato un insieme di osservazioni, e le corrispondenti sequenze di stati, quali sono i parametri del modello? Hidden Markov Models Un HMM può essere costruito come un generatore di regioni genomiche: Osservazioni: sequenza dei nucleotidi; Stati: ruolo svolto dal nucleotide (ad es. se è il secondo nucleotide di una giunzione di splicing, se è nel mezzo della sequenza di un introne, se è nella prima posizione di un codone, etc.); Data una sequenza nucleotidica genomica (un cromosoma, un contig), si può usare l'algoritmo di Viterbi per ottenere la più probabile sequenza di stati che l'ha prodotta -> identificare la struttura di eventuali geni presenti nella sequenza. Hidden Markov Models 0 0 0⎤ ⎡ 0 ⎢0.5 0.998 0.002 0⎥ ⎥ Φ = ⎢ ⎢0.5 0.001 0.996 0⎥ ⎢ ⎥ 0 0 . 001 0 . 002 0 ⎣ ⎦ ⎡0.28 ⎢0.22 H = ⎢ ⎢0.25 ⎢ ⎣0.25 Un HMM è completamente definito da: l Matrice delle transizioni fra stati (Φ) l Matrice delle emissioni (H) l Vettore di stato (x) 0.32⎤ 0.18 ⎥ ⎥ 0.18 ⎥ ⎥ 0.32⎦ xm(i) = probabilità di essere nello stato m al momento i; H(m,yi) = probabilità di emettere un carattere yi nello stato m; Φmk = probabilità della transizione dallo stato k allo stato m. Hidden Markov Models [Brent, 2008] Hidden Markov Models Sequenza dell'introne Donatore Accettore [Brent, 2008] Generalized Hidden Markov Models (GHMM) Un GHMM (detto anche explicit state duration HMM) è una variante degli HMM per il quale le osservazioni non sono singoli nucleotidi, ma interi segmenti: Osservazioni: sequenza di vari segmenti; Stati: ruolo svolto dal segmento (ad es. se è un sito donatore di una giunzione di splicing, se è la regione centrale di un introne); Ogni stato è definito da un modello che definisce la probabilità di ogni osservazione. Una variante dell'algoritmo di Viterbi può essere usata per ottenere la più probabile segmentazione che l'ha prodotta -> identificare la struttura di eventuali geni presenti nella sequenza. Generalized Hidden Markov Models (GHMM) Esempi di modello di stato (segmento): Siti di poliadenilazione: PSSM di sei posizioni compilata su un dataset di training Accettore di splicing: Catena di Markov del 1-ordine Sequenza nel mezzo di un introne: Catena di Markov del 5-ordine (la probabilità di un segmento è il prodotto delle probabilità di ogni suo nucleotide, dati i 5 nucleotidi precedenti; ad es. la probabilità dell'ultima A dell'esapeptide TGCATA è data dalla frequenza con cui i pentapetidi TGCAT terminano in A nel dataset di training) Generalized Hidden Markov Models (GHMM) Fase 0 Fase 1 Fase 2 CTA CTA CTA GGT GGT GGT AAT AAT AAT CGT CGT CGT CGT .... CG ........... C ........... AAA A AA CTC CTC CTC AGT AGT AGT [Zhang, Nature 2002] Generalized Hidden Markov Models (GHMM) Duration d T A A T A T G T C CA C G G G T A T T G A G C A T T G T A CA C G G G G T A T T GA G C A T G T A A T GA A Exon1 Exon2 Exon3 Genscan (Burge, 1997) " " " " Disegnato per predire la struttura completa di un gene: Introni, esoni, promotori, siti di poliadenilazione; Include: Descrizioni di segnali di inizio e fine della trascrizione, e splicing; Distribuzione delle lunghezze delle varie sottoregioni; Frequenze di composizione di esoni, introni, regioni intergeniche, regioni C+G; Può predire Geni interi o frammenti; Geni multipli separati da regioni intergeniche; Geni su entrambi i filamenti della sequenza; Basato su un modello generale probabilistico della struttura e composizione di un gene (Explicit State Duration HMMs). Genscan (Burge, 1997) N – regione intergenica P - promotore F - 5’ UTR T – 3'UTR Esngl - esone singolo (codone di inizio -> codone di stop) Einit - esone iniziale (codone di inizio -> sito donatore di splicing) Ek - esone interno con fase k (sito accettore di splicing -> sito donatore) Eterm - esone terminale (sito accettore -> codone di stop) Ik - introne con fase k: 0 – fra due codoni; 1 – dopo la prima base di un codone; 2 – dopo la seconda base di un codone [Zhang, Nature 2002] Genscan (Burge, 1997) ⎛ 0.06 ⎞ ⎜ ⎟ ⎜ 0.04 ⎟ Π = ⎜ 0.60 ⎟ ⎜ ⎟ ⎜ 0.12 ⎟ ⎜ ⎟ ⎝ ⎠ 1 0 0 ⎛ 0 ⎜ 0 1 0 ⎜ 0 A = ⎜ 0.28 0.33 0 0.39 ⎜ ⎜ 0.28 0.41 0.31 0 ⎜ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟⎠ Sequenza di stati assunti dal sistema: q = {q1, q2, q3 ,.., qn} Sequenza di durate della permanenza in ogni stato: d = {d1, d2, d3 ,.., dn} A C G C G A C T A G G C G C A G G T .. T A T G A T Exoninit Intron0 Exon0 Intron0 Exonterm 3’UTR P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn} stato iniziale probabilità di transizione segmento di sequenza durata dello stato iniziale Genscan (Burge, 1997) Probabilità di una sequenza S usando un particolare percorso: P(Фi,S) = πq1(d1)Pq1{s1|q1,d1} * Aq1,q2(d2)Pq2{s2|q2,d2} * ..… * Aqn-1,qn(dn)Pqn{sn|qn,dn} Probabilità di un percorso data una sequenza S? P(Φi, S) P(Φi , S) P(Φi | S) = = P(S) ΣΦj ∈ ΦLP(Φj , S) Teorema di Bayes Twinscan (Korf, 2001) Twinscan – Dual genome Gene Predictor " Basato su Genscan, cui aggiunge un modello di conservazione evolutiva Dato un genoma target, e un genoma di supporto (informant sequences), BLAST è utilizzato per identificare regioni di similarità locale. " Ogni base allineata nella sequenza target è segnata come gap (.), mismatch (:), o match (|). Ad esempio: " Uomo: Topo: Allineamento: ACGGCGA-GUGCACGU ACUGUGACGUGCACUU ||:|:||.||||||:| " Si definisce un nuovo alfabeto di 12 lettere = { A., A:, A|, C., C:, C|, G., G:, G|, U., U:, U| } " Sequenze di questi simboli sono modellati come catene di Markov del quinto ordine. Si usa lo stesso modello di Genscan, ma che calcola anche la probabilità della stringa di conservazione. Una variante dell'algoritmo di Viterbi è applicata per calcolare la probabilità di osservare la data sequenza di simboli. " Twinscan (Korf, 2001) ? [Brent, Nature Biotechnology 2007] Twinscan (Korf, 2001) ? [Brent, Nature Biotechnology 2007] Twinscan (Korf, 2001) [Brent, Nature Biotechnology 2007] Twinscan (Korf, 2001) [Brent, Nature Biotechnology 2007] N-scan (Gross, 2006) NSCAN - Multiple Species Gene Predictor • GENSCAN Target GGTGAGGTGACCAAGAACGTGTTGACAGTA Emette una sequenza GGTGAGGTGACCAAGAACGTGTTGACAGTA |||:||:||:|||||:||||||||...... Emette una sequenza e la sua conservazione GGTGAGGTGACCAAGAACGTGTTGACAGTA GGTCAGC___CCAAGAACGTGTAG...... GATCAGC___CCAAGAACGTGTAG...... GGTGAGCTGACCAAGATCGTGTTGACACAA Emette colonne di un allineamento multiplo • TWINSCAN Target Conservation sequence • N-SCAN Target Informant1 Informant2 Informant3 Contast (Gross, 2007) Basato sui Conditional Random Fields (CRF); I CRF sono modelli discriminativi, per l'etichettatura di una sequenza di input (mentre gli HMM sono generativi); E' rappresentato da un modello grafico, in cui i vertici sono le variabili, e gli archi descrivono un rapporto di dipendenza fra variabili; L'input è un allinamento multiplo fra la sequenza target e una serie di genomi (informants); Può includere anche dati di espressione (ad es. ESTs); Contast (Gross, 2007) Valutazione dei vari metodi A livello di nucleoHde: TN FN TP FP TN FN TP FN TN Realtà Predizione Realtà intergenico genico TP = True posiHve FP = False posiHve FN = False negaHve TN = True negaHve Predizione genico TP intergenico FP SensiHvità Sn = TP / (TP + FN) Specificità FN TN Matrice di confusione Sp = TN / (TN + FP) Valutazione dei vari metodi A livello di esone: Esone sbagliato Esone correPo Esone mancante Realtà Predizione SensiHvità Specificità Sn = Sp = Numero di esoni correPamente prede* Numero di esoni nel dataset Numero di esoni correPamente prede* Numero di esoni prede* Valutazione dei vari metodi A livello di gene: Si considera una predizione corretta a livello di gene se tutti i suoi esoni sono stati correttamnete predetti. SensiHvità Specificità Sn = Sp = numero di geni correPamente prede* numbero di geni nel dataset numero di geni correPamente prede* numero di geni prede* Valutazione dei vari metodi Strategia per l'annotazione di un genoma [Brent, Nature Biotechnology 2007] Limiti degli algoritmi per identificazione di geni " Non possono identificare: Geni sovrapposti; Geni annidati; Frame-shifts o errori di sequenziamento; Codoni di inizio e stop alternativi; Giunzioni di splicing non canoniche; Splicing alternativo; Salto del codone di stop (TGA) causato da selenocisteine; " Sono in genere organismo-specifici; " Identificano bene geni simili a qualcosa visto in precedenza; " Sono disegnati per identificare solo geni codificanti per proteine. Genomics Session Geni per RNA non codificanti RNA non codificante l l l l l Di tutto l'RNA trascritto negli eucarioti superiori, il 98% non è mai tradotto in proteine; Di questo 98%, circa il 50-70% è costituito da introni; Il resto origina da geni non codificanti proteine, fra cui geni per rRNA, tRNA e una vasta serie di altri geni per RNA non codificante (non-coding RNA, ncRNAs); Anche alcuni introni sono stati visti contenere ncRNAs, ad exsempio gli snoRNA; Il numero di ncRNA diversi nei genomi di mammifero è sconosciuto (secondo stime recenti > 15000). RNA non codificante RNA non codificante Funzioni dell’RNA: 1. Immagazzinamento/trasferimento dell'informazione genetica: ñ RNA genomico ñ Molti virus hanno genomi composti da RNA è Singolo filamento (ssRNA) [ad es. HIV] è Doppio filamento (dsRNA) [ad es. Rotavirus] ñ RNA messaggero 2. Strutturale 3. Catalitico 4. Regolatorio RNA non codificante Gli ncRNA si possono genericamente classificare in due gruppi in base alla loro funzione: l l l NcRNA housekeeping, i quali sono espressi sempre e sono necessari per le funzioni normali e la sopravvivenza della cellula; NcRNA regolatori o modulatori, i quali sono espressi per rispondere a particolari esigenze; NcRNA regolatori possono influire sull'espressione di altri geni modulando la loro trascrizione o traduzione RNA non codificante Esempi di ncRNA housekeeping: • Apparato per la sintesi proteica: l Transfer RNA (tRNA); l RNA Ribosomiale (rRNA); l snRNA: RNA dello spliceosoma; l snoRNA (small nucleolar RNA) : ruolo accessorio agli rRNA; • tmRNA (tRNA like mRNA): degradazione delle proteine; • gRNA: editing dell'RNA; • RNA della telomerasi: primer per la sintesi del DNA dei telomeri; RNA non codificante Esempi di ncRNA modulatori: • • • • • Micro RNA (miRNA): regolatori della traduzione; Small interfering RNAs (siRNA): silenziamento di geni; Riboswitch RNA: controllo dell'espressione genica; ncRNA modulatori delle funzioni di proteine; ncRNA regolatori della localizzazione di RNA e proteine. RNA non codificante I ncRNA svolgono la loro funzione: In maniera sequenza-specifica (es. per appaiamento di basi con un target); " In maniera struttura-specifica (es. per interazione con ligandi proteici); " " In maniera sia sequenza- che struttura-specifica.