TROVARE I GENI • Obie.vo: – Iden4ficare regioni codifican4 e non codifican4 • E’ un problema di classificazione. – In un probelma di classificazione occorrono • Le osservazioni (nucleo4di) • Le classi (intorni, esoni, promotori, etc…) • Tecniche: – – – – Re4 neurali Analisi discriminante Alberi decisionali Hidden Markov Models (HMMs) Esempio: isole CpG • Notazione: – C-­‐G – coppia di basi C-­‐G su due eliche – CpG –dinucleo4de CG • Nell’uomo: – Frequente mutazione di C in T in CpG => CpG rari – MA non succede vicino ai promotori dei geni => CpG piu’ frequen4 in queste regioni • Si chiamano isole CpG • Da qualche cen4naia a qualche migliaia di basi • Problemi: – Dato un frammento di sequenza, viene o no da un’isola CpG? – Come trovo le isole CpG in una lunga sequenza? Catene di Markov Definition: Una catena di Markov e’ (Q, {p(x1 = s)}, A), dove: Ø Q un insieme finito di stati. Ogni stato e’ un simbolo nell’alfabeto Σ Ø p probabilita’ iniziali. Ø A probabilita’ di transizione indicata da ast for each s, t ∈ Q. Ø Per ogni s, t ∈ Q la probabilita’ di transizione e’: ast ≡ P(xi = t|xi-1 = s) Output del modello: un insieme di stati ad ogni istante t Proprieta’: La probabilita’ di ogni simbolo xi dipende solo dal valore del simbolo precedente xi-1 : P (xi | xi-1,…, x1) = P (xi | xi-1) Quindi: La probabilita’di una sequenza e’: P(x) = P(xL,xL-1,…, x1) = P (xL | xL-1) P (xL-1 | xL-2)… P (x2 | x1) P(x1) Training set Catena di Markov Probabilita’ Test set Catena di Markov Probabilita’ Predizione Confronto con risulta4 no4 e valutazione dell’accuratezza Set ignoto Catena di Markov Probabilita’ Predizione Catena di Markov per isole CpG • Training Set: aAT A – set di sequenze di DNA con isole CpG note T aAC aGT C aGC G • Derivare due Markov chain models: – ‘+’ model: dalle isole CpG – ‘-­‐’ model: da tuXe le altre • Probabilita’ di transizione per ciascun modello: a st+ + A C G T A .180 .274 .426 .120 C .171 .368 .274 .188 G .161 .339 .375 .125 T .079 .355 .384 .182 = cst+ ∑ t' + cst' Numero di volte la + lettera t e’ seguita dalla c st lettera s nelle isole • Calcolare il rapporto log-­‐odds che e’ in pra4ca uno score: P(x|model + ) S(x) = log = P(x|model − ) ∑ L i =1 log a +x i −1 x i a −x i −1 x i 10 No osservazioni 5 Non-­‐CpG 0 CpG islands -­‐0.4 -­‐0.3 -­‐0.2 -­‐0.1 0 0.1 0.2 0.3 0.4 Log-­‐odds Q1: Dato un frammento di sequenza x, viene da un’isola CpG? • S(x) Q2: Come troviamo le isole in una lunga regione? S(xi..x i+w) HMM per isole CpG A: 1 C: 0 G: 0 T: 0 A+ A: 0 C: 1 G: 0 T: 0 A: 0 C: 0 G: 1 T: 0 A: 0 C: 0 G: 0 T: 1 C+ G+ T+ • Costruire un singolo modello che combina entrambe le catene di Markov: – ‘+’ sta0: A+, C+, G+, T+ • Simboli emessi: A, C, G, T in CpG islands – ‘-­‐’ sta0: A-­‐, C-­‐, G-­‐, T-­‐ • Simboli emessi : A, C, G, T in non-­‐islands A-­‐ C-­‐ G-­‐ T-­‐ A: 1 C: 0 G: 0 T: 0 A: 0 C: 1 G: 0 T: 0 A: 0 C: 0 G: 1 T: 0 A: 0 C: 0 G: 0 T: 1 • Se una sequenza CGCG e’ emessa dagli sta4 (C+,G-­‐,C-­‐,G+), allora: P(CGCG) = a0,C+ × aC+ ,G− × aG− ,C− × aC− ,G+ × aG+ ,0 HMM (Hidden Markov Model) Un HMM e’ un insieme (Q, V, p, A, E), dove: Ø Q e’ un insieme finito di stati Ø V e’ un insieme finito di sibmbli osservati per stato Ø p sono le probabilita; iniziali degli stati. Ø A sono le probabilita’ di transizione ast per ogni s, t ∈ Q. Ø Per ogni s, t ∈ Q la probabilita; di transizione e’: ast ≡ P(xi = t|xi-1 = s) Ø E e’ una matrice di probabilita; di emissione, esk ≡ P (vk al tempo t | qt = s) Output: Solo I simboli emessi sono osservabili, non il persorso seguito, quindi si dice che e’ un modello di Markov “nascosto” -> “hidden” A+ C+ G+ T+ Dato con probabilita’ di transizione note A-­‐ C-­‐ G-­‐ T-­‐ E data una sequenza AGAGCAGTGACGATGACGTAA... Quali sono gli sta4 dei simboli? O, in altre parole, quale sequenza di even4 dell’HMM ha piu’ probabilmente generato la mia sequenza di simboli? Percorso piu’ probabile di sta4: Algoritmo di Viterbi • De.: – π – la sequenza di sta4, o percorso – πj – il j-­‐esimo stato nel percorso • Il percorso piu’ probabile:: – π* = argmaxπ P(x, π) su tu: I possibili percorsi π – Si usa un metodo recursivo con programmazione dinamica (Viterbi) pl (i + 1) = el , x i+1 max ( pk (i )akl ) k pk(i) e’ la probabilita’ del percorso piu’ probabile che finisce nello stato k con osservabile i – Razionale: Ogni soXopercorso parziale che finisce in un certo punto che fa parte del percorso o.male e’ esso stesso un percorso o.male fino a quel punto. Quindi il percorso o.male si puo’ trovare incrementando i soXopercorsi o.male. HMM-­‐based Gene Finding • • • • • • GENSCAN (Burge 1997) FGENESH (Solovyev 1997) HMMgene (Krogh 1997) GENIE (Kulp 1996) GENMARK (Borodovsky & McIninch 1993) VEIL (Henderson, Salzberg, & Fasman 1997) VEIL: Viterbi Exon-­‐Intron Locator • Con4ene 9 sta4 nascos4 • Ogni stato e’ un modello Markoviano dello stato • Sta4: – Esoni, introni, regioni intergeniche, si4 di splicing, etc. Exon HMM Model Upstream 3’ Splice Site Start Codon Exon Intron Stop Codon 5’ Splice Site Downstream 5’ Poly-­‐A Site VEIL Architecture • Enter: start codon or intron (3’ Splice Site) • Exit: 5’ Splice site or three stop codons (taa, tag, tga) Genie • Ciascuna connessione del modello e’ un HMM Begin Start Donor Sequence Transla4on splice site • J5’ – 5’ UTR • EI – Ini4al Exon • E – Exon, Internal Exon • I – Intron • EF – Final Exon • ES – Single Exon • J3’ – 3’UTR Acceptor Stop End splice site Transla4on Sequence GenScan • Modella entrambe le eliche – Altri modelli: Predicono un’elica alla volta – Evitsa di predire due geni sovrappos4 su due eliche (raro) Fig. 3, Burge and Karlin 1997 Sta4 in GenScan • • • N -­‐ intergenic region P -­‐ promoter F -­‐ 5’ untranslated region • Esngl – single exon (intronless) (transla4on start -­‐> stop codon) • Einit – ini4al exon (transla4on start -­‐> donor splice site) • Ek – phase k internal exon (acceptor splice site -­‐> donor splice site) • Eterm – terminal exon (acceptor splice site -­‐> stop codon) • Ik – phase k intron: 0 – between codons; 1 – aner the first base of a codon; 2 – aner the second base of a codon TN Sp = TN + FP TP Sn = TP + FN TP + TN Acc = TP + FP + FN + TN TP ⋅ TN − FP ⋅ FN MCC = (TP + FP)(TP + FN )(TN + FP)(TN + FN ) ROC curve Test Datasets – Test su sequenze di 570 geni di vertebra4 (Burset&Guigo 1996) usato come standard. Results: Accuracy Statistics Table: Rela0ve Performance (adapted from Rogic 2001) Complica4ng Factors for Comparison • Gene finders were trained on data that had genes homologous to test seq. • Percentage of overlap is varied • Some gene finders were able to tune their methods for par4cular data # of seqs - number of seqs effectively analyzed by each program; in parentheses is the number of seqs where the absence of gene was predicted; • Methods con4nue to be developed Needed Sn -nucleotide level sensitivity; Sp - nucleotide level specificity; • Train and test methods on the same data. CC - correlation coefficient; • Do cross-­‐valida4on (10% leave-­‐out) ESn - exon level sensitivity; ESp - exon level specificity Perche’ non e’ perfeXo? • Gene Number • usually approximately correct, but may not Organism primarily for human/vertebrate seqs; maybe lower accuracy for non-­‐vertebrates. ‘Glimmer’ & ‘GeneMark’ for prokaryo4c or yeast seqs • Exon and Feature Type Internal exons: predicted more accurately than Ini4al or Terminal exons; Exons: predicted more accurately than Poly-­‐A or Promoter signals • Biases in Test Set (Resul4ng sta4s4cs may not be representa4ve) The Burset/Guigó (1996) dataset: Ø Biased toward short genes with rela4vely simple exon/intron structure TTTT-­‐ AAAA TTTT-­‐ AAAA DNA AAAA RNA Extract all coding RNAs AAAA RNA AAAA AAAA AAAA TTTT-­‐ AAAA TTTT-­‐ AAAA TTTT-­‐ AAAA Verranno isolate sole le molecole di RNA con una coda di poli-A (e quindi geni). Queste molecole possono essere retrotrascritte in DNA (grazie a enzimi virali) e sequenziate. • I frammen4 oXenu4 possono essere mappa4 sul genoma o sul trascriXoma • Di solito questo viene usato per confrontare il trascriXoma in diverse condizioni • Occorre poi analizzare il significato biologico della diversa espressione dei geni (clustering e overrepresenta4on di certe categorie biologiche) • E’ ancora molto difficile sequenziare un intero genoma grande, ma e’ possibile ricostruire i trascri. no4 e individuarne di nuovi. Mul4ple tes4ng Probabilita’ di oXenere 9 volte testa= 10x(1/2)10 +1x(1/2)10=0.0107 Se lanciamo 100 monete e NON siamo interessa4 a quale dara’ 9 volte testa allora: P= (1-­‐0.0107) 100 = 0.34 Dove α e’ la probabilita’ di rigeXare almeno uno dei casi (cioe’ che almeno uno delle osservazioni sia dovuta al caso) Si puo’ meXere la soglia di a 0.05 (Bonferroni correc4on) FALSE Discovery Rate FDR = V/R da confrontare con una soglia, di solito 0.05 – 0.1 Il significato e’ che, se 1000 test sono rifiuta4 e l’FDR e’ seXato a 0.1 , meno di 100 risulta4 sono dei falso posi4vi.