• Unavoltasequenziatoungenoma,occorre iden5ficareigeniecercarediassegnareloro unafunzione. Ilmodellobiologico Struttura di un gene eucariota promotore 5’ Esone Introne Esone AUG gt FaDoridi trascrizione AUG gt ag ag Introne gt gt ag ag 3’ Esone DNA ag TrascriDo primario TER Sitoditaglio SegnaleperilpolyA CAP AUG 5’UTR AAA-AAA mRNA TER 3’UTR proteina Leregionineiriquadricontengonosegnaliinterminidellelorosequenze Ricercadigeni • Ricercadisegnalidisequenza(mo5vi) • Modellista5s5cidelgene(peresempioHMM) • Similarità’congenino5nellostessooinaltri organismi Ricercadigeni • Ricercadisegnalidisequenza(mo5vi) • Modellista5s5cidelgene(peresempioHMM) • Similarità’congenino5nellostessooinaltri organismi Matriciposizionespecifiche Supponiamodiconoscerelesequenzedivarieistanzediunaregione possiamoallinearleeiden5ficarelelorocaraDeris5chedisequenza CTTGGTGACGTG! TAGGATGAGTCG! A TACGTAGAGTCG! TAGGATTTATCG! T TAGCGCGAGTCG! Conteggi C TAATCGCTACAG! G ...! 1 2 3 4 5 6 7 8 9 10 11 12 0 6 0 0 2 1 0 4 2 0 1 0 6 1 1 1 1 3 1 2 0 4 1 0 1 0 1 1 1 1 1 0 1 1 4 0 0 0 3 4 2 1 4 0 3 2 0 7 Frequenze 1 2 3 4 5 A 0 .86 0 0 .29 .14 0 T .85 .14 .14 .14 .14 .43 .14 .29 0 C .14 0 .14 .14 .14 .14 .14 0 .14 .14 .57 0 G 0 .43 .57 .29 .14 .57 0 .43 .29 0 0 6 7 8 9 10 11 12 .57 .29 0 .14 0 .57 .14 0 1 Matriciposizionespecifiche 1 2 3 4 5 A 0 .86 0 0 .29 .14 0 T .85 .14 .14 .14 .14 .43 .14 .29 0 C .14 0 .14 .14 .14 .14 .14 0 .14 .14 .57 0 G 0 .43 .57 .29 .14 .57 0 .43 .29 0 0 6 7 8 9 10 11 12 .57 .29 0 .14 0 .57 .14 0 1 Seilnumerodicasièsufficientementealto.lefrequenzepossonoapprossimarele probabilità.peròdobbiamotenercontoinqualchemododelcampionamentoincompleto Nonpossiamoassumerechenontroveremomaiunasequenza cheappar5eneallaclasseches5amoanalizzandoconunaCin dodicesimaposizione Siu5lizzailmetododeglipseudocount.Unopseduocountèunvalore(non necessariamenteintero)chesiaggiungealnumerodicasiosserva5per modificarelaprobabilitàaDesainunmodello.Peresempiopossiamo aggiungere1oppure1/NdoveNèilnumerodicasi. Matriciposizionespecifiche 1 2 3 4 5 6 7 8 9 10 11 12 A 0 6 0 0 2 1 0 4 2 0 1 0 T 6 1 1 1 1 3 1 2 0 4 1 0 C 1 0 1 1 1 1 1 0 1 1 4 0 G 0 0 3 4 2 1 4 0 3 2 0 7 1 2 3 4 5 6 7 8 9 10 11 12 A 1 7 1 1 3 2 1 5 3 1 2 1 T 7 2 2 2 2 4 2 3 1 5 2 1 C 2 1 2 2 3 2 2 1 2 2 5 1 G 1 1 4 5 3 4 3 1 8 1 2 3 4 5 6 7 8 9 10 11 Conteggiconpseudocounts Frequenze 2 5 1 12 A .09 .64 .09 .09 .27 .18 .09 .45 .27 .09 .18 .18 T .64 .18 .18 .18 .18 .36 .18 .27 .09 .45 .18 .18 C .18 .09 .18 .18 .18 .18 .18 .09 .18 .18 .45 .18 G .09 .09 .36 .45 .27 .18 .45 .09 .36 .27 0.9 .73 Frequenze≅Probabilità Perrendereivaloriaddi5viusiamoi logaritmi 1 2 3 4 5 6 7 8 9 10 11 12 A .09 .64 .09 .09 .27 .18 .09 .45 .27 .09 .18 .18 T .64 .18 .18 .18 .18 .36 .18 .27 .09 .45 .18 .18 C .18 .09 .18 .18 .18 .18 .18 .09 .18 .18 .45 .18 G .09 .09 .36 .45 .27 .18 .45 .09 .36 .27 0.9 .73 1 2 3 4 5 6 7 8 9 10 11 12 A -2.5 -0.7 -3.5 -3.5 -1.9 -2.5 -3.5 -1.1 -1.9 -3.5 -2.5 -2.5 T -0.7 -2.5 -2.5 -2.5 -2.5 -1.5 -2.5 -1.9 -3.5 -1.1 -2.5 -2.5 C -2.5 -3.5 -2.5 -2.5 -2.5 -2.5 -2.5 -3.5 -2.5 -2.5 -1.1 -2.5 G -2.5 -2.5 -1.5 -1.1 -1.9 -2.5 -1.1 -3.5 -1.5 -1.9 -3.5 -0.5 Finestrascorrevolelungak 1 N k p[j=(k+1/2)] p(j+1) p(j+2) p(j+3) p(j+4) p posizione Sogliaderivatadaunadistribuzionecasuale.peresempio costruendovariesequenzecasualiconlastessacomposizionedi quellareale. Sequencelogo 1 2 3 4 5 6 7 8 9 10 11 12 A 0.15 0.95 0.18 0.15 0.54 0.38 0.15 0.84 0.49 0.15 0.58 0.09 T 1.06 0.27 0.36 0.30 0.36 0.77 0.30 0.51 0.16 0.77 0.58 0.09 C 0.30 0.14 0.36 0.30 0.54 0.38 0.30 0.17 0.33 0.31 1.46 0.09 G 0.15 0.14 0.72 0.75 0.54 0.38 0.75 0.17 0.66 0.46 0.29 0.73 Comeiden5fichiamolesoDosequenze(omo5vi)? CTTGGTGACGTG! TAGGATGAGTCG! TACGTAGAGTCG! TAGGATTTATCG! TAGCGCGAGTCG! TAATCGCTACAG! ...! • Sperimentalmente(peresempio ChipSeq) • Confrontandoregionispecifichedi genichesicomportanoallostesso modo – Gibbssampling – MEME – ... Sequenzedigenicontrollatedallo stessopromotore CATCTACATGGACGGTAGACGACGTTGATGGACGTACAGTT...! GTAGACAACGTTGGCTGCAGATGATGACGTAAATGCACACA...! CTACACCGTGACACCAGGTACACGCTGAGGCGCAGGACATT...! HannosoDosequenzecomunichequindisonoputa5vamenteilsitodilegame? Sequenzedigenicontrollatedallo stessopromotore CATCTACATGGACGGTAGACGACGTTGATGGACGTACAGTT...! GTAGACAACGTTGGCTGCAGATGATGACGTAAATGCACACA...! CTACACCGTGACACCAGGTACACGCTGAGGCGCAGGACATT...! HannosoDosequenzecomunichequindisonoputa5vamenteilsitodilegame? Seconoscessimol’allineamento: CATCTACATGGACGGTAGACGACGTTGATGGACGTACAGTT...! GTAGACAACGTTGGCTGCAGATGATGC...! CTACACCGTGACACCAGGTACACGCTGAGGCGCAGGACATT...! 1 2 3 4 5 6 A 0.15 0.95 0.18 0.15 0.54 0.38 T 1.06 0.27 0.36 0.30 0.36 0.77 C 0.30 0.14 0.36 0.30 0.54 0.38 G 0.15 0.14 0.72 0.75 0.54 0.38 Seconoscessimoilmo5vo: 1 2 3 4 5 6 A 0.15 0.95 0.18 0.15 0.54 0.38 T 1.06 0.27 0.36 0.30 0.36 0.77 C 0.30 0.14 0.36 0.30 0.54 0.38 G 0.15 0.14 0.72 0.75 0.54 0.38 p posizione ...ACGGTAGACGACGTTGATGGACGT...! Unpossibilemetodo:MEME CATCTACATGGACGGTAGACGACGTTGATGGACGTACAGTT...! GTAGACAACGTTGGCTGCAGATGATGACGTAAATGCACACA...! CTACACCGTGACACCAGGTACACGCTGAGGCGCAGGACATT...! Datepsequenzes1...sp,trovalesoDo-sequenzepiùsimili,unaper ognisequenza.Inaltreparole: argmin dist(si , s j ) s1,...,s p i< j Dovedist(si,sj)èladistanzadiHamming(numerodiposizioniincuii simbolisonodiversitraleduesequenze) ∑ Ricercadigeni • Ricercadisegnalidisequenza(mo5vi) • Modellista5s5cidelgeneodelleregioniche contengonoigeni(peresempioHMM) • Similarità’congenino5nellostessooinaltri organismi Esempio:isoleCpG • Notazione: – C-G–e’lacoppiadibasiC-GsulledueelichecomplementaridelDNA – CpG–e’ildinucleo5deCG • Processodime5lazionenelgenomaumano – CmutaspessoinT,maquestosuccederaramentequandolaCe’partedi CpG – Quindinelleregioniintornoaipromotoridimol5geniIdinucleo5diCpG sonomoltopiu’frequen5 – QuesteregionisonochiamateisoleCpG(disolitolunghedaqualche cen5naioaqualchemigliaiadibasi) • Problemi: – Dataunasequenza,provienedaun’isolaCpG? – ComeindividuoleisoleCpGinunasequenza? ModellodiMarkovperdiscriminare CpG A aAT T aAC aGT C aGC G Lefrecceindicanolaprobabilita’a cheunabaseprecedaosegua l’altraoDenutedallefrequenze osservateinuntrainingset. • TrainingSet: – SequenzediDNAchesisasonoisoleCpGe sequenzechenonlosono • Daida5siderivanoduemodellidiMarkov: – ‘+’model:perleisoleCpG – ‘-’model:pertuDoilresto ModellodiMarkovperdiscriminare isoleCpG + c st • Con5amoilnumerodivolteincuiilsimbolotsegueil simbolosnelleisoleCpG + cst • Con5amoilnumerodivolteincuiilsimbolotsegueil simbolosnelrestodellesequenze cst− • Lefrequenzesonoquindi: + cst+ − a = ast = ∑ t' + cst' st ∑c − t' st' PossiamoassegnareunpunteggioSadunasequenzax: S(x) = log P(x|model + ) = P(x|model − ) ∑ a +x i −1 x i L log − i =1 a x i −1 x i A C G T A .180 .274 .426 .120 C .171 .368 .274 .188 G .161 .339 .375 .125 T .079 .355 .384 .182 Dataunasequenza,vienedaun’isola CpG? P(x|model + ) S(x) = log = P(x|model − ) ∑ + a x i −1 x i L log − i =1 a x i −1 x i ValoridiS(x)posi5viindicanocheèpiùprobabileche provengadaun’isolaCpGchedalrestodelle sequenzeeviceversa ComeindividuoleisoleCpG? posizione Frequenzainregioninote Score Possousaredellefinestrescorrevoli.Peresempio,sceltauna finestralunga101basi,calcoloilpunteggioeloassegnoalla basecentrale 10 5 0 Non-CpG CpG islands -0.4-0.3-0.2-0.100.10.20.30.4 Score Possou5lizzaregliHMM(Hidden MarkovModel) SitraDainpra5cadicostruireunmodello singolochetengacontodelleproprietàdi entrambeleregioni(isoleeno) Possou5lizzaregliHMM(Hidden MarkovModel) • Posso osservare solo i simboli emessi dal sistema ma non so quale percorso è stato seguito (per esempio se la base proviene da un’isola CpG o no) • Le emissioni e le transizioni dipendono solo dallo stato presente non su quello che e’ successo prima. DuemodellidiMarkov aAT A T A aGT aAC C ast+ G aGC = cst+ ∑ t' + cst' aAT T aGT aAC C G aGC − st a = − st c ∑c − t' st' DuemodellidiMarkov aAT A+ T + A- aGT aAC C + ast+ G+ aGC = cst+ ∑ t' + cst' aAT T - aGT aAC C - G- aGC − st a = − st c ∑c − t' st' ModellonascostodiMarkov A+ T + C + G+ A- T - C - G- Ulteriore(cioèle connessioniall’interno deiduesetnonsono mostratemacisono) setdiprobabilita’di transizioneda+a-. OgnistatoemeDeunsimbolo(chedipendedalleprobabilità cheabbiamoassegnatoallevarietransizioni). Dataunasequenza(peresempioCGCG)vorreisaperequalèla probabilitàchesiastataemessadalmodelloedaqualestato provieneciascunsimboloconmaggioreprobabilità. PeresempiopotrebbeessereC+G+C-G-oppureC+G+C+G- GenScanStates • • • N-intergenicregion P-promoter F-5’untranslatedregion • Esngl–singleexon(intronless)(transla5on start->stopcodon) • Einit–ini5alexon(transla5onstart->donor splicesite) • Ek–phasekinternalexon(acceptorsplice site->donorsplicesite) • Eterm–terminalexon(acceptorsplicesite-> stopcodon) • Ik–phasekintron:0–betweencodons;1– aqerthefirstbaseofacodon;2–aqerthe secondbaseofacodon Misurediaccuratezza Matricediconfusione Sensibilita’ TP/(TP+FN) Specificità TN/(FP+TN) Caso posi8vo Caso nega8vo Predizione posi5va TP FP Posi5vepredic5ve value(precisione) TP/(TP+FP) Predizione nega5va FN TN Nega5vepredic5ve value TN/(FN+TN) Falsediscoveryrate FP/(TP+FP) Accuratezza (TP+TN)/(TP+FN) MCC = TP × TN − FP × FN (TP + FP)(TP + FN )(TN + FP)(TN + FN ) Esempio Specificità Considerandoinucleo5di Considerandogliesoni Coefficientedicorrelazione Sensibilità Metodidiversi Numerodisequenzeanalizzate perlapredizione (inparentesinumerodi digeni sequenzepercuièstata predeDal’assenzadigeni CurvaROC