Genomics Session Lezione 6 microRNA Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA MicroRNAs (miRNAs): piccoli RNA non codificanti coinvolti nella regulazione di molti (forse tutti) i processi cellulari; ● Sono note molti stati patologici correlati con alterazioni delle funzioni di miRNA specifici; ● ● Grande potenziale in applicazioni biotecnologiche; Difficili da caratterizzare sperimentalmente: non ci sono ancora tecniche high-throughput; ● Approcci computazionali possono coadiuvare ed integrare gli approcci sperimentali; ● ● Lezione 6 Gli algoritmi attualmente disponibili non sono molto accurati. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA RNA che regolano la traduzione Lezione 6 L'espressione genica a livello post-trascrizionale è regolata da molti fattori, ed è spesso mediata da RNA regolatori; Gli RNA regolatori si legano al RNA messaggero, impedendone la traduzione (in vari modi); Gli RNA regulatori interagiscono con i loro mRNA target via complementarità di basi; Gli RNA regulatori sono solitamente di piccole dimensioni, e caratterizzati da una struttura secondaria e terziaria molto specifica. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA Che cos'è un miRNA? microRNAs (miRNAs): piccole (lunghezza di 21-23 nt) molecole endogene di RNA a singolo filamento; regolano l'espressione genica a livello post-trascrizionale legandosi a specifiche sequenze nelle regioni al 3'UTR del mRNA, e promuovendone la degradazione oppure sequestrandolo in specifici compartimenti subcellulari; sono trascritti da specifici geni, ma non tradotti in proteina; si trovano nel genoma di piante e animali (e anche in virus); Lezione 6 2/3 di tutti i geni umani codificanti si pensa siano regolati da miRNA; ogni miRNA regola in media 300 targets. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA Funzioni dei miRNA I miRNAs giocano un ruolo centrale nel controllare I seguenti processi: ➔ Sviluppo ➔ Differenziamento ➔ Apoptosi Varie malattie sono causate da alterazioni dell'espressione di miRNA (perdita completa, sotto- o sovra-espressione), o in alterazioni della loro specificità: ➔ Cancro ➔ Malattie neuro-degenerative ➔ Patologie cardiache Altro??? Lezione 2 6 Genomica GenomicaComputazionale, Computazionale,Laurea LaureaMagistrale MagistraleA.A. A.A.2010/2011 2010/2011 miRNA 1. Trascrizione → miRNA pimario (primiRNA) 2. Processamento → miRNA precursore (premiRNA) 3. Esporto: Exportin-5 4. Taglio (Dicer) → miRNA duplex 5. Separazione dell'elica 6. Caricamento nel RISC → miRNA maturo 7. Selezione del target 8. taglio del mRNA/ repressione della traduzione 9. degradazione del mRNA He & Hannon, Nat Rev. Genet. 2004 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA Il destino del mRNA bersaglio Filipowicz et al., Nat Rev. Genet. 2008 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA Classi di siti target di miRNA Brennecke et al., PLOS Biology 2005 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA Geni per microRNA Mendell, Cell Cycle 2005 Griffiths-Jones et al., Nucleic Acids Res. 2008 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA miRBase è la banca dati “ufficiale” per i miRNA http://microrna.sanger.ac.uk/ Lezione 6 Immagazzina sequenze di miRNA maturi e loro precursori, e strutture dei loro stem-loop. Inoltre fornisce informazione sui loro target (principalmente ottenute mediante predittori) e referenze bibliografiche; > 5000 sequenze di miRNA in 58 specie; > 500000 predizioni di target di miRNA in 24 specie. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA Il database è organizzato in specie: http://microrna.sanger.ac.uk Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA ....pre-miRNA stem-loop… Per ogni miRNA l'utente può ottenere: ....miRNA maturo... ....e predizione dei target. http://microrna.sanger.ac.uk Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA TarBase:database di target identificati sperimentalmente http://microrna.gr/tarbase Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA TarBase:database di target identificati sperimentalmente Identificazione dei target Evidenza diretta: reporter gene assay, mutagenesi sito-specifica ➔ Evidenza indiretta: Microarrays, dati di proteomica (SILAC) ➔ http://microrna.gr/tarbase Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 miRNA Metodi computazionali applicati allo studio dei miRNA: Lezione 6 Predizione di miRNA mature e precursori nel genoma: ➔ Prestazioni relativamente buone, supportate da una quantità sufficiente di dati sperimentali Predizione di geni bersaglio di miRNA: ➔ Prestazioni scarse, pochi esempi verificati sperimentalmente Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di geni per miRNA Possono essere identificati grazie alle caratteristice strutturali dei premiRNA, cioè la capacità di formare delle forcine Si possono identificare circa 11 milioni di tratti di sequenza che possono ripiegarsi in forcine nel genoma umano: ● Bisona ridurre i falsi positivi (conservazione, segnali associati alla maturazione, espressione della forma matura, etc.) Lindow & Gorodkin, DNA Cell. Biol. 2007 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di geni per miRNA Lindow & Gorodkin, DNA Cell. Biol. 2007 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA La caratterizzazione funzionale di un miRNA dipende fortemente da quali geni target esso controlla. Nelle piante I miRNA sono quasi perfettamente complementari ai loro mRNA targets ➔ La predizione bioinformatica è semplice (ad es. con semplici ricerche con BLAST) Negli animali Le coppie miRNA-target non sono perfettamente complementari ➔ La predizione si basa sulla complementarità parziale fra miRNA e target e sulla conservazione evolutiva del sito target in gruppi di organismi sufficientemente vicini (ad es. nei vertebrati). Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA Come trovare i target dei microRNA? I siti di legame dei microRNA si trovano nelle 3’ UTRs dei mRNA target, e sono complementari a: ➔ Nelle piante, tutta la lunghezza delmiRNA maturo è coinvolta; ➔ Negli animali, la complementarità è di solito limitata ad un breve tratto al 5' del miRNA maturo (il seed) ➔ ➔ Il seed è molto corto (~7-8 nt) Se si prendono in considerazione anche coppie G-U, mismatch, gaps (bulges), algoritmi di allineamento di sequenze standard troverebbero un enorme numero di falsi match. Come rimuovere questi falsi positivi? Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA Bartel, Cell 2009 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA Algoritmi per predizione di target di miRNA Regole comuni: ➔ ➔ ➔ ➔ Lezione 6 Complementarità: ad es. l'estremità 5’del complementari al target dell'estremità al 3’; miRNAs ha più basi Calcolo dell'energia libera: l'interazione miRNA:mRNA è forte; Considerazioni evoluzionistiche: i siti di legame nei target sono conservati nei genomi di specie vicine; Legame cooperativo: molti miRNAs possono regolare lo stesso gene, e lo stesso miRNA può legarsi a più siti nella stessa 3'UTR. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA “miRanda” - Enright et al., Genome Biology 2003 Usa un sistema di punteggi che pesa maggiormente complementarità al 5' del miRNA; Considera conservazione evoluzionaria; Utilizza un modello energetico semplice per l'ibrido miRNA-target; Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA “TargetScan” - Lewis et al., Cell 2003 Dato un miRNA conservato in allineamenti multipli di genomi di specie diverse e un set di sequenze di 3'UTR ortologhe: 1. Cerca regioni di complementarità perfetta fra il segmento seed del miRNA (7 nt) e l'UTR; 2. Verifica che i siti di legame nelle UTR siano conservati; 3. Estende il match e ne calcola l'energia; 4. Valuta la significatività del match confrontandolo con la distribuzione di match in sequenze random che "mimano" veri miRNA. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA “Profile based target search” - Stark et al., PLOS Biol. 2003 1.Costruisce un profilo per ogni famiglia di microRNA family (usando HMMer) per i primi 8 residui, considerando appaiamenti G:U; 2.Cerca in regioni conservate di 3’ UTRs (in genomi di Drosophila) con questi profili; 3.Estende I match trovati a tutta la lunghezza del miRNA + 5nt; 4.Calcola l'energia con Mfold e ne valuta lo z-score. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA “PicTar” - Krek et al., Nat. Genet. 2005 Dato un miRNA conservato in allineamenti multipli di genomi di specie diverse e un set di sequenze di 3'UTR ortologhe: 1. Usa il seed di 7 nt per trovare tutti I match perfetti e imperfetti nelle UTR ; 2. Predice l'energia dell'ibrido; libera ottimale 3. Calcola la probabilità che la sequenza del target sia un sito di legame; 4. Valuta favorevolmente la presenza di più siti di legame sulla stessa UTR. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA “Pita” - Kertesz et al., Nat. Genet. 2007 Dato un miRNA conservato in allineamenti multipli di genomi di specie diverse e un set di sequenze di 3'UTR ortologhe: 1. Usa un seed di 6-8 nt cercando complementarità perfetta nelle UTR; 2. Calcola la differenza fra il guadagno energetico fornito dal legame miRNA:mRNA e l'energia persa nel rendere il sito accessibile; 3. Integra i punteggi di siti di legame multipli, se ci sono. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA Quale metodo è il migliore? Dataset did benchmark: 84 interazioni di mammifero in TarBase Sethupathy et al., Nat. Methods 2006 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA Quale metodo è il migliore? Sethupathy et al., Nat. Methods 2006 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Predizione di target di miRNA Quale metodo è il migliore? PicTar e TargetScan forniscono il miglior compromesso fra sensibilità e tasso di falsi positivi; Circa un terzo delle interazioni nel benchmark non sono conservate; La maggior parte dei metodi over-predice: enrome numero di falsi positivi; I vari metodi sono raramente in accordo; C'è bisogno di più dati: il numero di interazioni note miRNA-target è ancora troppo piccolo; Bisogna capire meglio come avviene l'interazione: ➔ Qual'è il ruolo del complesso RISC nel riconoscimento? ➔ Come avviene la cooperatività fra diversi siti di legame di miRNA? ➔ C'è interazione con altri siti regolativi nelle 3'UTR? ➔ Come usare dati di espressione trascrittomica e/o proteomica? Sethupathy et al., Nat. Methods 2006 Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Genomics Session Lezione 6 Identificazione di elementi regolatori Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Segnali nel genoma Segnale: Una sottosequenza (sottostringa), con un pattern particolare, nel DNA o RNA, che riveste un ruolo biologico. Generalmente, è riconosciuto da una proteina o da un'altra molecola e si ritrova in varie locazioni nel genoma. Esempi: - Sequenze riconosciute da endonucleasi di restrizione (es. GAATTC per EcoRI); - Sequenze nei promotori; - Sequenze segnale dei geni; - Elementi dell'origine di replicazione e terminatori. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Segnali nel genoma Il segnale può essere rappresentato da particolari sequenze di nucleotidi, ma queste sono solo approssimazioni di ciò che è effettivamente riconosciuto dall'interattore. Ad esempio, una proteina riconoscerà particolari gruppi chimici del DNA in una particolare conformazione nello spazio. Il riconoscimento è sempre dettato da leggi fisiche. Alcune di queste interazioni sono transienti, altre possono essere più durature. L'interazione non è quasi mai covalente. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Interazione DNA-proteine Come le proteine riconoscono il DNA: Le proteine riconoscono DNA o RNA per mezzo di legami idrogeno ed interazioni elettrostatiche principalmente con la catena proncipale dll'acido nucleico. Il riconoscimento specifico dei siti di interazione avviene mediante legami con i bordi degli anelli della base che sporgono nel solco maggiore o minore della doppia elica. Ci possono essere anche interazioni idrofobiche mediate da catene laterali che si intercalano fra due coppie di basi. [Sun et al., 2004] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Interazione DNA-proteine Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Interazione DNA-proteine Come le proteine riconoscono il DNA: I siti di interazione possono avere strutture semplici o complesse. Ci può essere simmetria interna (ad es., ripetizioni invertite di motivi, sequenze palindromiche). Questo è dovuto al fatto che le proteine leganti DNA sono spesso oligomeri (dimeri, o tetrameri). Se l'oligomero è ad esempio un dimero con struttura “testa-a-testa“, la posizione relativa die due siti di legame del dimero si rifletterà sulla sequenza riconsciuta nel genoma. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Interazione DNA-proteine Gal4: attivatore di geni relativi al metabolismo del galattosio L'unità biologica funzionale è un omodimero 5'-NNNTCGGNNNACTNTNNNCCGANNN-3' 3'-NNNAGCCNNNTGANANNNGGCTNNN-5' Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Segnali nel genoma - Segnali nel DNA possono essere identificati con tecniche sperimentali; - Analisi genetica classica - Sfruttando le modificazioni delle proprietà del DNA duplex quando legato all'interattore; - gel-shift assay - Sfruttando la “protezione“ che l'interattore offre al sito - chromatin immunoprecipitation - Chip-Seq Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Chromatin immunoprecipitation (ChIP) Immunoprecipitazione (IP): tecnica per isolare un antigene (es. una proteina) mediante il legame di un anticorpo che ci si leghi specificamente. Chromatin immunoprecipitation (ChIP): tecnica per identificare dove una data proteina si lega su una sequenza genomica in vivo. Procedura: 1. Si induce la formazione di legami covalenti fra proteine e DNA (usando formaldeide o DTBP); 2. Si lisano le cellule e si frammenta il DNA; 3. Con un anticorpo specifico per la proteina di interesse, si isolano i frammenti di DNA legati alla proteina stessa. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Chromatin immunoprecipitation (ChIP) 4. Il legame fra DNA e agente di cross-linking è rotto (ad es. usando alte temperature) e il DNA purificato; 5. La sequenza di frammenti di DNA è determinata; 6. I frammenti sono mappati sul genoma; 7. Si può una stima quantitativa di quante sequenze sono trovate per ogni sito. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Interazione DNA-proteine ● Proteine leganti il DNA controllano le funzioni del genoma; ● Gli istoni determinano la struttura della cromatina; ● Attivatori e repressori determinano l'espressione genica; ● ● ● Lezione 6 Sapere dove queste proteine si legano aiuta a comprendere come funziona il genoma; Si possono selezionare (e identificare) segmenti di DNA che interagiscono specificamente con proteine quali: ● Fattori di trascrizione ● Istoni ● RNA Polimerasi (per investigare la trascrizione del DNA) ● DNA Polimerasi (per investigare la replicazione del DNA) ● Enzimi di riparo del DNA Si possono anche studiare modificazioni del DNA (ad esempio la metilazione delle C). Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione Lo studio ed identificazione di segnali nel DNA è spesso applicato per l'analisi dell'espressione genica. ● Cosa attiva o disattiva un gene? ● Quando un gene è attivato o disattivato? ● Dove (in quali cellule, tessuti, organi) un gene è attivo? ● Lezione 6 Quanto è attivo un gene (quante copie del suo prodotto sono sintetizzate)? Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione Restrizione spaziale e temporale dell’espressione genica: Geni housekeeping Geni con espressione ristretta nello spazio • Espressione in piu’ organi/tessuti diversi Stesso ruolo in piu’ tessuti Il gene codifica per diverse isoforme (promotori alternativi e/o splicing alternativo tessuto specifico) • Espressione specifica per tessuto, linea o tipo cellulare • Espressione solo in singole cellule • Distribuzione intracellulare o extracellulare • Geni con espressione ristretta nel tempo Stadio di sviluppo Stadio di differenziamento Momento del ciclo cellulare Espressione inducibile da parte di fattori ambientali o extracellulari [source: Stefania Bortoluzzi 2003] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Controllo dell'espressione genica L'espressione di un gene è regolata a vari livelli, con meccanismi diversi; La maggior parte di questi controlli è mediata da motivi di sequenza, sul DNA, RNA o sulla proteina. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione ● ● ● ● Lezione 6 La trascrizione di ogni gene è controllata da una regione regolatoria intorno al sito di inizio della trascrizione (transcription start site, TSS); Regioni che esercitano influenza sulla trascrizione possono però essere anche molto lontane dal TSS; La regolazione è dovuta a due tipi di componenti: ● Sequenze (corte) di DNA regolatorio; ● Proteine che vi si legano specificamente; La combinazione di diversi componenti determina l'effetto complessivo di regolazione; Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione [Wasserman, Nature Rev. 2004] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione ELEMENTI DEL PROMOTORE DELLA POL II ● ● ● ELEMENTI COMUNI DEL PROMOTORE (CORE) ● TATA box ● Iniziatore ● Downstream promoter element SITI DI LEGAME DI FATTORI DI TRASCRIZIONE ● CAAT box ● GC box ● Sp-1 sites ● GAGA boxes SITI ENHANCER [source: Stefania Bortoluzzi 2003] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione PROMOTORE CORE → PROM. PROSSIMALE → PROMOTORE DISTALE → regione sufficiente a deteminare il TSS esatto 200-300 bp upstream al TSS, responsabile, almeno in parte, della modulazione dell’espressione 100 bp – 2 Mb [source: Stefania Bortoluzzi 2003] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione [source: Stefania Bortoluzzi 2003] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Regolazione della trascrizione Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Motivi di sequenza ● Segnali regolatori della trascrizione: ● Riconosciuti da proteine (fattori di trascrizione, TF); ● Sequenze corte (5-25 bp); ● A corta o lunga distanza dal TSS, fino a 1000 bp (o più); ● Lezione 6 Sequenza, distanza dal TSS, e orientamento di un motivo riconosciuto dall stesso TF sono variabili. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Banche dati di TF e motivi di sequenza TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Banche dati di TF e motivi di sequenza TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Banche dati di TF e motivi di sequenza TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Banche dati di TF e motivi di sequenza TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac TRANSFAC matrix entry: TATA box Campi: Accession ID Descrizione TF associati a questa entry Matrice pesata Numero di siti usati Altre info Referenze Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Banche dati di TF e motivi di sequenza Banche dati specie-specifiche: SCPD (yeast) http://rulai.cshl.edu/SCPD/ DPInteract (e. coli) http://arep.med.harvard.edu/dpinteract/ Drosophila DNase I Footprint Database (v2.0) http://www.flyreg.org/ Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Motivi di sequenza Come si rappresenta un motivo ● ● ● ● ● Lezione 6 Sequenza consenso: stringa con la sequenza più frequente posizione per posizione (+/- wildcards); Espressione regolare; Profilo; Modello statistico; Logo. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Matrici pesate [Wasserman, Nature Rev. 2004] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Matrici pesate [Wasserman, Nature Rev. 2004] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Matrici pesate Scanning a sequence against a PWM Sp1 ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC A C G T [-0.2284 0.4368 [-0.2284 -0.2284 [ 1.2348 1.2348 [ 0.4368 -0.2284 -1.5 -1.5 2.1222 -1.5 -1.5 -1.5 -1.5 1.5128 2.1222 0.4368 -1.5 -0.2284 0.4368 -1.5 -1.5 -0.2284 1.2348 1.5128 0.4368 0.4368 -1.5 -0.2284 -1.5 -0.2284 1.7457 1.7457 0.4368 -1.5 0.4368 -1.5 -1.5 1.7457 ] ] ] ] Abs_score = 13.4 (sum of column scores) Relative score A C G T [-0.2284 0.4368 [-0.2284 -0.2284 [ 1.2348 1.2348 [ 0.4368 -0.2284 -1.5 -1.5 2.1222 -1.5 -1.5 -1.5 -1.5 1.5128 2.1222 0.4368 -1.5 -0.2284 0.4368 -1.5 -1.5 -0.2284 1.2348 1.5128 0.4368 0.4368 -1.5 -0.2284 -1.5 -0.2284 1.7457 1.7457 0.4368 -1.5 0.4368 -1.5 -1.5 1.7457 ] ] ] ] 0.4368 -1.5 -1.5 1.7457 ] ] ] ] Max_score = 15.2 (sum of highest column scores) A C G T [-0.2284 -0.2284 0.4368 [-0.2284 -0.2284 [ 1.2348 1.2348 [ 0.4368 -0.2284 -1.5 -1.5 2.1222 -1.5 -1.5 -1.5 -1.5 1.5128 2.1222 0.4368 -1.5 -0.2284 0.4368 -1.5 -1.5 -0.2284 1.2348 1.5128 0.4368 0.4368 -1.5 -0.2284 -1.5 -0.2284 1.7457 1.7457 0.4368 -1.5 Min_score = -11.0 (sum of lowest column scores) Abs_score - Min_score ⋅ 100 % Max_score - Min_score 13.4 - (-11.0) = ⋅ 100% = 93% 15.2 − (− 11.0) Rel_score = Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Logo della sequenza ● ● ● ● ● L'altezza relativa di ogni lettera riflette la sua abbondanza nell'allineamento multiplo; l'altezza della pila di lettere è una basata su una misura della conservazione basata sull'entropia; Entropia(i) = -SUM { p(base, i)* ln[p(base, i)] } Conservazione(i) = 2- Entropia(i) Si esprime in bits di informazione Posizione molto conservata -> bassa entropia -> pila alta Posizione poco conservata -> alta entropia -> pila bassa [Wasserman, Nature Rev. 2004] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Identificazione di motivi di sequenza Scanning a sequence against a PWM Sp1 ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC A C G T [-0.2284 0.4368 [-0.2284 -0.2284 [ 1.2348 1.2348 [ 0.4368 -0.2284 -1.5 -1.5 2.1222 -1.5 -1.5 -1.5 -1.5 1.5128 2.1222 0.4368 -1.5 -0.2284 0.4368 -1.5 -1.5 -0.2284 1.2348 1.5128 0.4368 0.4368 -1.5 -0.2284 -1.5 -0.2284 1.7457 1.7457 0.4368 -1.5 0.4368 -1.5 -1.5 1.7457 ] ] ] ] Abs_score = 13.4 (sum of column scores) Problema: enorme numero di predizioni positive Quante sono false predizioni? Livello basale di trascrizione e binding dei TF Come ridurre il numero di false predizioni? Analizzare il contesto in cui il sito si viene a trovare (isole CpG) Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Identificazione di motivi di sequenza Se la specificità di un TF è nota, si tratta di analizzare sequenze genomiche con il modello di specificità. Se la specificità del TF non è nota, o se si vogliono identificare nuovi motivi di interazione, il problema diventa più difficile Alcuni fattori possono facilitare la loro identificazione: - over-rappresentati in prossimità di TSS; - conservazione evolutiva; - caratteristiche strutturali. Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Identificazione di motivi di sequenza Motivi over-rappresentati in prossimità di TSS daf-19 Binding Sites in C. elegans -150 GTTGTCATGGTGAC GTTTCCATGGAAAC GCTACCATGGCAAC GTTACCATAGTAAC GTTTCCATGGTAAC -1 che-2 daf-19 osm-1 osm-6 F02D8.3 [source: Peter Swoboda] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Analisi del promotore di geni co-regolati ● ● ● Geni espressi in maniera simile e coordinata possono essere identificati sperimentalmente (microarrays, RT-PCR, etc.); Supponiamo di avere a disposizione la regione del promotore di n geni G1, G2, … Gn; Problema: trovare siti di legame di TF senza necessariamente conoscerne la specificità. Due approcci: ● Ricerca esaustiva di parole; ● Lezione 6 Modelli probabilistici; Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Consensus, Wconsensus (Hertz & Stormo, 1999) Si cerca il motivo che conduce alla matrice pesata con più altro contenuto di informazione 1. Si parte da un dataset di promotori G1, G2, … Gn 2. Si seleziona un k-mero da un promotore Gi 3. Si costruisce una matrice dal kmero 4. Per ogni altra sequenza Gj, si usa ogni k-mero per aggiornare la matrice 5. Si sceglie la matrice a maggiore contenuto di informazione 6. Si riparte dal punto 4 fino ad esaurimento delle sequenze Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 MEME (Bailey & Elkan, 1995) Algoritmo di EM: Expectation-Maximization Un algoritmo EM è un metodo per trovare la stima della massima verosimiglianza dei parametri di un modello statistico. EM funziona iterativamente, alternando una fase E (Expectation), in cui la verosmiglianza è calcolata stanti i parametri correnti, e una fase M (Maximization) dove nuovi parametri sono calcolati cercando di massimizzare la funzione usata in E. Funziona iterativamente: 1. Generazione di un modello del motivo di sequenza a. Inizia con un motivo (k-mero) da una posizione casuale o specificata b. Costruisce una matrice incorporando frequenze stimate di background 2. Identifica esempi del motivo usando il modello a. Per ogni k-mero nel set di geni, calcola la probabilità dato il modello b. Seleziona i k-meri a più alta probabilità 3. Revisione del modello a. Costruisce una nuova matrice, basata sulle frequenze pesate di tutti i k-meri pescati nel dataset 4. Continua fino a convergenza Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 MEME (Bailey & Elkan, 1995) 1. Si parte da una serie di k-meri e si calcola la matrice pesata [source: Benos 2007] Lezione 4 6 GenomicaComputazionale, Computazionale,Laurea LaureaMagistrale MagistraleA.A. A.A.2010/2011 2009/2010 Genomica MEME (Bailey & Elkan, 1995) 2. Si identificano nuovi k-meri (blu) e si ri-calcola la matrice pesata [source: Benos 2007] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 MEME (Bailey & Elkan, 1995) 3. Usando la nuova matrice pesata, alcuni dei k-meri di partenza (verdi) saranno non più sufficientemente simili 4. Si continua finchè non si aggiungono/scartano più k-meri e i punteggi rimangono simili [source: Benos 2007] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 MEME (Bailey & Elkan, 1995) 5. Una volta trovato un motivo, si cancella dalle sequenze del dataset e si ricomincia 6. Si finisce una volta che i motivi trovati scendono sotto una soglia di punteggio, e si ripete per tutti i valori di k [source: Benos 2007] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 MEME (Bailey & Elkan, 1995) http://meme.sdsc.edu/meme/website/meme.html Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 MEME (Bailey & Elkan, 1995) Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Gibbs samplers Altra strategia per esplorare ampi spazi conformazionali 1. Dati una serie di promotori G1, G2, … Gn, seleziona un k-mero s1,s2, ... ,sn da ciascuno di essi [source: Benos 2007] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Gibbs samplers 2. Scarta un k-mero si a caso dall'insieme s1,s2, ... ,sn 3. Calcola una matrice pesata dai rimanenti n-1 4. Usa la matrice per analizzare un altro k-mero si' dalla sequenza i da cui era stato pescato si 5. Se lo score di si' è migliore di quello di si, prendi si', altrimenti prendi si' con probabilità score(si')/score(si), e ricomincia [source: Benos 2007] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati su conservazione evolutiva Approccio: usare la conservazione fra specie per migliorare la predizione di segnali Si basa su alcune ipotesi: 1. La funzione e la specificità di legame dei TF è ben conservata in specie diverse sufficientemente vicine; 2. Siti funzionali nel DNA (non codificanti) sono sottoposti a una diversa pressione selettiva rispetto alle sequenze che li circondano; 3. Geni ortologhi di specie diverse hanno espressione simile, e necessariamente sono controllati da un simile set di TF I metodi più usati appartengono alla classe dei metodi per phylogenetic footprinting Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati su conservazione evolutiva Omologhi: sequenze che hanno origine comune, posono avere o no una funzione simile; Ortologhi: omologhi prodotti da speciazione. Sono geni derivati da un ancestore comune la cui divergenza deriva dalla divergenza delle due specie in cui si trovano. Tendono ad avere funzioni simili; Paraloghi: omologhi prodotti da duplicazione genica. Sono geni derivati da un ancestore comune che si è duplicato. Le due copie accumulano mutazioni e non sono soggette alla stessa pressione evolutiva. Tendono ad avere funzioni diverse (poco o anche molto). [Baxevanis and Ouellette, 2001] Lezione 6 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati su alberi filogenetici ● Dati: ● ● ● ● ● Una lunghezza stipulata del motivo k Il punteggio massimo consentito di parsimonia d Problema ● Lezione 6 n sequenze ortologhe S1, S2, S3, …, Sn un albero filogenetico T che mette in relazione queste sequenze Trovare il set di k-meri con score di parsimonia <= d in T Genomica Computazionale, Laurea Magistrale A.A. 2010/2011