Genomics Session Lezione 7 Splicing alternativo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo Processo mediante il quale il trascritto di un gene può essere riarrangiato dando luogo a mRNA diversi; ● Importante meccanismo regolatorio per la modulazione delle funzioni e caratteristiche dei prodotti proteici dei geni eucariotici; ● Studi genomici su larga scala suggeriscono che fra il 70-80% dei geni umani può dar luogo ad almeno due diversi mRNA (isoforme) mediante splicing alternativo; ● Possibile spiegazione del paradosso del ridotto numero di geni negli organismi superiori ● Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti [Zhang, Nature 2002] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Processamento dei pre-mRNA Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Processamento dei pre-mRNA Il processamento di un pre-mRNA è cotrascrizionale Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Scoperta dello splicing alternativo - Inizialmente predetto da Walter Gilbert nel 1978; - Dimostrato per la prima volta peril gene per la catena pesante delle immunoglobuline nel 1980 (Edmund Choi, Michael Kuehl & Randolph Wall, Nature 286, 776 – 779) - Lo splicing produce due isoforme della proteina con diversa regione C-terminale: ● Una forma più corta, che è secreta ● Una più lunga che rimane ancorata alla membrana plasmatica S - signal peptide V - variable region C - constant region Red – untranslated region Green – membrane anchor Yellow – end of coding reg. for secreted form Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo Il pre-mRNA della troponina T può dar luogo a 64 diverse isoforme della proteina nel muscolo Constitutively spliced exons (exons 1-3, 9-15, and 18) Mutually exclusive exons (exons 16 and 17) Alternatively spliced exons (exons 4-8) Gli esoni 4-8 sono spliceati in ogni possibile combinazione dando luogo a 32 combinazioni diverse Gli esoni 16 e 17, che sono mutualmente esclusivi, raddoppiano le possibilità, quindi in totale si possono avere 64 isoforme Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo Gene DSCAM (Down syndrome cell adhesion molecule) di Drosophila > 38000 isoforme di splicing [Graveley et al., 2001] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti 38% 18% 8% 3% 33% [Blencowe, 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo Alternative splicing functions/effects: - Inclusion/exclusion of functional protein domains (e.g. localization) - Change in protein structure - Change in polyadenylation, affecting mRNA stability Alter protein binding properties, eg. receptor/ligand Alter intracellular localization, eg. membrane insertion Alter extracellular localization, eg. secretion Alter enzymatic or signaling activities, Alter protein stability, eg. inclusion of cleavage sites Insertion of post-translation modification domains Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Giunzioni di splicing Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing complete mRNA coding segment ATG exon ATG . . . GT start codon intron TGA exon AG donor site acceptor site ... intron GT exon AG . . . TGA donor site acceptor stop codon site In realtà, il primo esone si estende anche a monte del codone di inizio, e l'ultimo esone si estende a valle del codone di stop - regioni non tradotte (untranslated regions, UTRs). Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modello di un gene Si definiscono 4 tipi di esoni in funzione della posizione relativa: • Esoni iniziali, dal codone di inizio al primo sito donatore; • Esoni interni, da un sito accettore al sito donatore successivo; • Esoni terminali, dall'ultimo sito accettore al codone di stop; • Esoni singoli, dal codone di inizio al codone di stop (in geni senza introni). Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modello di un gene Si definiscono 4 tipi di esoni in funzione dello splicing: • Esoni costitutivi, condivisi da tutte le isoforme; • Esoni specifici, propri di una sola isoforma; • Esoni alternativi, condivisi da un sottoinsieme di tutte le isoforme; • Esoni overlappanti, possono avere regioni costituive, alternative o specifiche. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modello di un gene [Leoni et al., 2009] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modello di un gene Le regioni introniche fiancheggianti esoni alternativi sono più conservate di quelle fiancheggianti esoni costitutivi [Sorek et al., 2004] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Exon/intron size Species Yeast Nematode Fruit fly Chicken Mammals Lezione 7 Average exon No. Average intron No. 1 4 4 9 7 0 3 3 8 6 Average length(kb) 1.6 4.0 11.3 13.9 16.6 Average kb mRNA 1.6 3.0 2.7 2.4 2.2 % exon per gene 100 75 24 17 13 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Struttura dei geni negli eucarioti Typically, in vertebrates, exons are much shorter than introns. According to the exon-definition model, before introns are recognized and spliced out, each exon is initially recognized by the protein factors that form a bridge across it. In this way, each exon, together with its flanking sequences, forms a molecular, as well as a computational, recognition module [Zhang, Nature 2002] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Meccanismo dello splicing Binding of U1 and U2 snRNPs Rearrangement of base-pair interactions between snRNAs, release of U1 and U4 snRNPs Binding of U4, U5 and U6 snRNPs Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Meccanismo dello splicing The catalytic core, formed by U2 and U6 snRNPs catalyzes the first transesterification reaction Lezione 7 Further rearrangements between U2, U6 and U5 lead to second transesterification reaction Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Meccanismo dello splicing Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Meccanismo dello splicing The spliced lariat is linearized by debranching enzyme and further degraded in exosomes Not all intrones are completely degraded. Some end up as functional RNAs, different from mRNA Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Meccanismo dello splicing The Exon Definition Hypothesis Trans-Factor Interaction with Exon differs from Interaction with Introns Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Controllo dello splicing alternativo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo Splicing of regulated exons is modulated: Proteins – SR proteins and hnRNPs cis elements in introns and exons – splicing enhancers and silencers ESE - Exonic Splicing Enhancer ESS - Exonic Splicing Silencer ISE - Intronic Splicing Enhancer ISS - Intronic Splicing Silencer Differences in the activities and/or amounts of general splicing factors and/or gene-specific splicing regulators during development or in differnt tissues can cause alternative splicing Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo [Maniatis & Tasic, 2002] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo [Blencowe, 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing alternativo [Blencowe, 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Rappresentazione dello splicing Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione di casi di splicing alternativo • Dati: sequenze di cDNA, EST, proteine • Confrontare i dati di sequenza con l'assemblaggio genomico • Confrontare i dati di sequenza fra di loro Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Librerie di cDNA [Brent, Nature Reviews Genetics 2008] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione di isoforme mediante microarrays Exon junction arrays Exon arrays [Blencowe, 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione di isoforme mediante microarrays [Ben-Dov et al., 2008] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione dello splicing alternativo Confronto diretto di cDNA Confronto di cDNA mappati sul genoma Confronto di dati di espressione da microarray [Florea, 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione dello splicing alternativo I metodi descritti si basano sulla conoscenza della sequenza completa dei trascritti di un gene La sequenza completa è usata per mappare sul genoma, per confrontare coppie, o per disegnare probes per microarrays Le EST invece forniscono sequenze incomplete Date tutte le osservazioni di sequenze per un dato gene, inclusi full length cDNAs, ESTs e arrays di espressione, lo scopo e' di inferire il set piu' verosimile di isoforme full-length che spiegano I dati osservati. Si tratta di assemblare varie sequenze full length da una mistura di sequenze frammentarie. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Librerie di ESTs EST = Expressed Sequence Tag Partial cDNA sequences created from expressed mRNA (200-400 bp in length) [Brent, Nature Reviews Genetics 2008] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Modello di un gene [Modrek & Lee, 2002] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Librerie di ESTs Le EST derivano da tutti i mRNA del campione, quindi vanno raggruppati insieme secondo il mRNA di provenienza per poterne ricostruire la sequenza Dati di EST contengono molti errori: Spesso mancano le estremità 3’ e 5’ del gene Spesso incompleti Inaccurati Campionamento non uniforme Contaminazioni Il mRNA potrebbe non essere maturo La grande mole di dati di EST le rende comunque molto utili Sono disponibili anche per organismi per i quali la sequenza del genoma non è nota o è incompleta Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Librerie di ESTs Obiettivo: dato un cluster di EST, identificare tutti i trascritti da cui hanno origine GenBank (dbEST), EMBL, DDBJ Cluster di EST Assemblaggio Banca dati primaria Consenso EST Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Librerie di ESTs Obiettivo: dato un cluster di EST, identificare tutti i trascritti da cui hanno origine GenBank (dbEST), EMBL, DDBJ Banca dati primaria Consenso 1 Cluster di EST Consenso 2 Trascritti putativi Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Librerie di ESTs Lo splicing alternativo può causare assemblaggi di EST spesso sbagliati, tronchi o ambigui se fatto con tecniche convenzionali sbagliato troncato troncato EST cluster corretto Lezione 7 troncato Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs (Heber, 2002) (adenylosuccinate lyase) [Heber et al., 2002] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione dello splicing alternativo Confronto di clusters di EST Splicing graphs [Florea, 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Identificazione dello splicing alternativo Gene indexes: - Si confrontano tutte le EST una contro l'altra - Si identificano overlap significativi - Si raggruppano e assemblano sequenze con overlap compatibili, creando clusters - UniGene (NCBI) è una banca dati di clusters di EST predetti provenire dallo stesso gene, ottenuti con varianti di algoritmi di assemblaggio Problemi: - Overclustering: I geni paraloghi potrebbero essere raggruppati insieme in un unico cluster - Underclustering: il numero di EST potrebbe essere insufficiente - Computazionalmente Intensivo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs (Heber, 2002) Il problema di assemblare sequenze consenso può essere ricondotto a un problema di ricostruzione di un grafo: Dato un cluster di EST, tovare il grafo ottimale (splicing graph) che rappresenti tutti i trascritti come percorsi nel grafo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs (Heber, 2002) Se è nota le sequenza del genoma di riferimento: - Mappare gli EST/cDNA sul genome - Verificare l'allineamento (siti di splicing, qualità) - Connettere le posizioni consecutive transcript 1 genomic seq. transcript 2 splicing graph Si possono generare combinatorialmente tutti i possibili trascritti alternativi Ovviamente non tutti saranno veri trascritti Bisogna dare un punteggio ai candidati trascritti, per differenziare quelli veri dai falsi Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs Nodi: Esoni Archi: Introni Gene: directed acyclic graph Ogni percorso nel DAG descrive un trascritto alternativo Per DAG complessi, ci saranno moltissimi possibili percorsi Gli archi devono essere pesati (numero di EST che unisce due esoni, dati di espressione) Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs (Heber, 2002) Set di mRNA S={s1,s2 . .sn} Vi = Set di coordinate (o genomiche, o relative al cluster) per ogni nucleotide si Splicing graph G Vertici di G = unione di Vi = tutte le basi Se le basi v e w sono consecutive in un transcritto/EST, sono unite da un arco Ogni transcritto si = percorso nel grafo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs (Heber, 2002) Se non è nota le sequenza del genoma di riferimento: - Si deve ricostruire il grafo dalle sequenze degli EST - Si divide la seuenza dell'EST in k-meri (20-meri). - Si costruisce il grafo usando i k-meri come vertici, connettendoli se occorrono consecutivamente nella sequenza Esempio (3-meri): Sequenze: CTCGATGAC, CTCGGAC Vertici: {CTC, TCG, CGA, GAT, ATG, TGA, GAC, CGG, GGA} CGG → GGA CTC → TCG → CGA → GAT → ATG → TGA → GAC CTCG → AT → GAC splicing graph semplificato Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs (Heber, 2002) Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Splicing graphs Una volta stabilito un sistema per dare un punteggio ad un percorso nel grafo, si devono ricercare i trascritti migliori: - in maniera esaustiva (Heber) - Expectation maximization - dynamic programming Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Plausibilità strutturale di varianti di splicing [Romero et al., 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Plausibilità strutturale di varianti di splicing Protein Structure Modeling • Ab initio modeling • Threading & Fold Recognition • Homology Modeling MNIFEMLRID HLLTKSPSLN DEAEKLFNQD LDAVRRCALI LQQKRWDEAA TTFRTGTWDA Lezione 7 EGLRLKIYKD AAKSELDKAI VDAAVRGILR NMVFQMGETG VNLAKSRWYN YKNL TEGYYTIGIG GRNCNGVITK NAKLKPVYDS VAGFTNSLRM QTPNRAKRVI ? Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Plausibilità strutturale di varianti di splicing Hemoglobin delta-subunit SET domain-containing protein 3 Mitochondrial cysteine desulfurase Lezione 7 Initiation factor 6 [Tress et al., 2007] Genomica Computazionale, Laurea Magistrale A.A. 2009/2010