Genomics Session
Lezione 7
Splicing alternativo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
Processo mediante il quale il trascritto di un gene può essere
riarrangiato dando luogo a mRNA diversi;
●
Importante meccanismo regolatorio per la modulazione delle funzioni e
caratteristiche dei prodotti proteici dei geni eucariotici;
●
Studi genomici su larga scala suggeriscono che fra il 70-80% dei geni
umani può dar luogo ad almeno due diversi mRNA (isoforme) mediante
splicing alternativo;
●
Possibile spiegazione del paradosso del ridotto numero di geni negli
organismi superiori
●
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
[Zhang, Nature 2002]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Processamento dei pre-mRNA
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Processamento dei pre-mRNA
Il processamento di un pre-mRNA è cotrascrizionale
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Scoperta dello splicing alternativo
- Inizialmente predetto da Walter Gilbert nel 1978;
- Dimostrato per la prima volta peril gene per la
catena pesante delle immunoglobuline nel 1980
(Edmund Choi, Michael Kuehl & Randolph Wall,
Nature 286, 776 – 779)
- Lo splicing produce due isoforme della proteina con
diversa regione C-terminale:
● Una forma più corta, che è secreta
● Una più lunga che rimane ancorata alla
membrana plasmatica
S - signal peptide
V - variable region
C - constant region
Red – untranslated region
Green – membrane anchor
Yellow – end of coding reg. for
secreted form
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
Il pre-mRNA della troponina T può dar
luogo a 64 diverse isoforme della proteina
nel muscolo
Constitutively spliced exons (exons 1-3, 9-15, and 18)
Mutually exclusive exons (exons 16 and 17)
Alternatively spliced exons (exons 4-8)
Gli esoni 4-8 sono spliceati in ogni possibile combinazione
dando luogo a 32 combinazioni diverse
Gli esoni 16 e 17, che sono mutualmente esclusivi,
raddoppiano le possibilità, quindi in totale si possono
avere 64 isoforme
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
Gene DSCAM (Down syndrome cell adhesion molecule) di Drosophila
> 38000 isoforme di splicing
[Graveley et al., 2001]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
38%
18%
8%
3%
33%
[Blencowe, 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
Alternative splicing functions/effects:
- Inclusion/exclusion of functional protein domains (e.g. localization)
- Change in protein structure
- Change in polyadenylation, affecting mRNA stability
Alter protein binding properties, eg. receptor/ligand
Alter intracellular localization, eg. membrane insertion
Alter extracellular localization, eg. secretion
Alter enzymatic or signaling activities,
Alter protein stability, eg. inclusion of cleavage sites
Insertion of post-translation modification domains
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Giunzioni di splicing
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing
complete mRNA
coding segment
ATG
exon
ATG . . . GT
start codon
intron
TGA
exon
AG
donor site acceptor
site
...
intron
GT
exon
AG . . . TGA
donor site acceptor stop codon
site
In realtà, il primo esone si estende anche a monte del codone di inizio, e
l'ultimo esone si estende a valle del codone di stop - regioni non tradotte
(untranslated regions, UTRs).
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modello di un gene
Si definiscono 4 tipi di esoni in funzione della posizione relativa:
• Esoni iniziali, dal codone di inizio al primo sito donatore;
• Esoni interni, da un sito accettore al sito donatore successivo;
• Esoni terminali, dall'ultimo sito accettore al codone di stop;
• Esoni singoli, dal codone di inizio al codone di stop (in geni senza
introni).
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modello di un gene
Si definiscono 4 tipi di esoni in funzione dello splicing:
• Esoni costitutivi, condivisi da tutte le isoforme;
• Esoni specifici, propri di una sola isoforma;
• Esoni alternativi, condivisi da un sottoinsieme di tutte le isoforme;
• Esoni overlappanti, possono avere regioni costituive, alternative o
specifiche.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modello di un gene
[Leoni et al., 2009]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modello di un gene
Le regioni introniche fiancheggianti esoni alternativi sono più conservate di quelle
fiancheggianti esoni costitutivi
[Sorek et al., 2004]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Exon/intron size
Species
Yeast
Nematode
Fruit fly
Chicken
Mammals
Lezione 7
Average
exon No.
Average
intron No.
1
4
4
9
7
0
3
3
8
6
Average
length(kb)
1.6
4.0
11.3
13.9
16.6
Average
kb mRNA
1.6
3.0
2.7
2.4
2.2
% exon
per gene
100
75
24
17
13
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Struttura dei geni negli eucarioti
Typically, in vertebrates, exons are much shorter than introns. According to the exon-definition
model, before introns are recognized and spliced out, each exon is initially recognized by the
protein factors that form a bridge across it. In this way, each exon, together with its flanking
sequences, forms a molecular, as well as a computational, recognition module
[Zhang, Nature 2002]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Meccanismo dello splicing
Binding of U1 and U2 snRNPs
Rearrangement of base-pair interactions
between snRNAs, release of U1 and U4
snRNPs
Binding of U4, U5 and U6 snRNPs
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Meccanismo dello splicing
The catalytic core, formed by U2 and U6
snRNPs catalyzes the first transesterification
reaction
Lezione 7
Further rearrangements between U2, U6
and U5 lead to second transesterification
reaction
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Meccanismo dello splicing
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Meccanismo dello splicing
The spliced lariat is linearized by debranching enzyme and further degraded in exosomes
Not all intrones are completely degraded. Some end up as functional RNAs, different from
mRNA
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Meccanismo dello splicing
The Exon Definition Hypothesis
Trans-Factor Interaction with Exon differs from Interaction with Introns
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Controllo dello splicing alternativo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
Splicing of regulated exons is modulated:
Proteins – SR proteins and hnRNPs
cis elements in introns and exons – splicing enhancers and silencers
ESE - Exonic Splicing Enhancer
ESS - Exonic Splicing Silencer
ISE - Intronic Splicing Enhancer
ISS - Intronic Splicing Silencer
Differences in the activities and/or amounts of general splicing factors
and/or gene-specific splicing regulators during development or in differnt
tissues can cause alternative splicing
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
[Maniatis & Tasic, 2002]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
[Blencowe, 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing alternativo
[Blencowe, 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Rappresentazione dello splicing
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione di casi di splicing alternativo
• Dati: sequenze di cDNA, EST,
proteine
• Confrontare i dati di sequenza
con l'assemblaggio genomico
• Confrontare i dati di sequenza
fra di loro
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Librerie di cDNA
[Brent, Nature Reviews Genetics 2008]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione di isoforme mediante microarrays
Exon junction arrays
Exon arrays
[Blencowe, 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione di isoforme mediante microarrays
[Ben-Dov et al., 2008]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione dello splicing alternativo
Confronto diretto di
cDNA
Confronto di cDNA
mappati sul genoma
Confronto di dati di
espressione da
microarray
[Florea, 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione dello splicing alternativo
I metodi descritti si basano sulla conoscenza della sequenza
completa dei trascritti di un gene
La sequenza completa è usata per mappare sul genoma, per
confrontare coppie, o per disegnare probes per microarrays
Le EST invece forniscono sequenze incomplete
Date tutte le osservazioni di sequenze per un dato gene, inclusi full
length cDNAs, ESTs e arrays di espressione, lo scopo e' di inferire il
set piu' verosimile di isoforme full-length che spiegano I dati
osservati. Si tratta di assemblare varie sequenze full length da una
mistura di sequenze frammentarie.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Librerie di ESTs
EST = Expressed Sequence Tag
Partial cDNA sequences created from expressed mRNA (200-400 bp in length)
[Brent, Nature Reviews Genetics 2008]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Modello di un gene
[Modrek & Lee, 2002]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Librerie di ESTs
Le EST derivano da tutti i mRNA del campione, quindi vanno raggruppati
insieme secondo il mRNA di provenienza per poterne ricostruire la
sequenza
Dati di EST contengono molti errori:
Spesso mancano le estremità 3’ e 5’ del gene
Spesso incompleti
Inaccurati
Campionamento non uniforme
Contaminazioni
Il mRNA potrebbe non essere maturo
La grande mole di dati di EST le rende comunque molto utili
Sono disponibili anche per organismi per i quali la sequenza del genoma
non è nota o è incompleta
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Librerie di ESTs
Obiettivo: dato un cluster di EST, identificare tutti i trascritti da cui hanno origine
GenBank (dbEST),
EMBL, DDBJ
Cluster di EST
Assemblaggio
Banca dati primaria
Consenso
EST
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Librerie di ESTs
Obiettivo: dato un cluster di EST, identificare tutti i trascritti da cui hanno origine
GenBank (dbEST),
EMBL, DDBJ
Banca dati primaria
Consenso 1
Cluster di EST
Consenso 2
Trascritti putativi
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Librerie di ESTs
Lo splicing alternativo può causare assemblaggi di EST spesso
sbagliati, tronchi o ambigui se fatto con tecniche convenzionali
sbagliato
troncato
troncato
EST cluster
corretto
Lezione 7
troncato
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs (Heber, 2002)
(adenylosuccinate lyase)
[Heber et al., 2002]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione dello splicing alternativo
Confronto di clusters
di EST
Splicing
graphs
[Florea, 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Identificazione dello splicing alternativo
Gene indexes:
- Si confrontano tutte le EST una contro l'altra
- Si identificano overlap significativi
- Si raggruppano e assemblano sequenze con overlap
compatibili, creando clusters
- UniGene (NCBI) è una banca dati di clusters di EST predetti
provenire dallo stesso gene, ottenuti con varianti di algoritmi di
assemblaggio
Problemi:
- Overclustering: I geni paraloghi potrebbero essere raggruppati
insieme in un unico cluster
- Underclustering: il numero di EST potrebbe essere insufficiente
- Computazionalmente Intensivo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs (Heber, 2002)
Il problema di assemblare sequenze consenso può essere ricondotto
a un problema di ricostruzione di un grafo:
Dato un cluster di EST, tovare il grafo ottimale (splicing graph) che
rappresenti tutti i trascritti come percorsi nel grafo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs (Heber, 2002)
Se è nota le sequenza del genoma di riferimento:
- Mappare gli EST/cDNA sul genome
- Verificare l'allineamento (siti di splicing, qualità)
- Connettere le posizioni consecutive
transcript 1
genomic seq.
transcript 2
splicing graph
Si possono generare combinatorialmente tutti i possibili trascritti
alternativi
Ovviamente non tutti saranno veri trascritti
Bisogna dare un punteggio ai candidati trascritti, per differenziare
quelli veri dai falsi
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs
Nodi: Esoni
Archi: Introni
Gene: directed acyclic graph
Ogni percorso nel DAG descrive un trascritto alternativo
Per DAG complessi, ci saranno moltissimi possibili percorsi
Gli archi devono essere pesati (numero di EST che unisce due esoni,
dati di espressione)
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs (Heber, 2002)
Set di mRNA S={s1,s2 . .sn}
Vi = Set di coordinate (o genomiche, o relative al cluster) per ogni
nucleotide si
Splicing graph G
Vertici di G = unione di Vi = tutte le basi
Se le basi v e w sono consecutive in un transcritto/EST, sono unite
da un arco
Ogni transcritto si = percorso nel grafo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs (Heber, 2002)
Se non è nota le sequenza del genoma di riferimento:
- Si deve ricostruire il grafo dalle sequenze degli EST
- Si divide la seuenza dell'EST in k-meri (20-meri).
- Si costruisce il grafo usando i k-meri come vertici, connettendoli se occorrono
consecutivamente nella sequenza
Esempio (3-meri):
Sequenze: CTCGATGAC, CTCGGAC
Vertici:
{CTC, TCG, CGA, GAT, ATG, TGA, GAC, CGG, GGA}
CGG → GGA
CTC → TCG → CGA → GAT → ATG → TGA → GAC
CTCG → AT → GAC
splicing graph semplificato
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs (Heber, 2002)
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Splicing graphs
Una volta stabilito un sistema per dare un punteggio ad un percorso nel grafo,
si devono ricercare i trascritti migliori:
- in maniera esaustiva (Heber)
- Expectation maximization
- dynamic programming
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Plausibilità strutturale di varianti di splicing
[Romero et al., 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Plausibilità strutturale di varianti di splicing
Protein Structure Modeling
• Ab initio modeling
• Threading & Fold Recognition
• Homology Modeling
MNIFEMLRID
HLLTKSPSLN
DEAEKLFNQD
LDAVRRCALI
LQQKRWDEAA
TTFRTGTWDA
Lezione 7
EGLRLKIYKD
AAKSELDKAI
VDAAVRGILR
NMVFQMGETG
VNLAKSRWYN
YKNL
TEGYYTIGIG
GRNCNGVITK
NAKLKPVYDS
VAGFTNSLRM
QTPNRAKRVI
?
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Plausibilità strutturale di varianti di splicing
Hemoglobin delta-subunit
SET domain-containing protein 3
Mitochondrial cysteine desulfurase
Lezione 7
Initiation factor 6
[Tress et al., 2007]
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010