splicing

Argomenti trattati



Struttura di un gene e alternative
splicing (AS)
Definizione del problema AS e algoritmo
per risolverlo
ASPic software
Introduzione biologica
DNA
Doppia catena polinucleotidica
definita sull’alfabeto: A, C, G, T
Gene
Regione di DNA che codifica
proteine
Numero geni e genomi in
eucarioti
Gene number
Genome size (Mb)
100000
10000
1000
(> 9(up
Mb)
NumberGenoma
of genesininprocarioti
prokaryotes
to 8000)
100
10
1
human
mouse
chicken
xenopus
zebrafish
fugu
ciona
fly
worm
yeast
Espressione di un gene
DNA
5’
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
exon 2
exon 3
3’
SPLICING
mRNA
EST
exon 1
exon 1
exon 2
exon 2
exon 3
exon 3
prodotto dello splicing
Expressed Sequence Tag
(cDNA)
Trascritti e sequenze EST


Un trascritto è l’elenco delle basi (A, T, C, G) che
compongono un mRNA maturo
Un EST è un frammento di cDNA (copia
complementare di un mRNA, prodotta in vitro )
mRNA
cDNA
ATTGCGTTAACTGGACTGA
TAACGCAATTGACCTGACT
AATTGACC
EST
Pattern di un introne
Introni canonici:
99.24 %
GT
AG
Introni non canonici: 0.69 %
0.05 %
0.02 %
GC
AG
AT
AC
ALTRO
Burset et al., Nucleic Acids Res. 2000, 28:4363-4375
Espressione di un gene
Ma le cose funzionano davvero così?
Numero Geni corpo umano : 40000 circa
Numero Proteine : centinaia di migliaia
La corrispondenza 1 a 1 non è rispettata. Perché?
SPLICING ALTERNATIVO
Tipi di Alternative Splicing
Mutually
exclusive
Splice/don’t
splice
Competing
5’
Exon
skipping
3’
exons
GENOMICA
AA’
A
A I1 B
B’B
B
CD
C
D
mRNA1
AA’
mRNA2
ACI1B’BB
D C
CD
D
D
D
Perché AS è importante?




AS avviene nel 40-60% dei geni umani
(Modrek and Lee, 2002)
AS genera numerosi trascritti a partire
da un singolo gene
AS is specifico del tessuto in cui si trova
la cellula (Graveley, 2001)
AS è correlato alle malattie
Problema di AS
AS è ancora un problema aperto
Si ha la necessità di software tools per


predire le forme di splicing alternativo di un
gene
analizzare il meccanismo di splicing tramite la
rappresentazione delle possibili isoforme
Cosa c’è a disposizione?
Programmi veloci che producono l’allineamento di una
singola sequenza EST contro la genomica:
Spidey (Wheelan et al., 2001)
Squall (Ogasawara & Morishita, 2002)
Ma la predizione della struttura in esoni e introni
di un gene è complicata da


errori di sequenziamento nell’EST (inserzioni, delezioni e
mismatch) => criteri di ottimizzazione
sequenze duplicate sulla genomica => analisi combinata di un
cluster di sequenze EST
Definizioni formali

Def 1


Def 2


Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con
Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni
Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn
Def 3

Fattorizzazione di un EST S compatibile con GE
S=s1 s2 … sk t.c. per 1  i1 < i2 < … < ik  n si abbia:


edit
fit)t=2,
 errore
st = (s
fitt,per
3, …,per
k-1 t=2, 3, …, k-1
skt ,=pref(f
suffdi(fikfit))
) o st = pref (fit)
edit(s
suff(fi1))diferrore
s1 è un
è edit(s
un prefisso
1, suffisso
i1 e sk e
ik  errore
variante di splicing
Il problema
Input
- Una sequenza genomica G
- Un cluster di sequenze EST S = {S1, S2, …, Sn}
Output
Una fattorizzazione GE di G (GE = f1, f2, …, fn) e un
set di fattorizzazioni degli EST compatibili con GE
Obiettivo: minimizzare n
Esempio
Sequenza genomica G
A2
A1A2
B
D1
C1
D1D 2
C1C2
EST set S = {S1, S2, S3}
S1
A2
A1A2
S2
S3
D1
A2
C1
B
D1D2
74 exons
esoni
D1
C1C2
Risultati


Il problema è MAX-SNP-hard (riduzione
lineare da NODE-COVER)
Euristica:
Processo iterativo per fattorizzare ogni EST
backtracking per ricomputare fattorizazzioni
precedenti se si giunge ad una fattorizzazione
non compatibile con GE
L’algoritmo
Passo j-esimo: Fattorizzazione parziale dell’EST Si (fattore sij)
si-1 1
Si-1
si1
Si
G
si-1 j-1
e1
si-1 j
si j-1
e2
si-1 n
sij
em
em
After
placing all
the factors sij for the set S,
if
(Compatible(e
m, exon_list)) then
place the
factors;
addexternal
em to exon_list;
otherwise
try to place sij elsewhere;
If not possible then
backtrack;
L’algoritmo (dettagli)
Calcolo del fattore sij
G
ag
Si
si1
sij
c2
gt
esone
si j-1
c1
c2
c3
si j
c4
si jy
c5
The
Then
Find
Sij can
algorithm
theberightmost
algorithm
entire
canonical
divided
searches
factor
into
searches
ag
gt
pattern
anijperfect
s
components
can
a such
perfect
on
be the
match
placed
that
cleft
of
(k=1,2,…,n)
the
onc1Gedit
of
on cG2 distance
on G
kmatch
between
At leastsij
one
y and
of these
the genomic
components
substring
for k from
from ag
1 to
to (n-1)
gt is
Suppose that
c21 has a
noperfect
perfectmatch
matchon
onGG
bounded
is error-free and can be placed on G
ASPic software (Alternative
Splicing PredICtion)
Input
- La lunghezza minima prevista per un esone
- La lunghezza della componente di matching perfetto
- L’errore di riduzione degli introni
- L’errore di sequenziamento di un EST
- La sequenza genomica
- Il cluster di EST
Output
- Un file di testo per tutti gli allineamenti EST-genomica
- Un file HTML degli allineamenti in prossimità dei siti di
splicing predetti
ASPic web site
ASPic è un web-based tool disponibile
all’indirizzo
http://aspic.algo.disco.unimib.it/aspicdevel che permette di predire i siti di
splicing per un gene in input
ASPIC web site
ASPIC web site
ASPIC web site
http://www.caspur.it/ASPIC/
OUTPUT:






Information about the input
A graphical view of the predicted gene structure
A table of the predicted introns
A graphical view of the transcript-genome alignments
A graphical view of the predicted full-length isoforms
A table of the predicted full-length isoforms
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
ASPIC web site
Prediction of p53 protein isoforms
Isoform
p53 alpha
p53 beta
p53 gamma
133 p53 alpha
133 p53 beta
133 p53 gamma
40 p53 alpha
40 p53 beta
40 p53 gamma
Entry
NM_000546
DQ186648
DQ186649
DQ186650
DQ186651
DQ186652
nd
nd
nd
L (aa)
393
341
346
261
209
214
354
302
307
ASPIC
+
+
+
+
+
+
+
-
ASAP2
+
+
-
ASD
+
+
+
+
-
ACEVIEW
+
-
GRAZIE!