Argomenti trattati Struttura di un gene e alternative splicing (AS) Definizione del problema AS e algoritmo per risolverlo ASPic software Introduzione biologica DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine Numero geni e genomi in eucarioti Gene number Genome size (Mb) 100000 10000 1000 (> 9(up Mb) NumberGenoma of genesininprocarioti prokaryotes to 8000) 100 10 1 human mouse chicken xenopus zebrafish fugu ciona fly worm yeast Espressione di un gene DNA 5’ 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 exon 2 exon 3 3’ SPLICING mRNA EST exon 1 exon 1 exon 2 exon 2 exon 3 exon 3 prodotto dello splicing Expressed Sequence Tag (cDNA) Trascritti e sequenze EST Un trascritto è l’elenco delle basi (A, T, C, G) che compongono un mRNA maturo Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro ) mRNA cDNA ATTGCGTTAACTGGACTGA TAACGCAATTGACCTGACT AATTGACC EST Pattern di un introne Introni canonici: 99.24 % GT AG Introni non canonici: 0.69 % 0.05 % 0.02 % GC AG AT AC ALTRO Burset et al., Nucleic Acids Res. 2000, 28:4363-4375 Espressione di un gene Ma le cose funzionano davvero così? Numero Geni corpo umano : 40000 circa Numero Proteine : centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? SPLICING ALTERNATIVO Tipi di Alternative Splicing Mutually exclusive Splice/don’t splice Competing 5’ Exon skipping 3’ exons GENOMICA AA’ A A I1 B B’B B CD C D mRNA1 AA’ mRNA2 ACI1B’BB D C CD D D D Perché AS è importante? AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS genera numerosi trascritti a partire da un singolo gene AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001) AS è correlato alle malattie Problema di AS AS è ancora un problema aperto Si ha la necessità di software tools per predire le forme di splicing alternativo di un gene analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme Cosa c’è a disposizione? Programmi veloci che producono l’allineamento di una singola sequenza EST contro la genomica: Spidey (Wheelan et al., 2001) Squall (Ogasawara & Morishita, 2002) Ma la predizione della struttura in esoni e introni di un gene è complicata da errori di sequenziamento nell’EST (inserzioni, delezioni e mismatch) => criteri di ottimizzazione sequenze duplicate sulla genomica => analisi combinata di un cluster di sequenze EST Definizioni formali Def 1 Def 2 Sequenza genomica, G = I1 f1 I2 f2 I3 f3 … In fn In+1, con Ii (i=1, 2, …, n+1) introni e fi (i=1, 2, …, n) esoni Fattorizzazione in esoni di G, GE = f1 f2 f3 … fn Def 3 Fattorizzazione di un EST S compatibile con GE S=s1 s2 … sk t.c. per 1 i1 < i2 < … < ik n si abbia: edit fit)t=2, errore st = (s fitt,per 3, …,per k-1 t=2, 3, …, k-1 skt ,=pref(f suffdi(fikfit)) ) o st = pref (fit) edit(s suff(fi1))diferrore s1 è un è edit(s un prefisso 1, suffisso i1 e sk e ik errore variante di splicing Il problema Input - Una sequenza genomica G - Un cluster di sequenze EST S = {S1, S2, …, Sn} Output Una fattorizzazione GE di G (GE = f1, f2, …, fn) e un set di fattorizzazioni degli EST compatibili con GE Obiettivo: minimizzare n Esempio Sequenza genomica G A2 A1A2 B D1 C1 D1D 2 C1C2 EST set S = {S1, S2, S3} S1 A2 A1A2 S2 S3 D1 A2 C1 B D1D2 74 exons esoni D1 C1C2 Risultati Il problema è MAX-SNP-hard (riduzione lineare da NODE-COVER) Euristica: Processo iterativo per fattorizzare ogni EST backtracking per ricomputare fattorizazzioni precedenti se si giunge ad una fattorizzazione non compatibile con GE L’algoritmo Passo j-esimo: Fattorizzazione parziale dell’EST Si (fattore sij) si-1 1 Si-1 si1 Si G si-1 j-1 e1 si-1 j si j-1 e2 si-1 n sij em em After placing all the factors sij for the set S, if (Compatible(e m, exon_list)) then place the factors; addexternal em to exon_list; otherwise try to place sij elsewhere; If not possible then backtrack; L’algoritmo (dettagli) Calcolo del fattore sij G ag Si si1 sij c2 gt esone si j-1 c1 c2 c3 si j c4 si jy c5 The Then Find Sij can algorithm theberightmost algorithm entire canonical divided searches factor into searches ag gt pattern anijperfect s components can a such perfect on be the match placed that cleft of (k=1,2,…,n) the onc1Gedit of on cG2 distance on G kmatch between At leastsij one y and of these the genomic components substring for k from from ag 1 to to (n-1) gt is Suppose that c21 has a noperfect perfectmatch matchon onGG bounded is error-free and can be placed on G ASPic software (Alternative Splicing PredICtion) Input - La lunghezza minima prevista per un esone - La lunghezza della componente di matching perfetto - L’errore di riduzione degli introni - L’errore di sequenziamento di un EST - La sequenza genomica - Il cluster di EST Output - Un file di testo per tutti gli allineamenti EST-genomica - Un file HTML degli allineamenti in prossimità dei siti di splicing predetti ASPic web site ASPic è un web-based tool disponibile all’indirizzo http://aspic.algo.disco.unimib.it/aspicdevel che permette di predire i siti di splicing per un gene in input ASPIC web site ASPIC web site ASPIC web site http://www.caspur.it/ASPIC/ OUTPUT: Information about the input A graphical view of the predicted gene structure A table of the predicted introns A graphical view of the transcript-genome alignments A graphical view of the predicted full-length isoforms A table of the predicted full-length isoforms ASPIC web site ASPIC web site ASPIC web site ASPIC web site ASPIC web site ASPIC web site ASPIC web site Prediction of p53 protein isoforms Isoform p53 alpha p53 beta p53 gamma 133 p53 alpha 133 p53 beta 133 p53 gamma 40 p53 alpha 40 p53 beta 40 p53 gamma Entry NM_000546 DQ186648 DQ186649 DQ186650 DQ186651 DQ186652 nd nd nd L (aa) 393 341 346 261 209 214 354 302 307 ASPIC + + + + + + + - ASAP2 + + - ASD + + + + - ACEVIEW + - GRAZIE!