Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2016/2017 I dati in Bioinformatica Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico) Il DNA è una catena polinucleotidica. Il “mattoncino” che compone una catena di DNA prende il nome di nucleotide. D b P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D b P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D A P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D G P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D C P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D T P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D T P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) purine - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D T P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) pirimidine - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) direzione 5’3’ 3’ D 5’ T P D: zucchero pentoso è deossiribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) D T P D A P D P C Legame fosfodiesterico è legame tra D e P Il DNA (oggetto biologico) 3’ D T P D A P D 5’ P C La sequenza delle basi azotate elencate dal 5’ al 3’ fornisce la sequenza primaria della molecola di DNA Nell’esempio della figura la sequenza primaria è quindi CAT (e non TAC) Il DNA (oggetto biologico) 3’ D T P D A La sequenza delle basi azotate elencate dal 5’ al 3’ fornisce la sequenza primaria della molecola di DNA Nell’esempio della figura la sequenza primaria è quindi CAT (e non TAC) nucleotide “coincide con” base azotata P D 5’ P C Il DNA genomico Il DNA genomico (genoma) è la lunga molecola di DNA che contiene le informazioni che regolano la vita di un organismo vivente: ü è contenuto nel nucleo di tutte le cellule dell’organismo ü è una doppia catena avvolta ad elica ü è suddiviso in cromosomi Il DNA genomico Il DNA genomico (genoma) è la lunga molecola di DNA che contiene le informazioni che regolano la vita di un organismo vivente: ü è contenuto nel nucleo di tutte le cellule dell’organismo ü è una doppia catena avvolta ad elica ü è suddiviso in cromosomi Genoma umano (3,2 miliardi di basi): ü 22 coppie di autosomi (chr1, chr2, …, chr22) ü cromosomi X e Y (XX=femmina, XY=maschio) ü il cromosoma 1 è il più lungo (circa 245 milioni di basi) Il DNA genomico P 5’ D T A A T C G D 3’ P P D D P P 5’ P D D 3’ Il DNA genomico A è complementare a T à due legami idrogeno C è complementare a G à tre legami idrogeno P 5’ D T A A T C G D 3’ P P D D P P 5’ P D D 3’ Il DNA genomico P D T A A T C G D 3’ P P D D P P P D D strand + (forward) 5’ 5’ strand – (reverse) 3’ Il DNA genomico P D T A A T C G D 3’ 5’ strand – (reverse) P P D P D P D Catena forward è CAT D strand + (forward) 5’ P 3’ Il DNA genomico P D T A D 3’ 5’ strand – (reverse) Catena reverse è ATG P P A T C G D P D P D Catena forward è CAT D strand + (forward) 5’ P 3’ Il DNA (dato informatico) La sequenza primaria di un catena di DNA è dunque rappresentata da una stringa di simboli appartenenti all’alfabeto Σ={A,C,G,T} Il DNA (dato informatico) La sequenza primaria di un catena di DNA è dunque rappresentata da una stringa di simboli appartenenti all’alfabeto Σ={A,C,G,T} La lunghezza di una sequenza di DNA si misura in base pair (bp). Quindi una sequenza lunga 1000bp è composta da 1000 basi. Il DNA (dato informatico) Operazione fondamentale à Reverse&Complement …per ottenere, data la sequenza primaria di una catena di DNA, la sequenza primaria della sua catena appaiata: ü si trasforma ogni singola base nella sua complementare: ü ü A in T (e viceversa), C in G (e viceversa) si inverte la sequenza ottenuta Il DNA (dato informatico) Esempio di Reverse&Complement: A C G T A G Il DNA (dato informatico) Esempio di Reverse&Complement: A C G T A G complement T G C A T C Il DNA (dato informatico) Esempio di Reverse&Complement: A C G T A G complement T G C A T C reverse C T A C G T L’RNA (oggetto biologico) Il nucleotide (il “mattoncino” dell’RNA) R b P D: zucchero pentoso è ribosio P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) uracile al posto della - uracile (U) timina L’RNA (dato informatico) La sequenza primaria di un catena di RNA è rappresentata tramite una stringa simboli appartenenti all’alfabeto Σ={A,C,G,U} L’RNA si trova in catene singole Le proteine Una proteina è una catena di aminoacidi e la sua sequenza primaria è rappresentata da una stringa definita su un alfabeto di 20 simboli (20 sono gli aminoacidi presenti in natura). Glu Ile Phe Thr Val His Il sequenziamento Sequenziare significa determinare la sequenza primaria delle molecole biologiche (DNA/RNA e proteine) è sequenza delle basi {A,C,G,T|U} per DNA e RNA è sequenza degli aminoacidi per le proteine Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola biologica? è single-end read DNA/RNA GTTGTGCAGTGACGGA Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read è mate-pair insertion size DNA/RNA A B Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read è mate-pair insertion size DNA/RNA A B A=B Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read è mate-pair insertion size DNA/RNA A B A=B Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read è mate-pair insertion size DNA/RNA A B A=B Output è + insertion size Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read è mate-pair F R insertion size DNA/RNA agttgcgt aatgcctg A Output è B agttgcgt gtccgtaa Insertion size <= 1000 bp A=B Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read è mate-pair R F insertion size DNA/RNA agttgcgt aatgcctg A Output è B tgcgttga aatgcctg Insertion size <= 2000-5000 bp A=B Il sequenziamento Attenzione agli errori di sequenziamento!!! Le stringhe che rappresentano la sequenza primaria di DNA e RNA sono in realtà definite su di un alfabeto esteso che prende il nome di IUPAC code IUPAC code per DNA SIMBOLO A C G T R Y M K W S B D H V N DESCRIZIONE Adenine Cytosine Guanine Thymine Purine (A or G) Pyrimidine (C or T) C or A T, or G T, or A C or G C, T or G (not A) A, T or G (not C) A, T or C (not G) A, C or G (not T) any base (A, C, G, T) IUPAC code per RNA SIMBOLO A C G U R Y M K W S B D H V N DESCRIZIONE Adenine Cytosine Guanine Uracil Purine (A or G) Pyrimidine (C or U) C or A U or G U or A C or G C, U or G (not A) A, U or G (not C) A, U or C (not G) A, C or G (not U) any base (A, C, G or U) Sanger VS Next-Generation Sequencing (NGS) Metodo Sanger ð Piuttosto costoso (centinaia di milioni di dollari per Human Genome Project) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Lunghezza dei reads fino a 1000 bp ð Qualità elevata Metodi NGS ð Poco costosi (attorno al milione di dollari per sequenziare il genoma umano) ð Processano tanti reads in un run (milioni) (copertura da 10 a 100 volte superiore quella Sanger) ð Reads relativamente corti ð Qualità relativamente bassa Cos’è un gene? Un gene è una regione (locus) del DNA genomico che codifica una proteina. Cos’è un gene? Un gene è una regione (locus) del DNA genomico che codifica una proteina. Un gene viene identificato tramite il suo HUGO NAME (http://www.genenames.org/) Cos’è un gene? Un gene è una regione (locus) del DNA genomico che codifica una proteina. Un gene viene identificato tramite il suo HUGO NAME (http://www.genenames.org/) Esempio di HUGO NAME: ATP6AP1 (ATPase, H+ transporting, lysosomal accessory protein 1) Cos’è un gene? La sequenza primaria del locus di DNA di un gene prende il nome di sequenza genomica. Cos’è un gene? La sequenza primaria del locus di DNA di un gene prende il nome di sequenza genomica. Sequenza genomica è un termine generale per indicare la sequenza di una qualsiasi regione di DNA genomico Una sequenza genomica è dunque in Bioinformatica una sottostringa della sequenza primaria del DNA genomico Sequenza genomica In genere una sequenza genomica viene memorizzata in formato FASTA che è: ü ü ü un formato di puro testo nato come formato di input del software di allineamento FASTA pensato per memorizzare sequenze nucleotidiche (DNA e RNA) e qualche informazione aggiuntiva diventato un formato standard di input di molti tools di analisi di sequenze Il nome di un file in formato FASTA ha estensione fa oppure fasta Formato FASTA (esempio) >X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1 GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC […] Formato FASTA (esempio) >X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1 GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT Header FASTA à il primo simbolo deve essere ‘>’ CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC […] Formato FASTA (esempio) >X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1 GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC La sequenza viene di solito spezzata in parti di 60/80 caratteri AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC […] Cos’è un gene? Entrambe le catene del DNA genomico contengono geni. 5’ 3’ strand + (forward) 3’ strand - (reverse) 5’ Cos’è un gene? Entrambe le catene del DNA genomico contengono geni. 5’ strand + (forward) 3’ 3’ strand - (reverse) 5’ Genoma umano è circa 25000 geni codificanti Tutte le cellule di un organismo contengono l’intero set di geni dell’organismo Espressione di un gene locus genico 5’ 3’ 3’ 5’ Espressione di un gene locus genico 5’ 3’ Espressione di un gene locus genico 5’ exon 1 intron1 exon 2 Esone = regione codificante Introne = regione non-codificante intron2 exon 3 3’ Espressione di un gene locus genico 5’ exon 1 intron1 exon 2 intron2 5’ splice site 3’ splice site (confine esone-introne) (confine introne-esone) Esone = regione codificante Introne = regione non-codificante exon 3 3’ Espressione di un gene locus genico 5’ exon 1 intron1 exon 2 intron2 exon 3 3’ intron2 exon 3 3’ TRASCRIZIONE (in un RNA) pre-mRNA 5’ exon 1 intron1 exon 2 Espressione di un gene locus genico 5’ exon 1 intron1 exon 2 intron2 exon 3 3’ intron2 exon 3 3’ TRASCRIZIONE (in un RNA) pre-mRNA 5’ exon 1 intron1 exon 2 Il pre-mRNA è la copia della sequenza di DNA genomico con la sostituzione di T con U Espressione di un gene locus genico 5’ exon 1 intron1 exon 2 intron2 exon 3 3’ intron2 exon 3 3’ TRASCRIZIONE (in un RNA) pre-mRNA 5’ exon 1 intron1 exon 2 SPLICING mRNA exon 1 exon 2 exon 3 trascritto Espressione di un gene locus genico 5’ exon 1 intron1 exon 2 intron2 exon 3 3’ intron2 exon 3 3’ TRASCRIZIONE (in un RNA) pre-mRNA 5’ exon 1 intron1 exon 2 SPLICING mRNA trascritto coding sequence (CDS) AUG………[stop] start codon stop codon UAG [stop] UAA UGA Espressione di un gene locus genico 5’ exon 1 exon 2 intron1 intron2 exon 3 3’ intron2 exon 3 3’ TRASCRIZIONE (in un RNA) pre-mRNA 5’ exon 1 intron1 exon 2 SPLICING mRNA coding sequence (CDS) trascritto AUG………[stop] 5’ UTR 3’ UTR UAG [stop] UAA UGA Espressione di un gene mRNA coding sequence (CDS) trascritto AUGCCAAGCGAUUAG La CDS viene suddivisa in triplette (codoni) e ogni codone viene mappato a un aminoacido attraverso il codice genetico. Codice genetico da Wikipedia Espressione di un gene mRNA coding sequence (CDS) trascritto AUGCCAAGCGAUUAG Proteina: Met Codice genetico da Wikipedia Espressione di un gene mRNA coding sequence (CDS) trascritto AUGCCAAGCGAUUAG Proteina: Met Pro Codice genetico da Wikipedia Espressione di un gene mRNA coding sequence (CDS) trascritto AUGCCAAGCGAUUAG Proteina: Met Pro Ser Codice genetico da Wikipedia Espressione di un gene mRNA coding sequence (CDS) trascritto AUGCCAAGCGAUUAG Proteina: Met Pro Ser Asp Codice genetico da Wikipedia Espressione di un gene mRNA coding sequence (CDS) trascritto AUGCCAAGCGAUUAG Met Pro Ser Asp [stop] Codice genetico da Wikipedia Pattern di un introne 5’ exon 1 exon 2 3’ exon 3 Introne canonico GT 99.24 % AG Introni non canonici 0.69 % GC AT AG 0.05 % ALTRO Burset et al., Nucleic Acids Res. 2000, 28:4363-4375 AC 0.02 % Espressione di un gene Numero dei geni umani: 25000 circa Numero delle proteine umane: centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? Espressione di un gene Numero dei geni umani: 25000 circa Numero delle proteine umane: centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? ALTERNATIVE SPLICING (AS) è un gene è in grado di esprimere una molteplicità di trascritti Perché AS è importante? ü AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) Perché AS è importante? ü ü AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS è specifico al tessuto in cui si trova la cellula (Graveley, 2001) Perché AS è importante? ü ü ü AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS è specifico al tessuto in cui si trova la cellula (Graveley, 2001) AS è specifico alle condizioni in cui si trova la cellula (es. stadio di sviluppo) Perché AS è importante? ü ü ü ü AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS è specifico al tessuto in cui si trova la cellula (Graveley, 2001) AS è specifico alle condizioni in cui si trova la cellula (es. stadio di sviluppo) AS è specifico allo “stato di salute” in cui si trova la cellula (correlazione con malattie) Alternative Splicing (AS) Gene1 mRNAref 5’ exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 exon 1’ exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’’ intron retention 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 mRNA2 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon skipping exon 3 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 mRNA2 mRNA3 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon 1’’’ 5’ competing sites exon 3 exon 2 exon 3 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 mRNA2 mRNA3 mRNA4 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon 1’’’ exon 1 exon 3 exon 2 exon 2 exon 3 exon 3’ 3’ competing sites 3’ Alternative Splicing (AS) Gene2 mRNAref 5’ exon 1 exon 2 exon 3 exon 4 exon 1 exon 2 exon 3 exon 4 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 exon 4 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 exon 4 mutually exclusive exons 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 mRNA3 exon 1 exon 2 exon 4 exon 3 exon 4 multiple poly(A) sites 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 mRNA3 exon 1 exon 2 exon 3 exon 2 exon 3 mRNA4 exon 1 multiple promoters exon 4 exon 4 exon 4 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 mRNA3 mRNA4 1 exon 2che il gene è in Isoformaexon = trascritto (mRNA) grado di esprimere exon 1 exon 1 exon 2 exon 3 exon 2 exon 3 multiple promoters exon 4 exon 4 exon 4 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 mRNA3 mRNA4 2 Isoformaexon = 1proteina che il exon gene è in grado di produrre exon 1 exon 1 exon 2 exon 3 exon 2 exon 3 multiple promoters exon 4 exon 4 exon 4 3’ Problema computazionale di Alternative Splicing In Bioinformatica si ha la necessità di algoritmi e tools per ü ü ü predire la struttura in esoni-introni di un gene predire le isoforme alternative quantificare le isoforme alternative Dati importanti… Dati fondamentali in Bioinformatica sono i dati ottenuti dal sequenziamento di trascritti (mRNA) che prendono il nome di: q EST (Expressed Sequence Tag) se ottenuti con metodo (tradizionale) Sanger q RNA-seq se ottenuti tramite tecnologie NGS EST vs RNA-seq Metodo Sanger Metodi NGS ð Piuttosto costoso (centinaia di milioni di dollari per Human Genome Project) ð Poco costosi (attorno al milione di dollari per sequenziare il genoma umano) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Processano tanti reads in un run (milioni) (copertura da 10 a 100 volte superiore quella Sanger) ð Lunghezza dei reads fino a 1000 bp ð Qualità elevata ð Lunghezza relativamente bassa ð Qualità relativamente bassa EST vs RNA-seq Metodo Sanger Metodi NGS ð Piuttosto costoso (centinaia di milioni di dollari per Human Genome Expressed Sequence Tag (EST) Project) ð Poco costosi (attorno al milione di dollari per sequenziare il genoma umano) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Processano tanti reads in un run (milioni) (copertura da 10 a 100 RNA-seq volte superiore quella Sanger) ð Lunghezza dei reads fino a 1000 bp ð Qualità elevata ð Lunghezza relativamente bassa ð Qualità relativamente bassa Risorse dati in Bioinformatica Risorse a disposizione ü ü ü ü Banche dati genomiche Browser Genomici Sistemi integrati Software tools Banche dati genomiche Scopo: archiviare e diffondere i dati ottenuti da esperimenti biologici Oggetti contenuti (entries): ü ü ü ü sequenze nucleotidiche (DNA, RNA) ü Geni ü trascritti ü Expressed Sequence Tag (EST) proteine strutture proteiche 3D etc… Banche dati genomiche ü ü Non è detto che siano DB relazionali L’entry è identificata univocamente da un ID (Accession Number) e di solito è un file di puro testo: ü ü ü human-readable facile da sottoporre a parsing (con Ruby, Perl, Python, etc.) Due tipi principali di banche: ü primarie ü ü oggetti di tipo eterogeneo archiviati con un minimo di informazione (ad esempio sequenze nucleotidiche) specializzate: ü oggetti omogenei per tassonomia, funzione, etc. (ad esempio frammenti di trascritto) Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: EMBL Data Bank ü sviluppata da EMBL-EBI (European Bioinformatics Institute, parte dell’European Molecular Biology Laboratory, EMBL) ü formato entry file: EMBL ü http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/ Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: EMBL Data Bank ü sviluppata da EMBL-EBI (European Bioinformatics Institute, parte dell’European Molecular Biology Laboratory, EMBL) ü formato entry file: EMBL ü http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/ GenBank ü sviluppata da NCBI (National Center for Biotechnology Information, USA) ü formato entry file: GenBank ü http://www.ncbi.nlm.nih.gov/Genbank/index.html Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: DDBJ DNA Data Bank of Japan ü sviluppata dal National Institute of Genetics in Mishima ü formato entry file: GenBank ü http://www.ddbj.nig.ac.jp/ Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: DDBJ DNA Data Bank of Japan ü sviluppata dal National Institute of Genetics in Mishima ü formato entry file: GenBank ü http://www.ddbj.nig.ac.jp/ La stessa sequenza nucleotidica è identificata in queste tre banche dallo stesso Accession Number Banche dati genomiche Esercizio q Recuperare la sequenza con Accession Number M10051 da EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in formato EMBL che in formato FASTA Banche dati genomiche Una banca specializzata… UniGene ü banca di trascritti (EST e mRNA) ü mette a disposizione i trascritti raggruppati in cluster. Ogni cluster riguarda un gene e un organismo ü sviluppata da NCBI (National Center for Biotechnology Information, USA) ü formato entry file: FASTA ü http://www.ncbi.nlm.nih.gov/unigene Browser genomici Database che conservano i dati relativi a interi genomi e mettono a disposizione dell’utente un’interfaccia sofisticata per esplorarli Ensembl ü sviluppato da EMBL-EBI + Wellcome Trust Sanger Institute ü http://www.ensembl.org UCSC Genome Browser ü sviluppato da University of California Santa Cruz ü http://genome.ucsc.edu/ Sistemi integrati Sistemi per interrogare contemporaneamente più banche dati Entrez ü ü sviluppato da NCBI (National Center for Biotechnology Information, USA) http://www.ncbi.nlm.nih.gov/gquery