Corso di Elementi di Bioinformatica Laurea Triennale in Informatica I dati e le banche dati in Bioinformatica Anno Accademico 2015-2016 Docente del laboratorio: Raffaella Rizzi 1 Il DNA (oggetto biologico) Il DNA è una catena polinucleotidica che contiene le informazioni per la sintesi di RNA e di proteine. Il “mattoncino” che compone una catena di DNA prende il nome di nucleotide. D b P D: deossiribosio (zucchero pentoso) P: gruppo fosfato b: base azotata Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D b P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D A P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D G P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D C P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D T P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D T P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) purine - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D T P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) pirimidine - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) D T P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) 3’ D 5’ T P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) Il nucleotide (“mattoncino” del DNA) 3’ D 5’ T direzione 5’3’ P D: zucchero pentoso (deossiribosio) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) - timina (T) Il DNA (oggetto biologico) 3’ D T P D A P D 5’ P C La sequenza delle basi azotate elencate dal 5’ al 3’ fornisce la sequenza primaria di una catena di DNA Nell’esempio della figura si legge quindi CAT (e non TAC) Il DNA (oggetto biologico) 3’ D T P D A P D 5’ P C In termini informatici è nucleotide “uguale a” base azotata La sequenza delle basi azotate elencate dal 5’ al 3’ fornisce la sequenza primaria di una catena di DNA Nell’esempio della figura si legge quindi CAT (e non TAC) Il DNA (oggetto biologico) P 5’ D T A A T C G D 3’ P P D D P P 5’ P D D 3’ Il DNA (oggetto biologico) P 5’ D T A D P P A è complementare a T C è complementare a G D A T C G D 3’ P P 5’ P D D 3’ Il DNA (oggetto biologico) P D T A A T C G D 3’ P P D D P P P D D strand + (forward) 5’ 5’ strand – (reverse) 3’ Il DNA (oggetto biologico) P D T A A T C G D 3’ 5’ strand – (reverse) P P D P D P D Catena forward è CAT D strand + (forward) 5’ P 3’ Il DNA (oggetto biologico) P D T A D 3’ P P A T C G P P D D P Catena reverse è ATG D D strand + (forward) 5’ 5’ strand – (reverse) 3’ Il DNA (dato informatico) La sequenza primaria di un catena di DNA è dunque rappresentata tramite una stringa di simboli appartenenti all’alfabeto Σ={A,C,G,T} Il DNA (dato informatico) La sequenza primaria di un catena di DNA è dunque rappresentata tramite una stringa di simboli appartenenti all’alfabeto Σ={A,C,G,T} Data una delle due sequenze della doppia elica del DNA ottengo la sequenza appaiata eseguendo un’operazione di reverse&complement, cioé: ü si trasformano le basi secondo la regola (complemento): ü ü A->T, T->A, C->G, G->C si inverte la sequenza (cioé la si legge al contrario) Il DNA (dato informatico) Esempio di Reverse&Complement: ACGTAGGATGGACGATGACGATGACGAT Il DNA (dato informatico) Esempio di Reverse&Complement: ACGTAGGATGGACGATGACGATGACGAT complement TGCATCCTACCTGCTACTGCTACTGCTA Il DNA (dato informatico) Esempio di Reverse&Complement: ACGTAGGATGGACGATGACGATGACGAT complement TGCATCCTACCTGCTACTGCTACTGCTA reverse ATCGTCATCGTCATCGTCCATCCTACGT L’RNA (oggetto biologico) Il nucleotide (il “mattoncino” dell’RNA) R b P D: ribosio (zucchero pentoso) P: gruppo fosfato b: base azotata di quattro tipi: - adenina (A) - guanina (G) - citosina (C) uracile al posto della - uracile (U) timina (T) L’RNA (dato informatico) La sequenza primaria di un catena di RNA è rappresentata tramite una stringa simboli appartenenti all’alfabeto Σ={A,C,G,U} L’RNA si trova in catene singole La proteina Una proteina è una sequenza di amminoacidi, e dal punto di vista informatico, la sua sequenza primaria è rappresentata come una stringa definita su un alfabeto di 20 simboli. Il sequenziamento Il dato informatico viene prodotto tramite sequenziamento, che significa: è determinare la struttura primaria delle molecole biologiche (DNA/RNA e proteine) è sequenza delle basi {A,C,G,T|U} per DNA e RNA è sequenza degli amminoacidi per le proteine Glu Ile Phe Thr Val His Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola biologica? è single-end read DNA/RNA GTTGTGCAGTGACGGA Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read (o mate-pair) insertion size DNA/RNA A B Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read (o mate-pair) insertion size DNA/RNA A B A=B Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read (o mate-pair) insertion size DNA/RNA A B A=B Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA è paired-end read (o mate-pair) insertion size DNA/RNA agttgcgt A agttgcgt aatgcctg B gtccgtaa A=B Sanger VS Next-Generation Sequencing Metodo Sanger Metodi Next-Generation Sequencing ð Piuttosto costoso (centinaia di milioni di dollari per Human Genome Project) ð Poco costoso (attorno al milione di dollari per sequenziare il genoma umano) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Processa tanti reads in un run (milioni) (copertura da 10 a 100 volte superiore quella Sanger) ð Lunghezza dei reads fino a 1000 bp ð Reads relativamente corti ð Qualità elevata ð Qualità relativamente bassa Il sequenziamento Attenzione agli errori di sequenziamento!!! Inoltre, le stringhe che rappresentano DNA e RNA sono in realtà definite su di un alfabeto esteso che prende il nome di IUPAC code IUPAC code per DNA SIMBOLO A C G T R Y M K W S B D H V N DESCRIZIONE Adenine Cytosine Guanine Thymine Purine (A or G) Pyrimidine (C or T) C or A T, or G T, or A C or G C, T or G (not A) A, T or G (not C) A, T or C (not G) A, C or G (not T) any base (A, C, G, T) IUPAC code per RNA SIMBOLO A C G U R Y M K W S B D H V N DESCRIZIONE Adenine Cytosine Guanine Uracil Purine (A or G) Pyrimidine (C or U) C or A U or G U or A C or G C, U or G (not A) A, U or G (not C) A, U or C (not G) A, C or G (not U) any base (A, C, G or U) Cos’è un gene? Un gene è una regione (locus) di DNA genomico che codifica proteine. Cos’è un gene? Un gene è una regione (locus) di DNA genomico che codifica proteine. La sequenza genomica di un gene è la sequenza nucleotidica del locus di DNA del gene. Cos’è un gene? Un gene è una regione (locus) di DNA genomico che codifica proteine. La sequenza genomica di un gene è la sequenza nucleotidica del locus di DNA del gene. La sequenza genomica di un gene è una sottostringa di DNA genomico Cos’è un gene? Un gene è una regione (locus) di DNA genomico che codifica proteine. La sequenza genomica di un gene è la sequenza nucleotidica del locus di DNA del gene; in genere viene messa a disposizione in formato FASTA che: ü ü ü ü è un formato di puro testo nato all’interno del software di allineamento FASTA è pensato per memorizzare una sequenza e qualche informazione aggiuntiva è un formato standard di input di molti tools di analisi di sequenze ha estensione *.fa oppure *.fasta Formato FASTA (esempio) >X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1 GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC […] Cos’è un gene? Un gene è una regione (locus) di DNA genomico che codifica proteine. Un gene viene identificato tramite il suo HUGO NAME (http://www.genenames.org/) Esempio di HUGO NAME: ATP6AP1 (ATPase, H+ transporting, lysosomal accessory protein 1) Cos’è un gene? Un gene è una regione (locus) di DNA genomico che codifica proteine. Entrambe le catene di DNA genomico contengono geni. 5’ 3’ strand + (forward) 3’ strand - (reverse) 5’ Cos’è un gene? Un gene è una regione (locus) di DNA genomico che codifica proteine. Entrambe le catene di DNA genomico contengono geni. 5’ strand + (forward) 3’ 3’ strand - (reverse) 5’ direzione di trascrizione Espressione di un gene DNA 5’ 3’ 3’ 5’ Espressione di un gene DNA 5’ 3’ 3’ 5’ La barra verde rappresenta la stringa di DNA del locus genomico del gene (sequenza genomica) Espressione di un gene 5’ DNA 3’ exon 1 intron1 exon 2 intron2 exon 3 3’ 5’ Espressione di un gene 5’ DNA exon 1 intron1 exon 2 intron2 3’ exon 3 3’ 5’ 5’ splice site 3’ splice site (confine esone-introne) (confine introne-esone) Esone = regione codificante Introne = regione non-codificante Espressione di un gene 5’ DNA exon 1 intron1 exon 2 intron2 exon 3 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 intron1 exon 2 intron2 exon 3 3’ Espressione di un gene 5’ DNA exon 1 intron1 exon 2 intron2 exon 3 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 intron1 exon 2 intron2 exon 3 3’ Il pre-mRNA è una copia della sequenza di DNA del gene (a meno della sostituzione di T con U) Espressione di un gene 5’ DNA exon 1 intron1 exon 2 intron2 exon 3 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 intron1 exon 2 intron2 exon 3 SPLICING mRNA exon 1 exon 2 exon 3 (trascritto) 3’ Espressione di un gene 5’ DNA exon 1 intron1 exon 2 intron2 exon 3 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 intron1 exon 2 intron2 exon 3 SPLICING mRNA (trascritto) 3’ Espressione di un gene 5’ DNA exon 1 intron1 exon 2 intron2 exon 3 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 intron1 exon 2 intron2 exon 3 SPLICING mRNA (trascritto) CDS (coding sequence) UAG [stop] UAA UGA AUG………[stop] 3’ Espressione di un gene 5’ DNA exon 1 intron1 exon 2 intron2 exon 3 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 intron1 exon 2 intron2 exon 3 SPLICING mRNA (trascritto) CDS (coding sequence) UAG [stop] UAA UGA AUG………[stop] start codon stop codon 3’ Espressione di un gene 5’ DNA exon 1 exon 2 intron1 intron2 exon 3 3’ 3’ 5’ TRASCRIZIONE pre-mRNA 5’ exon 1 intron1 exon 2 intron2 exon 3 SPLICING mRNA (trascritto) CDS (coding sequence) UAG [stop] UAA UGA AUG………[stop] 5’ UTR 3’ UTR 3’ Espressione di un gene mRNA CDS (coding sequence) (trascritto) AUGCCAAGCGAUUAG Codice genetico da Wikipedia Espressione di un gene mRNA CDS (coding sequence) (trascritto) AUGCCAAGCGAUUAG Proteina: Met Codice genetico da Wikipedia Espressione di un gene mRNA CDS (coding sequence) (trascritto) AUGCCAAGCGAUUAG Proteina: Met Pro Codice genetico da Wikipedia Espressione di un gene mRNA CDS (coding sequence) (trascritto) AUGCCAAGCGAUUAG Proteina: Met Pro Ser Codice genetico da Wikipedia Espressione di un gene mRNA CDS (coding sequence) (trascritto) AUGCCAAGCGAUUAG Proteina: Met Pro Ser Asp Codice genetico da Wikipedia Espressione di un gene mRNA CDS (coding sequence) (trascritto) AUGCCAAGCGAUUAG Met Pro Ser Asp [stop] Codice genetico da Wikipedia Pattern di un introne 5’ exon 1 exon 2 3’ exon 3 Introne canonico GT 99.24 % AG Introni non canonici 0.69 % GC AT AG 0.05 % ALTRO Burset et al., Nucleic Acids Res. 2000, 28:4363-4375 AC 0.02 % Alternative Splicing (AS) Gene1 mRNAref 5’ exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 exon 1’ exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’’ intron retention 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 mRNA2 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon skipping exon 3 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 mRNA2 mRNA3 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon 1’’’ 5’ competing exon 3 exon 2 exon 3 3’ Alternative Splicing (AS) Gene1 5’ mRNAref mRNA1 mRNA2 mRNA3 mRNA4 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon 1’’’ exon 1 exon 3 exon 2 exon 3 exon 2 exon 3’ 3’ competing 3’ Alternative Splicing (AS) Gene2 mRNAref 5’ exon 1 exon 2 exon 3 exon 4 exon 1 exon 2 exon 3 exon 4 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 exon 4 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 exon 4 mutually exclusive exons 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 mRNA3 exon 1 exon 2 exon 4 exon 3 exon 4 multiple poly(A) sites 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 exon 1 exon 2 mRNA3 exon 1 exon 2 exon 3 exon 2 exon 3 mRNA4 exon 1 multiple promoters exon 4 exon 4 exon 4 3’ Alternative Splicing (AS) Gene2 5’ exon 1 exon 2 exon 3 exon 4 mRNAref exon 1 exon 2 exon 3 exon 4 mRNA1 exon 1 exon 3 exon 4 mRNA2 mRNA3 mRNA4 Isoforma = uno dei trascritti (mRNA) che il 1 exon 2 (oppure una gene è exon in grado di trascrivere delle proteine che il gene è in grado di esprimere) exon 1 exon 1 exon 2 exon 3 exon 2 exon 3 multiple promoters exon 4 exon 4 exon 4 3’ Dati importanti… Dati fondamentali in Bioinformatica sono i dati ottenuti dal sequenziamento di trascritto (frammenti di trascritto) che prendono il nome di: q EST (Expressed Sequence Tag) se ottenuti con metodo Sanger q RNA-seq se ottenuti tramite una delle tecnologie NGS EST vs RNA-seq Metodo Sanger Metodi NGS ð Piuttosto costoso (centinaia di milioni di dollari per Human Genome Project) ð Poco costoso (attorno al milione di dollari per sequenziare il genoma umano) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Processa tanti reads in un run (milioni) (copertura da 10 a 100 volte superiore quella Sanger) ð Lunghezza dei reads fino a 1000 bp ð Reads relativamente corti ð Qualità elevata ð Qualità relativamente bassa EST vs RNA-seq Metodo Sanger Metodi NGS ð Piuttosto costoso (centinaia di milioni di dollari perSequence Human Tag Genome Expressed (EST) Project) ð Poco costoso (attorno al milione di dollari per sequenziare il genoma umano) ð Processa pochissimi reads in un run (copertura relativamente bassa) ð Processa tanti reads in un run (milioni) (copertura RNA-seq da 10 a 100 volte superiore quella Sanger) ð Lunghezza dei reads fino a 1000 bp ð Reads relativamente corti ð Qualità elevata ð Qualità relativamente bassa Risorse WEB in Bioinformatica Quali risorse il WEB ci mette a disposizione? ü ü ü ü Banche dati genomiche Sistemi integrati Browser Genomici Tools Risorse WEB in Bioinformatica Quali risorse il WEB ci mette a disposizione? ü ü ü ü Banche dati genomiche Sistemi integrati Browser Genomici Tools Banche dati genomiche Scopo? archiviare e diffondere i dati ottenuti da esperimenti biologici Quali “oggetti” sono contenuti? ü ü ü ü ü Sequenze nucleotidiche (DNA, RNA) ü Geni ü Trascritti ü Expressed Sequence Tag (EST) Proteine SNPs (Single Nucleotide Polymorphism) strutture proteiche 3D e altro ancora… Banche dati genomiche … come risorsa di dati, hanno la necessità di: ü ü ü correlare dati diversi ridurre la ridondanza dei dati ridurre la non uniformità ü ü stesso ID per lo stesso “oggetto” stesso livello di qualità In una parola: (necessità di) integrazione Banche dati genomiche ü ü Non è detto che siano DB relazionali “Oggetto” contenuto = entry ü ü identificata univocamente da un ID entry = text file in un formato che sia: ü ü ü ü human-readable facile da trattare (parsing con Perl, Phyton, Ruby, etc.) flessibile Due tipi principali di banche: ü primarie ü ü oggetti di tipo eterogeneo archiviati con un minimo di informazione (ad esempio sequenze nucleotidiche) specializzate: ü oggetti omogenei per tassonomia, funzione, etc. (ad esempio frammenti di trascritto) Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: EMBL Data Bank ü sviluppata da EMBL-EBI (European Bioinformatics Institute, parte dell’European Molecular Biology Laboratory, EMBL) ü formato entry file: EMBL ü http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/ Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: EMBL Data Bank ü sviluppata da EMBL-EBI (European Bioinformatics Institute, parte dell’European Molecular Biology Laboratory, EMBL) ü formato entry file: EMBL ü http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/ GenBank ü sviluppata da NCBI (National Center for Biotechnology Information, USA) ü formato entry file: GenBank ü http://www.ncbi.nlm.nih.gov/Genbank/index.html Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: DDBJ DNA Data Bank of Japan ü sviluppata dal National Institute of Genetics in Mishima ü formato entry file: GenBank ü http://www.ddbj.nig.ac.jp/ Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: DDBJ DNA Data Bank of Japan ü sviluppata dal National Institute of Genetics in Mishima ü formato entry file: GenBank ü http://www.ddbj.nig.ac.jp/ L’ID univoco che identifica le sequenze all’interno di queste banche prende il nome di Accession Number Banche dati genomiche Le “storiche” banche primarie di sequenze nucleotidiche sono: DDBJ DNA Data Bank of Japan ü sviluppata dal National Institute of Genetics in Mishima ü formato entry file: GenBank ü http://www.ddbj.nig.ac.jp/ Banche dati genomiche Esercizio q Recuperare la sequenza con Accession Number M10051 da EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in formato EMBL che in formato FASTA Banche dati genomiche Esercizio þ q Recuperare la sequenza con Accession Number M10051 da EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in formato EMBL che in formato FASTA Recuperare la sequenza con Accession Number M10051 da GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html) Banche dati genomiche Esercizio q þ q Recuperare la sequenza con Accession Number M10051 da EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in formato EMBL che in formato FASTA Recuperare la sequenza con Accession Number M10051 da GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html) Recuperare la sequenza con Accession Number M10051 da DDBJ (http://www.ddbj.nig.ac.jp/) Banche dati genomiche Una delle banche principali di sequenze proteiche è: UniProt ü fusione di SwissProt + TrEMBL + PIR ü sviluppata da un consorzio di: ü EMBL-EBI ü PIR (Protein Information Resource) ü SIB (Swiss Institute of Bioinformatics) ü http://www.uniprot.org/ Banche dati genomiche Una delle banche principali di sequenze proteiche è: UniProt ü fusione di SwissProt + TrEMBL + PIR ü sviluppata da un consorzio di: ü EMBL-EBI ü PIR (Protein Information Resource) ü SIB (Swiss Institute of Bioinformatics) ü http://www.uniprot.org/ L’ID univoco che identifica le sequenze all’interno di queste banche prende il nome di Accession Number Banche dati genomiche Esercizio q q Recuperare da UniProt la proteina con Accession Number P63104 (http://www.uniprot.org/) Individuare lo HUGO NAME del gene che codifica tale proteina Banche dati genomiche Esercizio q q Recuperare da UniProt la proteina con Accession Number P63104 (http://www.uniprot.org/) Individuare lo HUGO NAME del gene che codifica tale proteina Il gene è YWHAZ Banche dati genomiche Esercizio þ þ q q Recuperare da UniProt la proteina con Accession Number P63104 (http://www.uniprot.org/) Individuare lo HUGO NAME del gene che codifica tale proteina Individuare le isoforme del gene e scaricare la loro sequenza di amminoacidi in formato FASTA Usare BLAST (Basic Local Alignment Search Tool) per cercare in UniProt le proteine simili Banche dati genomiche Banche specializzate: UniGene ü banca di trascritti (EST e mRNA) ü mette a disposizione i trascritti raggruppati per gene e per organismo (cluster) ü sviluppata da NCBI (National Center for Biotechnology Information, USA) ü formato entry file: FASTA ü http://www.ncbi.nlm.nih.gov/unigene Banche dati genomiche Banche specializzate: dbEST ü ü ü banca di sequenze EST sviluppata da NCBI (National Center for Biotechnology Information, USA) http://www.ncbi.nlm.nih.gov/dbEST Banche dati genomiche Banche specializzate: dbEST ü ü ü banca di sequenze EST sviluppata da NCBI (National Center for Biotechnology Information, USA) http://www.ncbi.nlm.nih.gov/dbEST RefSeq ü ü ü banca di sequenze annotate (genomi, cromosomi, mRNA e proteine) sviluppata da NCBI (National Center for Biotechnology Information, USA) http://www.ncbi.nlm.nih.gov/RefSeq Banche dati genomiche Esercizio q Cercare i clusters UniGene associati al gene con HUGO NAME ATP6AP1 e scaricare il cluster relativo all’uomo (http://www.ncbi.nlm.nih.gov/unigene) NB: I clusters UniGene hanno un identificatore univoco del tipo [org]. [dd], dove [org] è un codice a due lettere che specifica l’organismo (ad esempio, Hs per uomo, Mm per topo, Rn per ratto, etc.), e [dd] è una stringa di cifre 0-9. Ad esempio Hs.465744 è l’identificatore del cluster relativo al gene umano INSR Banche dati genomiche Esercizio þ q Cercare i clusters UniGene associati al gene con HUGO NAME ATP6AP1 e scaricare il cluster relativo all’uomo (http://www.ncbi.nlm.nih.gov/unigene) Estrarre l’identificatore gb (GenBank ID), la lunghezza e l’orientamento della prima sequenza EST presente in tale cluster NB: Il GenBank ID di una sequenza in un cluster UniGene è ricavabile dall’header FASTA nel campo /gb=XXXXX La lunghezza L di una sequenza in un cluster UniGene è ricavabile dall’header FASTA nel campo /len=L L’orientamento di una sequenza in un cluster UniGene è ricavabile dall’header FASTA nel campo /clone_end=[5’|3’] (5’ significa che la sequenza è orientata 3’5’, e 3’ significa che la sequenza è orientata 5’3’. Banche dati genomiche Esercizio þ þ q Cercare i clusters UniGene associati al gene con HUGO NAME ATP6AP1 e scaricare il cluster relativo all’uomo (http://www.ncbi.nlm.nih.gov/unigene) Estrarre l’identificatore gb (GenBank ID), la lunghezza e l’orientamento della prima sequenza EST presente in tale cluster Eseguire una nuova interrogazione di UniGene, inserendo il GenBank ID dell’EST trovato al punto precedente Banche dati genomiche Esercizio þ þ q q Cercare i clusters UniGene associati al gene con HUGO NAME ATP6AP1 e scaricare il cluster relativo all’uomo (http://www.ncbi.nlm.nih.gov/unigene) Estrarre l’identificatore gb (GenBank ID), la lunghezza e l’orientamento della prima sequenza EST presente in tale cluster Eseguire una nuova interrogazione di UniGene, inserendo il GenBank ID dell’EST trovato al punto precedente Cercare lo stesso GenBank ID nella banca dati dbEST (http://www.ncbi.nlm.nih.gov/dbEST) Banche dati genomiche Esercizio þ þ q þ q Cercare i clusters UniGene associati al gene con HUGO NAME ATP6AP1 e scaricare il cluster relativo all’uomo (http://www.ncbi.nlm.nih.gov/unigene) Estrarre l’identificatore gb (GenBank ID), la lunghezza e l’orientamento della prima sequenza EST presente in tale cluster Eseguire una nuova interrogazione di UniGene, inserendo il GenBank ID dell’EST trovato al punto precedente Cercare lo stesso GenBank ID nella banca dati dbEST (http://www.ncbi.nlm.nih.gov/dbEST) Cercare nel cluster UniGene appena scaricato, gli mRNA che appartengono anche alla banca RefSeq (http://www.ncbi.nlm.nih.gov/RefSeq) NB: Il GenBank ID di sequenze che sono mRNA provenienti dalla banca RefSeq, inizia con NM_ Banche dati genomiche Esercizio þ þ q þ þ q Cercare i clusters UniGene associati al gene con HUGO NAME ATP6AP1 e scaricare il cluster relativo all’uomo (http://www.ncbi.nlm.nih.gov/unigene) Estrarre l’identificatore gb (GenBank ID), la lunghezza e l’orientamento della prima sequenza EST presente in tale cluster Eseguire una nuova interrogazione di UniGene, inserendo il GenBank ID dell’EST trovato al punto precedente Cercare lo stesso GenBank ID nella banca dati dbEST (http://www.ncbi.nlm.nih.gov/dbEST) Cercare nel cluster UniGene appena scaricato, gli mRNA che appartengono anche alla banca RefSeq (http://www.ncbi.nlm.nih.gov/RefSeq) Cercare uno di tali mRNA sia in dbEST che in RefSeq Banche Dati Biologiche Altre banche specializzate: Entrez Gene ü banca di geni ü sviluppata da NCBI (National Center for Biotechnology Information, USA) ü http://www.ncbi.nlm.nih.gov/gene/ dbSNP ü banca di SNPs (Single Polymorphism Nucleotide) ü sviluppata da NCBI (National Center for Biotechnology Information, USA) ü http://www.ncbi.nlm.nih.gov/SNP/ Banche Dati Biologiche Altre banche specializzate: UTRdb ü ü ü banca di regioni UTR in mRNA di organismi eucarioti sviluppata da ITB-CNR di Bari (Istituto di Tecnologie Biomediche del CNR) http://utrdb.ba.itb.cnr.it Banche Dati Biologiche Altre banche specializzate: PubMed ü banca di riferimenti bibliografici ü sviluppata da NCBI (National Center for Biotechnology Information, USA) ü http://www.ncbi.nlm.nih.gov/pubmed PDB (Protein Data Bank) ü banca di strutture proteiche 3D ü http://www.rcsb.org/pdb/ Sistemi integrati Sistemi per interrogare contemporaneamente più banche dati. SRS ü ü sviluppato EMBL-EBI (European Bioinformatics Institute) http://srs.ebi.ac.uk Entrez ü ü sviluppato da NCBI (National Center for Biotechnology Information, USA) http://www.ncbi.nlm.nih.gov/gquery Sistemi integrati Esercizio ¨ q Usare Entrez per ottenere la sequenza nucleotidica con Accession Number M10051 (http://www.ncbi.nlm.nih.gov/gquery) Usare Entrez per ottenere tutte le risorse in cui presente l’mRNA con GenBank ID NM_012089 (del gene umano ABCB10) e l’EST con GenBank ID AW369172.