Basi di dati biologiche (Teoria) 1 Banche dati biologiche - Introduzione Il concetto di informazione e’ strettamente connesso a quello di dato e di struttura. Il dato e’ un osservabile (insieme di numeri, caratteri, simboli…) La struttura e’ l’ organizzazione ordinata di dati che ne consente l’apprendimento. Una banca dati e’ l’insieme di dati elementari, omogenei, ordinati e fruibili. In altre parole: e’ una collezione organizzata di dati Esempio: elenco telefonico. L’informazione e’ strutturata in campi (nome, cognome ecc.). Ogni persona con i propri dati e’ un record. 2 Banche dati biologiche - Introduzione I dati biologici necessitano di un’organizzazione. Primo tentativo: Margaret Dayhoff (1925-1983): raccolse, nel 1965, le sequenze di 65 proteine (lavoro pioneristico per il tempo!) Le tecniche di sequenziamento rapido ed i progetti –omici hanno prodotto una quantita’ esplosiva di dati, anche di sequenze L’avvento di Internet ha facilitato di gran lunga l’acquisizione e la distribuzione dell’informazione biologica in banche dati. 3 Banche dati biologiche - Introduzione • Sono collezioni di dati: • strutturati • indicizzati • aggiornati • interconnessi •… • I database biologici sono legati a strumenti per: • recuperare records al loro interno • aggiornare il database • combinare le informazioni >sp|P56478|IL7_RAT MFHVSFRYIFGIPPLILVLLPVTSSD CHIKDKDGKAFGSVLMISINQLDKMT GTDSDCPNNEPNFFKKHLCDDTKEAA FLNRAARKLRQFLKMNISEEFNDHLL RVSDGTQTLVNCTSKEEKTIKEQKKN DPCFLKRLLREIKTCWNKILKGSI • Ci sono 6 principali categorie di basi di dati biologiche : • basi di dati di sequenze: • DNA • RNA • Proteine FUNCTION • basi di dati per il mapping • geni • cromosomi •… • Strutture 3D (PDB) • trascrittomica • funzionali(KEGG) • per la letteratura (PubMed), ontologies (GO),… ONTOLOGIA: modo formale di rappresentare la conoscenza SEQUENCES 3D ONTOLOGIES LITERATURE LS125-4 R14523 CYC223 EXPRESSION MAPPING Banche dati biologiche - Introduzione Nucleic Acids Research Database summary contiene > 1800 database classificati nelle seguenti categorie: •Nucleotide Sequence Databases •RNA sequence databases •Protein sequence databases •Structure Databases •Genomics Databases (non-vertebrate) •Metabolic and Signaling Pathways •Human and other Vertebrate Genomes •Human Genes and Diseases •Microarray Data and other Gene Expression Databases •Proteomics Resources •Other Molecular Biology Databases •Organelle databases •Plant databases •Immunological databases •Cell biology http://www.oxfordjournals.org/our_journals/nar/database/c/ Alcuni database di interesse biologico AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank,BIOMDB, BLOCKS,BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISSMODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc …!!!! Come ci si orienta? Banche dati - introduzione • Principio generale della biologia: DNA genomic DNA databases RNA cDNA ESTs protein phenotype protein sequence databases Le banche dati si strutturano e si integrano per favorire lo studio di questo processo. Tre enti al mondo sono i principali Database di sequenze primarie • Database pubblici che collezionano tutte le sequenze pubblicate: – GenBank (US National Center for Biology information; 1982) http://www.ncbi.nlm.nih.gov/Genb ank/ – EMBL (European Molecular Biology Laboratory; 1982) http://www.ebi.ac.uk/embl/ – DDBJ (DNA Data Bank of Japan; 1986) http://www.ddbj.nig.ac.jp/ Download ftp://ftp.ncbi.nih.gov/genbank ftp://ftp.ebi.ac.uk/pub/databases/embl/ ftp://ftp.ddbj.nig.ac.jp/database/ A partire dal 1992 i tre database condividono tutte le sequenze. Banche dati – dati di sequenza • Che dati si possono trovare? • Principalmente sono presenti • sequenze (nucleotidi, amminoacidi) • strutture • L’uso della rappresentazione dei dati biologici di varia natura come sequenze è la forma di gran lunga più diffusa. Sequenza del gene corrispondente alla proteina BAX (RefSeq: NM_001193517.1) Banche dati - dati di sequenza • Che dati si possono trovare? – Sequenze di DNA: • formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina), t (timina) – esempio: atggtacat..., tag, taa, tga … – Sequenze di RNA: • formate da 4 tipi di lettere: • a (adenina), c (citosina), g (guanina),u (uracile) – esempio: aucgcuaa, auucg, … – Per convenzione sono rappresentate con lettere minuscole (ma non sempre…) – Sequenze proteiche: • formate da 20 lettere • corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I,K, L, M, N, P, Q, R, S, T, V, W, Y – esempio: MPIVDTGSVAPLSAAEK…, TAG,... – Per convenzione sono rappresentate con lettere maiuscole Banche dati - dati di sequenza • Il formato FASTA - Pearson – Rappresentazione mediante testo di sequenze nucleotidiche o peptidiche (lettere MAIUSCOLE). – La prima riga (di lunghezza arbitraria) è preceduta da “>” e rappresenta la descrizione della sequenza. – Le linee precedute da “>” o “;” sono considerate di commento e non vengono interpretate come dato di sequenza – Le linee successive (ciascuna di 80 caratteri) rappresentano la sequenza. – Un file fasta può avere estensione (non c’è uno standard) • • • • • .fasta o .fas (generica) .fna (acidi nucleici) .ffn (regione codificante del genoma) .faa (aminoacidi) (.mpfa per sequenza mutiple) .frn (RNA non codificante) Schemi per formati di intestazione FASTA Esempio di sequenza FASTA LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM AB001325 1442 bp mRNA linear PRI 17-SEP-2005 Homo sapiens AQP3 mRNA for aquaporine 3, partail cds. AB001325 D25280 AB001325.1 GI:1854373 . Homo sapiens (human) Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 AUTHORS Ishibashi,K., Sasaki,S., Saito,F., Ikeuchi,T. and Marumo,F. TITLE Structure and chromosomal localization of a human water channel (AQP3) gene JOURNAL Genomics 27 (2), 352-354 (1995) PUBMED 7558005 REFERENCE 2 (bases 1 to 1442) AUTHORS Ishibashi,K. TITLE Direct Submission JOURNAL Submitted (28-OCT-1996) Kenichi Ishibashi, Tokyo Medical and Dental University, 2nd Internal Medicine; Yushima 1-5-45, Bunkyo-ku, Tokyo 113, Japan (Tel:03-5803-5223, Fax:03-5803-0132) COMMENT On Feb 28, 1997 this sequence version replaced gi:915195. FEATURES Location/Qualifiers source 1..1442 /organism="Homo sapiens" /mol_type="mRNA" /db_xref="taxon:9606" /clone="HUM-AQP3" /tissue_type="kidney" gene 1..1442 /gene="AQP3" CDS 61..939 /gene="AQP3" /note="water channel" /codon_start=1 /product="aquaporin 3" /protein_id="BAA19237.1" /db_xref="GI:1854374" /translation="MGRQKELVSRCGEMLHIRYRLLRQALAECLGTLILVMFGCGSVA QVVLSRGTHGGFLTINLAFGFAVTLGILIAGQVSGAHLNPAVTFAMCFLAREPWIKLP IYTLAQTLGAFLGAGIVFGLYYDAIWHFADNQLFVSGPNGTAGIFATYPSGHLDMING FFDQFIGTASLIVCVLAIVDPYNNPVPRGLEAFTVGLVVLVIGTSMGFNSGYAVNPAR DFGPRLFTALAGWGSAVFTTGQHWWWVPIVSPLLGSIAGVFVYQLMIGCHLEQPPPSN EEENVKLAHVKHKEQI" DNA sequence GenBank File Format header features ORIGIN 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 901 961 ccggggatcc atgggtcgac ttgctccgac ggctccgtgg ctggcctttg cacctgaacc ctgcccatct gggctgtatt aatggcacag ttctttgacc ccttacaaca gtcattggca ggcccccgcc cattggtggt taccagctga gtgaagctgg tccgctgccc acgcgcgccg agaaggagct aggcgctggc cccaggttgt gctttgctgt ctgccgtgac acaccctggc atgatgcaat ccggcatctt agttcatagg accccgtccc cctccatggg tttttacagc gggtgcccat tgatcggctg cccatgtgaa tggccttgag ccacccctgc ggtgtcccgc cgagtgcctg gctcagccgg cactctgggc ctttgccatg acagacgctg ctggcacttt tgctacctac cacagcctcc ccgaggcctg cttcaactcc ccttgcgggc cgtgtcccca ccacctggag gcacaaggag catccactga ccgcccgaca tgcggggaga gggaccctca ggcacccacg atcctcatcg tgcttcctgg ggagccttct gccgacaacc ccctctggac cttatcgtgt gaggccttca ggctatgccg tggggctctg ctcctgggct cagcccccac cagatctgag ctgtccaagg gcgccgc tgctcca tcctcgt gtggttt ctggcca ctcgtga tgggtgc agctttt acttgga gtgtgct ccgtggg tcaaccc cagtctt ccattgc cctccaa tggcaag ccactcc GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Locus name Sequence length Molecule type Division 13 GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Il database genbank è suddiviso in 18 divisioni 1. PRI - primate sequences 2. ROD - rodent sequences 3. MAM - other mammalian sequences 4. VRT - other vertebrate sequences 5. INV - invertebrate sequences 6. PLN - plant, fungal, and algal sequences 7. BCT - bacterial sequences 8. VRL - viral sequences 9. PHG - bacteriophage sequences 10. SYN - synthetic sequences 11. UNA - unannotated sequences 12. EST - EST sequences (expressed sequence tags) 13. PAT - patent sequences 14. STS - STS sequences (sequence tagged sites) 15. GSS - GSS sequences (genome survey sequences) 16. HTG - HTG sequences (high-throughput genomic sequences) 17. HTC - unfinished high-throughput cDNA sequencing 18. ENV - environmental sampling sequences 14 GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Descrizione della sequenza 15 GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Identificatore univoco della sequenza 16 GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Versione Numero identificatore della sequenza (cambia se cambia in qualche modo la sequenza 17 GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Nome scientifico dell’organismo 18 GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Eventuali riferimenti bibliografici 19 GenBank Flat file format Il formato GenBank Flat file contiene un header con dei metadati: Features: informazioni su geni e altre regioni di rilevanza biologica Regione corrispondente ad un gene (dalla base 687 alla base 3158) Regione corrisondente ad una regione codificante una proteina Id della proteina codificata Traduzione della sequenza nucleotidica in sequenza amminoacidica 20 GenBank Flat file format L’ultima parte del file contiene la sequenza nucleotidica 21 Banche dati - dati di sequenza • Il formato XML (eXtensible Markup Language) – Replica la struttura logica del record nella banca dati – I tag permettono di delimitare e definire campi e sottocampi <?xml version='1.0' encoding='UTF-8'?> <feature type="turn"> <uniprot xmlns="http://uniprot.org/uniprot" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" <location> xsi:schemaLocation="http://uniprot.org/uniprot http://www.uniprot.org/support/docs/uniprot.xsd"> <begin position="147"/> <entry dataset="Swiss-Prot" created="1995-02-01" modified="2011-01-11" version="120"> <end position="149"/> <accession>Q07812</accession> </location> <accession>A8K4W1</accession> </feature> <accession>P55269</accession> <accession>Q07814</accession> <feature type="helix"> <accession>Q07815</accession> <location> <accession>Q8WZ49</accession> <begin position="150"/> <accession>Q9NR76</accession> <end position="154"/> <accession>Q9NYG7</accession> </location> <accession>Q9UCZ6</accession> </feature> <accession>Q9UCZ7</accession> <accession>Q9UQD6</accession> <feature type="helix"> <name>BAX_HUMAN</name> <location> <protein> <begin position="159"/> <recommendedName> <end position="164"/> <fullName>Apoptosis regulator BAX</fullName> </location> </recommendedName> </feature> <alternativeName> <fullName>Bcl-2-like protein 4</fullName> <feature type="helix"> <shortName>Bcl2-L-4</shortName> <location> </alternativeName> <begin position="171"/> </protein> <end position="188"/> <gene> </location> <name type="primary">BAX</name> </feature> <name type="synonym">BCL2L4</name> </gene> <evidence key="EC1" category="curator" type="Literature" attribute="PubMed=8358790" date="2010-07-01"/> <organism> <evidence key="EC2" category="curator" type="Literature" attribute="PubMed=10772918" date="2010-07-01"/> <name type="scientific">Homo sapiens</name> <evidence key="EC3" category="curator" type="Literature" attribute="PubMed=8521816" date="2010-07-01"/> <name type="common">Human</name> <evidence key="EC4" category="curator" type="Literature" attribute="PubMed=11259440" date="2010-07-01"/> <dbReference type="NCBI Taxonomy" id="9606" key="1"/> <evidence key="EC5" category="curator" type="Literature" attribute="PubMed=12732850" date="2010-07-01"/> <lineage> <evidence key="EC6" category="curator" type="Literature" attribute="PubMed=15071501" date="2010-07-01"/> <taxon>Eukaryota</taxon> <taxon>Metazoa</taxon> <evidence key="EC7" category="curator" type="Literature" attribute="PubMed=20300062" date="2010-07-01"/> <taxon>Chordata</taxon> <evidence key="EC8" category="curator" type="Literature" attribute="PubMed=11106734" date="2010-07-01"/> <taxon>Craniata</taxon> <evidence key="EC9" category="curator" type="Literature" attribute="PubMed=10228148" date="2010-07-01"/> <taxon>Vertebrata</taxon> <evidence key="EC10" category="curator" type="Literature" attribute="PubMed=11912183" date="2010-07-01"/> <taxon>Euteleostomi</taxon> <evidence key="EC11" category="curator" type="Literature" attribute="PubMed=19413330" date="2010-07-01"/> <taxon>Mammalia</taxon> <evidence key="EC12" category="curator" type="Literature" attribute="PubMed=9531611" date="2010-07-01"/> <taxon>Eutheria</taxon> <taxon>Euarchontoglires</taxon> <evidence key="EC13" category="curator" type="Literature" attribute="PubMed=7475270" date="2010-07-01"/> <taxon>Primates</taxon> <sequence length="192" mass="21184" checksum="6C0CDB0A7DEE4994" modified="1995-02-01"version="1"> <taxon>Haplorrhini</taxon> MDGSGEQPRGGGPTSSEQIMKTGALLLQGFIQDRAGRMGGEAPELALDPVPQDASTKK <taxon>Catarrhini</taxon> LSECLKRIGDELDSNMELQRMIAAVDTDSPREVFFRVAADMFSDGNFNWGRVVALFYF <taxon>Hominidae</taxon> ASKLVLKALCTKVPELIRTIMGWTLDFLRERLLGWIQDQGGWDGLLSYFGTPTWQTVTIF <taxon>Homo</taxon> VAGVLTASLTIWKKMG</sequence> </lineage> </organism> </entry> <reference key="2"> <copyright>Copyrighted by the UniProt Consortium, see http://www.uniprot.org/termsDistributed […] under the Creative Commons Attribution-NoDerivs License</copyright> </uniprot> Banche dati - NCBI • Offre accesso a TANTE risorse di vario tipo: – Sequenze geniche e proteiche – Strutture terziarie – Genomi completi – Pathways – EST (expressed sequence tags) – Profili trascrittomici – Cataloghi tassonimici – … • accesso a numerosi database attraverso il sistema Entrez: – GenBank – Swissprot – PubMed – GEO – … Banche dati - NCBI • Poiché i dati sono condivisi tra le principali banche dati, iniziamo da NCBI (www.ncbi.nlm.nih.gov) Dati sull’ereditarietà dei caratteri e su disordini genetici Tassonomie • Una ricerca qualunque dall’home page apre ENTREZ, interfaccia per l’accesso ai database presenti in NCBI Banche dati - NCBI PubMed è l’interfaccia di accesso a MEDLINE. Con I suoi • 20 milioni di record fino agli anni ‘50 • 4600 riviste da più di 70 paesi E’ la banca dati per la letteratura biomedica più completa. (Accessibile anche tramite EBI tramite CiteXplore) Banche dati - NCBI Nucleotide Database di sequenze nucleotodiche primario. •EST (expressed sequence tag) • GSS (genome sequence surveys altre sequenze, BactArtifChromosome, YeastArtifChromosome,...) Database di sequenze nucleotidiche secondari: • RefSeq (sistema di identificazione) • Unigene (sequenze raggruppate) Gene è orientato ai geni, ai loci Banche dati - NCBI Protein è la sezione focalizzata sulle proteine, alle quali possono corrispondere strutture PubChem dedicato ai composti chimici Banche dati - NCBI Qui i genomi completi con riferimenti alla ricerca effettuata, varianti genomiche, ecc Informazioni su profili di espressione genica in diverse condizioni, modifiche post-traduzionali GEO (Gene Expression Omnibus) repository Banche dati - NCBI Database con informazioni riguardanti la salute umana: • letteratura • informazioni sui test genetici disponibili • Varianti di sequenza con significato clinico •… 30 Banche dati - NCBI …E molto altro! Banche dati - NCBI Banche dati - NCBI In fondo alla pagina links molto utili: NCBI Banche dati primarie GenBank è la banca dati di tutte le sequenze in NCBI (sincronizzata con EMBL e DDBJ) Le sequenze derivano da diverse fonti e tipi: Geni (regioni di regolazione, esoni, introni: unità ereditarie) EST (Expressed Sequence Tags) brevi segmenti di DNA trascritti e sequenz. da cDNA (ottenuto da mRNA retrotrascritto) STS (sequence tagged site, dove l’informazione genetica è mappata fisicamente) GSS (Genome Survey Sequence, vettori come BactArtifChromosome, YeastArtifChromosome o sequenze solo parzialmente sequenziate) HTGS (High Throughput Genomic Sequence, sequenze prodotte da tecniche di seconda generazione per il sequenziamento veloce, messe qui in “preview”) Sequenze di proteine (sezione nr, non redundant) Così tanto materiale ha provocato l’esigenza di ordine: Unigene e RefSeq NCBI Banche dati secondarie Revisioni curate derivate dai database di sequenze primari Unigene Ha lo scopo di raggruppare le EST in insiemi non ridondanti tutti riferiti allo stesso locus. Integra anche informazioni trascrittomiche (tessuti, condizioni) Si combina con la ricerca su homoloGene per trovare omologhi tra specie diverse 35 NCBI Banche dati secondarie RefSeq è stato ideato per far corrispondere a ciascun trascritto normalmente prodotto da un gene e a ciascuna proteina una sequenza di riferimento, un identificatore (accession number). Altri esempi di identificatori NON RefSeq sono: X02775 Rs7079946 N91759.1 GenBank/EMBL/DDBJ nucleotidic sequence dbSNP (single nucleotide polymorphism) An expressed sequence tag AAC02945 Q28369 1KT7 GenBank protein SwissProt protein Protein Data Bank structure record Refseq fornisce un identificatore per la sequenza di riferimento, curato dal personale dell’NCBI Banche dati - NCBI I formati principali degli id RefSeq sono: Complete genome/chromosome/plasmid NC_###### Genomic contig (segmenti sovrapposti di DNA segments che rappresentano una sequenza consenso) NT_###### mRNA (DNA format) NM_###### e.g. NM_006744 Protein NP_###### e.g. NP_006735 E molti altri: Accession Molecule NT_123456 Genomic NW_123456 Genomic NZ_ABCD12345678 Genomic XM_123456 mRNA XP_123456 Protein XR_123456 RNA YP_123456 Protein ZP_12345678 Protein Method Automated Automated Automated Automated Automated Automated Auto. & Curated Automated Note Genomic assemblies Genomic assemblies Whole genome shotgun data Transcript products Protein products Transcript products Protein products Protein products Accession Molecule AC_123456 Genomic AP_123456 Protein NC_123456 Genomic NG_123456 Genomic NM_123456 mRNA NM_12345689 mRNA NP_123456 Protein NP_123456789 Protein NR_123456 RNA Method Mixed Mixed Mixed Mixed Mixed Mixed Mixed Curation Note Alternate complete genomic Protein products; alternate Complete genomic molecules Incomplete genomic regions Transcript products; mRNA Transcript products; 9-digit Protein products; Protein products; 9-digit Banche dati - NCBI • Un primo esempio di ricerca: emoglobina – Una delle prime proteine ad essere studiata (anni ’30 e ’40, da Mulder, Liebing et al.) – La mioglobina, una globina (struttura globulare a 8 eliche) che lega l’ossigeno nei tessuti muscolari, è stata la prima proteina la cui struttura tridimensionale è stata risolta tramite cristallografia John Kendrew, 1962, Nobel Prize for Chemistry (w. Max Perutz) Banche dati - NCBI • Un primo esempio di ricerca: emoglobina – L’emoglobina è un tetramero (due domini alfa e due beta negli adulti) è il principale trasportatore di ossigeno nei vertebrati. Assieme alla mioglobina è stata usata nei primi studi sugli allineamenti multipli. – Negli anni ’80 con le prime tecniche di sequenziamento è stata localizzata in due loci, uno sul cromosoma 16 (subunità alfa) e 11 (subunità beta). I due geni sono regolati sia in base all’età che in base ai diversi tessuti. Banche dati - NCBI • Un primo esempio di ricerca: emoglobina Banche dati - NCBI Seguireillinka“Gene” Banche dati - NCBI Entrez Gene (ex LocusLink) è un portale curato che descrive loci genetici nomenclatura alias accession numbers fenotipi OMIM (ereditarietà dei caratteri) cluster UniGene HomoloGene mappatura sul genoma collegamenti esterni Banche dati - NCBI •In generale, trova ad offi 113 entries • Intestazione: Entrez Gene • Nota: “Official Symbol” HBB per la beta globina Banche dati - NCBI Limitiamoci alla ricerca in Homo Sapiens Banche dati - NCBI Cliccando la specie si aggiorna automaticamente la stringa di ricerca •Con il limite Homo Sapiens le entries sono solo 39 Banche dati - NCBI Entrez Gene (inizio dell’entry) Sulla dx in basso: numerosi link a database esterni Banche dati - NCBI Entrez Gene (continua…) Regioni genomiche… Banche dati - NCBI Entrez Gene (continua…) E informazioni bibliografiche Banche dati - NCBI Entrez Gene (…continua…): GeneRif (intended to facilitate access to publications documenting experiments that add to our understanding of a gene and its function) Banche dati - NCBI E ancora Fenotipi, Variazione Genica, Pathways per Biosistemi e Interazioni note con altri geni) Banche dati - NCBI Entrez Gene (…continua…): Ontologia Ontologia (fondamentale per sistemi automatici di apprendimento) Classificazione e organizzazione dei dati in categorie predefinite così da agevolare l’individuazione di analogie e caratteristiche primarie. Può essere di diversi tipi, ma la principale distingue: 1.Funzione molecolare 2.Localizzazione cellulare 3.Processo biologico Banche dati - NCBI Entrez Gene (…continua… Quasi fine pagina): Catalogazione RefSeq Banche dati - NCBI Operatore AND (&) Restringe il campo di ricerca, inserendo ad es. la stringa: equus caballus AND hemoglobin alpha La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di descrizione contengono entrambe le parole. Quindi le sequenze proteiche del cavallo che non contengono nella descrizione la parola hemoglobin non vengono selezionate. 1 AND 2 1 2 Banche dati - NCBI Operatore OR (|) Estende il campo di ricerca, digitando ad esempio: homo sapiens OR mus musculus Otterremo una lista di sequenze i cui campi contengono la parola homo sapiens o la parola mus musculus. L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme delle sequenze che incontrano le nostre esigenze. 1 OR 2 1 2 Banche dati - NCBI Operatore NOT (!) Restringe il campo di ricerca, inserendo: homo sapiens BUT NOT hemoglobin Richiederemo sequenze i cui campi contengono la parola homo sapiens ma non la parola hemoglobin. 1 NOT 2 1 2 Banche dati - NCBI • Gli operatori booleani si possono combinare, vengono letti da sinistra a destra. Per questo sono utili le parentesi. • Ad esempio: globin AND promoter OR enhancer produce quasi 5000 hits. Ma se si scrive globin AND (promoter OR enhancer) se ne ottengono circa 70. • Altre possibilità sono: – Specificare un organismo (human, nella query: human[ORGN] – Usare l’asterisco: glob* restituisce tutte le entry che contengono una stringa che inizia per “glob” – Usare le virgolette “”. La ricerca di “toxin B1” restituirà le entries che contengono esattamente la stringa intera. – Ecc. ecc. Banche dati - NCBI Esempio di applicazione: Ricerca di una sequenza nucleotidica Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici. Un esempio è il Mycobacterium Tuberculosis, agente responsabile della tubercolosi. La domanda che ci si pone è: Ci sono sequenze nucleotidiche nel M.Tuberculosis con la caratteristica“Penicillin-binding”? Passi: 1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per “Penicillinbinding” (nota la stringa e non le due parole singolarmente) 2. Cerchiamo solo le sequenze di M.Tubercolosis. 3. Combiniamo i due criteri di selezione. Banche dati - NCBI Criterio di selezione Numero di sequenze Selezionare limits per Il 2° punto e successivamente “advanced” Cerchiamo sequenze nucleotidiche Banche dati - NCBI Con limits abbiamo alcune opzioni per restringere la ricerca. Ma con advanced è molto più mirata. Banche dati - NCBI Ora possiamo aggiungere l’organismo (new field) History “ricorda” la ricerca fatta e il numero di Items trovati Ogni ricerca precedente ha un suo ID numerico Banche dati - NCBI Scegliere HISTORY per combinare i criteri Banche dati - NCBI Sintassi per combinare le ricerche Numero di sequenze Banche dati - NCBI Il numero finale di sequenze è drasticamente ridotto Banche dati - NCBI HomoloGene: la risorsa ideale per individuare gruppi di geni omologhi negli eucarioti presenti in NCBI Banche dati di proteine: NCBI Protein Entrez Protein (1/2) Contiene diverse Informazioni su proteine • 147 aminoacidi • PRI: primates • NP_000509 (protein accession number) • NM_000518.4 (mRNA, RefSeq) • Riferimenti bibliografici • Sequenza FASTA (Opzione Display) Banche dati - Proteine Entrez Protein (2/2) Contiene diverse Informazioni su proteine • Siti di modificazione posttraduzionalee (AA94, AA121) • Riferimenti ad altri database • Sequenza aminoacidica (1 lettera) E’ un record non molto ricco dal punto di vista dei dati delle proteine… Uniprot Uniprot è il più completo database centralizzato per le sequenze proteiche. E’ organizzato su 3 livelli: 1) Uniprot Knowledge Base Swiss-Prot (curato) TrEMBL (automatico) 2) UniProt Reference clusters (UniRef) Cluster di proteine che condividono il 50%, 90%, 100% di identità di sequenza 3) UniProt Archive (UniParc) Archivio di sequenze proteiche stabile, non ridondante, da diverse fonti Dal 2002 Uniprot si è fuso con PIR, un’altra importante risorsa per le sequenze proteiche Uniprot - Homepage Casella di ricerca Accesso alle diverse informazioni in Uniprot 68 Uniprot – Esempio di ricerca 69 Uniprot Ricerca ristretta a proteine di uomo 70 Uniprot – esempio di una entry Tavola con i contenuti disponibili 71 Uniprot – esempio di una entry 72 Uniprot – esempio di una entry 73 Uniprot – esempio di una entry 74 Uniprot – esempio di una entry 75 Uniprot – esempio di una entry 76 Uniprot – esempio di una entry 77 Uniprot – esempio di una entry Link a PDB (protein data bank), database di strutture proteiche 78 Uniprot – esempio di una entry 79 Uniprot – esempio di una entry 80 Uniprot – esempio di una entry Link ad altri database di sequenze (EMBL,GeneBank, DDBJ), varianti, Wikipedia, ecc… 81 Uniprot – esempio di una entry 82 Banche dati - Proteine ExPASy (Expert Protein Analysis System) E’ una risorsa curata, espressione del SIB (Swiss Institute of Bioinformatics). Principalmente dedicata alle proteine ma include tools anche per altri ambiti quali system biology, population genetics, imaging ecc… La risorsa principale che ha prodotto è SwissProt (confluita in Uniprot) Rimane un punto di riferimento per molti tools Banche dati - NCBI dbSNP (single nucleotide polimorfism) dbSNP – esempio di ricerca 85 dbSNP – esempio di ricerca Filtri 86 dbSNP – esempio di ricerca Organismo 87 dbSNP – esempio di ricerca Classe della variante 88 dbSNP – esempio di ricerca Significato clinico 89 dbSNP – esempio di ricerca Classe della funzione 90 dbSNP – applicazione di filtri Numero totale di varianti ridotto a 21 da oltre 1400 Notare che viene visualizzata anche l’espressione completa della ricerca 91 dbSNP – esempio di una entry 92 dbSNP – esempio di una entry Dati generali dello SNP: Organismo, genoma di riferimento, validazione, riferimenti bibliografici 93 dbSNP – esempio di una entry 94 dbSNP – esempio di una entry Alleli 95 dbSNP – esempio di una entry Collegamento ad OMIM: compendio di geni umani e fenotipi 96 dbSNP – esempio di una entry Collegamento a ClinVar (Clinical Variants): raccolta di informazioni che collegano le varianti con la loro relazione con la salute umana. 97 dbSNP – esempio di una entry Frequenza dell’allele minore nella popolazione e numero di soggetti su cui è stata visto l’allele minore 98 dbSNP – esempio di una entry Variation viewer mostra la variante in un contesto genomico 99 dbSNP – Link a Variation Viewer Visualizzazione delle varianti in un contesto genomico 100 dbSNP – Link a Variation Viewer Visualizzazione delle varianti in un contesto genomico Varianti di interesse clinico 101 dbSNP – Link a Variation Viewer Visualizzazione delle varianti in un contesto genomico Grandi varianti strutturali in dbVar 102 dbSNP – Link a Variation Viewer Visualizzazione delle varianti in un contesto genomico Varianti in dbSNP 103 dbSNP – Link a Variation Viewer Cliccando sui rettangolini posso vere quali altri varianti cliniche sono presenti nel gene 104 dbSNP – esempio di una entry Sommario di tutte le sottomissioni riguardanti questa SNP 105 dbSNP – esempio di una entry Sequenza fasta e link ad altri db (sequenze ed altro) in NCBI 106 dbSNP – esempio di una entry Dati di frequenza nelle popolazioni Alleli rari sono potenzialmente importanti le frequenze sono state abbassate da una selezione “purificatrice” 107 Banche dati - OMIM Catalogo di geni umani e disordini genetici •Precedentemente presso l’NCBI ora ha una pagina web dedicata. •Risorsa importante per la ricerca biomedica. •Compendio di geni umani e fenotipi •Raccoglie informazioni dalla letteratura scientifica con link alle risorse bibliografiche e strumenti di analisi genomica. •Aggiornato giornalmente http://www.omim.org/ Banche dati - OMIM • OMIM si focalizza principalmente su: – malattie o fenotipi mendeliani a singolo gene (Es.: fibrosi cistica, anemia falciforme,…) – Malattie complesse con un contributo significativo da parte di un singolo gene – Sindromi da duplicazioni e delezioni ricorrenti 109 Statistiche di OMIM Quasi 23,000 entry a Marzo 2015 110 Homepage di OMIM Link a diverse risorse Ricerca di base Esempi di ricerca su OMIM Autocompletamento 112 OMIM – risultati della ricerca Cliccare per aprire 113 OMIM – Visualizzazione di una entry Link alla sezioni della pagina 114 OMIM – Visualizzazione di una entry Relazione gene-fenotipo 115 OMIM – Visualizzazione di una entry Location 116 Omim – location Genes in the same region 117 OMIM – Visualizzazione di una entry Phenotype mapping key • Phenotype map key 1: the disorder has been placed on the map based on its association with a gene, but the underlying defect is not known. • Phenotype map key 2: the disorder has been placed on the map by linkage; no mutation has been found. • Phenotype map key 3: the molecular basis for the disorder is known; a mutation has been found in the gene. • Phenotype map key 4: a contiguous gene deletion or duplication syndrome; multiple genes are deleted or duplicated causing the phenotype. 118 OMIM – Visualizzazione di una entry Gene/Locus ID in OMIM 119 OMIM – Gene Tutte le relazioni gene-fenotipo per il locus HBB 120 OMIM – Gene Tutte le relazioni gene-fenotipo per il locus HBB 121 Varianti alleliche OMIM – Gene Mutations are cataloged in OMIM in the Allelic Variants section of gene entries (see 1.2). For most genes, only selected mutations are included. Criteria for inclusion include the first mutation to be discovered, high population frequency, distinctive phenotype, historic significance, unusual mechanism of mutation, unusual pathogenetic mechanism, and distinctive inheritance (e.g., dominant with some mutations, recessive with other mutations in the same gene). Most of the allelic variants represent disease-causing mutations. A few polymorphisms are included, many of which show a positive correlation with particular common disorders. http://www.omim.org/help/faq122 OMIM – Visualizzazione di una entry Descrizione del fenotipo 123 OMIM – Visualizzazione di una entry Caratteristiche cliniche 124 OMIM – Visualizzazione di una entry Modalità di diagnosi 125 OMIM – Visualizzazione di una entry Gestione clinica 126 OMIM – Visualizzazione di una entry 127 OMIM – Visualizzazione di una entry 128 OMIM – Links Lista di identificatori dell’International Classification of Diseases (ICD) e Systematized Nomenclature of Medicine (SNOMed) 129 OMIM – Links 130 OMIM – Links 131 OMIM – Links Link al database di proteine Uniprot 132 OMIM – Links Link al database di trial clinici 133 OMIM – Links Link al Genetic Testing Registry (GTR) 134 OMIM – risultati della ricerca Cliccando su Gene Map è possibile visualizzare i geni corrispondenti alla ricerca eseguite 135 OMIM – Gene map 136 OMIM – risultati della ricerca Cliccando su Clinical Synopsis è possibile accedere direttamente a delle sinopsi cliniche 137 OMIM – clinical synopsis 138 The central dogma of molecular biology DNA Replication RNA Transcription Translation PROTEIN Genes are transcribed from DNA into mRNA, which leaves the nucleus and is translated to protein. A gene actively transcribed is said to be 139 expressed. Database di dati di espressione • Gene Expression Ominbus (GEO) database – NCBI • http://www.ncbi.nlm.nih.gov/geo/ • EMBL-EBI microarray database (ArrayExpress) • https://www.ebi.ac.uk/arrayexpress/ • Stanford Microarray Database (SMD) • http://smd.princeton.edu • caARRAY (outdated) • • – https://cabig-stage.nci.nih.gov/community/tools/caArray The Cancer Genome Atlas (TCGA) – http://cancergenome.nih.gov/ PlexDB (unified gene expression resource for plants and plant pathogens) – http://www.plexdb.org/ GEO Curated User submitted GEO organization Platforms (GPLxxx) A Platform record is composed of a summary description of the array or sequencer and, for array-based Platforms, a data table defining the array template. A Platform may reference many Samples that have been submitted by multiple submitters. Platform data table Platform data table header Samples (GSMxxx) A Sample record describes the conditions under which an individual Sample was handled, the manipulations it underwent, and the abundance measurement of each element derived from it. A Sample entity must reference only one Platform and may be included in multiple Series. Sample data Series (GSExxx) A Series record links together a group of related Samples and provides a focal point and description of the whole study. GEO Datasets and Profiles • GEO Profiles This database stores individual gene expression and molecular abundance profiles assembled from the Gene Expression Omnibus (GEO) repository. Search for specific profiles of interest based on gene annotation or precomputed profile characteristics. GEO Profiles facilitates powerful searching and linking to additional information sources. • GEO DataSets This database stores curated gene expression and molecular abundance DataSets assembled from the Gene Expression Omnibus (GEO) repository. Enter search terms to locate experiments of interest. DataSet records contain additional resources including cluster tools and differential expression queries. Repository Browser Repository Browser It’s possible to browse the repository at different levels Repository Browser Data can be browsed by Series Repository Browser Data can be browsed by Series, Samples Repository Browser Data can be browsed by Series, Samples, Platforms Repository Browser Data can be browsed by Series, Samples, Platforms and Datasets Datasets Filters Expression profiles Filtering expression profiles Profile of a specific gene You can also go back to the information related to each specific sample analized Sample Title Value Rank GSM562208 Control, biological rep1 6.24609 56 GSM562209 Control, biological rep2 6.75805 61 GSM562210 Control, biological rep3 6.45933 59 GSM562211 Dark, biological rep1 5.88078 52 GSM562212 Dark, biological rep2 5.92748 53 GSM562213 Dark, biological rep3 5.98739 54 GSM562214 Light, biological rep1 7.72981 74 GSM562215 Light, biological rep2 8.29298 81 GSM562216 Light, biological rep3 8.27405 81 Profile neighbors Connects Profiles that show a similar expression pattern to the chosen Profile within a Da Profile neighbors Profile data can be downloaded Profile data can be downloaded Pathways