B . b a L n i io a m r fo I a c ti Dott. Alejandro Giorgetti Dip. Scientifico e Tecnologico Facoltà di Scienze MM.FF.NN Università di Verona Di Email: [email protected] Testi consigliati Anna Tramontano BIOINFORMATICA ZANICHELLI G. Valle e altri. Introduzione alla Bioinformatica Zanichelli Arthur M. Lesk Introduzione alla bioinformatica MgGraw Hill Baxevanis and Ouellette. Bioinformatics Wiley Bioinformatica E’ una scienza che utilizzando le metodiche delle Scienze dell’Informazione si occupa del trattamento e dell’analisi dei dati di tipo biologico, al fine di formulare ipotesi sui processi della vita Incredibile impulso dalla biologia moderna, accumulando dati di varietà unica, la cui quantità è esplosa negli ultimi anni grazie a: Efficienza dell’Hardware Sviluppo del software Telecomunicazioni (WWW) Rivoluzionare tecniche sperimentali Progetti di sequenziamento genomico Il cosmo ‘omico’ Genoma: Insieme dei geni di un organismo Genomica: scienza che se ne occupa Genoma Umano: Sequenziato completamente nel 2003. Genomica Trascrittogenomica Proteomica Occorre localizzare: Elementi Funzionali Regioni ‘utili’ → geni; Sequenze codificanti, comprendere i meccanismi che regolano l’espressione, scoprire la funzione, e cercare d’intervenire specificamente su quest’ultima. Genomica Strutturale Farmacogenomica Il cosmo ‘omico’ Genomica Trascrittogenomica Ogni cellula contiene la stessa informazione genetica. Proteomica Non tutti i geni sono attivi o espressi allo stesso livello in tutte le cellule. Genomica Strutturale Microarray Farmaco-genomica Il cosmo ‘omico’ Genomica Trascrittogenomica Proteine Presenti Quantità Modifiche post-traduzionali Proteomica Genomica Strutturale Farmaco-genomica Il cosmo ‘omico’ Genomica Trascrittogenomica Proteomica Genomica Strutturale Farmaco-genomica Il cosmo ‘omico’ Genomica Trascrittogenomica Proteomica Genomica Strutturale Farmaco-genomica La Giungla dei dati biologici Sequenze Dati gentici Biologia Strutturale Biologia molecolare medicina Fisiologia Espressione genica tossicologia Lab. Bioinformatica I Il corso di Bioinformatica e Banche dati biologiche si propone di fornire allo studente le basi, teoriche e applicative, riguardanti gli algoritmi e i programmi utilizzati nella ricerca e analisi primaria dei dati contenuti nelle principali banche dati biologiche di uso corrente in proteomica, genomica, biochimica, biologia molecolare e strutturale. Il corso si propone, inoltre, di mettere in grado lo studente di utilizzare con dimestichezza in laboratorio, gli strumenti illustrati in aula. Di particolare interesse sono la raccolta e la distribuzione di informazioni biomolecolari mediante banche dati ed il loro corretto sfruttamento al fine di integrare i dati sperimentali, prodotti in laboratorio, con una serie di analisi comparative, sviluppate in silico atte a migliorarne la qualità e la comprensione. Introduzione ai recenti sviluppi delle banche dati di interesse biologico e al loro utilizzo. Cenni ai programmi utilizzati in genomica funzionale, proteomica e genomica strutturale. - Introduzione alle banche dati biomolecolari: Organizzazione e integrazione dell'informazione riguardante: a) sequenze di proteine e di acidi nucleici; b) strutture biomolecolari o di composti di interesse biologico; c) banche dati bibliografiche e specialistiche; Algoritmi di ricerca FASTA e BLAST; Guida alla scelta dei parametri per gli algoritmi di ricerca. Significatività statistica di un allineamento (z-score, valori di aspettativa e di probabilità) - Recupero di informazione: Ricerca per parole chiave combinate con operatori logici. - Allineamento di sequenze: Metodi di allineamento ottimali: Algoritmi di Needleman-Wunsch e di SmithWaterman. Matrici di similarità: le serie PAM e Blosum. - Allineamenti multipli: L'algoritmo ClustalW - Analisi filogenetiche: alberi filogenetici, metodo UPGMA Struttura delle banche dati biomolecolari. - Banche dati bibliografiche: PubMed. - Banche dati di sequenze di acidi nucleici: EMBL, GenBank e DDJB. - Banche dati di sequenze di proteine: PIR, SWISSPROT,TrEMBL. - Banche dati di strutture macromolecolari: PDB - Classificazioni delle strutture proteiche. - Banche dati del trascrittoma e di profili di espressione. - Banche dati di pathway metabolici: KEGG Metodi di ricerca. - Sistemi di accesso alle banche dati: ENTREZ, SRS, Ensembl, BIOMART. - Ricerche in banche dati per similarità: FASTA, BLAST, PSIBLAST . - Ricerche per parole chiave combinate con operatori logici. - Analisi del materiale recuperato dalla banca dati. - Qualità dei dati e la loro rappresentazione. - Programmi per la visulizzazione della struttura delle proteine - Creazione ed analisi di alberi filogenetici • « Nature » is not classified but … • … human beings need classifications for several reasons : • a better and more reliable data storage • an easiest way to retrieve data • to connect data and infer occurrence rules (understanding) •… • Data have always been classified and stored : • L’Encyclopédie of Diderot and d’Alembert (1762) • Scientific classification of species (taxonomy) • Periodic table of the elements by Mendeleiev (1869) • Classification of stars • Musical classification •… • Biological databases, nowadays : • a large number of database types • a huge amount of data GenBank growth 1982-2005 C 12.01 Kingdom Phylum Class Order 6 Family Genus Species • A collection of data, … • which are structured; • which are indexed; • which are periodically updated; • which has references to other databases; •… >sp|P56478|IL7_RAT MFHVSFRYIFGIPPLILVLLPVTSSD CHIKDKDGKAFGSVLMISINQLDKMT GTDSDCPNNEPNFFKKHLCDDTKEAA FLNRAARKLRQFLKMNISEEFNDHLL RVSDGTQTLVNCTSKEEKTIKEQKKN DPCFLKRLLREIKTCWNKILKGSI SEQUENCES • Biological databases are tightly associated to tools … • to retrieve entry of the database; • to update the database; •… • The main six database categories : • sequences • proteins (UniProtKB); • nucleic acids (EMBL). FUNCTION • mapping • genes; • chromosomes; •… • 3D structures (PDB) • gene/protein expression • function (KEGG) • literature (PubMed), ontologies (GO), … 3D ONTOLOGIES LITERATURE LS125-4 R14523 CYC223 EXPRESSION MAPPING • Nucleic Acids Research Database Issue, on January, each year : • in 2006, a collection of 858 databases ; • classified in 14 categories : • Nucleotide Sequence Databases • RNA sequence databases • Protein sequence databases • Structure Databases • Genomics Databases (non-vertebrate) • Metabolic and Signaling Pathways • Human and other Vertebrate Genomes • Human Genes and Diseases • Microarray Data and other Gene Expression Databases • Proteomics Resources • Other Molecular Biology Databases • Organelle Databases • Plant Databases • Immunological Databases • Most exotic name : Hollywood, a database of alternatively spliced mRNAs • Most cited (in 2 years) : • Pfam (protein families), GO (gene ontology), UniProt (proteins), SMART(protein domains), •KEGG (pathways) • Never cited (in 2 years) : • EyeSite (protein families in the eye), STCDB (hierarchical classification of eukaryotic •signaling proteins) Perché utilizziamo le banche dati ? Vi sono una serie di strumenti bioinformatici che permettono di ricavarne informazioni. Essi si sono sviluppati in base a questi tre processi biologici fondamentali: 1) la sequenza del DNA determina la sequenza amminoacidica della proteina (mediante il processo della sintesi proteica); 2) la sequenza aminoacidica determina la struttura tridimensionale della proteina; 3) la struttura tridimensionale della proteina ne determina la funzione. …saremo in grado di: -data una sequenza di acidi nucleici o proteica trovare una sequenza simile in banca dati; -data una struttura proteica trovare, in banca dati, una struttura simile ad essa; -data una sequenza proteica prevedere una possibile struttura tridimensionale; 3 fasi di interazione con una banca dati 1 Recupero dell'informazione in una banca dati: sistemi di interrogazioni via Web. Interrogazioni semplici per parola chiave o più raffinate. 2 Scelta del formato dei dati estratti da una banca dati. 3 Scaricare un dato biologico estratto nel formato sceltoin locale come file di testo: estrazione delle informazioni mediante semplici programmi (es. PERL) Alcune statistiche • Più di 1000 differenti database biologici!!! • Grandezza: Da < 100Kb a >10Gb – DNA: > 10 Gb – Proteine: 1 Gb – Strutture 3D: 5 Gb – altri: più piccoli • Frequenza di aggiornamento: da giornaliero ad annuale (Es: vedi PDB release) • In genere sono accessibili via web (free !?) • Scaricabili in locale Alcuni database di interesse biologico!!! AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank, BIOMDB, BLOCKS, BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISSMODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ……………………..!!!! L’informazione proviene da: - letteratura specializzata sull’ argomento - analisi effettuate in laboratorio (in vitro e/o in vivo) Es. BIND - analisi bioinformatiche (in silico) Es. PMDB Analisi di una generica entry(UNIPRot):IL7_RAT • A unique identifier; • Taxonomic data; • References to literature; • References to other databases; • Keywords; • Annotation; • Sequence. • A unique identifier; • Taxonomic data; • References to literature; • References to other databases; • Keywords; • Annotation; • Sequence. • A unique identifier; • Taxonomic data; • References to literature; • References to other databases; • Keywords; • Annotation; • Sequence. • A unique identifier; • Taxonomic data; • References to literature; • References to other databases; • Keywords; • Annotation; • Sequence. • A unique identifier; • Taxonomic data; • References to literature; • References to other databases; • Keywords; • Annotation; • Sequence. • A unique identifier; • Taxonomic data; • References to literature; • References to other databases; • Keywords; • Annotation; • Sequence. • A unique identifier; • Taxonomic data; • References to literature; • References to other databases; • Keywords; • Annotation; • Sequence. Istituzioni: NCBI e EBI NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/ E BI (European Bioinformatics Institute) http://www.ebi.ac.uk/ NCBI accesso a TANTE risorse di vario tipo: -National Library of Medicine -National Institutes of Health -…. accesso a numerosi database attraverso il sistema Entrez: GenBank Swissprot PubMed … Accesso tra l’ altro a diversi software bioinformatici NCBI - Entrez E NTRE Z: sistema di interrogazione di banche dati biologiche disponibile via web. • ENTREZ e' forse un pò meno flessibile di SRS, permette tuttavia il massimo sfruttamento del concetto di "neighbouring" offrendo la possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente “ crossreferenced” (related articles in PubMed). • Tipicamente, ENTREZ permette l'accesso a database di sequenze nuclotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed). NCBI - Entrez EBI: SRS • Sistema di recupero dati • Contiene più di 140 database • É inoltre un server contenente applicativi per l’ analisi dei dati - 11 applicativi per le proteine - 6 applicativi per gli acidi nucleici Quali dati sono presenti nei database? Principalmente sono presenti sequenze di caratteri (nucleotidi, amminoacidi) o strutture. L’ uso della rappresentazione dei dati biologici di varia natura come sequenze è la forma di gran lunga più diffusa. Sequenze: astrazioni di strutture 3D sequenze DNA: formate da 4 tipi di lettere: a (adenina), c (citosina), g (guanina), t (timina) esempio: atggtacat..., tag, ttt, … (Rivediamo le strutture chimiche, magari con Entrez!) Sequenze RNA: formate da 4 tipi di lettere: a (adenina), c (citosina), g (guanina),u (uracile) esempio: aucgcuaa, auucg, … Per convenzione sono rappresentate con lettere minuscole Sequenze proteiche: formate da 20 lettere corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y esempio: MPIVDTGSVAPLSAAEK…, TAG,... Per convenzione sono rappresentate con lettere maiuscole Accesso alle banche dati: entry e query Ogni banca dati è caratterizzata da un elemento biologico centrale, che chiamiamo ENTRY. Ogni ENTRY è composto di CAMPI (FIELDS) che contengono informazioni relative. Es: nelle banche dati di sequenze di acidi nucleici l’ elemento centrale è la sequenza nucleotidica di DNA o RNA Es: un database di proteine contiene tipicamente proteine come ENTRY e proprietà di proteine come FIELDS (nome, lunghezza, sequenza, origine tassonomica ecc.) Query L’ interrogazione alla banca dati (QUERY) mira ad estrarre un insieme di elementi (entries). E’ proprio l’ organizzazione in CAMPI (FIELDS) a permettere l’ estrazione delle informazioni mediante le QUERY HE ADE R di linee informative: • L ocus: codice di identificazione della sequenza •Accession number: codice di accesso all'elemento all'interno della base di dati • Source/Organism: organismo da cui è stata isolata la sequenza • Riferimenti alla letteratura scientifica FE ATURE S: •annotazioni tecniche su parte della sequenza • Sequenza di caratteri Formato FASTA (o Pearson) Formato XML oltre ai dati viene fornita sia la struttura logica che la struttura fisica della banca dati Formato ASN.1 (Abstract Syntax Notation.One) Insieme al formato XML servono essenzialmente per manipolazione e presentazione sul Web Una query semplice è quella per parola chiave (keyword) o per codice identificativo. Problema della ricerca per semplice parola chiave: molto spesso si ottengono troppe risposte. Sovraccarico informativo: molte più sequenze di quelle di interesse contengono in qualche linea la parola chiave cercata Strumenti per raffinare la ricerca Per diminuire il numero di risposte si deve specializzare ulteriormente la domanda operatori booleani: AND (& ), OR (|),BUT NOT (!) (specializzazione della query) Operatore AND Restringe il campo (&) di ricerca, inserendo ad es. la stringa: equus caballus AND hemoglobin alpha La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di descrizione contengono entrambe le parole. Quindi le sequenze proteiche del cavallo che non contengono nella descrizione la parola hemoglobin non vengono selezionate. Operatore OR Estende il campo di ricerca, digitando ad esempio: (|) homo sapiens OR mus musculus Otterremo una lista di sequenze i cui campi contengono la parola homo sapiens o la parola mus musculus. L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme delle sequenze che incontrano le nostre esigenze. Operatore BUT NOT (!) Restringe il campo di ricerca, inserendo: homo sapiens BUT NOT hemoglobin Richiederemo sequenze i cui campi contengono la parola homo sapiens ma non la parola hemoglobin. Operatore booleani: combinazioni Naturalmente gli operatori booleani consentono di effettuare ricerche con più di due parole chiave, creando così interrogazioni che possono diventare molto complesse. Ottimizzazione della ricerca con Entrez: Limits e History 1) Funzione Limits: consente di limitare la ricerca a solo alcuni criteri (campi del database) o sottoinsiemi di dati es. scegli campo “organism” Esempio: è stata limitata la ricerca a sequenze del DB contenenti la parola mouse nel campo organism Entrez: opzione History combino più query già fatte 3 query: combino in AND #1 e #2 2 query: etichetta #2 1 query: etichetta #1 Suggerimenti per le esercitazioni: • Non cercare di memorizzare i dettagli. • Provare invece a: – Imparare le caratteristiche comuni ai vari database biologici. – Capire le caratteristiche fondamentali dei database. – Imparare ad usare gli HELP ONLINE – Provare a confrontare e a giudicare I diversi database. E sempio di applicazione: Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici. Un esempio è il è il Mycobacterium Tuberculosis, agente responsabile della tubercolosi. L a domanda che ci si pone è: Ci sono geni che presentano nel M.Tuberculosis un “Penicillin-binding”? Passi: 1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per “Penicillin-binding” 2. Cerchiamo solo le sequenze di M.Tubercolosis. 3. Combiniamo i due criteri di selezione. Criterio di selezione Penicillin-binding Num. di sequenze Selezionare limits per Il 2° punto Cerchiamo sequenze nucleotidiche Mycobacterium Tuberculosis Organismo da ricercare Ricerca limitata solo al campo: organism Scegliere HISTORY per combinare i criter Numero di sequenze #1 AND #2 Sintassi di unione di caratteri Risultato finale Numero di sequenze total Entrez - Strutture macromolecolari http://www.ncbi.nlm.nih.gov/entrez entrez/query.fcgi?db=Structure aconitase Struttura da cercare Strutture trovate Entrez - Dati di Popolazione La collezione contiene un insieme di sequenze di DNA utilizzate per studi per studi evolutivi di popolazione. http://www.ncbi.nlm.nih.gov/entrez entquery.fcgi query.fcgi?db=Popset Entrez-Malattie Genetiche Catalogo di geni umani e disordini genetici Entrez - tassonomia Contiene i nomi di tutti gli organismi rappresentati nelle banche dati di biosequenze con almeno una sequenza nucleotidica o proteica Entrez – polimorfismo SNP (single nucleotide polimorfism) PubMed È il sistema di riferimento quando si intende effettuare una ricerca bibliografica via Entrez La banca dati che si interroga è MEDLINE: sviluppata dalla National Library of Medicine, è la più completa banca dati bibliografica relativa al settore bio-medico. Il sistema Entrez + MEDLINE è stato incorporato dall’ NCBI con il nome di PubMed • What is PubMed? • a literature database specialised in life sciences • a literature search system • PubMed is developed and maintained by the National Center for Biotechnology Information (NCBI) of the National Library of Medicine (NLM) – Bethesda - USA • covers several fields such as • medicine; • dentistry; • veterinary sciences; • clinical sciences; • biological sciences; •… • includes 16 million citations from 1902 to … • oldest article published in the “University of Pennsylvania medical bulletin” in 1902 : • Martin E, Carnett JB, Levi JV, Pennington ME. The surgical treatment of sterility due to obstruction at the epididymis; together with a study of the morphology of human spermatozoa. Univ Pa Med Bull. 1902 Mar;15(1):2-15. • more than 4,500 journals are referenced • 82,028,000 queries in March 2006 (163,000 in January 1997) • freely accessible at http://www.ncbi.nlm.nih.gov/pubmed http://www.pubmed.gov • PubMed unique identifier (PMID) • Article identifiers (AID) • Publication date (DP or PDAT) • Added to PubMed (EDAT) • Title (TI) • Abstract (AB) PMID- 16381842 OWN - NLM STAT- MEDLINE DA - 20051229 DCOM- 20060228 PUBM- Print IS - 1362-4962 (Electronic) VI - 34 IP - Database issue DP - 2006 Jan 1 TI - The Universal Protein Resource (UniProt): an expanding universe of protein information. PG - D187-91 AB - The Universal Protein Resource (UniProt) provides a central resource on protein sequences and functional annotation with three database … AD - Department of Biochemistry and Molecular Biology, Georgetown University Medical Center, 3900 Reservoir Road, NW, Washington, • Affiliation (AD) DC 20057-1414, USA. • Authors (AU and AUF) FAU - Wu, Cathy H AU - Wu CH FAU - Apweiler, Rolf AU - Apweiler R FAU - Bairoch, Amos AU - Bairoch A FAU - Natale, Darren A AU - Natale DA FAU - Barker, Winona C AU - Barker WC FAU - Boeckmann, Brigitte AU - Boeckmann B FAU - Ferro, Serenella AU - Ferro S FAU - Gasteiger, Elisabeth AU - Gasteiger E FAU - Huang, Hongzhan AU - Huang H FAU - Lopez, Rodrigo AU - Lopez R FAU - Magrane, Michele AU - Magrane M FAU - Martin, Maria J AU - Martin MJ FAU - Mazumder, Raja AU - Mazumder R FAU - O'Donovan, Claire AU - O'Donovan C FAU - Redaschi, Nicole AU - Redaschi N FAU - Suzek, Baris AU - Suzek B LA - eng GR - 1 U01 HG02712-01/HG/NHGRI GR - 1R01HGO2273-01/HG/NHGRI GR - HHSN266200400061C/HS/AHCPR PT - Journal Article PL - England • Journal title (TA and JT) TA - Nucleic Acids Res JT - Nucleic acids research. JID - 0411011 RN - 0 (Proteins) RN - 0 (Proteome) SB - IM • MeSH terms (MH) MH - *Databases, Protein MH - Internet MH - Proteins/chemistry/classification/physiology MH - Proteome/chemistry MH - Research Support, N.I.H., Extramural MH - Research Support, Non-U.S. Gov't MH - Research Support, U.S. Gov't, Non-P.H.S. MH - Sequence Analysis, Protein MH - Systems Integration MH - User-Computer Interface EDAT- 2005/12/31 09:00 MHDA- 2006/03/01 09:00 AID - 34/suppl_1/D187 [pii] AID - 10.1093/nar/gkj161 [doi] PST - ppublish 17th 2006 - Introduction to Biological Databases SO - Nucleic AcidsMay Res. Jan 1;34(Database issue):D187-91. • Citation (SO) • Searching through PubMed is managed by a toolbar Select the database (PubMed) Enter your search terms Advanced search tools and search manager Limits Clipboard Search history • Searching by author names • Let’s try to find the articles written by James Dewey Watson • “Watson” retrieves 22,241 references with noisy references related to : • Article written by other “Watsons” than JD Watson • Watson disease • Watson-Crick base pairing •… • “Watson” limited to “author names” retrieves 18,560 references • “Watson JD” limited to “author names” retrieves 339 references but … • … even if James D Watson is an honorary scientist, he didn’t wrote 339 articles … • … these results are still noisy: JD Watson is a post-doc at the EBI • “Author names” searches must be combined with other criteria to retrieve the only results we need. • Searching by subject • Let’s try to find the articles dealing with Down syndrome: • “Down syndrome” retrieves 16,950 references with noisy references: • “Down syndrome” in the title retrieves 3,689 references This article is related to the activation of several genes by 2 proteins in human endothelial cells. Down syndrome critical region gene 1 (DSCR1) is one of them. • But your are interested in the “therapy” of “Down syndrome”. Let’s combine the two terms in your search: “therapy”[title] AND “Down syndrome”[title] retrieves only 33 references • It’s seems to be too restrictive and still noisy: This article is related to the therapy of airway obstruction in the particular case of the patients affected by Down syndrome. • A solution can be the use of the MeSH database. • The MeSH database • MeSH (Medical Subject Headings) is a controlled vocabulary thesaurus used for indexing PubMed articles. An article, which deals with “Down syndrome” will be indexed with the corresponding MeSH term. • The MeSH database • MeSH (Medical Subject Headings) is a controlled vocabulary thesaurus used for indexing PubMed articles. An article, which deals with “Down syndrome” will be indexed with the corresponding MeSH term. All MeSH categories Diseases Nervous System Diseases Congenital, Hereditary, and Neonatal Diseases and Abnormalities Neurologic Manifestations Abnormalities Neurobehavioral Manifestations Abnormalities, Multiple Genetic Disorders, Inborn Chromosome Disorders Chromosome Disorders Mental Retardation D O W N S Y N D R O M E • Selecting the « therapy » subheading of the « Down syndrome » MeSH entry. • Selecting the « therapy » subheading • Adding the term in the search box • Adding another criterion on the title • And thus retrieving 272 results • Include limits to refine your search: AUTHOR NAMES • Adding an author names • Autocompletion of the author names • Include limits to refine your search: JOURNAL NAMES • Adding one or several journal names • Autocompletion of journal names • Include limits to refine your search: FULL TEXT LINKS Only references with links to full text Only references with links to free full text Only references with abstract • Include limits to refine your search: DATES • For publication date (DP) • For date of addition in PubMed (EDAT) • Within a predefined period from now • Within a user-defined period • Include limits to refine your search: TAXON/GENDER • Limits are allowed on: • taxonomic fields (humans vs animals) • gender (male vs female) 4th European Bioinformatics School May 17th - Introduction to Biological Databases • Include limits to refine your search: ARTICLE LANGUAGE • Include limits to refine your search: ARTICLE TYPE • Include limits to refine your search: TAGS (FIELDS) • Selection of useful tags (fields): • AU for author names (AUF for full author names) • TI for title • TITLE/ABSTRACT for title and abstract • DP for publication date • EDAT for adding date in PubMed • TA for journal title abbreviation • JT for entire journal title • MH for MeSH terms • PMID for PubMed identifier • Let’s look for articles whose title and/or abstract contains the word « UniProt » and published in 2005 • The « Limits » tab has a checkbox indicating that limits are used during this search • Limits used are displayed on a yellow row • The « Details » tab displays the query UniProt[TIAB] AND ("2005/01/01"[PDAT] : "2005/12/31"[PDAT]) • Search terms and search fields can be added in the text box • Displaying the results • Choose the format (default:Summary) • Choose to send the ouput to a file, the clipboard, … • Reviews are automatically filtered • Icons Abstract is unavailable Abstract is available Free full text is available in PubMedCentral (PMC) Free full text is available with a link to an external website • Checkboxes • allow to run a specific command on a subset of the reference list (checked) • The checked reference is sent to the clipboard • The « clipboard reference » is hilighted in green in the reference list. • History • queries run during a session are stored in the history; • each query can be combined with another one and improved with expressions and logical operators. (#115) AND Review[ptyp] Query ID logical operator additional expression term[field] • Customization with MyNCBI • MyNCBI allows you to store your queries in a personal space and set up e-mail alerts • Requires an registration on the NCBI website • Results of a query • Save the search in MyNCBI • Opens a popup window to customize the alert • Customization with MyNCBI • MyNCBI allows you to store your queries in a personal space and set up e-mail alerts • Requires an registration on the NCBI website • Results of a query • Save the search in MyNCBI • Opens a popup window to customize the alert Frequence of update • Customization with MyNCBI • MyNCBI allows you to store your queries in a personal space and set up e-mail alerts • Requires an registration on the NCBI website • Results of a query • Save the search in MyNCBI • Opens a popup window to customize the alert Format • Customization with MyNCBI • MyNCBI allows you to store your queries in a personal space and set up e-mail alerts • Requires an registration on the NCBI website • Results of a query • Save the search in MyNCBI • Opens a popup window to customize the alert Check to receive an email even if there are no new results 4th European Bioinformatics School May 17th - Introduction to Biological Databases • Customization with MyNCBI • MyNCBI allows you to store your queries in a personal space and set up e-mail alerts • Requires an registration on the NCBI website • Results of a query • Save the search in MyNCBI • Opens a popup window to customize the alert • Connect to your MyNCBI account • Customization with MyNCBI • MyNCBI allows you to store your queries in a personal space and set up e-mail alerts • Requires an registration on the NCBI website • Results of a query • Save the search in MyNCBI • Opens a popup window to customize the alert • Connect to your MyNCBI account • Your alert is stored 4th European Bioinformatics School May 17th - Introduction to Biological Databases • Customization with MyNCBI Perform the search Update frequency Retrieves updates for the selected query since last check • Customization with MyNCBI Other NCBI databases searches can the included in MyNCBI original database file • SRS = Sequence Retrieval System • built in 1990 by Thure Etzold; • data stored in ~150 indexed databases • linked to sequence analysis applications. index file • Indexed databases whatizit? human & glutathion ! transferase data retrieval searchable links “human” 13,698 entries “glutathion” “transferase” 16,692 entries UniProtKB/Swiss-Prot 207,132 entries human & glutathion & transferase human ! glutathion & transferase ! human & glutathion & transferase May 17th - Introduction to Biological Databases •This interface allows you to: • perform simple and complex queries across one or several databases; • view your results in different formats; • create your own views for your results; • save results to file; • launch analysis tools on results; • link results to different databases. • Accessible from EBI web site: http://srs.ebi.ac.uk May 17th - Introduction to Biological Databases • Search is guided by a navigation toolbar at the top of the home page Query manager Manage searches Databases selection Results Tools Databases information Customize the views • Quick search is not a solution … • a quick search of “globin” retrieves 4,377 entries from UniProt/UNiParc considering all text; • a quick search of “human globin” retrieves 334 entries from UniProt/UNiParc considering all text; • because searches are performed on “all fields”, several retrieved entries are certainly not required: • Serine/threonine-protein kinase ATR; • U11/U12 snRNP 25 kDa protein; • Eukaryotic translation initiation factor 2-alpha kinase 1; • Fusion glycoprotein F0 precursor; • Erythroid transcription factor; • quick but not accurate !!! • Standard and extended query forms are better solutions … • you keep control on what you ask and what you retrieve. Databases selection Query manager Standard query form Extended query form Query manager • Standard query • Query terms are linked with logical operators: • & (AND) • | (OR) • ! (BUT NOT) • Output display (views): • can be customized • can be set to a predefined style Let’s try a query … Query manager • We are looking for human UniProtKB proteins with « Glutathione transferase » in description • 7 entries Query manager • We are looking for mouse UniProtKB « interleukin » proteins • (DE line : interleukin) gives 158 entries with unrelated entries such as : • Caspase-1 precursor (EC 3.4.22.36) (CASP-1) (Interleukin-1 beta convertase) (IL-1BC) (IL-1 betaconverting enzyme) (ICE) (Interleukin- 1 beta-converting enzyme) (p45) • High affinity interleukin-8 receptor B (IL-8R B) (CXCR-2) (GRO/MGSA receptor) (CD182 antigen) May 17th - Introduction to Biological Databases Query manager • Extended query included in the view May 17th - Introduction to Biological Databases Tools ClustalW run on the retrieved results May 17th - Introduction to Biological Databases Results • Management of your queries • Lists the queries performed in the current session • Includes tools to • Combine or rerun several queries • Save results on your computer • Delete results • Link the results to another database • Includes tools to customize the results display (views) Q4 DB KW Created UniProtKB/Swiss-Prot UniProtKB/TrEMBL cytokine between 01-JAN-2000 and 20-APR-2006 Q7 DB Taxonomy KW Created ! Q6 DB Taxonomy UniProtKB/Swiss-Prot UniProtKB/TrEMBL Virus BUT NOT UniProtKB/Swiss-Prot UniProtKB/TrEMBL Every species except virus cytokine between 01-JAN-2000 and 20-APR-2006 Q4 Q7 Q6 May 17th - Introduction to Biological Dataases Results • Link your query results to other databases Q5 DB ! BUT NOT KW DE Created UniProtKB/Swiss-Prot UniProtKB/TrEMBL cytokine interleukin between 01-JAN-2000 and 20-APR-2006 281 UniProtKB entries to be linked with 5 PDB entries • Find related entries: returns entries from other databanks which have links with entries in the current query. • Refine Query - show only results with related entries: this limits the query so that it includes only the entries (from the original query) which are linked to all of the selected databanks. • Show only results without related entries: this limits the query so that it includes only the entries (from the original query) which do not have links to the specified databanks. 4 UniProtKB entries 281 UniProtKB entries 277 UniProtKB entries May 17th - Introduction to Bilogical Databases Manage searches • During a session, searches are stored in projects Project type and number Save the project to local hard drive Rename the project Delete the displayed project Copy the selected query(ies) from one project to another one Create a new project in the current session Open a project saved on local hard drive Switch between opened projects • Two types of sessions • temporary • permanent: • to retrieve the results of a complex query made by a collaborator • to regularly rerun a query • Sessions are limited to 99 projects May 17th - Introduction to Biological Databases Customize the views • During a session, it is possible to define a customized « view » of the results: Give your view a name This view will apply to one or several databases This view will be linked to one or several databases Select the fields included in the view (ID, Resol, Title) Save your view May 17th - Introduction to Biological Databases Customize the views • Let’s retrieve all « kinase » entries from PDB whose structure has been determined at 1.5A by X-ray crystallography Select the view we just created … … and run the query … May 17th - Introduction to Biological Databases Customize the views • During a session, it is possible to define a customized « view » of the results: Give your view a name This view will apply to one or several databases This view will be linked to one or several databases Select the fields included in the view for the database to which the view will be applied (ID, Description) Select the fields included in the view for the database to which the view will be linked (PMID, Title) Save your view May 17th - Introduction to Biological Databases Customize the views • Let’s retrieve all human « interleukin » entries from UniProtKB/Swiss-Prot Select the view we just created … … and run the query … UniProtKB/Swiss-Prot fields MedLine fields May 17th - Introduction to Biological Databases UniProtKB/Swiss-Prot fields MedLine fields May 17th - Introduction to Biological Databases Databases information • Gives information on a given database • Indexed fields are listed • You can browse a given indexed field (e.g. keywords) Select the keyword value and submit the query to retrieve the 919 results May 17th - Introduction to Biological Databases