Lezione 9 NCBI: National Center for Biotechnology Information Come possiamo strutturare le informazioni e renderle disponibili? Banche dati (database) L’elemento di partenza di ogni database è la tabella: una tabella è un insieme di righe e colonne; ogni colonna contiene un dato relativo alla cosa che stiamo descrivendo; ogni riga corrisponde ad una istanza della cosa. Se parlassimo di persone avremmo che ogni riga corrisponde ad una persona ed ogni colonna corrisponde ad una caratteristica della persona (altezza, peso eccetera) In termini di database ogni colonna è un campo, ogni riga un record. Un database può essere composto di più tabelle. Ciò che rende un database relazionale è la presenza di legami fra le tabelle, di connessioni logiche, di relazioni, appunto. Flat file: docenti e istruttori del corso BAG 2015 ridondante record Nome cognome Università/ Centro di ricerca dipartimento indirizzo Silvia Fuselli Unife SVEB Via Borsari 46 Ferrara Emiliano Trucchi Unife SVEB Via Borsari 46 Ferrara Pierpaolo Maisano Delser Trinity College Smurfit Institute of Genetics College Green, Dublin 2 Ireland campo Relational database Costituito da una sarie di tabelle connesse tra loro. Le informazioni non sono ridondanti Tabella istruttori Istruttore_ID Nome cognome Contatto_ID 1 Silvia Fuselli 1 2 Emiliano Trucchi 1 3 Pierpaolo Maisano Delser 3 Chiave primaria Chiave secondaria Tabella contatti Chiave primaria Contatto_ID Università/ Centro di ricerca dipartimento indirizzo 1 Unife SVEB Via Borsari 46 Ferrara 2 Trinity College Smurfit Institute of Genetics College Green, Dublin 2 Ireland Come cercare nei database? Utilizzo di key words (parole chiave) o identificatori specifici (accession numbers) Operatori booleani: Voglio ottenere lavori scientifici pubblicati da Caramelli D E/O Lari M Voglio ottenere dati sul gene LDH escludendo i primati LDH NOT primates Voglio ottenere dati sul gene LDH nella nostra specie: LDH AND human Come cercare nei database? In alternativa alle parole chiave potrei usare BLAST (vedi lezione Ricerche in banche dati (databases) attraverso l’uso di BLAST Database più importanti per sequenze nucleotidiche (genetiche e genomiche): NCBI several databases among which GenBank http://www.ncbi.nlm.nih.gov/ EMBL (European Molecular Biology laboratory) http://www.ebi.ac.uk/ DDBJ (DNA databank of Japan) http://www.ddbj.nig.ac.jp/index-e.html European Bioinformatics Institute EBI/NCBI/DDBJ • These 3 databases contain mainly the same information within 2-3 days (few differences in format and syntax) • Serve as archives containing all sequences (single genes, ESTs, complete genomes, etc.) derived from: – – – – – Genome projects Sequencing centers Individual scientists Literature Patent offices • Non-confidential data exchanged daily • The database triples approximately every 12 months. National Center for Biotechnology Information Ricercare informazioni «across databases» in NCBI http://www.ncbi.nlm.nih.gov/gquery/ L'Entrez Global Query Cross-Database Search System è un sistema di ricerca integrato tra banche dati biomediche contenenti informazioni di tipo differente. Entrez è coordinato dal National Center for Biotechnology Information (NCBI) statunitense, parte della National Library of Medicine (NLM) (essa stessa parte dei National Institutes of Health (NIH)). Proviamo a cercare il nome di un gene: LDH (lattato deidrogenasi) Restringiamo all’uomo con l’operatore booleano AND Seguiamo il link a PubMed: Nel menu a sinistra selezioniamo REVIEW come tipo di pubblicazione, fra le altre troveremo la seguente: Possiamo vedere l’abstract E ottenere l’articolo intero se siamo autorizzati (per esempio siamo nella rete di unife) Restringiamo all’uomo con l’operatore booleano AND Seguiamo il link ad OMIM: Online Mendelian Inheritance in Man® An Online Catalog of Human Genes and Genetic Disorders Updated 20 November 2015 Vediamo i risultati (items) 2-3-4 Seguiamo il link ai database di SNP Gli SNP vengono catalogati con un “rs” univoco Ora facciamo una ricerca per patologia: vogliamo trovare gli SNP (single nucleotide polymorphisms) associati al cancro al seno e disegnare un saggio di laboratorio (PCR) per tipizzarli Key workds: Early onset breast cancer, ricerca in Entrez Seguiamo il link a GENE Troverete molte informazioni sul gene e sulla regione cromosomica in cui si trova. Verso la fine della pagina trovate il link a dbSNP sinonimi frameshift Non sinonimi Alcune varianti hanno provato effetto patogenico Il database più noto in NCBI è GenBank Guardate bene tutte le statistiche per farvi un’idea di come GenBank stia evolvendo Tra le altre: WGS: Whole Genome Shotgun Submissions Whole Genome Shotgun (WGS) projects are genome assemblies of incomplete genomes or incomplete chromosomes of prokaryotes or eukaryotes that are generally being sequenced by a whole genome shotgun strategy. WGS projects may be annotated, but annotation is not required. NCBI has a Prokaryotic Genomes Annotation Pipeline that may be requested at the time the genome files are submitted to GenBank. This pipeline generates a submission-ready annotated file that the submitter could edit prior to data release. Cerchiamo in GenBank il gene del citocromo B (si trova sul mitocondrio) del pesce Garra rufa (anche detto doctor fish) Per farvi due risate.. http://www.dottorfish.com/it/garra-rufa.php gene Intero mitocondrio formati Il locus e l’organismo (source) Referenze bibliografiche FEATURES: la sequenza e le sue caratteristiche Molto importante: identificatore UNIVOCO, accession number In questo caso gene e cds coincidono (non è sempre così, vedere lezioni precedenti) Sequenza tradotta in aminoacidi Sequenza in formato GenBank Sequenza in formato FASTA The SRA not only provides a place where researchers can archive their short read data, but also enables them to quickly access known data and their associated experimental descriptions (metadata) with pin-point accuracy.