Laboratorio di Bioinformatica I Banche dati Parte 1 Dott. Sergio Marin Vargas (2014 / 2015) Introduzione a NCBI National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ NCBI Databases NCBI Databases e Servizi International Nucleotide Sequence Database http://www.ddbj.nig.ac.jp/ Collaboration http://www.insdc.org/ Le sequenze su NCBI (GenBank) sono Sincronizzate con l’ENA dell’EBI (EMBL-Bank) e con DDBJ http://www.ncbi.nlm.nih.gov/genbank/ http://www.ebi.ac.uk/ena Cosa troviamo in NCBI Banche dati (alcuni esempi): • GenBank: database primario di sequenze nucleotidiche (NIH genetic sequence database - National Institutes of Health) • RefSeq: database non ridondanti di sequenze genomiche, di trascritti e proteiche. • PubMed and PubMed Central: accesso alla letteratura biomedica • Omin: collezione di geni umani e fenotipi genetici Servizi (alcuni esempi): • Entrez (Gquery): interrogazioni incrociate ai diversi databases di NCBI • BLAST: servizio di ricerche alle banche dati di sequenze mediante algoritmo BLAST. • VAST: servizio di ricerche per similarità di struttura • Software and databases for download Esercizio 1 Gquery (Entrez) Aprire il browser e andare alla pagina iniziale di NCBI: http://www.ncbi.nlm.nih.gov/ Individuare i database in NCBI che sono stati visti nella teoria: Eseguire una ricerca con la parola “hiv-1” (specie) Quanti taxa ci sono? Quante sequenze nucleotidiche? Quante proteine? Di queste, quante con struttura risolta? Quanti geni e quanti cluster UniGene? Si noti il rapporto tra UniGene e EST Perché ci sono più record in Gene che in UniGene se Gene è più curato di UniGene (suggerimento: leggere cosa è UniGene) ? Esercizio 1: Gquery Esercizio 1: Risultato Gquery (Entrez) Risultato di una ricerca NCBI Aprire il browser e andare alla pagina iniziale di NCBI: http://www.ncbi.nlm.nih.gov/ Eseguire una ricerca con la parola “beta globin” (proteina) Analizzare il risultato della ricerca nel database “Protein” Risultato in Entrez di NCBI NCBI: struttura del risultato di una ricerca Opzioni di visualizzazione Nome banca dati Risultati trovati (records) Filtri attivi (se ce ne sono) Un risultato (record) Stringa di ricerca Opzioni di download NCBI: struttura del risultato di una ricerca In quali organismi Filtri (con la spunta quelli attivi) sono stati trovati proteine “beta globin” Altre banche dati in NCBI Stringa di ricerca dettagliata NCBI: Ricerca avanzata Ricerca avanzata Filtri attivi Inserimento manuale di stringhe di ricerca Costruttore di ricerche Ricerche precedenti NCBI: Ricerca avanzata Permette di specificare i campi dei record da usare per la ricerca, di combinarli con operatori logici e di combinare anche ricerche recedenti (History). Operatore logico Campi da ricercare Per avere l’elenco di tutti i possibili valori Una ricerca precedente può essere indicata con “#n”. Così si combina con altre opzioni di ricerca o con altre ricerche (e.g. #5 AND #23) Esercizio 2 Ricerca su NCBI Ripetere la ricerca per “beta globin” sul database Gene. Aggiungere un filtro solo per homo sapiens Come cambia la stringa in “search details”? Filtrare solo i “geni codificanti proteine” Eliminare l’ultimo Filtro Recuperare il record per HBB hemoglobin, beta [Homo sapiens] (con ID 3043) e aprirlo Su quale cromosoma ci troviamo? Quanti riferimenti bibliografici ci sono? Quante interazioni sono registrate? Individuare l’annotazione di Gene Ontology (GO) Qual è il codice refseq del mRNA e proteina? Esercizio 3 Ricerca su NCBI Ricerca di una sequenza nucleotidica Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici. Un esempio è il Mycobacterium tuberculosis, agente responsabile della tubercolosi. La domanda che ci si pone è: Ci sono sequenze nucleotidiche nel Mycobacterium tuberculosis con la caratteristica “Penicillin-binding”? Passi: 1. Cercare nella banca dati Nucleotide tutte le sequenze per “Penicillin binding” (notare le virgolette che indicano la stringa e non le due parole singolarmente). Quanti item (record) ci sono ? 2. Cercare solo le sequenze di Mycobacterium tuberculosis. 3. Vogliamo solo sequenze non ridondanti e ben annotate (refseq). Quanti record troviamo ? NCBI – Estrazione di sequenze nucleotidiche Vogliamo scaricare (fare download) le sequenze nucleotidiche dei trascritti del recettore della transferrina (TFR1) per l’uomo, una proteina coinvolta nell’assorbimento del ferro nelle cellule (malattia emocromatosi). Cominciamo ricercando sul dal database Nucleotide. Limitiamo la ricerca ad homo sapiens. Limitiamo la ricerca solo al database RefSeq. Limitiamo la ricerca solo ai trascritti (mRNA). In “Display Settings” selezionare “FASTA” In “Send” selezionare “Complete Record” e “File” Formato FASTA x Nucleotidi Intestazione >gi|189458818|ref|NM_001128148.1| Homo sapiens transferrin receptor (TFRC), transcript variant 2, mRNA ACGCACAGCCCCCCTGGGGGCCGGGGGCGGGGCCAGGCTATAAACCGCCGGTTAGGGGCCGCCATCCCCT CAGAGCGTCGGGATATCGGGTGGCGGCTCGGGACGGAGGACGCGCTAGTGTTCTTCTGTGTGGCAGTTCA GAATGATGGATCAAGCTAGATCAGCATTCTCTAACTTGTTTGGTGGAGAACCATTGTCATATACCCGGTT CAGCCTGGCTCGGCAAGTAGATGGCGATAACAGTCATGTGGAGATGAAACTTGCTGTAGATGAAGAAGAA AATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGA CTATTGCTGTGATCGTCTTTTTCTTGATTGGATTTATGATTGGCTACTTGGGCTATTGTAAAGGGGTAGA ACCAAAAACTGAGTGTGAGAGACTGGCAGGAACCGAGTCTCCAGTGAGGGAGGAGCCAGGAGAGGACTTC CCTGCAGCACGTCGCTTATATTGGGATGACCTGAAGAGAAAGTTGTCGGAGAAACTGGACAGCACAGACT TCACCGGCACCATCAAGCTGCTGAATGAAAATTCATATGTCCCTCGTGAGGCTGGATCTCAAAAAGATGA AAATCTTGCGTTGTATGTTGAAAATCAATTTCGTGAATTTAAACTCAGCAAAGTCTGGCGTGATCAACAT TTTGTTAAGATTCAGGTCAAAGACAGCGCTCAAAACTCGGTGATCATAGTTGATAAGAACGGTAGACTTG TTTACCTGGTGGAGAATCCTGGGGGTTATGTGGCGTATAGTAAGGCTGCAACAGTTACTGGTAAACTGGT CCATGCTAATTTTGGTACTAAAAAAGATTTTGAGGATTTATACACTCCTGTGAATGGATCTATAGTGATT GTCAGAGCAGGGAAAATCACCTTTGCAGAAAAGGTTGCAAATGCTGAAAGCTTAAATGCAATTGGTGTGT TGATATACATGGACCAGACTAAATTTCCCATTGTTAACGCAGAACTTTCATTCTTTGGACATGCTCATCT .... Sequenza Nucleotidica NCBI – Estrazione di sequenze proteiche Vogliamo scaricare (fare download) le sequenze proteiche del recettore della transferrina (TFR1), ma che abbiano la struttura risolta e siano complessati (legati) a un qualsiasi ligando. Cominciamo ricercando sul dal database Protein. Limitiamo la ricerca solo al database PDB (quelli con struttura risolta). In ricerca avanzata cerchiamo per “TFR1” e “complex” in tutti i campi In “Display Settings” selezionare “FASTA” In “Send” selezionare “Complete Record” e “File” Formato FASTA x Proteine Intestazione >gi|48425720|pdb|1SUV|B Chain B, Structure Of Human Transferrin Receptor-transferrin Complex LYWDDLKRKLSEKLDSTDFTSTIKLLNENSYVPREAGSQKDENLALYVENEFREFKLSKVWRDQHFVKIQ VKDSAQNSVIIVDKNGRLVYLVENPGGYVAYSKAATVTGKLVHANFGTKKDFEDLYTPVNGSIVIVRAGK ITFAEKVANAESLNAIGVLIYMDQTKFPIVNAELSFFGHAHLGTGDPYTPGFPSFNHTQFPPSRSSGLPN IPVQTISRAAAEKLFGNMEGDCPSDWKTDSTCRMVTSESKNVKLTVSNVLKEIKILNIFGVIKGFVEPDH YVVVGAQRDAWGPGAAKSGVGTALLLKLAQMFSDMVLKDGFQPSRSIIFASWSAGDFGSVGATEWLEGYL SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA FPFLAYSGIPAVSFCFCEDTDYPYLGTTMDTYKELIERIPELNKVARAAAEVAGQFVIKLTHDVELNLDY EEYNSQLLSFVRDLNQYRADIKEMGLSLQWLYSARGDFFRATSRLTTDFGNAEKTDRFVMKKLNDRVMRV EYHFLSPYVSPKESPFRHVFWGSGSHTLPALLENLKLRKQNNGAFNETLFRNQLALATWTIQGAANALSG DVWDIDNEF Sequenza Proteica Esercizio 4 Estrazione di sequenza Nucleotidica Vogliamo cercare la sequenza nucleotidica e amminoacidica della rodopsina (rhodopsin), il pigmento visivo che innesca la visione nei vertebrati Cominciamo dal database Nucleotide. Quante sequenze ci sono per la ricerca “rhodopsin”? Limitare la ricerca al database RefSeq. Quanti record ci sono? Limitiamo la ricerca ad homo sapiens (human), usando l’opzione advanced search. Quante sequenze nucleotidiche trova? Visualizziamo l’entry “Homo sapiens chromosome 3, GRCh38 Primary Assembly”. Quante bp (base pair) ci sono nella sequenza? Visualizziamo l’entry “Homo sapiens rhodopsin (RHO), RefSeqGene on chromosome 3”. Quante bp ci sono nella sequenza? Perche la differenza di dimensioni ? Ci sono malattie genetiche associate a questa entry? Di tipo solo autosomico dominante? (OMIM) Scaricare il fasta di solo il gene rhodopsin. Esercizio 5 Estrazione di sequenza amminoacidica (proteica) Se vogliamo adesso scaricare la sequenza amminoacidica, della rodopsina (rhodopsin) per l’uomo su quale database dobbiamo andare e quali filtri utilizzare ? Scaricare il FASTA della proteina e salvarlo in una directory locale. Collegarsi ad OMIM sfruttando il link sulla destra. Quanti records si ottengono? Trovare almeno due mutazioni puntiformi associate a retinite pigmentosa. (Suggerimento: leggere!!!) Esercizio 6 NCBI Proteins Ricercare la proteina “Hemoglobin subunit beta” di Homo sapiens. Filtrare solo i record con RefSeq selezionare il risultato con codice RefSeq NP_000509.1 (accession). 1) Individuare • lunghezza, • peso molecolare, • il refseq del trascritto 2) Salvare localmente la sequenza FASTA della PROTEINA 3) Salvare localmente la sequenza FASTA del TRASCRITTO 4) Ci sono SNP? Cos’è un SNP? 5) Ci sono malattie mendeliane note legate a questa proteina? 6) Ci sono strutture legate a questa proteina? • Quante risolte per NMR e quante mediante Cristallografia (X-Ray) ? NCBI – PubMed Opzioni di visualizzazione Stringa di ricerca Opzioni di download Risorse correlate: •Trend nei risultati •Ricerche simili •Articoli citati •Articoli che citano quello corrente •Ecc… Filtri Stringa di ricerca dettagliata Risultati (tipicamente articoli, ma anche review, trial clinici, ecc) NCBI – PubMed - Entry Opzioni di visualizzazione Rivista, anno, titolo, autori Abstract Opzioni di download Risorse correlate: •Articoli che citano quello corrente •Collegamenti a banche dati che contengono informazioni sui temi dell’articolo Codice univoco, PubMedID Tipo della pubblicazione (in questo caso, una review) Termini MeSH (Medical Subject Headings) Esercizio 7 NCBI Pubmed Trovare le pubblicazioni correlate con le parole “ethics of liver transplantation” Controllare in “Search Search Details Details” come viene costruita la “query” di ricerca nel database di Pubmed. Trovare gli articoli riferiti ai bimbi, bambini di 23 mesi o meno (suggerimento: utilizzare i filtri). Ricordarsi di pulire i filtri Esercizio 8 NCBI Pubmed Parte A. Con una ricerca in Pubmed, trovare le pubblicazioni che siano relazionate con “circadian rhythms” e che siano relazionate con “cortisol” o “melatonin” in Humans. Parte B. Trovare le pubblicazioni correlate con “heart surgery” (provare con le virgolette e senza). Utilizzando “History” nella ricerca avanzata, Combinare questa ricerca con quella della parte A. Quante pubblicazioni trovate ? Esercizio 9 NCBI Pubmed Trovare pubblicazioni specifiche, utilizzando la ricerca avanzata oppure il “search box” Parte A: Gli articoli pubblicati nel 2000 in The New England Journal of Medicine. Riferiti a “hip protector” (to prevent hip fractures) Parte B: Gli articoli dove “A. M. Adelman” è il primo nome della pubblicazione. Quanti articoli ci sono ? Parte C: Cercare le pubblicazione del Volume 5, issue 4 della rivista PLoS Pathogens. Quanti articoli sono stati pubblicati in quel fascicolo, in quale anno/mese?