Laboratorio di
Bioinformatica I
Banche dati
Parte 1
Dott. Sergio Marin Vargas (2014 / 2015)
Introduzione a NCBI
National Center for Biotechnology Information (NCBI)
http://www.ncbi.nlm.nih.gov/
NCBI Databases
NCBI Databases e Servizi
International Nucleotide
Sequence Database
http://www.ddbj.nig.ac.jp/
Collaboration
http://www.insdc.org/
Le sequenze su NCBI
(GenBank) sono
Sincronizzate con l’ENA
dell’EBI (EMBL-Bank) e
con DDBJ
http://www.ncbi.nlm.nih.gov/genbank/
http://www.ebi.ac.uk/ena
Cosa troviamo in NCBI
Banche dati (alcuni esempi):
• GenBank: database primario di sequenze nucleotidiche (NIH genetic
sequence database - National Institutes of Health)
• RefSeq: database non ridondanti di sequenze genomiche, di trascritti e
proteiche.
• PubMed and PubMed Central: accesso alla letteratura biomedica
• Omin: collezione di geni umani e fenotipi genetici
Servizi (alcuni esempi):
• Entrez (Gquery): interrogazioni incrociate ai diversi databases di NCBI
• BLAST: servizio di ricerche alle banche dati di sequenze mediante algoritmo
BLAST.
• VAST: servizio di ricerche per similarità di struttura
• Software and databases for download
Esercizio 1 Gquery (Entrez)
Aprire il browser e andare alla pagina iniziale di NCBI:
http://www.ncbi.nlm.nih.gov/
Individuare i database in NCBI che sono stati visti nella teoria:
Eseguire una ricerca con la parola “hiv-1” (specie)
Quanti taxa ci sono?
Quante sequenze nucleotidiche?
Quante proteine?
Di queste, quante con struttura risolta?
Quanti geni e quanti cluster UniGene?
Si noti il rapporto tra UniGene e EST
Perché ci sono più record in Gene che in UniGene se Gene è più
curato di UniGene (suggerimento: leggere cosa è UniGene) ?
Esercizio 1: Gquery
Esercizio 1: Risultato Gquery
(Entrez)
Risultato di una ricerca NCBI
Aprire il browser e andare alla pagina iniziale di NCBI:
http://www.ncbi.nlm.nih.gov/
Eseguire una ricerca con la parola “beta globin” (proteina)
Analizzare il risultato della ricerca nel database “Protein”
Risultato in Entrez di NCBI
NCBI: struttura del risultato di
una ricerca
Opzioni di
visualizzazione Nome banca dati
Risultati trovati
(records)
Filtri attivi (se
ce ne sono)
Un risultato
(record)
Stringa di ricerca
Opzioni di
download
NCBI: struttura del risultato di
una ricerca
In quali organismi
Filtri (con la
spunta quelli
attivi)
sono stati trovati
proteine “beta globin”
Altre banche
dati in NCBI
Stringa di
ricerca
dettagliata
NCBI: Ricerca avanzata
Ricerca avanzata
Filtri attivi
Inserimento
manuale di
stringhe di
ricerca
Costruttore di
ricerche
Ricerche
precedenti
NCBI: Ricerca avanzata
Permette di specificare i campi dei record da usare per la
ricerca, di combinarli con operatori logici e di combinare
anche ricerche recedenti (History).
Operatore logico
Campi da ricercare
Per avere l’elenco di
tutti i possibili valori
Una ricerca precedente può essere indicata con “#n”. Così si combina
con altre opzioni di ricerca o con altre ricerche (e.g. #5 AND #23)
Esercizio 2 Ricerca su NCBI
Ripetere la ricerca per “beta globin” sul
database Gene.
Aggiungere un filtro solo per homo sapiens
Come cambia la stringa in “search details”?
Filtrare solo i “geni codificanti proteine”
Eliminare l’ultimo Filtro
Recuperare il record per HBB hemoglobin, beta
[Homo sapiens] (con ID 3043) e aprirlo
Su quale cromosoma ci troviamo?
Quanti riferimenti bibliografici ci sono?
Quante interazioni sono registrate?
Individuare l’annotazione di Gene Ontology (GO)
Qual è il codice refseq del mRNA e proteina?
Esercizio 3 Ricerca su NCBI
Ricerca di una sequenza nucleotidica
Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.
Un esempio è il Mycobacterium tuberculosis, agente responsabile della
tubercolosi.
La domanda che ci si pone è:
Ci sono sequenze nucleotidiche nel Mycobacterium tuberculosis con
la caratteristica “Penicillin-binding”?
Passi:
1. Cercare nella banca dati Nucleotide tutte le sequenze per “Penicillin
binding” (notare le virgolette che indicano la stringa e non le due parole
singolarmente). Quanti item (record) ci sono ?
2. Cercare solo le sequenze di Mycobacterium tuberculosis.
3. Vogliamo solo sequenze non ridondanti e ben annotate (refseq). Quanti
record troviamo ?
NCBI – Estrazione di sequenze
nucleotidiche
Vogliamo scaricare (fare download) le sequenze
nucleotidiche dei trascritti del recettore della transferrina
(TFR1) per l’uomo, una proteina coinvolta nell’assorbimento
del ferro nelle cellule (malattia emocromatosi).
Cominciamo ricercando sul dal database Nucleotide.
Limitiamo la ricerca ad homo sapiens.
Limitiamo la ricerca solo al database RefSeq.
Limitiamo la ricerca solo ai trascritti (mRNA).
In “Display Settings” selezionare “FASTA”
In “Send” selezionare “Complete Record” e “File”
Formato FASTA x Nucleotidi
Intestazione
>gi|189458818|ref|NM_001128148.1| Homo sapiens transferrin receptor (TFRC), transcript variant 2, mRNA
ACGCACAGCCCCCCTGGGGGCCGGGGGCGGGGCCAGGCTATAAACCGCCGGTTAGGGGCCGCCATCCCCT
CAGAGCGTCGGGATATCGGGTGGCGGCTCGGGACGGAGGACGCGCTAGTGTTCTTCTGTGTGGCAGTTCA
GAATGATGGATCAAGCTAGATCAGCATTCTCTAACTTGTTTGGTGGAGAACCATTGTCATATACCCGGTT
CAGCCTGGCTCGGCAAGTAGATGGCGATAACAGTCATGTGGAGATGAAACTTGCTGTAGATGAAGAAGAA
AATGCTGACAATAACACAAAGGCCAATGTCACAAAACCAAAAAGGTGTAGTGGAAGTATCTGCTATGGGA
CTATTGCTGTGATCGTCTTTTTCTTGATTGGATTTATGATTGGCTACTTGGGCTATTGTAAAGGGGTAGA
ACCAAAAACTGAGTGTGAGAGACTGGCAGGAACCGAGTCTCCAGTGAGGGAGGAGCCAGGAGAGGACTTC
CCTGCAGCACGTCGCTTATATTGGGATGACCTGAAGAGAAAGTTGTCGGAGAAACTGGACAGCACAGACT
TCACCGGCACCATCAAGCTGCTGAATGAAAATTCATATGTCCCTCGTGAGGCTGGATCTCAAAAAGATGA
AAATCTTGCGTTGTATGTTGAAAATCAATTTCGTGAATTTAAACTCAGCAAAGTCTGGCGTGATCAACAT
TTTGTTAAGATTCAGGTCAAAGACAGCGCTCAAAACTCGGTGATCATAGTTGATAAGAACGGTAGACTTG
TTTACCTGGTGGAGAATCCTGGGGGTTATGTGGCGTATAGTAAGGCTGCAACAGTTACTGGTAAACTGGT
CCATGCTAATTTTGGTACTAAAAAAGATTTTGAGGATTTATACACTCCTGTGAATGGATCTATAGTGATT
GTCAGAGCAGGGAAAATCACCTTTGCAGAAAAGGTTGCAAATGCTGAAAGCTTAAATGCAATTGGTGTGT
TGATATACATGGACCAGACTAAATTTCCCATTGTTAACGCAGAACTTTCATTCTTTGGACATGCTCATCT
....
Sequenza
Nucleotidica
NCBI – Estrazione di sequenze
proteiche
Vogliamo scaricare (fare download) le sequenze proteiche
del recettore della transferrina (TFR1), ma che abbiano la
struttura risolta e siano complessati (legati) a un qualsiasi
ligando.
Cominciamo ricercando sul dal database Protein.
Limitiamo la ricerca solo al database PDB (quelli con
struttura risolta).
In ricerca avanzata cerchiamo per “TFR1” e “complex” in
tutti i campi
In “Display Settings” selezionare “FASTA”
In “Send” selezionare “Complete Record” e “File”
Formato FASTA x Proteine
Intestazione
>gi|48425720|pdb|1SUV|B Chain B, Structure Of Human Transferrin Receptor-transferrin Complex
LYWDDLKRKLSEKLDSTDFTSTIKLLNENSYVPREAGSQKDENLALYVENEFREFKLSKVWRDQHFVKIQ
VKDSAQNSVIIVDKNGRLVYLVENPGGYVAYSKAATVTGKLVHANFGTKKDFEDLYTPVNGSIVIVRAGK
ITFAEKVANAESLNAIGVLIYMDQTKFPIVNAELSFFGHAHLGTGDPYTPGFPSFNHTQFPPSRSSGLPN
IPVQTISRAAAEKLFGNMEGDCPSDWKTDSTCRMVTSESKNVKLTVSNVLKEIKILNIFGVIKGFVEPDH
YVVVGAQRDAWGPGAAKSGVGTALLLKLAQMFSDMVLKDGFQPSRSIIFASWSAGDFGSVGATEWLEGYL
SSLHLKAFTYINLDKAVLGTSNFKVSASPLLYTLIEKTMQNVKHPVTGQFLYQDSNWASKVEKLTLDNAA
FPFLAYSGIPAVSFCFCEDTDYPYLGTTMDTYKELIERIPELNKVARAAAEVAGQFVIKLTHDVELNLDY
EEYNSQLLSFVRDLNQYRADIKEMGLSLQWLYSARGDFFRATSRLTTDFGNAEKTDRFVMKKLNDRVMRV
EYHFLSPYVSPKESPFRHVFWGSGSHTLPALLENLKLRKQNNGAFNETLFRNQLALATWTIQGAANALSG
DVWDIDNEF
Sequenza Proteica
Esercizio 4 Estrazione di sequenza
Nucleotidica
Vogliamo
cercare
la
sequenza
nucleotidica
e
amminoacidica della rodopsina (rhodopsin), il pigmento
visivo che innesca la visione nei vertebrati
Cominciamo dal database Nucleotide. Quante sequenze ci sono per la
ricerca “rhodopsin”?
Limitare la ricerca al database RefSeq. Quanti record ci sono?
Limitiamo la ricerca ad homo sapiens (human), usando l’opzione
advanced search. Quante sequenze nucleotidiche trova?
Visualizziamo l’entry “Homo sapiens chromosome 3, GRCh38
Primary Assembly”. Quante bp (base pair) ci sono nella sequenza?
Visualizziamo l’entry “Homo sapiens rhodopsin (RHO), RefSeqGene
on chromosome 3”. Quante bp ci sono nella sequenza?
Perche la differenza di dimensioni ?
Ci sono malattie genetiche associate a questa entry? Di tipo solo
autosomico dominante? (OMIM)
Scaricare il fasta di solo il gene rhodopsin.
Esercizio 5 Estrazione di sequenza
amminoacidica (proteica)
Se vogliamo adesso scaricare la sequenza amminoacidica,
della rodopsina (rhodopsin) per l’uomo su quale database
dobbiamo andare e quali filtri utilizzare ?
Scaricare il FASTA della proteina e salvarlo in una
directory locale.
Collegarsi ad OMIM sfruttando il link sulla destra. Quanti
records si ottengono? Trovare almeno due mutazioni
puntiformi
associate
a
retinite
pigmentosa.
(Suggerimento: leggere!!!)
Esercizio 6 NCBI Proteins
Ricercare la proteina “Hemoglobin subunit beta” di Homo
sapiens. Filtrare solo i record con RefSeq selezionare il
risultato con codice RefSeq NP_000509.1 (accession).
1) Individuare
•
lunghezza,
•
peso molecolare,
•
il refseq del trascritto
2) Salvare localmente la sequenza FASTA della PROTEINA
3) Salvare localmente la sequenza FASTA del TRASCRITTO
4) Ci sono SNP? Cos’è un SNP?
5) Ci sono malattie mendeliane note legate a questa proteina?
6) Ci sono strutture legate a questa proteina?
•
Quante risolte per NMR e quante mediante Cristallografia (X-Ray) ?
NCBI – PubMed
Opzioni di
visualizzazione
Stringa di ricerca
Opzioni di
download
Risorse
correlate:
•Trend nei risultati
•Ricerche simili
•Articoli citati
•Articoli che citano
quello corrente
•Ecc…
Filtri
Stringa di
ricerca
dettagliata
Risultati (tipicamente articoli, ma anche review, trial clinici, ecc)
NCBI – PubMed - Entry
Opzioni di
visualizzazione
Rivista, anno,
titolo,
autori
Abstract
Opzioni di
download
Risorse
correlate:
•Articoli che citano
quello corrente
•Collegamenti a
banche dati
che contengono
informazioni sui
temi dell’articolo
Codice univoco, PubMedID
Tipo della pubblicazione (in
questo caso, una review)
Termini MeSH (Medical Subject Headings)
Esercizio 7 NCBI Pubmed
Trovare le pubblicazioni correlate con le parole
“ethics of liver transplantation”
Controllare in “Search
Search Details
Details” come viene costruita
la “query” di ricerca nel database di Pubmed.
Trovare gli articoli riferiti ai bimbi, bambini di 23 mesi
o meno (suggerimento: utilizzare i filtri).
Ricordarsi di pulire i filtri
Esercizio 8 NCBI Pubmed
Parte A.
Con una ricerca in Pubmed, trovare le pubblicazioni che
siano relazionate con
“circadian rhythms” e che siano relazionate con “cortisol”
o “melatonin”
in Humans.
Parte B.
Trovare le pubblicazioni correlate con “heart surgery”
(provare con le virgolette e senza).
Utilizzando “History” nella ricerca avanzata,
Combinare questa ricerca con quella della parte A. Quante
pubblicazioni trovate ?
Esercizio 9 NCBI Pubmed
Trovare pubblicazioni specifiche, utilizzando la
ricerca avanzata oppure il “search box”
Parte A:
Gli articoli pubblicati nel 2000 in The New England Journal of
Medicine. Riferiti a “hip protector” (to prevent hip fractures)
Parte B:
Gli articoli dove “A. M. Adelman” è il primo nome della
pubblicazione. Quanti articoli ci sono ?
Parte C:
Cercare le pubblicazione del Volume 5, issue 4 della rivista PLoS
Pathogens. Quanti articoli sono stati pubblicati in quel fascicolo,
in quale anno/mese?