NCBI - Docenti Unife

Lezione 9
NCBI: National Center for
Biotechnology Information
Come possiamo strutturare le
informazioni e renderle disponibili?
Banche dati (database)
L’elemento di partenza di ogni database è la tabella: una tabella è un insieme di
righe e colonne; ogni colonna contiene un dato relativo alla cosa che stiamo
descrivendo; ogni riga corrisponde ad una istanza della cosa.
Se parlassimo di persone avremmo che ogni riga corrisponde ad una persona ed
ogni colonna corrisponde ad una caratteristica della persona (altezza, peso
eccetera)
In termini di database ogni colonna è un campo, ogni riga un record.
Un database può essere composto di più tabelle. Ciò che rende un database
relazionale è la presenza di legami fra le tabelle, di connessioni logiche, di relazioni,
appunto.
Flat file: docenti e istruttori del corso BAG 2015
ridondante
record
Nome
cognome
Università/
Centro di
ricerca
dipartimento
indirizzo
Silvia
Fuselli
Unife
SVEB
Via Borsari 46
Ferrara
Emiliano
Trucchi
Unife
SVEB
Via Borsari 46
Ferrara
Pierpaolo
Maisano
Delser
Trinity
College
Smurfit
Institute of
Genetics
College
Green, Dublin
2
Ireland
campo
Relational database
Costituito da una sarie di tabelle connesse tra loro.
Le informazioni non sono ridondanti
Tabella istruttori
Istruttore_ID
Nome
cognome
Contatto_ID
1
Silvia
Fuselli
1
2
Emiliano
Trucchi
1
3
Pierpaolo
Maisano
Delser
3
Chiave primaria
Chiave secondaria
Tabella contatti
Chiave primaria
Contatto_ID
Università/
Centro di ricerca
dipartimento
indirizzo
1
Unife
SVEB
Via Borsari 46
Ferrara
2
Trinity College
Smurfit Institute of
Genetics
College Green,
Dublin 2
Ireland
Come cercare nei database?
Utilizzo di key words (parole chiave) o identificatori specifici
(accession numbers)
Operatori booleani:
Voglio ottenere lavori
scientifici pubblicati da
Caramelli D E/O Lari M
Voglio ottenere dati sul gene LDH
escludendo i primati
LDH NOT primates
Voglio ottenere dati sul gene LDH nella nostra specie:
LDH AND human
Come cercare nei database?
In alternativa alle parole chiave potrei usare BLAST (vedi
lezione
Ricerche in banche dati (databases) attraverso l’uso di BLAST
Database più importanti per sequenze
nucleotidiche (genetiche e genomiche):
NCBI several databases among which GenBank
http://www.ncbi.nlm.nih.gov/
EMBL (European Molecular Biology laboratory)
http://www.ebi.ac.uk/
DDBJ (DNA databank of Japan)
http://www.ddbj.nig.ac.jp/index-e.html
European Bioinformatics Institute
EBI/NCBI/DDBJ
• These 3 databases contain mainly the same information within
2-3 days (few differences in format and syntax)
• Serve as archives containing all sequences (single genes, ESTs,
complete genomes, etc.) derived from:
–
–
–
–
–
Genome projects
Sequencing centers
Individual scientists
Literature
Patent offices
• Non-confidential data exchanged daily
• The database triples approximately every 12 months.
National Center for Biotechnology Information
Ricercare informazioni «across databases» in NCBI
http://www.ncbi.nlm.nih.gov/gquery/
L'Entrez Global Query Cross-Database Search System è un sistema di ricerca integrato tra
banche dati biomediche contenenti informazioni di tipo differente.
Entrez è coordinato dal National Center for Biotechnology Information (NCBI) statunitense,
parte della National Library of Medicine (NLM) (essa stessa parte dei National Institutes of
Health (NIH)).
Proviamo a cercare il nome di un gene: LDH (lattato deidrogenasi)
Restringiamo all’uomo con l’operatore booleano AND
Seguiamo il link a PubMed:
Nel menu a sinistra selezioniamo REVIEW come tipo di
pubblicazione, fra le altre troveremo la seguente:
Possiamo vedere l’abstract
E ottenere l’articolo intero se siamo autorizzati (per esempio
siamo nella rete di unife)
Restringiamo all’uomo con l’operatore booleano AND
Seguiamo il link ad OMIM:
Online Mendelian Inheritance in Man®
An Online Catalog of Human Genes and
Genetic Disorders
Updated 20 November 2015
Vediamo i risultati (items) 2-3-4
Seguiamo il link ai database di SNP
Gli SNP vengono catalogati con un “rs” univoco
Ora facciamo una ricerca per patologia: vogliamo trovare gli SNP (single
nucleotide polymorphisms) associati al cancro al seno e disegnare un saggio di
laboratorio (PCR) per tipizzarli
Key workds: Early onset breast cancer, ricerca in Entrez
Seguiamo il link a GENE
Troverete molte informazioni sul gene e sulla regione cromosomica in cui si trova.
Verso la fine della pagina trovate il link a dbSNP
sinonimi
frameshift
Non sinonimi
Alcune varianti hanno provato effetto patogenico
Il database più noto in NCBI è GenBank
Guardate bene tutte le statistiche per farvi un’idea di come GenBank stia evolvendo
Tra le altre:
WGS: Whole Genome Shotgun Submissions
Whole Genome Shotgun (WGS) projects are genome assemblies of incomplete
genomes or incomplete chromosomes of prokaryotes or eukaryotes that are
generally being sequenced by a whole genome shotgun strategy. WGS projects may
be annotated, but annotation is not required. NCBI has a Prokaryotic Genomes
Annotation Pipeline that may be requested at the time the genome files are submitted
to GenBank. This pipeline generates a submission-ready annotated file that the
submitter could edit prior to data release.
Cerchiamo in GenBank il gene del citocromo B (si trova sul mitocondrio) del pesce
Garra rufa (anche detto doctor fish)
Per farvi due risate.. http://www.dottorfish.com/it/garra-rufa.php
gene
Intero mitocondrio
formati
Il locus e l’organismo (source)
Referenze bibliografiche
FEATURES: la sequenza e le sue
caratteristiche
Molto importante: identificatore UNIVOCO, accession number
In questo caso gene e cds coincidono (non è sempre
così, vedere lezioni precedenti)
Sequenza tradotta in
aminoacidi
Sequenza in formato GenBank
Sequenza in formato FASTA
The SRA not only provides a place where
researchers can archive their short read data,
but also enables them to quickly access known
data and their associated experimental
descriptions (metadata) with pin-point
accuracy.