B
.
b
a
L
n
i
io
a
m
r
fo
I
a
c
ti
Dott. Alejandro Giorgetti
Dip. Scientifico e Tecnologico
Facoltà di Scienze MM.FF.NN
Università di Verona
Di
Email: [email protected]
Testi consigliati
Anna Tramontano
BIOINFORMATICA
ZANICHELLI
G. Valle e altri.
Introduzione alla Bioinformatica
Zanichelli
Arthur M. Lesk
Introduzione alla bioinformatica
MgGraw Hill
Baxevanis and Ouellette.
Bioinformatics
Wiley
Bioinformatica
E’ una scienza che utilizzando le metodiche delle Scienze
dell’Informazione si occupa del trattamento e dell’analisi
dei dati di tipo biologico, al fine di formulare ipotesi sui
processi della vita
Incredibile impulso dalla biologia moderna,
accumulando dati di varietà unica, la cui quantità
è esplosa negli ultimi anni grazie a:





Efficienza dell’Hardware
Sviluppo del software
Telecomunicazioni (WWW)
Rivoluzionare tecniche sperimentali
Progetti di sequenziamento genomico
Il cosmo ‘omico’

Genoma: Insieme dei geni di un organismo

Genomica: scienza che se ne occupa
Genoma Umano: Sequenziato
completamente nel 2003.
Genomica
Trascrittogenomica


Proteomica
Occorre localizzare:

Elementi Funzionali

Regioni ‘utili’ → geni;

Sequenze codificanti, comprendere i
meccanismi che regolano l’espressione,
scoprire la funzione, e cercare
d’intervenire specificamente su
quest’ultima.
Genomica
Strutturale
Farmacogenomica
Il cosmo ‘omico’
Genomica
Trascrittogenomica
Ogni cellula contiene la stessa
informazione genetica.
Proteomica
Non tutti i geni sono attivi o
espressi allo stesso livello in
tutte le cellule.
Genomica
Strutturale


Microarray

Farmaco-genomica
Il cosmo ‘omico’
Genomica
Trascrittogenomica

Proteine Presenti

Quantità
Modifiche

post-traduzionali
Proteomica
Genomica
Strutturale

Farmaco-genomica
Il cosmo ‘omico’
Genomica
Trascrittogenomica
Proteomica
Genomica
Strutturale
Farmaco-genomica
Il cosmo ‘omico’
Genomica
Trascrittogenomica
Proteomica
Genomica
Strutturale
Farmaco-genomica
La Giungla dei dati
biologici
Sequenze
Dati gentici
Biologia
Strutturale
Biologia
molecolare
medicina
Fisiologia
Espressione
genica
tossicologia
Lab. Bioinformatica I
Il corso di Bioinformatica e Banche dati biologiche si propone di
fornire allo studente le basi, teoriche e applicative, riguardanti gli
algoritmi e i programmi utilizzati nella ricerca e analisi primaria
dei dati contenuti nelle principali banche dati biologiche di uso
corrente in proteomica, genomica, biochimica, biologia
molecolare e strutturale.
Il corso si propone, inoltre, di mettere in grado lo studente di
utilizzare con dimestichezza in laboratorio, gli strumenti illustrati
in aula. Di particolare interesse sono la raccolta e la
distribuzione di informazioni biomolecolari mediante banche dati
ed il loro corretto sfruttamento al fine di integrare i dati
sperimentali, prodotti in laboratorio, con una serie di analisi
comparative, sviluppate in silico atte a migliorarne la qualità e la
comprensione.
Introduzione ai recenti sviluppi delle banche dati di interesse biologico e al loro
utilizzo. Cenni ai programmi utilizzati in genomica funzionale, proteomica e
genomica strutturale.
- Introduzione alle banche dati biomolecolari: Organizzazione e
integrazione dell'informazione riguardante: a) sequenze di proteine e di acidi
nucleici; b) strutture biomolecolari o di composti di interesse biologico; c)
banche dati bibliografiche e specialistiche;
Algoritmi di ricerca FASTA e BLAST;
Guida alla scelta dei parametri per gli algoritmi di ricerca.
Significatività statistica di un allineamento (z-score, valori di aspettativa e di
probabilità)
- Recupero di informazione: Ricerca per parole chiave combinate con operatori
logici.
- Allineamento di sequenze:
Metodi di allineamento ottimali: Algoritmi di Needleman-Wunsch e di SmithWaterman.
Matrici di similarità: le serie PAM e Blosum.
- Allineamenti multipli: L'algoritmo ClustalW
- Analisi filogenetiche: alberi filogenetici, metodo UPGMA
Struttura delle banche dati biomolecolari.
- Banche dati bibliografiche: PubMed.
- Banche dati di sequenze di acidi nucleici: EMBL, GenBank e
DDJB.
- Banche dati di sequenze di proteine: PIR, SWISSPROT,TrEMBL.
- Banche dati di strutture macromolecolari: PDB
- Classificazioni delle strutture proteiche.
- Banche dati del trascrittoma e di profili di espressione.
- Banche dati di pathway metabolici: KEGG
Metodi di ricerca.
- Sistemi di accesso alle banche dati: ENTREZ, SRS, Ensembl,
BIOMART.
- Ricerche in banche dati per similarità: FASTA, BLAST, PSIBLAST .
- Ricerche per parole chiave combinate con operatori logici.
- Analisi del materiale recuperato dalla banca dati.
- Qualità dei dati e la loro rappresentazione.
- Programmi per la visulizzazione della struttura delle proteine
- Creazione ed analisi di alberi filogenetici
• « Nature » is not classified but …
• … human beings need classifications for several reasons :
• a better and more reliable data storage
• an easiest way to retrieve data
• to connect data and infer occurrence rules (understanding)
•…
• Data have always been classified and stored :
• L’Encyclopédie of Diderot and d’Alembert (1762)
• Scientific classification of species (taxonomy)
• Periodic table of the elements by Mendeleiev (1869)
• Classification of stars
• Musical classification
•…
• Biological databases, nowadays :
• a large number of database types
• a huge amount of data
GenBank growth
1982-2005
C
12.01
Kingdom
Phylum
Class
Order
6 Family
Genus
Species
• A collection of data, …
• which are structured;
• which are indexed;
• which are periodically updated;
• which has references to other databases;
•…
>sp|P56478|IL7_RAT
MFHVSFRYIFGIPPLILVLLPVTSSD
CHIKDKDGKAFGSVLMISINQLDKMT
GTDSDCPNNEPNFFKKHLCDDTKEAA
FLNRAARKLRQFLKMNISEEFNDHLL
RVSDGTQTLVNCTSKEEKTIKEQKKN
DPCFLKRLLREIKTCWNKILKGSI
SEQUENCES
• Biological databases are tightly associated to tools …
• to retrieve entry of the database;
• to update the database;
•…
• The main six database categories :
• sequences
• proteins (UniProtKB);
• nucleic acids (EMBL).
FUNCTION
• mapping
• genes;
• chromosomes;
•…
• 3D structures (PDB)
• gene/protein expression
• function (KEGG)
• literature (PubMed), ontologies (GO), …
3D
ONTOLOGIES
LITERATURE
LS125-4
R14523
CYC223
EXPRESSION
MAPPING
• Nucleic Acids Research Database Issue, on January, each year :
• in 2006, a collection of 858 databases ;
• classified in 14 categories :
• Nucleotide Sequence Databases
• RNA sequence databases
• Protein sequence databases
• Structure Databases
• Genomics Databases (non-vertebrate)
• Metabolic and Signaling Pathways
• Human and other Vertebrate Genomes
• Human Genes and Diseases
• Microarray Data and other Gene Expression Databases
• Proteomics Resources
• Other Molecular Biology Databases
• Organelle Databases
• Plant Databases
• Immunological Databases
• Most exotic name : Hollywood, a database of alternatively spliced mRNAs
• Most cited (in 2 years) :
• Pfam (protein families), GO (gene ontology), UniProt (proteins), SMART(protein domains),
•KEGG (pathways)
• Never cited (in 2 years) :
• EyeSite (protein families in the eye), STCDB (hierarchical classification of eukaryotic
•signaling proteins)
Perché utilizziamo le banche dati ?
Vi sono una serie di strumenti bioinformatici che
permettono di ricavarne informazioni.
Essi si sono sviluppati in base a questi tre processi
biologici fondamentali:
1)
la sequenza del DNA determina la sequenza
amminoacidica della proteina
(mediante il processo della sintesi proteica);
2)
la sequenza aminoacidica determina la struttura
tridimensionale della proteina;
3)
la struttura tridimensionale della proteina ne
determina la funzione.
…saremo in grado
di:
-data una sequenza di acidi nucleici o
proteica trovare una sequenza simile in
banca dati;
-data una struttura proteica trovare, in
banca dati, una struttura simile ad
essa;
-data una sequenza proteica prevedere
una possibile struttura tridimensionale;
3 fasi di interazione con una banca
dati
1 Recupero dell'informazione in una banca dati: sistemi di
interrogazioni via Web. Interrogazioni semplici per
parola chiave o più raffinate.
2 Scelta del formato dei dati estratti da una banca dati.
3 Scaricare un dato biologico estratto nel formato sceltoin
locale come file di testo: estrazione delle informazioni
mediante semplici programmi (es. PERL)
Alcune statistiche
• Più di 1000 differenti database biologici!!!
• Grandezza: Da < 100Kb a >10Gb
– DNA: > 10 Gb
– Proteine: 1 Gb
– Strutture 3D: 5 Gb
– altri: più piccoli
• Frequenza di aggiornamento:
da giornaliero ad annuale (Es: vedi PDB release)
• In genere sono accessibili via web (free !?)
• Scaricabili in locale
Alcuni database di interesse biologico!!!
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb,
BBDB, BCGD,
Beanref, Biolmage,BioMagResBank,
BIOMDB,
BLOCKS,
BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY,
CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB,
CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS,
DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD
db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS,
Genbank, GeneCards, Genline, GenLink, GENOTK,
GenProtEC,
GIFTS,
GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE,
HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE,
ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb,
MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP,
MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam,
PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis,
PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD,
SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList,
SWISS-2DPAGE, SWISS-3DIMAGE, SWISSMODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR,
UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD,
YPM, etc ……………………..!!!!
L’informazione proviene da:
- letteratura specializzata sull’ argomento
- analisi effettuate in laboratorio
(in vitro e/o in vivo) Es. BIND
- analisi bioinformatiche (in silico) Es. PMDB
Analisi di una generica entry(UNIPRot):IL7_RAT
• A unique identifier;
• Taxonomic data;
• References to literature;
• References to other databases;
• Keywords;
• Annotation;
• Sequence.
• A unique identifier;
• Taxonomic data;
• References to literature;
• References to other databases;
• Keywords;
• Annotation;
• Sequence.
• A unique identifier;
• Taxonomic data;
• References to literature;
• References to other databases;
• Keywords;
• Annotation;
• Sequence.
• A unique identifier;
• Taxonomic data;
• References to literature;
• References to other databases;
• Keywords;
• Annotation;
• Sequence.
• A unique identifier;
• Taxonomic data;
• References to literature;
• References to other databases;
• Keywords;
• Annotation;
• Sequence.
• A unique identifier;
• Taxonomic data;
• References to literature;
• References to other databases;
• Keywords;
• Annotation;
• Sequence.
• A unique identifier;
• Taxonomic data;
• References to literature;
• References to other databases;
• Keywords;
• Annotation;
• Sequence.
Istituzioni: NCBI e EBI
NCBI (National Center for Biotechnology Information)
http://www.ncbi.nlm.nih.gov/
E BI (European Bioinformatics Institute)
http://www.ebi.ac.uk/
NCBI
accesso a TANTE risorse di vario tipo:
-National Library of Medicine
-National Institutes of Health
-….
accesso a numerosi database attraverso il sistema Entrez:
GenBank
Swissprot
PubMed
…
Accesso tra l’ altro a diversi software bioinformatici
NCBI - Entrez
E NTRE Z:
sistema di interrogazione di
banche dati biologiche disponibile via web.
• ENTREZ e' forse un pò meno flessibile di SRS, permette tuttavia il
massimo sfruttamento del concetto di "neighbouring" offrendo la
possibilita' di collegare tra loro oggetti diversi di database differenti,
indipendentemente dal fatto che essi siano direttamente “ crossreferenced” (related articles in PubMed).
• Tipicamente, ENTREZ permette l'accesso a database di sequenze
nuclotidiche, di sequenze proteiche, di mappaggio di cromosomi e di
genomi, di struttura 3D e bibliografici (PubMed).
NCBI - Entrez
EBI: SRS
• Sistema di recupero dati
• Contiene più di 140 database
• É inoltre un server contenente applicativi
per l’ analisi dei dati
- 11 applicativi per le proteine
- 6 applicativi per gli acidi nucleici
Quali dati sono presenti nei
database?
Principalmente sono presenti sequenze di caratteri
(nucleotidi, amminoacidi) o strutture.
L’ uso della rappresentazione dei dati biologici di varia
natura come sequenze è la forma di gran lunga più
diffusa.
Sequenze: astrazioni di strutture 3D
sequenze DNA: formate da 4 tipi di lettere:
a (adenina), c (citosina), g (guanina), t (timina)
esempio: atggtacat..., tag, ttt, …
(Rivediamo le strutture chimiche, magari con Entrez!)
Sequenze RNA: formate da 4 tipi di lettere:
a (adenina), c (citosina), g (guanina),u (uracile)
esempio: aucgcuaa, auucg, …
Per convenzione sono rappresentate con lettere minuscole
Sequenze proteiche: formate da 20 lettere
corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I,
K, L, M, N, P, Q, R, S, T, V, W, Y
esempio: MPIVDTGSVAPLSAAEK…, TAG,...
Per convenzione sono rappresentate con lettere maiuscole
Accesso alle banche dati: entry e query
Ogni banca dati è caratterizzata da un elemento biologico
centrale, che chiamiamo ENTRY.
Ogni ENTRY è composto di CAMPI (FIELDS) che
contengono
informazioni relative.
Es: nelle banche dati di sequenze di acidi nucleici l’ elemento centrale è
la sequenza nucleotidica di DNA o RNA
Es: un database di proteine contiene tipicamente proteine come ENTRY
e proprietà di proteine come FIELDS (nome, lunghezza, sequenza,
origine tassonomica ecc.)
Query
L’ interrogazione alla banca dati (QUERY) mira ad estrarre un
insieme di elementi (entries).
E’ proprio l’ organizzazione in CAMPI (FIELDS) a permettere
l’ estrazione delle informazioni mediante le QUERY
HE ADE R di linee informative:
• L ocus: codice di identificazione
della sequenza
•Accession number: codice di
accesso all'elemento all'interno
della base di dati
• Source/Organism: organismo
da cui è stata isolata la
sequenza
• Riferimenti alla letteratura
scientifica
FE ATURE S:
•annotazioni tecniche su parte
della sequenza
• Sequenza di caratteri
Formato FASTA (o Pearson)
Formato XML
oltre ai dati viene
fornita
sia la struttura logica
che la struttura fisica
della banca dati
Formato ASN.1
(Abstract Syntax Notation.One)
Insieme al formato XML
servono essenzialmente
per manipolazione e
presentazione sul Web
Una query semplice è quella per parola
chiave (keyword) o per codice
identificativo.
Problema della ricerca per semplice parola
chiave: molto spesso si ottengono troppe
risposte.
Sovraccarico informativo: molte più
sequenze di quelle di interesse contengono in
qualche linea la parola chiave cercata
Strumenti per raffinare la
ricerca
Per diminuire il numero di risposte si deve
specializzare ulteriormente la domanda
operatori booleani:
AND (& ), OR (|),BUT NOT (!)
(specializzazione della query)
Operatore AND
Restringe il campo
(&) di ricerca, inserendo ad es. la
stringa:
equus caballus AND hemoglobin alpha
La banca dati ci mostrerà una lista di sequenze
proteiche i cui campi di descrizione contengono
entrambe le parole. Quindi le sequenze proteiche
del cavallo che non contengono nella descrizione la
parola hemoglobin non vengono selezionate.
Operatore OR
Estende il campo di ricerca, digitando ad esempio:
(|)
homo sapiens OR mus musculus
Otterremo una lista di sequenze i cui campi
contengono la parola homo sapiens o la parola mus
musculus.
L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme
delle sequenze che incontrano le nostre esigenze.
Operatore BUT NOT
(!)
Restringe il campo di ricerca, inserendo:
homo sapiens BUT NOT hemoglobin
Richiederemo sequenze i cui campi contengono la parola
homo sapiens ma non la parola hemoglobin.
Operatore booleani:
combinazioni
Naturalmente gli operatori booleani consentono di
effettuare ricerche con più di due parole chiave,
creando così interrogazioni che possono diventare
molto complesse.
Ottimizzazione della ricerca con Entrez: Limits
e History
1) Funzione Limits: consente di limitare la ricerca a solo
alcuni criteri (campi del database)
o sottoinsiemi di dati
es. scegli campo
“organism”
Esempio: è stata limitata la ricerca
a sequenze del DB contenenti la
parola mouse nel campo organism
Entrez: opzione History combino più
query già fatte
3 query: combino in AND #1 e #2
2 query: etichetta #2
1 query: etichetta #1
Suggerimenti per le esercitazioni:
• Non cercare di memorizzare i dettagli.
• Provare invece a:
– Imparare le caratteristiche comuni ai vari
database biologici.
– Capire le caratteristiche fondamentali dei
database.
– Imparare ad usare gli HELP ONLINE
– Provare a confrontare e a giudicare I
diversi database.
E sempio di applicazione:
Molti batteri si sono evoluti acquisendo una resistenza
agli antibiotici.
Un esempio è il è il Mycobacterium Tuberculosis,
agente responsabile della tubercolosi.
L a domanda che ci si pone è:
Ci sono geni che presentano nel M.Tuberculosis
un “Penicillin-binding”?
Passi:
1. Cerchiamo nella banca dati nucleotidica tutte le sequenze
per
“Penicillin-binding”
2. Cerchiamo solo le sequenze di M.Tubercolosis.
3. Combiniamo i due criteri di selezione.
Criterio di selezione
Penicillin-binding
Num. di sequenze
Selezionare limits per
Il 2° punto
Cerchiamo sequenze
nucleotidiche
Mycobacterium Tuberculosis
Organismo da ricercare
Ricerca limitata
solo al campo: organism
Scegliere HISTORY
per combinare i criter
Numero di sequenze
#1 AND #2
Sintassi di unione
di caratteri
Risultato finale
Numero di sequenze total
Entrez - Strutture macromolecolari
http://www.ncbi.nlm.nih.gov/entrez entrez/query.fcgi?db=Structure
aconitase
Struttura da cercare
Strutture trovate
Entrez - Dati di Popolazione
La collezione contiene un insieme di sequenze di DNA
utilizzate per studi per studi evolutivi di popolazione.
http://www.ncbi.nlm.nih.gov/entrez entquery.fcgi query.fcgi?db=Popset
Entrez-Malattie Genetiche
Catalogo di geni umani e disordini genetici
Entrez - tassonomia
Contiene i nomi di tutti gli
organismi rappresentati
nelle banche dati di
biosequenze con almeno
una sequenza nucleotidica o
proteica
Entrez – polimorfismo
SNP (single nucleotide polimorfism)
PubMed
È il sistema di riferimento quando si intende
effettuare
una ricerca bibliografica via Entrez
La banca dati che si interroga è MEDLINE: sviluppata
dalla National Library of Medicine, è la più completa
banca dati bibliografica relativa al settore bio-medico.
Il sistema Entrez + MEDLINE è stato incorporato
dall’ NCBI con il nome di
PubMed
• What is PubMed?
• a literature database specialised in life sciences
• a literature search system
• PubMed is developed and maintained by the National Center for Biotechnology Information (NCBI)
of the National Library of Medicine (NLM) – Bethesda - USA
• covers several fields such as
• medicine;
• dentistry;
• veterinary sciences;
• clinical sciences;
• biological sciences;
•…
• includes 16 million citations from 1902 to …
• oldest article published in the “University of Pennsylvania medical bulletin” in 1902 :
• Martin E, Carnett JB, Levi JV, Pennington ME.
The surgical treatment of sterility due to obstruction at the epididymis; together with a
study of the morphology
of human spermatozoa.
Univ Pa Med Bull. 1902 Mar;15(1):2-15.
• more than 4,500 journals are referenced
• 82,028,000 queries in March 2006 (163,000 in January 1997)
• freely accessible at
http://www.ncbi.nlm.nih.gov/pubmed
http://www.pubmed.gov
• PubMed unique identifier (PMID)
• Article identifiers (AID)
• Publication date (DP or PDAT)
• Added to PubMed (EDAT)
• Title (TI)
• Abstract (AB)
PMID- 16381842
OWN - NLM
STAT- MEDLINE
DA - 20051229
DCOM- 20060228
PUBM- Print
IS - 1362-4962 (Electronic)
VI - 34
IP - Database issue
DP - 2006 Jan 1
TI - The Universal Protein Resource (UniProt): an expanding
universe of
protein information.
PG - D187-91
AB - The Universal Protein Resource (UniProt) provides a
central
resource on protein sequences and functional annotation
with three
database
…
AD - Department of Biochemistry and Molecular Biology,
Georgetown
University Medical Center, 3900 Reservoir Road, NW,
Washington,
• Affiliation (AD)
DC 20057-1414, USA.
• Authors (AU and AUF)
FAU - Wu, Cathy H
AU - Wu CH
FAU - Apweiler, Rolf
AU - Apweiler R
FAU - Bairoch, Amos
AU - Bairoch A
FAU - Natale, Darren A
AU - Natale DA
FAU - Barker, Winona C
AU - Barker WC
FAU - Boeckmann, Brigitte
AU - Boeckmann B
FAU - Ferro, Serenella
AU - Ferro S
FAU - Gasteiger, Elisabeth
AU - Gasteiger E
FAU - Huang, Hongzhan
AU - Huang H
FAU - Lopez, Rodrigo
AU - Lopez R
FAU - Magrane, Michele
AU - Magrane M
FAU - Martin, Maria J
AU - Martin MJ
FAU - Mazumder, Raja
AU - Mazumder R
FAU - O'Donovan, Claire
AU - O'Donovan C
FAU - Redaschi, Nicole
AU - Redaschi N
FAU - Suzek, Baris
AU - Suzek B
LA - eng
GR - 1 U01 HG02712-01/HG/NHGRI
GR - 1R01HGO2273-01/HG/NHGRI
GR - HHSN266200400061C/HS/AHCPR
PT - Journal Article
PL - England
• Journal title (TA and JT)
TA - Nucleic Acids Res
JT - Nucleic acids research.
JID - 0411011
RN - 0 (Proteins)
RN - 0 (Proteome)
SB - IM
• MeSH terms (MH)
MH - *Databases, Protein
MH - Internet
MH - Proteins/chemistry/classification/physiology
MH - Proteome/chemistry
MH - Research Support, N.I.H., Extramural
MH - Research Support, Non-U.S. Gov't
MH - Research Support, U.S. Gov't, Non-P.H.S.
MH - Sequence Analysis, Protein
MH - Systems Integration
MH - User-Computer Interface
EDAT- 2005/12/31 09:00
MHDA- 2006/03/01 09:00
AID - 34/suppl_1/D187 [pii]
AID - 10.1093/nar/gkj161 [doi]
PST - ppublish
17th 2006
- Introduction
to Biological Databases
SO - Nucleic AcidsMay
Res.
Jan 1;34(Database
issue):D187-91.
• Citation (SO)
• Searching through PubMed is managed by a toolbar
Select the database
(PubMed)
Enter your search
terms
Advanced search tools
and search manager
Limits
Clipboard
Search history
• Searching by author names
• Let’s try to find the articles written by James Dewey Watson
• “Watson” retrieves 22,241 references with noisy references related to :
• Article written by other “Watsons” than JD Watson
• Watson disease
• Watson-Crick base pairing
•…
• “Watson” limited to “author names” retrieves 18,560 references
• “Watson JD” limited to “author names” retrieves 339 references but …
• … even if James D Watson is an honorary scientist, he didn’t wrote 339 articles …
• … these results are still noisy:
JD Watson is a
post-doc at the
EBI
• “Author names” searches must be combined with other criteria to retrieve the only results we need.
• Searching by subject
• Let’s try to find the articles dealing with Down syndrome:
• “Down syndrome” retrieves 16,950 references with noisy references:
• “Down syndrome” in the title retrieves 3,689 references
This article is related to the
activation of several genes by 2
proteins in human endothelial
cells. Down syndrome critical
region gene 1 (DSCR1) is one of
them.
• But your are interested in the “therapy” of “Down syndrome”. Let’s combine the two terms in your
search:
“therapy”[title] AND “Down syndrome”[title] retrieves only 33 references
• It’s seems to be too restrictive and still noisy:
This article is related to the
therapy of airway obstruction in
the particular case of the patients
affected by Down syndrome.
• A solution can be the use of the MeSH database.
• The MeSH database
• MeSH (Medical Subject Headings) is a controlled vocabulary thesaurus used for indexing
PubMed articles. An article, which deals with “Down syndrome” will be indexed with the
corresponding MeSH term.
• The MeSH database
• MeSH (Medical Subject Headings) is a controlled vocabulary thesaurus used for indexing
PubMed articles. An article, which deals with “Down syndrome” will be indexed with the
corresponding MeSH term.
All MeSH categories
Diseases
Nervous System Diseases
Congenital, Hereditary, and Neonatal Diseases and Abnormalities
Neurologic Manifestations
Abnormalities
Neurobehavioral Manifestations
Abnormalities, Multiple
Genetic Disorders, Inborn
Chromosome Disorders
Chromosome Disorders
Mental Retardation
D
O
W
N
S
Y
N
D
R
O
M
E
• Selecting the « therapy » subheading of the « Down syndrome » MeSH entry.
• Selecting the « therapy » subheading
• Adding the term in the search box
• Adding another criterion on the title
• And thus retrieving 272 results
• Include limits to refine your search: AUTHOR
NAMES
• Adding an author names
• Autocompletion of the author names
• Include limits to refine your search: JOURNAL NAMES
• Adding one or several journal names
• Autocompletion of journal names
• Include limits to refine your search: FULL TEXT
LINKS
Only references
with links to full text
Only references
with links to free full text
Only references
with abstract
• Include limits to refine your search:
DATES
• For publication date (DP)
• For date of addition in PubMed
(EDAT)
• Within a predefined period from
now
• Within a user-defined period
• Include limits to refine your search:
TAXON/GENDER
• Limits are allowed on:
• taxonomic fields (humans vs animals)
• gender (male vs female)
4th European Bioinformatics School
May 17th - Introduction to Biological Databases
• Include limits to refine your search: ARTICLE
LANGUAGE
• Include limits to refine your search: ARTICLE
TYPE
• Include limits to refine your search: TAGS (FIELDS)
• Selection of useful tags (fields):
• AU for author names (AUF for full author
names)
• TI for title
• TITLE/ABSTRACT for title and abstract
• DP for publication date
• EDAT for adding date in PubMed
• TA for journal title abbreviation
• JT for entire journal title
• MH for MeSH terms
• PMID for PubMed identifier
• Let’s look for articles whose title and/or abstract contains the word « UniProt » and published in
2005
• The « Limits » tab has a checkbox
indicating that limits are used during this
search
• Limits used are displayed on a yellow row
• The « Details » tab displays the query
UniProt[TIAB] AND ("2005/01/01"[PDAT] : "2005/12/31"[PDAT])
• Search terms and search fields can be added in the text box
• Displaying the results
• Choose the format (default:Summary)
• Choose to send the ouput to a file,
the clipboard, …
• Reviews are automatically filtered
• Icons
Abstract is unavailable
Abstract is available
Free full text is available in PubMedCentral (PMC)
Free full text is available with a link to an external website
• Checkboxes
• allow to run a specific command on a subset of the reference list (checked)
• The checked reference is sent to the
clipboard
• The « clipboard reference » is hilighted in
green
in the reference list.
• History
• queries run during a session are stored in the history;
• each query can be combined with another one and improved with expressions and
logical operators.
(#115) AND Review[ptyp]
Query ID
logical operator
additional expression term[field]
• Customization with MyNCBI
• MyNCBI allows you to store your queries in a personal space and set up e-mail alerts
• Requires an registration on the NCBI website
• Results of a query
• Save the search in MyNCBI
• Opens a popup window to customize the alert
• Customization with MyNCBI
• MyNCBI allows you to store your queries in a personal space and set up e-mail alerts
• Requires an registration on the NCBI website
• Results of a query
• Save the search in MyNCBI
• Opens a popup window to customize the alert
Frequence of update
• Customization with MyNCBI
• MyNCBI allows you to store your queries in a personal space and set up e-mail alerts
• Requires an registration on the NCBI website
• Results of a query
• Save the search in MyNCBI
• Opens a popup window to customize the alert
Format
• Customization with MyNCBI
• MyNCBI allows you to store your queries in a personal space and set up e-mail alerts
• Requires an registration on the NCBI website
• Results of a query
• Save the search in MyNCBI
• Opens a popup window to customize the alert
Check to receive an email even if
there are no new results
4th European Bioinformatics School
May 17th - Introduction to Biological Databases
• Customization with MyNCBI
• MyNCBI allows you to store your queries in a personal space and set up e-mail alerts
• Requires an registration on the NCBI website
• Results of a query
• Save the search in MyNCBI
• Opens a popup window to customize the alert
• Connect to your MyNCBI account
• Customization with MyNCBI
• MyNCBI allows you to store your queries in a personal space and set up e-mail alerts
• Requires an registration on the NCBI website
• Results of a query
• Save the search in MyNCBI
• Opens a popup window to customize the alert
• Connect to your MyNCBI account
• Your alert is stored
4th European Bioinformatics School
May 17th - Introduction to Biological Databases
• Customization with MyNCBI
Perform the search
Update frequency
Retrieves updates
for the selected query
since last check
• Customization with MyNCBI
Other NCBI databases searches can the included in MyNCBI
original database file
• SRS = Sequence Retrieval System
• built in 1990 by Thure Etzold;
• data stored in ~150 indexed databases
• linked to sequence analysis applications.
index file
• Indexed databases whatizit?
human & glutathion ! transferase
data retrieval
searchable links
“human”
13,698 entries
“glutathion”
“transferase”
16,692 entries
UniProtKB/Swiss-Prot
207,132 entries
human & glutathion & transferase
human ! glutathion & transferase
! human & glutathion & transferase
May 17th - Introduction to Biological Databases
•This interface allows you to:
• perform simple and complex queries across one or several databases;
• view your results in different formats;
• create your own views for your results;
• save results to file;
• launch analysis tools on results;
• link results to different databases.
• Accessible from EBI web site:
http://srs.ebi.ac.uk
May 17th - Introduction to Biological Databases
• Search is guided by a navigation toolbar at the top of the home page
Query manager
Manage searches
Databases selection
Results
Tools
Databases
information
Customize the views
• Quick search is not a solution …
• a quick search of “globin” retrieves 4,377 entries from UniProt/UNiParc considering all text;
• a quick search of “human globin” retrieves 334 entries from UniProt/UNiParc considering all text;
• because searches are performed on “all fields”, several retrieved entries are certainly not required:
• Serine/threonine-protein kinase ATR;
• U11/U12 snRNP 25 kDa protein;
• Eukaryotic translation initiation factor 2-alpha kinase 1;
• Fusion glycoprotein F0 precursor;
• Erythroid transcription factor;
• quick but not accurate !!!
• Standard and extended query forms are better solutions …
• you keep control on what you ask and what you retrieve.
Databases selection
Query manager
Standard query form
Extended query form
Query manager
• Standard query
• Query terms are linked with
logical operators:
• & (AND)
• | (OR)
• ! (BUT NOT)
• Output display (views):
• can be customized
• can be set to a predefined style
Let’s try a query …
Query manager
• We are looking for human UniProtKB proteins with « Glutathione transferase » in description
• 7 entries
Query manager
• We are looking for mouse UniProtKB « interleukin » proteins
• (DE line : interleukin) gives 158 entries with unrelated entries such as :
• Caspase-1 precursor (EC 3.4.22.36) (CASP-1) (Interleukin-1 beta convertase) (IL-1BC) (IL-1 betaconverting enzyme) (ICE) (Interleukin- 1 beta-converting enzyme) (p45)
• High affinity interleukin-8 receptor B (IL-8R B) (CXCR-2) (GRO/MGSA receptor) (CD182 antigen)
May 17th - Introduction to Biological Databases
Query manager
• Extended query
included in the view
May 17th - Introduction to Biological Databases
Tools
ClustalW run on the retrieved results
May 17th - Introduction to Biological Databases
Results
• Management of your queries
• Lists the queries performed in the current session
• Includes tools to
• Combine or rerun several queries
• Save results on your computer
• Delete results
• Link the results to another database
• Includes tools to customize the results display (views)
Q4
DB
KW
Created
UniProtKB/Swiss-Prot
UniProtKB/TrEMBL
cytokine
between 01-JAN-2000 and 20-APR-2006
Q7
DB
Taxonomy
KW
Created
!
Q6
DB
Taxonomy
UniProtKB/Swiss-Prot
UniProtKB/TrEMBL
Virus
BUT NOT
UniProtKB/Swiss-Prot
UniProtKB/TrEMBL
Every species except virus
cytokine
between 01-JAN-2000 and 20-APR-2006
Q4
Q7
Q6
May 17th - Introduction to Biological Dataases
Results
• Link your query results to other databases
Q5
DB
!
BUT NOT
KW
DE
Created
UniProtKB/Swiss-Prot
UniProtKB/TrEMBL
cytokine
interleukin
between 01-JAN-2000 and 20-APR-2006
281 UniProtKB entries
to be linked with
5 PDB entries
• Find related entries: returns entries from other databanks which have links with
entries in the current query.
• Refine Query - show only results with related entries: this limits the query so that
it includes only the entries (from the original query) which are linked to all of the
selected databanks.
• Show only results without related entries: this limits the query so that it includes
only the entries (from the original query) which do not have links to the specified
databanks.
4 UniProtKB entries
281 UniProtKB entries
277 UniProtKB entries
May 17th - Introduction to Bilogical Databases
Manage searches
• During a session, searches are stored in projects
Project type and number
Save the project to local hard drive
Rename the project
Delete the displayed project
Copy the selected query(ies) from
one project to another one
Create a new project in the current
session
Open a project saved on local hard drive
Switch between opened projects
• Two types of sessions
• temporary
• permanent:
• to retrieve the results of a complex query
made by a collaborator
• to regularly rerun a query
• Sessions are limited to 99 projects
May 17th - Introduction to Biological Databases
Customize the views
• During a session, it is possible to define a customized « view » of the results:
Give your view a name
This view will apply to one
or several databases
This view will be linked to one
or several databases
Select the fields included in the view
(ID, Resol, Title)
Save your view
May 17th - Introduction to Biological Databases
Customize the views
• Let’s retrieve all « kinase » entries from PDB whose structure has been determined at 1.5A by X-ray
crystallography
Select the view we just created …
… and run the query …
May 17th - Introduction to Biological Databases
Customize the views
• During a session, it is possible to define a customized « view » of the results:
Give your view a name
This view will apply to one
or several databases
This view will be linked to one
or several databases
Select the fields included in the view
for the database to which the view will be applied
(ID, Description)
Select the fields included in the view
for the database to which the view will be linked
(PMID, Title)
Save your view
May 17th - Introduction to Biological Databases
Customize the views
• Let’s retrieve all human « interleukin » entries from UniProtKB/Swiss-Prot
Select the view we just created …
… and run the query …
UniProtKB/Swiss-Prot
fields
MedLine
fields
May 17th - Introduction to Biological Databases
UniProtKB/Swiss-Prot
fields
MedLine
fields
May 17th - Introduction to Biological Databases
Databases information
• Gives information on a given database
• Indexed fields are listed
• You can browse a given indexed field (e.g. keywords)
Select the keyword value and submit the query
to retrieve the 919 results
May 17th - Introduction to Biological Databases