Banche dati - Functional Genomics Lab

Basi di dati biologiche
(Teoria)
1
Banche dati biologiche - Introduzione
Il concetto di informazione e’ strettamente connesso a quello di dato e di struttura.
Il dato e’ un osservabile (insieme di numeri, caratteri, simboli…)
La struttura e’ l’ organizzazione ordinata di dati che ne consente l’apprendimento.
Una banca dati e’ l’insieme di dati elementari, omogenei, ordinati e fruibili. In
altre parole: e’ una collezione organizzata di dati
Esempio: elenco telefonico. L’informazione e’ strutturata in campi (nome, cognome ecc.).
Ogni persona con i propri dati e’ un record.
2
Banche dati biologiche - Introduzione
I dati biologici necessitano di
un’organizzazione. Primo tentativo:
Margaret Dayhoff (1925-1983): raccolse,
nel 1965, le sequenze di 65 proteine (lavoro
pioneristico per il tempo!)
Le tecniche di sequenziamento rapido ed i
progetti –omici hanno prodotto una quantita’
esplosiva di dati, anche di sequenze
L’avvento di Internet ha facilitato di gran
lunga l’acquisizione e la distribuzione
dell’informazione biologica in banche dati.
3
Banche dati biologiche - Introduzione
• Sono collezioni di dati:
• strutturati
• indicizzati
• aggiornati
• interconnessi
•…
• I database biologici sono legati a strumenti per:
• recuperare records al loro interno
• aggiornare il database
• combinare le informazioni
>sp|P56478|IL7_RAT
MFHVSFRYIFGIPPLILVLLPVTSSD
CHIKDKDGKAFGSVLMISINQLDKMT
GTDSDCPNNEPNFFKKHLCDDTKEAA
FLNRAARKLRQFLKMNISEEFNDHLL
RVSDGTQTLVNCTSKEEKTIKEQKKN
DPCFLKRLLREIKTCWNKILKGSI
• Ci sono 6 principali categorie di basi di dati biologiche :
• basi di dati di sequenze:
• DNA
• RNA
• Proteine
FUNCTION
• basi di dati per il mapping
• geni
• cromosomi
•…
• Strutture 3D (PDB)‫‏‬
• trascrittomica
• funzionali(KEGG)‫‏‬
• per la letteratura (PubMed), ontologies (GO),‫…‏‬
ONTOLOGIA: modo formale di
rappresentare la conoscenza
SEQUENCES
3D
ONTOLOGIES
LITERATURE
LS125-4
R14523
CYC223
EXPRESSION
MAPPING
Banche dati biologiche - Introduzione
Nucleic Acids Research Database summary contiene > 1800 database
classificati nelle seguenti categorie:
•Nucleotide Sequence Databases
•RNA sequence databases
•Protein sequence databases
•Structure Databases
•Genomics Databases (non-vertebrate)
•Metabolic and Signaling Pathways
•Human and other Vertebrate Genomes
•Human Genes and Diseases
•Microarray Data and other Gene Expression Databases
•Proteomics Resources
•Other Molecular Biology Databases
•Organelle databases
•Plant databases
•Immunological databases
•Cell biology
http://www.oxfordjournals.org/our_journals/nar/database/c/
Alcuni database di interesse biologico
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref,
Biolmage,BioMagResBank,BIOMDB, BLOCKS,BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE,
CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB,
CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD,
DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER,
FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC,
GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb,
HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT,
Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI,
MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB,
NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase,
PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP,
REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK,
StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISSMODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V
BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD,
YPM, etc …!!!!
Come ci si orienta?
Banche dati - introduzione
• Principio generale della biologia:
DNA
genomic
DNA
databases


RNA
cDNA
ESTs
protein
phenotype
protein
sequence
databases
Le banche dati si strutturano e si integrano
per favorire lo studio di questo processo.
Tre enti al mondo sono i principali
Database di sequenze primarie
• Database pubblici che
collezionano tutte le
sequenze pubblicate:
– GenBank (US National
Center for Biology
information; 1982)
http://www.ncbi.nlm.nih.gov/Genb
ank/
– EMBL (European Molecular
Biology Laboratory; 1982)
http://www.ebi.ac.uk/embl/
– DDBJ (DNA Data Bank of
Japan; 1986)
http://www.ddbj.nig.ac.jp/
Download
ftp://ftp.ncbi.nih.gov/genbank
ftp://ftp.ebi.ac.uk/pub/databases/embl/
ftp://ftp.ddbj.nig.ac.jp/database/
A partire dal 1992 i tre database
condividono tutte le sequenze.
Banche dati – dati di sequenza
• Che dati si possono trovare?
• Principalmente sono presenti
• sequenze (nucleotidi, amminoacidi)
• strutture
• L’uso della rappresentazione dei dati biologici di
varia natura come sequenze è la forma di gran lunga
più diffusa.
Sequenza del gene corrispondente alla proteina BAX (RefSeq: NM_001193517.1)
Banche dati - dati di sequenza
• Che dati si possono trovare?
– Sequenze di DNA:
• formate da 4 tipi di lettere:
• a (adenina), c (citosina), g (guanina), t (timina)
– esempio: atggtacat..., tag, taa, tga …
– Sequenze di RNA:
• formate da 4 tipi di lettere:
• a (adenina), c (citosina), g (guanina),u (uracile)
– esempio: aucgcuaa, auucg, …
– Per convenzione sono rappresentate con lettere minuscole (ma non
sempre…)
– Sequenze proteiche:
• formate da 20 lettere
• corrispondenti agli amminoacidi: A, C, D, E, F, G, H, I,K, L, M, N, P, Q, R, S, T, V,
W, Y
– esempio: MPIVDTGSVAPLSAAEK…, TAG,...
– Per convenzione sono rappresentate con lettere maiuscole
Banche dati - dati di sequenza
•
Il formato FASTA - Pearson
– Rappresentazione mediante testo di sequenze nucleotidiche o peptidiche
(lettere MAIUSCOLE).
– La prima riga (di lunghezza arbitraria) è preceduta da “>” e rappresenta la
descrizione della sequenza.
– Le linee precedute da “>” o “;” sono considerate di commento e non vengono
interpretate come dato di sequenza
– Le linee successive (ciascuna di 80 caratteri) rappresentano la sequenza.
– Un file fasta può avere estensione (non c’è uno standard)
•
•
•
•
•
.fasta o .fas (generica)
.fna (acidi nucleici)
.ffn (regione codificante del genoma)
.faa (aminoacidi) (.mpfa per sequenza mutiple)
.frn (RNA non codificante)
Schemi per formati di intestazione FASTA
Esempio di sequenza FASTA
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
AB001325
1442 bp
mRNA
linear
PRI 17-SEP-2005
Homo sapiens AQP3 mRNA for aquaporine 3, partail cds.
AB001325 D25280
AB001325.1 GI:1854373
.
Homo sapiens (human)
Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
REFERENCE
1
AUTHORS
Ishibashi,K., Sasaki,S., Saito,F., Ikeuchi,T. and Marumo,F.
TITLE
Structure and chromosomal localization of a human water channel
(AQP3) gene
JOURNAL
Genomics 27 (2), 352-354 (1995)
PUBMED
7558005
REFERENCE
2 (bases 1 to 1442)
AUTHORS
Ishibashi,K.
TITLE
Direct Submission
JOURNAL
Submitted (28-OCT-1996) Kenichi Ishibashi, Tokyo Medical and Dental
University, 2nd Internal Medicine; Yushima 1-5-45, Bunkyo-ku, Tokyo
113, Japan (Tel:03-5803-5223, Fax:03-5803-0132)
COMMENT
On Feb 28, 1997 this sequence version replaced gi:915195.
FEATURES
Location/Qualifiers
source
1..1442
/organism="Homo sapiens"
/mol_type="mRNA"
/db_xref="taxon:9606"
/clone="HUM-AQP3"
/tissue_type="kidney"
gene
1..1442
/gene="AQP3"
CDS
61..939
/gene="AQP3"
/note="water channel"
/codon_start=1
/product="aquaporin 3"
/protein_id="BAA19237.1"
/db_xref="GI:1854374"
/translation="MGRQKELVSRCGEMLHIRYRLLRQALAECLGTLILVMFGCGSVA
QVVLSRGTHGGFLTINLAFGFAVTLGILIAGQVSGAHLNPAVTFAMCFLAREPWIKLP
IYTLAQTLGAFLGAGIVFGLYYDAIWHFADNQLFVSGPNGTAGIFATYPSGHLDMING
FFDQFIGTASLIVCVLAIVDPYNNPVPRGLEAFTVGLVVLVIGTSMGFNSGYAVNPAR
DFGPRLFTALAGWGSAVFTTGQHWWWVPIVSPLLGSIAGVFVYQLMIGCHLEQPPPSN
EEENVKLAHVKHKEQI"
DNA sequence
GenBank File Format
header
features
ORIGIN
1
61
121
181
241
301
361
421
481
541
601
661
721
781
841
901
961
ccggggatcc
atgggtcgac
ttgctccgac
ggctccgtgg
ctggcctttg
cacctgaacc
ctgcccatct
gggctgtatt
aatggcacag
ttctttgacc
ccttacaaca
gtcattggca
ggcccccgcc
cattggtggt
taccagctga
gtgaagctgg
tccgctgccc
acgcgcgccg
agaaggagct
aggcgctggc
cccaggttgt
gctttgctgt
ctgccgtgac
acaccctggc
atgatgcaat
ccggcatctt
agttcatagg
accccgtccc
cctccatggg
tttttacagc
gggtgcccat
tgatcggctg
cccatgtgaa
tggccttgag
ccacccctgc
ggtgtcccgc
cgagtgcctg
gctcagccgg
cactctgggc
ctttgccatg
acagacgctg
ctggcacttt
tgctacctac
cacagcctcc
ccgaggcctg
cttcaactcc
ccttgcgggc
cgtgtcccca
ccacctggag
gcacaaggag
catccactga
ccgcccgaca
tgcggggaga
gggaccctca
ggcacccacg
atcctcatcg
tgcttcctgg
ggagccttct
gccgacaacc
ccctctggac
cttatcgtgt
gaggccttca
ggctatgccg
tggggctctg
ctcctgggct
cagcccccac
cagatctgag
ctgtccaagg
gcgccgc
tgctcca
tcctcgt
gtggttt
ctggcca
ctcgtga
tgggtgc
agctttt
acttgga
gtgtgct
ccgtggg
tcaaccc
cagtctt
ccattgc
cctccaa
tggcaag
ccactcc
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Locus
name
Sequence
length
Molecule
type
Division
13
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Il database genbank è
suddiviso in 18 divisioni
1. PRI - primate sequences
2. ROD - rodent sequences
3. MAM - other mammalian sequences
4. VRT - other vertebrate sequences
5. INV - invertebrate sequences
6. PLN - plant, fungal, and algal sequences
7. BCT - bacterial sequences
8. VRL - viral sequences
9. PHG - bacteriophage sequences
10. SYN - synthetic sequences
11. UNA - unannotated sequences
12. EST - EST sequences (expressed sequence tags)
13. PAT - patent sequences
14. STS - STS sequences (sequence tagged sites)
15. GSS - GSS sequences (genome survey sequences)
16. HTG - HTG sequences (high-throughput genomic sequences)
17. HTC - unfinished high-throughput cDNA sequencing
18. ENV - environmental sampling sequences
14
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Descrizione della sequenza
15
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Identificatore univoco
della sequenza
16
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Versione
Numero identificatore
della sequenza (cambia
se cambia in qualche
modo la sequenza
17
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Nome scientifico
dell’organismo
18
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Eventuali
riferimenti
bibliografici
19
GenBank Flat file format
Il formato GenBank Flat file contiene un header con dei metadati:
Features: informazioni su
geni e altre regioni di
rilevanza biologica
Regione corrispondente ad un gene
(dalla base 687 alla base 3158)
Regione corrisondente ad una
regione codificante una proteina
Id della proteina codificata
Traduzione della sequenza
nucleotidica in sequenza
amminoacidica
20
GenBank Flat file format
L’ultima parte del file contiene
la sequenza nucleotidica
21
Banche dati - dati di sequenza
• Il formato XML (eXtensible Markup Language)
– Replica la struttura logica del record nella banca dati
– I tag permettono di delimitare e definire campi e sottocampi
<?xml version='1.0' encoding='UTF-8'?>
<feature type="turn">
<uniprot xmlns="http://uniprot.org/uniprot" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
<location>
xsi:schemaLocation="http://uniprot.org/uniprot http://www.uniprot.org/support/docs/uniprot.xsd">
<begin position="147"/>
<entry dataset="Swiss-Prot" created="1995-02-01" modified="2011-01-11" version="120">
<end position="149"/>
<accession>Q07812</accession>
</location>
<accession>A8K4W1</accession>
</feature>
<accession>P55269</accession>
<accession>Q07814</accession>
<feature type="helix">
<accession>Q07815</accession>
<location>
<accession>Q8WZ49</accession>
<begin position="150"/>
<accession>Q9NR76</accession>
<end position="154"/>
<accession>Q9NYG7</accession>
</location>
<accession>Q9UCZ6</accession>
</feature>
<accession>Q9UCZ7</accession>
<accession>Q9UQD6</accession>
<feature type="helix">
<name>BAX_HUMAN</name>
<location>
<protein>
<begin position="159"/>
<recommendedName>
<end position="164"/>
<fullName>Apoptosis regulator BAX</fullName>
</location>
</recommendedName>
</feature>
<alternativeName>
<fullName>Bcl-2-like protein 4</fullName>
<feature type="helix">
<shortName>Bcl2-L-4</shortName>
<location>
</alternativeName>
<begin position="171"/>
</protein>
<end position="188"/>
<gene>
</location>
<name type="primary">BAX</name>
</feature>
<name type="synonym">BCL2L4</name>
</gene>
<evidence key="EC1" category="curator" type="Literature" attribute="PubMed=8358790" date="2010-07-01"/>
<organism>
<evidence key="EC2" category="curator" type="Literature" attribute="PubMed=10772918" date="2010-07-01"/>
<name type="scientific">Homo sapiens</name>
<evidence key="EC3" category="curator" type="Literature" attribute="PubMed=8521816" date="2010-07-01"/>
<name type="common">Human</name>
<evidence key="EC4" category="curator" type="Literature" attribute="PubMed=11259440" date="2010-07-01"/>
<dbReference type="NCBI Taxonomy" id="9606" key="1"/>
<evidence key="EC5" category="curator" type="Literature" attribute="PubMed=12732850" date="2010-07-01"/>
<lineage>
<evidence key="EC6" category="curator" type="Literature" attribute="PubMed=15071501" date="2010-07-01"/>
<taxon>Eukaryota</taxon>
<taxon>Metazoa</taxon>
<evidence key="EC7" category="curator" type="Literature" attribute="PubMed=20300062" date="2010-07-01"/>
<taxon>Chordata</taxon>
<evidence key="EC8" category="curator" type="Literature" attribute="PubMed=11106734" date="2010-07-01"/>
<taxon>Craniata</taxon>
<evidence key="EC9" category="curator" type="Literature" attribute="PubMed=10228148" date="2010-07-01"/>
<taxon>Vertebrata</taxon>
<evidence key="EC10" category="curator" type="Literature" attribute="PubMed=11912183" date="2010-07-01"/>
<taxon>Euteleostomi</taxon>
<evidence key="EC11" category="curator" type="Literature" attribute="PubMed=19413330" date="2010-07-01"/>
<taxon>Mammalia</taxon>
<evidence key="EC12" category="curator" type="Literature" attribute="PubMed=9531611" date="2010-07-01"/>
<taxon>Eutheria</taxon>
<taxon>Euarchontoglires</taxon>
<evidence key="EC13" category="curator" type="Literature" attribute="PubMed=7475270" date="2010-07-01"/>
<taxon>Primates</taxon>
<sequence length="192" mass="21184" checksum="6C0CDB0A7DEE4994" modified="1995-02-01"version="1">
<taxon>Haplorrhini</taxon>
MDGSGEQPRGGGPTSSEQIMKTGALLLQGFIQDRAGRMGGEAPELALDPVPQDASTKK
<taxon>Catarrhini</taxon>
LSECLKRIGDELDSNMELQRMIAAVDTDSPREVFFRVAADMFSDGNFNWGRVVALFYF
<taxon>Hominidae</taxon>
ASKLVLKALCTKVPELIRTIMGWTLDFLRERLLGWIQDQGGWDGLLSYFGTPTWQTVTIF
<taxon>Homo</taxon>
VAGVLTASLTIWKKMG</sequence>
</lineage>
</organism>
</entry>
<reference key="2">
<copyright>Copyrighted by the UniProt Consortium, see http://www.uniprot.org/termsDistributed
[…]
under the Creative Commons Attribution-NoDerivs License</copyright>
</uniprot>
Banche dati - NCBI
• Offre accesso a TANTE risorse di vario tipo:
– Sequenze geniche e proteiche
– Strutture terziarie
– Genomi completi
– Pathways
– EST (expressed sequence tags)
– Profili trascrittomici
– Cataloghi tassonimici
– …
• accesso a numerosi database attraverso il sistema Entrez:
– GenBank
– Swissprot
– PubMed
– GEO
– …
Banche dati - NCBI
• Poiché i dati sono condivisi tra le principali banche dati, iniziamo da
NCBI (www.ncbi.nlm.nih.gov)
Dati sull’ereditarietà dei
caratteri e su disordini
genetici
Tassonomie
• Una ricerca qualunque dall’home page apre ENTREZ, interfaccia
per l’accesso ai database presenti in NCBI
Banche dati - NCBI
PubMed è l’interfaccia di accesso a
MEDLINE.
Con I suoi
• 20 milioni di record fino agli anni ‘50
• 4600 riviste da più di 70 paesi
E’ la banca dati per la letteratura
biomedica più completa.
(Accessibile anche tramite EBI tramite
CiteXplore)
Banche dati - NCBI
Nucleotide  Database di sequenze
nucleotodiche primario.
•EST (expressed sequence tag)
• GSS (genome sequence surveys altre sequenze,
BactArtifChromosome, YeastArtifChromosome,...)
Database di sequenze nucleotidiche secondari:
• RefSeq (sistema di identificazione)
• Unigene (sequenze raggruppate)
Gene è orientato ai geni, ai loci
Banche dati - NCBI
Protein è la sezione focalizzata sulle
proteine, alle quali possono
corrispondere strutture
PubChem dedicato ai composti chimici
Banche dati - NCBI
Qui i genomi completi con riferimenti alla
ricerca effettuata, varianti genomiche,
ecc
Informazioni su profili di espressione genica in
diverse condizioni, modifiche post-traduzionali
GEO (Gene Expression Omnibus) repository
Banche dati - NCBI
Database con informazioni riguardanti la
salute umana:
• letteratura
• informazioni sui test genetici disponibili
• Varianti di sequenza con significato
clinico
•…
30
Banche dati - NCBI
…E molto altro!
Banche dati - NCBI
Banche dati - NCBI
In fondo alla pagina links molto utili:
NCBI
Banche dati primarie
GenBank è la banca dati di tutte le sequenze in NCBI (sincronizzata con
EMBL e DDBJ)


Le sequenze derivano da diverse fonti e tipi:
Geni (regioni di regolazione, esoni, introni: unità ereditarie)
 EST (Expressed Sequence Tags)
brevi segmenti di DNA trascritti e sequenz. da cDNA (ottenuto da
mRNA retrotrascritto)
 STS (sequence tagged site, dove l’informazione genetica è mappata
fisicamente)
 GSS (Genome Survey Sequence, vettori come BactArtifChromosome, YeastArtifChromosome o
sequenze solo parzialmente sequenziate)
 HTGS (High Throughput Genomic Sequence, sequenze prodotte da tecniche di
seconda generazione per il sequenziamento veloce, messe qui in “preview”)
 Sequenze di proteine (sezione nr, non redundant)


Così tanto materiale ha provocato l’esigenza di ordine: Unigene e RefSeq
NCBI
Banche dati secondarie
Revisioni curate derivate dai database di sequenze primari

Unigene
Ha lo scopo di raggruppare le EST in insiemi non ridondanti tutti riferiti
allo stesso locus.

Integra
anche informazioni trascrittomiche (tessuti, condizioni)
 Si combina con la ricerca su homoloGene per trovare omologhi tra specie
diverse
35
NCBI
Banche dati secondarie
RefSeq è stato ideato per far corrispondere a ciascun trascritto
normalmente prodotto da un gene e a ciascuna proteina una sequenza di
riferimento, un identificatore (accession number).
 Altri esempi di identificatori NON RefSeq sono:


X02775
 Rs7079946
 N91759.1
GenBank/EMBL/DDBJ nucleotidic sequence
dbSNP (single nucleotide polymorphism)
An expressed sequence tag
AAC02945
 Q28369
 1KT7
GenBank protein
SwissProt protein
Protein Data Bank structure record

Refseq fornisce un identificatore per la sequenza di riferimento, curato dal
personale dell’NCBI

Banche dati - NCBI
I
formati principali degli id RefSeq sono:
Complete genome/chromosome/plasmid NC_######
 Genomic contig (segmenti sovrapposti di DNA segments che
rappresentano una sequenza consenso) NT_######



mRNA (DNA format)
NM_###### e.g. NM_006744

Protein
NP_###### e.g. NP_006735
E molti altri:
Accession
Molecule
NT_123456
Genomic
NW_123456
Genomic
NZ_ABCD12345678 Genomic
XM_123456
mRNA
XP_123456
Protein
XR_123456
RNA
YP_123456
Protein
ZP_12345678
Protein
Method
Automated
Automated
Automated
Automated
Automated
Automated
Auto. & Curated
Automated
Note
Genomic assemblies
Genomic assemblies
Whole genome shotgun data
Transcript products
Protein products
Transcript products
Protein products
Protein products

Accession
Molecule
AC_123456
Genomic
AP_123456
Protein
NC_123456
Genomic
NG_123456
Genomic
NM_123456
mRNA
NM_12345689 mRNA
NP_123456
Protein
NP_123456789 Protein

NR_123456







RNA
Method
Mixed
Mixed
Mixed
Mixed
Mixed
Mixed
Mixed
Curation
Note
Alternate complete genomic
Protein products; alternate
Complete genomic molecules
Incomplete genomic regions
Transcript products; mRNA
Transcript products; 9-digit
Protein products;
Protein products; 9-digit
Banche dati - NCBI
• Un primo esempio di ricerca: emoglobina
– Una delle prime proteine ad essere studiata (anni ’30 e ’40, da
Mulder, Liebing et al.)
– La mioglobina, una globina (struttura globulare a 8 eliche) che
lega l’ossigeno nei tessuti muscolari, è stata la prima proteina la
cui struttura tridimensionale è stata risolta tramite
cristallografia
John Kendrew, 1962,
Nobel Prize for Chemistry
(w. Max Perutz)
Banche dati - NCBI
• Un primo esempio di ricerca: emoglobina
– L’emoglobina è un tetramero (due domini alfa e due beta negli adulti) è il
principale trasportatore di ossigeno nei vertebrati. Assieme alla mioglobina è
stata usata nei primi studi sugli allineamenti multipli.
– Negli anni ’80 con le prime tecniche di sequenziamento è stata localizzata in
due loci, uno sul cromosoma 16 (subunità alfa) e 11 (subunità beta). I due geni
sono regolati sia in base all’età che in base ai diversi tessuti.
Banche dati - NCBI
• Un primo esempio di ricerca: emoglobina
Banche dati - NCBI
Seguire‫‏‬il‫‏‬link‫‏‬a‫“‏‬Gene”
Banche dati - NCBI

Entrez Gene (ex LocusLink) è un portale curato che descrive loci genetici









nomenclatura
alias
accession numbers
fenotipi
OMIM (ereditarietà dei caratteri)
cluster UniGene
HomoloGene
mappatura sul genoma
collegamenti esterni
Banche dati - NCBI
•In generale, trova ad offi 113
entries
• Intestazione: Entrez Gene
• Nota: “Official Symbol” HBB
per la beta globina
Banche dati - NCBI
Limitiamoci alla ricerca in Homo
Sapiens
Banche dati - NCBI
Cliccando la specie si aggiorna
automaticamente la stringa di
ricerca
•Con il limite Homo Sapiens le
entries sono solo 39
Banche dati - NCBI
Entrez Gene
(inizio dell’entry)
Sulla dx in
basso:
numerosi
link a
database
esterni
Banche dati - NCBI
Entrez Gene (continua…)
Regioni genomiche…
Banche dati - NCBI
Entrez Gene (continua…)
E informazioni bibliografiche
Banche dati - NCBI
Entrez Gene (…continua…):
GeneRif (intended to facilitate access to publications documenting
experiments that add to our understanding of a gene and its function)
Banche dati - NCBI
E ancora Fenotipi, Variazione Genica, Pathways per Biosistemi e
Interazioni note con altri geni)
Banche dati - NCBI
Entrez Gene (…continua…):
Ontologia
Ontologia (fondamentale per
sistemi automatici di
apprendimento)
Classificazione e organizzazione
dei dati in categorie predefinite così
da agevolare l’individuazione di
analogie e caratteristiche primarie.
Può essere di diversi tipi, ma la
principale distingue:
1.Funzione molecolare
2.Localizzazione cellulare
3.Processo biologico
Banche dati - NCBI
Entrez Gene
(…continua…
Quasi fine
pagina):
Catalogazione
RefSeq
Banche dati - NCBI
Operatore AND (&)‫‏‬
Restringe il campo di ricerca, inserendo ad es. la stringa:
equus caballus AND hemoglobin alpha
La banca dati ci mostrerà una lista di sequenze proteiche i cui campi di
descrizione contengono entrambe le parole. Quindi le sequenze proteiche
del cavallo che non contengono nella descrizione la parola hemoglobin
non vengono selezionate.
1 AND 2
1
2
Banche dati - NCBI
Operatore OR (|)‫‏‬
Estende il campo di ricerca, digitando ad esempio:
homo sapiens OR mus musculus
Otterremo una lista di sequenze i cui campi contengono la parola homo
sapiens o la parola mus musculus.
L'immagine sotto evidenzia come l'operatore abbia allargato l'insieme
delle sequenze che incontrano le nostre esigenze.
1 OR 2
1
2
Banche dati - NCBI
Operatore NOT (!)‫‏‬
Restringe il campo di ricerca, inserendo:
homo sapiens BUT NOT hemoglobin
Richiederemo sequenze i cui campi contengono la parola homo sapiens
ma non la parola hemoglobin.
1 NOT 2
1
2
Banche dati - NCBI
• Gli operatori booleani si possono combinare, vengono letti da sinistra a
destra. Per questo sono utili le parentesi.
• Ad esempio: globin AND promoter OR enhancer produce quasi 5000 hits. Ma
se si scrive globin AND (promoter OR enhancer) se ne ottengono circa 70.
• Altre possibilità sono:
– Specificare un organismo (human, nella query: human[ORGN]
– Usare l’asterisco: glob* restituisce tutte le entry che contengono
una stringa che inizia per “glob”
– Usare le virgolette “”. La ricerca di “toxin B1” restituirà le entries
che contengono esattamente la stringa intera.
– Ecc. ecc.
Banche dati - NCBI
Esempio di applicazione:
Ricerca di una sequenza nucleotidica
Molti batteri si sono evoluti acquisendo una resistenza agli antibiotici.
Un esempio è il Mycobacterium Tuberculosis, agente responsabile della
tubercolosi.
La domanda che ci si pone è:
Ci sono sequenze nucleotidiche nel M.Tuberculosis con la
caratteristica‫“‏‬Penicillin-binding”?
Passi:
1. Cerchiamo nella banca dati nucleotidica tutte le sequenze per “Penicillinbinding” (nota la stringa e non le due parole singolarmente)
2. Cerchiamo solo le sequenze di M.Tubercolosis.
3. Combiniamo i due criteri di selezione.
Banche dati - NCBI
Criterio di selezione
Numero di sequenze
Selezionare limits per
Il 2° punto e successivamente
“advanced”
Cerchiamo sequenze
nucleotidiche
Banche dati - NCBI
Con limits abbiamo alcune opzioni per restringere la ricerca.
Ma con advanced è molto più mirata.
Banche dati - NCBI
Ora possiamo aggiungere l’organismo (new field)
History “ricorda” la ricerca fatta e il numero di Items trovati
Ogni ricerca precedente ha un suo ID numerico
Banche dati - NCBI
Scegliere HISTORY
per combinare i criteri
Banche dati - NCBI
Sintassi per combinare le ricerche
Numero di sequenze
Banche dati - NCBI
Il numero finale di
sequenze è
drasticamente ridotto
Banche dati - NCBI
HomoloGene: la risorsa ideale per individuare gruppi
di geni omologhi negli eucarioti presenti in NCBI
Banche dati di proteine: NCBI Protein
Entrez Protein (1/2)
Contiene diverse
Informazioni su proteine
• 147 aminoacidi
• PRI: primates
• NP_000509 (protein accession
number)
• NM_000518.4 (mRNA, RefSeq)
• Riferimenti bibliografici
• Sequenza FASTA (Opzione
Display)
Banche dati - Proteine
Entrez Protein (2/2)
Contiene diverse
Informazioni su proteine
• Siti di modificazione posttraduzionalee (AA94, AA121)
• Riferimenti ad altri database
• Sequenza aminoacidica (1 lettera)
E’ un record non molto ricco dal punto di vista dei dati delle proteine…
Uniprot
Uniprot è il più completo database centralizzato per le sequenze
proteiche.
E’ organizzato su 3 livelli:
1) Uniprot Knowledge Base
 Swiss-Prot (curato)

TrEMBL (automatico)
2) UniProt Reference
clusters (UniRef)
Cluster di proteine che
condividono il 50%, 90%,
100% di identità di
sequenza

3) UniProt Archive (UniParc)
Archivio di sequenze
proteiche stabile, non
ridondante, da diverse fonti

Dal 2002 Uniprot si è fuso con PIR, un’altra importante
risorsa per le sequenze proteiche
Uniprot - Homepage
Casella di ricerca
Accesso alle diverse informazioni in Uniprot
68
Uniprot – Esempio di ricerca
69
Uniprot
Ricerca ristretta a proteine di uomo
70
Uniprot – esempio di una entry
Tavola con i contenuti disponibili
71
Uniprot – esempio di una entry
72
Uniprot – esempio di una entry
73
Uniprot – esempio di una entry
74
Uniprot – esempio di una entry
75
Uniprot – esempio di una entry
76
Uniprot – esempio di una entry
77
Uniprot – esempio di una entry
Link a PDB (protein data bank), database di strutture proteiche
78
Uniprot – esempio di una entry
79
Uniprot – esempio di una entry
80
Uniprot – esempio di una entry
Link ad altri database di sequenze (EMBL,GeneBank, DDBJ), varianti,
Wikipedia, ecc…
81
Uniprot – esempio di una entry
82
Banche dati - Proteine
ExPASy (Expert Protein Analysis System)



E’ una risorsa curata, espressione del SIB (Swiss Institute of
Bioinformatics). Principalmente dedicata alle proteine ma include tools
anche per altri ambiti quali system biology, population genetics,
imaging ecc…
La risorsa principale che ha prodotto è SwissProt (confluita in Uniprot)
Rimane un punto di riferimento per molti tools
Banche dati - NCBI
dbSNP (single nucleotide polimorfism)
dbSNP – esempio di ricerca
85
dbSNP – esempio di ricerca
Filtri
86
dbSNP – esempio di ricerca
Organismo
87
dbSNP – esempio di ricerca
Classe della variante
88
dbSNP – esempio di ricerca
Significato clinico
89
dbSNP – esempio di ricerca
Classe della funzione
90
dbSNP – applicazione di filtri
Numero totale di
varianti ridotto a 21 da
oltre 1400
Notare che viene visualizzata
anche l’espressione completa
della ricerca
91
dbSNP – esempio di una entry
92
dbSNP – esempio di una entry
Dati generali dello SNP:
Organismo, genoma di
riferimento, validazione,
riferimenti bibliografici
93
dbSNP – esempio di una entry
94
dbSNP – esempio di una entry
Alleli
95
dbSNP – esempio di una entry
Collegamento ad OMIM:
compendio di geni umani e
fenotipi
96
dbSNP – esempio di una entry
Collegamento a ClinVar
(Clinical Variants): raccolta
di informazioni che
collegano le varianti con la
loro relazione con la salute
umana.
97
dbSNP – esempio di una entry
Frequenza dell’allele minore
nella popolazione e numero
di soggetti su cui è stata
visto l’allele minore
98
dbSNP – esempio di una entry
Variation viewer mostra
la variante in un contesto
genomico
99
dbSNP – Link a Variation Viewer
Visualizzazione delle varianti in un contesto genomico
100
dbSNP – Link a Variation Viewer
Visualizzazione delle varianti in un contesto genomico
Varianti di
interesse clinico
101
dbSNP – Link a Variation Viewer
Visualizzazione delle varianti in un contesto genomico
Grandi varianti
strutturali in
dbVar
102
dbSNP – Link a Variation Viewer
Visualizzazione delle varianti in un contesto genomico
Varianti in dbSNP
103
dbSNP – Link a Variation Viewer
Cliccando sui
rettangolini posso
vere quali altri
varianti cliniche sono
presenti nel gene
104
dbSNP – esempio di una entry
Sommario di tutte le sottomissioni riguardanti questa SNP
105
dbSNP – esempio di una entry
Sequenza fasta e link ad altri db (sequenze ed altro) in NCBI
106
dbSNP – esempio di una entry
Dati di frequenza nelle popolazioni
Alleli rari sono potenzialmente importanti  le frequenze sono state
abbassate da una selezione “purificatrice”
107
Banche dati - OMIM
Catalogo di geni umani e disordini genetici
•Precedentemente presso l’NCBI ora
ha una pagina web dedicata.
•Risorsa importante per la ricerca
biomedica.
•Compendio di geni umani e fenotipi
•Raccoglie informazioni dalla
letteratura scientifica con link alle
risorse bibliografiche e strumenti di
analisi genomica.
•Aggiornato giornalmente
http://www.omim.org/
Banche dati - OMIM
• OMIM si focalizza principalmente su:
– malattie o fenotipi mendeliani a singolo gene (Es.:
fibrosi cistica, anemia falciforme,…)
– Malattie complesse con un contributo
significativo da parte di un singolo gene
– Sindromi da duplicazioni e delezioni
ricorrenti
109
Statistiche di OMIM
Quasi 23,000 entry a Marzo 2015
110
Homepage di OMIM
Link a diverse risorse
Ricerca di base
Esempi di ricerca su OMIM
Autocompletamento
112
OMIM – risultati della ricerca
Cliccare per aprire
113
OMIM – Visualizzazione di una entry
Link alla sezioni della pagina
114
OMIM – Visualizzazione di una entry
Relazione gene-fenotipo
115
OMIM – Visualizzazione di una entry
Location
116
Omim – location
Genes in the same region
117
OMIM – Visualizzazione di una entry
Phenotype
mapping key
• Phenotype map key 1: the disorder has been placed on the map based on its
association with a gene, but the underlying defect is not known.
• Phenotype map key 2: the disorder has been placed on the map by linkage;
no mutation has been found.
• Phenotype map key 3: the molecular basis for the disorder is known; a
mutation has been found in the gene.
• Phenotype map key 4: a contiguous gene deletion or duplication syndrome;
multiple genes are deleted or duplicated causing the phenotype.
118
OMIM – Visualizzazione di una entry
Gene/Locus
ID in OMIM
119
OMIM – Gene
Tutte le relazioni gene-fenotipo per il locus HBB
120
OMIM – Gene
Tutte le relazioni gene-fenotipo per il locus HBB
121
Varianti alleliche
OMIM – Gene
Mutations are cataloged in OMIM in the Allelic Variants section of gene entries (see 1.2). For most genes, only
selected mutations are included. Criteria for inclusion include the first mutation to be discovered, high population
frequency, distinctive phenotype, historic significance, unusual mechanism of mutation, unusual pathogenetic
mechanism, and distinctive inheritance (e.g., dominant with some mutations, recessive with other mutations in the
same gene). Most of the allelic variants represent disease-causing mutations. A few polymorphisms are included,
many of which show a positive correlation with particular common disorders. http://www.omim.org/help/faq122
OMIM – Visualizzazione di una entry
Descrizione del fenotipo
123
OMIM – Visualizzazione di una entry
Caratteristiche cliniche
124
OMIM – Visualizzazione di una entry
Modalità di diagnosi
125
OMIM – Visualizzazione di una entry
Gestione clinica
126
OMIM – Visualizzazione di una entry
127
OMIM – Visualizzazione di una entry
128
OMIM – Links
Lista di identificatori dell’International
Classification of Diseases (ICD) e
Systematized Nomenclature of
Medicine (SNOMed)
129
OMIM – Links
130
OMIM – Links
131
OMIM – Links
Link al database di proteine Uniprot
132
OMIM – Links
Link al database di trial clinici
133
OMIM – Links
Link al Genetic Testing Registry (GTR)
134
OMIM – risultati della ricerca
Cliccando su Gene Map è
possibile visualizzare i geni
corrispondenti alla ricerca
eseguite
135
OMIM – Gene map
136
OMIM – risultati della ricerca
Cliccando su Clinical Synopsis
è possibile accedere
direttamente a delle sinopsi
cliniche
137
OMIM – clinical synopsis
138
The central dogma of molecular
biology
DNA
Replication
RNA
Transcription
Translation
PROTEIN
Genes are transcribed from DNA into mRNA, which leaves the nucleus
and is translated to protein. A gene actively transcribed is said to be
139
expressed.
Database di dati di espressione
• Gene Expression Ominbus (GEO) database –
NCBI
• http://www.ncbi.nlm.nih.gov/geo/
• EMBL-EBI microarray database (ArrayExpress)
• https://www.ebi.ac.uk/arrayexpress/
• Stanford Microarray Database (SMD)
• http://smd.princeton.edu
• caARRAY (outdated)
•
•
– https://cabig-stage.nci.nih.gov/community/tools/caArray
The Cancer Genome Atlas (TCGA)
–
http://cancergenome.nih.gov/
PlexDB (unified gene expression resource for
plants and plant pathogens)
–
http://www.plexdb.org/
GEO
Curated
User submitted
GEO organization
Platforms (GPLxxx)
A Platform record is composed of a summary description of the array or sequencer
and, for array-based Platforms, a data table defining the array template. A Platform
may reference many Samples that have been submitted by multiple submitters.
Platform data table
Platform data table header
Samples (GSMxxx)
A Sample record describes the conditions under which an individual Sample was
handled, the manipulations it underwent, and the abundance measurement of each
element derived from it. A Sample entity must reference only one Platform and may be
included in multiple Series.
Sample data
Series (GSExxx)
A Series record links together a group of related Samples and provides a focal
point and description of the whole study.
GEO Datasets and Profiles
• GEO Profiles
This database stores individual gene expression and
molecular abundance profiles assembled from the Gene
Expression Omnibus (GEO) repository. Search for specific
profiles of interest based on gene annotation or precomputed profile characteristics. GEO Profiles facilitates
powerful searching and linking to additional information
sources.
• GEO DataSets
This database stores curated gene expression and
molecular abundance DataSets assembled from the Gene
Expression Omnibus (GEO) repository. Enter search terms
to locate experiments of interest. DataSet records contain
additional resources including cluster tools and differential
expression queries.
Repository Browser
Repository Browser
It’s possible to browse the repository at different levels
Repository Browser
Data can be browsed by Series
Repository Browser
Data can be browsed by Series, Samples
Repository Browser
Data can be browsed by Series, Samples, Platforms
Repository Browser
Data can be browsed by Series, Samples, Platforms and Datasets
Datasets
Filters
Expression profiles
Filtering expression profiles
Profile of a specific gene
You can also go back to the
information related to each
specific sample analized
Sample
Title
Value
Rank
GSM562208
Control, biological rep1
6.24609
56
GSM562209
Control, biological rep2
6.75805
61
GSM562210
Control, biological rep3
6.45933
59
GSM562211
Dark, biological rep1
5.88078
52
GSM562212
Dark, biological rep2
5.92748
53
GSM562213
Dark, biological rep3
5.98739
54
GSM562214
Light, biological rep1
7.72981
74
GSM562215
Light, biological rep2
8.29298
81
GSM562216
Light, biological rep3
8.27405
81
Profile neighbors
Connects Profiles that show a similar expression pattern to the chosen Profile within a Da
Profile neighbors
Profile data can be downloaded
Profile data can be downloaded
Pathways