Lezione Database

DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
Online Mendelian Inheritance in Man
LOCUSLINK curated sequence and descriptive information
about genetic loci
UniGene
experimental system for automatically partitioning
GenBank sequences into a non-redundant set of
gene-oriented clusters
GenCards
database of human genes, their products and their
involvement in diseases
GDB
Genome Database: stores information about
genes and other genomic features
HGMD
Human Gene Mutation Database: information
about disease-causing mutations in genes
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
http://www3.ncbi.nlm.nih.gov/Omim/
LOCUSLINK
http://www.ncbi.nlm.nih.gov/LocusLink/
UniGene
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene
GenCards
http://bioinfo.weizmann.ac.il/cards/
GDB
http://gdbwww.gdb.org/
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
OMIM
Online Mendelian Inheritance in Man
Catalogo di geni umani e malattie genetiche (Dr. Victor A.
McKusick, Johns Hopkins + NCBI)
Contiene informazione testuale, riferimenti bibliografici e links
a MEDLINE, sequenze e ad altre risorse
OMIM gene map
Posizioni di mappa citogenetica di geni-malattia e altri geni
descritti in OMIM
OMIM morbid map
Posizioni di mappa citogenetica di geni-malattia indicizzati in
OMIM
OMIM
OMIM Numbering and Symbols
ID e’ un numero di 6 cifre.
* 1----- (100000- ) Autosomal dominant (entries created
before May 15, 1994)
* 2----- (200000- ) Autosomal recessive (entries created
before May 15, 1994)
* 3----- (300000- ) X-linked loci or phenotypes
* 4----- (400000- ) Y-linked loci or phenotypes
* 5----- (500000- ) Mitochondrial loci or phenotypes
* 6----- (600000- ) Autosomal loci or phenotypes (entries
created after May 15, 1994)
OMIM
Varianti alleliche: stesso ID piu’ un altro numero di 4 cifre.
For example, allelic variants (mutations) at the factor IX
(hemophilia B) locus are numbered 306900.0001 to
306900.0101. The beta-globin locus (HBB) is numbered
141900; sickle hemoglobin is numbered 141900.0243.
Asterisco (*) significa che il fenotipo legato al gene e’ diverso
da quelli rappresentati da altre entries con l’asterisco e che si
conosce il tipo di ereditabilita’.
Se manca l’asterisco non sono chiari la separazione da altri
loci o il modo in cui si eredita il fenotipo.
(#) il fenotipo puo’ essere causato da 2 o piu’ geni
(eterogeneita’ genetica).
OMIM
OMIM Statistics for January 26, 2004
Number of Entries
Autosomal
X-Linked
Y-Linked
Mitochondrial
Total
Established genes
or phenotype loci
(*)
10591
571
46
37
11245
Phenotyp
descriptions (#)
1330
111
0
23
1464
Other loci or
phenotypes (no
prefix)
2231
156
2
2
2389
Total
14153
838
48
60
15099
LOCUSLINK
Interfaccia unificata per cercare informazioni su sequenze e
loci genetici.
Presenta informazioni sulla nomenclatura ufficiale, accession
numbers, fenotipi, MIM numbers, UniGene clusters,
omologia, posizioni di mappa e link a numerosi altri siti web.
Sequence accessions include un subset of GenBank
accessions for a locus, as well as a new type, the NCBI
Reference Sequence (RefSeq).
LOCUSLINK
Homo sapiens












RNA, small nucleolar:
75
gene with no protein product:
115
Gene with protein product, function known or inferred: 15080
Gene with protein product, function unknown:
6306
Total model, pseudogene, not transcribed:
3971
Model, pseudogene, transcribed :
138
Model, supported by EST alignments:
2952
Model supported by mRNA alignments:
815
Model, supported by mRNA and EST alignments:
456
Phenotype only :
907
Pseudogene:
2653
Pseudogene, transcribed:
120

Total records for Homo sapiens:
37078
LOCUSLINK SVILUPPO DI LOCUSLINK & REFSEQ
LocusLink and the curated RefSeq records are created via a process
which includes automated computational methods,collaboration, and
manual data curation by NCBI Staff.
LOCUSLINK
LINKS A:
INFORMAZIONI SU
• mRNA-Genomic Alignments
• Official Gene Symbol and Name
• Overview (Locus Type, Product, Alternate Symbols)
• Function
• Relationships
• Map Information
• NCBI Reference Sequences (RefSeq)
• Related Sequences
• Additional Links
ENTREZ GENE
ENTREZ
GENE
GenCards
Weizmann Institute of Science, Israele
GeneCards is a database of human genes, their products and
their involvement in diseases. It offers concise information about
the functions of all human genes that have an approved symbol,
as well as selected others.
The information presented here has been automatically
extracted from various resources. GeneCards™ is particulary
useful for people who wish to find information about genes of
interest in the context of functional genomics and proteomics.
GenCards
INFORMAZIONI SU
• Aliases and Additional Descriptions
• Chromosomal Location
• Proteins
• Protein Domains/Families/Ontologies
• Sequences
• Expression in Human Tissues
• Similar Genes in Other Organisms
• Related Human Genes
• SNPs/Variants
• Disorders & Mutations
• Medical News
• Research Articles
• Links to the entry of the gene in Other Genome Wide
Resources, in general or specilized databases
UniGene
UniGene è un altro "gene indexing" database, mantenuto all'NCBI
UniGene si propone di rappresentare l'insieme dei geni umani
espressi attraverso il raggruppamento in un unico "cluster" di tutte le
EST e le sequenze annotate di DNA genomico, mRNA, derivanti dai
database GenBank e dbEST, simili tra loro e ipoteticamente afferenti
alla medesima unità trascrizionale.
Il sistema di "clusterizzazione" si basa sulla similarità di sequenza e non
sull'allineamento e le sequenze di scarsa qualità non vengono prese in
considerazione.
Le sequenze vengono comparate ognuna con tutte le altre in occasione di
ciascuna delle frequenti versioni di UniGene e quelle che mostrano una
similarità statisticamente significativa vengono inserite in un unico gruppo.
UniGene
Non viene costruita alcuna sequenza di consenso tra quelle di un "cluster",
poiché a una singola unità trascrizionale possono corrispondere diversi
contigui di sequenze espresse, a causa di fenomeni molto comuni quali o
lo splicing alternativo o l'uso di diversi promotori per diverse isoforme.
Il processo di "clusterizzazione" si svolge in diversi passaggi, con stringenza
decrescente.
Prima vengono filtrate le sequenze contaminanti, ripetute o a bassa
complessità e quelle ribosomiali e mitocondriali, in modo che ogni
restante sequenza, di lunghezza superiore a 100 bp sia candidata per far
parte di un "UniGene cluster".
Poi vengono comparate tra loro e raggruppate le sequenze di geni e
messaggeri; a questi "cluster" vengono aggiunte le EST correlate per
similarità di sequenza o per informazioni sul clone di derivazione.
UniGene
I "cluster" che non contengono il segnale di poliadenilazione vengono scartati,
mantenendo solo i "cluster" "ancorati", ovvero quelli per cui è nota la sequenza
3', requisito fondamentale per l'identificazione di un gene.
Gli ultimi stadi del processo provvedono all'assegnazione delle EST "orfane" e dei
"cluster" di dimensione 1 a uno dei "cluster" "ancorati", con minore stringenza.
Infine a ogni "cluster" viene assegnato il numero di identificazione, cercando di
assicurare la massima continuità possibile con le precedenti versioni del
database.
I parametri usati da UniGene per il processo di raggruppamento delle sequenze in
"UniGene entry" sono caratterizzati da un grado di stringenza piuttosto basso
percio’ ci si aspetta che esista in UniGene un singolo gruppo di trascritti a
rappresentare ogni gene umano, ovvero che, di converso, le sequenze di
trascritti diversi, ottenuti per splicing alternativo da un medesimo gene, siano
raggruppate insieme in un'unica "entry" .
GDB
http://gdbwww.gdb.org/
GDB contiene i seguenti tipi di dati:
• Regions of the human genome, including genes, clones,
amplimers (PCR markers), breakpoints, cytogenetic
markers, fragile sites, ESTs, syndromic regions, contigs
and repeats.
• Maps of the human genome, including cytogenetic maps,
linkage maps, radiation hybrid maps, content contig maps,
and integrated maps. These maps can be displayed
graphically via the Web.
• Variations within the human genome including mutations
and polymorphisms, plus allele frequency data.
Search and Browsing Options
http://gdbwww.gdb.org/gdb/advancedSearch.html
Example Searches
http://gdbwww.gdb.org/gdb/queryfaq.html
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
• Human Gene Mutation Database (HGMD) raccoglie le
mutazioni conosciute (pubblicate) in geni umani, responsabili
di malattie genetiche
• Creato per studiare il meccanismo delle mutationi nel
genoma umano, per riconoscere le regioni e i loci ipermutabili
• Ora e’ importante anche come raccolta di dati. Utile per
diagnosi molecolare di patologie e consulenza genetica.
• Non include mutazioni somatiche o mitocondriali, mutazioni
silenti.
• Dal marzo 1999, HGMD include disease-associated
polymorphisms.
• Basato sull’analisi di >250 riviste scientifiche.
Portali per l'accesso a database e servizi
bioinformatici
NCBI:
SNP
SAGE
Gene Expression Omnibus
SKY/CGH database
…
HGMP:
DNA and Proteins analysis tools
Genome databases
…