Corso di Laurea in Biotecnologie Sanitarie
Universita' di Padova
Corso di Bioinformatica
16 ore
Docente:
Dr. Stefania Bortoluzzi
Dipartimento di Biologia
Universita' di Padova
viale G. Colombo 3, 35131, Padova
Tel. 0039 049 8276214
Email: [email protected]
II LEZIONE
• Database di interesse per la genetica e la
biologia molecolare
• Portali per l'accesso a database e servizi
bioinformatici
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
Online Mendelian Inheritance in Man
EntrezGene curated sequence and descriptive information
about genetic loci
UniGene
experimental system for automatically partitioning
GenBank sequences into a non-redundant set of
gene-oriented clusters
GenCards
database of human genes, their products and their
involvement in diseases
HGMD
Human Gene Mutation Database: information
about disease-causing mutations in genes
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM
EntrezGene
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=gene
UniGene
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene
GenCards
http://bioinformatics.weizmann.ac.il/cards/
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
dbSNP
http://www.ncbi.nlm.nih.gov/projects/SNP/
OMIM
Online Mendelian Inheritance in Man
Catalogo di geni umani e malattie genetiche (Dr. Victor A.
McKusick, Johns Hopkins + NCBI)
Contiene informazione testuale, riferimenti bibliografici e links
a MEDLINE, sequenze e ad altre risorse
OMIM gene map
Posizioni di mappa citogenetica di geni-malattia e altri geni
descritti in OMIM
OMIM morbid map
Posizioni di mappa citogenetica di geni-malattia indicizzati in
OMIM
Use OMIM
to explore
Rett
syndrome
There are entries
for both the
disease and the
gene
OMIM number
Link to NCBI map viewer
OMIM
Numbering and Symbols
ID e’ un numero di 6 cifre.
* 1----- (100000- ) Autosomal dominant (before 1994)
* 2----- (200000- ) Autosomal recessive (before 1994)
* 3----- (300000- ) X-linked loci or phenotypes
* 4----- (400000- ) Y-linked loci or phenotypes
* 5----- (500000- ) Mitochondrial loci or phenotypes
•6----- (600000- ) Autosomal loci or phenotypes
Asterisco (*) significa che il fenotipo legato al gene e’ diverso da
quelli rappresentati da altre entries con l’asterisco e che si
conosce il tipo di ereditabilita’.
Se manca l’asterisco non sono chiari la separazione da altri loci
o il modo in cui si eredita il fenotipo.
(#) il fenotipo puo’ essere causato da 2 o piu’ geni (eterogeneita’
genetica).
OMIM
Varianti alleliche
stesso ID piu’ un altro numero di 4 cifre.
Sono MUTAZIONI CHE CAUSANO MALATTIE
ENTREZ GENE
Interfaccia unificata per cercare
informazioni su sequenze e loci genetici. Presenta informazioni
sulla nomenclatura ufficiale, accession numbers, fenotipi, MIM
numbers, UniGene clusters, omologia, posizioni di mappa e link a
numerosi altri siti web.
ENTREZ GENE
ENTREZ GENE
ENTREZ
GENE
Gene Table
GeneCards
Weizmann Institute of Science, Israele
GeneCards is a database of human genes, their products and
their involvement in diseases. It offers concise information about
the functions of all human genes that have an approved symbol,
as well as selected others.
The information presented here has been automatically
extracted from various resources. GeneCards™ is particulary
useful for people who wish to find information about genes of
interest in the context of functional genomics and proteomics.
http://www.genecards.org/
GeneCards
INFORMAZIONI SU
• Aliases and Additional Descriptions
• Chromosomal Location
• Proteins
• Protein Domains/Families/Ontologies
• Transcripts/Sequences
• Expression in Human Tissues
• Similar Genes in Other Organisms
• Related Human Genes - Paralogs
• SNPs/Variants
• Disorders & Mutations
• Medical News
• Research Articles
• Links to the entry of the gene in Other Genome Wide
Resources, in general or specialized databases
GeneCards is an integrated database of human genes that
includes automatically-mined genomic, proteomic and
transcriptomic information, as well as orthologies, disease
relationships, SNPs, gene expression, gene function and more.
GeneNote is a database of human genes and their expression
profiles in healthy tissues (Weizmann Institute of Science
DNA array experiments, Affymetrix HG-U95 )
GeneAnnot provides a revised and improved annotation of
Affymetrix probe-sets from HG-U95, HG-U133 and HG-U133
Plus2.0.
GeneLoc presents an integrated map for each human
chromosome, based on data integrated by the GeneLoc
algorithm. GeneLoc includes further links to GeneCards,
NCBI's Human Genome Sequencing, UniGene, Genome
Database, and mapping resources.
GeneTide is an automated system for human transcripts
(mRNA & ESTs) annotation and elucidation of de-novo
genes.
UniGene
UniGene è un altro "gene indexing" database, mantenuto all'NCBI
UniGene si propone di rappresentare l'insieme dei geni umani
espressi attraverso il raggruppamento in un unico "cluster" di tutte
le EST e le sequenze annotate di DNA genomico, mRNA, derivanti
dai database GenBank e dbEST, simili tra loro e ipoteticamente
afferenti alla medesima unità trascrizionale.
Il sistema di "clusterizzazione" si basa sulla similarità di sequenza e non
sull'allineamento e le sequenze di scarsa qualità non vengono prese in
considerazione.
Le sequenze vengono comparate ognuna con tutte le altre in occasione
di ciascuna delle frequenti versioni di UniGene e quelle che mostrano una
similarità statisticamente significativa vengono inserite in un unico
gruppo.
UniGene
Non viene costruita alcuna sequenza di consenso tra quelle di un
"cluster", poiché a una singola unità trascrizionale possono
corrispondere diversi contigui di sequenze espresse, a causa di fenomeni
molto comuni quali o lo splicing alternativo o l'uso di diversi promotori per
diverse isoforme.
Il processo di "clusterizzazione" si svolge in diversi passaggi, con
stringenza decrescente.
Prima vengono filtrate le sequenze contaminanti, ripetute o a bassa
complessità e quelle ribosomiali e mitocondriali, in modo che ogni
restante sequenza, di lunghezza superiore a 100 bp sia candidata per far
parte di un "UniGene cluster".
Poi vengono comparate tra loro e raggruppate le sequenze di geni e
messaggeri; a questi "cluster" vengono aggiunte le EST correlate per
similarità di sequenza o per informazioni sul clone di derivazione.
UniGene
I "cluster" che non contengono il segnale di poliadenilazione vengono
scartati, mantenendo solo i "cluster" "ancorati", ovvero quelli per cui è
nota la sequenza 3', requisito fondamentale per l'identificazione di un
gene.
Gli ultimi stadi del processo provvedono all'assegnazione delle EST
"orfane" e dei "cluster" di dimensione 1 a uno dei "cluster" "ancorati", con
minore stringenza. Infine a ogni "cluster" viene assegnato il numero di
identificazione, cercando di assicurare la massima continuità possibile
con le precedenti versioni del database.
I parametri usati da UniGene per il processo di raggruppamento delle
sequenze in "UniGene entry" sono caratterizzati da un grado di
stringenza piuttosto basso percio’ ci si aspetta che esista in UniGene un
singolo gruppo di trascritti a rappresentare ogni gene umano, ovvero
che, di converso, le sequenze di trascritti diversi, ottenuti per splicing
alternativo da un medesimo gene, siano raggruppate insieme in un'unica
"entry" .
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
• Human Gene Mutation Database (HGMD) raccoglie le
mutazioni conosciute (pubblicate) in geni umani, responsabili
di malattie genetiche
• Creato per studiare il meccanismo delle mutazioni nel
genoma umano, per riconoscere le regioni e i loci ipermutabili
• Ora e’ importante anche come raccolta di dati. Utile per
diagnosi molecolare di patologie e consulenza genetica.
• Non include mutazioni somatiche o mitocondriali, mutazioni
silenti.
• Dal marzo 1999, HGMD include disease-associated
polymorphisms.
• Basato sull’analisi di >250 riviste scientifiche.
dbSNP
http://www.ncbi.nlm.nih.gov/projects/SNP/
Gli SNPs (single
nucleotide
polymorphisms), sono
polimorfirsmi di singoli
nucleotidi, che si
ritrovano
approssimativamente
ogni 100-300 basi nel
genoma umano.
Sono molto utilizzati
come marcatori genetici
soprattutto in studi di
associazione.
dbSNP
http://www.ncbi.nlm.nih.gov/projects/SNP/
Portali per l'accesso a database e servizi
bioinformatici
NCBI (SNP,SAGE, Gene Expression Omnibus, Cancer
Chromosomes database, …)
ExPASy Proteomics Server (http://www.expasy.org/)
EBI (EMBL Nucleotide Database, UniProt Knowledgebase,
Macromol. Structure Database, ArrayExpress, Ensembl,…,
TOOLBOX) (http://www.ebi.ac.uk/services/)