Forema1

PROGRAMMA DEL CORSO
16 ore
1.
2.
Introduzione ai database di genetica e biologia
molecolare. Omim, LocusLink, UniGene,
GenCards (+ esercitazione). GDB Genetic
Location Database, STS Based Map, Human
Gene Mutation Database
Siti web di interesse biomolecolare.Database di
sequenze nucleotidiche e proteiche, ENTREZ,
GenBank, SWISSPROT (+ esercitazione)
PROGRAMMA DEL CORSO
16 ore
3.
4.
5.
Database di sequenze genomiche e loro
annotazione (Genome Browser e Ensembl) (+
esercitazione)
Introduzione agli allineamenti di sequenze.
Formato Fasta, allineamenti locali e globali, a
coppie o multipli. Ricerca di similarita',
significativita' di un allineamento, BLAST.
Allineamento di sequenze trascritte con sequenze
genomiche: BLAT. (+ esercitazioni)
Introduzione all’utilizzo di database
1
Struttura e organizzazione di database
 I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione
al di sopra di essi.
 Ogni livello di astrazione consente di organizzare i dati contenuti e accedervi piu'
facilmente, separando la richiesta dal meccanismo di recupero di specifici dati.
 Database diversi organizzano i dati in modi differenti.
 La metodologia piu' comune e' utilizzata dai database relazionali o RDBMS (Relational
Database Management Systems). I piu' famosi sistemi odierni sono hanno struttura
prevalentemente relazionale (es. Oracle, Sybase).
 Altra metodologia popolare e' quella orientata agli oggetti (OODBMS), in cui il l'intero
contenuto del database e' gestito come oggetto di una classe specifica, in cui sono state
definite delle regole per manipolare i dati in essa contenuti. Esistono poi dei pacchetti di
database semplicistici che sono in relta' paradatabase, ovvero sistemi piu' o meno sofisticati
di gestione di files.
 Tutti i sistemi di database impiegano delle interfacce (API, Application Programming
Interface) per accedere ai dati ed, eventualmente modificarli. La manipolazione dei dati
avviene attraverso un linguaggio di interrogazione che permette essenzialmente quattro
operazioni principali: acquisizione, memorizzazione, aggiornamento e eliminazione di dati.
Introduzione all’utilizzo di database
Database flat-file
 Il tipo piu' semplice di database e' il database flat-file,
formato da files di testo ASCII in formato standard che il
programma esamina per cercare informazioni.
 Il formato e' di solito costituito da un insieme di campi,
contenenti ciascuno una specifica categoria di
informazioni, delimitati attraverso caratteri speciali o con
lunghezza fissa assegnata.
 Il pregio principale dei database flat-file e' la semplicita'
di gestione, controbilanciata pero' dalla loro incapacita'
di gestire accesso concorrente e dalla mancanza di
indicizzazione dei dati, che non consente interrogazioni
sequenziali.
 Esempio.
Database flat-file entry
NA
IN
GR
TM
CA
DE
RE
Torta sacher
cacao, uova, farina, burro,
180 °C
40 minuti
500 porzione
Torta buonisima,
caratteristica di Vienna, si
trova anche in Alto Adige.
Dolci Altoatesini, Ed. Bo
Introduzione all’utilizzo di database




Database relazionali
Il linguaggio SQL (Structured Query language) e' stato progettato
per manipolare basi di dati (1970, Codd, IBM, modello relazionale).
Un database relazionale e' percepito dall'utente con un insieme di
tabelle, dove una tabella e' un insieme non ordinato di righe. Ogni
riga ha un numero fisso di campi (colonne della tabella) e ogni
campo puo' memorizzare un tipo predefinito di dati (numeri o
stringhe).
Le informazioni correlate possono essere conservate nello stesso
punto o in punti distinti ma collegati a quello principale.Questo
processo di razionalizzazione delle tabelle (normalizazione dei dati)
fa si’ che i dati non risultino duplicati e ne riduce la ridondanza.
I dati possono essere: numerici, carattere (stringhe di lettere e
numeri), data (data, data piu' ora), binari (immagini, audio, ...) o
NULL (privo di valore).
Database compositi e information retrieval
SRS - Sequence Retrieval System

E' stato sviluppato per rendere possibile l'interrogazione di piu'
database residenti nel medesimo sito, anche in assenza di un
formato comune tra i diversi database.
 Si tratta di un network browser per database in biologia
molecolare, sviluppato all’interno dell'European Molecular
Biology network.
 SRS permette l'indicizzazione di qualsiasi flat-file database
rispetto a qualsiasi altro.
 Tipicamente, SRS permette di collegare dati relativi ad acidi
nucleici, EST, sequenze proteiche, pattern di sequenze, a
strutture o di tipo bibliografico, senza che all'utente sia richiesta
la conoscenza della struttura dei dati e dei linguaggi utilizzati.
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
Online Mendelian Inheritance in Man
LOCUSLINK curated sequence and descriptive information
about genetic loci
UniGene
experimental system for automatically
partitioning GenBank sequences into a nonredundant set of gene-oriented clusters
GenCards
database of human genes, their products and
their involvement in diseases
GDB
Genome Database: stores information about
genes and other genomic features
HGMD
Human Gene Mutation Database: information
about disease-causing mutations in genes
DATABASE DI GENETICA E BIOLOGIA MOLECOLARE
OMIM
http://www3.ncbi.nlm.nih.gov/Omim/
LOCUSLINK
http://www.ncbi.nlm.nih.gov/LocusLink/
UniGene
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene
GenCards
http://bioinfo.weizmann.ac.il/cards/
GDB
http://gdbwww.gdb.org/
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
OMIM
Online Mendelian Inheritance in Man
Catalogo di geni umani e malattie genetiche (Dr.
Victor A. McKusick, Johns Hopkins + NCBI)
Contiene informazione testuale, riferimenti
bibliografici e links a MEDLINE, sequenze e ad altre
risorse
OMIM gene map
Posizioni di mappa citogenetica di geni-malattia e altri geni
descritti in OMIM
OMIM morbid map
Posizioni di mappa citogenetica di geni-malattia indicizzati in
OMIM
OMIM
OMIM Numbering and Symbols
ID e’ un numero di 6 cifre.
* 1----- (100000- ) Autosomal dominant (entries created
before May 15, 1994)
* 2----- (200000- ) Autosomal recessive (entries created
before May 15, 1994)
* 3----- (300000- ) X-linked loci or phenotypes
* 4----- (400000- ) Y-linked loci or phenotypes
* 5----- (500000- ) Mitochondrial loci or phenotypes
* 6----- (600000- ) Autosomal loci or phenotypes (entries
created after May 15, 1994)
OMIM
Varianti alleliche: stesso ID piu’ un altro numero di 4 cifre.
For example, allelic variants (mutations) at the factor IX
(hemophilia B) locus are numbered 306900.0001 to
306900.0101. The beta-globin locus (HBB) is numbered
141900; sickle hemoglobin is numbered 141900.0243.
Asterisco (*) significa che il fenotipo legato al gene e’ diverso
da quelli rappresentati da altre entries con l’asterisco e che si
conosce il tipo di ereditabilita’.
Se manca l’asterisco non sono chiari la separazione da altri
loci o il modo in cui si eredita il fenotipo.
(#) il fenotipo puo’ essere causato da 2 o piu’ geni
(eterogeneita’ genetica).
OMIM
OMIM Statistics
All Entries : 14315
Established Gene Locus (*) : 10628
Phenotype Descriptions (#) : 1269
Other Entries ( ) : 2418
Autosomal Entries : 13417
X-Linked Entries : 795
Y-Linked Entries : 43
Mitochondrial Entries : 60
Esempio di ricerca:
search for ...
1. DYSTROPHY
2. CORNEAL DYSTROPHY
LOCUSLINK
Interfaccia unificata per cercare informazioni su sequenze e
loci genetici. Presenta informazioni sulla nomenclatura
ufficiale, accession numbers, fenotipi, MIM numbers,
UniGene clusters, omologia, posizioni di mappa e link a
numerosi altri siti web.
Sequence accessions include a subset of GenBank
accessions for a locus, as well as a new type, the NCBI
Reference Sequence (RefSeq).
Refseq
LOCUSLINK
Review status
Validated
Records for Homo sapiens
Number of reference
sequences
Number of loci
17
17
3
3
Provisional
7890
7749
Predicted
3991
3963
Reviewed
8171
5470
Genomic
992
992
21064
18194
Inferred
Total
LocusLink records
with sequence
data for Homo
sapiens
21933
LOCUSLINK
LocusLink & RefSeq Development
LocusLink and the curated RefSeq records are created via a process that
includes automated computational methods,collaboration, and manual data
curation by NCBI Staff.
LOCUSLINK
Examples of LocusLink Queries:
http://www.ncbi.nlm.nih.gov/LocusLink/help.html
Search for...
Nebulin
Rhodopsin
UniGene
UniGene è il principale "gene indexing" database, mantenuto all'NCBI
UniGene si propone di rappresentare l'insieme dei geni umani espressi
attraverso il raggruppamento in un unico "cluster" di tutte le EST e
le sequenze annotate di DNA genomico, mRNA, derivanti dai
database GenBank e dbEST, simili tra loro e ipoteticamente afferenti
alla medesima unità trascrizionale.
Il sistema di "clusterizzazione" si basa sulla similarità di sequenza e non
sull'allineamento e le sequenze di scarsa qualità non vengono prese in
considerazione.
Le sequenze vengono comparate ognuna con tutte le altre in occasione di
ciascuna delle frequenti versioni di UniGene e quelle che mostrano una
similarità statisticamente significativa vengono inserite in un unico gruppo.
UniGene
Non viene costruita alcuna sequenza di consenso tra quelle di un "cluster",
poiché a una singola unità trascrizionale possono corrispondere diversi
contigui di sequenze espresse, a causa di fenomeni molto comuni quali o
lo splicing alternativo o l'uso di diversi promotori per diverse isoforme.
Il processo di "clusterizzazione" si svolge in diversi passaggi, con stringenza
decrescente.
Prima vengono filtrate le sequenze contaminanti, ripetute o a bassa
complessità e quelle ribosomiali e mitocondriali, in modo che ogni
restante sequenza, di lunghezza superiore a 100 bp sia candidata per far
parte di un "UniGene cluster".
Poi vengono comparate tra loro e raggruppate le sequenze di geni e
messaggeri; a questi "cluster" vengono aggiunte le EST correlate per
similarità di sequenza o per informazioni sul clone di derivazione.
UniGene
I "cluster" che non contengono il segnale di poliadenilazione vengono scartati,
mantenendo solo i "cluster" "ancorati", ovvero quelli per cui è nota la sequenza
3', requisito fondamentale per l'identificazione di un gene.
Gli ultimi stadi del processo provvedono all'assegnazione delle EST "orfane" e dei
"cluster" di dimensione 1 a uno dei "cluster" "ancorati", con minore stringenza.
Infine a ogni "cluster" viene assegnato il numero di identificazione, cercando di
assicurare la massima continuità possibile con le precedenti versioni del
database.
I parametri usati da UniGene per il processo di raggruppamento delle sequenze in
"UniGene entry" sono caratterizzati da un grado di stringenza piuttosto basso
percio’ ci si aspetta che esista in UniGene un singolo gruppo di trascritti a
rappresentare ogni gene umano, ovvero che, di converso, le sequenze di
trascritti diversi, ottenuti per splicing alternativo da un medesimo gene, siano
raggruppate insieme in un'unica "entry" .
Search for...
Search for...
Nebulin
nebulin
Rhodopsin
GDB
http://gdbwww.gdb.org/
GDB contiene i seguenti tipi di dati:
• Regions of the human genome, including genes, clones,
amplimers (PCR markers), breakpoints, cytogenetic
markers, fragile sites, ESTs, syndromic regions, contigs
and repeats.
• Maps of the human genome, including cytogenetic maps,
linkage maps, radiation hybrid maps, content contig maps,
and integrated maps. These maps can be displayed
graphically via the Web.
• Variations within the human genome including mutations
and polymorphisms, plus allele frequency data.
GDB
Search and Browsing Options
http://gdbwww.gdb.org/gdb/advancedSearch.html
Example Searches
http://gdbwww.gdb.org/gdb/queryfaq.html
Search for...
Nebulin
Rhodopsin
HGMD
http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html
Human Gene Mutation Database (HGMD) raccoglie le mutazioni
conosciute (pubblicate) in geni umani, responsabili di malattie genetiche
Creato per studiare il meccanismo delle mutationi nel genoma umano, per
riconoscere le regioni e i loci ipermutabili
Ora e’ importante anche come raccolta di dati. Utile per diagnosi
molecolare di patologie e consulenza genetica.
Non include mutazioni somatiche o mitocondriali, mutazioni silenti.
Dal marzo 1999, HGMD include disease-associated polymorphisms.
Basato sull’analisi di >250 riviste scientifiche.
Search for...
Nebulin
Rhodopsin
SITI WEB DI INTERESSE BIOMOLECOLARE
DATABASE DI SEQUENZE NUCLEOTIDICHE E
PROTEICHE
 GenBank
 SWISSPROT
 ENTREZ
DATABASE PRIMARI
Database di sequenze nucleotidiche e proteiche

Collezioni di singoli records, ognuno dei quali contiene un tratto
di DNA o RNA con delle annotazioni. Ogni record viene anche
chiamato ENTRY, e ha un codice che lo identifica univocamente
(ACCESSION NUMBER).
Le tre principali banche dati primarie sono:

EMBL nucleotide database, ora gestita dall’EBI (1980)



GenBank = banca dell NIH gestita dal NCBI (1982)



EMBL = European Molecular Biology Laboratory (Heidelberg)
EBI = European Bioinformatics Institute (Hinxton, UK)
NIH = National Institutes of Health (Stuttura USA)
NCBI = National Center for Biotechnology Information, Bethesda,
Maryland
DDBJ = banca DNA giapponese (1986)

DDBJ = DNA DataBase of Japan
Nel 1988, i gruppi responsabili di questi 3 database si sono organizzati
nell’International Collaboration of DNA Sequence Databases, e hanno
deciso di utilizzare un formato comune per i records (non proprio
identico, ma almeno deve avere sempre certe caratteristiche) e di
scambiarsi giornalmente le sequenze.
La gran parte delle sequenze finisce in uno dei tre database perché
l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia
direttamente. La sequenza viene quindi inserita e il record
corrispondente resta di proprietà’ solo di quel database, l’unico con il
diritto di modificarlo (questo evita molti problemi). Il database che riceve
la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un
database sono presenti anche negli altri due.
Ci sono poi anche degli “annotatori” che prendono le sequenze dalle
riviste scientifiche e le trasferiscono nel database. Questo implica pero’
ulteriori problemi perché si possono formare più’ facilmente doppioni.
Problema della ridondanza.
Quante sequenze ci sono in GenBank ?
GenBank Statistics
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
La “Feature Table” stabilisce le regole da seguire per
permettere lo scambio di dati tra i diversi database che
collaborano all’ International Nucleotide Sequence Database
Collaboration
Submitting Sequence Data to GenBank
The most important source of new data for GenBank® is direct
submissions from scientists. GenBank depends on its
contributors to help keep the database as comprehensive,
current, and accurate as possible. NCBI provides timely and
accurate processing and biological review of new entries and
updates to existing entries, and is ready to assist authors who
have new data to submit.
DATABASE PRIMARI
Database di sequenze proteiche
SWISS-PROT
Database di sequenze proteiche annotate e “scarsamente”
ridondanti e cross-referenced
Contiene TrEMBL, supplemento a SWISS-PROT costituito
dalle sequenze annotate al computer, come traduzione di
tutte le sequenze codificanti presenti all’EMBL
TrEMBL contiene due sezioni:
SP-TrEMBL, sequenze da incorporare in SWISSPROT, con
AC.
REM-TrEMBL, remaining (immunoglobuline, proteine
sintetiche, ...), senza AC.
TrEMBLnew, generato ogni settimana.
GenBank
Database
di sequenze all’NIH
14,397,000,000 basi in 13,602,000 sequenze
(Octobre 2001)
Crescita esponenziale
International Nucleotide Sequence
Database Collaboration (DNA DataBank of
Japan (DDBJ), European Molecular Biology
Laboratory (EMBL), GenBank all NCBI)

Scambio di informazioni ogni giorno
Database compositi e information retrieval
ENTREZ

L'NCBI (National Center for Biotechnology Information) ha
un ruolo fondamentale nel mantenimento di banche dati di
informazioni di interesse biologico e nella diffusione di
strumenti di analisi e biocomputing. L'NCBI sviluppa nuove
tecnologie informatiche per favorire lo studio dei processi
genetici e molecolari di impartanza biomedica.

Ricadute di queste ricerche sono lo sviluppo di metodi per
computer-based information processing e di sistemi che
facilitano l'accesso degli utenti a database e software. Dal
1992, l'NCBI mantiene GenBank, il database di sequenze
di DNA dell'NIH, che scambia dati con l'EMBL e il DDGJ.
ENTREZ
Database compositi e information retrieval
ENTREZ

ENTREZ e' stato sviluppato per permettere l'accesso a
dati di biologia molecolare e citazioni bibliografiche.
Forse un po‘ meno flessibile di SRS, permette tuttavia il
massimo sfruttamento del concetto di "neighbouring"
offrendo la possibilita' di collegare tra loro oggetti
diversi di database differenti, indipendentemente dal
fatto che essi siano direttamente "cross-referenced".

Tipicamente, ENTREZ permette l'accesso a database
di sequenze nuclotidiche, di sequenze proteiche, di
mappaggio di cromosomi e di genomi, di struttura 3D e
bibliografici (PubMed).
Nucleotide
Dati di sequenza da GenBank, EMBL, and DDBJ
Protein
Traduzione delle sequenze codificanti in GenBank,
EMBL and DDBJ e sequenze di proteine
sottomesse a PIR, SWISSPROT, PRF, Protein Data
Bank (PDB) (sequenze da strutture risolte)
Genome
Sequenze di genomi completi di molti organismi
Cromosomi completi
Mappe di contigui
Mappe genetiche/fisiche integrate
Structure
Dati sperimentali di cristallografia e NMR
Cn3D program
PopSet
Sequenze allineate, risultato di studi di genetica di
popolazione, filogenesi e mutazione.
Sia proteine che nucleotidi
Database Interlinking