GenBank
Database di sequenze all’NIH
14,397,000,000 basi in 13,602,000
sequenze (Octobre 2001)
Crescita esponenziale
International Nucleotide Sequence
Database Collaboration (DNA DataBank of
Japan (DDBJ), European Molecular Biology
Laboratory (EMBL), GenBank all NCBI)
 Scambio di informazioni ogni giorno
dbEST (sezione di GenBank)
database pubblico di "Expressed Sequence Tags"
(sequenze espresse contrassegnate), contiene
tutte le sequenze ottenute dal sequenziamento
parziale o totale di cloni di cDNA.
dbEST release 102601
Number of public entries: 9,372,718
Summary by Organism - October 26, 2001
•
•
•
•
•
Homo sapiens (human)
Mus musculus + domesticus (mouse)
Rattus sp. (rat)
Drosophila melanogaster (fruit fly)
...
3,859,807
2,328,188
317,076
255,456
Sono disponibili le sequenze di entrambe le estremità
del clone e le immagini dei cromatogrammi di
sequenza possono essere facilmente raggiunte per
controllarne la qualità.
I cloni EST sono uno strumento molto utile per
esperimenti di caratterizzazione di geni e studi di
espressione.
Una singola EST corrisponde ad un segmento molto
breve rispetto all'estensione della regione codificante di
un gene, ma essa costituisce il punto di partenza per la
sua identificazione, che può essere ottenuta sia con i
tradizionali sistemi di sequenziamento, che con metodi
esclusivamente informatici (ad es. mediante
"ESTassembly") che tentano di ricostruire la presumibile
sequenza di consenso tra diverse EST parzialmente
sovrapposte, identificandole nei database disponibili.
Come e’ fatta un’entry di GenBank ?
ENTREZ
I Database:
•
•
•
•
•
Nucleotide
Protein
Genome
Structure
PopSet
• Database Interlinking
Nucleotide
Dati di sequenza da GenBank, EMBL, and DDBJ
Protein
Traduzione delle sequenze codificanti in
GenBank, EMBL and DDBJ e sequenze di proteine
sottomesse a PIR, SWISSPROT, PRF, Protein Data
Bank (PDB) (sequenze da strutture risolte)
Genome
Sequenze di genomi completi di molti organismi
Cromosomi completi
Mappe di contigui
Mappe genetiche/fisiche integrate
Structure
Dati sperimentali di cristallografia e NMR
Cn3D program
PopSet
Sequenze allineate, risultato di studi di genetica
di popolazione, filogenesi e mutazione.
Sia proteine che nucleotidi
Database Interlinking
UniGene
UniGene è il principale "gene indexing" database,
mantenuto all'NCBI
UniGene si propone di rappresentare l'insieme dei
geni umani espressi attraverso il
raggruppamento in un unico "cluster" di tutte le
EST e le sequenze annotate di DNA genomico,
mRNA, derivanti dai database GenBank e
dbEST, simili tra loro e ipoteticamente afferenti
alla medesima unità trascrizionale.
Il sistema di "clusterizzazione" si basa sulla similarità di
sequenza e non sull'allineamento e le sequenze di
scarsa qualità non vengono prese in considerazione.
Le sequenze vengono comparate ognuna con tutte le altre
in occasione di ciascuna delle frequenti versioni di
UniGene e quelle che mostrano una similarità
statisticamente significativa vengono inserite in un
unico gruppo.
Non viene costruita alcuna sequenza di consenso tra
quelle di un "cluster", poiché a una singola unità
trascrizionale possono corrispondere diversi contigui di
sequenze espresse, a causa di fenomeni molto comuni
quali o lo splicing alternativo o l'uso di diversi
promotori per diverse isoforme.
Il processo di "clusterizzazione" si svolge in diversi
passaggi, con stringenza decrescente.
Prima vengono filtrate le sequenze contaminanti, ripetute
o a bassa complessità e quelle ribosomiali e
mitocondriali, in modo che ogni restante sequenza, di
lunghezza superiore a 100 bp sia candidata per far
parte di un "UniGene cluster".
Poi vengono comparate tra loro e raggruppate le
sequenze di geni e messaggeri; a questi "cluster"
vengono aggiunte le EST correlate per similarità di
sequenza o per informazioni sul clone di derivazione.
I
"cluster" che non contengono il segnale di
poliadenilazione vengono scartati, mantenendo solo i
"cluster" "ancorati", ovvero quelli per cui è nota la
sequenza
3',
requisito
fondamentale
per
l'identificazione di un gene.
Gli ultimi stadi del processo provvedono all'assegnazione
delle EST "orfane" e dei "cluster" di dimensione 1 a uno
dei "cluster" "ancorati", con minore stringenza. Infine a
ogni "cluster" viene assegnato il numero di
identificazione, cercando di assicurare la massima
continuità possibile con le precedenti versioni del
database.
I parametri usati da UniGene per il processo di
raggruppamento delle sequenze in "UniGene entry"
sono caratterizzati da un grado di stringenza piuttosto
basso percio’ ci si aspetta che esista in UniGene un
singolo gruppo di trascritti a rappresentare ogni gene
umano, ovvero che, di converso, le sequenze di
trascritti diversi, ottenuti per splicing alternativo da un
medesimo gene, siano raggruppate insieme in un'unica
"entry" .
SAGE (Serial Analysis of Gene Expression)
SAGE è un metodo sperimentale ideato per avere
informazioni quantitative di espressione genica.
SAGE consiste nel sequenziamento da messaggeri
cellulari di brevi oligonucleotidi, che fungono da brevi
etichette di sequenza (TAG) e si basa su tre principi:
 - una sequenza di 9 paia di basi permette di
identificare 49 (262144) diversi trascritti, dal momento
che una "tag" viene ottenuta da una posizione specifica
di ogni trascritto,
 - le "tag" possono essere unite insieme in serie, a
costituire lunghe molecole di DNA, che vengono
clonate e sequenziate,
 - il numero di volte in cui una singola "tag" viene
osservata permette di quantificare l'abbondanza del
messaggero
identificato
nella
popolazione
dei
messaggeri e, indirettamente, il livello di espressione
del gene corrispondente.
Isolamento delle “tag”
Ligazione
Sequenziamento
Livello di
espressione
Livello di
espressione
Quantificazione di ciascuna
“tag” e determinazione del
pattern di espressione
GENE
GENE
Normale
Normale
GENE
GENE
Alterato
Alterato
cDNA microarrays
• Hundreds of thousands ESTs arranged in a single
microscope slide by a robot
• The basic principle is HYBRIDIZATION OF
COMPLEMENTARY SEQUENCES
• Determination of the level of activity of the genes
represented by ESTs in the cell
• Differential expression of genes in different samples
(tissue type, normal/disease state, drugs effects)
DNA Microarray Technology
DNA Microarray Technology
CDNA microarrays