Sequenze di DNA/RNA, geni e banche dati File - e-Learning

Corso di Elementi di
Bioinformatica
Laurea Triennale in Informatica
I dati e le banche dati
in Bioinformatica
Anno Accademico 2015-2016
Docente del laboratorio: Raffaella Rizzi
1
Il DNA (oggetto biologico)
Il DNA è una catena polinucleotidica che contiene
le informazioni per la sintesi di RNA e di proteine.
Il “mattoncino” che compone una catena di DNA
prende il nome di nucleotide.
D
b
P
D: deossiribosio (zucchero pentoso)
P: gruppo fosfato
b: base azotata
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
b
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
A
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
G
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
C
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
T
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
T
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
purine
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
T
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
pirimidine
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
D
T
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
3’
D
5’
T
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
Il nucleotide (“mattoncino” del DNA)
3’
D
5’
T
direzione 5’3’
P
D: zucchero pentoso (deossiribosio)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
- timina (T)
Il DNA (oggetto biologico)
3’
D
T
P
D
A
P
D
5’
P
C
La sequenza delle basi azotate
elencate dal 5’ al 3’ fornisce
la sequenza primaria di una
catena di DNA
Nell’esempio della figura si legge
quindi CAT (e non TAC)
Il DNA (oggetto biologico)
3’
D
T
P
D
A
P
D
5’
P
C
In termini informatici è
nucleotide “uguale a” base azotata
La sequenza delle basi azotate
elencate dal 5’ al 3’ fornisce
la sequenza primaria di una
catena di DNA
Nell’esempio della figura si legge
quindi CAT (e non TAC)
Il DNA (oggetto biologico)
P
5’
D
T
A
A
T
C
G
D
3’
P
P
D
D
P
P
5’
P
D
D
3’
Il DNA (oggetto biologico)
P
5’
D
T
A
D
P
P
A è complementare a T
C è complementare a G
D
A
T
C
G
D
3’
P
P
5’
P
D
D
3’
Il DNA (oggetto biologico)
P
D
T
A
A
T
C
G
D
3’
P
P
D
D
P
P
P
D
D
strand +
(forward) 5’
5’ strand –
(reverse)
3’
Il DNA (oggetto biologico)
P
D
T
A
A
T
C
G
D
3’
5’ strand –
(reverse)
P
P
D
P
D
P
D
Catena forward è CAT
D
strand +
(forward) 5’
P
3’
Il DNA (oggetto biologico)
P
D
T
A
D
3’
P
P
A
T
C
G
P
P
D
D
P
Catena reverse è ATG
D
D
strand +
(forward) 5’
5’ strand –
(reverse)
3’
Il DNA (dato informatico)
La sequenza primaria di un catena di DNA è dunque
rappresentata tramite una stringa di simboli
appartenenti all’alfabeto Σ={A,C,G,T}
Il DNA (dato informatico)
La sequenza primaria di un catena di DNA è dunque
rappresentata tramite una stringa di simboli
appartenenti all’alfabeto Σ={A,C,G,T}
Data una delle due sequenze della doppia elica del DNA
ottengo la sequenza appaiata eseguendo
un’operazione di reverse&complement, cioé:
ü  si trasformano le basi secondo la regola
(complemento):
ü 
ü 
A->T, T->A, C->G, G->C
si inverte la sequenza (cioé la si legge al
contrario)
Il DNA (dato informatico)
Esempio di Reverse&Complement:
ACGTAGGATGGACGATGACGATGACGAT
Il DNA (dato informatico)
Esempio di Reverse&Complement:
ACGTAGGATGGACGATGACGATGACGAT
complement
TGCATCCTACCTGCTACTGCTACTGCTA
Il DNA (dato informatico)
Esempio di Reverse&Complement:
ACGTAGGATGGACGATGACGATGACGAT
complement
TGCATCCTACCTGCTACTGCTACTGCTA
reverse
ATCGTCATCGTCATCGTCCATCCTACGT
L’RNA (oggetto biologico)
Il nucleotide (il “mattoncino” dell’RNA)
R
b
P
D: ribosio (zucchero pentoso)
P: gruppo fosfato
b: base azotata di quattro tipi:
- adenina (A)
- guanina (G)
- citosina (C)
uracile al posto della
- uracile (U)
timina (T)
L’RNA (dato informatico)
La sequenza primaria di un catena di RNA è
rappresentata tramite una stringa simboli appartenenti
all’alfabeto Σ={A,C,G,U}
L’RNA si trova in catene singole
La proteina
Una proteina è una sequenza di amminoacidi, e
dal punto di vista informatico, la sua sequenza
primaria è rappresentata come una stringa
definita su un alfabeto di 20 simboli.
Il sequenziamento
Il dato informatico viene prodotto tramite
sequenziamento, che significa:
è determinare la struttura primaria delle molecole biologiche
(DNA/RNA e proteine)
è sequenza delle basi {A,C,G,T|U} per DNA e RNA
è sequenza degli amminoacidi per le proteine
Glu
Ile
Phe
Thr
Val
His
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola
biologica?
è single-end read
DNA/RNA
GTTGTGCAGTGACGGA
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è paired-end read (o mate-pair)
insertion size
DNA/RNA
A
B
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è paired-end read (o mate-pair)
insertion size
DNA/RNA
A
B
A=B
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è paired-end read (o mate-pair)
insertion size
DNA/RNA
A
B
A=B
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
è paired-end read (o mate-pair)
insertion size
DNA/RNA
agttgcgt
A
agttgcgt
aatgcctg
B
gtccgtaa
A=B
Sanger VS Next-Generation
Sequencing
Metodo Sanger
Metodi Next-Generation Sequencing
ð Piuttosto costoso
(centinaia di milioni di
dollari per Human Genome
Project)
ð Poco costoso (attorno al
milione di dollari per
sequenziare il genoma
umano)
ð  Processa pochissimi
reads in un run (copertura
relativamente bassa)
ð  Processa tanti reads in
un run (milioni) (copertura
da 10 a 100 volte superiore
quella Sanger)
ð  Lunghezza dei reads fino
a 1000 bp
ð Reads relativamente corti
ð Qualità elevata
ð Qualità relativamente
bassa
Il sequenziamento
Attenzione agli errori di sequenziamento!!!
Inoltre, le stringhe che rappresentano DNA e RNA
sono in realtà definite su di un alfabeto esteso che
prende il nome di IUPAC code
IUPAC code per DNA
SIMBOLO
A
C
G
T
R
Y
M
K
W
S
B
D
H
V
N
DESCRIZIONE
Adenine
Cytosine
Guanine
Thymine
Purine (A or G)
Pyrimidine (C or T)
C or A
T, or G
T, or A
C or G
C, T or G (not A)
A, T or G (not C)
A, T or C (not G)
A, C or G (not T)
any base (A, C, G, T)
IUPAC code per RNA
SIMBOLO
A
C
G
U
R
Y
M
K
W
S
B
D
H
V
N
DESCRIZIONE
Adenine
Cytosine
Guanine
Uracil
Purine (A or G)
Pyrimidine (C or U)
C or A
U or G
U or A
C or G
C, U or G (not A)
A, U or G (not C)
A, U or C (not G)
A, C or G (not U)
any base (A, C, G or U)
Cos’è un gene?
Un gene è una regione (locus) di DNA genomico
che codifica proteine.
Cos’è un gene?
Un gene è una regione (locus) di DNA genomico
che codifica proteine.
La sequenza genomica di un gene è la sequenza
nucleotidica del locus di DNA del gene.
Cos’è un gene?
Un gene è una regione (locus) di DNA genomico
che codifica proteine.
La sequenza genomica di un gene è la sequenza
nucleotidica del locus di DNA del gene.
La sequenza genomica di
un gene è una sottostringa
di DNA genomico
Cos’è un gene?
Un gene è una regione (locus) di DNA genomico
che codifica proteine.
La sequenza genomica di un gene è la sequenza
nucleotidica del locus di DNA del gene; in genere
viene messa a disposizione in formato FASTA che:
ü 
ü 
ü 
ü 
è un formato di puro testo nato all’interno del software di
allineamento FASTA
è pensato per memorizzare una sequenza e qualche
informazione aggiuntiva
è un formato standard di input di molti tools di analisi di
sequenze
ha estensione *.fa oppure *.fasta
Formato FASTA (esempio)
>X dna:chromosome chromosome:GRCh38:X:154428632:154436516:1
GGGGGCAACGGTCACCTGATCTGCGGCTGTCGAGGCCGCTGAGGCAGTGGAGGCTGAGGC
TATGATGGCGGCCATGGCGACGGCTCGAGTGCGGATGGGGCCGCGGTGCGCCCAGGCGCT
CTGGCGCATGCCGTGGCTGCCGGTGTTTTTGTCGTTGGCGGCGGCGGCGGCGGCGGCAGC
GGCGGAGCAGCAGGTCCCGCTGGTGCTGTGGTCGAGTGACCGGTGAGCGGGCCGGGGTGG
GATGCGCTGTGGCGGCTGAGGCGCCCTCGCCCGACTCCGGCGCTGTCCTAGGCGAGGGGT
GGTGAGGCCCGGAGGTGGACTGTTCCTTGCTCGGGGGCTCGCAGCGAATCTGCCGGCGAC
AGAGCTCCAGTCCACATGCGCCCCCGTCTGACAGCACCTCTTCTGTGCCCTGCCAGGGAC
TTGTGGGCTCCTGCGGCCGACACTCATGAAGGCCACATCACCAGCGACTTGCAGCTCTCT
ACCTACTTAGATCCCGCCCTGGAGCTGGGTCCCAGGAATGTGCTGCTGTTCCTGCAGGAC
AAGGTGCGCCCGCCCCAGCCCACTCTCCCCCGGTCATCGGGAGGCAGCCAGGCCCCCTCC
CCCCATGACACTGACGCCCATTCCCCAAGGGAAGCTTCAGTGACCTTGTCCCAACTGTAG
GGAGGTGTGGGTCGTCTCATGGGAAGGCCTGTAGTAAACGCTTCAGTGGGCATGGCGACA
GCCTCGGAAATGGCACCAACTTGATTGGAGGAAGCGACGGACCAGAGGCCAGGTACCTAC
TGAGTACCAAGCACTTTGGATATCTGACTTAGTCCAATATGGTGGGTGGGGATTATCGTC
[…]
Cos’è un gene?
Un gene è una regione (locus) di DNA genomico
che codifica proteine.
Un gene viene identificato tramite il suo HUGO
NAME (http://www.genenames.org/)
Esempio di HUGO NAME: ATP6AP1
(ATPase, H+ transporting, lysosomal accessory
protein 1)
Cos’è un gene?
Un gene è una regione (locus) di DNA genomico
che codifica proteine.
Entrambe le catene di DNA genomico contengono
geni.
5’
3’
strand + (forward)
3’
strand - (reverse) 5’
Cos’è un gene?
Un gene è una regione (locus) di DNA genomico
che codifica proteine.
Entrambe le catene di DNA genomico contengono
geni.
5’
strand + (forward)
3’
3’
strand - (reverse) 5’
direzione di trascrizione
Espressione di un gene
DNA
5’
3’
3’
5’
Espressione di un gene
DNA
5’
3’
3’
5’
La barra verde rappresenta
la stringa di DNA del locus
genomico del gene
(sequenza genomica)
Espressione di un gene
5’
DNA
3’
exon 1
intron1
exon 2
intron2
exon 3
3’
5’
Espressione di un gene
5’
DNA
exon 1
intron1
exon 2
intron2
3’
exon 3
3’
5’
5’ splice site
3’ splice site
(confine esone-introne) (confine introne-esone)
Esone = regione codificante
Introne = regione non-codificante
Espressione di un gene
5’
DNA
exon 1
intron1
exon 2
intron2
exon 3
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
intron1
exon 2
intron2
exon 3
3’
Espressione di un gene
5’
DNA
exon 1
intron1
exon 2
intron2
exon 3
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
intron1
exon 2
intron2
exon 3
3’
Il pre-mRNA è una copia
della sequenza di DNA del
gene (a meno della
sostituzione di T con U)
Espressione di un gene
5’
DNA
exon 1
intron1
exon 2
intron2
exon 3
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
intron1
exon 2
intron2
exon 3
SPLICING
mRNA
exon 1
exon 2
exon 3
(trascritto)
3’
Espressione di un gene
5’
DNA
exon 1
intron1
exon 2
intron2
exon 3
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
intron1
exon 2
intron2
exon 3
SPLICING
mRNA
(trascritto)
3’
Espressione di un gene
5’
DNA
exon 1
intron1
exon 2
intron2
exon 3
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
intron1
exon 2
intron2
exon 3
SPLICING
mRNA
(trascritto)
CDS (coding sequence)
UAG
[stop] UAA
UGA
AUG………[stop]
3’
Espressione di un gene
5’
DNA
exon 1
intron1
exon 2
intron2
exon 3
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
intron1
exon 2
intron2
exon 3
SPLICING
mRNA
(trascritto)
CDS (coding sequence)
UAG
[stop] UAA
UGA
AUG………[stop]
start codon
stop codon
3’
Espressione di un gene
5’
DNA
exon 1
exon 2
intron1
intron2
exon 3
3’
3’
5’
TRASCRIZIONE
pre-mRNA
5’
exon 1
intron1
exon 2
intron2
exon 3
SPLICING
mRNA
(trascritto)
CDS (coding sequence)
UAG
[stop] UAA
UGA
AUG………[stop]
5’ UTR
3’ UTR
3’
Espressione di un gene
mRNA
CDS (coding sequence)
(trascritto)
AUGCCAAGCGAUUAG
Codice genetico da Wikipedia
Espressione di un gene
mRNA
CDS (coding sequence)
(trascritto)
AUGCCAAGCGAUUAG
Proteina:
Met
Codice genetico da Wikipedia
Espressione di un gene
mRNA
CDS (coding sequence)
(trascritto)
AUGCCAAGCGAUUAG
Proteina:
Met Pro
Codice genetico da Wikipedia
Espressione di un gene
mRNA
CDS (coding sequence)
(trascritto)
AUGCCAAGCGAUUAG
Proteina:
Met Pro Ser
Codice genetico da Wikipedia
Espressione di un gene
mRNA
CDS (coding sequence)
(trascritto)
AUGCCAAGCGAUUAG
Proteina:
Met Pro Ser Asp
Codice genetico da Wikipedia
Espressione di un gene
mRNA
CDS (coding sequence)
(trascritto)
AUGCCAAGCGAUUAG
Met Pro Ser Asp [stop]
Codice genetico da Wikipedia
Pattern di un introne
5’
exon 1
exon 2
3’
exon 3
Introne canonico
GT
99.24 %
AG
Introni non canonici
0.69 %
GC
AT
AG
0.05 %
ALTRO
Burset et al., Nucleic Acids Res. 2000, 28:4363-4375
AC
0.02 %
Alternative Splicing (AS)
Gene1
mRNAref
5’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
exon 1’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’’
intron retention
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
mRNA2
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon skipping
exon 3
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
mRNA2
mRNA3
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
5’ competing
exon 3
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene1
5’
mRNAref
mRNA1
mRNA2
mRNA3
mRNA4
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
exon 1
exon 3
exon 2
exon 3
exon 2
exon 3’
3’ competing
3’
Alternative Splicing (AS)
Gene2
mRNAref
5’
exon 1
exon 2
exon 3
exon 4
exon 1
exon 2
exon 3
exon 4
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
exon 4
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
exon 4
mutually exclusive exons
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
mRNA3
exon 1
exon 2
exon 4
exon 3
exon 4
multiple poly(A) sites
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
exon 1
exon 2
mRNA3
exon 1
exon 2
exon 3
exon 2
exon 3
mRNA4
exon 1
multiple promoters
exon 4
exon 4
exon 4
3’
Alternative Splicing (AS)
Gene2
5’
exon 1
exon 2
exon 3
exon 4
mRNAref
exon 1
exon 2
exon 3
exon 4
mRNA1
exon 1
exon 3
exon 4
mRNA2
mRNA3
mRNA4
Isoforma = uno dei trascritti (mRNA) che il
1
exon 2 (oppure una
gene è exon
in grado
di trascrivere
delle proteine che il gene è in grado di
esprimere)
exon 1
exon 1
exon 2
exon 3
exon 2
exon 3
multiple promoters
exon 4
exon 4
exon 4
3’
Dati importanti…
Dati fondamentali in Bioinformatica sono i dati
ottenuti dal sequenziamento di trascritto
(frammenti di trascritto) che prendono il nome di:
q  EST (Expressed Sequence Tag) se ottenuti
con metodo Sanger
q  RNA-seq se ottenuti tramite una delle
tecnologie NGS
EST vs RNA-seq
Metodo Sanger
Metodi NGS
ð Piuttosto costoso
(centinaia di milioni di
dollari per Human Genome
Project)
ð Poco costoso (attorno al
milione di dollari per
sequenziare il genoma
umano)
ð  Processa pochissimi
reads in un run (copertura
relativamente bassa)
ð  Processa tanti reads in
un run (milioni) (copertura
da 10 a 100 volte superiore
quella Sanger)
ð  Lunghezza dei reads fino
a 1000 bp
ð Reads relativamente corti
ð Qualità elevata
ð Qualità relativamente
bassa
EST vs RNA-seq
Metodo Sanger
Metodi NGS
ð Piuttosto costoso
(centinaia di milioni di
dollari perSequence
Human Tag
Genome
Expressed
(EST)
Project)
ð Poco costoso (attorno al
milione di dollari per
sequenziare il genoma
umano)
ð  Processa pochissimi
reads in un run (copertura
relativamente bassa)
ð  Processa tanti reads in
un run (milioni) (copertura
RNA-seq
da 10 a 100
volte superiore
quella Sanger)
ð  Lunghezza dei reads fino
a 1000 bp
ð Reads relativamente corti
ð Qualità elevata
ð Qualità relativamente
bassa
Risorse WEB in Bioinformatica
Quali risorse il WEB ci mette a
disposizione?
ü 
ü 
ü 
ü 
Banche dati genomiche
Sistemi integrati
Browser Genomici
Tools
Risorse WEB in Bioinformatica
Quali risorse il WEB ci mette a
disposizione?
ü 
ü 
ü 
ü 
Banche dati genomiche
Sistemi integrati
Browser Genomici
Tools
Banche dati genomiche
Scopo?
archiviare e diffondere i dati ottenuti da esperimenti
biologici
Quali “oggetti” sono contenuti?
ü 
ü 
ü 
ü 
ü 
Sequenze nucleotidiche (DNA, RNA)
ü  Geni
ü  Trascritti
ü  Expressed Sequence Tag (EST)
Proteine
SNPs (Single Nucleotide Polymorphism)
strutture proteiche 3D
e altro ancora…
Banche dati genomiche
… come risorsa di dati, hanno la
necessità di:
ü 
ü 
ü 
correlare dati diversi
ridurre la ridondanza dei dati
ridurre la non uniformità
ü 
ü 
stesso ID per lo stesso “oggetto”
stesso livello di qualità
In una parola: (necessità di) integrazione
Banche dati genomiche
ü 
ü 
Non è detto che siano DB relazionali
“Oggetto” contenuto = entry
ü 
ü 
identificata univocamente da un ID
entry = text file in un formato che sia:
ü 
ü 
ü 
ü 
human-readable
facile da trattare (parsing con Perl, Phyton, Ruby, etc.)
flessibile
Due tipi principali di banche:
ü 
primarie
ü 
ü 
oggetti di tipo eterogeneo archiviati con un minimo di
informazione (ad esempio sequenze nucleotidiche)
specializzate:
ü 
oggetti omogenei per tassonomia, funzione, etc. (ad
esempio frammenti di trascritto)
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
EMBL Data Bank
ü 
sviluppata da EMBL-EBI (European Bioinformatics Institute,
parte dell’European Molecular Biology Laboratory, EMBL)
ü 
formato entry file: EMBL
ü 
http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
EMBL Data Bank
ü 
sviluppata da EMBL-EBI (European Bioinformatics Institute,
parte dell’European Molecular Biology Laboratory, EMBL)
ü 
formato entry file: EMBL
ü 
http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/
GenBank
ü 
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
ü 
formato entry file: GenBank
ü 
http://www.ncbi.nlm.nih.gov/Genbank/index.html
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
DDBJ DNA Data Bank of Japan
ü 
sviluppata dal National Institute of Genetics in Mishima
ü 
formato entry file: GenBank
ü 
http://www.ddbj.nig.ac.jp/
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
DDBJ DNA Data Bank of Japan
ü 
sviluppata dal National Institute of Genetics in Mishima
ü 
formato entry file: GenBank
ü 
http://www.ddbj.nig.ac.jp/
L’ID univoco che identifica le sequenze all’interno di
queste banche prende il nome di Accession Number
Banche dati genomiche
Le “storiche” banche primarie di sequenze nucleotidiche
sono:
DDBJ DNA Data Bank of Japan
ü 
sviluppata dal National Institute of Genetics in Mishima
ü 
formato entry file: GenBank
ü 
http://www.ddbj.nig.ac.jp/
Banche dati genomiche
Esercizio
q 
Recuperare la sequenza con Accession Number M10051 da
EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in
formato EMBL che in formato FASTA
Banche dati genomiche
Esercizio
þ 
q 
Recuperare la sequenza con Accession Number M10051 da
EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in
formato EMBL che in formato FASTA
Recuperare la sequenza con Accession Number M10051 da
GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html)
Banche dati genomiche
Esercizio
q 
þ 
q 
Recuperare la sequenza con Accession Number M10051 da
EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/); scaricarla sia in
formato EMBL che in formato FASTA
Recuperare la sequenza con Accession Number M10051 da
GenBank (http://www.ncbi.nlm.nih.gov/Genbank/index.html)
Recuperare la sequenza con Accession Number M10051 da
DDBJ (http://www.ddbj.nig.ac.jp/)
Banche dati genomiche
Una delle banche principali di sequenze proteiche è:
UniProt
ü 
fusione di SwissProt + TrEMBL + PIR
ü 
sviluppata da un consorzio di:
ü  EMBL-EBI
ü  PIR (Protein Information Resource)
ü  SIB (Swiss Institute of Bioinformatics)
ü 
http://www.uniprot.org/
Banche dati genomiche
Una delle banche principali di sequenze proteiche è:
UniProt
ü 
fusione di SwissProt + TrEMBL + PIR
ü 
sviluppata da un consorzio di:
ü  EMBL-EBI
ü  PIR (Protein Information Resource)
ü  SIB (Swiss Institute of Bioinformatics)
ü 
http://www.uniprot.org/
L’ID univoco che identifica le sequenze all’interno di
queste banche prende il nome di Accession Number
Banche dati genomiche
Esercizio
q 
q 
Recuperare da UniProt la proteina con Accession Number
P63104 (http://www.uniprot.org/)
Individuare lo HUGO NAME del gene che codifica tale proteina
Banche dati genomiche
Esercizio
q 
q 
Recuperare da UniProt la proteina con Accession Number
P63104 (http://www.uniprot.org/)
Individuare lo HUGO NAME del gene che codifica tale proteina
Il gene è YWHAZ
Banche dati genomiche
Esercizio
þ 
þ 
q 
q 
Recuperare da UniProt la proteina con Accession Number
P63104 (http://www.uniprot.org/)
Individuare lo HUGO NAME del gene che codifica tale proteina
Individuare le isoforme del gene e scaricare la loro sequenza di
amminoacidi in formato FASTA
Usare BLAST (Basic Local Alignment Search Tool) per cercare
in UniProt le proteine simili
Banche dati genomiche
Banche specializzate:
UniGene
ü 
banca di trascritti (EST e mRNA)
ü 
mette a disposizione i trascritti raggruppati per gene e per
organismo (cluster)
ü 
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
ü 
formato entry file: FASTA
ü 
http://www.ncbi.nlm.nih.gov/unigene
Banche dati genomiche
Banche specializzate:
dbEST
ü 
ü 
ü 
banca di sequenze EST
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
http://www.ncbi.nlm.nih.gov/dbEST
Banche dati genomiche
Banche specializzate:
dbEST
ü 
ü 
ü 
banca di sequenze EST
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
http://www.ncbi.nlm.nih.gov/dbEST
RefSeq
ü 
ü 
ü 
banca di sequenze annotate (genomi, cromosomi, mRNA e
proteine)
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
http://www.ncbi.nlm.nih.gov/RefSeq
Banche dati genomiche
Esercizio
q 
Cercare i clusters UniGene associati al gene con HUGO NAME
ATP6AP1 e scaricare il cluster relativo all’uomo
(http://www.ncbi.nlm.nih.gov/unigene)
NB: I clusters UniGene hanno un identificatore univoco del tipo [org].
[dd], dove [org] è un codice a due lettere che specifica l’organismo
(ad esempio, Hs per uomo, Mm per topo, Rn per ratto, etc.), e [dd] è
una stringa di cifre 0-9. Ad esempio Hs.465744 è l’identificatore del
cluster relativo al gene umano INSR
Banche dati genomiche
Esercizio
þ 
q 
Cercare i clusters UniGene associati al gene con HUGO NAME
ATP6AP1 e scaricare il cluster relativo all’uomo
(http://www.ncbi.nlm.nih.gov/unigene)
Estrarre l’identificatore gb (GenBank ID), la lunghezza e
l’orientamento della prima sequenza EST presente in tale cluster
NB: Il GenBank ID di una sequenza in un cluster UniGene è ricavabile
dall’header FASTA nel campo /gb=XXXXX
La lunghezza L di una sequenza in un cluster UniGene è ricavabile
dall’header FASTA nel campo /len=L
L’orientamento di una sequenza in un cluster UniGene è ricavabile
dall’header FASTA nel campo /clone_end=[5’|3’] (5’ significa che la
sequenza è orientata 3’5’, e 3’ significa che la sequenza è orientata 5’3’.
Banche dati genomiche
Esercizio
þ 
þ 
q 
Cercare i clusters UniGene associati al gene con HUGO NAME
ATP6AP1 e scaricare il cluster relativo all’uomo
(http://www.ncbi.nlm.nih.gov/unigene)
Estrarre l’identificatore gb (GenBank ID), la lunghezza e
l’orientamento della prima sequenza EST presente in tale cluster
Eseguire una nuova interrogazione di UniGene, inserendo il
GenBank ID dell’EST trovato al punto precedente
Banche dati genomiche
Esercizio
þ 
þ 
q 
q 
Cercare i clusters UniGene associati al gene con HUGO NAME
ATP6AP1 e scaricare il cluster relativo all’uomo
(http://www.ncbi.nlm.nih.gov/unigene)
Estrarre l’identificatore gb (GenBank ID), la lunghezza e
l’orientamento della prima sequenza EST presente in tale cluster
Eseguire una nuova interrogazione di UniGene, inserendo il
GenBank ID dell’EST trovato al punto precedente
Cercare lo stesso GenBank ID nella banca dati dbEST
(http://www.ncbi.nlm.nih.gov/dbEST)
Banche dati genomiche
Esercizio
þ 
þ 
q 
þ 
q 
Cercare i clusters UniGene associati al gene con HUGO NAME
ATP6AP1 e scaricare il cluster relativo all’uomo
(http://www.ncbi.nlm.nih.gov/unigene)
Estrarre l’identificatore gb (GenBank ID), la lunghezza e
l’orientamento della prima sequenza EST presente in tale cluster
Eseguire una nuova interrogazione di UniGene, inserendo il
GenBank ID dell’EST trovato al punto precedente
Cercare lo stesso GenBank ID nella banca dati dbEST
(http://www.ncbi.nlm.nih.gov/dbEST)
Cercare nel cluster UniGene appena scaricato, gli mRNA che
appartengono anche alla banca RefSeq
(http://www.ncbi.nlm.nih.gov/RefSeq)
NB: Il GenBank ID di sequenze che sono mRNA provenienti dalla banca
RefSeq, inizia con NM_
Banche dati genomiche
Esercizio
þ 
þ 
q 
þ 
þ 
q 
Cercare i clusters UniGene associati al gene con HUGO NAME
ATP6AP1 e scaricare il cluster relativo all’uomo
(http://www.ncbi.nlm.nih.gov/unigene)
Estrarre l’identificatore gb (GenBank ID), la lunghezza e
l’orientamento della prima sequenza EST presente in tale cluster
Eseguire una nuova interrogazione di UniGene, inserendo il
GenBank ID dell’EST trovato al punto precedente
Cercare lo stesso GenBank ID nella banca dati dbEST
(http://www.ncbi.nlm.nih.gov/dbEST)
Cercare nel cluster UniGene appena scaricato, gli mRNA che
appartengono anche alla banca RefSeq
(http://www.ncbi.nlm.nih.gov/RefSeq)
Cercare uno di tali mRNA sia in dbEST che in RefSeq
Banche Dati Biologiche
Altre banche specializzate:
Entrez Gene
ü 
banca di geni
ü 
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
ü 
http://www.ncbi.nlm.nih.gov/gene/
dbSNP
ü 
banca di SNPs (Single Polymorphism Nucleotide)
ü 
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
ü 
http://www.ncbi.nlm.nih.gov/SNP/
Banche Dati Biologiche
Altre banche specializzate:
UTRdb
ü 
ü 
ü 
banca di regioni UTR in mRNA di organismi eucarioti
sviluppata da ITB-CNR di Bari (Istituto di Tecnologie
Biomediche del CNR)
http://utrdb.ba.itb.cnr.it
Banche Dati Biologiche
Altre banche specializzate:
PubMed
ü 
banca di riferimenti bibliografici
ü 
sviluppata da NCBI (National Center for Biotechnology
Information, USA)
ü 
http://www.ncbi.nlm.nih.gov/pubmed
PDB (Protein Data Bank)
ü 
banca di strutture proteiche 3D
ü 
http://www.rcsb.org/pdb/
Sistemi integrati
Sistemi per interrogare contemporaneamente più
banche dati.
SRS
ü 
ü 
sviluppato EMBL-EBI (European Bioinformatics Institute)
http://srs.ebi.ac.uk
Entrez
ü 
ü 
sviluppato da NCBI (National Center for Biotechnology
Information, USA)
http://www.ncbi.nlm.nih.gov/gquery
Sistemi integrati
Esercizio
¨ 
q 
Usare Entrez per ottenere la sequenza nucleotidica con
Accession Number M10051
(http://www.ncbi.nlm.nih.gov/gquery)
Usare Entrez per ottenere tutte le risorse in cui presente
l’mRNA con GenBank ID NM_012089 (del gene umano
ABCB10) e l’EST con GenBank ID AW369172.