Banche dati biologiche

Bioinformatica
(3) Banche dati biologiche
Dott. Alessandro Laganà
Banche dati biologiche
 
 
 
 
 
 
Organismi e sequenze biologiche
Rappresentazione digitale dei dati biologici e formati
Banche dati generiche: NCBI, EMBL, DDBJ
NCBI: Entrez, Nucleotide, Gene, Protein
BLAST
Pubmed
2
Bioinformatica (3): Banche dati biologiche
29-03-2010
Gli organismi viventi: classificazione
 
 
 
3
Nelle scienze biologiche la classificazione è un concetto
che si riferisce alle modalità con le quali i biologi
raggruppano e categorizzano gli organismi viventi.
La filogenesi è il processo evolutivo degli organismi
viventi dalla loro comparsa sulla terra a oggi
La classificazione filogenetica è un sistema artificiale
che consente di identificare i gruppi tassonomici degli
organismi viventi sulla base dei loro rapporti evolutivi
Bioinformatica (3): Banche dati biologiche
29-03-2010
Gli organismi viventi: classificazione
 
 
4
La moderna classificazione scientifica è il frutto della
categorizzazione operata da Linneo e riletta secondo le
teorie di Darwin
Col sistema linneano ogni organismo viene posizionato,
mediante una scala gerarchica, in una serie di gruppi
tassonomici, detti taxa (taxon al singolare). Le
suddivisioni principali, dal più generico al più specifico,
sono: Dominio, Regno, Phylum, Classe, Ordine, Famiglia,
Genere e Specie.
Bioinformatica (3): Banche dati biologiche
29-03-2010
Classificazione: esempi
Drosophila
melanogaster
(moscerino della
frutta)
Dominio
5
Eukaryota
Homo sapiens
Dominio
Eukaryota
Regno
Animalia
Regno
Animalia
Phylum
Chordata
Phylum
Arthropoda
Classe
Mammalia
Classe
Insecta
Ordine
Primates
Ordine
Diptera
Famiglia
Drosophilidae
Genere
Drosophila
Specie
melanogaster
Famiglia
Hominidae
Genere
Homo
Specie
sapiens
Bioinformatica (3): Banche dati biologiche
29-03-2010
Organismi: nomenclatura
 
 
La nomenclatura binomiale è una convenzione
standard utilizzata in biologia per conferire il nome ad una
specie.
Il nome scientifico di una specie viene coniato dalla
combinazione di due nomi:
 
 
 
6
il nome del genere a cui appartiene la specie
un epiteto che caratterizza e distingue quella specie dalle altre
appartenenti a quel genere.
Il primo termine (nome generico) porta sempre l' iniziale
maiuscola, mentre il secondo termine (nome specifico)
viene scritto in minuscolo; entrambi i nomi vanno inoltre
scritti in corsivo
Bioinformatica (3): Banche dati biologiche
29-03-2010
Nomenclatura: esempi
Genere
Specie
Nome comune
Apis
mellifera
Ape
Arabidopsis
thaliana
Arabetta comune
Bombyx
mori
Baco da seta
Bos
taurus
Toro
Canis
familiaris
Cane domestico
Drosophila
melanogaster
Moscerino della frutta
Gallus
gallus
Gallo
Homo
sapiens
Uomo
Macaca
mulatta
Macaco
Mus
musculus
Topo
Ovis
aries
Pecora
Pan
troglodytes
Scimpanzè
Rattus
norvegicus
Ratto
Zea
mays
Mais
7
Bioinformatica (3): Banche dati biologiche
29-03-2010
I Geni
Il gene è l’unità ereditaria e funzionale degli organismi viventi;
ad esso sono associate molteplici informazioni:
 
Analisi
Filogenetica
Struttura
Sequenze omologhe
in altri genomi
Sequenza
8
Proteina
(Funzione)
Localizzazione
genomica
Bioinformatica (3): Banche dati biologiche
29-03-2010
Le sequenze biologiche
 
 
9
Le sequenze nucleotidiche vengono rappresentate
mediante stringhe su un alfabeto di 4 caratteri (A, C, G,
T), nelle quali ciascun carattere rappresenta un singolo
nucleotide.
Analogamente le sequenze proteiche (o aminoacidiche)
vengono rappresentate mediante stringhe su un alfabeto
di 20 caratteri, ciascuno dei quali rappresenta un singolo
aminoacido.
Bioinformatica (3): Banche dati biologiche
29-03-2010
L’alfabeto di DNA e RNA
DNA
A
Adenina
C
Citosina
G
Guanina
T
Timina
RNA
A
Adenina
C
Citosina
G
Guanina
U
Uracile
L’alfabeto delle proteine
A
Alanina
C
Cisteina
D
Acido Aspartico
E
Acido Glutammico
F
Fenilalanina
G
Glicina
H
Istidina
I
Isoleucina
K
Lisina
L
Leucina
M
Metionina
N
Asparagina
P
Prolina
Q
Glutammina
R
Arginina
S
Serina
T
Treonina
Y
Tirosina
V
Valina
W Triptofano
Lo Standard IUB/IUPAC
Acidi Nucleici
A
Adenina
R
G o A (Purine)
B
GT C
C
Citosina
Y
T o C (Pirimidine)
D
GAT
G
Guanina
K
G oT
H
A CT
T
Timina
M
AoC
V
G CA
U
Uracile
W
A oT
N
A C G T (Any)
-
Gap
Aminoacidi
A
Alanina
B
Acido Aspartico o Asparagina
C
Cisteina
D
Acido Aspartico
E
Acido Glutammico
F
Fenilalanina
G
Glicina
H
Istidina
I
Isoleucina
K
Lisina
L
Leucina
M
Metionina
N
Asparagina
P
Prolina
Q
Glutammina
R
Arginina
S
Serina
T
Treonina
U
Selenocisteina
V
Valina
W
Triptofano
Y
Tirosina
Z
Acido Glutammico o Glutammina
X
Qualsiasi (Any)
Stop traduzione
-
Gap
*
12
Bioinformatica (3): Banche dati biologiche
29-03-2010
Outline
 
 
 
 
 
 
Organismi e sequenze biologiche
Rappresentazione digitale dei dati biologici e formati
Banche dati generiche: NCBI, EMBL, DDBJ
NCBI: Entrez, Nucleotide, Gene, Protein
BLAST
Pubmed
13
Bioinformatica (3): Banche dati biologiche
29-03-2010
Motivazioni
 
 
 
Lo sviluppo delle biotecnologie molecolari ha portato alla
produzione di enormi quantità di dati biologici.
Le banche dati sono progettate come contenitori costruiti
per immagazzinare dati in modo efficiente e razionale al fine
di renderli facilmente accessibili a tutti gli utenti: ricercatori,
medici, biologi, studenti, etc. . .
Il fine ultimo è quello di recuperare ed analizzare questi dati
mediante gli appositi tool di cui ciascun database dispone.
14
Bioinformatica (3): Banche dati biologiche
29-03-2010
I Database Biologici
 
Numerose sono oggi le banche dati biologiche esistenti:
 
 
Banche dati primarie (sequenze nucleotidiche e aminoacidiche)
Banche dati specializzate (domini e motivi proteici, strutture
proteiche, geni, trascrittoma, profili di espressione, pathways
metaboliche, etc)
15
Bioinformatica (3): Banche dati biologiche
29-03-2010
Organizzazione delle banche dati
 
Le banche dati biologiche raccolgono informazioni e dati
derivati da:
 
 
 
 
Letteratura;
Analisi di laboratorio (in vitro e in vivo);
Analisi bioinformatiche (in silico).
Ogni banca dati è caratterizzata da un elemento biologico
centrale che costituisce l’oggetto intorno al quale viene
costruita la entry principale della banca dati.
16
Bioinformatica (3): Banche dati biologiche
29-03-2010
Organizzazione delle banche dati (2)
 
 
 
Ciascuna entry raccoglie quindi le informazioni che caratterizzano
l’elemento centrale (attributi).
Molte banche dati biologiche sono fruibili da parte della comunità
scientifica in formato flat-file, cioè file sequenziali nei quali ogni
classe di informazione è riportata su una o più linee consecutive
identificate da un particolare codice.
Tali file sono dunque semplici file di testo strutturati in modo tale
da essere analizzabili mediante opportuni tool in grado di estrarre
le informazioni di interesse.
17
Bioinformatica (3): Banche dati biologiche
29-03-2010
Database e tool bionformatici
 
La maggior parte delle banche dati mettono a disposizione
dei tool bioinformatici per l’elaborazione di questi dati, tra i
quali:
 
 
 
Tool per lo screening di banche dati (BLAST, FASTA);
Tool per l’allineamento multiplo di sequenze (ClustalW,
AntiClustAl, T-Coffee, ProbCons …);
Tool per l’identificazione di esoni ed elementi regolativi che
caratterizzano un gene – Gene and Promoter Prediction (GenScan,
Promoser, … );
18
Bioinformatica (3): Banche dati biologiche
29-03-2010
Il problema della nomenclatura
 
 
 
Uno dei principali problemi legati alle banche dati biologiche
è quello della nomenclatura.
Uno stesso gene può avere diversi nomi (Es. TRF2 è anche
noto come TLP o TLF), o uno stesso nome può individuare
diversi geni (Es. TRF sta per TBP Related Factor ma anche
per Transferrina o ancora per Telomeric Repeat Binding
Factor).
Occorre quindi un modo per individuare univocamente i
geni e le proteine, e per gestire la grande quantità di
informazioni ad essi legate: nelle banche dati primarie ogni
elemento (gene, sequenza, etc) è individuato univocamente
da un accession number.
19
Bioinformatica (3): Banche dati biologiche
29-03-2010
Outline
 
 
 
 
 
 
Organismi e sequenze biologiche
Rappresentazione digitale dei dati biologici e formati
Banche dati generiche: NCBI, EMBL, DDBJ
NCBI: Entrez, Nucleotide, Gene, Protein
BLAST
Pubmed
20
Bioinformatica (3): Banche dati biologiche
29-03-2010
Banche dati primarie
 
 
Le banche dati primarie contengono sequenze nucleotidiche
(DNA e RNA) e aminoacidiche (proteine).
Esistono tre banche dati primarie:
 
 
 
 
GenBank (NCBI – National Center for Biotechnology Information).
EMBL datalibrary (EMBL – European Molecular Biology Laboratory).
DDBJ (DNA Database of Japan)
Questi istituti cooperano tra loro al fine di condividere e
rendere pubblicamente disponibili tutti i dati di cui dispongono
e differiscono tra loro solamente per il formato con cui tali
dati vengono rilasciati.
21
Bioinformatica (3): Banche dati biologiche
29-03-2010
Outline
 
 
 
 
 
 
Organismi e sequenze biologiche
Rappresentazione digitale dei dati biologici e formati
Banche dati generiche: NCBI, EMBL, DDBJ
NCBI: Entrez, Nucleotide, Gene, Protein
BLAST
Pubmed
22
Bioinformatica (3): Banche dati biologiche
29-03-2010
NCBI
 
 
NCBI (National Center for Biotechnology Information) è
l’istituto americano che ospita GenBank, una delle tre banche
dati
primarie
di
sequenze
nucleotidiche
(
http://www.ncbi.nlm.nih.gov).
NCBI offre anche svariati strumenti per l’analisi di dati
biologici tra cui BLAST, un tool che permette di effettuare
ricerche per similarità nei database di sequenze.
23
Bioinformatica (3): Banche dati biologiche
29-03-2010
I principali DB di NCBI
 
Gene
 
 
Nucleotide
 
 
Contiene le sequenze nucleotidiche di tutte le specie caratterizzate,
siano esse codificanti o meno.
Protein
 
 
Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la
struttura genica ed il contesto genomico, le ontologie, le interazioni con
altri geni ed i link alle sequenze ed alla relative pubblicazioni scientifiche.
Ha la stessa struttura di Nucleotide ma è relativo alle sequenze
aminoacidiche.
Pubmed
 
24
E’ il database delle pubblicazioni scientifiche di carattere biologico e
biomedico. Per ogni articolo è disponibile l’abstract. Pubmed Central
contiene articoli completi scaricabili gratuitamente.
Bioinformatica (3): Banche dati biologiche
29-03-2010
Entrez
25
Bioinformatica (3): Banche dati biologiche
29-03-2010
Esempio di ricerca: BAX
 
Ricerchiamo i dati relativi al gene BAX in Homo sapiens utilizzando Entrez:
Esempio: BAX – Database: Gene
Esempio: BAX su Gene
 
Informazioni generali
 
 
 
28
La prima parte della pagina contiene il simbolo (BAX) ed il nome ufficiale
del gene (BCL2-associated X protein).
Vengono specificati il tipo di gene (Protein coding – codificante per
proteina), l’organismo (Homo sapiens) e la tassonomia (lineage).
Viene inoltre data una panoramica sulle funzioni principali del gene
(summary).
Bioinformatica (3): Banche dati biologiche
29-03-2010
Esempio: BAX su Gene
 
Regioni genomiche, trascritti e prodotti
 
 
 
 
 
 
 
29
In questa sezione viene mostrato il grafico della struttura del gene.
Ogni riga rappresenta una variante di splicing (le varianti differiscono nel
numero e nelle dimensioni degli esoni, indicati da rettangolini, gli introni
sono rappresentati dalle linee sottili).
I rettangolini (esoni) possono essere rossi (codificanti) o blu (non
codificanti: UTR).
A sinistra di ogni isoforma è presente il link alla sequenza nucleotidica
dell’mRNA maturo relativo.
A destra di ogni isoforma è presenta il link alla sequenza della proteina
corrispondente.
In alto è presente il link alla sequenza completa del gene (UTR, esoni ed
introni).
E’ possibile cliccare sui singoli elementi della figura per ottenere la
sequenza relativa.
Bioinformatica (3): Banche dati biologiche
29-03-2010
Esempio: BAX su Gene
 
Contesto genomico
 
 
 
 
Interazioni con HIV ed altre proteine cellulari
 
 
 
Il grafico del contesto genomico mostra la regione genomica che contiene il gene
ed i geni limitrofi.
Le frecce indicano il filamento (destra: senso, sinistra: antisenso).
In questo caso BAX si trova sul filamento senso.
In una sezione successiva sono mostrate le interazioni della proteina BAX con
HIV.
Segue la lista delle interazioni note di BAX con tutte le proteine cellulari.
Altre informazioni
 
30
Di seguito sono riportati i fenotipi patologici correlati a BAX (Colorectal cancer
e T-cell acute lymphoblastic leukemia), i link alle pathway in cui BAX è coinvolto
(Database KEGG) e le annotazioni ontologiche di BAX (Processi, funzioni e
localizzazione cellulare).
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
Selezionando nella tendina in alto (Display) la voce Gene
Table, si ottiene la tabella numerica con le informazioni
sulla struttura del gene.
31
Bioinformatica (3): Banche dati biologiche
29-03-2010
Esempio: BAX su Nucleotide
 
 
Cliccando sui link a sinistra delle isoforme, nella struttura genica, si può
ottenere direttamente la sequenza dell’mRNA (In formato Fasta) o la
pagina di Genbank relativa a BAX (Database Nucleotide).
GenBank – Informazioni generali
 
 
 
Vengono dati dettagli sulle regioni della sequenza
 
 
Tra le informazioni più rilevanti troviamo il LOCUS (NM_138764), ovvero il
codice identificativo univoco della sequenza, la lunghezza della sequenza (986 bp
– base pairs) ed il tipo di sequenza (mRNA).
Segue la lista delle pubblicazioni relative a BAX.
La sequenza codificante (CDS) è compresa tra 70 e 564. Ciò significa che le
sequenze 5’ UTR e 3’UTR andranno rispettivamente da 1 a 69 e da 565 a 986.
In fondo alla pagina viene riportata la sequenza nucleotidica, alla quale si
può accedere anche in formato FASTA cliccando sul link corrispondente
nella stessa pagina, in alto.
32
Bioinformatica (3): Banche dati biologiche
29-03-2010
Esempio: BAX su Protein
 
 
Cliccando sui link a destra delle isoforme, nella struttura
genica, si può ottenere direttamente la sequenza della proteina
(In formato Fasta) o la pagina di GenPept relativa a BAX
(Database Proteine).
GenPept – Informazioni generali
 
 
 
Tra le informazioni più rilevanti troviamo il LOCUS (NP_620119),
ovvero il codice identificativo univoco della sequenza e la lunghezza della
sequenza (164 aa – aminoacidi).
Segue la lista delle pubblicazioni relative a BAX.
In fondo alla pagina viene riportata la sequenza aminoacidica,
alla quale si può accedere anche in formato FASTA cliccando
sul link corrispondente nella stessa pagina, in alto.
33
Bioinformatica (3): Banche dati biologiche
29-03-2010
Outline
 
 
 
 
 
 
Organismi e sequenze biologiche
Rappresentazione digitale dei dati biologici e formati
Banche dati generiche: NCBI, EMBL, DDBJ
NCBI: Entrez, Nucleotide, Gene, Protein
BLAST
Pubmed
34
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
 
 
 
Una delle operazioni più comuni ed utili su una base di
dati biologica è la ricerca di sequenze simili ad una
sequenza data in input.
Il tool più popolare per questo tipo di ricerche è BLAST
(Basic Local Alignment Search Tool).
BLAST esegue confronti fra coppie di sequenze alla
ricerca di regioni di similarità, piuttosto che un
allineamento globale tra le intere sequenze.
BLAST può eseguire migliaia di confronti fra sequenze in
pochi minuti e in poco tempo è possibile confrontare una
sequenza query con l’intero database per ricercare tutte
le sequenze simili ad essa.
35
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
L’implementazione ufficiale dell’algoritmo BLAST si trova sul sito
dell’NCBI:
http://www.ncbi.nlm.nih.gov/BLAST
 
Sono disponibili numerosi tipi di BLAST; quelli
concentreremo la nostra attenzione sono:
 
 
 
 
su
cui
BLASTN (Nucleotidi – Nucleotidi);
BLASTP (Proteine - Proteine);
TBLASTN (Translated BLAST Nucleotide);
BL2SEQ (Blast 2 sequences).
36
Bioinformatica (3): Banche dati biologiche
29-03-2010
- Selezioniamo nucleotide blast
- Inseriamo la sequenza (o
scegliamo un file da uploadare)
- Scegliamo database e organismo
- Scegliamo il programma (blastn)
37
Bioinformatica (3): Banche dati biologiche
29-03-2010
E’ possibile utilizzare un filtro
per mascherare segmenti a
bassa complessità
composizionale, ovvero il cui
matching avrebbe scarso
significato biologico.
E’ possibile cambiare la
soglia di significanza
statistica. Ogni match
trovato ha un valore di
significanza statistica, che
indica quanto è
statisticamente probabile
che quel match sia casuale.
E’ possibile variare la soglia così che matches con significanza maggiore della soglia impostata non vengano
visualizzati. Abbassando la soglia avremo in output un minor numero di matches ma più significativi, avendo
eliminato tutti quei matches che hanno un’alta probabilità di essere casuali.
38
Bioinformatica (3): Banche dati biologiche
29-03-2010
E’ anche possibile
cambiare la dimensione
delle word della query
che BLAST va a
ricercare nel database
(la minima lunghezza
che rappresenta un
match). Il valore di
default per le sequenze
nucleotidiche è 11, per
quelle proteiche 3.
39
Bioinformatica (3): Banche dati biologiche
29-03-2010
Una volta settati i parametri, cliccando prima su BLAST e
successivamente su FORMAT si ottiene il risultato della ricerca:
40
Bioinformatica (3): Banche dati biologiche
29-03-2010
BLAST fornisce in output la distribuzione dei matches trovati, assegnando a colori
diversi i diversi scores: ovviamente uno score maggiore indica un match più
significativo. Cliccando sulle barre colorate si ottiene l’allineamento corrispondente.
41
Bioinformatica (3): Banche dati biologiche
29-03-2010
L’allineamento migliore mostra un match del 100%: abbiamo
ritrovato lo stesso BCL2 nel database.
Abbiamo il link alla sequenza trovata ed alla pagina corrispondente
in Gene.
Un trattino indica il match dei caratteri delle due sequenze.
42
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
L’assenza del trattino invece indica un mismatch:
43
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
 
 
BLASTP è la versione di BLAST per le proteine. Funziona
esattamente come la versione per le sequenze
nucleotidiche.
TBLASTN confronta la proteina query con il database di
sequenze nucleotidiche; per effettuare questo tipo di
confronto viene utilizzato un database contenente tutte le
sequenze nucleotidiche tradotte in sequenze aminoacidiche
secondo tutte le possibili ORF, che sono 6 (3 per ciascun
filamento). Queste vengono confrontate con la proteina
query.
I parametri sono essenzialmente gli stessi visti per BLASTN.
44
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
Blast2Seq è un tool della famiglia BLAST che permette di eseguire
l’allineamento di una coppia di sequenze utilizzando l’algoritmo di
allineamento locale di BLAST.
45
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
Diamo in input la
sequenza della
proteina TBP
dell’uomo e
quella di TBP della
Drosophila:
46
Bioinformatica (3): Banche dati biologiche
29-03-2010
Blast2Seq: Risultati
47
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
La figura Dot Matrix mette
in evidenza i segmenti
allineati: in questo caso
sono state allineate le
parti C-terminali delle
due sequenze, con
identità pari all’89% (Il
famoso “dominio a sella”
mediante il quale TBP
interagisce con il DNA e
che risulta altamente
conservato rispetto al
resto della sequenza).
48
Bioinformatica (3): Banche dati biologiche
29-03-2010
 
Ricercare i seguenti geni, e le relative proteine, su NCBI o Ensembl e
blastare le sequenze ottenute per cercare eventuali omologie
all’interno della stessa specie (geni paraloghi) o in specie diverse
(geni ortologhi):
DIABLO in Drosophila melanogaster
MAGED2 in Homo sapiens
MAGED4 in Homo sapiens
P53 in Homo sapiens
P73 in Homo sapiens
BCL2 in Homo sapiens
• 
• 
• 
• 
• 
• 
49
Bioinformatica (3): Banche dati biologiche
29-03-2010
Outline
 
 
 
 
 
 
Organismi e sequenze biologiche
Rappresentazione digitale dei dati biologici e formati
Banche dati generiche: NCBI, EMBL, DDBJ
NCBI: Entrez, Nucleotide, Gene, Protein
BLAST
Pubmed
50
Bioinformatica (3): Banche dati biologiche
29-03-2010
PubMed
 
 
 
 
 
PubMed e’ una banca dati che permette di ottenere
informazioni di tipo bibliografico nel campo della medicina e
altre discipline di tipo biologico e naturalistico
Il database contiene i riferimenti bibliografici a partire dagli anni
’50 e viene aggiornato giornalmente
Gli articoli provengono da riviste scientifiche di tutto il mondo
ma la maggior parte delle voci sono in lingua inglese o hanno
almeno il riassunto in inglese
L’accesso al testo completo degli articoli può essere gratuito o a
pagamento a seconda della casa editrice
PubMed è accessibile al seguente indirizzo:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
51
Bioinformatica (3): Banche dati biologiche
29-03-2010
PubMed
52
Bioinformatica (3): Banche dati biologiche
29-03-2010
Risultati di una ricerca in PubMed
 
 
Avviando una ricerca in PubMed viene mostrata una lista con i riferimenti
bibliografici, in forma di semplici citazioni elencate in ordine cronologico di
immissione nella banca dati con in testa i dati più recenti.
Accanto ad ogni citazione compare un’icona che segnala la presenza/assenza
dell’abstract e/o del full text:
 
 
 
 
53
foglietto vuoto: citazione priva di abstract;
foglietto scritto: citazione con abstract;
foglietto evidenziato in verde: citazione con link al sito dell’editore, che offre
gratuitamente il full text;
foglietto evidenziato in arancio e verde: citazione con full text disponibile
nell'archivio centrale di PubMed.
Bioinformatica (3): Banche dati biologiche
29-03-2010
Risultati di una ricerca in PubMed
54
Bioinformatica (3): Banche dati biologiche
29-03-2010
L'uso dei limiti in PubMed
55
Bioinformatica (3): Banche dati biologiche
29-03-2010