Bionformatica
Banche dati biologiche
Metodologie bio-computazionali
NBRF (1970)
Programmi per la ricerca di similarità delle
sequenze (BLAST e FASTA
EMBL (1980), GenBank e
DDBJ (1986)
Studi di evoluzione molecolare
PROSITE, EPD (1985)
PDB (Protein Data Bank)
Predizioni di strutture di RNA
Predizioni di strutture secondarie
proteiche
Sistemi di interrogazione:
SRS
Entrez
Predizioni di strutture tridimensionali
proteiche
La bioinformatica
Nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche e
cominciò a nascere l’esigenza di avere a disposizione sistemi informatici per
l’archiviazione e l’analisi di dati di sequenza che sono state prodotte nel futuro
in grande quantità.
Compiti della bioinformatica:
1) Mettere a punto dei sistemi idonei per collezionare ed interrogare l’enorme mole
di dati biologici.
2) Progettazione, implementazione ed applicazione di metodi matematico-statistici
rivolti
- alla caratterizzazione funzionale delle sequenza biologiche,
- a studi di evoluzione molecolare
- a studi strutturali degli acidi nucleici e delle proteine.
Tre pacchetti per analizzare i dati:
Genetic
Computer Group
EMBOSS
http://emboss.sourceforge.net/
(commerciale)
Phylip
Analisi di evoluzione
molecolare
Infrastrutture bioinformatiche:
EBI (UK)
EMBL
http://www.ebi.ac.uk
NCBI
GenBank
http://www.ncbi.nlm.nih.gov:8000
Expasy
http://www.expasy.org
Sanger
http://www.sanger.org
SIB
http://www.isb-sib.ch
EMBnet
http://www.embnet.org
Programma del corso
Le lezioni in laboratorio riguarderanno i seguenti argomenti:
- Elementi di base di Informatica e Programma Access
- Interrogazione di banche dati biologiche usando Entrez, SRS etc.
- Ricerca in banche dati di sequenze nucleotidiche.
- Ricerca in banche dati di sequenze e strutture proteiche.
- Studio ed utilizzo di banche dati di geni e trascrittomi.
- Allineamento di sequenze di acidi nucleici e di proteine mediante i programmi
BLAST e FASTA.
- Utilizzo di algoritmi per allineamenti multipli globali e locali e per la costruzione di
alberi filogenetici (ad es. i programmi CLUSTAL e PHYLIPS).
- Predizione della struttura secondaria di RNA.
- Ricerca di motivi e pattern funzionali in proteine.
- Programmi per la predizione della struttura secondaria (metodi statistici e neural
network).
- Programmi per la visualizzazione grafica di strutture proteiche.
- Programmi per la predizione di struttura tridimensionale delle proteine.
- Banche dati di interazioni proteiche e programmi di docking.
Esercitazioni:
-Ricerca in banche dati di sequenze nucleotidiche (EMBL, GenBank) e
proteiche (SWISSPROT, Uni-Prot)
-Ricerca in banche dati di strutture proteiche (PDB, CATH e SCOP)
-Utilizzo del programma Access
-Interrogazione in banche dati mediante SRS
-Localizzazione di un gene sul genoma umano mediante Ensembl.
- Predizione di geni codificanti proteine in sequenze genomiche.
- Determinazione della struttura di un gene mediane il confronto tra la sequenza
genomica e l’mRNA maturo.
- Analisi di sequenze proteiche (peso molecolare, punto isoelettrico) utilizzando i
tools sul sito Expasy.
- Predizione della struttura secondaria di una proteina di cui è nota la sequenza
mediante i programmi JPred e PsiPred.
- Modellamento per omologia della struttura tridimensionale di una proteina a partire
dalla sola sequenza usando SwissModel.
Scopo di realizzare una banca dati
Consentire la consultazione e l’analisi delle informazioni in essa contenute e di
ogni altra informazione a esse correlate e memorizzate in altre banche dati
Tipi di banche dati:
Primarie o derivate
Nelle banche dati primarie sono presenti solo le informazioni minime necessarie
da associare ai dati per identificarli al meglio.
Le banche dati derivate contengono invece insiemi di dati omogenei che possono
derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che
danno un valore aggiunto alla banca dati stessa.
Non Curate o curate
Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li
ha ottenuti, o con annotazioni da sistemi automatici.
Le banche dati curate presentano informazioni che sono verificate, confrontate
con quelle di altre banche dati, opportunamente corrette (o per lo meno con
segnalazione di possibili errori e conflitti con altri dati)
Relazionali
Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra
loro (ACCESS è un esempio di programma per creare database).
Banche dati biologiche
Una banca dati biologica raccoglie informazioni e dati derivanti dalla
letteratura e da analisi effettuate sia in laboratorio sia attraverso analisi
bioinformatiche.
Ogni banca dati biologica è caratterizzata da un elemento biologico centrale
che costituisce l’oggetto principale intorno al quale viene costruita la entry della
banca dati.
Esempi di elemento centrale:
1) la sequenza nucleotidica di DNA nelle banche dati di acidi nucleici
2) promotore nelle banche dati di promotori eucariotici.
Ciascuna entry raccoglie tutte le informazioni che caratterizzano l’elemento
centrale.
Esempio entry in EMBL
File flat-file
File sequenziale nel quale ogni classe
di informazione è riportata su una o
più linee consecutive identificate da
un codice a sinistra caratterizzante gli
attributi annotati nella linea stessa.
Vantaggi:
1. Molto semplice da creare
2. Facilmente analizzabile da diversi
programmi
Svantaggi:
Dati eterogenei difficilmente
maneggiabili
Codici in un File flat-file
Ogni sequenza inviata al database viene contrassegnata
da un accession number (AC) permanente per l’entry.
Viene anche assegnata una entry name (ID).
Altre informazioni annotate:
DT: date di creazione e aggiornamento
KW: parole chiave per la descrizione
OS: nome della specie
OC: classificazione tassonomica
RN, RA, RT, RL: informazioni sulla bibliografia
FT: regioni funzionalmente caratterizzate
SQ: sequenza nucleotidica
Tipi di banche dati:
- Riferimenti scientifici
- Sequenze nucleotidiche
- Sequenze proteiche
- Strutture Proteiche
- Interazioni tra molecole
- dati di espressione genica
- malattie genetiche
- pathway biochimici
Sequenze nucleotidiche:
GenBank
EMBL
LocusLink
GeneCards
RefSeq
UniGene
Ensembl
Proteine
SwissProt
UniProt
PROSITE
PDB
ENZYME
CATH
SCOP
PDBsum
Altre banche dati :
PubMed
OMIM
UTR
2DPAGE
IARC P53
Tipi di banche dati:
Banche dati di letteratura scientifica (PubMed)
Banche dati di sequenze nucleotidiche (EMBL, GenBank, DDBJ)
Banche dati di geni (LocusLink, GeneCards, RefSeq, UniGene)
Banche dati di genomi (Ensembl)
Banche dati di prodotti di trascrizione (dbEST, UniGene)
Banche dati di profili di espressione (GEO, ArrayExpress)
Banche dati di polimorfismi e mutazioni (dbSNPs, HGMD)
Banche dati di sequenze proteiche (SwissProt, UniProt, PIR)
Banche dati di motivi e domini proteici (PROSITE, Pfam)
Banche dati di strutture proteiche (PDB, CATH e SCOP)
Banche dati di profili di proteomica (OPD)
Banche dati di pathways metabolici (ENZYME, PATHWAYS)
Banche dati mitocondriali (MITOMAP)
Banche dati di malattie genetiche (OMIM)
PUBMED (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed)
E’ considerata la banca dati per eccellenza della letteratura medica e biologica.
E’ consultabile in modo gratuito e permette il link diretto ai siti delle riviste per
visionare o scaricare l’articolo (gratuitamente o a pagamento a seconda della policy
della rivista).
Le ricerche in PubMed possono essere effettuate tramite diverse opzioni:
1. Autore
2. Rivista
3. Parole chiave
usando anche le possibilità offerte dal database
Esercizio:
Ricerchiamo gli articoli che negli ultimi 3 anni riguardano gli “amminacidi”
usando l’opzione Limits
Esempio PUBMED
Esempio Risultato (febbraio 2007)
Banche dati di sequenze nucleotidiche
EMBL
(Inghilterra) http://www.ebi.ac.uk/embl/
GenBank (America)
DDBJ
http://www.ncbi.nlm.nih.gov/Genbank/
(Giappone) http://www.ddbj.nig.ac.jp/Welcome-e.html
Per ogni sequenza le informazioni riportate sono identiche anche se la struttura
dei file è abbastanza diversa
Banche dati di sequenze nucleotidiche
Esercizi:
1. Ricercare la sequenza nucleotidica che corrisponde all’Accession
number M10051 in EMBL.
2. Ricercare in GenBank tutte le entry che corrispondono al termine
“myoglobin”
3. Confrontare le entry nelle due banche dati se ricerchiamo in entrambe
all’Accession number M10051
UNIPROT (http://www.pir.uniprot.org)
E’ la banca dati di riferimento per le sequenze proteiche. Deriva da un consorzio
tra:
1. SWISSPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati
originale, sviluppata in Svizzera.
E’ una banca dati altamente curata, con alto livello di annotazione (descrizione
della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali
e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con
altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di
formato flat-file che si differenzia da quello di EMBL soprattutto per qunto riguarda
le features che descrivono nelle proteine la presenza di aa modificati, regioni
peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi
2. TREMBL (http://www.ebi.ac.uk/trembl/access.html): banca dati di sequenze
proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in
EMBL, annotate automaticamente. Di queste sequenze annotate una parte che
costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle
proteine immunologiche è raccolta in REMTREMBL. In SRS con il termine
SWALL è indicato l’insieme di SWISSPROT+ SPTREMBL.
3. PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche
sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con
altri database e quindi offre minori vantaggi nel suo uso.
Dal sito UniProt
UniProt has three components, each optimized for different uses.
The UniProt Knowledgebase (UniProtKB) is the central access point for extensive
curated protein information, including function, classification, and cross-reference.
The UniProt Reference Clusters (UniRef) databases combine closely related
sequences into a single record to speed searches.
The UniProt Archive (UniParc) is a comprehensive repository, reflecting the history
of all protein sequences.
Esempio UniProt home page
Esempio di output
Se clicco su MYG_HUMAN
Database di STRUTTURE
PDB (http://www.rcsb.org/pdb/home/home.do):
Banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le
coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X,
analisi NMR o altre tecniche (microscopia elettronica etc.).
Comprende anche una sezione dedicata alle strutture delle proteine determinate
tramite metodi computazionali.
Anche in questo caso è stato recentemente creato un consorzio tra le tre
organizzazioni responsabili del mantenimento dei server: RCSB (USA), MSD-EBI
(EU) e PDBj (Giappone)
MMDB [Entrez's Molecular Modeling Database]
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure
NDB (http://ndbserver.rutgers.edu/) : banca dati di strutture di acidi nucleici, soli
o assieme a proteine
CSD (http://www.ccdc.cam.ac.uk/products/csd/) : banca dati di strutture di
piccole molecole organiche ed organometalliche
Esempio HomePage PDB
2MM1
Esempio di file PDB
Altre banche dati che riguardano la struttura delle proteine:
DSSP (Dictionary of Protein Secondary Structure) raccolta delle strutture
secondarie.
Programma: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html
Database
http://swift.cmbi.ru.nl/gv/dssp/
HSSP (Homology derived Secondary Structure of Proteins) contiene informazioni
utili per costruire modelli di proteine.
Database
http://swift.cmbi.kun.nl/gv/hssp/
FSSP (Fold classification based on Secondary Structure alignment of Proteins)
include l’allineamento con le proteine di struttura simile e riporta i residui che
sono equivalenti nelle strutture.
PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/) riassume per
ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati.
SCOP [Structural Classification of Proteins] (http://scop.mrc-lmb.cam.ac.uk/scop/)
organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di
similarità strutturale.
CATH (http://www.cathdb.info/latest/index.html) presenta una classificazione
strutturale simile a quellla offerta da SCOP, basata su confronti di strutture.
Esempio pagina web PDBsum e risultato di una ricerca
Esempio pagina web CATH
Esempio pagina web SCOP
Esercizi:
-Ricercare in CATH e SCOP le entries relative alla keyword “myoglobin”
-Ricercare in PDBsum l’entry “2MM1”
-Usare DSSP per assegnare la struttura secondaria della proteina che
corrisponde al codice 2MM1
HGMD (Human Gene Mutation Database)
Questa banca dati raccoglie i dati presenti in letteratura sulle mutazioni derivanti da
alterazioni e disfunzioni geniche.
Si annotano solo mutazioni sperimentalmente determinate sul DNA e non sulla
proteina, ma le mutazioni silenti sono annotate solo se determinano influenze sullo
splicing.
Ogni mutazione è associata al fenotipo clinico
OMIM (Online Mendelian Inheritance in Man)
La banca dati OMIM nasce da un catalogo (MIM) per la raccolta delle informazioni
correlate alle malattie genetiche di natura mendeliana.
Il database attualmente contiene informazioni non solo su malattie genetiche di tipo
autosomico, ma anche su malattie associate ad alterazioni dei cromosomi sessuali
e dei mitocondri. Presenta cross-links a diverse altre banche dati.
Sistema ENSEMBL (http://www.ensembl.org/index.html) raccoglie dati relativi
alle annotazioni del genoma umano, murino, pesce zebra (Danio rerio) e la
zanzara (Anopheles gambiae). Annotare un genoma significa caratterizzare le
sue funzioni attraverso la ricerca di dati già determinati o attraverso l’applicazione
di metodologie bioinformatiche che consentono di caratterizzare nuove funzioni
Banche dati di motivi e domini proteici
InterPro (http://www.ebi.ac.uk/interpro/) è una risorsa bioinformatica che
raccoglie varie informaioni strutturali e funzionali relative ad una proteina o ad
una famiglia di proteine.
All’interno di InterPro sono comprese varie banche dati:
PROSITE (http://www.ebi.ac.uk/ppsearch/): annota patterns amminoacidici
individuati in un set di sequenze proteiche attraverso analisi in silico e studi
sperimentali.
PRODOM http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW è
un database che raccoglie dati relativi a famiglie di proteine generate
dall’applicazione di PSI-BLAST, che partendo dal confronto di una sequenza
proteica contro un database diproteine, raccoglie in un multiallineamento tutte le
sequuenze proteiche per le quali Blast ha determinato uno score più aòtro di un
score indicato come threshold.
PFAM è una banca dati di famiglie di proteine accomunate da elementi strutturali
e funzionali.
PRINTS è un database che raccoglie sequenze proteiche in clusters definiti da
un comune Fingerprint dove per Fingerprint si intende l’insieme di più motivi
conservatie dedotti dall’osservazione di un multiallineamento ottenuto
applicando algoritmi per la ricerca di similarità locali.
SMART è una risorsa che raccoglie dati relativi a domini proteici e consente la
ricerca di domini in nuove sequenze proteiche
Esercizio:
Ricerca in PRODOM inserendo la parola “myoglobin” in Keyword Search
Esempio Prosite
Esempio Prosite
Modalità di ricerca dei dati
È possibile utilizzare la logica booleana che consente di effettuare intersezioni
(AND), somme (OR) ed esclusioni (BUT NOT) di insiemi di dati.
Sistemi di interrogazione:
Per SRS:
SRS
Entrez
EMBL
Genbank
PDB
MMDB
……
…….
http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession
Per Entrez: http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi
ENTREZ (http://www.ncbi.nlm.nih.gov/Database/index.html)
Comprende Medline
banca dati bibliografica
OMIM
malattie mendeliane
GenBank
sequenze genomiche
Taxonomy
classificazione degli organismi
La ricerca viene fatta sempre usando la combinazione di AND, OR and BUT
NOT.
Come SRS permette la navigazione tra le varie banche dati disponibili utilizzando
il meccanismo dei neighbors
Il comando History visualizza tutte le query selezionate nell’ambito però di una
singola categoria (nucleotidi, proteine etc). History è l’equivalente di Resuls in
SRS
I dati associati a ciascuna query possono essere salvati e visualizzati mediante il
comando Text
Esercizio con Entrez (http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi):
Cosa succede se io ricerco inserendo la keyword: myoglobin?
Cosa succede se io ricerco inserendo la keyword: myoglobin human?
SRS:
- consente di interrogare più banche dati contemporaneamente più banche dati
biologiche
- sfrutta i meccanismi di codifica di cross-referencing e consente la navigazione tra
le banche dati
Nella top page sono riportati i nomi di tutte le banche dati indicizzate su server
e raggruppate in categorie.
A sinistra di ciascuna categoria è riportata una box con
– quando è visibile l’intero elenco delle banche dati
+ quando c’è solo un testo succinto che descrive le caratteristiche della banca
dati e dei suoi contenuti.
Ci sono due possibili Query:
1. Standard Query Form
2. Extended Query Form
Le Query usano 3 criteri possibili:
AND:
& in SRS
OR:
| in SRS
BUT NOT: ! in SRS
Possibili funzioni:
Formati di visualizzazione
menu View
Salvare i dati
comando Save
Link
consente di ottenere informazioni su dati presenti nella banca dati
e correlati ai dati associati alla query prescielta.
Launch
consente di applicare programmi di analisi ai dati di sequenza
associati alla query selezionata
Tool:
Blast, Fasta e Clustal
In pratica SRS ci permette di:
1. scegliere i database da utilizzare per la ricerca
2. immettere una o più query concatenate
3. visualizzare i risultati in modo personalizzabile
4. Applicare i programmi di analisi ai risultati ottenuti
5. salvare nel server EBI i risultati di una ricerca e di richiamarli
successivamente
Esempi pratici ……….
Differenze tra Entrez ed SRS:
ENTREZ:
E’ un sistema disponibile sul sito dell’NCBI (www.ncbi.nlm.nih.gov) per
interrogare ed estrarre dati dalle più varie banche dati esistenti.
Non è commercialmente disponibile e quindi non può essere scaricato ed
installato localmente, né è possibile modificare le banche dati implementate sul
sistema.
SRS – Sequence Retrieval System
Il nome può suggerire un uso limitato a “sequenze”. In realtà è un sistema
utilizzabile su qualunque tipo di database.
Molti centri di ricerca hanno installato SRS sul proprio web server utilizzandolo
per offrire un servizio di consultazione di banche dati. Uno dei sistemi SRS più
curati è quello presente sul sito dell’EBI (www.ebi.ac.uk)
Esercizio usando SRS:
1. Ricercare in UniProt/SWISSProt tutte le sequenze di mioglobine
2. Lanciare un Blast su una sequenza a vostra scelta
3. Selezionare tutte le sequenze e ricercare le strutture corrispondenti
nella banca dati PDB
4. Scelta una struttura ricercare le corrispondenti strutture riportate in
DSSP
5. Modificare il modo di visualizzare i risultati
6. Salvare i risultati
7. Data una sequenza predire la sua struttura secondaria mediante
Garnier