Diapositiva 1 - Corso di Biologia Molecolare 2

DataBase Biologici
1
Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme
produzione di dati biologici.
Per la gestione di questi dati è quindi necessario disporre di potenti sistemi di archiviazione e
di strumenti per accedere alle loro informazioni.
Database biologici (banche di dati biologici)
- Sono essenzialmente dei contenitori ordinati di informazioni costruiti per introdurre e
mantenere dati di tipo biologico e permettere una facile consultazione ( query)
- raccolgono informazioni e dati derivati dalla letteratura e da analisi effettuate in laboratorio
oppure attraverso l’applicazione di analisi bioinformatiche o analisi in silico.
- sono generalmente accessibili liberamente e possono essere consultati via web.
ogni banca dati è caratterizzata da un elemento centrale attorno al quale viene costruita la entry
della banca dati.
-
Ad esempio, l’elemento centrale per le banche dati di sequenze di acidi nucleici è la sequenza nucleotidica di
DNA o di RNA
2
Esistono molti e differenti DB biologici, più o meno specialistici, che sono in continua evoluzione.
E’ ‘relativamente facile’ ricercare dati particolari …. se si conosce l’esistenza del DB che li contiene.
Per le specifiche ricerche nei DB biologici, sono di aiuto strumenti (tools) messi a
disposizione dai principali centri di bioinformatica, in particolare ENTREZ all’NCBI (negli
USA) e EMBL-EBI (in Europa)
ENTREZ
E’ il punto di
partenza per
eseguire query su
tutti o parte dei
database dell’NCBI
3
http://www.ebi.ac.uk/
Anche all’EBI è possibile ricercare contemporaneamente termini chiave in tutti i database
Risultati ricerca ‘telethonin’ in all databases
4
Organizzazione di un database biologico
Come tutti i database, l’oggetto principale è il ‘record’, una unità riconoscibile grazie ad un identificatore
univoco; il record possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad
‘Header’ (etichette dei campi) univoci nella banca dati; esempio Identificatore , Autore , Data , ecc.
Generalmente, ogni banca di dati biologici è presente in due forme:
Flat-file: un file di testo semplice, formattato, non interattivo
HTML (o XML): interattivo, di facile consultazione attraverso la rete Web.
I DB biologici, in formato html (consultabili via internet), contengono spesso riferimenti (link) a record di altri
database (cross-references). Questi link sono molto utili: permettono di navigare tra record di differenti DB
tra loro correlati (ricerca interattiva) ‘cliccando’ semplicemente nei link.
Nei DB biologici i cross-reference a specifici database sono spesso preceduti dalla definizione ‘db_xref=‘
seguito dalla abbreviazione del database e dall’ID o Accession number del record ‘linkato’. Esempio:
CCDS  DB Consensus CDS
GeneID  Gene DB
HGNC  ‘HUGO Gene Nomenclature Committee’ (Unique
Gene Symbols and names )
HPRD  Human Protein Reference Database
MIM  OMIM: DB malattie genetiche
Troveremo questi cross-reference nelle prossime lezioni e nelle esercitazioni. E’ importante
riconoscerli
5
Esempi di Cross-references
6
‘Cross-reference’ o database relazionale?
Un ‘cross-reference’ invia ad uno specifico record di un particolare database
Flat-file x
Flat-file x
Record…….
Record ……
Record
ID ..
Field: data.
Field: data
Cross reference
Field: data
Record…….
Record ……
Record
ID ..
Field: data.
Cross reference
Cross reference
Field: data
Flat-file x
Record…….
Record ……
Record
ID ..
Field: data.
Field: data
Record….
Record….
Record….
Record di un
altro DB
Un record di un database relazionale è formato dal contenuto di più campi
contenuti in differenti record di differenti file.
7
OPERATORI BOOLEANI
(dovreste conoscerli dalla matematica e dall’informatica)
Esempio: metodi di ricerca di particolari sequenze in un database di sequenze nucleotidiche
Nota: il mitocondrio è un organello cellulare che possiede
un proprio corredo genomico (DNA)
IMPORTANTE, da ricordare
Attenzione: un motore ‘biologico’ di ricerca , non esegue una esatta ricerca testuale:
- In mancanza di operatore booleano, tra due differenti termini, inserisce AND
- Se più parole consecutive sono riconducibile ad un preciso ‘oggetto’ biologico, considera queste parole
come un unico termine (es. cytochrome c oxidase è il nome di un gene, lo considera un unico termine:
altrimenti avrebbe tradotto come: cytochrome AND c AND oxidase )
-Viene svolta una operazione alla volta, partendo da sinistra. Usare le parentesi per dare le precedenze
alle operazioni volute.
-I motori più evoluti cercano anche di interpretare la nostra volontà (usando ad esempio sinonimi o
termini collegati)
8
Interrogazioni delle Banche Dati
RICERCHE TESTUALI (QUERY)
Restituiscono i record di un database che soddisfano i criteri richiesti (ricerca di tipo
letterale, individua termini uguali) attraverso l’utilizzo di programmi di RETRIEVAL
(cioè di ricerca, reperimento dati).
Ricordo che i database devono essere tutti standardizzati (tag, separatori, headers, segni di
punteggiatura ecc) questo rende rapida la ricerca)
RICERCHE PER SIMILARITÀ(su sequenze nucleotidiche o proteiche)
Restituiscono le sequenze di un database più simili ad una sequenza fornita come query.
Non sono delle vere e proprie query in quanto richiedono l’esecuzione di programmi
anche piuttosto complessi (ad esempio BLAST che vedremo nelle prossime lezioni).
Domande:
Trovare la sequenza nucleotidica del gene ‘telethonin’ è una ricerca testuale o di similarità?
Ricercare un sequenza proteica di homo sapiens è una query o una ricerca per similarità?
In questa prima parte del corso ci occuperemo delle ricerche di tipo testuali
9
DB bibliografico di articoli scientifici e relativa ricerca
Vediamo prima come è strutturato un articolo scientifico:
Struttura di un articolo scientifico
- Rivista dove è pubblicato (nome, data di
pubblicazione, volume, pagina )
- Titolo
- Autori
- Abstract (Riassunto dell’articolo)
- Introduzione
Materiali e metodi
Risultati, discussione, conclusione
Descrizione del lavoro
- Opzionali: ringraziamenti
- References (Bibliografia)
10
11
In medicina e biologia esistono molti sinonimi che rendono una ricerca testuale
difficile. Si usa MeSH per facilitare tale ricerca.
MeSH (Medical Subject Headings) (http://www.nlm.nih.gov/mesh/meshhome.html)
È un dizionario dei sinonimi e contrari (thesaurus) ‘controllato’ da NLM (National Library
of Medicine’s)
Consiste in un insieme di termini descritti in strutture gerarchiche che permettono di
effettuare ricerche a vari livelli di specificità.
Le descrizioni di MeSH sono disposte sia in modo alfabetico che in modo gerarchico
Termini descritti in strutture
gerarchiche
12
MEDLINE (Medical Literature Analysis and Retrieval System Online)
database bibliografico (e altro)
Il database è prodotto dalla National Library of Medicine (NLM), contiene soprattutto gran parte della
letteratura scientifica prodotta nell'ambito della biologia, della medicina e della biochimica.
I principali dati degli articoli scientifici (provenienti da più di 5200 riviste) sono classificati e memorizzati
in specifici campi. Un articolo scientifico è rappresentato da uno specifico record.
Per permettere una veloce ricerca, il database è indicizzato su differenti campi e per l’indicizzazione viene
utilizzato il vocabolario controllato Medical Subject Headings (MeSH)
MEDLINE è disponibile gratuitamente via internet attraverso "PubMed".
Record MEDLINE
13
PubMed, disponibile tramite NCBI Entrez retrieval system, è stato sviluppato dal
National Center for Biotechnology Information (NCBI) alla National Library of Medicine (NLM), è
localizzato presso il National Institutes of Health (NIH). Principale form di ricerca
Help
Particolari strumenti per
ricerche specifiche
Altre risorse e database
PubMed consente l’accesso alle citazioni della letteratura biomedica e fornisce i
link ad altre risorse biomolecolari di Entrez. Permette di trovare rapidamente una
particolare pubblicazione di cui conosciamo ad es. il nome di un autore o un particolare
termine
14
Le regole di interpretazione del sistema PubMed sono:
- Per ogni parola viene consultato l’indice MeSH (vocabolario con tutti i
termini medici e i loro sinonimi).
-Se non si trova nulla, viene consultato l’indice con tutti i giornali e le riviste,
coi i codici ISSN e le altre informazioni.
- Se non si trova nulla, si cerca nel campo autori di tutte le entries possibili.
Ricerca mirata semplice
15
Voglio semplicemente ottenere da PubMed un elenco di tutti gli
articoli in cui ‘Faulkner’ risulti autore:
Con ‘Send’ è possibile
memorizzare la ricerca
su un file, stamparla, ecc
Domande: quanti elementi (items) sono stati
trovati ?
La ricerca può essere ritenuta soddisfacente?
Come potrei impostare la query per ottenere
risultati più specifici?
Per poter effettuare complesse ricerche è necessario conoscere a fondo la struttura dei
database, l’esatta denominazione dei campi e la sintassi dei comandi (AND OR ecc.).
Ma ci vengono in aiuto alcune ‘utility’……
16
Con serch si ottiene la lista
completa
Con Preview si ottiene solo
l’History
Ricerca composta utilizzando le ricerche già effettuate.
Esempio: Faulkner[Auth] AND ( zasp[Title/Abstract] OR telethonin[Title/Abstract] )
Cosa ci aspettiamo con #4 AND #5 ?
17
Esempio: impostando il limite ‘in the last 2 years’
Attenzione: quando si selezionano dei limiti, questi rimangono operanti
fino a quando non saranno eliminati
18
Come e cosa visualizzare
Utilizzo di
‘Display Setting’
In laboratorio provate ad applicare i differenti metodi di visualizzazione
19
‘Cliccando’ sul titolo del record si arriva qui, da
dove, se l’articolo è ‘free’, sarà possibile accedere
integralmente all’articolo scientifico
‘Cliccando’ sull’icona dell’editore, sarà possibile
scaricare l’articolo.
( Solo se l’articolo è ‘free’ , altrimenti sarà
necessario pagare)
20
Molte riviste scientifiche richiedono un particolare abbonamento per poter accedere agli articoli.
L’università, in particolare il Dipartimento di Biologia, ha stipulato alcuni abbonamenti con riviste
scientifiche. Dai PC del dipartimento di Biologia è possibile accedere liberamente a queste riviste, cosa
impossible dai PC privati.
Dal sito BioPD (Complesso Biologico Interdipartimentale)dell’Università, è possibile accedere alla
Biblioteca del Vallisneri e/o al CAB - Centro di Ateneo per le Biblioteche da dove si può ricercare
informazioni sulle riviste scientifiche.
…. per sapere se abbiamo accesso “full text” ad una rivista
http://www.bio.unipd.it
http://www.cab.unipd.it/capere/
Sarà un argomento delle
esercitazioni
21