Diapositiva 1 - Corso di Biologia Molecolare 2

GQuery (http://www.ncbi.nlm.nih.gov/gquery/) è il punto di partenza per eseguire query
su tutti o parte dei database dell’NCBI: si basa sul sistema di interrogazione ENTREZ
Informatica e Bioinformatica – A. A. 2013-2014
1
PubMed (http://www.ncbi.nlm.nih.gov/pubmed)
PubMed, interrogabile tramite NCBI Entrez retrieval
system, è stato sviluppato dal National Center for
Biotechnology Information (NCBI) alla National
Library of Medicine (NLM), ed è localizzato presso
il National Institutes of Health (NIH).
PubMed consente l’accesso alle citazioni della letteratura biomedica
e fornisce i link ad altre risorse biomolecolari di Entrez. Permette di
trovare rapidamente una particolare pubblicazione di cui conosciamo ad es.
il nome di un autore o un particolare termine
Possiamo risalire anche al nome per esteso di una rivista (e.g.
mol cell biol) tramite il tasto Journals in NCBI Database
Informatica e Bioinformatica – A. A. 2013-2014
2
MeSH (Medical Subject Headings)
È un dizionario dei sinonimi e contrari (thesaurus) ‘controllato’ da NLM (National Library
of Medicine). Consiste in un insieme di termini descritti in strutture gerarchiche che
permettono di effettuare ricerche a vari livelli di specificità.
Le descrizioni di MeSH sono disposte sia in modo alfabetico che in modo gerarchico.
Questo dizionario è utilizzato dalla NLM per indicizzare gli articoli provenienti da più di
5400 riviste biomediche e non per Medline e PubMed. Serve anche per catalogare libri,
documenti, audiovisivi ecc.
Ogni referenza bibliografica è associata con un insieme di elementi del dizionario MeSH
che ne descrivono il contenuto.
Informatica e Bioinformatica – A. A. 2013-2014
3
Termini descritti in strutture
gerarchiche
Le regole di interpretazione del sistema PubMed sono:
- Per ogni parola viene consultato l’indice MeSH (vocabolario con tutti i
termini medici e i loro sinonimi).
- Se non si trova nulla, viene consultato l’indice con tutti i giornali e le riviste,
con i codici ISSN e le altre informazioni.
- Se non si trova nulla, si cerca nel campo autori di tutte le entries possibili.
Informatica e Bioinformatica – A. A. 2013-2014
4
Record MEDLINE (Medical Literature Analysis and Retrieval System Online)
Formato html
Formato flat-file
Informatica e Bioinformatica – A. A. 2013-2014
5
Per poter effettuare complesse ricerche è necessario conoscere a fondo la
struttura dei database e l’esatta denominazione dei campi
….. Ma per fortuna esistono strumenti che facilitano le ricerche ……..
Tipica ‘Form’ di PubMed dell’NCBI
Consente di salvare il risultato della vostra ricerca
Consente di limitare la ricerca a determinati campi
Consente di effettuare una ricerca più specifica
Informatica e Bioinformatica – A. A. 2013-2014
6
Esempio di ricerca in PubMed
Cerchiamo il termine “adaptation”.
Quanti risultati abbiamo ottenuto?
La ricerca può essere ritenuta soddisfacente?
Come potrei impostare la query per ottenere risultati più specifici?
Informatica e Bioinformatica – A. A. 2013-2014
7
Possiamo velocizzare la nostra ricerca imponendo dei particolari filtri
Questa volta cerchiamo il termine solo nel campo “title”
Adesso quanti risultati soddisfano la nostra ricerca?
Informatica e Bioinformatica – A. A. 2013-2014
8
Il menù Display setting ci permette di scegliere quali campi rendere visibili,
che numero di record mostrare per pagina, modificarne l’ordine (sort by)
Si possono inoltre inviare i record ottenuti via e-mail, salvarli in un file ecc ecc.
Informatica e Bioinformatica – A. A. 2013-2014
9
Raffiniamo ulteriormente la nostra ricerca introducendo gli operatori booleani
Quanti risultati abbiamo trovato adesso?
Informatica e Bioinformatica – A. A. 2013-2014
10
Attenzione: se abbiamo applicato dei filtri alla ricerca, tutti i termini scritti nella query
si riferiscono a quel filtro (ad esempio il campo Title)
Occorre quindi esplicitare a che campo si riferisce lo specifico termine della query
Informatica e Bioinformatica – A. A. 2013-2014
11
Attenzione che in ENTREZ i filtri sono specifici del database che si sta interrogando.
Filtri nel database PubMed
Filtri nel database Nucleotide
Informatica e Bioinformatica – A. A. 2013-2014
12
“Advanced”
Con questa opzione viene visualizzata la “storia” delle query compiute e si
può inoltre restringere la ricerca, utilizzando l’opzione “Search Builder”
Con gli operatori booleani si possono aggiungere altri termini di ricerca
Informatica e Bioinformatica – A. A. 2013-2014
13
Cliccando sul tasto “Search” compaiono i risultati della ricerca formulata
Con Search details si può valutare come
il sistema di retrieval ha interpretato e
scomposto la nostra query.
E con See more la corrispondenza tra la
query generata e la query translation
Informatica e Bioinformatica – A. A. 2013-2014
14
Il nostro risultato contiene l’eventuale link alla rivista in cui è pubblicato e agli articoli
correlati a quello cercato!
Le modalità con cui si esegue una ricerca bibliografica sono
di esempio per una qualsiasi ricerca testuale o query.
Informatica e Bioinformatica – A. A. 2013-2014
15
A proposito della ricerca bibliografica…
http://www.unipd.it/
… per sapere se abbiamo
accesso “full text” ad una
rivista
http://www.cab.unipd.it/capere/
Informatica e Bioinformatica – A. A. 2013-2014
16
Principali Database biologici
Sequenze di acidi nucleici ottenute da:
La maggior quantità di dati biologici
presenti nei database è rappresentata
da sequenze di acidi nucleici
DNA genomico
Trascritti (mRNA)
EST (corte sequenze di trascritti)
Sequenze proteiche ottenute da:
Sequenziamento diretto (degradazione di Edman)
Traduzione informatica delle sequenze nucleotidiche (traduzione)
Studi di espressione proteica (gel bidimensionale e spettrometria di massa)
* Cristallografia e determinazione delle strutture secondarie e terziarie
Informatica e Bioinformatica – A. A. 2013-2014
17
Sequenze di DNA
Il DNA genomico viene frammentato in regioni di più o meno piccole dimensioni.
I differenti frammenti vengono poi sequenziati.
Con l’assemblaggio delle sequenze ottenute da questi frammenti si ottengono le lunghe
sequenze di DNA presenti nei database, che rappresentano parte di o interi cromosomi.
Se si vogliono conoscere lunghe sequenze di DNA, è necessario sequenziare frammenti
del DNA e poi assemblare le corte sequenze in modo che si sovrappongano tra loro
Sequenze parziali
Sequenza assemblata
Sequenze di mRNA
L’mRNA (meno stabile del DNA) deve essere preventivamente trasformato in cDNA:
da una molecola di mRNA si ottiene prima una copia complementare di DNA a singolo
filamento che poi viene resa a doppia elica.
Si procede poi come per il DNA genomico
Informatica e Bioinformatica – A. A. 2013-2014
18
Ragioni per cui sequenziare anche l’mRNA
Per individuare i geni negli eucarioti superiori (in uomo solo l’1,5-3% del genoma è
codificante). Questo permette anche di studiare le sequenze fiancheggianti e quindi la
regolazione della trascrizione.

Per conoscere (tradurre la sequenza nucleotidica in sequenza proteica) e studiare
informaticamente la relativa proteina.

Per conoscere varianti (splicing alternativi) dello stesso gene e quindi probabili
funzioni differenti della proteina generata.

Per conoscere l’espressione genica: individuare quando (sviluppo o momento
particolare) e dove (quale tessuto) un gene viene espresso.

Informatica e Bioinformatica – A. A. 2013-2014
19
Sequenze EST (Expressed Sequence Tag)
Per individuare la presenza di un trascritto non serve conoscerne tutta la sequenza, ma è
sufficiente che se ne identifichi una parte.
Da questo presupposto sono stati sviluppati progetti di sequenziamento di corte
sequenze di cDNA chiamate EST (Expressed Sequence Tag) che hanno permesso di
studiare i profili trascrizionali (espressione genica in un particolare tessuto, in un
particolare momento dello sviluppo, in presenza di una particolare malattia genetica).
5’UTR
ATG
EST
5’
Seq. codificante
3’UTR
TAA
polyA
AAAAAAAAA
EST
3’
Attualmente nei database esistono più di 74 milioni
di sequenze di EST di cui oltre 8 milioni relative a
Homo sapiens (human) e quasi 5 milioni relative a topo
............................
............................
Informatica e Bioinformatica – A. A. 2013-2014
20
I database primari di acidi nucleici
Cosa sono i database primari?
Sono i contenitori di tutte le sequenze
prodotte nel mondo e rese disponibili
alla comunità scientifica.
Memorizzano essenzialmente le sequenze
e poche altre informazioni generiche ad
esse correlate (laboratorio dove è avvenuto
il sequenziamento, data di produzione,
organismo, descrizione …)
ENA
 GenBank
 DDBJ

Europa
USA
Giappone
I tre database si aggiornano quotidianamente scambiandosi i dati ricevuti
durante la giornata, in modo che sia sufficiente interrogare solo uno dei tre.
Per l’interrogazione dei database ciascun gestore ha sviluppato differenti
sistemi di retrivial (vi ricordate Entrez?)
Informatica e Bioinformatica – A. A. 2013-2014
21
NCBI
http://www.ncbi.nih.gov/Genbank/index.html
Release attuale: 200, Febbraio 2014
Informatica e Bioinformatica – A. A. 2013-2014
22
GenBank
Release
Date
200
Feb 2014
Bases
157.943.793.171
WGS
Sequences
171.123.749
Bases
591.378.698.544
Informatica e Bioinformatica – A. A. 2013-2014
Sequences
139.725.795
23
NUCLEOTIDE
http://www.ncbi.nlm.nih.gov/nucleotide/
Generiamo quindi le nostre queries…
Informatica e Bioinformatica – A. A. 2013-2014
24
Esempio di ricerca in Nucleotide
Quanti e che tipo di record vengono trovati.
Nome ufficiale del gene.
In questo caso siamo interessati ai trascritti…
Informatica e Bioinformatica – A. A. 2013-2014
25
?
?
?
ID per il mRNA che ci interessa.
Informatica e Bioinformatica – A. A. 2013-2014
26
Analizziamo meglio il record
LOCUS
un codice

DEFINITION
descrizione della sequenza

ACCESSION
un codice

ORGANISM
l’organismo a cui appartiene
la sequenza (e tassonomia)

REFERENCE
Riferimenti bibliografici a
quella sequenza o chi l’ha
sottomessa

Informatica e Bioinformatica – A. A. 2013-2014
27
Continua da precedente
COMMENT
molto utile ma purtroppo non
sempre presente

FEATURES
alcune caratteristiche e link
importanti, ad esempio:
le coordinate cromosomiche
il gene
la sequenza codificante
la traduzione in proteina

Informatica e Bioinformatica – A. A. 2013-2014
28
Continua da precedente
… e molte altre informazioni
E per concludere la sequenza
nucleotidica
Se non è chiara la descrizione
dei campi si può utilizzare il link:
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
Informatica e Bioinformatica – A. A. 2013-2014
29
Questo è un record speciale in cui sono definiti i principali campi
Informatica e Bioinformatica – A. A. 2013-2014
30
Come già accennato, anche nel database nucleotidico si possono raffinare le ricerche
tramite l’utilizzo dei “LIMITS”
Ad esempio potremmo scegliere solo alcune sequenze di Sus scrofa
E’ possibile selezionare solo alcuni dei
record risultanti ed effettuare delle
operazioni solo su essi.
Ad esempio visualizzarne la sequenza,
salvarli su file....
Informatica e Bioinformatica – A. A. 2013-2014
31
Con “DISPLAY SETTINGS” si può impostare il formato con cui visualizzare i dati
Informatica e Bioinformatica – A. A. 2013-2014
32
IL FORMATO “FASTA”


Spesso i programmi che effettuano analisi bioinformatiche sulle sequenze
richiedono che esse vengano date come input in questo formato particolare.
FASTA è un formato standard per la rappresentazione di una sequenza in
formato testo. Consiste in una intestazione, di solito limitata a una linea di
testo, e in una o più linee che riportano una sequenza di DNA o di
amminoacidi usando l’alfabeto standard. Ecco un esempio:
Riga di intestazione
Interruzione di riga
>37463.f1|g83244|telethonin ecc.
ACGTGACTGCTACGTACGGGCGTTACGACTGCTACGACGCATGCTATGTC
GTAGCAGCCGTGTACACGTGTTTATTCGTAGGGCTTCTA
‘>’ Simbolo d’inizio della
riga di intestazione
Sequenza
L’intestazione (la prima riga del file precedente) è riconoscibile perché ha inizio con il simbolo ‘>’.
Il testo che segue tale simbolo nella stessa riga può essere strutturato liberamente: di solito, la prima
cosa che si trova scritta è un accession number, ossia l’identificatore della sequenza che ne permette il
reperimento.
Informatica e Bioinformatica – A. A. 2013-2014
33
Una volta visualizzato
un record di sequenza
è pure possibile estrarne
solo una parte
È anche possibile
visualizzarne la
sequenza inversa
complementare:
vi ricordate cosa
significa?
Vediamo ora altri database…
Informatica e Bioinformatica – A. A. 2013-2014
34
http://www.ncbi.nlm.nih.gov/taxonomy
Informatica e Bioinformatica – A. A. 2013-2014
35
www.ncbi.nlm.nih.gov/protein/
Informatica e Bioinformatica – A. A. 2013-2014
36
http://www.ncbi.nlm.nih.gov/omim/
Le mutazioni possono riflettersi in alterazioni della funzionalità della proteina da esso codificata.
Questo mutazioni possono causare le cosiddette malattie genetiche.
Esempio: una mutazione a carico del gene della β-globina fa sì che una particolare base del gene
venga sostituita con un’altra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione
di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una malattia
genetica detta anemia a cellule falciformi.
Il database OMIM cataloga le malattie genetiche
e fornisce descrizioni particolareggiate delle
malattie e delle possibili cause (mutazioni).
Informatica e Bioinformatica – A. A. 2013-2014
37
Problemi dei database primari di acidi nucleici 
Formato dei dati (standardizzazione)
 Accuratezza dei dati (terminologie improprie, errori tipografici, ecc.)
 Comprensibilità
 Ridondanza (immissione della stessa sequenza più volte, ma anche produzione
della stessa sequenza nucleotidica più volte per motivi vari)

Per queste ragioni si sono resi necessari i DATABASE COMPOSTI

Per generare il database composto si prendono i dati da più sorgenti, generalmente con
formati diversi e si costruisce un nuovo database specializzato, in genere “pulito” e non
ridondante.
Esempio: NRdb (Non Redundant Database)
Database di acidi nucleici o proteine in cui l’informazione è stata ottimizzata in modo non ripetitivo (non
ridondante).
Informatica e Bioinformatica – A. A. 2013-2014
38
Database NON RIDONDANTI : RefSeq, UniGene, Gene
Come già detto nei database primari sono inserite tutte le sequenze conosciute ottenute
sperimentalmente.
La stessa regione genomica o lo stesso trascritto possono essere stati sequenziati più volte.
Quindi ci aspettiamo che la stessa sequenza possa essere presente più volte.
Per evitare problemi di ridondanza sono stati creati dei database ‘semplificati’, senza
ripetizioni di informazioni. In particolare
In RefSeq sono rappresentate, in modo non ridondante, tutte le sequenze genomiche,
di mRNA e di proteine.
In UniGene sono rappresentate in modo non ridondante, le sequenze ottenute dal
sequenziamento dei trascritti (mRNA)
Gene: è un sottoinsieme di RefSeq con rappresentate solo le sequenze geniche.
Informatica e Bioinformatica – A. A. 2013-2014
39
http://www.ncbi.nlm.nih.gov/RefSeq/
The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated, non-redundant,
well-annotated set of sequences, including genomic DNA, transcript (RNA), and protein products. RefSeq
is a foundation for medical, functional, and diversity studies; they provide a stable reference for genome
annotation, gene identification and characterization, mutation and polymorphism analysis, expression
studies, and comparative analyses
RefSeq are derived from GenBank records but differ in that each RefSeq is a synthesis of information,
not an archived unit of primary research data. Similar to a review article in the literature, a RefSeq
represents the consolidation of information by a particular group at a particular time.
http://www.ncbi.nlm.nih.gov/unigene/
UniGene: An Organized View of the Transcriptome.
Each UniGene entry is a set of transcript sequences that appear to come from the same transcription
locus (gene or expressed pseudogene), together with information on protein similarities, gene expression,
cDNA clone reagents, and genomic location.
Informatica e Bioinformatica – A. A. 2013-2014
40
http://www.ncbi.nlm.nih.gov/gene/
Gene supplies gene-specific connections in the nexus of map, sequence, expression, structure, function,
citation, and homology data. Unique identifiers are assigned to genes with defining sequences, genes
with known map positions, and genes inferred from phenotypic information. These gene identifiers are
used throughout NCBI's databases and tracked through updates of annotation.
Gene includes genomes represented by NCBI Reference Sequences (or RefSeqs) and is integrated for
indexing and query and retrieval from NCBI's Entrez and E-Utilities systems.
Informatica e Bioinformatica – A. A. 2013-2014
41
Le frecce indicano il
senso della trascrizione
Importante  osservare il senso della trascrizione: un gene può essere codificato dal filamento
‘senso’ (detto anche ‘+’ o ‘forward’) o dal filamento antisenso (detto anche ‘-’ o reverse)
Informatica e Bioinformatica – A. A. 2013-2014
42
Osserviamo ora il gene corrispondente (omologo) presente in uomo.
Sono riportate 3 isoforme, varianti del gene, dovute a splicing alternativo dello stesso gene
Esoni: sono rappresentati dalle linee più spesse
Introni: sono rappresentati dalle linee più sottili
Informatica e Bioinformatica – A. A. 2013-2014
43
A causa delle numerose risorse mantenute dai diversi poli bioinformatici, si rischia non sapere esattamente
quale tipo di dati vengano memorizzati in un certo database, ne’ il significato di alcune terminologie.
Può essere d’aiuto la consultazione della pagina web: www.ncbi.nlm.nih.gov/guide/howto/learn-basics/
Informatica e Bioinformatica – A. A. 2013-2014
44