I lezione

A.A. 2010-2011
CORSO DI
BIOINFORMATICA
per il CLT in Biotecnologie Sanitarie
Università di Padova
Docente: Dr. STEFANIA BORTOLUZZI
THE BIG DATA ERA
Nature journal
Issue of 4 September 2008
“Researchers need to be obliged to document
and manage their data with as much
professionalism as they devote to their
experiments.”
 Importance
of data:
• Retrieval
• Integration
• Analysis
 An at least basic
knowledge of
bioinformatic
methods in
unavoidable also
for experimental
researchers
 Bioinformatics
from basic
methods for
managing
biosequences to
systems biology
models
DATABASES AND DATA RETRIEVAL
Biosequences and Gene-related info
WORKING WITH BIOSEQUENCES
Alignments and similarity search
NAVIGATING GENOMES
By Genome Browsers
gene details
official
sequence
Annotation Tracks
comparisons
SNPs
Introduction to more advanced
bioinformatics
• Gene expression data analysis
Svolgimento del corso e modalità
d’esame
• Al II semestre del II anno.
• Durata: 32 ore, comprendenti lezioni teoriche
frontali ed esercitazioni al computer.
• Valutazione finale: in base all’esito delle
esercitazioni svolte in piccoli gruppi e di una
verifica scritta individuale.
WEB SITE DEDICATO AL CORSO
http://compgen.bio.unipd.it/~stefania/Didattica/AA2010-2011/
I LEZIONE
• Database primari e Database secondari
• Database di sequenze nucleotidiche e
proteiche
• GenBank, short seqs. archives
• SWISSPROT, Uniprot
• ENTREZ Information retrieval system
– Pubmed
– Bookshelf
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Struttura e organizzazione di database
 I database sono insiemi di dati memorizzati su un computer con
diversi livelli di astrazione al di sopra di essi; ogni livello di
astrazione consente di organizzare i dati contenuti e di accedervi.
 Database diversi organizzano i dati in modi differenti
• database Flat-File il tipo piu’ semplice di database
• database relazionali (Oracle, mySQl) permettono la composizione
di interrogazioni o query che collegano piu' tabelle, stabilendo delle
"relazioni" tra i contenuti delle singole tabelle.
• database Object Oriented, le informazioni sono gestite come
"oggetti" con varie "proprietà", invece che records con campi.
 Tutti i sistemi di database impiegano delle interfacce (API,
Application Programming Interface) per accedere ai dati e
modificarli
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Database flat-file
 Il tipo piu' semplice di database e' il database flat-file,
formato da files di testo ASCII in formato standard che il
programa esamina per cercare informazioni.
 Il formato e' di solito costituito da un insieme di campi,
contenenti ciascuno una specifica categoria di
informazioni, delimitati attraverso caratteri speciali o con
lunghezza fissa assegnata.
 Il pregio principale dei database flat-file e' la semplicita'
di gestione, controbilanciata pero' dall’incapacita' di
gestire accesso concorrente e dalla mancanza di
indicizzazione dei dati, che non consentono
interrogazioni sequenziali.
DATABASE PRIMARI E DATABASE SECONDARI
ORGANIZZANO RISPETTIVAMENTE DATI
ORIGINALI E CONOSCENZA GENERATA A
PARTIRE DA ANALISI DI DATI O INTEGRAZIONE
DI DATI DIVERSI
LEVELS OF PROTEIN SEQUENCE AND
STRUCTURAL ORGANISATION
PRIMARY
sequence
primary
database
SECONDARY
motif
secondary
database
TERTIARY
domain module
secondary
database
Using a database
• How to get information out of a database:
– Summaries: how many entries, average or extreme
values; rates of change, most recent entries, etc.
– Browsing: getting a sense of the kind and quality of
information available, e.g. checking familiar records
– Search: looking for specific, predefined information
• “Key” to searching a database:
– Must identify the element(s) of the database that are
of interest somehow:
• Gene name, symbol, location or other identifying information.
• Sequences of genes, mRNAs, proteins, etc.
• A crossreference from another database or database
generated id.
DATABASE PRIMARI
DATABASE DI SEQUENZE NUCLEOTIDICHE
Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o
RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha
un codice che lo identifica univocamente (ACCESSION NUMBER).
Le tre principali banche dati primarie di sequenze nucleotidiche sono:
EMBL nucleotide database, ora gestita dall’EBI (1980)
 EMBL = European Molecular Biology Laboratory (Heidelberg)
 EBI = European Bioinformatics Institute (Hinxton, UK)
GenBank = banca dell NIH gestita dal NCBI (1982)
 NIH = National Institutes of Health (Stuttura USA)
 NCBI = National Center for Biotechnology Information, Bethesda, Maryland
DDBJ = banca DNA giapponese (1986)
 DDBJ = DNA DataBase of Japan
SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database si sono
organizzati nell’International Collaboration of DNA Sequence Databases per
utilizzare un formato comune e scambiarsi giornalmente le sequenze.
DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank
SUBMISSION DIRETTA  La gran parte delle sequenze finisce
in uno dei tre database perché l’autore (il laboratorio dove tale
sequenza é stata ottenuta) la invia direttamente. La sequenza
viene quindi inserita e il record corrispondente resta di proprietà
solo di quel database, l’unico con il diritto di modificarlo. Il
database che riceve la sequenza la invia poi agli altri due. Circa il
98% delle sequenze in un database sono presenti anche negli altri
due.
ANNOTAZIONE  Ci sono poi anche degli “annotatori” che
prendono le sequenze dalle riviste scientifiche e le trasferiscono
nel database.
 Problema della ridondanza
There are specialized, streamlined procedures for batch
submissions of sequences, such as EST, STS, and HTG
sequences (High-throughput sequencing).
DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank
NAR Database Issue
Year
1998
2008
Base Pairs
2,008,761,784
99,116,431,942
Sequences
2,837,897
98,868,465
GenBank contiene diverse sezioni
 in passato divise per gruppi tassonomici e strategie di
sequenziamento
 ora tre grandi sezioni : CoreNucleotide (the main collection), dbEST
(Expressed Sequence Tags), and dbGSS (Genome Survey Sequences).
dbEST  database pubblico di "Expressed Sequence Tags" (sequenze espresse
contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o
totale di cloni di cDNA, molto utili per:
• Identificare nuovi geni
• Studiare la struttura esoni/introni di geni
• Studiare l’espressione genica
Come e’ fatta un’entry di GenBank ?
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
Nuove metodologie di sequenziamento di terza generazione
• Pyrosequencing o sequencing by
syntesis: si basa sulla rilevazione del
pirofosfato rilasciato
dall’incorporazione di un nucleotide
durante la sintesi del DNA, effettuata in
nanoreattori in emulsione.
• Per ciascuna cella, la sequenza
nucleotidica è determinata dai picchi
del pirogramma, mentre il filamento di
DNA complementare viene sintetizzato
• Accumulo ancora più rapido e
massivo di moltissime sequenze brevi:
• short reads: 35 for Illumina and
solid, 250-450 for Roche 454
• Un singolo run puo’ produrre
1000000 di sequenze (reads)
 450 Megabasi in 10 ore
• Servono nuovi database/repository di
dati!
Nuove metodologie di sequenziamento di terza generazione
• Nuovi database/repository
di dati grezzi:
• NCBI SRA Short Reads
Archive
• ENA european
nucleotide archive
• Assemblies disponibili in
genbank
• Struttura tipo di un’entry:
• metadati su study,
sample ed experiment
• dati, sequenze vere e
proprie in formato fastq
@SRR007324.1 FHKWVLO02GHWT8 length=141
TTTCTTTGACCACGTCTTGGTTTTGCACCAGAAGTCCACCA
ACTACACCTGTGTATTCTGCTTCCACTTCACTGGCCTCTTG
AGCATCAAATGGTAAGGCAAGGATACGCAAGTTTTTCTTTT
GTTGGTTCGAAAATAGGC
+SRR007324.1 FHKWVLO02GHWT8 length=141
AA??111AAAAAAAAAAAEBAAAAABBAAABAA????BAA?
??@?AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA@@@;:@...*
1++......33229/..0
DATABASE PRIMARI
DATABASE DI SEQUENZE PROTEICHE
SWISS-PROT
Database di sequenze proteiche annotate, “scarsamente”
ridondanti e cross-referenced
Contiene TrEMBL, supplemento a SWISS-PROT costituito
dalle sequenze annotate al computer, come traduzione di
tutte le sequenze codificanti presenti all’EMBL
TrEMBL contiene due sezioni:
SP-TrEMBL, sequenze da incorporare in SWISSPROT, con
AC.
REM-TrEMBL, remaining (immunoglobuline, proteine
sintetiche, ...), senza AC.
TrEMBLnew, generato ogni settimana.
DATABASE SECONDARI
UniProt (Universal Protein Resource)
Il piu’ grande catalogo di informazioni sulle proteine. Contiene
informazioni sulla sequenza e sulla funzione di proteine ed e’
ottenuto dall’insieme delle informazioni contenute in SwissProt, TrEMBL e PIR.
UniProt
http://www.uniprot.org/uniprot/
UniProt Knowledgebase, due parti:
•Records annotati manualmente, informazioni dalla letteratura
(UniProtKB/Swiss-Prot)
•Records risultato
di analisi
computazionali,
in attesa di
annotazione
completa
(UniProtKB/TrEMBL).
DATABASE SECONDARI
ENTREZ - Information retrieval system
• E' stato sviluppato all’NCBI (National Center for
Biotechnology Information, USA) per permettere l'accesso a
dati di biologia molecolare e citazioni bibliografiche.
• Sfrutta il concetto di “neighbouring”: possibilita' di collegare
tra loro oggetti diversi di database differenti,
indipendentemente dal fatto che essi siano direttamente
“cross-referenced”.
• Tipicamente, ENTREZ permette l'accesso a database di
sequenze nucleotidiche, di sequenze proteiche, di
mappaggio di cromosomi e di genomi, di struttura 3D e
bibliografici (PubMed).
PubMed
Bookshelf