A.A. 2011-2012
CORSO DI
BIOINFORMATICA
per il CLT in Biotecnologie Sanitarie
Università di Padova
Docente: Dr. STEFANIA BORTOLUZZI
THE BIG DATA ERA
Nature journal
Issue of 4 September 2008
“Researchers need to be obliged to document
and manage their data with as much
professionalism as they devote to their
experiments.”
 Importance
of data:
• Retrieval
• Integration
• Analysis
 An at least basic
knowledge of
bioinformatic
methods in
unavoidable also
for experimental
researchers
 Bioinformatics
from basic
methods for
managing
biosequences to
systems biology
models
Importance of Bioinformatics
Deep sequencing data analysis
DATABASES AND DATA RETRIEVAL
Biosequences and Gene-related info
WORKING WITH BIOSEQUENCES
Alignments and similarity search
NAVIGATING GENOMES
By Genome Browsers
gene details
official
sequence
Annotation Tracks
comparisons
SNPs
EXAMPLES FROM MORE ADVANCED
BIOINFORMATICS
Gene expression data analysis
EXAMPLES FROM MORE ADVANCED
BIOINFORMATICS
Gene expression data analysis
Svolgimento del corso e modalità d’esame
• II
semestre del II anno.
• 32 ore, comprendenti
lezioni teoriche frontali ed
esercitazioni al computer.
• Valutazione finale: in base
all’esito delle esercitazioni e
di una verifica scritta
individuale.
• WEB SITE DEDICATO
AL CORSO
http://compgen.bio.unipd.it/
~stefania/Didattica/AA20112012/
I LEZIONE
• Database primari e Database secondari
• Database di sequenze nucleotidiche e
proteiche
• GenBank, short seqs. archives
• SWISSPROT, Uniprot
• ENTREZ Information retrieval system
– Pubmed
– Bookshelf
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Struttura e organizzazione di database
 I database sono insiemi di dati memorizzati su un computer con
diversi livelli di astrazione al di sopra di essi; ogni livello di
astrazione consente di organizzare i dati contenuti e di accedervi.
 Database diversi organizzano i dati in modi differenti
• database Flat-File il tipo piu’ semplice di database
• database relazionali (Oracle, mySQl) permettono la composizione
di interrogazioni o query che collegano piu' tabelle, stabilendo delle
"relazioni" tra i contenuti delle singole tabelle.
• database Object Oriented, le informazioni sono gestite come
"oggetti" con varie "proprietà", invece che records con campi.
 Tutti i sistemi di database impiegano delle interfacce (API,
Application Programming Interface) per accedere ai dati e
modificarli
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Database flat-file
 Il tipo piu' semplice di database e' il database flat-file,
formato da files di testo ASCII in formato standard che il
programa esamina per cercare informazioni.
 Il formato e' di solito costituito da un insieme di campi,
contenenti ciascuno una specifica categoria di
informazioni, delimitati attraverso caratteri speciali o con
lunghezza fissa assegnata.
 Il pregio principale dei database flat-file e' la semplicita'
di gestione, controbilanciata pero' dall’incapacita' di
gestire accesso concorrente e dalla mancanza di
indicizzazione dei dati, che non consentono
interrogazioni sequenziali.
DATABASE PRIMARI E DATABASE SECONDARI
ORGANIZZANO RISPETTIVAMENTE DATI
ORIGINALI E CONOSCENZA GENERATA A
PARTIRE DA ANALISI DI DATI O INTEGRAZIONE
DI DATI DIVERSI
LEVELS OF PROTEIN SEQUENCE AND
STRUCTURAL ORGANISATION
PRIMARY
sequence
primary
database
SECONDARY
motif
secondary
database
TERTIARY
domain module
secondary
database
Using a database
• How to get information out of a database:
– Summaries: how many entries, average or extreme
values; rates of change, most recent entries, etc.
– Browsing: getting a sense of the kind and quality of
information available, e.g. checking familiar records
– Search: looking for specific, predefined information
• “Key” to searching a database:
– Must identify the element(s) of the database that are
of interest somehow:
• Gene name, symbol, location or other identifying information.
• Sequences of genes, mRNAs, proteins, etc.
• A crossreference from another database or database
generated id.
DATABASE PRIMARI
DATABASE DI SEQUENZE NUCLEOTIDICHE
Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o
RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha
un codice che lo identifica univocamente (ACCESSION NUMBER).
Le tre principali banche dati primarie di sequenze nucleotidiche sono:
EMBL nucleotide database, ora gestita dall’EBI (1980)
 EMBL = European Molecular Biology Laboratory (Heidelberg)
 EBI = European Bioinformatics Institute (Hinxton, UK)
GenBank = banca dell NIH gestita dal NCBI (1982)
 NIH = National Institutes of Health (Stuttura USA)
 NCBI = National Center for Biotechnology Information, Bethesda, Maryland
DDBJ = banca DNA giapponese (1986)
 DDBJ = DNA DataBase of Japan
SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database si sono
organizzati nell’International Collaboration of DNA Sequence Databases per
utilizzare un formato comune e scambiarsi giornalmente le sequenze.
DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank
SUBMISSION DIRETTA  La gran parte delle sequenze finisce
in uno dei tre database perché l’autore (il laboratorio dove tale
sequenza é stata ottenuta) la invia direttamente. La sequenza
viene quindi inserita e il record corrispondente resta di proprietà
solo di quel database, l’unico con il diritto di modificarlo. Il
database che riceve la sequenza la invia poi agli altri due. Circa il
98% delle sequenze in un database sono presenti anche negli altri
due.
ANNOTAZIONE  Ci sono poi anche degli “annotatori” che
prendono le sequenze dalle riviste scientifiche e le trasferiscono
nel database.
 Problema della ridondanza
There are specialized, streamlined procedures for batch
submissions of sequences, such as EST, STS, and HTG
sequences (High-throughput sequencing).
DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank
NAR Database Issue
Year
1998
2008
Base Pairs
2,008,761,784
99,116,431,942
Sequences
2,837,897
98,868,465
GenBank contiene diverse sezioni
 in passato divise per gruppi tassonomici e strategie di
sequenziamento
 ora tre grandi sezioni : CoreNucleotide (the main collection), dbEST
(Expressed Sequence Tags), and dbGSS (Genome Survey Sequences).
dbEST  database pubblico di "Expressed Sequence Tags" (sequenze espresse
contrassegnate), contiene tutte le sequenze ottenute dal sequenziamento parziale o
totale di cloni di cDNA, molto utili per:
• Identificare nuovi geni
• Studiare la struttura esoni/introni di geni
• Studiare l’espressione genica
Come e’ fatta un’entry di GenBank ?
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
Nuove metodologie di sequenziamento di terza generazione
• Pyrosequencing o sequencing by
syntesis: si basa sulla rilevazione del
pirofosfato rilasciato
dall’incorporazione di un nucleotide
durante la sintesi del DNA, effettuata in
nanoreattori in emulsione.
• Per ciascuna cella, la sequenza
nucleotidica è determinata dai picchi
del pirogramma, mentre il filamento di
DNA complementare viene sintetizzato
• Accumulo ancora più rapido e
massivo di moltissime sequenze brevi:
• short reads: 35 for Illumina and
solid, 250-450 for Roche 454
• Un singolo run puo’ produrre
1000000 di sequenze (reads)
450 Megabasi in 10 ore
 Nuovi database/repository di dati!
Nuove metodologie di sequenziamento di terza generazione
• Nuovi database/repository
di dati grezzi:
• NCBI SRA Short
Reads Archive
• ENA european
nucleotide archive
• Assemblies disponibili in
genbank
• Struttura tipo di un’entry:
• metadati su study,
sample ed experiment
• dati, sequenze vere e
proprie in formato fastq
@SRR007324.1 FHKWVLO02GHWT8 length=141
TTTCTTTGACCACGTCTTGGTTTTGCACCAGAAGTCCACCA
ACTACACCTGTGTATTCTGCTTCCACTTCACTGGCCTCTTG
AGCATCAAATGGTAAGGCAAGGATACGCAAGTTTTTCTTTT
GTTGGTTCGAAAATAGGC
+SRR007324.1 FHKWVLO02GHWT8 length=141
AA??111AAAAAAAAAAAEBAAAAABBAAABAA????BAA?
??@?AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA@@@;:@...*
1++......33229/..0
Nuove metodologie di sequenziamento di terza generazione
NCBI Transcriptome Shotgun Assembly (TSA) Database
DATABASE PRIMARI
DATABASE DI SEQUENZE PROTEICHE
SWISS-PROT
Database di sequenze proteiche annotate, “scarsamente”
ridondanti e cross-referenced
Contiene TrEMBL, supplemento a SWISS-PROT costituito
dalle sequenze annotate al computer, come traduzione di
tutte le sequenze codificanti presenti all’EMBL
TrEMBL contiene due sezioni:
SP-TrEMBL, sequenze da incorporare in SWISSPROT, con
AC.
REM-TrEMBL, remaining (immunoglobuline, proteine
sintetiche, ...), senza AC.
TrEMBLnew, generato ogni settimana.
DATABASE SECONDARI
UniProt (Universal Protein Resource)
Il piu’ grande catalogo di informazioni sulle proteine. Contiene
informazioni sulla sequenza e sulla funzione di proteine ed e’
ottenuto dall’insieme delle informazioni contenute in SwissProt, TrEMBL e PIR.
UniProt
http://www.uniprot.org/uniprot/
UniProt Knowledgebase, due parti:
•Records annotati manualmente, informazioni dalla letteratura
(UniProtKB/Swiss-Prot)
•Records risultato
di analisi
computazionali,
in attesa di
annotazione
completa
(UniProtKB/TrEMBL).
DATABASE SECONDARI
ENTREZ - Information retrieval system
• E' stato sviluppato all’NCBI (National Center for
Biotechnology Information, USA) per permettere l'accesso a
dati di biologia molecolare e citazioni bibliografiche.
• Sfrutta il concetto di “neighbouring”: possibilita' di collegare
tra loro oggetti diversi di database differenti,
indipendentemente dal fatto che essi siano direttamente
“cross-referenced”.
• Tipicamente, ENTREZ permette l'accesso a database di
sequenze nucleotidiche, di sequenze proteiche, di
mappaggio di cromosomi e di genomi, di struttura 3D e
bibliografici (PubMed).
PubMed
Bookshelf