Universita' di Padova, Corso di laurea in Biologia
Sanitaria A.A. 2003-2004
Corso di Genetica e
Bioinformatica
Docente:
Dr. Stefania Bortoluzzi
Dipartimento di Biologia
Universita' di Padova
viale G. Colombo 3, 35131, Padova
Tel. 0039 049 8276214
Email: [email protected]
Lezioni
1
2
3
Argomenti
PROGRAMMA DEL CORSO (16 ore)
Ore
Database primari e Database secondari.
Database di sequenze nucleotidiche e proteiche: GenBank, SWISSPROT.
Database compositi e information retrieval: ricerca in ENTREZ.
2
Formato FASTA, traduzione, mascheramento, inverso complementare: utilizzo di
BCM sequence utilities.
2
Database di interesse per la genetica e la biologia molecolare:
- Omim
- LocusLink
- UniGene
- GenCards
- Human Gene Mutation Database
3
Portali per l'accesso a database e servizi bioinformatici:
- NCBI (SNP, SAGE, Gene expression omnibus, SKY/CGH database)
- HGMP (DNA and Proteins analysis tools, Genome database).
1
Allineamento di sequenze a coppie. Allineamento globale e allineamento locale.
Ricerca di similarita’: BLAST.
2
Uso di Genome Browser per l'annotazione di sequenze genomiche. Allineamento di
sequenze trascritte con sequenze genomiche: BLAT.
2
I LEZIONE
PARTE A
• Database primari e Database secondari
• Database compositi e information retrieval:
ricerca in ENTREZ
• Database di sequenze nucleotidiche e
proteiche
– GenBank
– SWISSPROT
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Struttura e organizzazione di database
 I database sono insiemi di dati memorizzati su un computer con diversi
livelli di astrazione al di sopra di essi.
 Ogni livello di astrazione consente di organizzare i dati contenuti e
accedervi piu' facilmente, separando la richiesta dal meccanismo di
recupero di specifici dati.
 Database diversi organizzano i dati in modi differenti
 database relazionali (RDBMS, Relational Database Management
Systems) es. Oracle
 metodologia orientata agli oggetti (OODBMS)
 Tutti i sistemi di database impiegano delle interfacce (API, Application
Programming Interface) per accedere ai dati ed, eventualmente modificarli.
La manipolazione dei dati avviene attraverso un linguaggio di interrogazione
che permette essenzialmente quattro operazioni principali: acquisizione,
memorizzazione, aggiornamento e eliminazione di dati.
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Database flat-file
 Il tipo piu' semplice di database e' il database flat-file, formato da
files di testo ASCII in formato standard che il programa esamina per
cercare informazioni.
 Il formato e' di solito costituito da un insieme di campi, contenenti
ciascuno una specifica categoria di informazioni, delimitati
attraverso caratteri speciali o con lunghezza fissa assegnata.
 Il pregio principale dei database flat-file e' la semplicita' di gestione,
controbilanciata pero' dalla loro incapacita' di gestire accesso
concorrente e dalla mancanza di indicizzazione dei dati, che non
consente interrogazioni sequenziali.
DATABASE FLAT-FILE ENTRY
AC
NA
IN
GR
TM
CA
OR
RE
TT13627
Torta sacher
cacao, uova, farina, burro,
180 °C
40 minuti
500 a porzione
Vienna
Dolci Austriaci, Ed.Frankfurter
DATABASE PRIMARI E DATABASE SECONDARI
ORGANIZZANO RISPETTIVAMENTE DATI
ORIGINALI E CONOSCENZA GENERATA A
PARTIRE DA ANALISI DI DATI O INTEGRAZIONE
DI DATI DIVERSI
LEVELS OF PROTEIN SEQUENCE AND
STRUCTURAL ORGANISATION
PRIMARY
sequence
primary
database
SECONDARY
motif
secondary
database
TERTIARY
domain module
secondary
database
DATABASE PRIMARI
DATABASE DI SEQUENZE NUCLEOTIDICHE
Collezioni di singoli records, ognuno dei quali contiene un tratto di DNA o
RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e
ha un codice che lo identifica univocamente (ACCESSION NUMBER).
Le tre principali banche dati primarie di sequenze nucleotidiche sono:
EMBL nucleotide database, ora gestita dall’EBI (1980)
 EMBL = European Molecular Biology Laboratory (Heidelberg)
 EBI = European Bioinformatics Institute (Hinxton, UK)
GenBank = banca dell NIH gestita dal NCBI (1982)
 NIH = National Institutes of Health (Stuttura USA)
 NCBI = National Center for Biotechnology Information, Bethesda, Maryland
DDBJ = banca DNA giapponese (1986)
 DDBJ = DNA DataBase of Japan
SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database
(EMBL, DDBJ e GB) si sono organizzati nell’International Collaboration
of DNA Sequence Databases per utilizzare un formato comune per i
records e scambiarsi giornalmente le sequenze.
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank
SUBMISSION DIRETTA  La gran parte delle sequenze
finisce in uno dei tre database perché l’autore (il laboratorio
dove tale sequenza é stata ottenuta) la invia direttamente.
La sequenza viene quindi inserita e il record corrispondente
resta di proprietà’ solo di quel database, l’unico con il diritto
di modificarlo. Il database che riceve la sequenza la invia poi
agli altri due. Circa il 98% delle sequenze in un database
sono presenti anche negli altri due.
ANNOTAZIONE  Ci sono poi anche degli “annotatori” che
prendono le sequenze dalle riviste scientifiche e le
trasferiscono nel database.
Problema della ridondanza.
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank
Quante sequenze ci sono in GenBank ?
GenBank Statistics
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
20197497568
Crescita esponenziale di GenBank
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank
GenBank contiene diverse sezioni
dbEST  database pubblico di "Expressed Sequence Tags" (sequenze
espresse contrassegnate), contiene tutte le sequenze ottenute dal
sequenziamento parziale o totale di cloni di cDNA, molto utili per:
• Identificare nuovi geni
• Studiare la struttura esoni/introni di geni
• Studiare l’espressione genica
dbEST release 102601
Number of public entries: 9,372,718
Summary by Organism - October 26, 2001
Homo sapiens (human)
3,859,807
Mus musculus + domesticus (mouse) 2,328,188
Rattus sp. (rat)
317,076
Drosophila melanogaster (fruit fly)
255,456
...
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank
GenBank contiene diverse sezioni
•ESTs - expressed sequence tags; short, single pass read cDNA (mRNA)
sequences. Also includes cDNA sequences from differential display
experiments and RACE experiments.
•GSSs - genome survey sequences; short, single pass read genomic
sequences, exon trapped sequences, cosmid/BAC/YAC ends, others.
•HTGs - high throughput genome sequences from large scale genome
sequencing centers; unfinished (phase 0, 1, 2) and finished (phase 3)
sequences. (Note that contigs assembled from draft and finished human
HTG sequences are accessible from the Map Viewer, described below.)
•STSs - sequence tagged sites; short sequences that are operationally
unique in the genome, used to generate mapping reagents.
•WGS - whole genome shotgun sequences.
Come e’ fatta un’entry di GenBank ?
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
DATABASE PRIMARI
DATABASE DI SEQUENZE PROTEICHE
SWISS-PROT
Database di sequenze proteiche annotate, “scarsamente”
ridondanti e cross-referenced
Contiene TrEMBL, supplemento a SWISS-PROT costituito
dalle sequenze annotate al computer, come traduzione di
tutte le sequenze codificanti presenti all’EMBL
TrEMBL contiene due sezioni:
SP-TrEMBL, sequenze da incorporare in SWISSPROT, con
AC.
REM-TrEMBL, remaining (immunoglobuline, proteine
sintetiche, ...), senza AC.
TrEMBLnew, generato ogni settimana.
DATABASE COMPOSITI E INFORMATION RETRIEVAL
Rendono possibile l'interrogazione di piu' database residenti
nel medesimo sito, anche in assenza di un formato comune tra
i diversi database.
SRS - Sequence Retrieval System
Si tratta di un network browser per database in biologia molecolare,
sviluppato all’interno dell'European Molecular Biology network. SRS
permette l'indicizzazione di qualsiasi flat-file database rispetto a qualsiasi
altro. Gli indici cosi' derivati sono velocemente cercabili e l'utente ha la
possibilita' di recuperare entries da tutte le fonti interconnesse. Il sistema e'
disponibile ed adattabile alle caratteristiche di ciascun set di database.
Tipicamente, SRS permette di collegare dati relativi ad acidi nucleici, EST,
sequenze proteiche, pattern di sequenze, a strutture o di tipo bibliografico,
senza che all'utente sia richiesta la conoscenza della struttura dei dati e dei
linguaggi utilizzati.
DATABASE COMPOSITI E INFORMATION RETRIEVAL
ENTREZ
• E' stato sviluppato all’NCBI (National Center for Biotechnology
Information, USA) per permettere l'accesso a dati di biologia
molecolare e citazioni bibliografiche.
• Sfrutta il concetto di "neighbouring“: possibilita' di collegare tra
loro oggetti diversi di database differenti, indipendentemente dal
fatto che essi siano direttamente "cross-referenced".
• Tipicamente, ENTREZ permette l'accesso a database di
sequenze nuclotidiche, di sequenze proteiche, di mappaggio di
cromosomi e di genomi, di struttura 3D e bibliografici (PubMed).
DATABASE COMPOSITI E INFORMATION RETRIEVAL
ENTREZ
Permette di accedere a diversi tipi di database:
Nucleotide  Dati di sequenza da GenBank, EMBL, and DDBJ
Protein  Traduzione delle sequenze codificanti in GenBank,
EMBL and DDBJ e sequenze di proteine sottomesse a PIR,
SWISSPROT, PRF, Protein Data Bank (PDB) (sequenze da
strutture risolte)
Genome  Sequenze di genomi completi di molti organismi;
cromosomi completi; mappe di contigui; mappe
genetiche/fisiche integrate
Structure  Struttura 3D di proteine ovvero dati sperimentali di
cristallografia e NMR (Cn3D program)
PopSet  Sequenze allineate, risultato di studi di genetica di
popolazione, filogenesi e mutazione. Sia proteine che
nucleotidi
...
DATABASE COMPOSITI E INFORMATION RETRIEVAL
ENTREZ
Permette di accedere a diversi tipi di database:
...
3d Domains
Taxonomy
CDD
GEO
UniSTS
OMIM
Gene
Books
UniGene
Journals
SNP
PubMed Central
Esempi di ricerca in:
Pubmed
• Bookshelf
• Nucleotide
• Protein
• Genomes
• SNP
• Taxonomy
• Omologene
• CDD