DATA DI RISERVA anche per eventuale laboratorio

CALENDARIO LEZIONI AGGIORNATO
13 MARZO
20 MARZO - LABORATORIO (EDIFICIO H2 PIANO TERRA)
27 MARZO
3 APRILE
10 APRILE
17 APRILE NO (PASQUETTA) -> MERCOLEDI’ 19 APRILE LABORATORIO
24 APRILE NO
1 MAGGIO NO -> MERCOLEDI’ 3 MAGGIO
8 MAGGIO - LABORATORIO
15 MAGGIO
22 MAGGIO
29 MAGGIO – LABORATORIO
5 GIUGNO – (DATA DI RISERVA ANCHE PER EVENTUALE LABORATORIO)
LEZIONE 2
Database e archivi di dati
biologici – struttura e
consultazione
•
“A database is a collection of data, typically describing the
activities of one or more related organizations”
(Ramakrishnan and Gehrke)
•
“A database is a repository for a collection of computerized
data files” (Date)
•
I database tipicamente supportano: (i) archiviazione; (ii)
recupero dati (iii); aggiornamento dati; (iv) rimozione dati
In un database «biologico» questo consiste nel:
-Depositare una sequenza una volta determinata la sua sequenza
-Permettere una ricerca utilizzando uno o più campi (identificativo, nome
del gene, ecc.)
-Aggiornarla nel caso si rilevino errori nel sequenziamento, la si riesca ad
allungare o assemblare meglio nel caso di un genoma
-Eliminarla quando la entry diventi obsoleta, ridondante o semplicemente si
verifichi che si trattava di un artefatto sperimentale
MODELLI DI DATABASE
RELAZIONALI
•
Tutte le entry e le relazioni sono inserite in tabelle
•
Oracle, DB2, MySQL, PostgreSQL
•
Schema predefinito
GERARCHICI/SEMISTRUTTURATI
•
Schema implicito
•
Flessibile
•
XML
KNOWLEDGE DISCOVERY IN DATABASE (KDD)
TIPI DI DATABASE
•
Originariamente tutti database usavano un cosiddetto flat file format
•
File di testo, caratteri speciali, ad esempio (|) per separare le entries
•
Ogni file è invece separato da tab o virgole
•
Non sono presenti istruzioni nascoste per effettuare data mining
•
Per effettuare una ricerca il computer deve leggere l’intero file
•
Per facilitare l’accesso ed il recupero dei dati sono stati sviluppati dei nuovi
programmi
•
Database management systems
•
Questi sistemi contengono istruzioni operative per assistere l’identificazione di
connessioni nascoste
Sulla base del tipo di strutturazione dei dati possiamo
classificare questi sistemi in due classi:
•
RELATIONAL DATABASE MANAGEMENT SYSTEMS
•
OBJECTED-ORIENTED DATABASE MANAGEMENT SYSTEMS
DATABASE RELAZIONALI
Usano un set di tabelle per organizzare I dati
Ogni tabella (relazione) consiste di:
-colonne (campi)
-righe (valori relative ai campi)
I database relazionali possono essere creati utilizzando un
particolare linguaggio di programmazione, chiamato
STRUCTURED QUERY LANGUAGE (SQL)
Richiede un’attenta pianificazione
Nuove categorie di dati possono essere aggiunte facilmente
La ricerca in database ed il reaggruppamento dei dati sono
relativamente intuitivi
Un semplice esempio...
Che i dati siano biosequenze,
dati personali, articoli in vendita,
certificazioni fiscali ecc., la
logica è sostanzialmente quella
di compilare in modo corretto e
completo le schede, in modo
che siano ricavabili, tramite
interrogazioni specifiche, le
informazioni più appropriate e
nel modo più efficace possibile.
I PRIMI PASSI VERSO I DATABASE DI SEQUENZA
•
Le prime banche dati contenenti biosequenze (ovvero, sequenze di DNA
o proteine) sono state trasferite su supporti informatici e distribuite negli
anni '80; per vari anni le versioni aggiornate di tali database sono state
distribuite su un supporto (in origine si trattava di floppy disk;
successivamente sostituiti dai CD).
•
Ben presto, la diffusione di internet ha reso obsoleta la distribuzione su CD
ed ha consentito l'accesso ai dati depositati e la loro distribuzione,
mediante sistemi on line di interrogazione ed acquisizione di interi
database o sezioni di database (download delle sequenze da cartelle
pubbliche, mediante protocollo di trasferimento internet o ftp).
•
I database in cui sono depositati i dati di sequenza genomica o
comunque sequenze di DNA possono essere considerati vere e proprie
banche dati primarie, dal momento che, ormai, i database di sequenze
proteiche non contengono solo sequenze amminoacidiche derivanti dal
sequenziamento diretto delle proteine, bensì, in larga parte, sequenze
"dedotte" per traduzione dinamica delle sequenze genomiche.
•
Esistono molte banche dati specializzate contenenti uno o più database,
la cui completezza non consiste tanto nel numero di sequenze (o
strutture) contenute, quanto nella ricchezza descrittiva relativa alle loro
caratteristiche. Infatti, con il progredire delle analisi sperimentali, il
numero di evidenze associabili a ciascuna sequenza, parte di sequenza
o gruppo di sequenze è diventato sempre più alto, consentendo
un'annotazione funzionale sempre più accurata.
•
Le banche dati speciali sono quasi sempre frutto dell'iniziativa di gruppi di
ricerca specialisti in un certo settore; tuttavia, esse possono restare
piccole o integrarsi/fondersi con banche simili o, infine, essere inglobate
in banche dati più grandi o influire sul sistema di annotazione di queste
ultime, suggerendo campi di compilazione utili e non ancora presenti.
Ma come sono organizzati i database biologici?
•
Elemento fondamentale per qualsiasi database è la singola scheda o
entry, che contiene tutte le informazioni su una certa sequenza o
struttura. In differenti database le schede possono essere compilate in
modi diversi; tuttavia ciascuna entry prevede l'esistenza di campi, cui
corrispondono specifiche informazioni.
•
Tipologia e numero di campi definiscono l'annotazione di una entry; la
qualità dell'annotazione dipende non solo dal numero di caratteristiche
che sono segnalate, ma anche da quanto correttamente esse sono
immesse in ciascuna scheda e verificate.
•
Tra i campi più comunemente associati alle biosequenze vi sono
l'identificativo (ID), ovvero il "nome" della sequenza ed il numero di
accesso (accession o AC), che rappresenta una "targa", ovvero un
codice alfanumerico mediante il quale ciascuna entry può essere
identificata univocamente all'interno di un database e tra database
diversi.
•
Altri campi comuni alla maggior parte dei database sono le informazioni
tassonomiche (indicate da sigle quali OS e OC o da parole più esplicite
quali ORGANISM e SOURCE) e le informazioni bibliografiche, che
riportano la prima pubblicazione inerente la sequenza, ma spesso anche
le successive, con indicazione di titolo, rivista, volume, pagine, anno ed
autori.
•
Sono molto importanti, rappresentando la reale differenza tra database
in termini di ricchezza di annotazione, le caratteristiche o proprietà
(FEATURES o FT) associate alla sequenza, quali ad esempio attività
biochimica, presenza di domini o motivi ecc. Un riferimento per la ricerca
rapida di sequenze associabili ad un certo argomento o ad una funzione
è quanto indicato nel campo delle parole chiave (KEYWORDS o KW)
•
Naturalmente, la struttura delle entry in database diversi riflette non solo
l'organizzazione di chi ha concepito le schede ma anche le peculiari
caratteristiche delle entità trattate.
DATABASE BIOINFORMATICI
•
National Center for Biotechnology
Information (NCBI)
•
http://www.ncbi.nlm.nih.gov
•
Il più grande archivio di dati di
sequenza al mondo
•
Contiene dati relativi a DNA, mRNA,
proteine, genomi, pubblicazioni,
strumenti per data mining, ecc.
DATABASE BIOINFORMATICI
•
European Bioinformatics Institute
(EBI)
•
http://www.ebi.ac.uk
•
Il corrispettivo europeo dell’NCBI
•
Contiene dati relativi a DNA, mRNA,
proteine, genomi, pubblicazioni,
strumenti per data mining, ecc.
DATABASE BIOINFORMATICI
•
DDBJ (DNA Data Bank of Japan)
•
http://www.ebi.ac.uk
•
Il corrispettivo giapponese dell’NCBI
e dell’EBI
•
Inizialmente più orientato a
sequenze nucleotidiche
DATABASE BIOINFORMATICI
•
UniProtKB
•
http://www.uniprot.org
•
Archivio di sequenze proteiche
•
Sezione SWISS-PROT: sequenze
annotate manualmente e
controllate una ad una
•
TrEMBL: annotate automaticamente
e non controllate
DATABASE BIOINFORMATICI
•
KEGG (Kyoto Encyclopedia of Genes
and Genomes)
•
http://www.genome.jp/kegg/
•
Informazioni relative a geni, genomi
e funzioni nell’ambito di pathway
metabolici
KEGG PATHWAY – UN ESEMPIO
DATABASE BIOINFORMATICI
•
UTRdb
•
http://utrdb.ba.itb.cnr.it
•
Informazioni relative alle regioni 5’ e
3’ UTR (untranslated) degli RNA
messaggeri -> importanti per la
regolazione della traduzione e per
determinare l’emivita degli mRNA
DATABASE BIBLIOGRAFICI
•
Anche i contenuti di
un giornale scientifico
possono essere
organizzati, in modo
molto semplice,
secondo i medesimi
criteri
•
Prendiamo come
esempio il giornale
Nucleic Acids
Research
(https://academic.oup
.com/nar)
Issues -> menù a tendina
possibilità di selezionare anno di pubblicazione e volume/issue
Ogni articolo è associato a:
• Titolo
• Autori
• Dati bibliografici (Journal name,
volume, issue, pages
• Doi (Digital Object Identifier) ->
URL persistente per permettere
archiviazione e accessibilità nel
lungo periodo
• Data di pubblicazione
• Abstract -> un breve riassunto del
lavoro che presenta
metodologie e scoperte più
rilevanti
• Keywords
FORMATI DI FILE – FASTA (Paerson)
•
Formato base di input (e output) per moltissimi software e tool
online di bioinformatica
•
Linea di intestazione introdotta da «>» seguita da testo libero
•
Sequenza (nucleotidica o proteica) a capo
•
Solo sequenza! Non c’è nessuna annotazione
>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIG
TNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPY
YTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLG
GVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMAS
ILYFSIILAFLPIAG
FORMATI DI FILE – GenBank
•
Flat file format usato da GenBank
(database di sequenze nucleotiche)
•
Contiene la sequenza ma anche
annotazioni
•
Autore, versione, data di deposito,
aricolo di riferimento, traduzione in
proteina, ecc.
•
Esempio a lato mostra solo un file
relativamente semplice, ma queste
entry possono essere notevolmente
complesse!
FORMATI DI FILE – Swiss-Prot
•
Formato definito dal database
UniProtKB/Swiss-Prot
•
Dedicato a sequenze proteiche
•
Anche in questo caso contiene sia la
sequenza primaria che le annotazioni
ad essa relative
FORMATI DI FILE – ASN.1
•
Formato relativo ad uno standard
internazionale (Abstract Syntax Notation
One)
•
Formato base per tutti i dati contenuti
nel portale NCBI, indipendentemente
dal database di riferimento
•
E’standardizzato, quindi è indipendente
dalla piattaforma e dal linguaggio
FORMATI DI FILE – XML
•
eXtensible Markup Language
•
Standardizzato
•
Formato flessibile
•
Documenti semistrutturati
•
Utilizza dei marcatori (tag) come
l’HTML, ma rispetto all’HTML (limitato a
pagine web/ipertesti) ha applicazioni
molto più importanti nella
strutturazione dei documenti
•
I DTD (document type definition)
definiscono le caratteristiche strutturali
di un documento XML
CONVERSIONE TRA
FORMATI
•
Molto spesso gli strumenti
bioinformatici necessitano di un
input in un determinato formato
•
Allo stesso tempo l’output è
anch’esso in un determinato
formato che potrebbe non
essere direttamente conpatibile
con altri strumenti
•
Fortunatamente esistono tool
che permettono la conversione
tra formati
•
I maggiori portali permettono lo
scaricamento dei dati in più
formati
esempio
http://sequenceconversion.bugaco.com/converter/biology/sequences/
ACQUISIRE I DATI BIOINFORMATICI
•
Ricercare e selezionare I dati in un database
•
Scaricare i dati da una pagina web
•
Utilizzare degli script per scaricare I dati
•
Perl/BioPerl
•
Utilizzare FTP per scaricare interi database
•
Esempio: ftp.ncbi.nih.gov
•
Durante un progetto potrebbe essere necessario eseguire tutte queste
operazioni
•
Diviene ogni giorno più difficile separare la realtà di un database da
quella del sistema di interrogazione, dal momento che gli stessi sono
sempre più integrati. Molto spesso, pertanto, ha più senso fare riferimento
a "poli" bioinformatici, che allocano le risorse su più server dedicati ed
interconnessi.
•
EMBL Nucleotide Sequence database
•
è la banca dati europea per eccellenza, sorta nel 1980 e
contenente sequenze nucleotidiche.
•
Attualmente l'insieme di database EMBL, gestito dall'EBI,
comprende anche il database di sequenze proteiche
TrEMBL, compilato grazie alla traduzione dinamica delle
sequenze codificanti. L'unione del preesistente database
proteico SWISS-PROT, gestito dal SIB (Swiss Institute of
Bioinformatics), con TrEMBL, forma il database proteico
UniProtKB, i cui curatori (SIB ed EBI) provvedono alla costante
eliminazione della ridondanza ed al miglioramento della
qualità di annotazione.
•
Genbank
•
è la più importante banca dati
americana, strutturata due anni dopo
la creazione dell'EMBL library
•
Le entries di Genbank sono
organizzate in modo leggermente
diverso rispetto a quelle di EMBL
•
Esiste un accordo tra l'EBI e l'NCBI, che
gestisce Genbank, finalizzato allo
scambio dei dati, per permettere di
reperire il massimo in termini di
informazioni a chiunque effettui una
ricerca all’interno di uno dei due
database
•
Ensembl
•
non è solo un database o un sistema di interrogazione
(browser), bensì un sistema integrato, dedicato alla
genomica
•
Ensembl è nato da un progetto di collaborazione tra EMBLEBI e Sanger Institute, finanziato principalmente dalla
Wellcome Trust
•
Gli organismi i cui genomi sono analizzabili presso il sito
Ensembl erano inizialmente prevalentemente uomo, topo e
Drosophila, ma ad oggi il numero di genomi curati è molto
maggiore
•
GDB: Il Genome Data Bank (oggi NCBI Genome) è stato
istituito per depositare i dati di mappaggio ottenuti con il
progetto "Genoma Umano" e rappresenta un punto di
riferimento per la ricerca genomica e biomedica.
•
OMIM: è dedicato a geni e fenotipi umani con ereditarietà
mendeliana. Chiunque lavori nel campo delle malattie
genetiche e della biomedicina si ritrova costantemente a
contatto con informazioni relative ad OMIM.
•
TAIR (The Arabidopsis Information Resource): Arabidopsis
thaliana rappresenta la pianta modello nella
sperimentazione genomica, biomolecolare, evoluzionistica
ed agrobiotecnologica, in quanto sono disponibili ampie
collezioni di mutanti ed il suo genoma è stato il primo ad
essere, tra le piante, competamente sequenziato. Il sito TAIR
contiene un database annotato con sequenze genomiche,
trascritti e sequenze proteiche relative ad Arabidopsis,
nonchè link a risorse correlate (stock di semi, collezioni di
mutanti ecc.).
•
ACEDB (A Caenorhabditis Elegans Data Base): è
l'equivalente dei database appena illustrati per il nematode
modello genomico e di sviluppo Caenorhabditis Elegans ->
oggi è diventata una piattaforma per genomica comparata
•
PDB: Protein DataBank è un'importantissima banca
contenente strutture proteiche, molto ben organizzata
•
PROSITE: sarà trattata più ampiamente in seguito. In questa
sede ci si limita a riferire che rappresenta il più noto esempio
di database funzionale, ovvero contenente sequenze
associabili a funzioni quali motivi e pattern conservati.
•
Pfam: banca dati specializzata nella catalogazione dei
domini proteici; sarà trattata più ampiamente in seguito.
•
InterPro: un "sistema integrato" per l'analisi delle proteine.
Dalla home page di InterPro si può accedere a numerosi
database dedicati.
•
Infine, sebbene non contengano sequenze o dati strutturali,
ma solo referenze bibliografiche...
•
Medline, che è gestita ed aggiornata dall‘EBI e Pubmed, che
è gestita dall’NCBI
•
risultano accessibili mediante numerosi collegamenti diretti
all'interno di campi appositi nelle entries dei maggiori
database biologici.
NEXT-GENERATION SEQUENCING – I NUOVI
DATABASE
•
La massiccia mole di dati che è
possibile generare con un
sequenziatore di nuova generazione
ha reso necessario sviluppare nuovi
tool di analisi, ma allo stesso tempo
anche nuovi database dedicati che
permettano lo storage ed una
efficace ricerca dei dati
•
NCBI SRA (Sequence Read Archive)
•
NCBI BioProject: contiene schede
«madre» che puntano ai singoli
esperimenti contenuti in SRA
SRA
• Fondamentale per permettere la
ricerca di dati genomici e trascrittomici
generati con metodiche Illumina,
IonTorrent, PacBio, 454, ecc.
• File contenenti centinaia di milioni di
sequenze
• Campo in rapidissima evoluzione ->
necessità una certa flessibilità di
formato
• Collegato a Bioproject e Biosample
(database di campioni biologici)
DATABASE TASSONOMICI
•
Necessità di linkare dati di sequenza ad identificativi di specie
•
Utilissimi per studi evolutivi e di genomica comparata
•
NCBI Taxonomy
•
Database dedicati (es. WoRMS, World Register of Marine Species)
•
Si è ben presto compreso che, nell'allestimento e riorganizzazione dei
database e motori di ricerca, i "link" internet rappresentano il modo
migliore per non appesantire i database, senza rinunciare a fornire un
gran numero di informazioni. Infatti, anzichè riportare informazioni
incomplete o ridondanti rispetto a database dedicati, si è intrapresa la
strada dei link per associare alle entries informazioni specifiche.
•
I link stanno rapidamente anche trasformando le "cross-references",
ovvero le indicazioni di accession e ID della entry corrispondente di un
altro database (ad es., accession Genbank in una entry EMBL o
viceversa), in veri e propri sistemi per rimandare in automatico alle
relative pagine internet, consentendo un rapido confronto e
l'integrazione dei dati.
COME EFFTTUARE UNA RICERCA IN UN
DATABASE?
•
La maggior parte dei database offrono le seguenti possibilità:
•
Utilizzare operatori Booleani (AND, OR, NOT)
•
Restringere la ricerca ad un organismo di interesse
•
Restringere la ricerca ad un intervallo temporale
•
Combinare più campi per ricerche complesse
IDENTIFICATORI DI DATI
•
Alcuni tra i più comuni sono...
•
Geneinfo ID (gi): identificicati univoco per ogni sequenza. Stabile del
tempo, non cambia quando la sequenza viene aggiornata (ne viene
generato uno nuovo (es. GI:22477487)
•
PMID (o Pubmed ID, per articoli)
•
Locus name (identificatori originali di Genbank; prime 3 lettere
dell’organismo, più codice per il gene. Es. HUMBB)
•
Accession number: numeri di targa/codici a barre per sequenze
nucleotidiche e proteiche. Due lettere maiuscole seguite da numeri (non
legati ad alcun significato biologico. Prima versione indicata da «.1» (es.
BC037153.1), successive (aggiornate) da «.2», «.3», ecc.