CALENDARIO LEZIONI AGGIORNATO 13 MARZO 20 MARZO - LABORATORIO (EDIFICIO H2 PIANO TERRA) 27 MARZO 3 APRILE 10 APRILE 17 APRILE NO (PASQUETTA) -> MERCOLEDI’ 19 APRILE LABORATORIO 24 APRILE NO 1 MAGGIO NO -> MERCOLEDI’ 3 MAGGIO 8 MAGGIO - LABORATORIO 15 MAGGIO 22 MAGGIO 29 MAGGIO – LABORATORIO 5 GIUGNO – (DATA DI RISERVA ANCHE PER EVENTUALE LABORATORIO) LEZIONE 2 Database e archivi di dati biologici – struttura e consultazione • “A database is a collection of data, typically describing the activities of one or more related organizations” (Ramakrishnan and Gehrke) • “A database is a repository for a collection of computerized data files” (Date) • I database tipicamente supportano: (i) archiviazione; (ii) recupero dati (iii); aggiornamento dati; (iv) rimozione dati In un database «biologico» questo consiste nel: -Depositare una sequenza una volta determinata la sua sequenza -Permettere una ricerca utilizzando uno o più campi (identificativo, nome del gene, ecc.) -Aggiornarla nel caso si rilevino errori nel sequenziamento, la si riesca ad allungare o assemblare meglio nel caso di un genoma -Eliminarla quando la entry diventi obsoleta, ridondante o semplicemente si verifichi che si trattava di un artefatto sperimentale MODELLI DI DATABASE RELAZIONALI • Tutte le entry e le relazioni sono inserite in tabelle • Oracle, DB2, MySQL, PostgreSQL • Schema predefinito GERARCHICI/SEMISTRUTTURATI • Schema implicito • Flessibile • XML KNOWLEDGE DISCOVERY IN DATABASE (KDD) TIPI DI DATABASE • Originariamente tutti database usavano un cosiddetto flat file format • File di testo, caratteri speciali, ad esempio (|) per separare le entries • Ogni file è invece separato da tab o virgole • Non sono presenti istruzioni nascoste per effettuare data mining • Per effettuare una ricerca il computer deve leggere l’intero file • Per facilitare l’accesso ed il recupero dei dati sono stati sviluppati dei nuovi programmi • Database management systems • Questi sistemi contengono istruzioni operative per assistere l’identificazione di connessioni nascoste Sulla base del tipo di strutturazione dei dati possiamo classificare questi sistemi in due classi: • RELATIONAL DATABASE MANAGEMENT SYSTEMS • OBJECTED-ORIENTED DATABASE MANAGEMENT SYSTEMS DATABASE RELAZIONALI Usano un set di tabelle per organizzare I dati Ogni tabella (relazione) consiste di: -colonne (campi) -righe (valori relative ai campi) I database relazionali possono essere creati utilizzando un particolare linguaggio di programmazione, chiamato STRUCTURED QUERY LANGUAGE (SQL) Richiede un’attenta pianificazione Nuove categorie di dati possono essere aggiunte facilmente La ricerca in database ed il reaggruppamento dei dati sono relativamente intuitivi Un semplice esempio... Che i dati siano biosequenze, dati personali, articoli in vendita, certificazioni fiscali ecc., la logica è sostanzialmente quella di compilare in modo corretto e completo le schede, in modo che siano ricavabili, tramite interrogazioni specifiche, le informazioni più appropriate e nel modo più efficace possibile. I PRIMI PASSI VERSO I DATABASE DI SEQUENZA • Le prime banche dati contenenti biosequenze (ovvero, sequenze di DNA o proteine) sono state trasferite su supporti informatici e distribuite negli anni '80; per vari anni le versioni aggiornate di tali database sono state distribuite su un supporto (in origine si trattava di floppy disk; successivamente sostituiti dai CD). • Ben presto, la diffusione di internet ha reso obsoleta la distribuzione su CD ed ha consentito l'accesso ai dati depositati e la loro distribuzione, mediante sistemi on line di interrogazione ed acquisizione di interi database o sezioni di database (download delle sequenze da cartelle pubbliche, mediante protocollo di trasferimento internet o ftp). • I database in cui sono depositati i dati di sequenza genomica o comunque sequenze di DNA possono essere considerati vere e proprie banche dati primarie, dal momento che, ormai, i database di sequenze proteiche non contengono solo sequenze amminoacidiche derivanti dal sequenziamento diretto delle proteine, bensì, in larga parte, sequenze "dedotte" per traduzione dinamica delle sequenze genomiche. • Esistono molte banche dati specializzate contenenti uno o più database, la cui completezza non consiste tanto nel numero di sequenze (o strutture) contenute, quanto nella ricchezza descrittiva relativa alle loro caratteristiche. Infatti, con il progredire delle analisi sperimentali, il numero di evidenze associabili a ciascuna sequenza, parte di sequenza o gruppo di sequenze è diventato sempre più alto, consentendo un'annotazione funzionale sempre più accurata. • Le banche dati speciali sono quasi sempre frutto dell'iniziativa di gruppi di ricerca specialisti in un certo settore; tuttavia, esse possono restare piccole o integrarsi/fondersi con banche simili o, infine, essere inglobate in banche dati più grandi o influire sul sistema di annotazione di queste ultime, suggerendo campi di compilazione utili e non ancora presenti. Ma come sono organizzati i database biologici? • Elemento fondamentale per qualsiasi database è la singola scheda o entry, che contiene tutte le informazioni su una certa sequenza o struttura. In differenti database le schede possono essere compilate in modi diversi; tuttavia ciascuna entry prevede l'esistenza di campi, cui corrispondono specifiche informazioni. • Tipologia e numero di campi definiscono l'annotazione di una entry; la qualità dell'annotazione dipende non solo dal numero di caratteristiche che sono segnalate, ma anche da quanto correttamente esse sono immesse in ciascuna scheda e verificate. • Tra i campi più comunemente associati alle biosequenze vi sono l'identificativo (ID), ovvero il "nome" della sequenza ed il numero di accesso (accession o AC), che rappresenta una "targa", ovvero un codice alfanumerico mediante il quale ciascuna entry può essere identificata univocamente all'interno di un database e tra database diversi. • Altri campi comuni alla maggior parte dei database sono le informazioni tassonomiche (indicate da sigle quali OS e OC o da parole più esplicite quali ORGANISM e SOURCE) e le informazioni bibliografiche, che riportano la prima pubblicazione inerente la sequenza, ma spesso anche le successive, con indicazione di titolo, rivista, volume, pagine, anno ed autori. • Sono molto importanti, rappresentando la reale differenza tra database in termini di ricchezza di annotazione, le caratteristiche o proprietà (FEATURES o FT) associate alla sequenza, quali ad esempio attività biochimica, presenza di domini o motivi ecc. Un riferimento per la ricerca rapida di sequenze associabili ad un certo argomento o ad una funzione è quanto indicato nel campo delle parole chiave (KEYWORDS o KW) • Naturalmente, la struttura delle entry in database diversi riflette non solo l'organizzazione di chi ha concepito le schede ma anche le peculiari caratteristiche delle entità trattate. DATABASE BIOINFORMATICI • National Center for Biotechnology Information (NCBI) • http://www.ncbi.nlm.nih.gov • Il più grande archivio di dati di sequenza al mondo • Contiene dati relativi a DNA, mRNA, proteine, genomi, pubblicazioni, strumenti per data mining, ecc. DATABASE BIOINFORMATICI • European Bioinformatics Institute (EBI) • http://www.ebi.ac.uk • Il corrispettivo europeo dell’NCBI • Contiene dati relativi a DNA, mRNA, proteine, genomi, pubblicazioni, strumenti per data mining, ecc. DATABASE BIOINFORMATICI • DDBJ (DNA Data Bank of Japan) • http://www.ebi.ac.uk • Il corrispettivo giapponese dell’NCBI e dell’EBI • Inizialmente più orientato a sequenze nucleotidiche DATABASE BIOINFORMATICI • UniProtKB • http://www.uniprot.org • Archivio di sequenze proteiche • Sezione SWISS-PROT: sequenze annotate manualmente e controllate una ad una • TrEMBL: annotate automaticamente e non controllate DATABASE BIOINFORMATICI • KEGG (Kyoto Encyclopedia of Genes and Genomes) • http://www.genome.jp/kegg/ • Informazioni relative a geni, genomi e funzioni nell’ambito di pathway metabolici KEGG PATHWAY – UN ESEMPIO DATABASE BIOINFORMATICI • UTRdb • http://utrdb.ba.itb.cnr.it • Informazioni relative alle regioni 5’ e 3’ UTR (untranslated) degli RNA messaggeri -> importanti per la regolazione della traduzione e per determinare l’emivita degli mRNA DATABASE BIBLIOGRAFICI • Anche i contenuti di un giornale scientifico possono essere organizzati, in modo molto semplice, secondo i medesimi criteri • Prendiamo come esempio il giornale Nucleic Acids Research (https://academic.oup .com/nar) Issues -> menù a tendina possibilità di selezionare anno di pubblicazione e volume/issue Ogni articolo è associato a: • Titolo • Autori • Dati bibliografici (Journal name, volume, issue, pages • Doi (Digital Object Identifier) -> URL persistente per permettere archiviazione e accessibilità nel lungo periodo • Data di pubblicazione • Abstract -> un breve riassunto del lavoro che presenta metodologie e scoperte più rilevanti • Keywords FORMATI DI FILE – FASTA (Paerson) • Formato base di input (e output) per moltissimi software e tool online di bioinformatica • Linea di intestazione introdotta da «>» seguita da testo libero • Sequenza (nucleotidica o proteica) a capo • Solo sequenza! Non c’è nessuna annotazione >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus] LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIG TNLVEWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPY YTIKDFLGLLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLG GVLALFLSIVILGLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMAS ILYFSIILAFLPIAG FORMATI DI FILE – GenBank • Flat file format usato da GenBank (database di sequenze nucleotiche) • Contiene la sequenza ma anche annotazioni • Autore, versione, data di deposito, aricolo di riferimento, traduzione in proteina, ecc. • Esempio a lato mostra solo un file relativamente semplice, ma queste entry possono essere notevolmente complesse! FORMATI DI FILE – Swiss-Prot • Formato definito dal database UniProtKB/Swiss-Prot • Dedicato a sequenze proteiche • Anche in questo caso contiene sia la sequenza primaria che le annotazioni ad essa relative FORMATI DI FILE – ASN.1 • Formato relativo ad uno standard internazionale (Abstract Syntax Notation One) • Formato base per tutti i dati contenuti nel portale NCBI, indipendentemente dal database di riferimento • E’standardizzato, quindi è indipendente dalla piattaforma e dal linguaggio FORMATI DI FILE – XML • eXtensible Markup Language • Standardizzato • Formato flessibile • Documenti semistrutturati • Utilizza dei marcatori (tag) come l’HTML, ma rispetto all’HTML (limitato a pagine web/ipertesti) ha applicazioni molto più importanti nella strutturazione dei documenti • I DTD (document type definition) definiscono le caratteristiche strutturali di un documento XML CONVERSIONE TRA FORMATI • Molto spesso gli strumenti bioinformatici necessitano di un input in un determinato formato • Allo stesso tempo l’output è anch’esso in un determinato formato che potrebbe non essere direttamente conpatibile con altri strumenti • Fortunatamente esistono tool che permettono la conversione tra formati • I maggiori portali permettono lo scaricamento dei dati in più formati esempio http://sequenceconversion.bugaco.com/converter/biology/sequences/ ACQUISIRE I DATI BIOINFORMATICI • Ricercare e selezionare I dati in un database • Scaricare i dati da una pagina web • Utilizzare degli script per scaricare I dati • Perl/BioPerl • Utilizzare FTP per scaricare interi database • Esempio: ftp.ncbi.nih.gov • Durante un progetto potrebbe essere necessario eseguire tutte queste operazioni • Diviene ogni giorno più difficile separare la realtà di un database da quella del sistema di interrogazione, dal momento che gli stessi sono sempre più integrati. Molto spesso, pertanto, ha più senso fare riferimento a "poli" bioinformatici, che allocano le risorse su più server dedicati ed interconnessi. • EMBL Nucleotide Sequence database • è la banca dati europea per eccellenza, sorta nel 1980 e contenente sequenze nucleotidiche. • Attualmente l'insieme di database EMBL, gestito dall'EBI, comprende anche il database di sequenze proteiche TrEMBL, compilato grazie alla traduzione dinamica delle sequenze codificanti. L'unione del preesistente database proteico SWISS-PROT, gestito dal SIB (Swiss Institute of Bioinformatics), con TrEMBL, forma il database proteico UniProtKB, i cui curatori (SIB ed EBI) provvedono alla costante eliminazione della ridondanza ed al miglioramento della qualità di annotazione. • Genbank • è la più importante banca dati americana, strutturata due anni dopo la creazione dell'EMBL library • Le entries di Genbank sono organizzate in modo leggermente diverso rispetto a quelle di EMBL • Esiste un accordo tra l'EBI e l'NCBI, che gestisce Genbank, finalizzato allo scambio dei dati, per permettere di reperire il massimo in termini di informazioni a chiunque effettui una ricerca all’interno di uno dei due database • Ensembl • non è solo un database o un sistema di interrogazione (browser), bensì un sistema integrato, dedicato alla genomica • Ensembl è nato da un progetto di collaborazione tra EMBLEBI e Sanger Institute, finanziato principalmente dalla Wellcome Trust • Gli organismi i cui genomi sono analizzabili presso il sito Ensembl erano inizialmente prevalentemente uomo, topo e Drosophila, ma ad oggi il numero di genomi curati è molto maggiore • GDB: Il Genome Data Bank (oggi NCBI Genome) è stato istituito per depositare i dati di mappaggio ottenuti con il progetto "Genoma Umano" e rappresenta un punto di riferimento per la ricerca genomica e biomedica. • OMIM: è dedicato a geni e fenotipi umani con ereditarietà mendeliana. Chiunque lavori nel campo delle malattie genetiche e della biomedicina si ritrova costantemente a contatto con informazioni relative ad OMIM. • TAIR (The Arabidopsis Information Resource): Arabidopsis thaliana rappresenta la pianta modello nella sperimentazione genomica, biomolecolare, evoluzionistica ed agrobiotecnologica, in quanto sono disponibili ampie collezioni di mutanti ed il suo genoma è stato il primo ad essere, tra le piante, competamente sequenziato. Il sito TAIR contiene un database annotato con sequenze genomiche, trascritti e sequenze proteiche relative ad Arabidopsis, nonchè link a risorse correlate (stock di semi, collezioni di mutanti ecc.). • ACEDB (A Caenorhabditis Elegans Data Base): è l'equivalente dei database appena illustrati per il nematode modello genomico e di sviluppo Caenorhabditis Elegans -> oggi è diventata una piattaforma per genomica comparata • PDB: Protein DataBank è un'importantissima banca contenente strutture proteiche, molto ben organizzata • PROSITE: sarà trattata più ampiamente in seguito. In questa sede ci si limita a riferire che rappresenta il più noto esempio di database funzionale, ovvero contenente sequenze associabili a funzioni quali motivi e pattern conservati. • Pfam: banca dati specializzata nella catalogazione dei domini proteici; sarà trattata più ampiamente in seguito. • InterPro: un "sistema integrato" per l'analisi delle proteine. Dalla home page di InterPro si può accedere a numerosi database dedicati. • Infine, sebbene non contengano sequenze o dati strutturali, ma solo referenze bibliografiche... • Medline, che è gestita ed aggiornata dall‘EBI e Pubmed, che è gestita dall’NCBI • risultano accessibili mediante numerosi collegamenti diretti all'interno di campi appositi nelle entries dei maggiori database biologici. NEXT-GENERATION SEQUENCING – I NUOVI DATABASE • La massiccia mole di dati che è possibile generare con un sequenziatore di nuova generazione ha reso necessario sviluppare nuovi tool di analisi, ma allo stesso tempo anche nuovi database dedicati che permettano lo storage ed una efficace ricerca dei dati • NCBI SRA (Sequence Read Archive) • NCBI BioProject: contiene schede «madre» che puntano ai singoli esperimenti contenuti in SRA SRA • Fondamentale per permettere la ricerca di dati genomici e trascrittomici generati con metodiche Illumina, IonTorrent, PacBio, 454, ecc. • File contenenti centinaia di milioni di sequenze • Campo in rapidissima evoluzione -> necessità una certa flessibilità di formato • Collegato a Bioproject e Biosample (database di campioni biologici) DATABASE TASSONOMICI • Necessità di linkare dati di sequenza ad identificativi di specie • Utilissimi per studi evolutivi e di genomica comparata • NCBI Taxonomy • Database dedicati (es. WoRMS, World Register of Marine Species) • Si è ben presto compreso che, nell'allestimento e riorganizzazione dei database e motori di ricerca, i "link" internet rappresentano il modo migliore per non appesantire i database, senza rinunciare a fornire un gran numero di informazioni. Infatti, anzichè riportare informazioni incomplete o ridondanti rispetto a database dedicati, si è intrapresa la strada dei link per associare alle entries informazioni specifiche. • I link stanno rapidamente anche trasformando le "cross-references", ovvero le indicazioni di accession e ID della entry corrispondente di un altro database (ad es., accession Genbank in una entry EMBL o viceversa), in veri e propri sistemi per rimandare in automatico alle relative pagine internet, consentendo un rapido confronto e l'integrazione dei dati. COME EFFTTUARE UNA RICERCA IN UN DATABASE? • La maggior parte dei database offrono le seguenti possibilità: • Utilizzare operatori Booleani (AND, OR, NOT) • Restringere la ricerca ad un organismo di interesse • Restringere la ricerca ad un intervallo temporale • Combinare più campi per ricerche complesse IDENTIFICATORI DI DATI • Alcuni tra i più comuni sono... • Geneinfo ID (gi): identificicati univoco per ogni sequenza. Stabile del tempo, non cambia quando la sequenza viene aggiornata (ne viene generato uno nuovo (es. GI:22477487) • PMID (o Pubmed ID, per articoli) • Locus name (identificatori originali di Genbank; prime 3 lettere dell’organismo, più codice per il gene. Es. HUMBB) • Accession number: numeri di targa/codici a barre per sequenze nucleotidiche e proteiche. Due lettere maiuscole seguite da numeri (non legati ad alcun significato biologico. Prima versione indicata da «.1» (es. BC037153.1), successive (aggiornate) da «.2», «.3», ecc.