PROGRAMMA DEL CORSO 16 ore 1. 2. Introduzione ai database di genetica e biologia molecolare. Omim, LocusLink, UniGene, GenCards (+ esercitazione). GDB Genetic Location Database, STS Based Map, Human Gene Mutation Database Siti web di interesse biomolecolare.Database di sequenze nucleotidiche e proteiche, ENTREZ, GenBank, SWISSPROT (+ esercitazione) PROGRAMMA DEL CORSO 16 ore 3. 4. 5. Database di sequenze genomiche e loro annotazione (Genome Browser e Ensembl) (+ esercitazione) Introduzione agli allineamenti di sequenze. Formato Fasta, allineamenti locali e globali, a coppie o multipli. Ricerca di similarita', significativita' di un allineamento, BLAST. Allineamento di sequenze trascritte con sequenze genomiche: BLAT. (+ esercitazioni) Introduzione all’utilizzo di database 1 Struttura e organizzazione di database I database sono insiemi di dati memorizzati su un computer con diversi livelli di astrazione al di sopra di essi. Ogni livello di astrazione consente di organizzare i dati contenuti e accedervi piu' facilmente, separando la richiesta dal meccanismo di recupero di specifici dati. Database diversi organizzano i dati in modi differenti. La metodologia piu' comune e' utilizzata dai database relazionali o RDBMS (Relational Database Management Systems). I piu' famosi sistemi odierni sono hanno struttura prevalentemente relazionale (es. Oracle, Sybase). Altra metodologia popolare e' quella orientata agli oggetti (OODBMS), in cui il l'intero contenuto del database e' gestito come oggetto di una classe specifica, in cui sono state definite delle regole per manipolare i dati in essa contenuti. Esistono poi dei pacchetti di database semplicistici che sono in relta' paradatabase, ovvero sistemi piu' o meno sofisticati di gestione di files. Tutti i sistemi di database impiegano delle interfacce (API, Application Programming Interface) per accedere ai dati ed, eventualmente modificarli. La manipolazione dei dati avviene attraverso un linguaggio di interrogazione che permette essenzialmente quattro operazioni principali: acquisizione, memorizzazione, aggiornamento e eliminazione di dati. Introduzione all’utilizzo di database Database flat-file Il tipo piu' semplice di database e' il database flat-file, formato da files di testo ASCII in formato standard che il programma esamina per cercare informazioni. Il formato e' di solito costituito da un insieme di campi, contenenti ciascuno una specifica categoria di informazioni, delimitati attraverso caratteri speciali o con lunghezza fissa assegnata. Il pregio principale dei database flat-file e' la semplicita' di gestione, controbilanciata pero' dalla loro incapacita' di gestire accesso concorrente e dalla mancanza di indicizzazione dei dati, che non consente interrogazioni sequenziali. Esempio. Database flat-file entry NA IN GR TM CA DE RE Torta sacher cacao, uova, farina, burro, 180 °C 40 minuti 500 porzione Torta buonisima, caratteristica di Vienna, si trova anche in Alto Adige. Dolci Altoatesini, Ed. Bo Introduzione all’utilizzo di database Database relazionali Il linguaggio SQL (Structured Query language) e' stato progettato per manipolare basi di dati (1970, Codd, IBM, modello relazionale). Un database relazionale e' percepito dall'utente con un insieme di tabelle, dove una tabella e' un insieme non ordinato di righe. Ogni riga ha un numero fisso di campi (colonne della tabella) e ogni campo puo' memorizzare un tipo predefinito di dati (numeri o stringhe). Le informazioni correlate possono essere conservate nello stesso punto o in punti distinti ma collegati a quello principale.Questo processo di razionalizzazione delle tabelle (normalizazione dei dati) fa si’ che i dati non risultino duplicati e ne riduce la ridondanza. I dati possono essere: numerici, carattere (stringhe di lettere e numeri), data (data, data piu' ora), binari (immagini, audio, ...) o NULL (privo di valore). Database compositi e information retrieval SRS - Sequence Retrieval System E' stato sviluppato per rendere possibile l'interrogazione di piu' database residenti nel medesimo sito, anche in assenza di un formato comune tra i diversi database. Si tratta di un network browser per database in biologia molecolare, sviluppato all’interno dell'European Molecular Biology network. SRS permette l'indicizzazione di qualsiasi flat-file database rispetto a qualsiasi altro. Tipicamente, SRS permette di collegare dati relativi ad acidi nucleici, EST, sequenze proteiche, pattern di sequenze, a strutture o di tipo bibliografico, senza che all'utente sia richiesta la conoscenza della struttura dei dati e dei linguaggi utilizzati. DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIM Online Mendelian Inheritance in Man LOCUSLINK curated sequence and descriptive information about genetic loci UniGene experimental system for automatically partitioning GenBank sequences into a nonredundant set of gene-oriented clusters GenCards database of human genes, their products and their involvement in diseases GDB Genome Database: stores information about genes and other genomic features HGMD Human Gene Mutation Database: information about disease-causing mutations in genes DATABASE DI GENETICA E BIOLOGIA MOLECOLARE OMIM http://www3.ncbi.nlm.nih.gov/Omim/ LOCUSLINK http://www.ncbi.nlm.nih.gov/LocusLink/ UniGene http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene GenCards http://bioinfo.weizmann.ac.il/cards/ GDB http://gdbwww.gdb.org/ HGMD http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html OMIM Online Mendelian Inheritance in Man Catalogo di geni umani e malattie genetiche (Dr. Victor A. McKusick, Johns Hopkins + NCBI) Contiene informazione testuale, riferimenti bibliografici e links a MEDLINE, sequenze e ad altre risorse OMIM gene map Posizioni di mappa citogenetica di geni-malattia e altri geni descritti in OMIM OMIM morbid map Posizioni di mappa citogenetica di geni-malattia indicizzati in OMIM OMIM OMIM Numbering and Symbols ID e’ un numero di 6 cifre. * 1----- (100000- ) Autosomal dominant (entries created before May 15, 1994) * 2----- (200000- ) Autosomal recessive (entries created before May 15, 1994) * 3----- (300000- ) X-linked loci or phenotypes * 4----- (400000- ) Y-linked loci or phenotypes * 5----- (500000- ) Mitochondrial loci or phenotypes * 6----- (600000- ) Autosomal loci or phenotypes (entries created after May 15, 1994) OMIM Varianti alleliche: stesso ID piu’ un altro numero di 4 cifre. For example, allelic variants (mutations) at the factor IX (hemophilia B) locus are numbered 306900.0001 to 306900.0101. The beta-globin locus (HBB) is numbered 141900; sickle hemoglobin is numbered 141900.0243. Asterisco (*) significa che il fenotipo legato al gene e’ diverso da quelli rappresentati da altre entries con l’asterisco e che si conosce il tipo di ereditabilita’. Se manca l’asterisco non sono chiari la separazione da altri loci o il modo in cui si eredita il fenotipo. (#) il fenotipo puo’ essere causato da 2 o piu’ geni (eterogeneita’ genetica). OMIM OMIM Statistics All Entries : 14315 Established Gene Locus (*) : 10628 Phenotype Descriptions (#) : 1269 Other Entries ( ) : 2418 Autosomal Entries : 13417 X-Linked Entries : 795 Y-Linked Entries : 43 Mitochondrial Entries : 60 Esempio di ricerca: search for ... 1. DYSTROPHY 2. CORNEAL DYSTROPHY LOCUSLINK Interfaccia unificata per cercare informazioni su sequenze e loci genetici. Presenta informazioni sulla nomenclatura ufficiale, accession numbers, fenotipi, MIM numbers, UniGene clusters, omologia, posizioni di mappa e link a numerosi altri siti web. Sequence accessions include a subset of GenBank accessions for a locus, as well as a new type, the NCBI Reference Sequence (RefSeq). Refseq LOCUSLINK Review status Validated Records for Homo sapiens Number of reference sequences Number of loci 17 17 3 3 Provisional 7890 7749 Predicted 3991 3963 Reviewed 8171 5470 Genomic 992 992 21064 18194 Inferred Total LocusLink records with sequence data for Homo sapiens 21933 LOCUSLINK LocusLink & RefSeq Development LocusLink and the curated RefSeq records are created via a process that includes automated computational methods,collaboration, and manual data curation by NCBI Staff. LOCUSLINK Examples of LocusLink Queries: http://www.ncbi.nlm.nih.gov/LocusLink/help.html Search for... Nebulin Rhodopsin UniGene UniGene è il principale "gene indexing" database, mantenuto all'NCBI UniGene si propone di rappresentare l'insieme dei geni umani espressi attraverso il raggruppamento in un unico "cluster" di tutte le EST e le sequenze annotate di DNA genomico, mRNA, derivanti dai database GenBank e dbEST, simili tra loro e ipoteticamente afferenti alla medesima unità trascrizionale. Il sistema di "clusterizzazione" si basa sulla similarità di sequenza e non sull'allineamento e le sequenze di scarsa qualità non vengono prese in considerazione. Le sequenze vengono comparate ognuna con tutte le altre in occasione di ciascuna delle frequenti versioni di UniGene e quelle che mostrano una similarità statisticamente significativa vengono inserite in un unico gruppo. UniGene Non viene costruita alcuna sequenza di consenso tra quelle di un "cluster", poiché a una singola unità trascrizionale possono corrispondere diversi contigui di sequenze espresse, a causa di fenomeni molto comuni quali o lo splicing alternativo o l'uso di diversi promotori per diverse isoforme. Il processo di "clusterizzazione" si svolge in diversi passaggi, con stringenza decrescente. Prima vengono filtrate le sequenze contaminanti, ripetute o a bassa complessità e quelle ribosomiali e mitocondriali, in modo che ogni restante sequenza, di lunghezza superiore a 100 bp sia candidata per far parte di un "UniGene cluster". Poi vengono comparate tra loro e raggruppate le sequenze di geni e messaggeri; a questi "cluster" vengono aggiunte le EST correlate per similarità di sequenza o per informazioni sul clone di derivazione. UniGene I "cluster" che non contengono il segnale di poliadenilazione vengono scartati, mantenendo solo i "cluster" "ancorati", ovvero quelli per cui è nota la sequenza 3', requisito fondamentale per l'identificazione di un gene. Gli ultimi stadi del processo provvedono all'assegnazione delle EST "orfane" e dei "cluster" di dimensione 1 a uno dei "cluster" "ancorati", con minore stringenza. Infine a ogni "cluster" viene assegnato il numero di identificazione, cercando di assicurare la massima continuità possibile con le precedenti versioni del database. I parametri usati da UniGene per il processo di raggruppamento delle sequenze in "UniGene entry" sono caratterizzati da un grado di stringenza piuttosto basso percio’ ci si aspetta che esista in UniGene un singolo gruppo di trascritti a rappresentare ogni gene umano, ovvero che, di converso, le sequenze di trascritti diversi, ottenuti per splicing alternativo da un medesimo gene, siano raggruppate insieme in un'unica "entry" . Search for... Search for... Nebulin nebulin Rhodopsin GDB http://gdbwww.gdb.org/ GDB contiene i seguenti tipi di dati: • Regions of the human genome, including genes, clones, amplimers (PCR markers), breakpoints, cytogenetic markers, fragile sites, ESTs, syndromic regions, contigs and repeats. • Maps of the human genome, including cytogenetic maps, linkage maps, radiation hybrid maps, content contig maps, and integrated maps. These maps can be displayed graphically via the Web. • Variations within the human genome including mutations and polymorphisms, plus allele frequency data. GDB Search and Browsing Options http://gdbwww.gdb.org/gdb/advancedSearch.html Example Searches http://gdbwww.gdb.org/gdb/queryfaq.html Search for... Nebulin Rhodopsin HGMD http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html Human Gene Mutation Database (HGMD) raccoglie le mutazioni conosciute (pubblicate) in geni umani, responsabili di malattie genetiche Creato per studiare il meccanismo delle mutationi nel genoma umano, per riconoscere le regioni e i loci ipermutabili Ora e’ importante anche come raccolta di dati. Utile per diagnosi molecolare di patologie e consulenza genetica. Non include mutazioni somatiche o mitocondriali, mutazioni silenti. Dal marzo 1999, HGMD include disease-associated polymorphisms. Basato sull’analisi di >250 riviste scientifiche. Search for... Nebulin Rhodopsin SITI WEB DI INTERESSE BIOMOLECOLARE DATABASE DI SEQUENZE NUCLEOTIDICHE E PROTEICHE GenBank SWISSPROT ENTREZ DATABASE PRIMARI Database di sequenze nucleotidiche e proteiche Collezioni di singoli records, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Le tre principali banche dati primarie sono: EMBL nucleotide database, ora gestita dall’EBI (1980) GenBank = banca dell NIH gestita dal NCBI (1982) EMBL = European Molecular Biology Laboratory (Heidelberg) EBI = European Bioinformatics Institute (Hinxton, UK) NIH = National Institutes of Health (Stuttura USA) NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986) DDBJ = DNA DataBase of Japan Nel 1988, i gruppi responsabili di questi 3 database si sono organizzati nell’International Collaboration of DNA Sequence Databases, e hanno deciso di utilizzare un formato comune per i records (non proprio identico, ma almeno deve avere sempre certe caratteristiche) e di scambiarsi giornalmente le sequenze. La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza é stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà’ solo di quel database, l’unico con il diritto di modificarlo (questo evita molti problemi). Il database che riceve la sequenza la invia poi agli altri due. Circa il 98% delle sequenze in un database sono presenti anche negli altri due. Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Questo implica pero’ ulteriori problemi perché si possono formare più’ facilmente doppioni. Problema della ridondanza. Quante sequenze ci sono in GenBank ? GenBank Statistics http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html La “Feature Table” stabilisce le regole da seguire per permettere lo scambio di dati tra i diversi database che collaborano all’ International Nucleotide Sequence Database Collaboration Submitting Sequence Data to GenBank The most important source of new data for GenBank® is direct submissions from scientists. GenBank depends on its contributors to help keep the database as comprehensive, current, and accurate as possible. NCBI provides timely and accurate processing and biological review of new entries and updates to existing entries, and is ready to assist authors who have new data to submit. DATABASE PRIMARI Database di sequenze proteiche SWISS-PROT Database di sequenze proteiche annotate e “scarsamente” ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche, ...), senza AC. TrEMBLnew, generato ogni settimana. GenBank Database di sequenze all’NIH 14,397,000,000 basi in 13,602,000 sequenze (Octobre 2001) Crescita esponenziale International Nucleotide Sequence Database Collaboration (DNA DataBank of Japan (DDBJ), European Molecular Biology Laboratory (EMBL), GenBank all NCBI) Scambio di informazioni ogni giorno Database compositi e information retrieval ENTREZ L'NCBI (National Center for Biotechnology Information) ha un ruolo fondamentale nel mantenimento di banche dati di informazioni di interesse biologico e nella diffusione di strumenti di analisi e biocomputing. L'NCBI sviluppa nuove tecnologie informatiche per favorire lo studio dei processi genetici e molecolari di impartanza biomedica. Ricadute di queste ricerche sono lo sviluppo di metodi per computer-based information processing e di sistemi che facilitano l'accesso degli utenti a database e software. Dal 1992, l'NCBI mantiene GenBank, il database di sequenze di DNA dell'NIH, che scambia dati con l'EMBL e il DDGJ. ENTREZ Database compositi e information retrieval ENTREZ ENTREZ e' stato sviluppato per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. Forse un po‘ meno flessibile di SRS, permette tuttavia il massimo sfruttamento del concetto di "neighbouring" offrendo la possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente "cross-referenced". Tipicamente, ENTREZ permette l'accesso a database di sequenze nuclotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed). Nucleotide Dati di sequenza da GenBank, EMBL, and DDBJ Protein Traduzione delle sequenze codificanti in GenBank, EMBL and DDBJ e sequenze di proteine sottomesse a PIR, SWISSPROT, PRF, Protein Data Bank (PDB) (sequenze da strutture risolte) Genome Sequenze di genomi completi di molti organismi Cromosomi completi Mappe di contigui Mappe genetiche/fisiche integrate Structure Dati sperimentali di cristallografia e NMR Cn3D program PopSet Sequenze allineate, risultato di studi di genetica di popolazione, filogenesi e mutazione. Sia proteine che nucleotidi Database Interlinking