Bionformatica Banche dati biologiche Metodologie bio-computazionali NBRF (1970) Programmi per la ricerca di similarità delle sequenze (BLAST e FASTA EMBL (1980), GenBank e DDBJ (1986) Studi di evoluzione molecolare PROSITE, EPD (1985) PDB (Protein Data Bank) Predizioni di strutture di RNA Predizioni di strutture secondarie proteiche Sistemi di interrogazione: SRS Entrez Predizioni di strutture tridimensionali proteiche La bioinformatica Nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche e cominciò a nascere l’esigenza di avere a disposizione sistemi informatici per l’archiviazione e l’analisi di dati di sequenza che sono state prodotte nel futuro in grande quantità. Compiti della bioinformatica: 1) Mettere a punto dei sistemi idonei per collezionare ed interrogare l’enorme mole di dati biologici. 2) Progettazione, implementazione ed applicazione di metodi matematico-statistici rivolti - alla caratterizzazione funzionale delle sequenza biologiche, - a studi di evoluzione molecolare - a studi strutturali degli acidi nucleici e delle proteine. Tre pacchetti per analizzare i dati: Genetic Computer Group EMBOSS http://emboss.sourceforge.net/ (commerciale) Phylip Analisi di evoluzione molecolare Infrastrutture bioinformatiche: EBI (UK) EMBL http://www.ebi.ac.uk NCBI GenBank http://www.ncbi.nlm.nih.gov:8000 Expasy http://www.expasy.org Sanger http://www.sanger.org SIB http://www.isb-sib.ch EMBnet http://www.embnet.org Programma del corso Le lezioni in laboratorio riguarderanno i seguenti argomenti: - Elementi di base di Informatica e Programma Access - Interrogazione di banche dati biologiche usando Entrez, SRS etc. - Ricerca in banche dati di sequenze nucleotidiche. - Ricerca in banche dati di sequenze e strutture proteiche. - Studio ed utilizzo di banche dati di geni e trascrittomi. - Allineamento di sequenze di acidi nucleici e di proteine mediante i programmi BLAST e FASTA. - Utilizzo di algoritmi per allineamenti multipli globali e locali e per la costruzione di alberi filogenetici (ad es. i programmi CLUSTAL e PHYLIPS). - Predizione della struttura secondaria di RNA. - Ricerca di motivi e pattern funzionali in proteine. - Programmi per la predizione della struttura secondaria (metodi statistici e neural network). - Programmi per la visualizzazione grafica di strutture proteiche. - Programmi per la predizione di struttura tridimensionale delle proteine. - Banche dati di interazioni proteiche e programmi di docking. Esercitazioni: -Ricerca in banche dati di sequenze nucleotidiche (EMBL, GenBank) e proteiche (SWISSPROT, Uni-Prot) -Ricerca in banche dati di strutture proteiche (PDB, CATH e SCOP) -Utilizzo del programma Access -Interrogazione in banche dati mediante SRS -Localizzazione di un gene sul genoma umano mediante Ensembl. - Predizione di geni codificanti proteine in sequenze genomiche. - Determinazione della struttura di un gene mediane il confronto tra la sequenza genomica e l’mRNA maturo. - Analisi di sequenze proteiche (peso molecolare, punto isoelettrico) utilizzando i tools sul sito Expasy. - Predizione della struttura secondaria di una proteina di cui è nota la sequenza mediante i programmi JPred e PsiPred. - Modellamento per omologia della struttura tridimensionale di una proteina a partire dalla sola sequenza usando SwissModel. Scopo di realizzare una banca dati Consentire la consultazione e l’analisi delle informazioni in essa contenute e di ogni altra informazione a esse correlate e memorizzate in altre banche dati Tipi di banche dati: Primarie o derivate Nelle banche dati primarie sono presenti solo le informazioni minime necessarie da associare ai dati per identificarli al meglio. Le banche dati derivate contengono invece insiemi di dati omogenei che possono derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore aggiunto alla banca dati stessa. Non Curate o curate Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con annotazioni da sistemi automatici. Le banche dati curate presentano informazioni che sono verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con segnalazione di possibili errori e conflitti con altri dati) Relazionali Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un esempio di programma per creare database). Banche dati biologiche Una banca dati biologica raccoglie informazioni e dati derivanti dalla letteratura e da analisi effettuate sia in laboratorio sia attraverso analisi bioinformatiche. Ogni banca dati biologica è caratterizzata da un elemento biologico centrale che costituisce l’oggetto principale intorno al quale viene costruita la entry della banca dati. Esempi di elemento centrale: 1) la sequenza nucleotidica di DNA nelle banche dati di acidi nucleici 2) promotore nelle banche dati di promotori eucariotici. Ciascuna entry raccoglie tutte le informazioni che caratterizzano l’elemento centrale. Esempio entry in EMBL File flat-file File sequenziale nel quale ogni classe di informazione è riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli attributi annotati nella linea stessa. Vantaggi: 1. Molto semplice da creare 2. Facilmente analizzabile da diversi programmi Svantaggi: Dati eterogenei difficilmente maneggiabili Codici in un File flat-file Ogni sequenza inviata al database viene contrassegnata da un accession number (AC) permanente per l’entry. Viene anche assegnata una entry name (ID). Altre informazioni annotate: DT: date di creazione e aggiornamento KW: parole chiave per la descrizione OS: nome della specie OC: classificazione tassonomica RN, RA, RT, RL: informazioni sulla bibliografia FT: regioni funzionalmente caratterizzate SQ: sequenza nucleotidica Tipi di banche dati: - Riferimenti scientifici - Sequenze nucleotidiche - Sequenze proteiche - Strutture Proteiche - Interazioni tra molecole - dati di espressione genica - malattie genetiche - pathway biochimici Sequenze nucleotidiche: GenBank EMBL LocusLink GeneCards RefSeq UniGene Ensembl Proteine SwissProt UniProt PROSITE PDB ENZYME CATH SCOP PDBsum Altre banche dati : PubMed OMIM UTR 2DPAGE IARC P53 Tipi di banche dati: Banche dati di letteratura scientifica (PubMed) Banche dati di sequenze nucleotidiche (EMBL, GenBank, DDBJ) Banche dati di geni (LocusLink, GeneCards, RefSeq, UniGene) Banche dati di genomi (Ensembl) Banche dati di prodotti di trascrizione (dbEST, UniGene) Banche dati di profili di espressione (GEO, ArrayExpress) Banche dati di polimorfismi e mutazioni (dbSNPs, HGMD) Banche dati di sequenze proteiche (SwissProt, UniProt, PIR) Banche dati di motivi e domini proteici (PROSITE, Pfam) Banche dati di strutture proteiche (PDB, CATH e SCOP) Banche dati di profili di proteomica (OPD) Banche dati di pathways metabolici (ENZYME, PATHWAYS) Banche dati mitocondriali (MITOMAP) Banche dati di malattie genetiche (OMIM) PUBMED (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed) E’ considerata la banca dati per eccellenza della letteratura medica e biologica. E’ consultabile in modo gratuito e permette il link diretto ai siti delle riviste per visionare o scaricare l’articolo (gratuitamente o a pagamento a seconda della policy della rivista). Le ricerche in PubMed possono essere effettuate tramite diverse opzioni: 1. Autore 2. Rivista 3. Parole chiave usando anche le possibilità offerte dal database Esercizio: Ricerchiamo gli articoli che negli ultimi 3 anni riguardano gli “amminacidi” usando l’opzione Limits Esempio PUBMED Esempio Risultato (febbraio 2007) Banche dati di sequenze nucleotidiche EMBL (Inghilterra) http://www.ebi.ac.uk/embl/ GenBank (America) DDBJ http://www.ncbi.nlm.nih.gov/Genbank/ (Giappone) http://www.ddbj.nig.ac.jp/Welcome-e.html Per ogni sequenza le informazioni riportate sono identiche anche se la struttura dei file è abbastanza diversa Banche dati di sequenze nucleotidiche Esercizi: 1. Ricercare la sequenza nucleotidica che corrisponde all’Accession number M10051 in EMBL. 2. Ricercare in GenBank tutte le entry che corrispondono al termine “myoglobin” 3. Confrontare le entry nelle due banche dati se ricerchiamo in entrambe all’Accession number M10051 UNIPROT (http://www.pir.uniprot.org) E’ la banca dati di riferimento per le sequenze proteiche. Deriva da un consorzio tra: 1. SWISSPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati originale, sviluppata in Svizzera. E’ una banca dati altamente curata, con alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di formato flat-file che si differenzia da quello di EMBL soprattutto per qunto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi 2. TREMBL (http://www.ebi.ac.uk/trembl/access.html): banca dati di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL, annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in REMTREMBL. In SRS con il termine SWALL è indicato l’insieme di SWISSPROT+ SPTREMBL. 3. PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso. Dal sito UniProt UniProt has three components, each optimized for different uses. The UniProt Knowledgebase (UniProtKB) is the central access point for extensive curated protein information, including function, classification, and cross-reference. The UniProt Reference Clusters (UniRef) databases combine closely related sequences into a single record to speed searches. The UniProt Archive (UniParc) is a comprehensive repository, reflecting the history of all protein sequences. Esempio UniProt home page Esempio di output Se clicco su MYG_HUMAN Database di STRUTTURE PDB (http://www.rcsb.org/pdb/home/home.do): Banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre tecniche (microscopia elettronica etc.). Comprende anche una sezione dedicata alle strutture delle proteine determinate tramite metodi computazionali. Anche in questo caso è stato recentemente creato un consorzio tra le tre organizzazioni responsabili del mantenimento dei server: RCSB (USA), MSD-EBI (EU) e PDBj (Giappone) MMDB [Entrez's Molecular Modeling Database] http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure NDB (http://ndbserver.rutgers.edu/) : banca dati di strutture di acidi nucleici, soli o assieme a proteine CSD (http://www.ccdc.cam.ac.uk/products/csd/) : banca dati di strutture di piccole molecole organiche ed organometalliche Esempio HomePage PDB 2MM1 Esempio di file PDB Altre banche dati che riguardano la struttura delle proteine: DSSP (Dictionary of Protein Secondary Structure) raccolta delle strutture secondarie. Programma: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html Database http://swift.cmbi.ru.nl/gv/dssp/ HSSP (Homology derived Secondary Structure of Proteins) contiene informazioni utili per costruire modelli di proteine. Database http://swift.cmbi.kun.nl/gv/hssp/ FSSP (Fold classification based on Secondary Structure alignment of Proteins) include l’allineamento con le proteine di struttura simile e riporta i residui che sono equivalenti nelle strutture. PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/) riassume per ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati. SCOP [Structural Classification of Proteins] (http://scop.mrc-lmb.cam.ac.uk/scop/) organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale. CATH (http://www.cathdb.info/latest/index.html) presenta una classificazione strutturale simile a quellla offerta da SCOP, basata su confronti di strutture. Esempio pagina web PDBsum e risultato di una ricerca Esempio pagina web CATH Esempio pagina web SCOP Esercizi: -Ricercare in CATH e SCOP le entries relative alla keyword “myoglobin” -Ricercare in PDBsum l’entry “2MM1” -Usare DSSP per assegnare la struttura secondaria della proteina che corrisponde al codice 2MM1 HGMD (Human Gene Mutation Database) Questa banca dati raccoglie i dati presenti in letteratura sulle mutazioni derivanti da alterazioni e disfunzioni geniche. Si annotano solo mutazioni sperimentalmente determinate sul DNA e non sulla proteina, ma le mutazioni silenti sono annotate solo se determinano influenze sullo splicing. Ogni mutazione è associata al fenotipo clinico OMIM (Online Mendelian Inheritance in Man) La banca dati OMIM nasce da un catalogo (MIM) per la raccolta delle informazioni correlate alle malattie genetiche di natura mendeliana. Il database attualmente contiene informazioni non solo su malattie genetiche di tipo autosomico, ma anche su malattie associate ad alterazioni dei cromosomi sessuali e dei mitocondri. Presenta cross-links a diverse altre banche dati. Sistema ENSEMBL (http://www.ensembl.org/index.html) raccoglie dati relativi alle annotazioni del genoma umano, murino, pesce zebra (Danio rerio) e la zanzara (Anopheles gambiae). Annotare un genoma significa caratterizzare le sue funzioni attraverso la ricerca di dati già determinati o attraverso l’applicazione di metodologie bioinformatiche che consentono di caratterizzare nuove funzioni Banche dati di motivi e domini proteici InterPro (http://www.ebi.ac.uk/interpro/) è una risorsa bioinformatica che raccoglie varie informaioni strutturali e funzionali relative ad una proteina o ad una famiglia di proteine. All’interno di InterPro sono comprese varie banche dati: PROSITE (http://www.ebi.ac.uk/ppsearch/): annota patterns amminoacidici individuati in un set di sequenze proteiche attraverso analisi in silico e studi sperimentali. PRODOM http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW è un database che raccoglie dati relativi a famiglie di proteine generate dall’applicazione di PSI-BLAST, che partendo dal confronto di una sequenza proteica contro un database diproteine, raccoglie in un multiallineamento tutte le sequuenze proteiche per le quali Blast ha determinato uno score più aòtro di un score indicato come threshold. PFAM è una banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali. PRINTS è un database che raccoglie sequenze proteiche in clusters definiti da un comune Fingerprint dove per Fingerprint si intende l’insieme di più motivi conservatie dedotti dall’osservazione di un multiallineamento ottenuto applicando algoritmi per la ricerca di similarità locali. SMART è una risorsa che raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche Esercizio: Ricerca in PRODOM inserendo la parola “myoglobin” in Keyword Search Esempio Prosite Esempio Prosite Modalità di ricerca dei dati È possibile utilizzare la logica booleana che consente di effettuare intersezioni (AND), somme (OR) ed esclusioni (BUT NOT) di insiemi di dati. Sistemi di interrogazione: Per SRS: SRS Entrez EMBL Genbank PDB MMDB …… ……. http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession Per Entrez: http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi ENTREZ (http://www.ncbi.nlm.nih.gov/Database/index.html) Comprende Medline banca dati bibliografica OMIM malattie mendeliane GenBank sequenze genomiche Taxonomy classificazione degli organismi La ricerca viene fatta sempre usando la combinazione di AND, OR and BUT NOT. Come SRS permette la navigazione tra le varie banche dati disponibili utilizzando il meccanismo dei neighbors Il comando History visualizza tutte le query selezionate nell’ambito però di una singola categoria (nucleotidi, proteine etc). History è l’equivalente di Resuls in SRS I dati associati a ciascuna query possono essere salvati e visualizzati mediante il comando Text Esercizio con Entrez (http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi): Cosa succede se io ricerco inserendo la keyword: myoglobin? Cosa succede se io ricerco inserendo la keyword: myoglobin human? SRS: - consente di interrogare più banche dati contemporaneamente più banche dati biologiche - sfrutta i meccanismi di codifica di cross-referencing e consente la navigazione tra le banche dati Nella top page sono riportati i nomi di tutte le banche dati indicizzate su server e raggruppate in categorie. A sinistra di ciascuna categoria è riportata una box con – quando è visibile l’intero elenco delle banche dati + quando c’è solo un testo succinto che descrive le caratteristiche della banca dati e dei suoi contenuti. Ci sono due possibili Query: 1. Standard Query Form 2. Extended Query Form Le Query usano 3 criteri possibili: AND: & in SRS OR: | in SRS BUT NOT: ! in SRS Possibili funzioni: Formati di visualizzazione menu View Salvare i dati comando Save Link consente di ottenere informazioni su dati presenti nella banca dati e correlati ai dati associati alla query prescielta. Launch consente di applicare programmi di analisi ai dati di sequenza associati alla query selezionata Tool: Blast, Fasta e Clustal In pratica SRS ci permette di: 1. scegliere i database da utilizzare per la ricerca 2. immettere una o più query concatenate 3. visualizzare i risultati in modo personalizzabile 4. Applicare i programmi di analisi ai risultati ottenuti 5. salvare nel server EBI i risultati di una ricerca e di richiamarli successivamente Esempi pratici ………. Differenze tra Entrez ed SRS: ENTREZ: E’ un sistema disponibile sul sito dell’NCBI (www.ncbi.nlm.nih.gov) per interrogare ed estrarre dati dalle più varie banche dati esistenti. Non è commercialmente disponibile e quindi non può essere scaricato ed installato localmente, né è possibile modificare le banche dati implementate sul sistema. SRS – Sequence Retrieval System Il nome può suggerire un uso limitato a “sequenze”. In realtà è un sistema utilizzabile su qualunque tipo di database. Molti centri di ricerca hanno installato SRS sul proprio web server utilizzandolo per offrire un servizio di consultazione di banche dati. Uno dei sistemi SRS più curati è quello presente sul sito dell’EBI (www.ebi.ac.uk) Esercizio usando SRS: 1. Ricercare in UniProt/SWISSProt tutte le sequenze di mioglobine 2. Lanciare un Blast su una sequenza a vostra scelta 3. Selezionare tutte le sequenze e ricercare le strutture corrispondenti nella banca dati PDB 4. Scelta una struttura ricercare le corrispondenti strutture riportate in DSSP 5. Modificare il modo di visualizzare i risultati 6. Salvare i risultati 7. Data una sequenza predire la sua struttura secondaria mediante Garnier