Funzioni principali della Bioinformatica La realizzazione di BANCHE DATI BIOLOGICHE Messa a punto di sistemi idonei per collezionare ed interrogare l'enorme mole di dati biologici disponibili 1 Sorgente di un file HTML ( HyperText Markup Language) <html> <head> <title> il titolo </title> <metadata> </head> <body> Corpo della pagina <br> Ovvero “quel che si vede” <img src=”/miefoto/ritratto.jpg> <a href=”http://www.bio.uniroma2.it”> Vai al sito del Dip di Biologia </a> </body> </html> Esempi di XML ( eXtensible Markup Language) <!-- Edited by XMLSpy--> <note> <to>Tove</to> <from>Jani</from> <heading>Reminder</heading> <body>Don't forget me this weekend!>/body> </note> Esempi di XML ( eXtensible Markup Language) <CATALOG> <CD> <TITLE>Empire Burlesque</TITLE> <ARTIST>Bob Dylan</ARTIST> <COUNTRY>USA</COUNTRY> <COMPANY>Columbia</COMPANY> <PRICE>10.90</PRICE> <YEAR>1985</YEAR> </CD> <CD> <TITLE>Hide your heart</TITLE> <ARTIST>Bonnie Tyler</ARTIST> <COUNTRY>UK</COUNTRY> <COMPANY>CBS Records</COMPANY> <PRICE>9.90</PRICE> <YEAR>1988</YEAR> </CD> </CATALOG> <!DOCTYPE html> <html> <body> <script> xmlhttp.open("GET","cd_catalog.xml",false); xmlhttp.send(); xmlDoc=xmlhttp.responseXML; document.write("<table border='1'>"); var x=xmlDoc.getElementsByTagName("CD"); for (i=0;i<x.length;i++) { document.write("<tr><td>"); document.write(x[i].getElementsByTagName("ARTIST")[0].childNodes[0].nodeValue); document.write("</td><td>"); document.write(x[i].getElementsByTagName("TITLE")[0].childNodes[0].nodeValue); document.write("</td></tr>"); } document.write("</table>"); </script> </body> </html> DATABASE BIOLOGICI Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato ad una enorme produzione di dati biologici. Per la gestione di questi dati è quindi necessario disporre di potenti sistemi di archiviazione e strumenti per accedere alle loro informazioni. Sono essenzialmente dei contenitori ordinati di informazioni costruiti per introdurre e mantenere dati di tipo biologico e permetterne una facile consultazione (query) Raccolgono informazioni e dati derivati dalla letteratura e da analisi effettuate in laboratorio oppure attraverso l’applicazione di analisi bioinformatiche o analisi in silico. Sono generalmente accessibili liberamente e possono essere consultati via web. Ogni banca dati è caratterizzata da un elemento centrale attorno al quale viene costruita la entry della banca dati. Ad esempio, l’elemento centrale per le banche dati di sequenze di acidi nucleici è la sequenza nucleotidica di DNA o di RNA 10 Gli organismi viventi: classificazione Nelle scienze biologiche la classificazione è un concetto che si riferisce alle modalità con le quali i biologi raggruppano e categorizzano gli organismi viventi. La filogenesi è il processo evolutivo degli organismi viventi dalla loro comparsa sulla terra a oggi La classificazione filogenetica è un sistema artificiale che consente di identificare i gruppi tassonomici degli organismi viventi sulla base dei loro rapporti evolutivi 11 Gli organismi viventi: classificazione La moderna classificazione scientifica è il frutto della categorizzazione operata da Linneo e riletta secondo le teorie di Darwin Col sistema linneano ogni organismo viene posizionato, mediante una scala gerarchica, in una serie di gruppi tassonomici, detti taxa (taxon al singolare). Le suddivisioni principali, dal più generico al più specifico, sono: Dominio, Regno, Phylum, Classe, Ordine, Famiglia, Genere e Specie. 12 25-03-2011 Classificazione: esempi Drosophila melanogaster (moscerino della frutta) Homo sapiens Dominio Dominio 13 Eukaryota Eukaryota Regno Animalia Phylum Chordata Regno Animalia Phylum Arthropoda Classe Mammalia Classe Insecta Ordine Primates Ordine Diptera Famiglia Drosophilidae Genere Drosophila Specie melanogaster Famiglia Hominidae Genere Homo Specie sapiens Organismi: nomenclatura La nomenclatura binomiale è una convenzione standard utilizzata in biologia per conferire il nome ad una specie. Il nome scientifico di una specie viene coniato dalla combinazione di due nomi: il nome del genere a cui appartiene la specie un epiteto che caratterizza e distingue quella specie dalle altre appartenenti a quel genere. Il primo termine (nome generico) porta sempre l' iniziale maiuscola, mentre il secondo termine (nome specifico) viene scritto in minuscolo; entrambi i nomi vanno inoltre scritti in corsivo 14 Nomenclatura: esempi Genere Specie Nome comune Apis mellifera Ape Arabidopsis thaliana Arabetta comune Bombyx mori Baco da seta Bos taurus Toro Canis familiaris Cane domestico Drosophila melanogaster Moscerino della frutta Gallus gallus Gallo Homo sapiens Uomo Macaca mulatta Macaco Mus musculus Topo Ovis aries Pecora Pan troglodytes Scimpanzè Rattus norvegicus Ratto Zea mays Mais 15 I Geni Il gene è l’unità ereditaria e funzionale degli organismi viventi; ad esso sono associate molteplici informazioni: Analisi Filogenetica Struttura Sequenze omologhe in altri genomi Sequenza Gene Proteina (Funzione) Localizzazione genomica - Organizzazione delle banche dati Le banche dati biologiche raccolgono informazioni e dati derivati da: Letteratura; Analisi di laboratorio (in vitro e in vivo); Analisi bioinformatiche (in silico). Ogni banca dati è caratterizzata da un elemento biologico centrale che costituisce l’oggetto intorno al quale viene costruita la entry principale della banca dati. 17 Bioinformatica: Banche dati biologiche 25-03-2011 Organizzazione delle banche dati (2) Ciascuna entry raccoglie quindi le informazioni che caratterizzano l’elemento centrale (attributi). Molte banche dati biologiche sono fruibili da parte della comunità scientifica in formato flat-file, cioè file sequenziali nei quali ogni classe di informazione è riportata su una o più linee consecutive identificate da un particolare codice. Tali file sono dunque semplici file di testo strutturati in modo tale da essere analizzabili mediante opportuni tool in grado di estrarre le informazioni di interesse. 18 Bioinformatica: Banche dati biologiche 25-03-2011 Organizzazione di un database biologico L’oggetto principale è la ENTRY, una unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADERS (“etichette”), univoci nella banca dati; esempio Identificatore, Autore, Data, ecc. Un RECORD biologico LOCUS un codice DEFINITION descrizione della sequenza ACCESSION un codice ORGANISM l’organismo a cui appartiene la sequenza (e tassonomia) REFERENCE Riferimenti bibliografici a quella sequenza o chi l’ha sottomessa 19 In genere le banche dati presentano 2 versioni delle entries: Flat-file: un file di testo semplice, formattato, meno “accessibile” HTML (o XML): interattivo, di facile consultazione L’interattività ha un ruolo centrale per una banca dati: permette di navigare facilmente tra le sue entries e quelle di altri database. Sia i flat-file che le pagine HTML sono ricchi di cross-references, riferimenti che rimandano ad altre banche dati generiche o specializzate. Si ottiene così per ogni entry una serie di informazioni spesso ridondanti, tra cui è bene sapersi orientare, anche perché alcune sembrano in contraddizione. Esempi: - una proteina può avere dei riferimenti a sequenze codificanti diverse; - una entry può avere più nomi per descriverla o corrispondere a più autori. Collegamenti tra i database Caratteristica importante di questi database è il fatto che sono collegati (in modo intricato) tra di loro. Da un record di un database è possibile saltare, mediante un link ipertestuale, ai record ad esso correlati degli altri database integrati nel sistema. Tipologie di interrogazioni delle Banche Dati RICERCHE TESTUALI (QUERY) Utilizzano programmi di RETRIEVAL (di ricerca, reperimento dati) per restituire i record di un database che soddisfano i criteri richiesti. sfruttano una ricerca di tipo letterale ed individuano termini uguali. Ricordo che i database devono essere tutti standardizzati (tag, separatori, headers, segni di punteggiatura ecc): questo rende rapida la ricerca. RICERCHE PER SIMILARITÀ (su sequenze nucleotidiche o proteiche) Restituiscono le sequenze di un database più simili ad una sequenza fornita come query. Non sono delle vere e proprie query in quanto richiedono l’esecuzione di programmi anche piuttosto complessi (ad esempio BLAST o FASTA). 22 RICERCA BIBLIOGRAFICA Le modalità con cui si esegue una ricerca bibliografica sono di esempio per una qualsiasi ricerca testuale o query. Struttura di un articolo scientifico - Rivista dove è pubblicato (nome, data di pubblicazione, volume, pagina ) - Titolo - Autori - Abstract (Riassunto dell’articolo) - Introduzione Materiali e metodi Risultati, discussione, conclusione Descrizione del lavoro - Opzionali: ringraziamenti - Reference (Bibliografia) 23 Titolo Autori Abstract (riassunto) Introduzione Risultati 24 Discussione Correzioni Materiali e metodi References (citazioni) Informazioni supplementari in rete PubMed PubMed e’ una banca dati che permette di ottenere informazioni di tipo bibliografico nel campo della medicina e altre discipline di tipo biologico e naturalistico Il database contiene i riferimenti bibliografici a partire dagli anni ’50 e viene aggiornato giornalmente Gli articoli provengono da riviste scientifiche di tutto il mondo ma la maggior parte delle voci sono in lingua inglese o hanno almeno il riassunto in inglese L’accesso al testo completo degli articoli può essere gratuito o a pagamento a seconda della casa editrice PubMed è accessibile al seguente indirizzo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubm ed PubMed Risultati di una ricerca in PubMed Avviando una ricerca in PubMed viene mostrata una lista con i riferimenti bibliografici, in forma di semplici citazioni elencate in ordine cronologico di immissione nella banca dati con in testa i dati più recenti. Accanto ad ogni citazione compare un’icona che segnala la presenza/assenza dell’abstract e/o del full text: foglietto vuoto: citazione priva di abstract; foglietto scritto: citazione con abstract; foglietto evidenziato in verde: citazione con link al sito dell’editore, che offre gratuitamente il full text; foglietto evidenziato in arancio e verde: citazione con full text disponibile nell'archivio centrale di PubMed. Risultati di una ricerca in PubMed 30 OPERATORI BOOLEANI Questi potreste già conoscerli dalla matematica! ATTENZIONE! Oltre a quello nucleare, esiste anche il genoma mitocondriale, nei database sono depositate sequenze derivanti da entrambe le sorgenti!!! 31 L'uso dei limiti in PubMed Banche dati primarie Le banche dati primarie contengono sequenze nucleotidiche (DNA e RNA) e aminoacidiche (proteine). Esistono tre banche dati primarie: GenBank (NCBI – National Center for Biotechnology Information). EMBL datalibrary (EMBL – European Molecular Biology Laboratory). DDBJ (DNA Database of Japan) Questi istituti cooperano tra loro al fine di condividere e rendere pubblicamente disponibili tutti i dati di cui dispongono e differiscono tra loro solamente per il formato con cui tali dati vengono rilasciati. 33 Bionformatica Banche dati biologiche NBRF (1970) EMBL (1980), GenBank e DDBJ (1986) Metodologie bio-computazionali Programmi per la ricerca di similarità delle sequenze (BLAST e FASTA Studi di evoluzione molecolare PROSITE, EPD (1985) PDB (Protein Data Bank) Predizioni di strutture di RNA Predizioni di strutture secondarie proteiche Sistemi di interrogazione: SRS Entrez Predizioni di strutture tridimensionali proteiche Scopo di realizzare una banca dati Consentire la consultazione e l’analisi delle informazioni in essa contenute e di ogni altra informazione a esse correlate e memorizzate in altre banche dati Tipi di banche dati: Primarie o derivate Nelle banche dati primarie sono presenti solo le informazioni minime necessarie da associare ai dati per identificarli al meglio. Le banche dati derivate contengono invece insiemi di dati omogenei che possono derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore aggiunto alla banca dati stessa. Non Curate o curate Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con annotazioni da sistemi automatici. Le banche dati curate presentano informazioni che sono verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con segnalazione di possibili errori e conflitti con altri dati) Relazionali Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un esempio di programma per creare database). Tipologie di database Le basi di dati possono avere varie strutture, di solito, in ordine cronologico: gerarchica (rappresentabile tramite un albero – anni sessanta), reticolare (rappresentabile tramite un grafo – anni sessanta), relazionale (attualmente il più diffuso, rappresentabile mediante tabelle e relazioni tra esse – anni settanta), ad oggetti (estensione alle basi di dati del paradigma "Object Oriented", tipico della programmazione a oggetti – anni ottanta), semantica (rappresentabile con un grafo relazionale – inizio anni duemila). La gestione del database Il DBMS (DataBase Management System) è il software che consente di costruire e gestire una base di dati, realizzandola nella pratica su memoria di massa, a partire da un progetto e da uno schema dei dati definiti a livello concettuale e tradotto poi in un modello logico dei dati. Le funzioni che il DBMS è in grado di offrire sono: 1) Implementazione del modello logico sul sistema di elaborazione 2) Manipolazione e interrogazione sulla base di dati 3) Controllo dell’integrità dei dati 4) Sicurezza e protezione Linguaggi per database I comandi che il DBMS mette a disposizione possono essere classificati nelle seguenti categorie di linguaggi: linguaggio per la descrizione dei dati, delle tabelle e delle viste, detto DDL (Data Definition Language) linguaggio detto DMCL (Device Media Control Language), cioè il linguaggio di controllo dei supporti di memorizzazione dei dati linguaggio per il trattamento (o manipolazione) dei dati contenuti nel database, detto DML (Data Manipulation Language), che consente le usuali operazioni di accesso per inserimenti, modifiche o cancellazioni; linguaggio per fissare i vincoli di integrità, per stabilire le autorizzazioni agli accessi e i tipi di permessi consentiti agli utenti (inserimento di nuovi dati, sol lettura, modifica dei dati), detto DCL (Data Control Language). Linguaggio per le interrogazioni alla base di dati, detto Query Language, che consente il ritrovamento dei dati che interessano, sulla base dei criteri di ricerca richiesti dall’utente. Gli Utenti Un database viene utilizzato da persone diverse, per funzioni e per applicazioni diverse: la responsabilità della gestione del DB è affidata all’Amministratore della Base di Dati (DBA, Database Administrator), con i seguenti compiti: implementazione del modello logico del db nel sistema di elaborazione sui supporti fisici delle memorie di massa (es.create schema nome authorization utente /create table nome (attributo1 tipo1 [valore default]) gestione e trattamento dei dati (es. create index nomeidx on nometabella (attributi) autorizzazione degli accessi definizione delle viste per accessi parziali di utenti alla base di dati controllo dei programmi applicativi che richiedono l’uso del db manutenzione del database nel tempo, in termini di efficienza e di ottimizzazione delle risorse controllo sugli interventi di recupero, nel caso di cattivi funzionamenti, e sulle copie di salvataggio periodiche; controllo della disponibilità degli spazi su memoria di massa. i Programmatori che intendono utilizzare per le loro applicazioni i dati organizzati in un db, utilizzano un linguaggio DML, oppure comandi che sono un’estensione dei tradizionali linguaggi di programmazione, oppure un linguaggio specifico per basi di dati. gli Utenti finali possono accedere alla base di dati attraverso i comandi di un linguaggio di interrogazione (query language), oppure, per utenti finali ancora meno esperti attraverso interfacce software, che presentano sul video il menu o le icone. Linguaggi di programmazione server side ● ASP (di proprietà Microsoft) ● ColdFusion (di proprietà Adobe) ● CGI e/o Perl (open source) ● Java, J2EE o WebObjects ● PHP (open source) ● Python (open source) ● Smalltalk ● .NET (di proprietà Microsoft) ● 40 Attribute Tuple Relation Funzioni principali della Bioinformatica La realizzazione di BANCHE DATI BIOLOGICHE Messa a punto di sistemi idonei per collezionare ed interrogare l'enorme mole di dati biologici disponibili 42 La crescita dei dati genomici http://www.ebi.ac.uk/ena/about/statistics 43 Alcuni database di interesse biologico AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank, BIOMDB, BLOCKS, BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB, GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK, GenProtEC, GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD, YPM, etc ……………………..!!!! 45 istituzioni: NCBi e EBi NCBI (National Center for Biotechnology Information) 1983 http://www.ncbi.nlm.nih.gov/ EBI (European Bioinformatics Institute) 1982 http://www.ebi.ac.uk/ 47 NCBI accesso a TANTE risorse di vario tipo: -National Library of Medicine -National Institutes of Health -…. accesso a numerosi database attraverso il sistema Entrez: GenBank Swissprot PubMed Accesso tra l’altro a diversi software bioinformatici 48 EBI European Bioinformatics Institute (Hinxton – Cambridge, UK) 49 DDBJ 1984 50 Armonizzazione ed integrazione INSDC 51 Esempio entry in EMBL File flat-file File sequenziale nel quale ogni classe di informazione è riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli attributi annotati nella linea stessa. Vantaggi: 1. Molto semplice da creare 2. Facilmente analizzabile da diversi programmi Svantaggi: Dati eterogenei difficilmente maneggiabili Codici in un File flat-file Ogni sequenza inviata al database viene contrassegnata da un accession number (AC) permanente per l’entry. Viene anche assegnata una entry name (ID). Altre informazioni annotate: DT: date di creazione e aggiornamento KW: parole chiave per la descrizione OS: nome della specie OC: classificazione tassonomica RN, RA, RT, RL: informazioni sulla bibliografia FT: regioni funzionalmente caratterizzate SQ: sequenza nucleotidica NCBI flat file NCBI flat file Database Proteici UNIPROT (http://www.pir.uniprot.org) E’ la banca dati di riferimento per le sequenze proteiche. Deriva da un consorzio tra: 1. SWISSPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati originale, sviluppata in Svizzera. E’ una banca dati altamente curata, con alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di formato flat-file che si differenzia da quello di EMBL soprattutto per quanto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi 2. TREMBL (http://www.ebi.ac.uk/trembl/access.html): banca dati di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL, annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in REMTREMBL. In SRS con il termine SWALL è indicato l’insieme di SWISSPROT+ SPTREMBL. 3. PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso. Swiss-Prot (http://web.expasy.org/docs/swiss-prot_guideline.html) Il punto di forza di questo database è l’elevato livello di annotazione effettuata dai suoi curatori. Query di sequenza in UniProt Siamo interessati a conoscere la sequenza proteica codificata dalla lactate dehydrogenase A Anche in questo caso possiamo ottenere la sequenza proteica E molte altre informazioni sulla struttura secondaria, terziaria (via PDB), sulle varianti conosciute e sulla funzione della proteina ricercata 62 Database di STRUTTURE PDB (http://www.rcsb.org/pdb/home/home.do): Banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre tecniche (microscopia elettronica etc.). Comprende anche una sezione dedicata alle strutture delle proteine determinate tramite metodi computazionali. Anche in questo caso è stato recentemente creato un consorzio tra le tre organizzazioni responsabili del mantenimento dei server: RCSB (USA), MSD-EBI (EU) e PDBj (Giappone) MMDB [Entrez's Molecular Modeling Database] http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure NDB (http://ndbserver.rutgers.edu/) : banca dati di strutture di acidi nucleici, soli o assieme a proteine CSD (http://www.ccdc.cam.ac.uk/products/csd/) : banca dati di strutture di piccole molecole organiche ed organometalliche Il file PDB Il file PDB Altre banche dati che riguardano la struttura delle proteine: DSSP (Dictionary of Protein Secondary Structure) raccolta delle strutture secondarie. Programma: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html Database http://swift.cmbi.ru.nl/gv/dssp/ HSSP (Homology derived Secondary Structure of Proteins) contiene informazioni utili per costruire modelli di proteine. Database http://swift.cmbi.kun.nl/gv/hssp/ FSSP (Fold classification based on Secondary Structure alignment of Proteins) include l’allineamento con le proteine di struttura simile e riporta i residui che sono equivalenti nelle strutture. PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/) riassume per ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati. SCOP [Structural Classification of Proteins] (http://scop.mrc-lmb.cam.ac.uk/scop/) organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale. CATH (http://www.cathdb.info/latest/index.html) presenta una classificazione strutturale simile a quellla offerta da SCOP, basata su confronti di strutture. http://blanco.biomol.uci.edu/mpstruc/ SCOP. Structural Classification of Proteins 4 livelli: Classi, fold, superfamiglie e famiglie Primo livello CATH: Class- Architecture- Topology Homology Database gerarchico che suddivide: 1. per Classe Alla alpha All beta Mixed alpha-beta Non structured 2. per Architettura dei dominii (che presentano un a composizione simile delle strutture secondarie senza considerarne la topologia ovvero l'ordine) 3. per Topologia, ossia l'ordine strutturale dei motivi secondari 4 Homologus superfamily raggruppa le famiglie omologhe I browser genomici University of California Santa Cruz UCSC genome browser (http://genome.ucsc.edu/) L’enorme aumento dei dati riguardanti interi genomi, in particolare quelli derivanti dai progetti di sequenziamento di vertebrati, ha richiesto lo sviluppo di veri e propri browser di genomi. Per questo motivo presso la UCSC è stato sviluppato uno dei primi genome browser in grado di fornire una rapida visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni come: geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA, elementi regolativi, geni omologhi di altri organismi, ecc. Successivamente i principali siti (NCBI, EBI ecc.) hanno sviluppato piattaforme sempre più complesse, in grado di integrare il maggior numero di informazioni su una certa regione in particolare del genoma umano e di numerosi altri organismi. http://genome.ucsc.edu/ group Organismo di cui si vuole visualizzare la regione genomica Gruppo di organismi di interesse Nota: durante il sequenziamento di un genoma, spesso sono rilasciate versioni successive specialmente nella fase finale del progetto: possono essere più o meno definitive. Qui si fa riferimento a varie versioni (release) del genoma umano (l’ultima è del 2009). Pulsanti di spostamento sul genoma Posizione attuale sul genoma Pulsanti per ingrandire o rimpicciolire l’area di interesse chr: rappresentazione schematica e posizione Permette di “saltare” sulla posizione digitata sulla finestra di sinistra Posizione (bp) Geni con esoni, le barre spesse, e introni, le barre sottili. Traccia dei trascritti Grado di conservazione della sequenza tra organismi diversi Moltissimi sono i campi a disposizione, essi possono essere visualizzati in modo diverso o nascosti utilizzando le opzioni presenti nella parte inferiore della pagina Tipologia di traccia Ci sono varie possibilità di visualizzazione di ogni informazione sul genome browser. UCSC Genome Browser: descrizione del gene scelto ….e molte altre informazioni!! Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il gene tcap a seconda del record è riportato come titincap protein o telethonin. Questo crea confusione e non facilita la ricerca informatica. The Human Genome Organisation (HUGO) ha istituito un comitato allo scopo di dare un unico nome significativo a tutti i geni umani. Con questo intento è stato costruito il database HGNC. http://geneontology.org/ Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche differenti modi per descrivere le loro funzioni e le loro localizzazioni. A volte è corretto assegnare diverse funzioni ad una molecola biologica (una proteina che svolge più di una funzione): per non generare confusioni è però necessario usare una terminologia univoca per ogni funzione. Per questo motivo è stato fondato il database Gene Ontology: fornisce una definizione precisa del ruolo svolto dalle singole proteine tramite un vocabolario (le ontologie) che consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue localizzazioni cellulare. Nota: i link con la sigla ‘GO’ rimandano al database della gene ontology