Cos’è un database Una banca dati è una collezione di informazioni, organizzate in maniera da facilitare l’accesso casuale, la ricerca ed eventualmente l’utilizzo a fini statistici. Nelle banche dati più semplici, spesso definite sequenziali, i dati sono organizzati in una tabella, all’interno della quale, in ciascuna riga è conservato un elemento della banca (entry): nome, cognome, numero di telefono, indirizzo, città. A ciascun elemento, quindi, sono associate caratteristiche differenti conservate in colonne successive diverse. Questa impostazione e’ sufficiente nei casi più semplici e crea un tabulato, ma porta alla frequente ripetizione dello stesse informazioni in righe diverse (es. alcuni cognomi ed alcuni indirizzi simili e la città che è sempre la stessa e si ripete, come si vede in figura 1. Il modello relazionale, riportato in figura 2, supera questo limite separando le informazioni in tabelle diverse. Gli stessi dati di figura 1 sono organizzati in due tabelle corrispondenti a “persone” e “indirizzi”. Le entries presenti nelle due tabelle sono collegate da link tra 1 identificativi numerici (id) assegnati a ciascuna entry, che vengono definiti relazioni. In figura 3 il processo viene ripetuto introducendo una nuova tabella, quella della città. Questo modello evita la ripetizione dei dati e permette una migliore organizzazione dei dati stessi, perchè spinge ad identificare meglio le diverse entità presenti nella banca dati e permette di porre al database delle queries con vincoli, per es. evidenziare tutti gli abitanti della stessa città che si chiamano Mario o che abitano nella stessa strada. Permettono, cioè, di ricavare subset di informazioni, già presenti nel database, ma non facilmente evidenziabili, creando in tal modo nuova informazione. Cosa sono le Banche Dati Biologiche In informatica, il termine database, tradotto in italiano con banca dati, base di dati o anche base dati, indica un insieme di dati riguardanti uno stesso argomento, o più argomenti correlati tra loro, strutturata in modo tale da consentire l'uso dei dati stessi (e il loro aggiornamento) da parte di applicazioni software. La base di dati, oltre ai dati veri e propri, deve contenere anche le informazioni sulle loro rappresentazioni e sulle relazioni che li legano. In un sistema informatico, una base di dati può essere manipolata direttamente dai programmi applicativi, interfacciandosi con il sistema operativo. Tale strategia era quella adottata universalmente fino agli anni sessanta, ed è tuttora impiegata quando i dati hanno una struttura molto semplice, o quando sono elaborati da un solo programma applicativo. Tuttavia, a partire dalla fine degli anni sessanta, per gestire basi di dati complesse condivise da più applicazioni, si sono utilizzati appositi sistemi 2 software, detti sistemi per la gestione di basi di dati (in inglese "Database Management System" o "DBMS"). Una delle attività principali dei bioinformatici consiste nella progettazione, costruzione e uso di banche dati di interesse biologico. Gli avanzamenti della biologia molecolare e dell'ingegneria genetica degli ultimi anni sono stati accompagnati da tecnologie strumentali sempre più sofisticate. Tutto questo sta portando ad una enorme produzione di dati, inimmaginabile fino a poco tempo fa. Questa figura è stata tratta da un lavoro di Mark Boguski (www.sciencemag.org); si può osservare che stiamo vivendo un momento molto particolare in cui la quantità di dati prodotti (sequenze di DNA nell'esempio) aumenta in modo molto più veloce rispetto al numero di pubblicazioni scientifiche. Il grafico si riferisce ai dati di sequenze di DNA che a loro volta corrispondono a geni e a proteine. Oltre ai dati di sequenze si stanno producendo molti altri dati in modo sistematico, ad esempio sull'espressione genica mediante la tecnica dei chip di DNA (microarray), oppure di espressione e interazione proteica con le tecniche della proteomica. Non avrebbe senso aumentare il numero di pubblicazioni scientifiche perchè non si può pensare che si possano leggere milioni di articoli diversi. E' quindi necessario disporre di nuovi sistemi di immagazzinamento e accesso all'informazione. Questa esigenza trova una risposta nelle banche dati che nel settore biologico si stanno diffondendo moltissimo e sono diventate uno strumento indispensabile per la ricerca e per la diffusione dei risultati. Una banca dati biologica raccoglie informazioni e dati che possono essere derivati dalla letteratura o da analisi effettuate in laboratorio (analisi in vitro o in vivo) oppure attraverso applicazioni di analisi bioinformatiche, dette analisi 3 in silico (si dice "in silico", in quanto i processori dei calcolatori sono costituiti da silicio) e dalla letteratura scientifica. Le banche dati sono progettate come contenitori costruiti per immagazzinare dati in modo efficiente e razionale al fine di renderli facilmente accessibili a tutti gli utenti: ricercatori, medici, studenti, etc. Entry Ogni banca dati biologica ha un elemento principale attorno a cui viene costruita la entry, contenente informazioni sull’oggetto caratteristico della banca dati (ad esempio: sequenze nucleotidiche o referenze bibliografiche) insieme a tutte le altre informazioni che si riferiscono a quella entry in particolare). Una entry di una banca dati di sequenze nucleotidiche potrebbe contenere, oltre alla sequenza di una molecola di DNA, il nome dell’organismo cui la sequenza appartiene, la lista degli articoli che riportano dati su quella sequenza, le caratteristiche funzionali (cioè si tratta di un gene o di una sequenza non codificante) e ogni altra informazione ritenuta di interesse. Esempio di entry: In una banca dati di sequenze di acidi nucleici l’elemento centrale è la sequenza nucleotidica di DNA o RNA a cui si associano annotazioni con le quali si classifica l’elemento come ad esempio il nome della specie, la funzione, le referenze bibliografiche, ecc. In una banca dati dei promotori eucaristici l’elemento centrale è il promotore. Ogni entry racchiude quindi le informazioni che caratterizzano l’elemento, cioè gli attributi dell’elemento centrale. Per definire la struttura di una banca dati si definiscono gli attributi e il formato con cui queste informazioni verranno organizzate. La maggior parte della banche dati biologiche possono essere usate dalla comunità scientifica in formato flat-file, cioè un file sequenziale in cui ogni classe di formazione è riportata su una o più linee consecutive identificate da un codice a sinistra che caratterizza gli attributi annotati sulla linea. Questo formato è molto utilizzato perché è molto leggibile e analizzabile con programmi che estraggono dalla banca dati informazioni specifiche. Prima tutte le banche dati biologiche erano in formato flat-file, oggi invece si usano i DBMS ovvero i Database Management System per disegnare banche dati sempre più complesse. Cross-referencing Uno dei problemi più grandi è il bisogno di avere accesso in modo immediato a informazioni distribuite fra varie banche dati. 4 Una soluzione è offerta dal cross-referencing (riferimento crociato) ovvero trovare collegamento tra i dati attraverso delle righe che relazionano i dati annotati da una entry di una specifica banca dati con altri dati presenti in altre entries in altre banche dati. Su internet questo meccanismo viene implementato con l’hypertext link, ovvero i link. Esistono anche altre soluzioni più complesse come il rilascio dei dati in formato XML (eXtensible Markup Language) che è un linguaggio simile all HTML ma che si può facilmente riportare a qualsiasi sistema Nascita delle banche dati biologiche 1965: Margareth Dayhoff compila un atlante di proteine omologhe studiando le relazioni tra le sequenze primarie Inizio anni 70: L’atlante viene reso pubblico in versione elettronica nella banca dati NBRF. E' questa la nascita della prima banca dati proteica. Ancora non ci sono dati di sequenziamento nucleotidico nella banca, sono tutti dati di natura biochimica classica, ma l’idea di rendere disponibili in modo libero dei dati accumulati e organizzati è alla base del concetto che muove gli organizzatori e i curatori delle banche dati, e che muove anche i fondi per la loro gestione Nasce inoltre la tecnologia del DNA ricombinante, che permette di manipolare le sequenze nucleotidiche e di capire la struttura, la funzione e l’organizzazione del DNA. Fine anni 70: pubblicazione dei primi dati genomici, con le prime sequenze nucleotidiche codificanti liberamente accessibili attraverso i rudimenti della rete disponibili a quel tempo tra le varie università. 2001: il Consorzio Pubblico Internazionale e la Celera Genomics forniscono dati del genoma umano completo, aprendo la strada ai progetti di sequenziamento a tappeto. Successivamente, l’approccio biotecnologico ha fornito una serie imponente di dati di natura proteomica grazie all’analisi spettrometrica e all’elettroforesi 2-D, ed una serie altrettanto vasta di dati di trascrittomica grazie alla tecnologia dei microarrays. Insieme ai dati nasce l’esigenza di sistemi di archiviazione e di ritrovamento facili e esaustivi, in modo da averli a disposizione in ogni istante, dato che sebbene ci siano tantissime informazioni, ognuna deve essere validata e confermata, essendo per la maggior parte dati grezzi non rielaborati. Conoscere il dato non significa capire il dato, serve sempre un approccio sperimentale classico perchè questo sia veramente verificato Interrogazione delle banche dati 5 Lo scopo di interrogare una banca dati è quello di ottenere informazioni da esse, attraverso sistemi informatici, e da altre banche dati cui è correlata. Uno dei principali problemi legati alle banche dati biologiche è quello dellanomenclatura. Non esiste uno standard nell’assegnazione di nomi ai geni; uno stesso gene può avere diversi nomi (Es. TRF2 è anche noto come TLP o TLF), o uno stesso nome può individuare diversi geni (Es. TRF sta per TBP Related Factor ma anche per Transferrina o ancora per Telomeric Repeat Binding Factor). Occorre quindi un modo per individuare univocamente i geni e le proteine, e per gestire la grande quantità di informazioni ad essi legate: nelle banche dati primarie ogni elemento (gene, sequenza, etc) è individuato univocamente da un accession number. Per realizzare l'estrazione di dati esistono vari sistemi fra cui i più efficienti sono SRS ed ENTREZ. Altri sistemi altrettanto validi sono ACNUC eAceDB. L’interrogazione di una banca dati può avvenire in maniera banale, inserendo il nome ricercato in una finestra di tipo text-search oppure tramite la sottomissione di forms in cui inserire varie informazioni sulla nostra ricerca. La logica di criterio è quella booleana che effettua intersezioni (operatore AND), somme (operatore OR), ed esclusioni (operatore BUT NOT), di insiemi di dati. SRS SRS (Sequence Retrieval System) è un sistema per la ricerca e l’estrazione di dati biologici via web. Esso consente di interrogare più banche dati differenti purché abbiano almeno un informazione comune. SRS inoltre consente la navigazione attraverso varie banche dati sfruttando il cross-referencing. Può essere installato su diversi server e interagire con altri server SRS o altre banche dati, con pochi accorgimenti. Si può attivare una sessione cliccando su start, visualizzando così la top page in cui è possibile scegliere tra le varie banche dati. Una volta scelte le banche dati è possibile effettuare una query riempiendo l’apposito form. Completato il form e cliccando su submit query verranno visualizzati tutti i risultati con le varie possibilità di visualizzazione, inoltre sarà possibile salvare i dati con il comando save. Altri comandi utili sono link con cui si ottengono vari link ad altre banche dati per ottenere ulteriori informazioni, launch con cui è possibile lanciare un programma di analisi e projects con cui vengono salvati tutti i dati relativi alla sessione nel caso in cui la stessa ricerca debba essere ripetuta più volte. 6 La home page di SRS: Entrez Entrez è un sistema disponibile via web per la ricerca e l’estrazione di dati da banche dati di sequenze nucleotidiche o proteiche, dalla banca dati bibliografica Meline, dalla banca dati delle malattie mendeliane OMIM, o da risorse gnomiche. Tramite Entrez è anche possibile esplorare la classificazione degli organismi come riportata inTaxonomy o su ogni altra banca dati specializzata sviluppata all’NCBI. Entrez, a differenza di SRS, è una shell chiusa in cui non è possibile scaricare via internet, o ottenere un software che gestisce l’intero sistema, né è possibile duplicare il sito su altri computer, né installare proprie banche dati personali. Per effettuare la ricerca bisogna scegliere una categoria e poi usare gli operatori logici AND, OR, BUT NOT. Si può usare la funzione Limits per limitare la ricerca ad alcuni criteri. Il comandoHistory visualizza tutti i risultati di una query relativi ad una categoria, che possono essere salvati col comando text. Entrez è usato soprattutto da ricercatori in quanto è un sistema di riferimento per la ricerca bibliografica sulla banca dati Medline che è la più completa banca dati bibliografica del settore bio-medico. L’NCBI ha incorporato Medline in Entrez chiamando il nuovo sistema formato da Entrez + Meline: PubMed. Poiché moltissime 7 banche dati hanno il cross-referencing a Medline è sempre possibile consultare la letteratura correlata ai dati biologici annotati nelle banche dati specializzate. La homepage di Entrez: ACNUC ACNUC è un sistema disponibile su mainframe con sistemi operativi linux o VMS. Consente l’estrazione dei dati dalle banche dati di sequenze di acidi nucleici (EMBL o GenBank) o proteiche (SWISSPROT). Si possono ricercare dati di una sola categoria per volta. I dati possono essere selezionati coi comandi Select o Find. Coi comandi Names, Short e Info si possono visualizzare o stampare i risultati ottenuti con select o find. ACNUC ha il vantaggio di poter estrarre sottosequenze omogenee definite attraverso le Feature tables. Ecco la formulazione generale per l'esecuzione del comando Select in ACNUC: "criterioA=value ET criterioB=value ET NO (criterioC=value OU criterioC=value)" 8 Qui invece la sintassi descrittiva del comando select in ACNUC per la ricerca di sequenze umane codificanti globine con esclusione delle alpha e beta globine "sp=homo sapiens" ET k=globin ET NO (k=alpha globin OU k=beta globin) eDB AceDB era stato sviluppato inizialmente per la gestione dei dati di mappaggio e sequenziamento del genoma Caenorhabditis elegans. Oggi è adottato per altri progetti genomici. AceDB comprende programmi per la strutturazione in formato AceDb di nuove banche dati per l’interrogazione e l’analisi dei dati in AceDB. Si può scaricare il pacchetto con questi programmi per ricercare dei dati o anche per aggiornare il database via web. Banche dati primarie e banche dati specializzate Le banche dati possono essere di due tipi: primarie o specializzate. Le banche dati primarie contengono informazioni e annotazioni molto generiche delle sequenze di acidi nucleici (DNA e RNA). Le principali banche dati primarie più importanti sono la EMBL datalibrary, la GenBank e la DDBJ. Nel 1981 nasce nel Laboratorio Europeo di Biologia Molecolare ad Heidelberg (Germania) l’EMBL-datalibrary, 519 entries con sequenze di DNA e RNA, l'autore è Kurt Stueber. La EMBL datalibrary è la banca dati europea costituita nel 1980 nel laboratorio Europeo di Biologia Molecolare di Heidelberg (Germania) e comprende numerose fonti, le seguenti: 9 La GenBank è la corrispondente banca americana costituita nel 1982 da Walter Goad La DDBJ infine è la corrispondente giapponese della GenBank, nata nel 1986 dal National Institute of Genetics in Mishima (Giappone). Fra le tre banche dati è stato stipulato un accordo internazionale per cui il contenuto dei dati di sequenza presenti nelle tre banche dati è quasi del tutto coincidente in quanto gli aggiornamenti quotidiani apportati in ciascuna banca dati vengono automaticamente trasmessi alle altre due. Le banche dati specializzate si sono sviluppate successivamente e raccolgono insiemi di dati omogenei dal punto di vista tassonomico e/o funzionale disponibili nelle Banche dati Primarie e/o in Letteratura, o derivanti da vari approcci sperimentali, 10 rivisti e annotati con informazioni di valore aggiunto. Un elenco dettagliato e aggiornato di tutte le banche dati biologiche disponibili e operative si può ottenere consultando la compilazione di banche dati sviluppata da Baxevanis in concomitanza con la pubblicazione annuale del volume speciale pubblicato annualmente da Nucleic Acids Research. Esistono anche banche dati a supporto di analisi sperimentali di routine. Ad esempio la REBASE è una banca dati che elenca tutti i nomi degli enzimi di restrizione isolati. Un esempio di entry proteica EMBL (flatfile) ACCESSION: AAC74054 indica il numero di accesso ORGANISM: Escherichia coli K12 Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia indica l’organismo a cui appartiene e la sua tassonomia. 11 12 13 Qualsiasi cosa è standardizzata, dai tags agli spazi ed ai segni di punteggiatura. Questo permette ai programmi di RETRIEVAL, cioè di ricerca, di trovare rapidamente ciò che si cerca. Banche dati di sequenze nucleotidiche Le banche dati di sequenze nucleotidiche sono la EMBL, la GenBank e la DDBJ. Poiché sono coincidenti (vedi banche dati primarie e specializzate) ne descriveremo solo una: la EMBL. Le entries nella banca dati EMBL sono classificate in divisioni identificate da un codice a 3 lettere annotato nella riga ID. Il raggruppamento nelle varie divisioni è basato prevalentemente sulla tassonomia tranne in alcuni casi come il gruppo delle EST (frammenti di sequenze espresse), delle HTG (sequenze derivate da progetti genomici), e altre ancora. Le banche dati di sequenze nucleotidiche (o primarie) sono aggiornate quasi via internet interamente dai ricercatori produttori di nuove sequenze. 14 Sono state organizzate nei primi anni in modo non molto accurato in termini di annotazioni e ridondanza di informazioni. Per questo motivo le analisi statistiche sui campioni estratti in modo automatico sono poco attendibili. In ogni caso il numero totale di specie differenti rappresentate nella banca dati EMBL ammonta a circa 87000. Banche dati di sequenze proteiche Le banche dati proteiche sono il secondo grande aggregato di dati biologici. Esse raccolgono sia sequenze proteiche ottenute dalla sperimentazione della sequenza amminoacidica, sia dalla traduzione di nucleotidiche. Qui si trovano i dati estratti dalle banche dati di acidi nucleici relativi a proteine che vengono poi accuratamente validati e arricchiti di informazioni specifiche. Le banche dati laTREMBL e di sequenze proteiche più importanti sono la SWISSPORT, la PIR La PIR, Protein Information Resource è sviluppata in collaborazione fra due grossi centri: la Georgetown University negli USA e il MIPS a Monaco di Baviera. Questa è una banca dati valida per il livello di annotazioni e il livello di aggiornamento ma è poco integrata con altre banche dati. La SWISSPORT è la banca dati di proteine di riferimento per tutti gli studi correlati in silicio di proteine e patterns proteici.E' sviluppata in Svizzera a Ginevra dal gruppo di Amos Bairoch che afferisce all’istituto nazionale SIB. La entry in SWISSPORT differisce per quella in EMBL soprattutto per le features che in questo caso descrivono la presenza nella proteina di amminoacidi modificati, regioni peptidiche, domini strutturali, siti di splicing proteici, polimorfismi e altri segnali e dati rilevanti per la struttura della proteina. C’è grande cura per l’annotazione del nome della proteina ma un problema è che spesso allo stesso gene vengono dati nomi differenti, rendendo difficile la ricerca per nome del gene. Per risolvere il problema è stato costituito un consorzio: Gene Ontology (GO). Sul sito del consorzio è disponibile un dizionario con tutti i nomi dei geni. In SWISSPROT sono riportate anche le informazioni relative ad alterazioni della proteina.; tali informazioni derivano da OMIM (On-line Mendelian Inheritance in Man). L’aggiornamento di SWISSPROT avviene tramite l’EBI dove viene sviluppata un’altra banca dati di proteine, TREMBL, che altro non è che il risultato della traduzione automatica in amminoacidi di tutte le sequenze annotate nella banca dati EMBL come sequenze codificanti di proteine. Una parte di queste sequenze costituisce la 15 SPTREMBL che si occupa delle proteine immunologiche,la REMTREMBL invece si occupa delle proteine brevettate e a frammenti non caratterizzanti. Se si vuole consultare contemporaneamente SWISSPROT e SPTREMBL si fa riferimento a SWALL che è una raccolta di sequenze proteiche ridondante e non accurata in tutti i suoi elementi Banche dati di motivi e domini proteici La comparazione per individuare caratteristiche strutturali e funzionali già riscontrate in altre sequenze ed annotate in specifiche banche dati si può effettuare attraverso l’applicazione di tecniche di ricerca di similarità, oppure, nel caso in cui tale ricerca non evidenzia sequenze simili a quelle in oggetto, attraverso l’applicazione di tecniche di ricerca di segnali (pattern recognition) basate su algoritmi più o meno complessi. L’approccio pattern recognition consente di ritrovare segnali, motivi o domini strutturali e funzionali che si conservano nel tempo anche quando le sequenze hanno subito una divergenza tale da aver perso in buona parte le caratteristiche di similarità globale. I motivi sono combinazioni regolari di strutture secondarie. Possiedono determinate funzioni biologiche. Esempi di motivi sono: elica-loop-elica, o zinc finger, o i motivi BH della famiglia BCL2. I domini sono invece regioni ampie e discrete di una proteina in grado di assumere una struttura terziaria (quindi di effettuare folding) fisicamente separata e distinguibile da altre parti della stessa molecola. A volte è possibile definire funzionalmente un dominio quando questo definisce una particolare funzione della proteina A questo proposito esistono diverse banche dati specializzate che annotano informazioni relative a motivi e domini funzionali. Tra queste un gruppo cospicuo è stato integrato in InterPRO, una risorsa bioinformatica, sviluppata dall’EBI, che consente di ricercare contemporaneamente su più banche dati, distribuite su calcolatori diversi e strutturate in modo differente, informazioni funzionali e strutturali relative ad una proteina o ad una famiglia di proteine. La ricerca dei dati in InterPRO si può effettuare attraverso un sistema di semplice ricerca basato su componenti del DBMS Oracle o attraverso il sito SRS dell’EBI. Inoltre attraverso il software InterPROscan è possibile ricercare motivi strutturali e funzionali annotati nelle banche dati integrate in InterPRO al fine di caratterizzare dal punto di vista funzionale nuove proteine derivate da progetti di sequenziamento genomico. Le banche dati integrate in InterPRO sono : PROSITE, Pfam, PRINTS, ProDom,SMART e TIGRFAMs. Ognuna di queste banche dati è stata prodotta a partire da dati di sequenze proteiche annotati in SWISSPROT e TREMBL, che sono la fonte primaria per i dati disponibili attraverso InterPRO. A causa della mancanza di una concordanza nella definizione dei 16 domini, delle famiglie, dei motivi e dei patterns, la navigazione in InterPRO non è del tutto immediata, è quindi necessario analizzare con cura e attenzione i risultati ottenuti, documentandosi direttamente sul sito riguardo l’organizzazione dei dati all’interno di ciascuna banca dati. La home page di InterPRO: PROSite E’ un database di famiglie e domini proteici comprensiva di pattern e motivi (signatures) che identificano e rendono riconoscibili e classificabili le proteine. La ricerca in prosite comprende anche altri database strutturali e di classificazione. 17 ProDom ProDom è un database che raccoglie i dati relativi a famiglie di proteine generate automaticamente dall' applicazione di PSI-Blast, una versione di gapped-Blast che, confrontando una sequenza proteica detta sequenza sonda, in un database di proteine, raccoglie un multi-allineamento di tutte le sequenze proteiche per le quali Blast ha determinato uno score più alto di una certa soglia detta threshold. Il risultato è un profilo generato a partire dal multi-allineamento trovato, il quale viene poi utilizzato per rilanciare Blast su tutto il database di proteine per individuare nuove sequenze correlate a quelle già allineate. Le nuove sequenze trovate vengono aggiunte al multi-allineamento al fine di ottimizzare ulteriormente il profilo. Questa procedura si ripetute finché non si raggiunge una certa convergenza. Ad ogni iterazione l’utente può decidere di eliminare sequenze incluse che ritiene non essere adatte alla propria ricerca. ProDOM è generato a partire da profili ottenuti dal multi-allineamento di famiglie di proteine annotate in PfamA. Infine ProDOM ha recentemente introdotto un nuovo sottoinsieme definito ProDOMCG che annota domini proteici di organismi per i quali è stato sequenziato il genoma completo. Pfam 18 Pfam è una banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali. Ogni entry in Pfam è formata da un tipo che può essere famiglia, dominio, repeat o motivo. Il tipo famiglia raggruppa le sequenze proteiche che hanno in comune gli stessi domini; Il tipo dominio definisce una unità strutturale che può essere presente in famiglie differenti; Il tipo repeats raggruppa elementi funzionali attivi e presenti in copie multiple in proteine globulari; Il tipo motivi include pattern componenti blocchi strutturali non associati a proteine globulari. Ogni dominio in Pfam ha dei limiti ottenuti dal database SCOP, un database gerarchico delle strutture di proteine nel quale si trovano le classificazioni dei domini strutturali. Poiché una stessa funzione proteica può essere caratterizzata da più domini, i links fra Pfam e SCOP possono essere molti a molti. Le famiglie di proteine non classificabili secondo i criteri su citati, ma che comunque sono state prodotte automaticamente attraverso l’applicazione di PSI-BLAST e quindi annotate in ProDOM, sono annotate in Pfam nel sottoinsieme Pfam-B, un database meno accurato ma comunque di supporto all’analisi proteomica. Pfam annota anche gruppi di proteine classificate per la presenza di regioni non definibili come domini, come per esempio gli elementi trans-membrana, i peptidi di segnale, regioni a struttura random e regioni a bassa complessità: questi patterns sono determinati attraverso l’applicazione di softwares specifici quali TMHMM, SignalP, ncoil e SEG e sono annotati nella sezione Non Pfam regions. Prints PRINTS è un database che raccoglie sequenze proteiche in clusters definiti da un Fingerprint comune, cioè un insieme di più motivi conservati e dedotti dall’osservazione di un multi-allineamento ottenuto applicando algoritmi per la ricerca di similarità locali; Il multi-allineamento prodotto non include gaps. I clusters sono classificati in una forma gerarchica di superfamiglie, famiglie e sottofamiglie. Il numero di famiglie annotate in PRINTS è ridotto rispetto a Pfam e ProDOM in quanto i dati, prodotti in modo automatico, successivamente sono rivisti manualmente e annotati con dati biologici derivati dalla letteratura e da ulteriori analisi. PRINTS può essere interrogato utilizzando un semplice sistema di ricerca testuale secondo criteri diversificati oppure è possibile effettuare una ricerca di similarità tramite Blast o applicare software specifici quali Fpscan, MulScan, GraphScan e FingerScan che ricercano, con modalità differenziate, in una nuova sequenza di cui di voglia caratterizzare la struttura e la funzione, fingerprints già annotati in PRINTS. 19 SMART SMART (Simple Modular Architecture Research Tool) è una risorsa Web che raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche. SMART per ogni famiglia di proteine associate a un dominio, annota informazioni sulla funzione sulla localizzazione cellulare, sulla struttura terziaria in cui è coinvolto il dominio e su relazioni filogenetiche fra le specie da cui sono derivati le proteine componenti la famiglia. Le informazioni vengono annotate a mano dopo accurate valutazioni. SMART raccoglie anche informazioni correlate a OMIM per quei domini dove sono state riscontrate mutazioni associate a fenotipi patologici. SMART cura particolarmente domini associati a elementi mobili presenti nei genomi eucarioti e annota anche gli elementi intrinsechi quali i peptidi segnale, gli elementi transmembrana e le regioni a struttura random. TIGRFAMs TIGRFAMs è una collezione di famiglie di proteine prodotta mediante annotazione biologica di semplici multi-allineamenti proteici o di profili ottenuti dalla ottimizzazione di multi-allineamenti attraverso Hidden Markov Models. Un’ultima banca dati da citare non integrata in InterPRO ma con crossreferencing a InterPRO, è ClusTR , un database di cluster di proteine multiallineate, prodotti automaticamente a partire dagli accoppiamenti fra tutte le proteine annotate in SWISSPROT + TREMBL. Il database è sviluppato dall’EBI Banche dati di strutture proteiche La conoscenza di motivi strutturali delle proteine è di grande importanza per la comprensione funzionale delle biosequenze. Per dati strutturali di una proteina si intendono la distribuzione spaziale degli atomi componenti gli amminoacidi e quindi degli amminoacidi stessi. Tali dati corrispondono alle coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X o mediante applicazione di tecniche di spettroscopia NMR su proteine cristallizzate. 20 L’unica banca dati che raccoglie tutte tali informazioni è la banca dati PDB che a gennaio 2002 riportava più di 16.000 strutture proteiche. Tale banca dati è un riferimento unico per tutti gli studi strutturali. I produttori di nuovi dati possono sottomettere nuovi dati utilizzando il sistema web ADIT (AutoDep Input Tool). Presso il sito del PDB sono disponibili dati statistici relativi al numero di strutture e alla loro distribuzione nelle varie classi di macromolecole. Nell’ambito dei dati strutturali le banche dati di notevole importanza sono: MMDB, CATH, DSSP, SCOP, MSDB. Banche dati immunitario biologiche per il sistema L’immunologia è una branca della moderna ricerca biomedica che si basa, tra le altre cose, sullo studio funzionale e strutturale delle macromolecole biologiche e sull’analisi di variabilità molecolare associata alle risposte immunitarie. Alcuni dei più rilevanti database nel settore immunologico sono: IMGT, MHCpep, FIMM e MPID. IMGT è il database internazionale di ImmunoGenetica e accoglie dati relativi alle ImmunoGlobuline, ai recettori delle cellule T(TCR) e al maggiore complesso di istocompatibilità di classe I e II. Il database riporta dati relativi alle sequenze, ai genomi, alle strutture e alla variabilità delle macromolecole immunologiche umane e di altri vertebrati. Il sito di IMGT consente di accedere al database per effettuare ricerca di dati, ricerca di similarità e altre specifiche analisi in silico. Il database contiene anche un sottodatabase IMGT/HLA esclusivo per il complesso HLA. IMGT è sviluppato in Francia dal gruppo di M.P.Lefranc a Montpellier ma in stretta collaborazione con l’EBI e con il gruppo SWISSPORT. I peptidi generati dal processamento di proteine antigeniche legano le molecole costituenti il complesso di maggiore istocompatibilità (MHC) che li presenta sulla superficie cellulare per il riconoscimento dei recettori delle cellule T. Tali peptidi sono definiti epitopi T-cell e sono caratterizzati da una estrema variabilità composizionale associata anche alla variabilità delle molecole MHC. MHCpep è un database che annota i dati di sequenza dei peptidi che legano molecole di MHC di uomo, topo, e in minima parte anche di ratto e di altri primati. Ogni entry è associata a uno specifico peptide che lega uno specifico allele MHC. Sono annotate anche informazioni sull’attività di legame e sui metodi con cui i peptidi sono stati determinati. Infine ciascun peptide è correlato attraverso le linee di cross-referencig alla banca dati SWISSPROT in modo da mettere in relazione il peptide con la corrispondente proteina sorgente. L’aggiornamento di MHCpep è bloccato a luglio 21 1998; dati più recenti possono essere ottenuti dal database FIMM. FIMM è un database di antigeni, molecole MHC, peptidi associati alle molecole MHC e dati correlati a patologie. A differenza di MHCpep che è un database disponibile in formato flat-file, scaricabile dalla rete e quindi consultabile a misura delle esigenze dell’utente, FIMM è strutturato in un pacchetto chiuso, secondo gli schemi delle cosiddette data-warehouse che consentono la ricerca e l’analisi dei dati esclusivamente secondo percorsi pre-progettati dal produttore del pacchetto stesso. Per esempio non è possibile estrarre l’intero database o un intero sottoinsieme del database come per esempio tutti i peptidi leganti MHC di classe I, ma è solo possibile consultare il database ed effettuare analisi molto mirate e specifiche. MPID (MHC Peptide Interactions DB) annota informazioni relative alle correlazioni sequenza-struttura-funzione per i peptidi che legano MHC. MPID riporta in particolare tutte le strutture delle proteine contenenti peptidi che legano i complessi MHC e informazioni slla caratterizzazione strutturale delle interazioni complesso-peptidi. Le strutture sono dedotte dal database PDB Banche Dati mitocondriali Gli organismi eucariotici contengono nel citoplasma delle loro cellule organuli di vario tipo fra cui i mitocondri, il cui ruolo è di assoluta importanza in moltissimi processi metabolici e di funzionalità della cellula. Le numerose e interessanti proprietà del mitocondrio fra cui le piccole dimensioni del suo genoma hanno favorito numerosi studi e anche grandi e coordinati progetti di sequenziamento dei genomi mitocondriali di vari organismi. Numerose informazioni sono disponibili tramite le banche dati specializzate come le seguenti: GOBASE (Organelle Genome Database) è una risorsa genomica che raccoglie dati sui genomi di cloroplasti e mitocondri. I nomi dei geni sono annotati secondo un vocabolario controllato definito da esperti. MITOMAP (Human Mitochondrial Genome Database) è un report aggiornato ai dati pubblicati di tutte le variazioni riscontrate sul DNA mitocondriale di soggetti affetti da patologie e su soggetti i cui campioni sono stati prelevati per studi di genetica di popolazione. I dati sono annotati in forma tabellare e possono essere estratti attraverso l’utilizzo di un sistema di interrogazione semplice. Non è presenta alcuna relazione tra i dati per cui non è possibile effettuare statistiche sulla frequenza di variabilità di ciascun sito del genoma in cui siano state riscontrate e annotate mutazioni. Human MitBASE è una banca dati nata per raccogliere in un'unica risorsa integrata i dati sul mitocondrio di tutti gli organismi eucariotici. I dati sono organizzati in base a ogni individuo, alla sua origine geografica e alla sua descrizione dei dati clinici associati. Ogni entry raccoglie moltissime informazioni associate all’individuo e ciò implica un notevole 22 dispendio di risorse umane e una difficoltà di mantenimento della banca dati stessa, che risulta meno aggiornata rispetto a MITOMAP. HrvBase è una banca dati che raccoglie i multi-allineamenti delle sequenze relative alle regioni di controllo del genoma mitocondriale dei primati. MITOP raccoglie informazioni su geni correlati alla funzionalità del mitocondrio di uomo, topo, lievito, Caenorhabditis elegans e Neurospora crassa. Ogni entry è associata a una proteina della quale sono annotate la classe funzionale, il codice dell’enzima, il complesso proteico di appartenenza della proteina, il peso molecolare, il punto isolettrico, etc. MitoNuc una banca dati di geni nucleari di metazoi per il mitocondrio. I dati sono estratti da SWISSPROT come sequenze mitocondriali di metazoi e vengono quindi accuratamente controllati e annotati con informazioni specifiche. Per quanto riguarda le proteine umane è riportata la localizzazione del gene sul genoma umano ottenuta attraverso analisi effettuate su Ensembl. AMmtDB è la banca dati dei multi-allineamenti di geni codificati da genomi mitocondriali di Metazoi. Ogni entry è gene e classe-tassonomica specifica. MITOCHONDRIOME è un sito web che raccoglie banche dati mitocondriali e informazioni correlate. Attraverso tale sito si accede alle banche dati Human_MitBase, MITONUC e AMmtDB oltre a dati ottenuti dall’analisi di variabilità e complessità di geni e egenomi mitocondriali di metazoi. PLMitRNA è una banca dati di molecole e geni di tRNA identificati nei mitocondri di tutte le piante verdi. Informazioni caratterizzanti il gene o la molecola sono annotate e possono esssere utilizzate per la ricerca dei dati. I tRNA possono essere selezionati per nome della specie o per raggruppamento tassonomico. Il multiallineamento di ciascun cluster di tRNA omologhi è anche disponibile. Risorse Genomiche Il progresso dei risultati ottenuti dai progetti genomici ha dato un grande grande impulso alla bioinformatica. Le risorse genomiche sono siti dove è possibile reperire dati relativi al mappaggio e al sequenziamento genomico ed eventualmente altre informazioni correlate. Le tipologie di tali risorse sono: Risorse integrate dove sono disponibili dati relativi a tutti i genomi attualmente in fase di studio (Entrez_Genomes o EBI_Genome) Risorse relative ai genomi di determinate categorie di organismi 23 Risorse organismo specifiche che hanno la caratteristica comune di poter scaricare sul proprio computer la sequenza dell’intero genoma o di parti di esse individuate dalla localizzazione cromosomiale o da uno specifico marker. E' poi sempre possibile effettuare ricerche di similarità di sequenza contro l’intero genoma o parti di esso mediante l’applicazione dei metodi FASTA e/o Blast. Banche Dati di Geni Numerose Banche Dati di geni sono stati sviluppate a partire prevalentemente da dati genomici o comunque da dati annotati nelle banche dati primarie. Ricordiamo tra gli altri: LocusLink, RefSeq,UniGENE, COGs,GENES ed euGENES. LocusLink è uno dei database sviluppati all’NCBI nell’attività di annotazione curata dei dati genomici. Vengono annotati, per ogni locus genetico (ogni elemento funzionale di un genoma), il nome ufficiale ed eventuali sinonimi, il codice della classificazione internazionale degli enzimi, se trattiamo degli enzimi, il link a OMIM, gli Accession_numbers delle sequenze nucleotidiche associate al locus e annotate nelle banche dati primarie e il link alle banche dati RefSeq e UniGene. COGs riporta una compilazione di geni ortologhi codificanti proteine relativi a organismi completamente sequenziati oppure clusters di geni paraloghi conservati in almeno 3 organismi differenti e significativamente distanti fra loro; queste ultime condizioni assicurano l’appartenenza delle proteine paraloghe a un dominio comune ancestrale. GENES annota le informazioni relative a tutti i geni identificati sui genomi completi sia di procarioti sia di eucarioti. EuGENES è ancora una banca dati di geni e genomi relativi a 7 organismi eucariotici e descrive circa 150.000 geni noti, predetti o non classificati. Banche dati di patterns nucleotidici Insieme alle banche dati dei geni abbiamo le banche dati di patterns nucleotidici o di regioni funzionali del gene associati a specifiche funzioni regolatorie e di controllo: EPD, TRANSFAC, UTRdb, TRANSTERM, TRANSCOMPEL EPD è una delle prime banche dati specializzate progettata, annota le info bibliografiche e sperimentali sui promotori eucariotici 24 TRANSFAC è la banca dati dei fattori di trascrizione che annota dati sui fattori proteici e sui corrispondenti siti di legame sul DNA coinvolto nell’attivazione e la regolazione della Trascrizione. Dal suo sito è possibile ottenere una scheda in formato flat-file con le caratteristiche dell'elemento. UTRdb svolge un ruolo importante poiché annota tutte le sequenze non tradotte dei messaggeri eucariotici derivate dalla banca dati primaria EMBL. TRASTERM è la banca dati degli elementi che regolano la traduzione e le modificazioni post-traduzionali. Gli elementi sono classificati dal punto di vista funzionale e strutturale, raggruppando gli elementi in categorie TRANScompel è la banca dati degli elementi compositi coinvoli nella regolazione della trascrizione. Elementi regolatori compositi (CE) annotano due siti di legame situati in posizioni vicine nella unità trascrizionale e che legano due distinti fattori di trascrizione ma controllano in modo combinato la regolazione della trascrizione. Banche Dati del trascrittoma In questi ultimi anni si stanno realizzando le banche dati del trascrittoma, ovvero dell’insieme di tutti i trascritti di un dato organismo ottenuti attraverso il sequenziamento delle EST (Expressed Sequenze Tags) o dei cDNA completi. Alcune tra le più importanti sono dbEST e UniGENE. dbEST raccoglie tutta la mole di dati relativi alle EST, ottenute tramite il sequenziamento parziale di cloni di cDNA UniGENE raggruppa sequenze geniche trascritte dedotte da sequenziamento di cDNA o di EST di uomo, topo, ratto, Drosophila, Anopheles, danio renio, Arabidopsis e altri organismi modello, in clusters teoricamente corrispondenti a un singoolo gene, attraverso criteri di similarità o provenienza da uno stesso clone 25 Banche Dati di profili di espressione La tecnologia dei microarrays permette in un solo esperimento di quantificare i trascritti di un intero genoma (il trascrittoma) e quindi di confrontare la variabilità di espressione di ciascun gene in tessuti diversi, in individui diversi, in stati patologici diversi. In pratica consente di associare il livello di espressione di un gene al corrispondente fenotipo. Molte delle altre risorse dei profili di espressione sono invece prodotte in modo non coordinato. Si è dato quindi avvio a progetti coordinati per la raccolta di questi dati, progetti che si stanno concretizzando nella realizzazione di tre banche dati:GEO, ArrayExpress e KEGG/Expression GEO (Gene Expression Omnibus) è sviluppato all’NCBI come risorsa eterogenea per la sottomissione e il retrieval di dati correlati a esperimenti basati sulla tecnologia dei microarrays e preposti allo studio di espressione di geni e di ibridizzazione fra genomi. I dati sono classificati in 3 categorie: platform (dati su tutte le sonde molecolari identificative di ciascuno spot per l’allestimento di un microarray), samples (dati sulle molecole che devono essere analizzate) e series (tutti i dati relativi a un esperimento). ArrayExpress è l’equivalente europeo di GEO e raccoglie dati eterogenei su profili di espressione. E’ strutturato utilizzando il DMBS Oracle secondo una definizione a oggetti. Riporta tutti i dati su interi esperimenti e anche le immagini grezze del profilo come viene prodotto dall’esperimento. Il database può essere interrogato attraverso un sistema semplice di ricerca testuale ed è interfacciato al sistema Expression Profiler che consente di analizzare i profili di espressione e di effettuare confronti tra differenti esperimenti. Le informazioni annotate in ArrayExpress sono raggruppabili in tre grandi categorie: Experiment, Array e Protocol. KEGG/Expression è un database che raccoglie dati sui profili di espressione ottenuti con la tecnica dei microarrays in vari laboratori giapponesi. Banche Dati di polimorfismi e mutazioni L’annotazione nelle banche dati di eventi generativi di mutazioni e polimorfismo è di rilevante importanza sia per studi di genetica di popolazione sia per studi di associazione fra mutazione e fenotipi con diversificate 26 manifestazioni cliniche. Il termine mutazione indica la differenza puntuale riscontrata in un campione rispetto al genoma di riferimento a causa di disfunzioni di un gene e quindi di manifestazioni di fenotipi patologici. Il terminepolimorfismo invece indica l’evento che lascia inalterata la funzionalità del gene. Una variazione che in una popolazione si riscontra con una frequenza superiore all’ 1% è considerata polimorfismo. Recentemente è stato introdotto un nuovo termine o meglio acronimo: SNP (Single Nucleotdice Polymorphism) e che dovrebbe indicare tutti i polimorfismi associati al cambiamento di un solo nucleotide. Per studiare la variabilità popolazionale in modo coordinato è stato creato il database HGVbase, che annota tutti i dati derivati da studi di variabilità popolazionale. Parallelamente è nato il database dbSNPs che annota dati di SNPs, ma anche polimorfismi di regioni e mutazioni associate all’insorgenza di una specifica patologia. Altre banche dati disponibili nell’ambito della variabilità sono HGDM, OMIM, Pharmacogenetics e Genes and Diseases HGMD ( Human Gene Mutation Database) raccoglie dati sulle mutazioni riportate come causa di alterazioni e disfuzioni di geni nucleari in malattie ereditarie. Non vengono annotate mutazioni somatiche o del DNA mitocondriale, inoltre sono annotate solo mutazioni sperimentalmente determinate sul DNA e non sulla proteina. Ogni mutazione è annotata una sola volta nella banca dati per evitare confusioni tra mutazioni frequenti e ereditarie. Questo impedisce però di effettuare valutazioni statistiche di variabilità in base ai dati annotati in HGMD. OMIM (Online Mendeliam Inheritance in Man) raccoglie informazioni correlate alle malattie genetiche di origine Mendeliana. Sono raccolti dati non solo sulle malattie genetiche di origine autosomica ma anche sulle malattie associate ad alterazioni dei cromosomi X e Y del mitocondrio. Sono curate le annotazioni dei dati attraverso l’uso di un vocabolario controllato relativo ai nomi dei geni. Genes and Disease è una risorsa di dati sviluppata in base alla patologia, da cui si arriva al gene e a informazioni correlate annotate in altre banche dati fra cui OMIM. Pharmacogenetics è una risorsa creata da una rete di laboratori di ricerca per la raccolta integrata di dati genomici, clinici e descrittivi del fenotipo derivati da studi di farmacogenomica. 27 Banche Dati di pathways metabolici Questi tipi di banche dati studiano i processi metabolici. L’idea è quella di realizzare network di dati biologici nei quali siano annotati i processi di interazione fra le molecole, per favorire la comprensione dei processi di regolazione dell’espressione genica e i processi post-traduzione relativi al trasporto e al metabolismo delle proteine. Esempi ne sono le banche datiKEGG, EcoCyc, ENZYME e Ligand. ENZYME riporta in una struttura gerarchica la classificazione internazionale degli enzimi. Ogni entry rporta un id corrispondente all’EC number, il nome dell’enzima e i suoi sinonimi, l’attività catalitica, gli eventuali cofattori, il cross-referencing alla banca dati delle proteine e alla banca dati OMIM. Ligand è la banca dati dei composti chimici e delle reazioni coinvolte nei processi metabolici. EcoCyc è un database di un organismo modello, l’Escherichia coli, che annota dati non solo genomici e proteomici, ma anche quelli relativi ai processi metabolici, al trasporto e alla regolazione dell’espressione dei geni di Escherichia coli. Vengono annotati una grande quantità di geni la cui funzione è stata determinata sperimentalmente, quindi è un’ottima risorsa per predire nuovi geni in genomi di altri organismi microbici. Questa banca dati è un valido modello utilizzabile come strumento didattico per lo studio e l’approfondimento delle scienze Biochimiche. KEGG è l’enciclopedia di Kyoto di geni e genomi ed è una risorsa integrata di banche dati correlate ai genomi completamente sequenziati o in fase di completamento. Lo scopo di tale banca dati è creare una rete tra le varie classi di dati per la comprensione dei meccanismi preposti alla funzionalità delle cellule e degli organismi a partire dai dati genomici. I database integrati in KEGG sono SSDB, Genes, Pathways, Kegg/Expression e Ligand. Banche Dati mitocondriali Gli organismi eucariotici contengono nel citoplasma delle loro cellule organuli di vario tipo fra cui i mitocondri, il cui ruolo è di assoluta importanza in moltissimi processi metabolici e di funzionalità della cellula. Le numerose e interessanti proprietà del mitocondrio fra cui le piccole dimensioni del suo genoma hanno 28 favorito numerosi studi e anche grandi e coordinati progetti di sequenziamento dei genomi mitocondriali di vari organismi. Numerose informazioni sono disponibili tramite le banche dati specializzate come le seguenti: GOBASE (Organelle Genome Database) è una risorsa genomica che raccoglie dati sui genomi di cloroplasti e mitocondri. I nomi dei geni sono annotati secondo un vocabolario controllato definito da esperti. MITOMAP (Human Mitochondrial Genome Database) è un report aggiornato ai dati pubblicati di tutte le variazioni riscontrate sul DNA mitocondriale di soggetti affetti da patologie e su soggetti i cui campioni sono stati prelevati per studi di genetica di popolazione. I dati sono annotati in forma tabellare e possono essere estratti attraverso l’utilizzo di un sistema di interrogazione semplice. Non è presenta alcuna relazione tra i dati per cui non è possibile effettuare statistiche sulla frequenza di variabilità di ciascun sito del genoma in cui siano state riscontrate e annotate mutazioni. Human MitBASE è una banca dati nata per raccogliere in un'unica risorsa integrata i dati sul mitocondrio di tutti gli organismi eucariotici. I dati sono organizzati in base a ogni individuo, alla sua origine geografica e alla sua descrizione dei dati clinici associati. Ogni entry raccoglie moltissime informazioni associate all’individuo e ciò implica un notevole dispendio di risorse umane e una difficoltà di mantenimento della banca dati stessa, che risulta meno aggiornata rispetto a MITOMAP. HrvBase è una banca dati che raccoglie i multi-allineamenti delle sequenze relative alle regioni di controllo del genoma mitocondriale dei primati. MITOP raccoglie informazioni su geni correlati alla funzionalità del mitocondrio di uomo, topo, lievito, Caenorhabditis elegans e Neurospora crassa. Ogni entry è associata a una proteina della quale sono annotate la classe funzionale, il codice dell’enzima, il complesso proteico di appartenenza della proteina, il peso molecolare, il punto isolettrico, etc. MitoNuc una banca dati di geni nucleari di metazoi per il mitocondrio. I dati sono estratti da SWISSPROT come sequenze mitocondriali di 29 metazoi e vengono quindi accuratamente controllati e annotati con informazioni specifiche. Per quanto riguarda le proteine umane è riportata la localizzazione del gene sul genoma umano ottenuta attraverso analisi effettuate su Ensembl. AMmtDB è la banca dati dei multi-allineamenti di geni codificati da genomi mitocondriali di Metazoi. Ogni entry è gene e classe-tassonomica specifica. MITOCHONDRIOME è un sito web che raccoglie banche dati mitocondriali e informazioni correlate. Attraverso tale sito si accede alle banche dati Human_MitBase, MITONUC e AMmtDB oltre a dati ottenuti dall’analisi di variabilità e complessità di geni e egenomi mitocondriali di metazoi. PLMitRNA è una banca dati di molecole e geni di tRNA identificati nei mitocondri di tutte le piante verdi. Informazioni caratterizzanti il gene o la molecola sono annotate e possono esssere utilizzate per la ricerca dei dati. I tRNA possono essere selezionati per nome della specie o per raggruppamento tassonomico. Il multiallineamento di ciascun cluster di tRNA omologhi è anche disponibile. Link utili EBI (European Bioinformatics Institute): http://www.ebi.ac.uk/ NCBI (National Center for Biotechnology Information): http://www.ncbi.nlm.nih.gov/ SRS (Sequence Retrieval System): http://srs.ebi.ac.uk/ MitBASE (banca dati integrata di sequenze di DNA mitocondriale): http://www3.ebi.ac.uk/Research/Mitbase/mitbase.pl Human MitBASE (banca dati di varianti di DNA mitocondriale Umane associate a studi di genetica di popolazione e a studi sulle patologie mitocondriali): http://srs.ebi.ac.uk/srs6bin/cgi-bin/wgetz?-page+LibInfo+lib+HUMAN_MITBASE MITONUC (banca dati di geni nucleari coinvolti nella Biogenesi del Mitocondrio): 30 http://bio-www.ba.cnr.it:8000/BioWWW/#MitoNuc Wikipedia, l'enciclopedia libera: http://it.wikipedia.org BANCHE DATI BIBLIOGRAFICHE MEDLINE (Medical Literature, Analysis, and Retrieval System Online) MeSH (Medical Subject Headings ) Differenza tra PubMed e Medline database di NLM delle citazioni su riviste e abstract che coprono 4500 riviste pubblicate negli USA e in altri 70 paesi a partire dal 1966. Per poter accedere a Medline tramite web si utilizza PubMed. Oltre a fornire accesso a Medline, Pubmed fornisce accesso ad altre info (citazioni fuori argomento) Ricerche bibliografiche PubMed (NCBI) NLM GAteway Journals Databases (NCBI) BOOKSHELF: collezione di testi biomedici; possibilità di ricerca online. Gene Ontology vocabolario descrittivo controllato delle funzioni molecolari, dei processi metabolici e delle localizzazioni cellulari di ciascun gene e del suo prodotto indirizzo. http://www.geneontology.org/ BANCHE DATI ACIDI NUCLEICI Banche dati primarie EMBL: http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/ GenBank: http://www.ncbi.nlm.nih.gov/Genbank/index.html DDBJ: 31 http://www.ddbj.nig.ac.jp/ BANCHE DATI GENOMICHE GDB http://www.gdb.org/ MGI http://www.informatics.jax.org/ SGD http://www.yeastgenome.org// Banche dati derivate: malattie genetiche OMIM Online Mendelian Inheritance in Man indirizzo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM FAQ: http://www.ncbi.nlm.nih.gov/Omim/omimfaq.html esempio: http://www.ncbi.nlm.nih.gov/Omim/omimhelp.html#QuickstartTutorial BANCHE DATI DI GENI E TRASCRITTI UniGene database di sequenze geniche trascritte dedotte da cDNA ed EST (ricavate dai databases primari) raggruppate in cluster che teoricamente corrispondono ad un singolo gene. http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=unigene LocusLink: database degli elementi funzionale del genoma (loci genetici). RIMOSSO NEL 2005 http://www.ncbi.nlm.nih.gov/LocusLink/ RefSeq: Dati di sequenze nucleotidiche associati a: genoma, cromosoma, regione genomica, mRNA, proteina Ad ogni entry è associata la sequenza più completa fra le ridondanti http://www.ncbi.nlm.nih.gov/RefSeq/ dbEST: http://www.ncbi.nlm.nih.gov/dbEST/ BANCHE DATI DI MUTAZIONI E POLIMORFISMI HGVbase: Annota i dati derivati da studi di variabilità della popolazione ricavate dalla sottomissione degli autori o attraverso la consultazione della 32 letteratura indirizzo: http://hgvbase.cgb.ki.se/ dbSNPs : annotazione di Single Nucleotide Polymorphisms; riporta anche polimorfismi di regioni e mutazioni associate all'insorgenza di una specifica patologia, basandosi sul principio che la variazione della sequenza sia associata a fenotipi ereditabili. Si vuole accelerare la scoperta di geni-malattia. DIFFERENZA DA OMIM: non si basa sull'analisi di pedigree, ma sulla tipizzazione di DNA ottenuti da un campione casuale di individui (più facile). http://www.ncbi.nlm.nih.gov/SNP/ HGMD (Human gene Mutation Databases) indirizzo: http://archive.uwcm.ac.uk/uwcm/mg/hgmd0.html BANCHE DATI DI REGIONI FUNZIONALI UTRdb: database delle regioni non tradotte dei trascritti (regolazione dei processi post-trascrizionali, compartimentazione dei trascritti, stabilità) Promemoria: diversi link http://www.ba.itb.cnr.it/BIGHome/ita/Sezione.htm utili in indirizzo: http://bighost.area.ba.cnr.it/BIG/UTRHome/ EPD (Eukaryotic Promotor Database) : collezione di promotori eucariotici per la POL II annotati e non ridondanti, il cui codone d'inizio trascrizione è stato determinato sperimentalmente. indirizzo: http://www.epd.isb-sib.ch/ TRANSFAC : Banca dati dei fattori di trascrizione. Annota i dati sui fattori proteici e i corrispondenti siti di legame sul DNA coinvolti nell'attivazione o regolazione della trascrizione indirizzo: http://www.gene-regulation.com/ TRANSTERM : Banca dati degli elementi che regolano la traduzione e le modificazioni pos-trascrizionali. Ricavato dalla banca primaria GenBank indirizzo: http://cbcb.umd.edu/software/transterm/ BANCHE DATI DI SEQUENZE PROTEICHE SWISS-PROT: http://us.expasy.org/sprot/ 33 banca dati di riferimento per analisi in silico. Le annotazioni sono: AC; nome; dati generali (features: aminoacidi modificati, regioni peptidiche di isoforme, domini strutturali, siti di splicing proteici, polimorfismi ecc.; informazioni su malattie ereditarie (OMIM). Cross-link con altre banche dati (Pfam ,PRINTS, ProDom, SMART, PROSITE, ecc) The UniProt Knowledgebase consists of: UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. TrEMBL contains the translations of all coding sequences (CDS) present in the EMBL Nucleotide Sequence Database, which are not yet integrated into SwissProt. PIR Protein Infromation Resource : http://pir.georgetown.edu/pirwww/ PIR offers a wide variety of resources mainly oriented to assist the propagation and standarization of protein annotation. Among these are: PIRSF, which provides curated protein families with rules for functional site and protein name; iProLink, that supports text mining in the area of literature-based database curation, named entity recognition, and protein ontology development; and iProClass, which contains value-added annotation reports for UniProt proteins. UNIPROT: http://www.pir.uniprot.org/ UniProt (Universal Protein Resource) is the world's most comprehensive catalog of information on proteins. It is a central repository of protein sequence and function created by joining the information contained in SwissProt, TrEMBL, and PIR. INTERPRO consorzio di database; integra numerose banche dati proteiche (PROSITE, Pfam,PRINTS,ProDom,SMART,TIGRFAMs). Consente di ricercare contemporaneamente informazioni funzionali e strutture relative ad una proteina o a una famiglia di proteine su più banche dati distribuite anche su calcolatori differenti e strutturate in modo differente. La ricerca dei dati può essere fatta attraverso il sito SRS dell'EBI. Attraverso il software InterPROScan è possibile ricercare motivi strutturali e 34 funzionali annotati nelle banche dati integrate in InterPRO al fine di caratterizzare dal punto di vista funzionale nuove proteine derivate a progetti di sequenziamento genomico indirizzo: http://www.ebi.ac.uk/interpro/ BANCHE DATI DI DOMINI PROTEICI PROSITE Patterns amminoacidici. L'entry è divisa in due parti: 1) PDOCxx: documentazione: funzionalità del pattern ; bibliografia NiceSite View (PSxx): annotazione del pattern (secondo regole della sequenza consenso); tutte le entry in SWISSPROT dove il pattern è localizzato (per ogni entry SWISSPROT riportato la funzionalità riscontrata in letteratura (T)=True (F)=false (P)=potential ; cross-reference in SWISSPROT e PDB indirizzo: http://us.expasy.org/prosite/ Pfam banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali . Si divide in due parti: PfamA: Ogni entry è caratterizzata da: - famiglia: sequenze proteiche accomunate dagli stessi domini - dominio: unità strutturale che può essere presente in famiglie differenti - repeats raggruppa elementi funzionali attivi e presenti in multi copia in proteine globulari - motivi pattern componenti blocchi strutturali non associati a proteine globulari PfamB: famigli proteiche ottenute automaticamente (PSI-BLAST e annotate in ProDOM) Questa parte del database è memo accurata della PfamA indirizzo: http://www.sanger.ac.uk/Software/Pfam/ ProDOM famiglie proteiche generate automaticamente da PSI_BLAST; il database è generato a partire da multiallineamento di famiglie di proteine annotate in PfamA indirizzo: http://prodes.toulouse.inra.fr/prodom/current/html/home.php SMART Raccoglie dati relativi a domini proteici e consente la ricerca di domini in nuove sequenze proteiche Sono annotate per ogni famiglia di proteine associate ad un dominio informazioni quali: - funzione - localizzazione cellulare 35 - struttura terziaria (del dominio) - relazioni filogenetiche tra le specie da cui sono derivate le proteine indirizzo: http://smart.embl-heidelberg.de/ PRINTS Raccoglie sequenze proteiche in cluster definiti da un comune Fingerprint (fingerprint è l'insieme di più motivi conservati e dedotti dal multiallineamento utilizzando similarità locale) I cluster ottenuti definiscono: - superfamiglie - famiglie - sottofamiglie associa a queste famiglie la loro funzionalità. E' un database ridotto rispetto a Pfam e proDOM, ma i dati sono vagliati in manuale e annotati con dati biologici derivati dalla letteratura e da ulteriore analisi indirizzo: http://bioinf.man.ac.uk/dbbrowser/PRINTS/ BANCHE DATI DI STRUTTURE PROTEICHE PDB È la principale banca dati delle strutture proteiche. Struttura di una proteina: distribuzione spaziale degli atomi che compongono la proteina (coordinate atomiche determinate con analisi cristallografiche con raggi X o NMR indirizzo: http://www.rcsb.org/pdb/ Altre banche dati di struttura ricavate da PDB: MMDB (Molecular Modeling DataBase) (NCBI) Strutture ricavate da PDB escludendo i modelli teorici e validate da diverse procedure. Contiene inoltre una definizione uniforme di strutture secondarie ecc. indirizzo: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure DSSP (Dictionary of Protein Secondary structure) Ad ogni entry di PDB sono associate le informazioni sulle relative strutture secondarie indirizzo: http://www.cmbi.kun.nl/gv/dssp/ HSSP (Homology derived Secondary Structure of Proteins) Contiene informazioni per costruire modelli di proteina a struttura non nota ma che abbiano una buona identità di sequenza. indirizzo: http://www.sander.ebi.ac.uk/hssp/ 36 FSSP (Fold classification based on Structure Structure alignment of Protein): classificazione della struttura sulla base della loro similarità (ricavato in modo automatico dal programma DALI) indirizzo: http://www.embl-ebi.ac.uk/dali/ SCOP (Structural Classification Of Protein): Organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale. Si base sui singoli domini raggruppandoli in famigli di domini simili. Queste famiglie sono organizzate in superfamiglie che sono raggruppate a loro volta in fold. I fold simili sono organizzati in classi: Classi: alpha, beta, alpha/beta, alpha + beta (in base alla struttura secondaria della proteina) Fold Superfamiglie Famiglie Domini indirizzo: http://scop.mrc-lmb.cam.ac.uk/scop/ CATH (Class Architecture,Topology, Homologus superfamilies) Simile a SCOP ma le strutture sono ricavate con il programma SSAP. indirizzo: http://www.biochem.ucl.ac.uk/bsm/cath/ BANCHE DATI MITOCONDRIALI MITOMAP http://www.mitomap.org/ GOBASE http://megasun.bch.umontreal.ca/gobase/ HUMAN MITOCHONDRIAL PROTEIN DATABASE http://bioinfo.nist.gov:8080/examples/servlets/index.html SISTEMI DI INTERROGAZIONE DELLE BANCHE DATI BIOLOGICHE SRS (Sequence Retrievel System): ( http://srs.ebi.ac.uk o http://bighost.area.ba.cnr.it/srs6/) Consente di interrogare contemporaneamente più banche biologiche Sfruttando i meccanismi di cross-referencing consente la navigazione tra 37 banche di dati differenti Può essere installato su qualsiasi server e può essere integrato con altre banche dati Una volta scelte la/le banche dati si può fare l'interrogazione con le - Standard Query Form: la relativa Query Page consente di selezionare i dati impostando 4 differenti criteri usando AND, OR, BUT NOT. All'interno di ciascun criterio è possibile selezionare più valori combinandoli con '&' (AND), '|' (OR), '!' (BUT NOT) - Extended Query Form: si adatta agli attributi delle banche prescelte. Consente di utilizzare tutti i criteri possibili di selezione che accumunano tali banche utilizzando gli stessi operatori della Standard Query Form. Dal menù View è possibile selezionare le banche e i campi desiderati da visualizzare Si possono salvare i dati sul proprio PC con lo stesso criterio adottato per la visualizzazione. Altre funzioni di SRS: Result: si visualizzano i risultati delle varie selezioni fatte in una sezione. Link: si ottengono dati presenti in altre banche correlati ai dati alla query prescelta Launch: (non sempre presente) consente di applicare programmi di analisi ai dati di sequenza associati alla query (Blast, Fasta, Clustaw, ecc) Projects: consente di salvare in un file tutte le fasi delle sessioni SRS per poi riutilizzarlo in sessioni successive consentendo di aggioranre i dati associati al progetto previa selezione dalla top page delle banche dati coinvolte. Entrez Ricerca ed estrazione dei dati da bache dati di sequenze nucleotidiche o proteiche, dalla banca dati bibliografica Medline, dalla banca dati delle malattie mendeliane OMIM o da risorse genomiche. Possibilità di esplorare ogni altra banca sviluppata all'NCBI (es. la classificazione degli organismi riportata in Taxonomy ) A differenza di SRS, Entrez è una shell chiusa, non è possibile scaricare il software che gestisce il sistema, quindi non è possibile duplicare Entrez in altri computer e non è possibile integrarlo con dati personali. Ricerca dati previa scelta della categoria: nucleotide, protein, PubMed, genomes ecc.) usando gli operatori booleani. La ricera può essere ottimizzata mediante la funzione Limits che consente di limitare la ricerca a solo alcuni criteri o a sottoinsiemi selezionati di dati. Consente di effettuare una navigazione fra le diverse banche disponibili. Con il comando History si visualizzano tutte le query selezionate nell'ambito di una categoria di dati (nucleotide, protein, ecc) I dati ottentuti e associati a ciascuna query possono essere visualizzati e salvati sul proprio PC. RISORSE GENOMICHE INTEGRATE ENSEMBL 38 http://www.ensembl.org Raccolta e annotazioni di dati genomici: - umano - topo - pesce zebra (Danio retrio) - Anopheles gambiae Riporta dati sul mappaggio dei geni e polimorfismi È possibile visualizzare ed estrarre dati relativi ai geni come i suoi trascritti, le sue proteine, domini funzionali delle proteine, mutazioni o SNPs e correlazione con le malattie genetiche. E' possibile effettuare una ricerca di similarità con una sequenza mediante BLAST i cui risultati sono visualizzati sui cromosomi con differenti colori. I dati presenti in Ensembl possono essere completamente scaricati in locale GENOME BROWSER http://genome.ucsc.edu/ MIRROR ITALIANO: http://genome.cribi.unipd.it/ Link utili SRS italiano: http://bighost.area.ba.cnr.it/srs6/ Come usare le banche dati I seguenti files formato "pdf " sono tratti dal sito http://www.ceebt.embo.org"Continuing Education for European Biology Teachers" e mostrano come utilizzare le banche dati SwissProt, OMIM e PubMed nel dettaglio. (vedere file Pdf a parte) 1. Swiss Prot 2. OMIM 3. PubMed GLOSSARIO (voci tratte da Wikipedia) Genoma: è l'insieme dei geni di un organismo vivente. L'informazione genetica è portata dalla molecola di Acido desossiribonucleico (DNA) che, associato aproteine, è il principale costituente dei cromosomi degli Eucarioti. L'insieme dei cromosomi, o comunque delle molecole di DNA, determina il patrimonio genetico. Il DNA è latore dell'informazione ereditaria il cui meccanismo d'azione è stato ampiamente decifrato grazie allo studio degli Acidi nucleici. 39 Il patrimonio genetico strutturale è scritto nella catena del DNA con un codice detto Codice genetico che mette in corrispondenza le quattro basi azotate che entrano nella composizione del DNA stesso con gli amminoacidi. Ciascuna parola del codice è costituita da una serie di tre basi detta tripletta. Ognuna di esse indica agli organi effettori (RNA e ribosomi) che deve essere preso un determinato amminoacido e legato alla catena polipeptidica che si sta costruendo. Da ciò si coglie che il fenomeno genetico fondamentale, a livello cellulare, è la sintesi delle proteine. Proteoma: Il termine proteoma, coniato da Mark Wilkins nel 1995 (1), è usato per descrivere l'insieme delle proteine di un organismo o di un sistema biologico, ovvero le proteine prodotte dalgenoma. Il termine è stato applicato a diversi tipi di sistemi biologici. Esiste un proteoma cellulare, che è un insieme di proteine trovate in un particolare tipo di cellule in particolari condizioni ambientali, come ad esempio sotto esposizione ad una stimolazione ormonale. Può anche essere utile considerare il proteoma completo di un organismo, che può essere immaginato come l'insieme globale delle proteine di tutti i proteomi cellulari. Questo è, grosso modo, l'equivalente proteico del genoma. Il termine "proteoma" è stato usato anche per riferirsi all'insieme delle proteine di un sistema biologico sub-cellulare: ad esempio l'insieme delle proteine di un virus può essere detto proteoma virale. Il proteoma è più grande del genoma, specialmente negli eucarioti, perché ci sono più proteine chegeni. Ciò è dovuto all'accoppiamento dei geni ed alle modificazioni posttraslazionali come laglicosilazione o la fosforilazione. Il proteoma mostra almeno due livelli di complessità che mancano al genoma. Mentre il genoma è definito da una sequenza di nucleotidi, il proteoma non si limita alla somma delle sequenze di proteine presenti. La conoscenza del proteoma richiede di conoscere, oltre alle strutture delle proteine del proteoma, anche le interazioni funzionali tra le proteine stesse. Lo studio del proteoma è detto Proteomica. Esso è stato a lungo praticato con la separazione delleproteine per mezzo della elettroforesi bidimensionale su gel. Nella prima dimensione, le proteine sono separate per punto isoelettrico, che distingue le proteine sulla base del loro pH. Nella seconda dimensione le proteine sono separate per massa molecolare usando l'SDSPAGE. Il gel è colorato conCoomassie Blue o argento per visualizzare le proteine. Le macchie sul gel sono proteine che sono migrate in posizioni specifiche. Lo spettrometro di massa ha migliorato la proteomica. La tecnica nota come Peptide mass fingerprinting identifica una proteina scindendola in brevi segmenti peptidici e successivamente deducendo l'identità della proteina confrontando le masse dei peptidi con quelle di un database di riferimento. La spettrometria di massa, d'altra parte, può fornire informazioni sulle sequenze dapeptidi singoli isolandoli, trattandoli con un gas inerte e quindi catalogando i frammenti ioniciprodotti. In Silico: La locuzione latina in silico, tradotta letteralmente, significa nel silicio. La locuzione, comparsa di recente in letteratura scientifica, è usata per indicare fenomeni biologici riprodotti in una simulazione matematica al computer, invece che in provetta o in un essere vivente. Infatti il silicio, è la sostanza di cui sono fatti i componenti elettronici all'interno della quasi totalità dei computer, anche se il concetto di simulazione matematica non ha niente a che fare con il silicio. Al contrario, se il fenomeno biologico si riproduce in provetta, si dice "in vitro", mentre se si riproduce in un essere vivente si dice "In vivo". La ricerca scientifica in silico è ovviamente il frutto della recente informatizzatione della ricerca. Inbiologia hanno assunto un importanza fondamentale le basi di dati che contengono i dati disequenziamento del DNA e i livelli di espressione genica di un gene. Inoltre sono stati creati numerosiprogrammi informatici per l'analisi e l'interpretazione di dati sperimentali. La ricerca in silico consiste dunque nell'uso di tali programmi e raccolte di dati allo scopo di 40 ricavare nuove informazioni dalla comparazione, interpretazione, analisi ed interconnessione dei dati. Nucleotidi: I nucleotidi sono i monomeri che formano i polimeri DNA e RNA a seconda che lo zucchero sia desossiribosio o ribosio. Sono costituiti da un gruppo fosfato, da uno zucchero pentosio (desossiribosio o ribosio appunto) e da una base azotata. I nucleotidi sono degli esteri fosforici deinucleosidi, costituiti da tre subunità: una base azotata (purina o pirimidina), uno zucchero a cinque atomi di carbonio (pentosio) e un gruppo fosfato. Il pentosio può essere ribosio o desossiribosio. Il nucleotide è inoltre il monomero costitutivo degli acidi nucleici (DNA e RNA). La presenza del residuo fosforico conferisce carattere fortemente acido ai nucleotidi (per questo noti anche come acido adenilico o acido guanilico). L'aggiunta di uno o di due altri residui fosforici nella catena (fosforilazione ossidativa) produce i nucleoside-di- e trifosfati (NDP e NTP), i quali svolgono un ruolo fondamentale nel metabolismo energetico della cellula. Mirror: In Informatica il termine mirror viene utilizzato per indicare una copia esatta di un insieme di dati. L'utilizzo più conosciuto di questo termine lo si trova nei mirror dei server internet: un intero sito (pagine HTML ma anche semplici file binari) viene copiato su di un altro computer per essere reso accessibile anche da altre fonti. Il motivo principale dell'utilizzo dei mirror sta nel sovraccarico del sito originale che spesso non possiede una banda sufficiente per l'utenza a cui è destinato. Attraverso questo meccanismo (il cui aggiornamento viene svolto automaticamente a intervalli regolari) una stessa risorsa può essere disponibile a un maggior numero di utenti. Amminoacidi: in chimica gli amminoacidi (o aminoacidi) sono molecole che nella loro struttura recano sia il gruppo funzionale dell'ammina (-NH2) che quello dell'acido carbossilico (-COOH). In biochimica il termine amminoacidi si riferisce più spesso agli L-α-amminoacidi, cioè quelli il cui gruppo amminico ed il cui gruppo carbossilico sono legati allo stesso atomo di carbonio (chiamato appunto carbonio α) in configurazione L Peptidi: sono molecole di peso ≤5000 dalton, costituiti da una catena di pochi amminoacidi (fino a 100 circa), che si uniscono tra di loro attraverso un legame peptidico. A loro volta queste catene peptidiche si uniscono formando le proteine. Tra i peptidi troviamo l'ossitocina (ormone neuroipofisario), le bradichinine (antinfiammatorio tissutale), gli ormoni (o fattori) ipotalmici (che favoriscono/inibiscono la sintesi di ormoni ipofisiari),ilglutatione, le encefaline (analgesici naturali prodotti nel Sistema nervoso centrale). Splicing: Il termine splicing (saldatura) indica, nella lingua inglese, la maturazione del trascritto primario dei geni discontinui. La maggior parte dei geni eucariotici conta regioni presenti nel mRNA maturo (esoni) e altre non presenti (introni). Alcuni introni sono presenti anche nei geni degli archeobatteri, mentre sono assenti in quelli degli eubatteri. Dopo la trascrizione da parte della RNA polimerasi il trascritto primario va incontro a numerose modificazioni. Prima fra tutte l’eliminazione degli introni, denominata splicing. Fingerprint: La fingerprint (impronta digitale) in informatica è una sequenza alfanumerica o stringadi bit di lunghezza prefissata che identifica in maniera univoca un certo file. Viene utilizzata per garantire l'autenticità e la sicurezza dei file ma soprattutto per identificare rapidamente file distribuiti in rete tramite sistemi di file-sharing. 41 Eucariota: Il termine eukaryota (o eucariote, eucariota, o eukarya) deriva dalla fusione dei due termini greci "Eu", bene e "Carion", nucleo. Le cellule, in base alla loro organizzazione interna, possono essere distinte in due grandi categorie: le cellule procariote, esclusive dei Procarioti (rappresentati dal regno Monera), e le cellule eucariote, che sono invece caratteristiche di organismi viventi più evoluti, gli Eucarioti.Tali organismi sono classificati nei rimanenti quattro regni dei viventi (Protisti, Piante, Funghi e Animali). Il dominio Eukaryota comprende organismi, mono- o pluricellulari, costituiti da cellule eucariote che hanno come caratteristica principale la presenza di un nucleo, ben definito e isolato dal resto della cellula tramite l'involucro nucleare, nel quale è racchiuso la maggior parte del materiale genetico, ilDNA (una parte è contenuta nei mitocondri). Queste cellule presentano una dimensione maggiore (solitamente il loro asse maggiore è compreso fra i 10 e i 50 µm) e sono dotate di un citoplasma compartimentato da membrane interne che delimitano degli organuli specializzati. Ognuno degli organuli immersi nel citoplasma è deputato a svolgere una particolare funzione. Gli organuli presenti in tutte le cellule eucariote sono un nucleo, diversi mitocondri, le cisterne delreticolo endoplasmatico e dell'apparato di Golgi, vacuoli (vescicole temporanee tra cui i lisosomi). Sono presenti aggregati complessi come i ribosomi, e varie fibre proteiche che costituiscono il citoscheletro. Gli Eucarioti si distinguono dai Procarioti anche per numerose caratteristiche a livello molecolare quali, ad esempio: diverse proprietà delle sequenze genomiche regolatrici geni organizzati in "introni ed esoni" con conseguente processamento (splicing) del trascritto primario trascrizione e traduzione di un trascritto sono eventi separati nello spazio e nel tempo i trascritti eucariotici non sono (quasi) mai policistronici, ossia portano una sola ORF percentuale di DNA non codificante molto più elevata DNA associato ad istoni diversa percentuale di G-C nel genoma presenza di colesterolo nella membrana cellulare. Solo negli Eucarioti si ha riproduzione sessuale: le cellule eucariote presentano due modi di divisione: la mitosi e la meiosi. Tutte le cellule possono dividersi attraverso il processo di mitosi, ma solo quelle diploidi possono subire la meiosi. Cromosoma: in biologia, il cromosoma è un corpuscolo che appare nel nucleo di una cellula eucariota durante la mitosi o la meiosi. In greco "chroma" significa "colore" e soma significa "corpo". Essi sono colorati da sostanze apposite, perché siano visibili al microscopio. Sono costituiti da un filamento di DNA e da proteine. I cromosomi sono spesso presenti in coppie, 23 nella specie umana, di cui 22 coppie sono cromosomi omologhi (cioè simili) detti autosomi ed una coppia di cromosomi diversi che sono i cromosomi sessuali. Tutti i cromosomi sono portatori dei caratteri ereditari. Le cellule che hanno coppie di cromosomi omologhi sono dette diploidi (2n), mentre sono definite aploidi (n) quelle che possiedono solo un cromosoma per tipo. I nuclei delle cellula eucariotica contengono un materiale che si colora intensamente con certi coloranti istologici e viene quindi detto cromatina. Durante l'interfase la cromatina non rivela 42 alcuna struttura, se non la differenziazione tra una componente maggioritaria più lassa (eucromatina) e una più condensata (eterocromatina). Durante la divisione cellulare la cromatina si suddivide in un numero ben definito di corpiccioli con la dimensione maggiore dell'ordine del micrometro: i cromosomi. Nella cellula appena formata, i cromosomi hanno forma di bastoncelli: l'unica struttura evidente al microscopio è una strozzatura detta centromero. Nella metafase i cromosomi hanno una forma a X, dovuta al fatto che si sono quasi completamente duplicati e risultano formati da due cromatidi identici, uniti per il centromero che si divide per ultimo. Al microscopio ottico, i cromosomi sono distinguibili tra loro per le dimensioni e per la "forma", ossia per la posizione del centromero. Ulteriori distinzioni si possono effettuare con opportuni trattamenti chimici, che evidenziano un bandeggio: l'alternanza di bande con diversa pigmentazione. Numero e struttura dei cromosomi costituiscono il cariotipo, ben evidenziabile (e fotografabile) durante la metafase, in cui i cromosomi si dispongono nella piastra metafasica. La cromatina è costituita permanentemente da DNA e proteine. Il Dna è avvolto attorno a cilindretti formati dai quattro tipi di istoni, proteine basiche: tale fibra fondamentale si chiama cromonema ed è ulteriormente avvolta in strutture di ordine superiore. 43