Esercitazione 1 – parte 1- database e motori di ricerca Una breve introduzione sui database biologici Esistono molti centri di bioinformatica che hanno sviluppato diversi database; talvolta questi database sono molto specialistici ed hostati su piattaforme indipendenti (come vedremo nelle prossime lezioni), ma più spesso sono interconnessi. Ad esempio, consultando la sequenza di un gene sarà possibile recuperare anche la sequenza dei vari trascritti da esso codificati e delle proteine tradotte, la letteratura disponibile e un elevato numero di ulteriori informazioni. Elemento fondamentale di un database è la singola scheda o entry che contiene le informazioni (la sequenza ed alcune annotazioni nel caso si tratti di una sequenza, autori/giornale/data di pubblicazione/abstract nel caso si tratti di un articolo, ecc.). In diversi database le entry sono compilate in modo diverso, ma comunque sia ogni entry è composta da diversi campi cui corrispondono specifiche informazioni (che possono essere utilizzate singolarmente o in combinazione per una ricerca). Tipo e numero di campi definiscono l’annotazione di una entry; la qualità dell’annotazione dipende dal numero, dalla correttezza delle caratteristiche segnalate e se esse siano state verificate sperimentalmente o meno (in tal caso si parla di “predizioni”, molto comuni quando si tratta di annotazioni genomiche; è molto frequente ritrovarsi davanti a casi di “PREDICTED protein” o “UNCHARACTERIZED protein”). I campi presenti per ciascuna entry sono svariati, e tra i più comuni possiamo ricordare accession ID (il nome univoco di un oggetto, di solito si tratta di una sigla in caratteri alfanumerici), l’organismo (il nome scientifico della specie), etc. Nell’esercitazione di oggi verranno visitati i 2 motori di ricerca più importanti dedicati a database biologici, che verranno utilizzati per fare delle ricerche semplici e leggermente più complesse, si analizzeranno i dati ottenuti con i due motori di ricerca, cheverranno poi comparati tra loro. I 2 siti sono quelli dell’NCBI americana (National Center for Biotechnology Information) e dell’EBI europea (European Bioinformatics Institute), che gestiscono i motori di ricerca Entrez e EBI search. I 2 motori accedono a diversi db, che si possono interrogare separatamente o insieme. Cosa molto importante è che i 2 centri si scambiano le informazioni giornalmente, grazie ad un accordo internazionale in cui è coinvolto anche il DDBJ (la banca dati biologica giapponese DNA Data Bank of Japan). Nelle pagine iniziali dei due motori di ricerca sono indicati i database specifici che è possibile interrogare. Nel sito dell’NCBI, questi sono anche accessibili con un semplice click sempre dalla pagina principale di Entrez: ad esempio è possibile accedere a informazioni di tipo bibliografico riguardanti la nostra ricerca, utilizzando il db Pubmed. Spesso queste informazioni sono accessibili anche attraverso link presenti nelle schede estratte attraverso i motori di ricerca. L’interrogazione di questi permette di farsi un’idea sulla funzione di un gene o di una proteina e di ricavare molte altre informazioni riguardo all’oggetto della ricerca e permettono, inoltre, di capire se quello che abbiamo trovato è un falso positivo o meno. Le interrogazioni con i 2 motori sono semplici ed intuitive se la ricerca che si sta facendo è semplice. Si ha la possibilità di fare anche delle ricerche complesse, che danno risultati molto più mirati e precisi, ma allora le cose si complicano. Entrez è molto semplice: si seleziona immediatamente che tipo di informazioni si sta cercando, ed è sufficiente scrivere 1 o più parole che il sistema collegherà automaticamente con l’operatore booleano AND. È possibile usare altri operatori e limitazioni piuttosto semplicemente per raffinare la ricerca. EBI search consente ricerche molto complesse. Il sistema è diverso, sono integrati tra di loro molti db diversi utilizzabili 1 alla volta o contemporaneamente, ed è un po’ meno immediato da usare. Anche se le informazioni ottenute sono in media molto simili, è sempre bene paragonare tra loro i risultati ottenuti con diversi sistemi. FASE 1 – osservazione delle 2 interfacce Per quello che seguirà vi consiglio di aprire 2 finestre del browser. Su una inserite l’indirizzo dell’EBI, mentre sull’altra inserite l’indirizzo dell’NCBI. a) Collegatevi a http://www.ebi.ac.uk/ebisearch e potrete facilmente osservare i vari database consultabili disponibili sotto la “Statistics”. Come potrete notare, alcuni database contegono un numero molto elevato di informazioni: ad esempio MEDLINE, che racchiude i dati di letteratura scientifica, comprende quasi 27 milioni di entry, Sequence (release), che comprende le sequenze nucleotidiche, oltre 198 milioni di entry, UniprotKB (sequenze proteiche) oltre 80 milioni, e così via. Complessivamente, i database integrati in EBI contengono ormai oltre un miliardo di entry pienamente accessibili e consultabili. b) Collegandovi a Entrez (www.ncbi.nlm.nih.gov/Entrez) potete vedere quali sono le categorie accessibili. L’interfaccia è totalmente diversa, ma le categorie principali consultabili sono le medesime. In questo caso, cliccando sul nome, si possono avere informazioni sui vari db. Pubmed in questo caso è l’equivalente di MEDLINE, mentre le sequenze nucleotidiche e proteiche sono contenute nelle rispettive categorie “Nucleotide” e “Protein”. NOTA BENE: le interfacce dei database bioinformatici sono in continua evoluzione e così anche i sistemi di ricerca interni, per tenere il passo con la mole di informazioni depositate (in crescita esponenziale) e con le crescenti necessità dei ricercatori in questo campo. Di conseguenza, molto spesso, l’organizzazione ed il funzionamento di alcuni database e motori di ricerca può cambiare anche drasticamente, al punto che alcuni vengono periodicamente dismessi e sostituiti da altri più moderni e “user friendly”. Ad esempio fino al 2013 la ricerca nell’EBI era basata su un sistema chiamato SRS, ora completamente dismesso e lo stesso EBI search fino a pochissimi anni fa era chiamato EBeye. FASE 2 – ricerca semplice Entrambi i motori di ricerca permettono di effettuare ricerche semplici ed intuitive, senza bisogno di specificare preventivamene il database di riferimento. I risultati verranno automaticamente separati a seconda del database di appartenenza. Ad esempio provate con qualche termine semplice, ad esempio “actin”, o “hemoglobin”, o “collagen”. Partiamo da EBI search: è sufficiente digitare il temine da ricercare nel campo in alto a destra e cliccare su “search”. Otterrete moltissimi risultati, che vengono riassunti da una lista sulla sinistra, divisa per grosse categorie, che naturalmente potete esplorare più dettagliatamente tramite “filter your results” per investigare i risultati ottenuti in ciascun database. Nella pagina sono poi presenti i risultati dettagliati In Entrez la sostanza non cambia, basta digitare il termine nel campo “search NCBI databases” ed i risultati verranno presentati in modo schematico a seconda del database di appartenenza. • Comparate il numero di risultati ottenuti tra i database omologhi nei due motori di ricerca, ad esempio Pubmed (in Entrez) e MEDLINE (indicato come “literature” in EB-eye). Dovreste osservare una piccola discrepanza tra i risultati, questo perché pur essendo collegati, i due sistemi di archiviazione non sono interamente sovrapponibili: è dunque sempre bene confrontare i risultati delle ricerche effettuate nei due motori di ricerca, specialmente se apparentemente non si trova quello che si stava ricercando! FASE 3 – ricerche in EBI search Quasi sempre tuttavia il vostro interesse sarà quello di effettuare una ricerca leggermente più specifica, ad esempio cercare articoli che riguardano un determinato argomento, proteine con un certo nome, ecc. a) Iniziamo con una ricerca comune da EBI search. Ad esempio siamo interessati in questo caso a cercare gli articoli riguardanti la teletonina, una proteina muscolare. Scriviamo il termine “telethonin”, ma questa volta pre-selezionando solo un db, cioè quello dedicato alla letteratura scientifica, MEDLINE (literature). Sotto il pulsante “search” è presente un opzione per effettuare una ricerca avanzata (cliccate quindi su “Build Query”): comparirà una nuova scheramata intitolata “query builder” dalla quale potete selezionare “MELINE” da “please select a domain”. In seguito vi verrà chiesto “Please select a field or cross ref”, il che tornerà utile per effettuare ricerche avanzate. Notate anche il menù a tendina: EQUAL e NOT sono operatori che pemettono di ricercare entry per presenza o per assenza di un termine di ricerca. Allo stesso tempo “Add rule” e gli operatori booleani AND, OR e NOT permettono di effettuare ricerche complesse combinando più termini di ricerca, come vedremo in seguito. b) Vogliamo limitare in questo caso la ricerca agli articoli che presentino nel loro titolo la parola “telethonin”. Una volta selezionato il database MEDLINE, andiamo a selezionare dal primo menù a tendina “equal” e dal secondo “name” (equivalente al titolo dell’articolo), scrivendo quindi “telethonin”. Procediamo con la ricerca. Dovrebbero comparire 27 risultati. Nota bene: nel campo di ricerca sarà comparso “name:(telethonin)”, chè è un comando standard per effettuare la stessa ricerca bypassando tutti i passaggi fatti finora. Notate che i risultati sono ordinati di default per “rilevanza”, ma possiamo ordinarli più comodamente in ordine cronologico tramite un menù a tendina. Scorriamo fino alla entry più datata, in fondo alla seconda pagina: si tratta di un articolo del prof. Valle, che con il suo gruppo ha scoperto questo gene presso il dipartimento di Biologia di Padova. Se cliccate sul titolo dell’articolo verrete portati alla pagina di Europe Pubmed Central in cui è riportato l’abstract del paper. L’abstract non è altro che un breve riassunto dei contenuti e dei punti salienti dell’articolo. Da qui sarà possibile recuperare alcune informazioni e ad esempio scoprire che si tratta una proteina sarcomerica che interagisce con la titina; mutazioni in questa proteina portano ad una forma di distrofia muscolare. c) Passiamo ora alla ricerca della sequenza proteica della teletonina umana, sempre con EBI search: dalla pagina della ricerca avanzata (build query) selezioniamo ora “UniprotKB” e quindi tra le tante opzioni offerte dal menù a tendina (corrispondenti ai vari campi di questo database), “description” e scriviamo sempre “telethonin”. Dovreste ottenere 50 risultati, il primo dei quali corrisponde alla teletonina umana (ma se scorrete la pagina troverete anche altri risultati che NON corrispondono alla teletonina, ma evidentemente a proteine associate che comprendono la parola “telethonin” nella descrizione). Cliccate sulla entry per visualizzare le informazioni disponibili, che come vedrete sono moltissime! Veniamo reindirizzati ad un database esterno all’EBI, cioè ad una entry del database UniprotKB, che fa parte di Uniprot (Universal Protein Resource). UniprotKB (Uniprot knowledgebase) è una sezione di Uniprot che comprende Swiss-Prot (proteine curate ed annotate manualmente) e TrEMBL (proteine annotate automaticamente, di solito predette da genomi). Le schede che ci collegano a sequenze nucleotidiche sono invece contenute nell’ENA (European Nucleotide Archive). E’possibile farsi un’idea sulla dimensione della proteina, ricavare la sequenza stessa (MOLTO IMPORTANTE: cliccando su “sequence” nel menù a sinistra è quindi su FASTA sarà possibile scaricare la sequenza in formato FASTA, fondamentale per le analisi che eseguiremo nelle prossime lezioni!), trovare su quale cromosoma è presente il gene codificante, trovare link per gli mRNA corrispondenti, per schede che descrivono malattie dovute a sue mutazioni, ecc. Molto spesso cliccando sui link disponibili verrete ricondotti a database esterni. Osservate pure liberamente per qualche minuto che tipo si informazioni sono disponibili per farvi un’idea. d) Adesso passiamo ad una ricerca più complessa, in cui combineremo informazioni presenti in più campi (che sono quelle più comunemente affrontate in laboratorio!). Ad esempio immaginiamo di voler ricercare un articolo di un professore di interesse pubblicato tra il 1994 ed il 2000 con la parola “heart” nel titolo, oppure la sequenza dell’RNA messaggero della beta globina del capodoglio: in questi casi è necessario raffinare la ricerca usando campi come “Author, Organism name, Publication date, ecc.”, tutte disponibili nelle opzioni di ricerca avanzata.Per comodità effettueremo una ricerca in letteratura, ma naturalmente le stesse procedure possono essere seguite per una ricerca in uno qualsiasi degli altri database disponibili, tenendo ovviamente conto dei campi di ricerca, che variano da database a database. Selezioniamo come prima cosa il database di interesse: MEDLINE. Possiamo quindi selezionare più campi di interesse selezionando “add rule”. Lo scopo della nostra ricerca in questo caso è quello di recuperare tutti gli articoli pubblicati dal prof. Pallavicini ed il suo gruppo di ricerca nel 2013 che abbiano a che vedere con il celacanto, un pesce considerato un “fossile vivente” (il cui nome scientifico è Latimeria). Selezioniamo poi i campi “author”, “publication date” e “name”. I campi author e publication name sono piuttosto ovvi: basta scrivere Pallavicini e 2013 nei campi “All of the words”. Leggermente più complicato è il terzo campo: cosa dobbiamo cercare nel titolo? Un autore potrebbe aver utilizzato il nome scientifico “Latimeria”, oppure il nome comune “coelacanth” (notate bene che le ricerche in questi campi vanno SEMPRE fatte in lingua inglese!). Visto che non lo sappiamo con certezza, diamo per buone entrambe le possibilità e per fare questo basta scrivere entrambe le parole “coelacanth” e “Latimeria” nel campo “name”. Tuttavia sarà necessario selezionare “add group” per combinare i primi due campi con queste due alternative per il campo name. In particolare dovremo assicurarci che nel primo gruppo sia selezionato l’operatore booleano “AND” e che per il secondo guppo sia selezionato “OR”. Fase 4 – ricerche in Entrez a) Ora passiamo ad Entrez, con cui si può fare circa la stessa cosa. Selezionate Pubmed, equivalente a MEDLINE; con protein si avranno informazioni sulle proteine; con “Nucleotide” compaiono tutti i record delle sequenze nucleotidiche siano esse genomiche, cDNA, RNA…, ecc. Effettuando la ricerca in Pubmed otterrete sempre molti articoli, ma il primo in ordine cronologico sarà sempre quello del prof. Valle. Cliccando sulla scheda corrsipondente otterete più o meno sempre le medesime informazioni. Notiamo pure le differenze che ci sono tra una scheda dell’NCBI ed una dell’EBI per quanto riguarda un articolo. b) Selezionate ora “protein”. Anche in questo caso otterrete molti risultati, il primo dei quali corrisponde alla proteina umana. Come prima sono presenti molte informazioni, anche se in un formato apparentemente più scarno rispetto all’EBI. Ad ogni modo sulla destra sono presenti molti link ad altri database analoghi a quelli che avete visto precedentemente: trovate la sezione “related information” e dovreste trovare anche qui i link a geni, mRNA, articoli di riferimento, ecc. c) Fatevi un’idea della diversità dei risultati ottenuti con i 2 motori. Nonostante le apparenti differenze EBI ed NCBI contengono le stesse informazioni, provare per credere. Digitate “AJ000491” nel campo di ricerca dei due motori. SI tratta dell’ID (una sigla identificativa univoca per ciascuna entry dei database, siano esse sequenze nucleotidiche, proteiche, articoli o altro. In questo caso si tratta del mRNA della teletonina umana e, non a caso, è possibile risalire allo stesso identico risultato effettuando la ricerca dello stesso ID nei due differenti motori di ricerca. Sebbene l’interfaccia grafica e la formattazione delle schede siano diverse, i dati contenuti sono gli stessi. d) Come per EBI Search, anche in Entrez è possibile effettuare ricerche complesse. Immaginiamo ad esempio di voler cercare la sequenza della proteina della mioglobina del tricheco (Odobenus rosmarus). Se possibile, dalla scheda che troveremo, vogliamo anche recuperare la corrispondente sequenza del RNA messaggero ed infine l’articolo di riferimento in cui questa sequenza è stata per la prima volta descritta. Per fare questo selezioniamo il database “Protein” e quindi, sotto la barra di ricerca, clicchiamo su advanced. Dai menù a tendina possiamo selezionare “organism” e scrivere “Odobenus rosmarus” e “protein name”, scrivendo “myoglobin”. Dovremmo ottenere un unico risultato. Come visto in precedenza, sul lato destro della pagina, sono linkate le entry di rilievo, incluse quelle del mRNA e di Pubmed, proprio quelle che stiamo cercando. Esplorate i link e date un’occhiata a quali sono le informazioni disponibili. Il nome dell’articolo sembra indicare che questo non è dedicato in modo specifico al tricheco, ma più in generale sulle mioglobine dei mammiferi. Avete qualche idea su come sarebbe possibile capire quante e quali sono le mioglobine studiate in questo articolo? Fase 5 – Un rapido sguardo ad altri database di interesse I database disponibili e consultabili all’interno di EBI ed NCBI sono moltissimi, come abbiamo visto in precedenza. Molti di questi sono talmente specialistici che difficilmente un ricercatore ci accederà nel corso della sua vita accademica, ma è importante sapere che esistono. Alcuni di questi sono dedicati a strutture proteiche, altri sono database di variazioni genetiche all’interno di una popolazione, altri ancora contengono dati di sequenziamento di nuova generazione, altri ancora esperimenti di microarray, e così via. Ora ne vedremo un paio dal sito dell’NCBI, per farci un’idea più completa delle potenzialità offerte da questa enorme collezione di dati biologici. Prendiamo come esempio il prodotto del gene umano DMD (distrofina): possiamo semplicemente ricercate la parola “DMD” nel campo di ricerca principale di Entrez e selezionare un nuovo database, ovvero “Gene”. Fonora abbiamo visto solo schede di proteine ed mRNA, ma naturalmente sono disponibili anche quelle corrispondenti ai geni. Clicchiamo pure sul secondo risultato, cioè il gene umano. Diamo pure un’occhiata alla scheda, che ci presenta un breve riassunto sulla funzione del gene, oltre che ad una rappresentazione grafica della sua posizione e della sua organizzazione. Nel menù a destra, sotto “Related information”, sono disponibili una serie di link cliccabili. Ne citiamo alcuni: -Refseq (A comprehensive, integrated, non-redundant, well-annotated set of reference sequences including genomic, transcript, and protein). Si tratta di un database di proteine, geni e trascritti annotate con alta confidenza (altri database contengono un elevato numero di sequenze “predette” da genomi). -SNP: un database di Single Nucleotide Polymorphisms, ovvero di variazioni a singolo nucleotide osservate e validate nella popolazione umana. Ma ci soffermiamo in particolare su un database: OMIM (Online Mendelian Inheritance in Man), un catalogo delle malattie genetiche legate ai geni umani. Possiamo capire quali patologie sono legate a mutazioni del gene DMD. Verremo portati davanti a 4 entry, una che ci porta ad una scheda sul gene DMD e tre che invece sembrano collegarci a 3 differenti malattie genetiche. Clicchiamo sulle varie entry per farci un’idea del tipo di informazioni contenute in questo database. In sostanza esistono due tipi di entry per OMIM: I) Le entry corrispondenti ai geni: a ciascun gene possono essere collegate una, nessuna o più schede di malattie genetiche (a seconda ad esempio del tipo di mutazione caratterizzante). II) Le entry corrispondenti alle malattie genetiche: non necessariamente una malattia genetica è collegata ad un singolo gene (pensiamo ad esempio ad un pathway metabolico in cui sono coinvolti più enzimi sequenzialmente: una mutazione che compromette la funzionalità di uno qualunque dei geni determina un medesimo fenotipo. Esercitazione 1 – parte 2 - Ensembl e altri database genomici Database genomici Ensembl (il cui nome deriva da un gioco di parole tra le parole ensemble e la sigla EMBL) è un importante progetto di collaborazione EMBL-EBI (di cui abbiamo parlato nella prima parte della lezione) ed il Sanger Institute (un importante centro di ricerca genomica) per l’annotazione di genomi animali. Con il concetto di annotazione si intende l’inserimento in un database dedicato di tutte le informazioni funzionali di una sequenza, partendo nel caso di un genoma dalla posizione dei geni, per arrivare a organizzazione in introni/esoni, splicing alternativi, open reading frames (ORFs), sequenze di regolazione, ecc. Queste informazioni sono anche recuperabili in larga parte dai database che abbiamo visto nella scorsa lezione, ma Ensembl risulta essere un database aggiornato di continuo e piuttosto intuitivo anche sotto un punto di vista prettamente grafico, quindi oggi ci concentreremo proprio su Ensembl, dopo aver dato però una rapida occhiata a come sono organizzati e consultabili i vari genomi finora sequenziati nei database NCBI. Uno sguardo a NCBI genome Collegatevi a http://www.ncbi.nlm.nih.gov/genome/ Come già detto in precedenza, Ensembl è dedicato principalmente ai genomi animali, ed in particolare è focalizzato sui vertebrati. Tuttavia ad oggi sono stati completamente sequenziati svariate centinaia di genomi, in particolare di batteri e altri microorganismi, le cui dimensioni piuttosto ridotte ne hanno permesso il sequenziamento a costi relativamente accessibili e con un lavoro bioinformatico sostenibile. Possiamo cliccare su “browse by organism” per rendercene conto. http://www.ncbi.nlm.nih.gov/genome/browse/ Il numero di genomi disponibili è piuttosto rilevante e da questa pagina è possibile sfogliare il numero di quelli disponibili per ciascun gruppo tassonomico e recuperare informazioni quali numero di cromosomi, dimensione stimata dell’intero genoma, stadio di avanzamento del sequenziamento, ecc. Oltre a ciò è poi naturalmente possibile accedere alle entry specifiche dei singoli genomi, come vedremo. Proviamo ad esempio ad osservare i genomi dei vertebrati: basta cliccare su “eukaryotes”; quindi, dai due menù a tendina “group” e subgroup”, selezionare “animals” e “mammals” rispettivamente. Da qui è possibile farsi un’idea sulle dimensioni dei genomi, sul loro stato sul numero di cromosomi, sul numero di geni e proteine predette. Come potete vedere, solo in alcuni casi i dati sul numero di cromosomi e sul numero di geni e proteine sono disponibili: questo perché il genoma è ancora in fase di assemblaggio oppure di annotazione, oppure, come spesso accade, perché si è raggiunto un grado di assemblaggio ritenuto “sufficientemente buono”, pur senza riuscire a ricostruire per intero i cromosomi, ed il progetto è stato fermato in questo stadio. Potete esplorare altre classi, per farvi un’idea del numero di genomi disponibili e della grande variabilità esistente anche in termini di dimensioni. Ad esempio, selezioniamo “fish” al posto di mammals e scorriamo fino a ritrovare Takifugu rubipres e Tetraodon nigroviridis, ovvero i famosi “pesci palla”. Questi organismi sono molto comunemente utilizzati come organismi modello proprio per la compattezza del loro genoma, che risulta essere molto piccolo se comparato ad esempio con quello umano. Il genoma umano Possiamo cliccare sul nome di una specie per esplorare il genoma più nel dettaglio. Cliccate sulla prima entry che ritrovate per quanto riguarda Homo sapiens (http://www.ncbi.nlm.nih.gov/genome/51/?genome_assembly_id=22689 ). Noterete la lista di tutti i singoli cromosomi, con la loro dimensione, percentuale in GC ed una rappresentazione grafica del cariotipo con i bandeggi in basso. Cliccate sulla entry corrispondente ad uno dei cromosomi, ad esempio il cromosoma 1: la scheda che si aprirà è molto simile ad una di quelle che abbiamo visto nella precedente lezione per le sequenze nucleotidiche, ma come potete notare questa sequenza risulta essere lunga oltre 200 milioni di paia di basi e quindi è assolutamente improponibile consultarla alla ricerca, ad esempio, di un determinato gene di interesse semplicemente scorrendo una pagina web. E’pertanto necessario utilizzare i cosiddetti “genome browser”. Tornando alla pagina iniziale di NCBI genomes, possiamo cliccare su “Human genome” e da qui sull’immagine stilizzata del cariotipo in alto a sinistra, che ci porterà all’NCBI Map viewer, che ci fornisce una visione molto più semplicemente comprensibile degli stessi dati che poco fa abbiamo visto. Vediamo ad esempio il cromosoma 1: sono presenti sulla sua destra dei link ad alcuni geni rilevanti, ma per avere una visione più dettagliata è necessario zoomare (cliccando sul cromosoma ed i suoi bandeggi è possibile farlo). Posso cliccare su un gene qualsiasi per accedere finalmente alla entry del singolo gene, che mi da informazioni su struttura del gene, trascritti e varianti, oltre a linkare schede di mRNA, proteine, bigliografia e sostanzialmente tutti i database di cui avevamo parlato nella precedente lezione. Ensembl genome browser Lasciamo ora il sito dell’NCBI per spostarci finalmente a quello dell’Ensembl: http://www.ensembl.org/index.html Dal menù a tendina “All genomes” è evidente che il numero di genomi curati è molto minore al totale visto nell’NCBI. Come già detto in precedenza però si tratta quasi esclusivamente di vertebrati, o comunque di organismi modello. Ci sono ad esempio Drosophila e C. elegans, così come Ciona, che è un urocordato (un cordato primitivo, alla base della radiazione che ha portato ai vertebrati), ma mancano del tutto piante, batteri, virus, ecc. Ensembl viene periodicamente aggiornato e l’ultima versione e la sua data di rilascio può essere trovata nella home page. A dir la verità anche i genomi di numerose piante, funghi ed invertebrati sono ora curati dall’Ensembl e consultabili presso Ensembl Genomes (http://ensemblgenomes.org) o siti dedicati come Ensembl Fungi o Ensembl Metazoa. Selezioniamo l’uomo come organismo. Cliccate quindi sulla figura del cariotipo, che vi porterà ad una pagina dove sono ben visibili i bandeggi ed una serie di tabelle che riportano statistiche. I bandeggi sono conrassegnati con le lettere p e q, a seconda che si trovino sul braccio corto o lungo del cromosoma. Oltre ai 22 autosomi, sono presenti anche i due cromosomi sessuali X e Y, oltre ad una piccola sequenza indicata come MT, che è il genoma mitocondriale. Cambiamo organismo per renderci conto di cosa possa cambiare in altri organismi: selezioniamo ad esempio Gallus gallus: per prima cosa noterete che i bandeggi sono assenti, ma ci sono evidenti differenze anche per quanto riguarda il numero di cromosomi e anche per quanto riguarda i cromosomi sessuali. Ma andiamo a vedere altri primati… notate qualche differenza rispetto all’uomo? Per finire osserviamo qualche invertebrato, come Ciona, o Drosophila: è evidente che ci sono enormi differenze sia nel numero che nella dimensione dei cromosomi negi organismi viventi, e se questo è già visibile tra i primati è chiaro che le differenze possano diventare estremamente rilevanti in organismi filogeneticamente più distanti. Osserviamo i cromosomi da vicino Torniamo ora all’uomo e proviamo a selezionare un cromosoma, per comodità il cromosoma 1, entrando nel vero e proprio genome browser. Basta cliccare sul cariotipo sul cromosoma di interesse e selezionare “chromosome summary”. Tralasciamo il grafico per un momento ed andiamo a vedere la tabella sotto, che riporta una serie di statistiche. Il cromosoma 1 umano contiene oltre 2000 geni codificanti! Il grafico invece riporta, oltre ai bandeggi, una serie di dati importanti, quali la frequenza di geni codificanti, di geni non codificanti e pseudogeni, percentuale in GC, contenuto di ripetizioni e variazioni (ovvero SNP, Single Nucleotide Polymorphism). E’molto evidente che ci sono delle regioni più ricche in geni rispetto ad altre, e nel cromosoma 1 (come per altri), queste si concentrano nella regione del centromero, che ricopre un’importantissima funzione strutturale nei processi di mitosi e meiosi. Ma andiamo a vedere alcune particolarità: ad esempio selezionamo il cromosoma 15: l’intero braccio corto sembra non riportare alcun gene codificante. Cosa ci possiamo invece aspettare dai cromosomi sessuali? Cominciamo dal cromosoma X e poi osserviamo il cromosoma Y. Notate qualche differenza? Sapete dare una spiegazione? Per finire la nostra esplorazione del genome browser dobbiamo zoomare sulle informazioni più dettagliate, ovevro i geni. Cliccando su un gene e selezionando “Jump to region view” possiamo accedere ad una visione dettagliata di un cromosoma, in tre differenti “ingrandimenti”. Sopra vediamo il cromosoma per intero, in cui un riquadrino rosso ci indica che regione stiamo osservando. Sotto, ritroviamo “region in detail”, ovvero uno zoom sulla regione del cromosoma. Qui possiamo già individuare delle barre colorate che ci indicano la posizione di geni e pseudogeni, ma la vera informazione di nostro interesse è contenuta nell’ultimo riquadro in basso, che mostra nel dettaglio l’organizzazione in introni/esoni ed i vari trascritti predetti e, nel caso umano, spesso confermati da dati sperimentali. E’possibile muoversi a piacimento, zoomare e anche selezionare una regione di interesse specificando la posizione sul cromosoma, se nota, tramite i bottoni appositi. Ma è anche possibile ricercare direttamente un gene. Ad esempio, sul cromosoma 1, cerchiamo TGFBR1: automaticamente, il browser ci porterà alla regione corrispondente, scalata di modo da contenerne l’intera sequenza. E’ possibile osservare e distinguere le diverse isoforme di trascritti prodotte ed accedere ad informazioni più dettagliate. Conservazione genomica tra specie: la sintenia Abbiamo già visto che ogni specie è caratterizzata da un numero variabile di cromosomi. Ma la loro struttura in specie diverse è inalterata o si osserva anche un rimescolamento “a blocchi” di regioni del genoma? Ensembl presenta un interessante tool per aiutarci a rispondere a questo problema. Si parla di sintenia quando vi è un’associazione di più geni su un tratto di cromosoma. Ad esempio, se in più genomi si ritrovano sempre i geni A, B e C nel medesimo tratto di cromosoma e nel medesimo ordine, si parla di gruppo di sintenia. Come vedrete, questi gruppi sono piuttosto conservati evolutivamente. Vediamo ad esempio la situazione del cromosoma 1 umano: basta cliccare su “syntheny” per essere reindirizzati sulla pagina che ci permette di effettuare le comparazioni. Vediamo ad esempio la sintenia con i cromosomi di topo, gatto, gorilla e pollo. Ci sono evidenti differenze. Riuscite ad interpretare i risultati? Proviamo ora a vedere la sintenia tra il cromosoma umano 2 e quello di altri primati. Il cromosoma 2 sembra essere diviso a metà tra il cromosoma 2A ed il cromosoma 2B dei primati. Poco fa avevamo osservato qualche differenza tra il cariotipo umano e quello dei primati, dovuto proprio ad una coppia di cromosomi in più! Risulta evidente come il cromosoma 2 umano risulti essere un’unione dei due cromosomi presenti invece in gorilla, chimpanzee, etc. Per finire, osserviamo la sintenia del cromosoma X. Provate prima con qualche primate, poi con organismi più lontanamente imparentati, ma sempre vertebrati, come cavallo o gatto. Come si può secondo voi spiegare la grande sintenia osservata? Proviamo infine a vedere la sintenia con gallo.