Esercitazione 1 – parte 1- database e motori di ricerca

Esercitazione 1 – parte 1- database e motori di ricerca
Una breve introduzione sui database biologici
Esistono molti centri di bioinformatica che hanno sviluppato diversi database; talvolta questi
database sono molto specialistici ed hostati su piattaforme indipendenti (come vedremo nelle
prossime lezioni), ma più spesso sono interconnessi. Ad esempio, consultando la sequenza di un
gene sarà possibile recuperare anche la sequenza dei vari trascritti da esso codificati e delle
proteine tradotte, la letteratura disponibile e un elevato numero di ulteriori informazioni.
Elemento fondamentale di un database è la singola scheda o entry che contiene le informazioni
(la sequenza ed alcune annotazioni nel caso si tratti di una sequenza, autori/giornale/data di
pubblicazione/abstract nel caso si tratti di un articolo, ecc.).
In diversi database le entry sono compilate in modo diverso, ma comunque sia ogni entry è
composta da diversi campi cui corrispondono specifiche informazioni (che possono essere
utilizzate singolarmente o in combinazione per una ricerca).
Tipo e numero di campi definiscono l’annotazione di una entry; la qualità dell’annotazione
dipende dal numero, dalla correttezza delle caratteristiche segnalate e se esse siano state
verificate sperimentalmente o meno (in tal caso si parla di “predizioni”, molto comuni quando si
tratta di annotazioni genomiche; è molto frequente ritrovarsi davanti a casi di “PREDICTED
protein” o “UNCHARACTERIZED protein”). I campi presenti per ciascuna entry sono svariati, e tra
i più comuni possiamo ricordare accession ID (il nome univoco di un oggetto, di solito si tratta di
una sigla in caratteri alfanumerici), l’organismo (il nome scientifico della specie), etc.
Nell’esercitazione di oggi verranno visitati i 2 motori di ricerca più importanti dedicati a database
biologici, che verranno utilizzati per fare delle ricerche semplici e leggermente più complesse, si
analizzeranno i dati ottenuti con i due motori di ricerca, cheverranno poi comparati tra loro.
I 2 siti sono quelli dell’NCBI americana (National Center for Biotechnology Information) e
dell’EBI europea (European Bioinformatics Institute), che gestiscono i motori di ricerca
Entrez e EBI search. I 2 motori accedono a diversi db, che si possono interrogare separatamente
o insieme. Cosa molto importante è che i 2 centri si scambiano le informazioni giornalmente,
grazie ad un accordo internazionale in cui è coinvolto anche il DDBJ (la banca dati biologica
giapponese DNA Data Bank of Japan).
Nelle pagine iniziali dei due motori di ricerca sono indicati i database specifici che è possibile
interrogare. Nel sito dell’NCBI, questi sono anche accessibili con un semplice click sempre dalla
pagina principale di Entrez: ad esempio è possibile accedere a informazioni di tipo bibliografico
riguardanti la nostra ricerca, utilizzando il db Pubmed.
Spesso queste informazioni sono accessibili anche attraverso link presenti nelle schede estratte
attraverso i motori di ricerca. L’interrogazione di questi permette di farsi un’idea sulla funzione
di un gene o di una proteina e di ricavare molte altre informazioni riguardo all’oggetto della
ricerca e permettono, inoltre, di capire se quello che abbiamo trovato è un falso positivo o
meno.
Le interrogazioni con i 2 motori sono semplici ed intuitive se la ricerca che si sta facendo è
semplice. Si ha la possibilità di fare anche delle ricerche complesse, che danno risultati molto più
mirati e precisi, ma allora le cose si complicano.
Entrez è molto semplice: si seleziona immediatamente che tipo di informazioni si sta cercando,
ed è sufficiente scrivere 1 o più parole che il sistema collegherà automaticamente con l’operatore
booleano AND. È possibile usare altri operatori e limitazioni piuttosto semplicemente per
raffinare la ricerca.
EBI search consente ricerche molto complesse. Il sistema è diverso, sono integrati tra di loro
molti db diversi utilizzabili 1 alla volta o contemporaneamente, ed è un po’ meno immediato da
usare. Anche se le informazioni ottenute sono in media molto simili, è sempre bene paragonare
tra loro i risultati ottenuti con diversi sistemi.
FASE 1 – osservazione delle 2 interfacce
Per quello che seguirà vi consiglio di aprire 2 finestre del browser. Su una inserite l’indirizzo
dell’EBI, mentre sull’altra inserite l’indirizzo dell’NCBI.
a) Collegatevi a http://www.ebi.ac.uk/ebisearch e potrete facilmente osservare i vari
database consultabili disponibili sotto la “Statistics”. Come potrete notare, alcuni
database contegono un numero molto elevato di informazioni: ad esempio MEDLINE, che
racchiude i dati di letteratura scientifica, comprende quasi 27 milioni di entry, Sequence
(release), che comprende le sequenze nucleotidiche, oltre 198 milioni di entry, UniprotKB
(sequenze proteiche) oltre 80 milioni, e così via. Complessivamente, i database integrati in
EBI contengono ormai oltre un miliardo di entry pienamente accessibili e consultabili.
b) Collegandovi a Entrez (www.ncbi.nlm.nih.gov/Entrez) potete vedere quali sono le
categorie accessibili. L’interfaccia è totalmente diversa, ma le categorie principali
consultabili sono le medesime. In questo caso, cliccando sul nome, si possono avere
informazioni sui vari db. Pubmed in questo caso è l’equivalente di MEDLINE, mentre le
sequenze nucleotidiche e proteiche sono contenute nelle rispettive categorie “Nucleotide”
e “Protein”.
NOTA BENE: le interfacce dei database bioinformatici sono in continua evoluzione e così anche i
sistemi di ricerca interni, per tenere il passo con la mole di informazioni depositate (in crescita
esponenziale) e con le crescenti necessità dei ricercatori in questo campo. Di conseguenza, molto
spesso, l’organizzazione ed il funzionamento di alcuni database e motori di ricerca può cambiare
anche drasticamente, al punto che alcuni vengono periodicamente dismessi e sostituiti da altri
più moderni e “user friendly”. Ad esempio fino al 2013 la ricerca nell’EBI era basata su un sistema
chiamato SRS, ora completamente dismesso e lo stesso EBI search fino a pochissimi anni fa era
chiamato EBeye.
FASE 2 – ricerca semplice
Entrambi i motori di ricerca permettono di effettuare ricerche semplici ed intuitive, senza
bisogno di specificare preventivamene il database di riferimento. I risultati verranno
automaticamente separati a seconda del database di appartenenza. Ad esempio provate con
qualche termine semplice, ad esempio “actin”, o “hemoglobin”, o “collagen”.
Partiamo da EBI search: è sufficiente digitare il temine da ricercare nel campo in alto a destra e
cliccare su “search”. Otterrete moltissimi risultati, che vengono riassunti da una lista sulla
sinistra, divisa per grosse categorie, che naturalmente potete esplorare più dettagliatamente
tramite “filter your results” per investigare i risultati ottenuti in ciascun database. Nella pagina
sono poi presenti i risultati dettagliati
In Entrez la sostanza non cambia, basta digitare il termine nel campo “search NCBI databases” ed
i risultati verranno presentati in modo schematico a seconda del database di appartenenza.
•
Comparate il numero di risultati ottenuti tra i database omologhi nei due motori di ricerca, ad
esempio Pubmed (in Entrez) e MEDLINE (indicato come “literature” in EB-eye). Dovreste
osservare una piccola discrepanza tra i risultati, questo perché pur essendo collegati, i due
sistemi di archiviazione non sono interamente sovrapponibili: è dunque sempre bene
confrontare i risultati delle ricerche effettuate nei due motori di ricerca, specialmente se
apparentemente non si trova quello che si stava ricercando!
FASE 3 – ricerche in EBI search
Quasi sempre tuttavia il vostro interesse sarà quello di effettuare una ricerca leggermente più
specifica, ad esempio cercare articoli che riguardano un determinato argomento, proteine con un
certo nome, ecc.
a) Iniziamo con una ricerca comune da EBI search. Ad esempio siamo interessati in questo
caso a cercare gli articoli riguardanti la teletonina, una proteina muscolare. Scriviamo il
termine “telethonin”, ma questa volta pre-selezionando solo un db, cioè quello dedicato
alla letteratura scientifica, MEDLINE (literature). Sotto il pulsante “search” è presente un
opzione per effettuare una ricerca avanzata (cliccate quindi su “Build Query”): comparirà
una nuova scheramata intitolata “query builder” dalla quale potete selezionare “MELINE”
da “please select a domain”. In seguito vi verrà chiesto “Please select a field or cross ref”,
il che tornerà utile per effettuare ricerche avanzate. Notate anche il menù a tendina:
EQUAL e NOT sono operatori che pemettono di ricercare entry per presenza o per assenza
di un termine di ricerca. Allo stesso tempo “Add rule” e gli operatori booleani AND, OR e
NOT permettono di effettuare ricerche complesse combinando più termini di ricerca,
come vedremo in seguito.
b) Vogliamo limitare in questo caso la ricerca agli articoli che presentino nel loro titolo la
parola “telethonin”. Una volta selezionato il database MEDLINE, andiamo a selezionare
dal primo menù a tendina “equal” e dal secondo “name” (equivalente al titolo
dell’articolo), scrivendo quindi “telethonin”. Procediamo con la ricerca. Dovrebbero
comparire 27 risultati. Nota bene: nel campo di ricerca sarà comparso
“name:(telethonin)”, chè è un comando standard per effettuare la stessa ricerca
bypassando tutti i passaggi fatti finora. Notate che i risultati sono ordinati di default per
“rilevanza”, ma possiamo ordinarli più comodamente in ordine cronologico tramite un
menù a tendina. Scorriamo fino alla entry più datata, in fondo alla seconda pagina: si tratta
di un articolo del prof. Valle, che con il suo gruppo ha scoperto questo gene presso il
dipartimento di Biologia di Padova. Se cliccate sul titolo dell’articolo verrete portati alla
pagina di Europe Pubmed Central in cui è riportato l’abstract del paper. L’abstract non è
altro che un breve riassunto dei contenuti e dei punti salienti dell’articolo. Da qui sarà
possibile recuperare alcune informazioni e ad esempio scoprire che si tratta una proteina
sarcomerica che interagisce con la titina; mutazioni in questa proteina portano ad una
forma di distrofia muscolare.
c) Passiamo ora alla ricerca della sequenza proteica della teletonina umana, sempre con EBI
search: dalla pagina della ricerca avanzata (build query) selezioniamo ora “UniprotKB” e
quindi tra le tante opzioni offerte dal menù a tendina (corrispondenti ai vari campi di
questo database), “description” e scriviamo sempre “telethonin”. Dovreste ottenere 50
risultati, il primo dei quali corrisponde alla teletonina umana (ma se scorrete la pagina
troverete anche altri risultati che NON corrispondono alla teletonina, ma evidentemente a
proteine associate che comprendono la parola “telethonin” nella descrizione). Cliccate
sulla entry per visualizzare le informazioni disponibili, che come vedrete sono moltissime!
Veniamo reindirizzati ad un database esterno all’EBI, cioè ad una entry del database
UniprotKB, che fa parte di Uniprot (Universal Protein Resource). UniprotKB (Uniprot
knowledgebase) è una sezione di Uniprot che comprende Swiss-Prot (proteine curate ed
annotate manualmente) e TrEMBL (proteine annotate automaticamente, di solito
predette da genomi). Le schede che ci collegano a sequenze nucleotidiche sono invece
contenute nell’ENA (European Nucleotide Archive).
E’possibile farsi un’idea sulla dimensione della proteina, ricavare la sequenza stessa
(MOLTO IMPORTANTE: cliccando su “sequence” nel menù a sinistra è quindi su
FASTA sarà possibile scaricare la sequenza in formato FASTA, fondamentale per le
analisi che eseguiremo nelle prossime lezioni!), trovare su quale cromosoma è
presente il gene codificante, trovare link per gli mRNA corrispondenti, per schede che
descrivono malattie dovute a sue mutazioni, ecc. Molto spesso cliccando sui link
disponibili verrete ricondotti a database esterni. Osservate pure liberamente per qualche
minuto che tipo si informazioni sono disponibili per farvi un’idea.
d) Adesso passiamo ad una ricerca più complessa, in cui combineremo informazioni presenti
in più campi (che sono quelle più comunemente affrontate in laboratorio!). Ad esempio
immaginiamo di voler ricercare un articolo di un professore di interesse pubblicato tra il
1994 ed il 2000 con la parola “heart” nel titolo, oppure la sequenza dell’RNA messaggero
della beta globina del capodoglio: in questi casi è necessario raffinare la ricerca usando
campi come “Author, Organism name, Publication date, ecc.”, tutte disponibili nelle
opzioni di ricerca avanzata.Per comodità effettueremo una ricerca in letteratura, ma
naturalmente le stesse procedure possono essere seguite per una ricerca in uno qualsiasi
degli altri database disponibili, tenendo ovviamente conto dei campi di ricerca, che
variano da database a database. Selezioniamo come prima cosa il database di interesse:
MEDLINE. Possiamo quindi selezionare più campi di interesse selezionando “add rule”. Lo
scopo della nostra ricerca in questo caso è quello di recuperare tutti gli articoli pubblicati
dal prof. Pallavicini ed il suo gruppo di ricerca nel 2013 che abbiano a che vedere con il
celacanto, un pesce considerato un “fossile vivente” (il cui nome scientifico è Latimeria).
Selezioniamo poi i campi “author”, “publication date” e “name”. I campi author e
publication name sono piuttosto ovvi: basta scrivere Pallavicini e 2013 nei campi “All of
the words”. Leggermente più complicato è il terzo campo: cosa dobbiamo cercare nel
titolo? Un autore potrebbe aver utilizzato il nome scientifico “Latimeria”, oppure il nome
comune “coelacanth” (notate bene che le ricerche in questi campi vanno SEMPRE fatte in
lingua inglese!). Visto che non lo sappiamo con certezza, diamo per buone entrambe le
possibilità e per fare questo basta scrivere entrambe le parole “coelacanth” e “Latimeria”
nel campo “name”. Tuttavia sarà necessario selezionare “add group” per combinare i primi
due campi con queste due alternative per il campo name. In particolare dovremo
assicurarci che nel primo gruppo sia selezionato l’operatore booleano “AND” e che per il
secondo guppo sia selezionato “OR”.
Fase 4 – ricerche in Entrez
a) Ora passiamo ad Entrez, con cui si può fare circa la stessa cosa. Selezionate Pubmed,
equivalente a MEDLINE; con protein si avranno informazioni sulle proteine; con
“Nucleotide” compaiono tutti i record delle sequenze nucleotidiche siano esse genomiche,
cDNA, RNA…, ecc. Effettuando la ricerca in Pubmed otterrete sempre molti articoli, ma il
primo in ordine cronologico sarà sempre quello del prof. Valle. Cliccando sulla scheda
corrsipondente otterete più o meno sempre le medesime informazioni. Notiamo pure le
differenze che ci sono tra una scheda dell’NCBI ed una dell’EBI per quanto riguarda un
articolo.
b) Selezionate ora “protein”. Anche in questo caso otterrete molti risultati, il primo dei quali
corrisponde alla proteina umana. Come prima sono presenti molte informazioni, anche se
in un formato apparentemente più scarno rispetto all’EBI. Ad ogni modo sulla destra sono
presenti molti link ad altri database analoghi a quelli che avete visto precedentemente:
trovate la sezione “related information” e dovreste trovare anche qui i link a geni, mRNA,
articoli di riferimento, ecc.
c) Fatevi un’idea della diversità dei risultati ottenuti con i 2 motori. Nonostante le apparenti
differenze EBI ed NCBI contengono le stesse informazioni, provare per credere. Digitate
“AJ000491” nel campo di ricerca dei due motori. SI tratta dell’ID (una sigla identificativa
univoca per ciascuna entry dei database, siano esse sequenze nucleotidiche, proteiche,
articoli o altro. In questo caso si tratta del mRNA della teletonina umana e, non a caso, è
possibile risalire allo stesso identico risultato effettuando la ricerca dello stesso ID nei due
differenti motori di ricerca. Sebbene l’interfaccia grafica e la formattazione delle schede
siano diverse, i dati contenuti sono gli stessi.
d) Come per EBI Search, anche in Entrez è possibile effettuare ricerche complesse.
Immaginiamo ad esempio di voler cercare la sequenza della proteina della mioglobina del
tricheco (Odobenus rosmarus). Se possibile, dalla scheda che troveremo, vogliamo anche
recuperare la corrispondente sequenza del RNA messaggero ed infine l’articolo di
riferimento in cui questa sequenza è stata per la prima volta descritta. Per fare questo
selezioniamo il database “Protein” e quindi, sotto la barra di ricerca, clicchiamo su
advanced. Dai menù a tendina possiamo selezionare “organism” e scrivere “Odobenus
rosmarus” e “protein name”, scrivendo “myoglobin”. Dovremmo ottenere un unico
risultato. Come visto in precedenza, sul lato destro della pagina, sono linkate le entry di
rilievo, incluse quelle del mRNA e di Pubmed, proprio quelle che stiamo cercando.
Esplorate i link e date un’occhiata a quali sono le informazioni disponibili. Il nome
dell’articolo sembra indicare che questo non è dedicato in modo specifico al tricheco, ma
più in generale sulle mioglobine dei mammiferi. Avete qualche idea su come sarebbe
possibile capire quante e quali sono le mioglobine studiate in questo articolo?
Fase 5 – Un rapido sguardo ad altri database di interesse
I database disponibili e consultabili all’interno di EBI ed NCBI sono moltissimi, come abbiamo
visto in precedenza. Molti di questi sono talmente specialistici che difficilmente un ricercatore ci
accederà nel corso della sua vita accademica, ma è importante sapere che esistono. Alcuni di
questi sono dedicati a strutture proteiche, altri sono database di variazioni genetiche all’interno
di una popolazione, altri ancora contengono dati di sequenziamento di nuova generazione, altri
ancora esperimenti di microarray, e così via.
Ora ne vedremo un paio dal sito dell’NCBI, per farci un’idea più completa delle potenzialità
offerte da questa enorme collezione di dati biologici.
Prendiamo come esempio il prodotto del gene umano DMD (distrofina): possiamo
semplicemente ricercate la parola “DMD” nel campo di ricerca principale di Entrez e selezionare
un nuovo database, ovvero “Gene”. Fonora abbiamo visto solo schede di proteine ed mRNA, ma
naturalmente sono disponibili anche quelle corrispondenti ai geni. Clicchiamo pure sul secondo
risultato, cioè il gene umano. Diamo pure un’occhiata alla scheda, che ci presenta un breve
riassunto sulla funzione del gene, oltre che ad una rappresentazione grafica della sua posizione e
della sua organizzazione. Nel menù a destra, sotto “Related information”, sono disponibili una
serie di link cliccabili. Ne citiamo alcuni:
-Refseq (A comprehensive, integrated, non-redundant, well-annotated set of reference
sequences including genomic, transcript, and protein). Si tratta di un database di proteine, geni e
trascritti annotate con alta confidenza (altri database contengono un elevato numero di sequenze
“predette” da genomi).
-SNP: un database di Single Nucleotide Polymorphisms, ovvero di variazioni a singolo nucleotide
osservate e validate nella popolazione umana.
Ma ci soffermiamo in particolare su un database: OMIM (Online Mendelian Inheritance in
Man), un catalogo delle malattie genetiche legate ai geni umani. Possiamo capire quali patologie
sono legate a mutazioni del gene DMD. Verremo portati davanti a 4 entry, una che ci porta ad una
scheda sul gene DMD e tre che invece sembrano collegarci a 3 differenti malattie genetiche.
Clicchiamo sulle varie entry per farci un’idea del tipo di informazioni contenute in questo
database.
In sostanza esistono due tipi di entry per OMIM:
I) Le entry corrispondenti ai geni: a ciascun gene possono essere collegate una, nessuna o
più schede di malattie genetiche (a seconda ad esempio del tipo di mutazione
caratterizzante).
II) Le entry corrispondenti alle malattie genetiche: non necessariamente una malattia
genetica è collegata ad un singolo gene (pensiamo ad esempio ad un pathway
metabolico in cui sono coinvolti più enzimi sequenzialmente: una mutazione che
compromette la funzionalità di uno qualunque dei geni determina un medesimo
fenotipo.
Esercitazione 1 – parte 2 - Ensembl e altri database
genomici
Database genomici
Ensembl (il cui nome deriva da un gioco di parole tra le parole ensemble e la sigla EMBL) è un
importante progetto di collaborazione EMBL-EBI (di cui abbiamo parlato nella prima parte della
lezione) ed il Sanger Institute (un importante centro di ricerca genomica) per l’annotazione di
genomi animali. Con il concetto di annotazione si intende l’inserimento in un database dedicato
di tutte le informazioni funzionali di una sequenza, partendo nel caso di un genoma dalla
posizione dei geni, per arrivare a organizzazione in introni/esoni, splicing alternativi, open
reading frames (ORFs), sequenze di regolazione, ecc.
Queste informazioni sono anche recuperabili in larga parte dai database che abbiamo visto nella
scorsa lezione, ma Ensembl risulta essere un database aggiornato di continuo e piuttosto
intuitivo anche sotto un punto di vista prettamente grafico, quindi oggi ci concentreremo proprio
su Ensembl, dopo aver dato però una rapida occhiata a come sono organizzati e consultabili i vari
genomi finora sequenziati nei database NCBI.
Uno sguardo a NCBI genome
Collegatevi a http://www.ncbi.nlm.nih.gov/genome/
Come già detto in precedenza, Ensembl è dedicato principalmente ai genomi animali, ed in
particolare è focalizzato sui vertebrati. Tuttavia ad oggi sono stati completamente sequenziati
svariate centinaia di genomi, in particolare di batteri e altri microorganismi, le cui dimensioni
piuttosto ridotte ne hanno permesso il sequenziamento a costi relativamente accessibili e con un
lavoro bioinformatico sostenibile. Possiamo cliccare su “browse by organism” per rendercene
conto. http://www.ncbi.nlm.nih.gov/genome/browse/
Il numero di genomi disponibili è piuttosto rilevante e da questa pagina è possibile sfogliare il
numero di quelli disponibili per ciascun gruppo tassonomico e recuperare informazioni quali
numero di cromosomi, dimensione stimata dell’intero genoma, stadio di avanzamento del
sequenziamento, ecc. Oltre a ciò è poi naturalmente possibile accedere alle entry specifiche dei
singoli genomi, come vedremo.
Proviamo ad esempio ad osservare i genomi dei vertebrati: basta cliccare su “eukaryotes”; quindi,
dai due menù a tendina “group” e subgroup”, selezionare “animals” e “mammals”
rispettivamente. Da qui è possibile farsi un’idea sulle dimensioni dei genomi, sul loro stato sul
numero di cromosomi, sul numero di geni e proteine predette. Come potete vedere, solo in alcuni
casi i dati sul numero di cromosomi e sul numero di geni e proteine sono disponibili: questo
perché il genoma è ancora in fase di assemblaggio oppure di annotazione, oppure, come spesso
accade, perché si è raggiunto un grado di assemblaggio ritenuto “sufficientemente buono”, pur
senza riuscire a ricostruire per intero i cromosomi, ed il progetto è stato fermato in questo stadio.
Potete esplorare altre classi, per farvi un’idea del numero di genomi disponibili e della grande
variabilità esistente anche in termini di dimensioni. Ad esempio, selezioniamo “fish” al posto di
mammals e scorriamo fino a ritrovare Takifugu rubipres e Tetraodon nigroviridis, ovvero i famosi
“pesci palla”. Questi organismi sono molto comunemente utilizzati come organismi modello
proprio per la compattezza del loro genoma, che risulta essere molto piccolo se comparato ad
esempio con quello umano.
Il genoma umano
Possiamo cliccare sul nome di una specie per esplorare il genoma più nel dettaglio. Cliccate sulla
prima
entry
che
ritrovate
per
quanto
riguarda
Homo
sapiens
(http://www.ncbi.nlm.nih.gov/genome/51/?genome_assembly_id=22689 ).
Noterete la lista di tutti i singoli cromosomi, con la loro dimensione, percentuale in GC ed una
rappresentazione grafica del cariotipo con i bandeggi in basso. Cliccate sulla entry
corrispondente ad uno dei cromosomi, ad esempio il cromosoma 1: la scheda che si aprirà è
molto simile ad una di quelle che abbiamo visto nella precedente lezione per le sequenze
nucleotidiche, ma come potete notare questa sequenza risulta essere lunga oltre 200 milioni di
paia di basi e quindi è assolutamente improponibile consultarla alla ricerca, ad esempio, di un
determinato gene di interesse semplicemente scorrendo una pagina web. E’pertanto necessario
utilizzare i cosiddetti “genome browser”.
Tornando alla pagina iniziale di NCBI genomes, possiamo cliccare su “Human genome” e da qui
sull’immagine stilizzata del cariotipo in alto a sinistra, che ci porterà all’NCBI Map viewer, che ci
fornisce una visione molto più semplicemente comprensibile degli stessi dati che poco fa
abbiamo visto. Vediamo ad esempio il cromosoma 1: sono presenti sulla sua destra dei link ad
alcuni geni rilevanti, ma per avere una visione più dettagliata è necessario zoomare (cliccando sul
cromosoma ed i suoi bandeggi è possibile farlo). Posso cliccare su un gene qualsiasi per accedere
finalmente alla entry del singolo gene, che mi da informazioni su struttura del gene, trascritti e
varianti, oltre a linkare schede di mRNA, proteine, bigliografia e sostanzialmente tutti i database
di cui avevamo parlato nella precedente lezione.
Ensembl genome browser
Lasciamo ora il sito dell’NCBI per spostarci finalmente a quello dell’Ensembl:
http://www.ensembl.org/index.html
Dal menù a tendina “All genomes” è evidente che il numero di genomi curati è molto minore al
totale visto nell’NCBI. Come già detto in precedenza però si tratta quasi esclusivamente di
vertebrati, o comunque di organismi modello. Ci sono ad esempio Drosophila e C. elegans, così
come Ciona, che è un urocordato (un cordato primitivo, alla base della radiazione che ha portato
ai vertebrati), ma mancano del tutto piante, batteri, virus, ecc. Ensembl viene periodicamente
aggiornato e l’ultima versione e la sua data di rilascio può essere trovata nella home page.
A dir la verità anche i genomi di numerose piante, funghi ed invertebrati sono ora curati
dall’Ensembl e consultabili presso Ensembl Genomes (http://ensemblgenomes.org) o siti
dedicati come Ensembl Fungi o Ensembl Metazoa.
Selezioniamo l’uomo come organismo. Cliccate quindi sulla figura del cariotipo, che vi porterà ad
una pagina dove sono ben visibili i bandeggi ed una serie di tabelle che riportano statistiche. I
bandeggi sono conrassegnati con le lettere p e q, a seconda che si trovino sul braccio corto o
lungo del cromosoma. Oltre ai 22 autosomi, sono presenti anche i due cromosomi sessuali X e Y,
oltre ad una piccola sequenza indicata come MT, che è il genoma mitocondriale.
Cambiamo organismo per renderci conto di cosa possa cambiare in altri organismi: selezioniamo
ad esempio Gallus gallus: per prima cosa noterete che i bandeggi sono assenti, ma ci sono evidenti
differenze anche per quanto riguarda il numero di cromosomi e anche per quanto riguarda i
cromosomi sessuali. Ma andiamo a vedere altri primati… notate qualche differenza rispetto
all’uomo? Per finire osserviamo qualche invertebrato, come Ciona, o Drosophila: è evidente che ci
sono enormi differenze sia nel numero che nella dimensione dei cromosomi negi organismi
viventi, e se questo è già visibile tra i primati è chiaro che le differenze possano diventare
estremamente rilevanti in organismi filogeneticamente più distanti.
Osserviamo i cromosomi da vicino
Torniamo ora all’uomo e proviamo a selezionare un cromosoma, per comodità il cromosoma 1,
entrando nel vero e proprio genome browser. Basta cliccare sul cariotipo sul cromosoma di
interesse e selezionare “chromosome summary”. Tralasciamo il grafico per un momento ed
andiamo a vedere la tabella sotto, che riporta una serie di statistiche. Il cromosoma 1 umano
contiene oltre 2000 geni codificanti!
Il grafico invece riporta, oltre ai bandeggi, una serie di dati importanti, quali la frequenza di geni
codificanti, di geni non codificanti e pseudogeni, percentuale in GC, contenuto di ripetizioni e
variazioni (ovvero SNP, Single Nucleotide Polymorphism). E’molto evidente che ci sono delle
regioni più ricche in geni rispetto ad altre, e nel cromosoma 1 (come per altri), queste si
concentrano nella regione del centromero, che ricopre un’importantissima funzione strutturale
nei processi di mitosi e meiosi.
Ma andiamo a vedere alcune particolarità: ad esempio selezionamo il cromosoma 15: l’intero
braccio corto sembra non riportare alcun gene codificante. Cosa ci possiamo invece aspettare dai
cromosomi sessuali? Cominciamo dal cromosoma X e poi osserviamo il cromosoma Y. Notate
qualche differenza? Sapete dare una spiegazione?
Per finire la nostra esplorazione del genome browser dobbiamo zoomare sulle informazioni più
dettagliate, ovevro i geni. Cliccando su un gene e selezionando “Jump to region view” possiamo
accedere ad una visione dettagliata di un cromosoma, in tre differenti “ingrandimenti”. Sopra
vediamo il cromosoma per intero, in cui un riquadrino rosso ci indica che regione stiamo
osservando. Sotto, ritroviamo “region in detail”, ovvero uno zoom sulla regione del cromosoma.
Qui possiamo già individuare delle barre colorate che ci indicano la posizione di geni e
pseudogeni, ma la vera informazione di nostro interesse è contenuta nell’ultimo riquadro in
basso, che mostra nel dettaglio l’organizzazione in introni/esoni ed i vari trascritti predetti e, nel
caso umano, spesso confermati da dati sperimentali. E’possibile muoversi a piacimento, zoomare
e anche selezionare una regione di interesse specificando la posizione sul cromosoma, se nota,
tramite i bottoni appositi.
Ma è anche possibile ricercare direttamente un gene. Ad esempio, sul cromosoma 1, cerchiamo
TGFBR1: automaticamente, il browser ci porterà alla regione corrispondente, scalata di modo da
contenerne l’intera sequenza. E’ possibile osservare e distinguere le diverse isoforme di trascritti
prodotte ed accedere ad informazioni più dettagliate.
Conservazione genomica tra specie: la sintenia
Abbiamo già visto che ogni specie è caratterizzata da un numero variabile di cromosomi. Ma la
loro struttura in specie diverse è inalterata o si osserva anche un rimescolamento “a blocchi” di
regioni del genoma? Ensembl presenta un interessante tool per aiutarci a rispondere a questo
problema.
Si parla di sintenia quando vi è un’associazione di più geni su un tratto di cromosoma. Ad
esempio, se in più genomi si ritrovano sempre i geni A, B e C nel medesimo tratto di cromosoma e
nel medesimo ordine, si parla di gruppo di sintenia. Come vedrete, questi gruppi sono piuttosto
conservati evolutivamente.
Vediamo ad esempio la situazione del cromosoma 1 umano: basta cliccare su “syntheny” per
essere reindirizzati sulla pagina che ci permette di effettuare le comparazioni. Vediamo ad
esempio la sintenia con i cromosomi di topo, gatto, gorilla e pollo. Ci sono evidenti differenze.
Riuscite ad interpretare i risultati?
Proviamo ora a vedere la sintenia tra il cromosoma umano 2 e quello di altri primati. Il
cromosoma 2 sembra essere diviso a metà tra il cromosoma 2A ed il cromosoma 2B dei primati.
Poco fa avevamo osservato qualche differenza tra il cariotipo umano e quello dei primati, dovuto
proprio ad una coppia di cromosomi in più! Risulta evidente come il cromosoma 2 umano risulti
essere un’unione dei due cromosomi presenti invece in gorilla, chimpanzee, etc.
Per finire, osserviamo la sintenia del cromosoma X. Provate prima con qualche primate, poi con
organismi più lontanamente imparentati, ma sempre vertebrati, come cavallo o gatto. Come si
può secondo voi spiegare la grande sintenia osservata? Proviamo infine a vedere la sintenia con
gallo.