Tutorial
Attraverso questo tutorial impareremo a conoscere il sistema di navigazione grafica di genomi
ENSEMBL. Proveremo a visualizzare il gene p27kip1 nel contesto del genoma umano e a
descrivere il tipo di operazioni consentite da ENSEMBL. Attraverso ENSEMBL ricaveremo la
sequenza dell'area genomica in cui si localizza il gene e con il programma GENSCAN, uno
strumento per la predizione di geni, otterremo la lista dei geni potenziali presenti nella sequenza.
Infine, verificheremo attraverso una ricerca di omologie in una banca dati di proteine che fra i geni
previsti da GENSCAN vi sia anche p27kip1.
ENSEMBL
Dietro al nome ENSEMBL si cela un complesso sistema che si preoccupa di analizzare le sequenze
genomiche provenienti dai progetti di sequenziamento e di annotarle di conseguenza per la presenza
di geni e per altre informazioni all'interno di un database. Le informazioni vengono organizzate nel
database in modo da consentirne una facile rappresentazione grafica in base alla loro
organizzazione lungo i cromosomi.
Proviamo a cercare con ENSEMBL il gene p27kip1 umano. Colleghiamoci al sito
www.ensembl.org. Come si può notare è possibile scegliere tra numerosi organismi: selezioniamo
la specie umana. Ora possiamo decidere di navigare liberamente lungo il genoma selezionando un
cromosoma e successivamente la regione cromosomica che ci interessa andando sempre più nei
dettagli. In alternativa possiamo, per esempio, cercare un gene di interesse come, nel nostro caso,
p27kip1. Per fare questo, scriviamo nella form di ricerca il nome del gene e selezioniamo dal menù
Search for la voce Gene. Clicchiamo su Lookup per ottenere il risultato della ricerca. Evidentemente
esiste un solo record per p27kip1; selezioniamolo cliccando sul codice che ENSEMBL gli ha
assegnato ENSG00000111276 e otterremo una pagina con una serie di informazioni che riguardano
il gene, compresa una lista di collegamenti ad altri database (Similarity matches). Da qui è possibile
ottenere dettagli riguardo la struttura del gene (Prediction Transcript) così come della proteina
codificata (Protein Features). E' anche possibile vedere il gene nel contesto cromosomico insieme
ad eventuali altre entità presenti nello stesso locus. Per questo bisogna selezionare il link
corrispondente nella sezione Genomic Location (View gene in genomic location). All'inizio della
sezione Detailed view viene riportata in dettaglio la posizione sul cromosoma dell'area genomica
visualizzata: il nostro gene, qui chiamato CDKN1B, è riportato tra gli Ensembl transcript secon la
sua struttura. Proviamo ad ingrandire l'area visualizzata cliccando sul meno dell'area di zoom.
Adesso chiediamo a ENSEMBL di fornirci della sequenza nucleotidica corrispondente a questa
area: clicchiamo sulla voce Export e quindi su Fasta. Proseguiamo con i parametri predefiniti nella
pagina successiva per visualizzare la sequenza. Per sicurezza copiamo la sequenza nel blocco note.
Predizione di geni
La predizione di geni può essere eseguita grazie all'esistenza di segnali più o meno specifici presenti
lungo la sequenza nucleotidica. Naturalmente esistono programmi creati proprio per questo scopo:
tra questi GENSCAN. Questo, come tanti altri programmi, funziona normalmente in linea di
comando. Esistono, tuttavia, delle alternative grafiche come PISE, che abbiamo già avuto modo di
conoscere nelle precedenti esercitazioni http://bioinfo2.ceinge.unina.it/tools/winterf/genscan.php).
Una seconda alternativa è offerta da CAPRI che, sebbene utilizzabile con un normale browser
internet, come Internet Explorer, mostra una interfaccia molto simile a un comune programma
desktop (tipo Word), con menù a tendina che richiamano operazioni specifiche. Proviamo a testare
l'abilità di GENSCAN nel predire la posizione nella sequenza prima recuperata del gene p27kip1.
Andiamo sul sito di bioinformatica http://bioinfo2.ceinge.unina.it, eseguiamo come prima
operazione il login e quindi clicchiamo sul link di CAPRI presente sul pannello di sinistra.
Recuperiamo la sequenza che abbiamo prima conservato col blocco note e inseriamola nell'area
principale di CAPRI. Adesso, per avviare il programma GENSCAN sulla nostra sequenza
selezioniamo dal menù Search la voce Genes e scegliamo subito dopo l'opzione Vertebrate invece
di Arabidopsis. Dopo aver cliccato su OK otteniamo il risultato in cui viene riportata anche la
sequenza della proteina predetta. Clicchiamo sulla sequenza della proteina per aprire una nuova
finestra di CAPRI contenete la proteina predetta.
Ricerca di omologie in banche dati
Con BLAST ci si riferisce ad un insieme di programmi ottimizzati per la ricerca di omologie di
sequenza in banche dati. BLAST utilizza un algoritmo di allineamento di tipo locale. CAPRI
permette di utilizzare direttamente BLAST come altri programmi per la ricerca di omologie in
banche dati di sequenze nucleotidiche o aminoacidiche. Proviamo a verificare che la proteina
predetta da GENSCAN costituisca effettivamente la nostra p27kip1 attraverso una ricerca nella
banca dati SWISSPROT.
Dal menù Search DB selezioniamo la voce Blast. La dialog box successiva ci permette di
specificare alcuni parametri e in particolar modo il database di sequenze in cui eseguire la ricerca:
selezioniamo SWISSPROT. Clicchiamo su OK e aspettiamo il risultato. BLAST riporta una lista di
sequenze presenti nel database che più rassomigliamo alla sequenza di partenza. La lista viene
presentata in ordine decrescente di score: più alto è lo score migliore è da ritenersi l'omologia.
Esistono altri parametri con cui poter valutare il risultato di BLAST: il grado di identità tra le
sequenze allineate, la lunghezza del match, il valore di e-value, che rappresenta la probabilità che
l'allineamento ottenuto sia dovuto al caso, per cui più basso è l'e-value più attendibile è da ritenersi
l'allineamento.
Cosa ci dice il nostro BLAST? E' evidente che la sequenza che presenta il più alto score è
esattamente la proteina umana di p27kip1. Da notare che i match subito seguenti, corrispondenti
alla stessa p27kip 1 presente in altre specie, mostrano uno score molto vicino a quello riportato
dalla proteina umana. Ciò dimostra che questa proteina è evolutivamente molto conservata.
ESERCIZI
Domande
Cercare con ENSEMBL il gene di topo Pax8.
In quali specie è stato trovato il gene ortologo?
Sempre riguardo il gene Pax8 di topo trovato con
ENSEMBL.
Su quale cromosoma è localizzato il gene?
Sempre riguardo il gene Pax8 di topo trovato con
ENSEMBL.
Da quanti esoni è costituito?
Nella sezione di download, insieme al testo dell'esercitazione
2 vi è un file contenete una sequenza genomica di topo.
Provate con GENSCAN a cercare i potenziali geni presenti
nella sequenza.
Dal risultato della ricerca, provate a capire a quale proteina
di topo corrisponde il peptide più grande predetto attraverso
una ricerca di omologie in SWISSPROT con BLAST.
Dunque, a quale proteina corrisponde il peptide?
Risposte