Esercitazione 1

Tutorial
Nel nostro esperimento vogliamo ottenere le sequenze del gene e della CDS (sequenza codificante) dell’inibitore umano
del ciclo cellulare p27kip1 ed evidenziare la posizione delle regioni codificanti all’interno del gene attraverso un
allineamento di gene e CDS.
Come ottenere le sequenze?
SRS (Sequence Retrieval System) E’ un sistema che consente di interrogare banche dati via WEB. I principali vantaggi
offerti da SRS sono dovuti alla possibilita’ di eseguire ricerche su uno o piu’ campi di uno o piu’ banche dati, e di
permettere una integrazione tra le diverse banche dati sfruttando i 'collegamenti' esistenti tra i record di diversi database.
SRS E’ in grado di interfacciarsi a molte tipologie di banche dati, alcune contenenti sequenze, altre dati alquanto diversi
come strutture tridimensionali di proteine, malattie genetiche, referenze bibliografiche e ancora altri.
Vai all'indirizzo bioinfo2.ceinge.unina.it.
EMBL, come saprete, raccoglie le sequenze nucleotidiche determinate nei laboratori di tutto il mondo, ed E’ qui che
saranno contenute anche le sequenze di p27kip1.In realta’, in un database come EMBL esiste ridondanza di sequenze
per cui, oltre all'eventuale sequenza del gene e dell'mRNA, possono anche esserci frammenti della sequenza del gene.
Per questo E’ spesso conveniente cercare prima la sequenza proteica in un database meno ridondante come UNIPROTSWISSPROT e, in caso di esito positivo della ricerca, risalire alle corrispondenti sequenze nucleotidiche contenute in
EMBL; in questo modo potremo ottenere un numero piu’ basso di record da analizzare.
Nel nostro caso, dunque, dobbiamo selezionare in alto la voce Select Databanks e subito dopo selezionare il DB
UNIPROT-SWISSPROT che contiene, come detto, sequenze aminoacidiche. Nota che se passi la freccia del mouse sul
nome dei database ottieni una loro breve descrizione. Ora cliccando sulla voce Standard Query Form ciritroviamo nella
pagina di ricerca standard. Come puoi vedere, ci sono quattro campi che permettono di eseguire ricerche piu' o meno
complesse. All text indica che la ricerca verra' eseguita in tutti i campi di ciascun record. E’ possibile, pero', cambiare
All text in uno qualsiasi dei campi per poter eseguire una ricerca mirata.
SRS permette di cercare contemporaneamente in piu' campi del DB (i quattro campi di ricerca centrali). Sulla tua
sinistra noterai la voce Combine search terms with che permette di combinare la ricerca in due o piu' campi in questo
modo:
- trova i record che contengono a e b (AND);
- trova i record che contengono a o b (OR);
- trova i record che contengono a ma non b (BUT NOT).
Per esempio, puoi cercare nel campo description (selezionandolo al posto di All text nel primo campo di ricerca) il gene
(p27kip1) mentre nel secondo campo di ricerca puoi specificare Organism Name come campo in cui cercare e human
come termine da cercare. Tieni presente che SRS 'conosce’ solo la lingua inglese, per cui ciascun termine per cui esegui
una ricerca deve essere indicato in inglese.
Lo stesso tipo di operatori (AND, OR, BUT NOT) possono essere utilizzati anche per combinare le parole che
costituiscono la stringa che si sta cercando in un determinato campo. Es. cercando nel campo description IL-1 alpha, le
parole IL-1 e alpha possono esserere combinate con l'operatore & (AND - cioe’ vengono cercati i record che
contengono nel campo description sia la parola IL-1 che alpha), l'operatore | (OR - cioe’ vengono cercati i record che
contengono nel campo description o la parola IL-1 o la parola alpha), l'operatore ! (AND NOT - cioe’ vengono cercati i
record che contengono nel campo description la parola IL-1 ma non la parola alpha). Se non usi nessun operatore viene
in modo predefinito usato l'operatore AND.
Dunque, nel nostro caso dobbiamo cercare nel campo description p27kip1e nel campo Organism Namehuman.
Eseguiamo la ricerca cliccando su Search. Come puoi vedere, il risultato E’ esattamente quel che stavamo cercando. E’
possibile osservare i dettagli del record semplicemente cliccando sul suo codice di accesso.
SRS e’ in grado di stabilire le relazioni fra diversi tipi di database. Ad esempio gli si puo' chidere qualcosa del tipo:
trovami tutte le sequenze di DNA dell'EMBL database relazionate al record UNIPROT-SWISSPROT che stiamo
esaminando. Per fare questo basta cliccare sul bottone Link presente sulla sinistra dopodiche’ selezionare il DB EMBL
e, per finire, cliccare su Search. Il risultato del 'collegamento' E’, come puoi vedere, una lista di cinque record EMBL
elencati per codice di accesso. Per avere maggiori dettagli E’ possibile cambiare il tipo di visualizzazione attraverso la
sezione Display Options: prova a scegliere SeqSimpleView e applica le modifiche col bottone Apply Display Options.
Leggendo la descrizione dei cinque record appare evidente che il primo di essi contiene la sequenza del gene mentre la
terza l'mRNA con la CDS. Possiamo vedere i dettagli dei due record, comprese le loro sequenze, cliccando sul loro
codice di accesso. A questo punto possiamo visualizzare le sole sequenze in formato FASTA selezionando i record
corrispondenti attraverso la checkbox sulla loro sinistra, e cambiando, come prima, il tipo di visualizzazione (scegliere
in questo caso FastaSeqs).
Ora abbiamo la sequenza del gene che contiene oltre alle regioni codificanti la proteina anche eventuali regioni trascritte
ma non tradotte (UTR) e gli introni. Al contrario, l'altra sequenza contiene le sole regioni codificanti unite in un'unica
sequenza.
Come ottenere la posizione nel gene delle regioni codificanti?
Potremmo pensare di allineare le due sequenze con un programma di allineamento in grado di evidenziare nel gene la
posizione delle sequenze codificanti. Ma cosa usare, un programma di allineamento locale o globale?
Matcher del pacchetto EMBOSS E’ un programma di allineamento locale che utilizza l'algoritmo di Smith e Waterman
leggermente modificato, mentre stretcher E’ un programma di allineamento globale basato sull'algoritmo di
Needleman-Wunsch.
Proviamo a usare Matcher. Il programma puO’ al solito essere utilizzato attraverso l'interfaccia PISE del sito di
bioinformatica (http://bioinfo2.ceinge.unina.it/tools/winterf/matcher.php). Inseriamo le due sequenze in formato
FASTA nelle apposite aree ed eseguiamo l'allineamento con i parametri predefiniti. Osservando il risultato appare
evidente un'unica regione in comune tra le due sequenze. Questo puO’ significare o che esiste una sola regione
codificante nel gene o che abbiamo commesso un errore. In realta’, abbiamo commesso un errore perchÈ un programma
di allineamento locale cerca sempre e solo il miglior allineamento locale e, quindi, al massimo puO’ essere visualizzato
un esone codificante.
In una situazione come questa E’ molto piu’ utile un programma di allineamento di tipo globale, in grado di evidenziare
tutte le aree in comune tra le due sequenze. Proviamo, dunque, a utilizzare il programma stretcher
(http://bioinfo2.ceinge.unina.it/tools/winterf/stretcher.php). Stretcher prevede, come matcher, alcuni parametri
fondamentali quali la mtrice di sostituzione da utilizzare, penalita’ da assegnare nel calcolo del punteggio finale (score)
per la comparsa di nuovi gap nell'allineamento e penalita’ per l'estensione dei gap. Immettiamo nelle due aree assegnate
le sequenze in formato FASTA con un copia e incolla, assegnamo una penalita’ di 3 per ciascun nuovo gap e di 1 per
l'estenzione dei gap. Osserviamo il risultato: ora appare chiaro che nel gene esistono due regioni codificanti, la prima
compresa tra i nucleotidi 695-1169, l'altra tra i nucleotidi 1680-1801. Possiamo confrontare questo dato con le
caratteristiche del gene riportate in EMBL. Ritornando a SRS e alla sequenza del gene p27kip1, nella sezione Features
viene riportata, fra le altre cose, la posizione nella sequenza della CDS: essa si ottiene congiungendo (join) le regione
695-1169 e 1680-1801, esattamente le posizioni calcolate con stretcher.
Domande
Cercare con SRS la sequenza nucleotidica in EMBL il cui
codice di accesso E’ AF029082 e descrivere di cosa si tratta.
Cercare con SRS nel database UNIPROT-SWISSPROT la
proteina il cui AC E’ Q9NZL3 e dire a quale specie
appartiene.
Cercare tutte le caspasi (caspase) umane (UNIPROTSWISSPROT) espresse nel fegato (liver) e riportare nella
risposta il numero di record ottenuto.
Nota che la tessuto specificita’ nei record di UNIPROTSWISSPROT viene in genere riportata nel campo comment.
Cercare tutte le caspasi umane espresse nel fegato ma non
nel rene (kidney) e riportare nella risposta il numero di
record ottenuto.
Cercare tutte le caspasi umane e murine espresse nel fegato
ma non nel polmone (lung) e riportare nella risposta il
numero di record ottenuto.
Cercare il miglior allineamento locale fra le Cicline D3
umana e murina e fra le Cicline A2 umana e murina
(proteine). Potete ottenere le squenze in formato FASTA con
SRS (ciclina si scrive in inglese cyclin). Riportate come
risposta lo score dei due allineamenti.
Risposte
ESERCIZI