Tutorial Nel nostro esperimento vogliamo ottenere le sequenze del gene e della CDS (sequenza codificante) dell’inibitore umano del ciclo cellulare p27kip1 ed evidenziare la posizione delle regioni codificanti all’interno del gene attraverso un allineamento di gene e CDS. Come ottenere le sequenze? SRS (Sequence Retrieval System) E’ un sistema che consente di interrogare banche dati via WEB. I principali vantaggi offerti da SRS sono dovuti alla possibilita’ di eseguire ricerche su uno o piu’ campi di uno o piu’ banche dati, e di permettere una integrazione tra le diverse banche dati sfruttando i 'collegamenti' esistenti tra i record di diversi database. SRS E’ in grado di interfacciarsi a molte tipologie di banche dati, alcune contenenti sequenze, altre dati alquanto diversi come strutture tridimensionali di proteine, malattie genetiche, referenze bibliografiche e ancora altri. Vai all'indirizzo bioinfo2.ceinge.unina.it. EMBL, come saprete, raccoglie le sequenze nucleotidiche determinate nei laboratori di tutto il mondo, ed E’ qui che saranno contenute anche le sequenze di p27kip1.In realta’, in un database come EMBL esiste ridondanza di sequenze per cui, oltre all'eventuale sequenza del gene e dell'mRNA, possono anche esserci frammenti della sequenza del gene. Per questo E’ spesso conveniente cercare prima la sequenza proteica in un database meno ridondante come UNIPROTSWISSPROT e, in caso di esito positivo della ricerca, risalire alle corrispondenti sequenze nucleotidiche contenute in EMBL; in questo modo potremo ottenere un numero piu’ basso di record da analizzare. Nel nostro caso, dunque, dobbiamo selezionare in alto la voce Select Databanks e subito dopo selezionare il DB UNIPROT-SWISSPROT che contiene, come detto, sequenze aminoacidiche. Nota che se passi la freccia del mouse sul nome dei database ottieni una loro breve descrizione. Ora cliccando sulla voce Standard Query Form ciritroviamo nella pagina di ricerca standard. Come puoi vedere, ci sono quattro campi che permettono di eseguire ricerche piu' o meno complesse. All text indica che la ricerca verra' eseguita in tutti i campi di ciascun record. E’ possibile, pero', cambiare All text in uno qualsiasi dei campi per poter eseguire una ricerca mirata. SRS permette di cercare contemporaneamente in piu' campi del DB (i quattro campi di ricerca centrali). Sulla tua sinistra noterai la voce Combine search terms with che permette di combinare la ricerca in due o piu' campi in questo modo: - trova i record che contengono a e b (AND); - trova i record che contengono a o b (OR); - trova i record che contengono a ma non b (BUT NOT). Per esempio, puoi cercare nel campo description (selezionandolo al posto di All text nel primo campo di ricerca) il gene (p27kip1) mentre nel secondo campo di ricerca puoi specificare Organism Name come campo in cui cercare e human come termine da cercare. Tieni presente che SRS 'conosce’ solo la lingua inglese, per cui ciascun termine per cui esegui una ricerca deve essere indicato in inglese. Lo stesso tipo di operatori (AND, OR, BUT NOT) possono essere utilizzati anche per combinare le parole che costituiscono la stringa che si sta cercando in un determinato campo. Es. cercando nel campo description IL-1 alpha, le parole IL-1 e alpha possono esserere combinate con l'operatore & (AND - cioe’ vengono cercati i record che contengono nel campo description sia la parola IL-1 che alpha), l'operatore | (OR - cioe’ vengono cercati i record che contengono nel campo description o la parola IL-1 o la parola alpha), l'operatore ! (AND NOT - cioe’ vengono cercati i record che contengono nel campo description la parola IL-1 ma non la parola alpha). Se non usi nessun operatore viene in modo predefinito usato l'operatore AND. Dunque, nel nostro caso dobbiamo cercare nel campo description p27kip1e nel campo Organism Namehuman. Eseguiamo la ricerca cliccando su Search. Come puoi vedere, il risultato E’ esattamente quel che stavamo cercando. E’ possibile osservare i dettagli del record semplicemente cliccando sul suo codice di accesso. SRS e’ in grado di stabilire le relazioni fra diversi tipi di database. Ad esempio gli si puo' chidere qualcosa del tipo: trovami tutte le sequenze di DNA dell'EMBL database relazionate al record UNIPROT-SWISSPROT che stiamo esaminando. Per fare questo basta cliccare sul bottone Link presente sulla sinistra dopodiche’ selezionare il DB EMBL e, per finire, cliccare su Search. Il risultato del 'collegamento' E’, come puoi vedere, una lista di cinque record EMBL elencati per codice di accesso. Per avere maggiori dettagli E’ possibile cambiare il tipo di visualizzazione attraverso la sezione Display Options: prova a scegliere SeqSimpleView e applica le modifiche col bottone Apply Display Options. Leggendo la descrizione dei cinque record appare evidente che il primo di essi contiene la sequenza del gene mentre la terza l'mRNA con la CDS. Possiamo vedere i dettagli dei due record, comprese le loro sequenze, cliccando sul loro codice di accesso. A questo punto possiamo visualizzare le sole sequenze in formato FASTA selezionando i record corrispondenti attraverso la checkbox sulla loro sinistra, e cambiando, come prima, il tipo di visualizzazione (scegliere in questo caso FastaSeqs). Ora abbiamo la sequenza del gene che contiene oltre alle regioni codificanti la proteina anche eventuali regioni trascritte ma non tradotte (UTR) e gli introni. Al contrario, l'altra sequenza contiene le sole regioni codificanti unite in un'unica sequenza. Come ottenere la posizione nel gene delle regioni codificanti? Potremmo pensare di allineare le due sequenze con un programma di allineamento in grado di evidenziare nel gene la posizione delle sequenze codificanti. Ma cosa usare, un programma di allineamento locale o globale? Matcher del pacchetto EMBOSS E’ un programma di allineamento locale che utilizza l'algoritmo di Smith e Waterman leggermente modificato, mentre stretcher E’ un programma di allineamento globale basato sull'algoritmo di Needleman-Wunsch. Proviamo a usare Matcher. Il programma puO’ al solito essere utilizzato attraverso l'interfaccia PISE del sito di bioinformatica (http://bioinfo2.ceinge.unina.it/tools/winterf/matcher.php). Inseriamo le due sequenze in formato FASTA nelle apposite aree ed eseguiamo l'allineamento con i parametri predefiniti. Osservando il risultato appare evidente un'unica regione in comune tra le due sequenze. Questo puO’ significare o che esiste una sola regione codificante nel gene o che abbiamo commesso un errore. In realta’, abbiamo commesso un errore perchÈ un programma di allineamento locale cerca sempre e solo il miglior allineamento locale e, quindi, al massimo puO’ essere visualizzato un esone codificante. In una situazione come questa E’ molto piu’ utile un programma di allineamento di tipo globale, in grado di evidenziare tutte le aree in comune tra le due sequenze. Proviamo, dunque, a utilizzare il programma stretcher (http://bioinfo2.ceinge.unina.it/tools/winterf/stretcher.php). Stretcher prevede, come matcher, alcuni parametri fondamentali quali la mtrice di sostituzione da utilizzare, penalita’ da assegnare nel calcolo del punteggio finale (score) per la comparsa di nuovi gap nell'allineamento e penalita’ per l'estensione dei gap. Immettiamo nelle due aree assegnate le sequenze in formato FASTA con un copia e incolla, assegnamo una penalita’ di 3 per ciascun nuovo gap e di 1 per l'estenzione dei gap. Osserviamo il risultato: ora appare chiaro che nel gene esistono due regioni codificanti, la prima compresa tra i nucleotidi 695-1169, l'altra tra i nucleotidi 1680-1801. Possiamo confrontare questo dato con le caratteristiche del gene riportate in EMBL. Ritornando a SRS e alla sequenza del gene p27kip1, nella sezione Features viene riportata, fra le altre cose, la posizione nella sequenza della CDS: essa si ottiene congiungendo (join) le regione 695-1169 e 1680-1801, esattamente le posizioni calcolate con stretcher. Domande Cercare con SRS la sequenza nucleotidica in EMBL il cui codice di accesso E’ AF029082 e descrivere di cosa si tratta. Cercare con SRS nel database UNIPROT-SWISSPROT la proteina il cui AC E’ Q9NZL3 e dire a quale specie appartiene. Cercare tutte le caspasi (caspase) umane (UNIPROTSWISSPROT) espresse nel fegato (liver) e riportare nella risposta il numero di record ottenuto. Nota che la tessuto specificita’ nei record di UNIPROTSWISSPROT viene in genere riportata nel campo comment. Cercare tutte le caspasi umane espresse nel fegato ma non nel rene (kidney) e riportare nella risposta il numero di record ottenuto. Cercare tutte le caspasi umane e murine espresse nel fegato ma non nel polmone (lung) e riportare nella risposta il numero di record ottenuto. Cercare il miglior allineamento locale fra le Cicline D3 umana e murina e fra le Cicline A2 umana e murina (proteine). Potete ottenere le squenze in formato FASTA con SRS (ciclina si scrive in inglese cyclin). Riportate come risposta lo score dei due allineamenti. Risposte ESERCIZI