Immaginate di aver isolato un clone da una genoteca e di averne determinato la sequenza. Non avete informazioni circa questo clone. I vostri obiettivi sono: 1)stabilire se la sequenza nucleotidica e’ codificante o no. 2)nel caso che lo sia, verificare se ci sono proteine omologhe a quella codificata dalla vostra sequenza nucleotidica 3)nel caso che ci siano sequenze omologhe, determinare quale puo’essere la funzione della vostra proteina incognita. In questo modo sarete in grado di allestire un saggio di attività specifico e mirato. 4) nel caso che ci siano proteine omologhe a struttura nota, determinare quale verosimilmente e’ la struttura della vostra proteina incognita. 5)allineare la sequenza della vostra proteina incognita a quella delle proteine a struttura nota. In questo modo potrete progettare mutazioni per individuare i residui responsabili della attivita’, della stabilita’ ed eventialmente modificare queste due proprieta’ Collegatevi al sito http://www.expasy.ch/ Cliccate su DNA -> Protein E quindi su Translate Utilizzando il copia e incolla sul computer selezionate la sequenza nucleotidica che trovate alla pagina successiva e incollatela nell’apposito riquadro ATG AAC TCG TCC GTC ATA AGC AAG CCA ATC CTA CCA GTC GCA GGC GTA CAC CGA TCT TCA GCA GAT GAC CGT TCG ACT GGC CGG CCG GCA ACA GGC TCT AGA CAG AAC GAT GAC GGC CCA CTC AAT CCC CCA GGA CGT GGT CTA TCA GAG AAC TCG GCT CGA TCT GAA GCA CTG TTG CGC TGC AGG AAG CCA TTT ATT ACT GCC ACA TTC AAT GCG AAC ACT GCT CGT GAA GAG GTC AGG GCG TCG GAG ATC GCA CAT TGT TTC GAA AGT TGC GGT ATA AAG ATT TTA GGG ATT CAG GAG CAT CGA CGC GTT CAC GAA GAC CCT GTG GTA TTC TCA CGT CTT GAG GGA CAA TAC CTA ATT ACG GCG AGC GCC TGG AGA AAT CAG TCC CAA GCG TCC GTA GGA GGC GTT GGT TTA CTT CTT AGT ACA AGA GCT CGC AAG GCT CTC AGA CGG GCC ACC CGG CAT AGT GAC CGC ATA CTG GTC GCT GAA TTT GAT TCA AAT CCT GTC ACG ACT GTA ATC GTG ACT TAT AGC CCG ACC AAT ACG TCC CCG GAA GAG GTT GTG GAG AAT TAT TAT GAT GAT CTC AGC GAT GTG ATA AGG GGA GTC CCC GCG CAT AAT TTT TTG GCT GTA TTG GGG GAC TTC AAT GCG CGA TTA GGT ACA GAG GAC GCC TCA TTT ACC TGG CAC GAT AAA ACA AAT AGG AAC GGT GAA CTC TTA GCA GAG ATA ATG ACA GAA CAT AGT CTT CTG GCC GCC AAC ACA CAG TTT CGA AAA AAA CAA GGG AAA AGA TGG ACA TAC CTG GAT CGC GGA ACG GGG ATG AAA CGG CAA TTA GAC TAC ATT TTA GTG CGG AGG AAA TGG TGG AAC TCT ATC TTA AAC GCA GAA CCT TAT AAC ACC TTC TGT ACG GTT GGA AGT GAC CAC AGA GTA GTG AGC ATG AGA GTT CGT TTA TCG TTG AGA GTT CCC AAG CAG AAC AGT GAA CAA TCC TTA ACC GGG ATC AAT TCT CTA Esistono tre possibili cornici di lettura per la vostra sequenza e tre per la sequenza complementare. Potete cioe’ posizionare il primo codone in corrispondenza del primo nucleotide, del secondo o del terzo. Scegliendo l’opzione verbose vi sara’ facile verificare che esiste una cornice aperta di lettura ed e’ la prima che vi appare. E’ aperta perche’ c’e’ un lunga sequenza amminoacidica senza stop. Segliendo l’opzione compatta potrete recuperare la sequenza della proteina codificata in un formato idoneo alle successive analisi Ve la riportiamo >seuenza incognita MNSSVISKPILPVAGVHRSSADDRSTGRPATGSRQND DGPLNPPGRGLSENSARSEALLRCRKPFITATFNANT AREEVRASEIAHCFESCGIKILGIQEHRRVHEDPVVFS RLEGQYLITASAWRNQSQASVGGVGLLLSTRARKAL RRATRHSDRILVAEFDSNPVTTVIVTYSPTNTSPEEVV ENYYDDLSDVIRGVPAHNFLAVLGDFNARLGTEDAS FTWHDKTNRNGELLAEIMTEHSLLAANTQFRKKQG KRWTYLDRGTGMKRQLDYILVRRKWWNSILNAEPY NTFCTVGSDHRVVSMRVRLSLRVPKQNSEQSLTGIN SL Passiamo al secondo punto Collegatevi al sito http://www.expasy.ch/ cliccare su similarità search andate su blast at ncbi andate su protein blast col copy and paste attaccate la sequenza proteica nel riquadro search scegliete col choose database swissprot cliccate su blast, aspettate cliccate su format osservate i risultati ed osservate i valori di E value: i migliori risultati corrispondono ai valori E piu’ bassi. Per sapere a cosa corrispondono le varie sequenze con le quali si trova omologia cliccare sul nome in blu. Vi troverete in swissprot La prima proteina omologa e’: gi|130402|sp|P11369|POL2_MOUSE Osservate lastruttura di un file della swissprot ed in particolare il numero di accesso, le parole chiave, il riferimento bibliografico, i commenti e il riferimento ad altre banche dati quale la pfam xrefs (non-sequence databases): PFAM PF00078, PfamPF03372 (Pfam non e’ una banca dati di sequenze, ma una banca dati di famiglie di proteine percio’ c’e’ scritto ‘ non-sequence database’). Ma cliccate anche su Domains in alto a destra del file swissprot riportato dal NCBI Notate che la seconda proteina con la quale si trova omologia: gi|1709294|sp|P55013|S122_SQUAC non e’ una trascrittasi inversa ma una proteina di natura completamente diversa (un trasportatote sodio cloro) e il riferimento sarebbe a un’altra famiglia di pfam xrefs (non-sequence databases): PFAM PF00324 (se avete tempo controllate anche le proteine successive). Vedrete che solo molto piu’ avanti c’è gi|113984|sp|P27695|APE1_HUMAN con un E value molto piu’ alto se cliccate sul file swiss prot, realizzate che si tratta di una endonucleasi e xrefs (non-sequence databases):, PfamPF03372 vi domanderete ora se la vostra sequenza e’ correlata alle trascrittasi inverse o al cotrasportatore sodio cloro o eventualmente con la nucleasi per dirimere questa questione tornate a http://www.expasy.ch/ quindi cliccate su Links to many other molecular biology databases E quindi cliccate su pfam Indirizzo http://www.sanger.ac.uk/Pfam scegliere l’opzione protein search sceglite l’opzione global Pfam search e non modificate gli altri parametri col copia ed incolla introducete la vostra sequenza proteica. potrete vedere che il risultato e’ Endonuclease/Exonuclease/phosphatase family con un e-value molto basso. Questo significa che il risultato e’ statisticamente molto significativo La famiglia Endonuclease/Exonuclease/phosphatase family puo’ essere un dominio proteico cioe’ uno dei componenti di una proteina multidominio. Cliccate sul modulo verde che rappresenta il dominio. Cliccando su domain organisation:view graphic potrete vedere varie proteine. Alcune contengono solo il dominio Endonuclease/Exonuclease/phosphatase family, Altre contengono questo dominio fuso ad altri. Potrete vedere che esistono proteine multi dominio, tra cui le trascrittasi inverse, che contengono un dominio di di endo/exo nucleasi/fosfatasi. Blast ci aveva suggerito che la nostra proteina e’ omologa ad una trascrittasi inversa, pfam ci conferma questo risultato escludendo l’ipotesi dell’omologia col cotrasportatore e ci chiarisce che l’omologia e’ con dominio nucleasico della proteina multidominio gi|130402|sp|P11369|POL2_MOUSE. Inoltre l’analisi con pfam ci da un’e-value molto piu’ basso di quello ottenuto con blast. Il nostro risultato e’ quindi statisticamente molto significativo. Sempre nella pagina web di pfam osservate le altre informazioni fornite. Il codice ec per Endonuclease/Exonuclease/phosphatase family e’: 4.2.99.18.