Immaginate di aver isolato un clone da una genoteca e di
averne determinato la sequenza. Non avete informazioni
circa questo clone.
I vostri obiettivi sono:
1)stabilire se la sequenza nucleotidica e’ codificante o no.
2)nel caso che lo sia, verificare se ci sono proteine
omologhe a quella codificata dalla vostra sequenza
nucleotidica
3)nel caso che ci siano sequenze omologhe, determinare
quale puo’essere la funzione della vostra proteina incognita.
In questo modo sarete in grado di allestire un saggio di
attività specifico e mirato.
4) nel caso che ci siano proteine omologhe a struttura nota,
determinare quale verosimilmente e’ la struttura della
vostra proteina incognita.
5)allineare la sequenza della vostra proteina incognita a
quella delle proteine a struttura nota. In questo modo
potrete progettare mutazioni per individuare i residui
responsabili della attivita’, della stabilita’ ed eventialmente
modificare queste due proprieta’
Collegatevi al sito
http://www.expasy.ch/
Cliccate su DNA -> Protein
E quindi su Translate
Utilizzando il copia e incolla sul computer selezionate la
sequenza nucleotidica che trovate alla pagina successiva e
incollatela nell’apposito riquadro
ATG AAC TCG TCC GTC ATA AGC AAG CCA ATC
CTA CCA GTC GCA GGC GTA CAC CGA TCT TCA
GCA GAT GAC CGT TCG ACT GGC CGG CCG GCA
ACA GGC TCT AGA CAG AAC GAT GAC GGC CCA
CTC AAT CCC CCA GGA CGT GGT CTA TCA GAG
AAC TCG GCT CGA TCT GAA GCA CTG TTG CGC
TGC AGG AAG CCA TTT ATT ACT GCC ACA TTC
AAT GCG AAC ACT GCT CGT GAA GAG GTC AGG
GCG TCG GAG ATC GCA CAT TGT TTC GAA AGT
TGC GGT ATA AAG ATT TTA GGG ATT CAG GAG
CAT CGA CGC GTT CAC GAA GAC CCT GTG GTA
TTC TCA CGT CTT GAG GGA CAA TAC CTA ATT
ACG GCG AGC GCC TGG AGA AAT CAG TCC CAA
GCG TCC GTA GGA GGC GTT GGT TTA CTT CTT
AGT ACA AGA GCT CGC AAG GCT CTC AGA CGG
GCC ACC CGG CAT AGT GAC CGC ATA CTG GTC
GCT GAA TTT GAT TCA AAT CCT GTC ACG ACT
GTA ATC GTG ACT TAT AGC CCG ACC AAT ACG
TCC CCG GAA GAG GTT GTG GAG AAT TAT TAT
GAT GAT CTC AGC GAT GTG ATA AGG GGA GTC
CCC GCG CAT AAT TTT TTG GCT GTA TTG GGG
GAC TTC AAT GCG CGA TTA GGT ACA GAG GAC
GCC TCA TTT ACC TGG CAC GAT AAA ACA AAT
AGG AAC GGT GAA CTC TTA GCA GAG ATA ATG
ACA GAA CAT AGT CTT CTG GCC GCC AAC ACA
CAG TTT CGA AAA AAA CAA GGG AAA AGA TGG
ACA TAC CTG GAT CGC GGA ACG GGG ATG AAA
CGG CAA TTA GAC TAC ATT TTA GTG CGG AGG
AAA TGG TGG AAC TCT ATC TTA AAC GCA GAA
CCT TAT AAC ACC TTC TGT ACG GTT GGA AGT
GAC CAC AGA GTA GTG AGC ATG AGA GTT CGT
TTA TCG TTG AGA GTT CCC AAG CAG AAC AGT
GAA CAA TCC TTA ACC GGG ATC AAT TCT CTA
Esistono tre possibili cornici di lettura per la vostra
sequenza e tre per la sequenza complementare. Potete cioe’
posizionare il primo codone in corrispondenza del primo
nucleotide, del secondo o del terzo.
Scegliendo l’opzione verbose vi sara’ facile verificare che
esiste una cornice aperta di lettura ed e’ la prima che vi
appare. E’ aperta perche’ c’e’ un lunga sequenza
amminoacidica senza stop.
Segliendo l’opzione compatta potrete recuperare la
sequenza della proteina codificata in un formato idoneo alle
successive analisi
Ve la riportiamo
>seuenza incognita
MNSSVISKPILPVAGVHRSSADDRSTGRPATGSRQND
DGPLNPPGRGLSENSARSEALLRCRKPFITATFNANT
AREEVRASEIAHCFESCGIKILGIQEHRRVHEDPVVFS
RLEGQYLITASAWRNQSQASVGGVGLLLSTRARKAL
RRATRHSDRILVAEFDSNPVTTVIVTYSPTNTSPEEVV
ENYYDDLSDVIRGVPAHNFLAVLGDFNARLGTEDAS
FTWHDKTNRNGELLAEIMTEHSLLAANTQFRKKQG
KRWTYLDRGTGMKRQLDYILVRRKWWNSILNAEPY
NTFCTVGSDHRVVSMRVRLSLRVPKQNSEQSLTGIN
SL
Passiamo al secondo punto
Collegatevi al sito
http://www.expasy.ch/
cliccare su similarità search
andate su blast at ncbi
andate su protein blast
col copy and paste attaccate la sequenza proteica nel
riquadro search
scegliete col choose database swissprot
cliccate su blast, aspettate
cliccate su format
osservate i risultati ed osservate i valori di E value: i
migliori risultati corrispondono ai valori E piu’ bassi.
Per sapere a cosa corrispondono le varie sequenze con le
quali si trova omologia cliccare sul nome in blu.
Vi troverete in swissprot
La prima proteina omologa e’:
gi|130402|sp|P11369|POL2_MOUSE
Osservate lastruttura di un file della swissprot ed in
particolare il numero di accesso, le parole chiave, il
riferimento bibliografico, i commenti e il riferimento ad
altre banche dati quale la pfam
xrefs (non-sequence databases): PFAM PF00078,
PfamPF03372
(Pfam non e’ una banca dati di sequenze, ma una banca dati
di famiglie di proteine percio’ c’e’ scritto ‘ non-sequence
database’).
Ma cliccate anche su Domains in alto a destra del file
swissprot riportato dal NCBI
Notate che la seconda proteina con la quale si trova
omologia:
gi|1709294|sp|P55013|S122_SQUAC
non e’ una trascrittasi inversa ma una proteina di natura
completamente diversa (un trasportatote sodio cloro) e il
riferimento sarebbe a un’altra famiglia di pfam
xrefs (non-sequence databases): PFAM PF00324
(se avete tempo controllate anche le proteine successive).
Vedrete che solo molto piu’ avanti c’è
gi|113984|sp|P27695|APE1_HUMAN
con un E value molto piu’ alto
se cliccate sul file swiss prot, realizzate che si tratta di una
endonucleasi e
xrefs (non-sequence databases):,
PfamPF03372
vi domanderete ora se la vostra sequenza e’ correlata alle
trascrittasi inverse o al cotrasportatore sodio cloro o
eventualmente con la nucleasi
per dirimere questa questione tornate a
http://www.expasy.ch/
quindi cliccate su
Links to many other molecular biology databases
E quindi cliccate su pfam
Indirizzo
http://www.sanger.ac.uk/Pfam
scegliere l’opzione protein search
sceglite l’opzione global Pfam search e non modificate gli
altri parametri
col copia ed incolla introducete la vostra sequenza proteica.
potrete vedere che il risultato e’
Endonuclease/Exonuclease/phosphatase family
con un e-value molto basso.
Questo significa che il risultato e’ statisticamente molto
significativo
La famiglia
Endonuclease/Exonuclease/phosphatase family
puo’ essere un dominio proteico cioe’ uno dei componenti
di una proteina multidominio.
Cliccate sul modulo verde che rappresenta il dominio.
Cliccando su domain organisation:view graphic potrete
vedere varie proteine.
Alcune contengono solo il dominio
Endonuclease/Exonuclease/phosphatase family,
Altre contengono questo dominio fuso ad altri.
Potrete vedere che esistono proteine multi dominio, tra cui
le trascrittasi inverse, che contengono un dominio di di
endo/exo nucleasi/fosfatasi.
Blast ci aveva suggerito che la nostra proteina e’ omologa
ad una trascrittasi inversa, pfam ci conferma questo
risultato escludendo l’ipotesi dell’omologia col
cotrasportatore e ci chiarisce che l’omologia e’ con dominio
nucleasico della proteina multidominio
gi|130402|sp|P11369|POL2_MOUSE.
Inoltre l’analisi con pfam ci da un’e-value molto piu’ basso
di quello ottenuto con blast. Il nostro risultato e’ quindi
statisticamente molto significativo.
Sempre nella pagina web di pfam osservate le altre
informazioni fornite.
Il codice ec per
Endonuclease/Exonuclease/phosphatase family
e’:
4.2.99.18.