Lezione09 - Struttura primaria

Analisi della
struttura primaria
delle proteine
Strumenti on-line
La maggior parte degli strumenti per l’analisi della struttura primaria si
trovano on-line all’indirizzo
www.expasy.org
Ottenere la sequenza codificante
La degenerazione e la ridondanza del codice
genetico non permettono di determinare con
precisione, data una sequenza proteica, quale
sequenza la codifichi.
Si possono però fare considerazioni
statistiche su come i vari organismi utilizzano i
loro codoni e poi utilizzare questi dati per
ottenere la sequenza più probabile o un suo
consenso.
Predire i livelli di espressione
L’abbondanza relativa dei tRNA che portano un dato codone è altamente
specie-specifica, quindi questo influenza l’utilizzo dei codoni in quella
specie.
In molti organismi un gene altamente espresso tenderà ad utilizzare i
codoni che hanno una maggior rappresentanza di anticodoni, ossia una
maggior abbondanza di tRNA.
Se conosco i geni
altamente espressi di un
organismo,
posso
analizzare
le
loro
sequenze codificanti alla
ricerca
dei
codoni
migliori,
e
utilizzare
questo tabella per predire
l’espressività
di
una
qualunque
sequenza
codificante.
Frammentazione in silico
Lo studio delle sequenze proteiche prevede l’utilizzo delle proteasi per
creare dei frammenti più piccoli e “maneggevoli” rispetto alla proteina intera.
Molto spesso le proteasi hanno dei siti di taglio preferenziali, addirittura
alcune hanno delle sequenze consenso.
Con PeptideCutter per esempio, si
possono individuare quante e quali
proteasi
taglieranno
la
nostra
proteina.
Individuare la proteina dai suoi aminoacidi
L’analisi degli aminoacidi è una tecnica che prevede la rottura chimica di
tutti i legami peptidici per liberare gli aminoacidi che poi vengono separati
sfruttando le loro diverse proprietà chimico-fisiche e poi quantificati.
Ottengo così la percentuale di ogni aminoacido in quella proteina. Questo
può essere un criterio per la sua identificazione (anche se quasi mai è
sufficiente …).
Programmi come AACompIdent chiedono prima la “costellazione”
(aminoacidi presenti) per poi cercare tra le proteine note quelle che hanno
quella composizione.
Individuare la proteina dai suoi frammenti
Se ho purificato una proteina ma non conosco la sua sequenza, posso
analizzarla mediante spettrometria di massa. Questa tecnica è in grado di
dire, con precisione al decimo di Dalton (1 Da = 1H), il peso molecolare
delle sostanze.
Se tratto una proteina con una proteasi si formano dei frammenti i cui pesi
derivano dalla somma degli aminoacidi che li compongono.
Con i programmi come Mascot, PepMapper o MSFit e altri simili, è
possibile identificare dati i pesi le possibili sequenze da cui derivano. La
ricerca in banca dati dirà poi l’identità della proteina.
E se ho più di un risultato?
Programmi per l’analisi dei picchi
Programmi per l’analisi dei picchi
Analisi dei parametri chimico - fisici
Una volta ottenuta la sequenza della proteina, è molto utile il calcolo dei suoi
parametri chimico fisici, dato che su questi si baseranno poi le tecniche
sperimentali.
Programmi come ProtParam Tool estrapolano dalla sequenza un numero
elevato di informazioni, tutte utili a fini sperimentali.
Scale di aminoacidi
Ad ogni amino acido è possibile associare un valore numerico che descriva
una qualunque sua caratteristica.
Si possono così costruire delle scale, e ne esistono già moltissime, derivate
sia dalle banche dati, sia da misurazioni sperimentali.
Algoritmi a scorrimento di finestre
Bisogna considerare che in una proteina ogni amino acido è inserito in
un contesto preciso, avrà aminoacidi a fianco e tutti contribuiscono alla
forma, alla struttura e alla funzione della proteina.
Ogni algoritmo che scorre lungo una proteina, non deve guardare il
valore del singolo residuo, ma è bene che consideri una finestra di
dimensioni fissate e per ogni punto (per ogni residuo) associare non
tanto il suo valore quanto il valore ottenuto da tutta la finestra (per
esempio, sommando i vari punteggi o facendone la media).
Inoltre, spesso è opportuno pesare diversamente i residui che si trovano
a distanze diverse rispetto al centro della finestra.
ExPASy mette a disposizione ProtScale ma è molto facile scrivere
programmi del genere anche a mano … basta sapere la scala da usare,
la grandezza della finestra e come pesare le varie posizioni.
Plot di idropatia
- Valori di idrofobicità di Kyte & Dolittle.
- Finestra di 9 residui
- Peso finestra: lineare
Ala:
Arg:
Asn:
Asp:
Cys:
Gln:
Glu:
Gly:
His:
Ile:
Leu:
Lys:
Met:
Phe:
Pro:
Ser:
Thr:
Trp:
Tyr:
Val:
1.800
-4.500
-3.500
-3.500
2.500
-3.500
-3.500
-0.400
-3.200
4.500
3.800
-3.900
1.900
2.800
-1.600
-0.800
-0.700
-0.900
-1.300
4.200
MWIDIGDAFLALHNADHKTISHGDLLCPIMLVTKRVLFY
Profili proteici e loro banche dati
Un profilo proteico è una sequenza di aminoacidi, spesso scritta in forma di
consenso, che descrive specifiche funzioni o strutture proteiche.
I profili nascono dall’osservazione degli allineamenti multipli su famiglie
di proteine che condividono qualche aspetto funzionale o strutturale: il
concetto biologico di DOMINIO proteico trova la sua controparte
computazionale nei profili.
La EBI colleziona e coordina molti database di questo tipo sotto il nome di
Database di domini
Database di famiglie
Database Strutturali
Ricerca di profili proteici
Data una sequenza, è
possibile
cercarla
in
banche dati specifiche in
cui si trovano solo i profili,
per vedere se ce ne sono
alcuni già noti.
Il programma della EBI
InterPro Scan permette di
cercare dentro molti di
questi database, costruiti
secondo criteri diversi (es.
strutturali, funzionali ecc.)
contemporaneamente.
Il risultato viene mostrato
sotto forma di link alle
relative banche dati, per
approfondire
i
match
trovati.
Ricerca mediante patterns
Serve ad estrarre dalle banche dati delle proteine che condividono una
sequenza aminoacidica comune, definita appunto “pattern”, la cui
sintassi prevede alcune regole generali.
Lo strumento più usato è ScanProsite:
1. Si usa il codice ad una lettera
2. X significa “qualunque aminoacido”
3. Se sono note alternative in una posizione,
si possono indicare con tra [ ].
4. Se non ci devono essere certi aminoacidi,
vanno scritti tra { }
5. Bisogna separare gli elementi del pattern con i “-”
6. Per trovare 5 Ala in file si può scrivere A(5)
7. Se so che il profilo sta all’inizio (N-term) posso
iniziare con “<“
8. Se so che il profilo sta alla fine (C-term) posso
terminarlo con “>“
Quindi e.s.
[AC]-x-V-L(4)-{ED}
[Ala or Cys]-any-Val-Leu-Leu-Leu-Leu-{any but Glu or Asp}
Localizzazione topologica e modificazioni
Il cosiddetto “targeting” proteico segue delle regole piuttosto precise:
servono certe sequenze affinché il sistema di smistamento cellulare
compia certe azioni. Lo stesso vale per gli enzimi che effettuano le
modificazioni post traduzionali.
ExPASy dedica due sezioni apposite per questi strumenti: