Analisi della struttura primaria delle proteine Strumenti on-line La maggior parte degli strumenti per l’analisi della struttura primaria si trovano on-line all’indirizzo www.expasy.org Ottenere la sequenza codificante La degenerazione e la ridondanza del codice genetico non permettono di determinare con precisione, data una sequenza proteica, quale sequenza la codifichi. Si possono però fare considerazioni statistiche su come i vari organismi utilizzano i loro codoni e poi utilizzare questi dati per ottenere la sequenza più probabile o un suo consenso. Predire i livelli di espressione L’abbondanza relativa dei tRNA che portano un dato codone è altamente specie-specifica, quindi questo influenza l’utilizzo dei codoni in quella specie. In molti organismi un gene altamente espresso tenderà ad utilizzare i codoni che hanno una maggior rappresentanza di anticodoni, ossia una maggior abbondanza di tRNA. Se conosco i geni altamente espressi di un organismo, posso analizzare le loro sequenze codificanti alla ricerca dei codoni migliori, e utilizzare questo tabella per predire l’espressività di una qualunque sequenza codificante. Frammentazione in silico Lo studio delle sequenze proteiche prevede l’utilizzo delle proteasi per creare dei frammenti più piccoli e “maneggevoli” rispetto alla proteina intera. Molto spesso le proteasi hanno dei siti di taglio preferenziali, addirittura alcune hanno delle sequenze consenso. Con PeptideCutter per esempio, si possono individuare quante e quali proteasi taglieranno la nostra proteina. Individuare la proteina dai suoi aminoacidi L’analisi degli aminoacidi è una tecnica che prevede la rottura chimica di tutti i legami peptidici per liberare gli aminoacidi che poi vengono separati sfruttando le loro diverse proprietà chimico-fisiche e poi quantificati. Ottengo così la percentuale di ogni aminoacido in quella proteina. Questo può essere un criterio per la sua identificazione (anche se quasi mai è sufficiente …). Programmi come AACompIdent chiedono prima la “costellazione” (aminoacidi presenti) per poi cercare tra le proteine note quelle che hanno quella composizione. Individuare la proteina dai suoi frammenti Se ho purificato una proteina ma non conosco la sua sequenza, posso analizzarla mediante spettrometria di massa. Questa tecnica è in grado di dire, con precisione al decimo di Dalton (1 Da = 1H), il peso molecolare delle sostanze. Se tratto una proteina con una proteasi si formano dei frammenti i cui pesi derivano dalla somma degli aminoacidi che li compongono. Con i programmi come Mascot, PepMapper o MSFit e altri simili, è possibile identificare dati i pesi le possibili sequenze da cui derivano. La ricerca in banca dati dirà poi l’identità della proteina. E se ho più di un risultato? Programmi per l’analisi dei picchi Programmi per l’analisi dei picchi Analisi dei parametri chimico - fisici Una volta ottenuta la sequenza della proteina, è molto utile il calcolo dei suoi parametri chimico fisici, dato che su questi si baseranno poi le tecniche sperimentali. Programmi come ProtParam Tool estrapolano dalla sequenza un numero elevato di informazioni, tutte utili a fini sperimentali. Scale di aminoacidi Ad ogni amino acido è possibile associare un valore numerico che descriva una qualunque sua caratteristica. Si possono così costruire delle scale, e ne esistono già moltissime, derivate sia dalle banche dati, sia da misurazioni sperimentali. Algoritmi a scorrimento di finestre Bisogna considerare che in una proteina ogni amino acido è inserito in un contesto preciso, avrà aminoacidi a fianco e tutti contribuiscono alla forma, alla struttura e alla funzione della proteina. Ogni algoritmo che scorre lungo una proteina, non deve guardare il valore del singolo residuo, ma è bene che consideri una finestra di dimensioni fissate e per ogni punto (per ogni residuo) associare non tanto il suo valore quanto il valore ottenuto da tutta la finestra (per esempio, sommando i vari punteggi o facendone la media). Inoltre, spesso è opportuno pesare diversamente i residui che si trovano a distanze diverse rispetto al centro della finestra. ExPASy mette a disposizione ProtScale ma è molto facile scrivere programmi del genere anche a mano … basta sapere la scala da usare, la grandezza della finestra e come pesare le varie posizioni. Plot di idropatia - Valori di idrofobicità di Kyte & Dolittle. - Finestra di 9 residui - Peso finestra: lineare Ala: Arg: Asn: Asp: Cys: Gln: Glu: Gly: His: Ile: Leu: Lys: Met: Phe: Pro: Ser: Thr: Trp: Tyr: Val: 1.800 -4.500 -3.500 -3.500 2.500 -3.500 -3.500 -0.400 -3.200 4.500 3.800 -3.900 1.900 2.800 -1.600 -0.800 -0.700 -0.900 -1.300 4.200 MWIDIGDAFLALHNADHKTISHGDLLCPIMLVTKRVLFY Profili proteici e loro banche dati Un profilo proteico è una sequenza di aminoacidi, spesso scritta in forma di consenso, che descrive specifiche funzioni o strutture proteiche. I profili nascono dall’osservazione degli allineamenti multipli su famiglie di proteine che condividono qualche aspetto funzionale o strutturale: il concetto biologico di DOMINIO proteico trova la sua controparte computazionale nei profili. La EBI colleziona e coordina molti database di questo tipo sotto il nome di Database di domini Database di famiglie Database Strutturali Ricerca di profili proteici Data una sequenza, è possibile cercarla in banche dati specifiche in cui si trovano solo i profili, per vedere se ce ne sono alcuni già noti. Il programma della EBI InterPro Scan permette di cercare dentro molti di questi database, costruiti secondo criteri diversi (es. strutturali, funzionali ecc.) contemporaneamente. Il risultato viene mostrato sotto forma di link alle relative banche dati, per approfondire i match trovati. Ricerca mediante patterns Serve ad estrarre dalle banche dati delle proteine che condividono una sequenza aminoacidica comune, definita appunto “pattern”, la cui sintassi prevede alcune regole generali. Lo strumento più usato è ScanProsite: 1. Si usa il codice ad una lettera 2. X significa “qualunque aminoacido” 3. Se sono note alternative in una posizione, si possono indicare con tra [ ]. 4. Se non ci devono essere certi aminoacidi, vanno scritti tra { } 5. Bisogna separare gli elementi del pattern con i “-” 6. Per trovare 5 Ala in file si può scrivere A(5) 7. Se so che il profilo sta all’inizio (N-term) posso iniziare con “<“ 8. Se so che il profilo sta alla fine (C-term) posso terminarlo con “>“ Quindi e.s. [AC]-x-V-L(4)-{ED} [Ala or Cys]-any-Val-Leu-Leu-Leu-Leu-{any but Glu or Asp} Localizzazione topologica e modificazioni Il cosiddetto “targeting” proteico segue delle regole piuttosto precise: servono certe sequenze affinché il sistema di smistamento cellulare compia certe azioni. Lo stesso vale per gli enzimi che effettuano le modificazioni post traduzionali. ExPASy dedica due sezioni apposite per questi strumenti: