PROTEINE E DATABASE (06)
Solo nel corpo umano ci sono più di 100.000 differenti proteine al lavoro. Ma quasi tutti sono costituiti da
appena venti diversi amminoacidi. In poche proteine umane altamente specializzate contengono
selenocisteina, aminoacido molto raro 21^ scoperto nel 1986.
Proteinogenici aminoacidi sono quegli amminoacidi che si trovano nelle proteine e richiedono meccanismo
cellulare codificata nel codice genetico di ogni organismo per la loro produzione isolato. Ci sono 23
proteinogenici amminoacidi, ma solo 21 si trovano negli eucarioti.
20 sono direttamente codificati dal codice genetico universale, definite come AA standard o canonici), sono
AA alfa poiche catena R è in posizione alfa.
Gli esseri umani possono sintetizzare 11 di questi 20. Gli altri 9 devono essere consumati nella dieta, e così
sono chiamati AA essenziali: sono ISTIDINA, ISOLEUCINA, LEUCINA, lISINA, METIONINA,
FENILALANINA, TREONINA, TRIPTOFANO e VALINA. Selenocisteina viene incorporato nelle proteine
da meccanismi sintetici unici (incorporazione co-traslazionale).
-1986: Selenocisteina è riconosciuto come il 21 ° amminoacido nella sintesi proteica ribosoma-mediata e la
sua incorporazione specifico è diretto dal codone UGA: l'incorporazione è co-traduzionale. È interessante
notare la tripletta di base che codifica questo aminoacido è UGA, normalmente un codone che funziona
come un segnale di STOP in traduzione.
-2002 Pirrolisina è un AA naturale (solitamente indicato come l'amminoacido 22) finora trovato soltanto in
alcune proteine archeali. Pirrolisina è una lisina in un legame ammidico a (4R, 5R)-4-sostituito-pyrroline-5carbossilato. La tripletta di base che codifica questo aminoacido è UAG (codone di stop). Co-traslazionale.
- N-Formilmetionina→ Segnalato anche da alcuni testi come aa naturale nel 1966. Nei batteri, l'inizio della
sintesi proteica viene segnalata dalla formazione di formil-metionil-tRNA ((f-Met)-tRNA). Questa reazione è
dipendente 10-formyltetrahydrofolate, e l'enzima metionil-formil tRNA. Questa reazione non è utilizzato da
eucarioti o Archaea, come la presenza di (f-Met)-tRNA in cellule batteriche non è definito come materiale
intrusivo e rapidamente eliminato.
Polipeptidi→ divisi in corti <50AA =peptidi, lunghi >50AA = proteine
PONTI A DISOLFURO → La formazione di ponti a disolfuro richiede ambienti ossidanti, pertanto di solito
non sono presenti nelle proteine intracellulari, ambiente essenzialmente riducente. Sono invece presenti tra le
proteine extracellulari secrete dalle cellule. Negli eucarioti si formano nel lume del RE primo compartimento
della via secretoria. Possono essere intermolecolari (es. Insulina A e B) oppure intramolecolari, rendendo le
proteine più stabili alla degradazione (es. tossine dei veleni e inibitori proteasi)
Esempio di modificazione post-traduzionali delle proteine
La O-glicosilazione è un processo altamente specifico, che non vede l'aggiunta "seriale" di carboidrati alla
proteina in oggetto, ma sito-specifica. Si svolge completamente nell'apparato del Golgi, dove zuccheri
vengono legati al peptide a livello dell'atomo di ossigeno delle catene laterali di serina o treonina.
Struttura primaria→ FASTA → primo rigo commento preceduto dal segno > in cui appare scritto nome
della proteina e codice del database, 2 riga scrittura degli amminoacidi in fila col codice ad una lettera.
Indica posizione numero dei ponti disolfuro.
Database: luogo in cui sono organizzati in maniera gerarchica i dati classificati per: evoluzione→ sequenza
simile o distanza, filogenesi, raggruppamento in superfamiglie e famiglie proteiche, più profili di
allineamento di sequenze; funzione e struttura.
In ordine storico la madre di tutti i database è National Biomedical Research Foundation (NBRF) che
oggi è Protein Identification Resource (PIR).
DATABASE
UNIPROT→ diviso in varie sottosezioni. Uniprot/swissprot è’ un database di sequenze proteiche curato
amano e altamente annotato, ossia vengono incluse le descrizioni, tassonomia, citazioni,, motivi,
classificazioni funzionali e strutturali, le annotazioni specifiche di residui tra cui le variazioni. Spesso sono
gestiti in maniera automatica; uniprot ha uomini che mano a mano controllano le sequenze e le inseriscono
nei database. Uniprot/TREMBL sono proteine tradotte automaticamente dal genoma, sono meno affidabili.
con la stella oro si indica quelli annotati a mano, con la stella argento quelli annotati automaticamente.
Ciascuna entry ha un codice univoco; quando apriamo vediamo prima tutte le annotazioni, poi i riferimenti
testuali e infine la sequenza FASTA con AA divisi in gruppi di 10. In base alla funzione ci dice anche in
quali e quante regioni è divisa. Mostra le modifiche post-traduzionali amminoacidiche. Strumento molto
comune è l’allineamento di sequenze in cui è possibile mettere a confronto più sequenze di diverse proteine
per vedere quali AA hanno in comune; simbologia:
*→ AA sono uguali;
: → AA non sono tutti uguali, ma la sostituzione è conservativo poiche non c’è cambio di funzione,
. → AA non sono tutti uguali e la sostituzione è semiconservativo; poiché sono simili, ma cambia la funzione
→ AA non sono tutti uguali e la sostituzione con conserva niente,
PROSITE→ sia database che strumento di analisi. E’ database di domini proteici, famiglie e siti funzionali.
Si può chiedere informazioni su un certo sito funzionale, cerchiamo sito funzionale e ci appare descrizione,
sezione tecnica che contiene la sequenza AA e referenze. Possiamo anche inserire sequenza FASTA e vedere
se ci sono siti funzionali all’interno. Esistono degli schemi di sequenza che sono molto semplici perciò è
possibile che siano nella nostra sequenza per caso, noi possiamo scegliere se includere anche questi siti
potenziali o no nella ricerca. PROSITE quando gli do una sequenza fa una predizione per similitudine, ma
non è detto che sia corretto. Ci aiuta a predire dove possono avvenire modifiche post-traduzionali.
MYHITS→ molto simile a PROSITE.
INTERPROSCAN → molto simile a PROSITE però effettua la scansione dei domini funzionali
contemporaneamente su più database. Permette di aumentare la probabilità di trovare risultati utili e i risultati
vengono colorati ognuno in modo diverso per differenziare i vari database;
EXPASY→ non è di per se un database , ma è un sito mantenuto dal SIB (istituto svizzero di informatica)
che raccoglie vari database. Vi si trovano sequenze proteiche annotate.
NCBI → più grande database di origine americana in cui possiamo ricercare pubblicazioni su una data
molecola, o fare ricerca su tutti i database per cui a partire dall’inserimento del nome di una molecola in
un'unica schermata mi trovo tutti i risultati che hanno a che fare in qualche modo con quella molecola, divisi
per database; non viene distinto ciò che è stato annotato manualmente o ciò che è stato annotato
automaticamente.
PDB → (protein data bank) non è una banca dati di sequenze, ma di strutture proteiche; possiamo vedere
quindi la struttura tridimensionale (secondaria, terziaria e quaternaria). Faccio una ricerca per parole chiave e
ottengo una lista di risultati, in alcuni casi se siamo fortunati il mio risultato posso trovarlo anche come
molecola del mese, ossia ogni mese viene analizzata una molecola e gli viene fatto un articolo. Possiamo
vedere la strutture tridimensionale delle sequenze presenti su UNIPROT, inoltre vengono evidenziati domini
funzionali; non è detto che ci sia la proteina perché si conosce la struttura di poche, inoltre non è detto che ci
sia la struttura completa. Delle proteine con struttura quaternaria sono presenti tante stecche di sequenze
quante sono le componenti. Inoltre è possibile vedere l’animazione della struttura quaternaria in cui è
possibile evidenziare i vari legami ed è possibile colorare le varie catene polipeptiche con colori diversi. Con
gli altri database si vede una sola subunità poiché ogni gene esprime una sola catena, PDB posso vedere la
struttura composta da tutte le catene.
Spesso troviamo la sigla GO che significa “Gene Ontology → ontologia del gene”,
Un progetto atto a costruire un vocabolario per descrivere geni e prodotti genici attribuibili a ogni
organismo; ossia nominare i geni in maniera univoca in modo che in diverse banche dati appaia lo stesso
nome e sia facilmente rintracciabile, infatti la differenza nel nominare diversamente proteine in luoghi
diversi crea problemi nella creazione dei database e nella ricerca da parte degli studiosi.