Caratterizzazione bioinformatica della sequenza nucleotidica a

Relazione per Biochimica computazionale. Anno accademico 2006/2007
Caratterizzazione bioinformatica della sequenza nucleotidica a funzione
ignota NM_018386
Serventi Fabio, 175881
Informazioni generali
La sequenza con a.n. GenBank NM_018386 corrisponde ad una sequenza nucleotidica derivata da una libreria a cDNA
di Homo sapiens; essa è lunga 1786 bp ed è definita “Homo sapiens PCI domain containing 2 (PCID2)”.
La CDS si estende dalla posizione 36 alla 1397 dell’mRNA; la proteina codificata ha a.n. NP_060856 ed è lunga 453
aa. Nell’entry di GenBank sono riportate due regioni conservate:
190-447: "Transcription-associated recombination protein [DNA replication, recombination, and repair];
COG5600"
358-442: "PCI domain; pfam01399"
La corrispondente entry della banca dati Swiss-Prot ha a.n. Q5JVF3. La proteina è nota anche con il nome “CSN12-like
protein”, in quanto parte della famiglia di proteine CSN12. Vengono ipotizzate 4 possibili isoforme. La sequenza qui
riportata è differente rispetto all’entry di GenBank, è infatti mancante degli aminocacidi da 90 a 143. Probabilmente ciò
è dovuto all’esistenza in uomo di diverse possibili isoforme della proteina.
Uno studio di tipo proteomico volto a identificare con il sistema del doppio ibrido in lievito tutte le interazioni proteinaproteina del proteoma umano, ha rilevato un’interazione di questa proteina con quella prodotta dal gene “SHFM1”.
Localizzazione cromosomica
Il gene dal quale è trascritta la sequenza di interesse, chiamato “PCID2”, è situato sul cromosoma 13 nel locus 13q34.
Esso è orientato sul filamento “meno”e la regione trascritta si estende dalla posizione 112.910.984 alla 112.879.927.
Si identificano 14 esoni, le cui posizioni e lunghezze sono riportate nella figura 1 dell’allegato. La zona mancante
nell’entry di SwissProt non è perfettamente sovrapponibile ad un intero esone, ma bensì corrisponde alla seconda metà
del quarto esone.
Caratteristiche chimico-fisiche della proteina
N° di aminoacidi: 453
Peso molecolare: 52087.8
Punto isoelettrico: 8.73
Composizione aminoacidica: non vi sono evidenti particolarità, ma si può notare una preponderanza di
aminoacidi idrofobici (L 12,8%; A 8,6%; V 7,3%)
Analisi di regioni ripetute
La proteina non presenta regioni ripetute all’interno della sua sequenza.
Omologia
1.
Una ricerca di omologia con blastp su banca dati non ridondante con parametri di default ha fornito i seguenti
risultati: (vedi figura 2)
Paralogie: Non sono presenti sequenze omologhe all’interno di Homo sapiens. Gli unici output presenti si
riferiscono alla stessa sequenza ridondante. È presente un match non significativo con la sequenza proteica
corrispondente al gene PSMD3, ossia la subunità non ATPasica 3 del proteasoma 26S (rpn3), anch’essa
contenente un dominio PCI.
Ortologie: Viene rilevata una buona conservazione della sequenza tra gli organismi eucarioti, essa ha infatti
omologhi ad alta significatività tra i vertebrati, ma anche in diversi rappresentanti del regno animale, vegetale e
dei funghi.
Le proteine ortologhe sono comunemente definite come “PCI domain containing protein 2” o come
“(conserved) hypotetical protein”. Fanno eccezione le proteine:
“proteasome protein like (ISS)” di Ostreococcus tauri (E = 4·10-59);
“COP9 signalosome complex sub. 12 (CSN12)” di Aspergillus terreus (E = 1·10-47);
“Csn12p/Rpn3p family protein” di Cryptosporidium parvum (E = 1·10-33);
“Csn12p” di Saccharomyces cerevisiae (E = 3·10-14);
“Nuclear pore associated protein” di S. cerevisiae (E = 2·10-9);
2.
Essendo la sequenza proteica corrispondente ad una sequenza di riferimento unigene, è stato possibile visualizzare
la provenienza in termini di tessuto-specificità, stadio dello sviluppo, stati patologici delle est corrispondenti al
gene PCID2. Si osserva una presenza omogenea della proteina di interesse in tutte le condizioni di specificità, che
si può perciò ipotizzare essere ubiquitaria.
3.
La sequenza della proteina è stata sottoposta ad un analisi di appartenenza a famiglie conservate con Pfam. Sono
stati identificati i seguenti domini conservati:
Dominio PCI (o PINT motif), aa 331-442: dominio di funzione non del tutto chiara, ma di struttura nota
(figura 3) probabilmente implicato in interazioni modulari proteina-proteina, conservato al C-terminale di
proteine facenti parti di complessi multiproteici, quali la porzione “lid” (parte della porzione19S, a sua volta
inclusa nella 26S) del proteasoma, il complesso di inizio traduzione 3 (elF3), il signalosoma COP9, il
mammalian G-protein pathway suppressor (GPS1)
Pfam B 52469, aa 5-85: rappresentato da altre 3 proteine della famiglia CSN12-like di animali contenenti
dominio PCI
Pfam B 67532, aa 144-203: altre 3 proteine ipotetiche di cui una “proteasome like”, contenenti dominio PCI
Pfam B 16839, aa 219-361: proteine ipotetiche, tra cui alcune CSN12 di lieviti.
4.
PSI-blast: nella prima iterazione sono state selezionate le sequenze con E < 1·10-4; la seconda iterazione ha dato tra
i match oltre a proteine ipotetiche e CSN12, anche una serie di proteine eucariotiche simili a PSMD3 (subunità 3
regolatoria non ATPasica) e alla subunità 2 di COP9, tutte contenenti il dominio PCI. Queste non presentano
somiglianza significativa con la proteina di interesse.
Allineamento multiplo
L’allineamento multiplo è stato svolto su presunti ortologhi identificati con la ricerca di omologia con il programma
ClustalX, e successivamente visualizzato con GeneDoc. (figura 4 allegato). Sono state scelte sequenze PCID2 di
vertebrati, un insetto, un nematode, e di 3 lieviti, compreso S. cerevisiae. È possibile notare la forte conservazione di
alcuni residui idrofobici. La parte centrale dell’allineamento mostra apparentemente una maggiore conservazione di
quella dello stesso dominio PCI. È evidente l’esistenza di intere regioni presenti in alcune sequenze ma mancanti in
altre, probabilmente causata della presenza/assenza di diversi esoni o dallo splicing alternativo; in particolare la regione
estesa dall’aa 90 al 143 è presente solo nelle sequenze umana e di macaco, e ciò è un’ulteriore indizio a favore di
eventuali splicing alternativi riguardanti la regione in questione. La sequenza di C. elegans presenta una lunga porzione
c-terminale che non ha corrispondenti nelle altre sequenze.
Filogenesi
È stato creato un albero filogenetico Neighbour-Joining dall’allineamento multiplo precedente, e visualizzato con
TreeView. È stata scelta come outgroup la sequenza di S. cerevisiae in quanto più distante evolutivamente all’uomo e
perché noto in letteratura che il complesso del signalosoma COP9 di S. cerevisiae (del quale CSN12p è un noto
componente) diverge sensibilmente da quello di altri eucarioti. La filogenesi visualizzata è molto probabilmente
inattendibile a causa delle diverse forme di splicing delle sequenze confrontate. Sarebbe opportuno individuare simili
varianti di splicing. (Figura 5).
Predizione di localizzazione cellulare
L’analisi con SignalP mostra l’assoluta mancanza di peptidi segnale o di ancore idrofobiche, se ne deduce che la
proteina non segue la via secretoria.
Psort non identifica sequenze segnale di localizzazione di nessun genere, e fornisce come risultato riassuntivo un’alta
percentuale di probabilità di appartenenza alla localizzazione citoplasmatica, rispetto alle percentuali di probabilità
molto più basse per gli altri compartimenti. La proteina è molto probabilmente citoplasmatica.
Modifiche post-traduzionali
L’analisi con Prosite della sequenza rileva unicamente corte sequenze ad alta occorrenza casuale, le quali non appaiono
nell’allineamento più conservate di altre regioni casuali.
NetOGlyc rileva solo una potenziale sequenza di glicosilazione leggermente sopra soglia, ma essendo la proteina non
secreta, è improbabile qualsiasi tipo di glicosilazione
NetPhos prevede 7 possibili serine fosforilabili, e 3 tirosine (Figura 6). Esperimenti proteomici volti ad individuare
tutte le fosforilazioni del proteoma umano hanno evidenziato che la proteina ipotetica è fosforilata sulla Tyr 286
(corrispondente alla Tyr 232 dell’entry di swissprot).
L’analisi di possibili siti ubiquitinabili con PEST find non ha mostrato la presenza di sequenze “PEST”.
Predizione della struttura
La sequenza non presenta omologhi a struttura nota, non è stato perciò possibile procedere con l’”homology
modelling”.
È stata quindi sottoposta la sequenza ad un’analisi di predizione di struttura secondaria con PHD:
La proteina ha una scarsa probabilità di possedere domini transmembrana;
La predizione indica una prevalenza di regioni ad α-elica, che comprenderebbero il 62.69% dei residui, mentre solo
il 2,65% per i filamenti β, la proteina viene perciò definita di tipo “all-alpha”;
La proteina, considerando anche i valori di predizione dell’accessibilità al solvente, è definita come globulare.
Inferenze funzionali
Analisi con String:
La sequenza proteica viene considerata parte del “COG5600 Transcription-associated recombination protein”, del
quale fanno parte diverse proteine trovate anche con la ricerca di omologia, tra cui ipotetiche e csn12-like.
Considerando solamente correlazioni osservate sperimentalmente si osservano interazioni proteina-proteina con:
Ca2+-binding protein EF-hand family (proteina THP1 ci S. Cerevisiae, associata al poro, con CDC31,
proteina essenziale in mitosi e meiosi)
Nuclear protein export factor (THP1 di S. cerevisiae con SAC3, formano un complesso per l’esporto
di mRNA)
Altre subunità del Signalosoma COP9 di S. cerevisiae
Predicted metal-dependent protease of the PAD1/JAB1 superfamily, subunità catalitica del
signalosoma COP9 di S. Cerevisiae, isopeptidasi che idrolizza il legame tra Nedd8 (una ubiquitin-like
protein) dalla cullina, subunità della E3 (SCF) ubiquitina ligasi.
Small Nuclear ribonucleoprotein, CSN12 di lievito interagisce con una proteina appartenente al
complesso nucleare dello spliceosoma (SMX3)
Escludendo gli esperimenti, viene rilevata una leggera co-occorenza (score = 0,481) con il COG “Transcription
elongation factor”; il collegamento con questo COG è da considerarsi poco significativo in quanto i due COG sono
semplicemente presenti in tutti gli eucarioti, senza particolari pattern di co-presenza o co-assenza.
Interattore noto:
L’interattore noto di PCID2 è la proteina DSS1 o SEM1 prodotta dal gene SHFM1, Split hand/foot malformation
type 1 protein. Il gene è mutato nella patologia dal quale prende il nome, un malfunzionamento nello sviluppo degli
arti. La proteina è parte del proteasoma 19S ed è nota per interagire con BRCA2, noto oncosoppressore implicato
nella segnalazione e riparazione di rotture al doppio filamento e nella ricombinazione omologa. È stato dimostrato
che l’analogo di lievito è necessario per la corretta riparazione del DNA, ciò implica che il proteasoma sia
importante nella riparazione del DNA e che Sem1 sia un punto di collegamento chiave.
Geni limitrofi:
Si sono osservati i geni adiacenti nel locus cromosomico e confrontati con i loci di altre specie contenenti il gene
PCID2. Si sono osservate alcune interessanti conservazioni, indipendentemente dall’orientamento, nonostante il
confronto sia stato fatto tra eucarioti. In particolare sono stati considerati i loci corrispondenti in scimpanzé
(cromosoma 17), topo (chr 8 locus A1.1), gallo (chr 1) figura 7. Nei funghi e nei lieviti la disposizione attorno ai
geni CSN12 non è conservata. Si osserva in particolare la presenza dei geni ATP11A, MCF2L, fattori VII e X della
coagulazione, PROZ, LAMP1, GRTP1, ADPRHL1, TMCO3, TFDP1, ATP4B, GRK1. Tra i geni più interessanti
CUL4A, codifica per la cullina, la subunità dell’ubiquitina ligasi SCF (E3) dalla quale una subunità catalitica del
signalolosma idrolizza il legame con Nedd8 (“deneddilizza”) e DCN1 o DCUN1D2, il cui omologo in lievito fa
parte del complesso di “neddilazione” della cullina. La conservazione dei loci può essere semplicemente dovuta
all’origine comune indipendentemente da correlazioni funzionali.
Osservazioni generali:
Tutti i complessi multiproteici contenenti subunità a dominio PCI sembrano derivati da evoluzione divergente, in
quanto lo stesso tipo di architettura si riscontra in diversi complessi. La porzione “lid” del proteasoma, il fattore di
inizio traduzione 3 (elF3) e il signalosoma COP9 sono infatti conservati in tutti gli eucarioti e presentano paralogie
tra le subunità che li compongono. In generale sembrano formati da 6 subunità con dominio PCI e 2 con dominio
MPN. La particolarità di questi complessi sta nel fatto che sono note interazioni tra i loro rispettivi pathway come
ad esempio la “deneddelizzazione” dell’ubiquitina ligasi (strettamente correlata funzionalmente al proteasoma) da
parte di COP9, che sembra essere un regolatore negativo di questa via. È noto che il signalosoma compie svariate
funzioni regolatorie (fosforila molte proteine da indirizzare all’ubiquitinazione, ha un ruolo nel ciclo cellulare), si
pensa inoltre che alcune singole subunità di questi complessi possano agire sia indipendentemente dal complesso
che all’interno dello stesso.
L’omologo a funzione nota più simile alla proteina studiata è la subunità 12 del COP9 (CSN12) di un lievito (A.
terreus), la quale non sembra presentare ortologhi appartenenti al signalosoma in eucarioti superiori, infatti
omologhi alla proteina di interesse chiamati “CSN12” appartengono solamente al regno dei funghi.
Il paralogo proteasomale della CSN12 di lievito sembra essere la subunità Rpn3 (PSMD3 nell’uomo), che è infatti
apparsa come omologa nella seconda iterazione con la ricerca PSI blast.
Non si può affermare (ma nemmeno escludere) che la proteina faccia parta del signalosoma cop9 di eucarioti
superiori, in quanto la proteina può aver cambiato funzione, inoltre l’esperimento con il doppio ibrido evidenzia un
solo interattore (ciò non significa che siano stati rilevati tutti i reali interattori); resta comunque probabile che la
funzione della proteina sia associata a quelle del signalosoma e/o del proteasoma.
Bibliografia
The COP9 signalosome-like complex in S. Cerevisiae and links to other PCI complexes
Vered Maytal-Kivity et al.; Int J Biochem Cell Biol. 2003 May;35(5):706-15.
Proteasome involvement in the repair of DNA double-strand breaks.
Krogan NJ, Lam MH, et al.; Mol Cell. 2004 Dec 22;16(6):1027-34.
Figura 1.
La posizione degli esoni sul cromosoma (sopra) e le porzioni della proteina derivanti da diversi esoni (blu e nero
identificano esoni alternati) (sotto).
Figura 2.
Il risultato del blastp
Figura 3.
Il dominio PCI e la sua struttura (derivata dalla proteina CSN14_MOUSE), la probabile struttura del dominio all’interno
della proteina.
Figura 4.
Allineamento multiplo tra le sequenze (nell’ordine) PCID2 di Homo sapiens, Pan troglodyes, Macaca mulatta, Mus
musculus, Bos Taurus, Gallus gallus, Canis familiaris, Apis mellifera; proteina ipotetica di Caenorhabditis elegans (la
cui coda c-terminale priva di omologia è stata omessa) ; CSN12 di Aspergillus fumigatus, Cryptosporidium parvum,
Saccharomyces cerevisiae.
Figura 5.
Albero filogenetico basato sull’allineamento multiplo nel quale S. cerevisiae è stato scelto come outgruop.
Figura 6.
I predetti siti fosforilabili.
Figura 7.
Conservazioni dei locus nei cromosomi di uomo, locus 13q34 (in alto a sinistra); scimpanzé, cromsoma 17 (in alto a destra);
topo, cromosoma 8 locus A1.1 (in basso a sinistra); gallo, cromosoma 1 (in basso a destra).