Genomica funzionale, proteomica e bioinformatica

Principi di genetica - Robert J. Brooker
Copyright © 2010 – The McGraw-Hill Companies srl
SOLUZIONI AI PROBLEMI DEL CAPITOLO 21
Domande concettuali
C1. La genomica strutturale studia la composizione di un genoma. Lo scopo è di mappare tutti i
geni nel genoma e alla fine di determinare la sequenza di tutti i cromosomi. La genomica
funzionale cerca di capire in che modo le sequenze genetiche producano le caratteristiche delle
cellule e i caratteri degli organismi. Perlopiù la genomica funzionale ha lo scopo di
comprendere la funzione dei geni . Tuttavia, essa cerca anche di capire i ruoli di altre sequenze
genetiche come i centromeri e le sequenze ripetute. La proteomica si concentra sulle funzioni
delle proteine. Lo scopo ultimo è di comprendere in che modo gruppi di proteine agiscano
come unità integrate.
C2. Ci sono due ragioni fondamentali per spiegare perché il proteoma è più grande del genoma. La
prima riguarda la maturazione del pre-mRNA, un fenomeno che avviene soprattutto nelle
specie eucariotiche. Lo splicing e l’editing possono alterare la sequenza codificante
dell’mRNA e quindi produrre forme alternative delle proteine con diverse sequenze
aminoacidiche. La seconda regione riguarda le modificazioni post-traduzionali. Ci sono molti
modi con cui la struttura di una determinata proteina può essere modificata covalentemente
mediante gli enzimi cellulari. Questi includono per esempio la maturazione mediante
proteolisi, la formazione di legami disolfuro, la glicosilazione, l’aggiunta di lipidi, la
fosforilazione, la metilazione, e l’acetilazione.
C3. Un database è una raccolta di molti file in un singolo archivio elettronico. Questi dati sono
solitamente sequenze di DNA, RNA oppure di proteine. I dati derivano dal lavoro di numerosi
laboratori di ricerca. Lo scopo principale di un database genomico è quello di organizzare
l'informazione genetica di una singola specie. Un database genomico identificherà tutti i geni
noti e indicherà le loro localizzazioni di mappa nel genoma. Inoltre, un database genomico può
contenere altri tipi di informazioni, come una breve descrizione della sequenza, il nome
dell'organismo dal quale è stata ottenuta la sequenza, e la funzione della proteina codificata, se
nota.
C4. Le sequenze centromeriche, le origini di replicazione, le sequenze telomeriche, le sequenze
ripetute, e gli enhancer. Sono possibili anche altri esempi.
C5. Il riconoscimento di sequenza si riferisce all’identificazione informatica di una particolare
sequenza, la cui funzione è già nota. Per esempio, un programma può identificare il sito dei
codoni d'inizio (ATG) in una sequenza di DNA. Per confronto il riconoscimento di un pattern
si basa su di un insieme di simboli ma non è necessariamente legato a particolari sequenze.
C6. Ci sono alcune osservazioni interessanti. Le sequenze 1 e 2 sono simili tra loro, come lo sono
le sequenze 3 e 4. Ci sono alcuni siti in cui i residui aminoacidicI sono conservati nelle cinque
sequenze. Questi aminoacidi possono essere particolarmente importanti per la funzione.
C7. In genetica, il termine similarità significa che due sequenze genetiche sono simili tra loro.
Omologia significa che due sequenze genetiche si sono evolute a partire da una sequenza
ancestrale comune. Le sequenze omologhe sono simili tra loro, ma non tutte le brevi sequenze
simili sono attribuibili all'omologia.
Principi di genetica - Robert J. Brooker
Copyright © 2010 – The McGraw-Hill Companies srl
C8.
A. Corretto
B. Corretto
C. Errato. Queste sono brevi sequenze genetiche simili tra loro. L’operone lac e l’operone trp
non sono derivati da uno stesso operone ancestrale.
D. Errato. I due geni sono omologhi tra loro, è corretto dire che le loro sequenze sono
identiche al 60%.
C9. Un'interruzione è necessaria quando due sequenze omologhe non sono della stessa lunghezza.
Siccome le sequenze omologhe sono derivate dallo stesso gene ancestrale, due sequenze
omologhe erano in origine della stessa lunghezza. Tuttavia, durante l'evoluzione le sequenze
possono andare incontro a delezioni e/o inserzioni che le rendono più lunghe oppure più corte
rispetto al gene originale. Se un gene subisce una delezione, sarà necessario inserire
un'interruzione nella sequenza genica per allinearla al gene omologo. Se avviene un'inserzione
nella sequenza del gene, sarà indispensabile inserire un'interruzione in una sequenza genica
omologa per allineare le due sequenze.
Domande sperimentali
S1. Una libreria sottrattiva di cDNA contiene i cDNA ottenuti dagli mRNA prodotti in un insieme
determinato di condizioni ma non in altre. Per esempio, come descritto nella Figura 21.1, una
libreria sottrattiva di cDNA può contenere solamente i cDNA ottenuti dagli mRNA prodotti da
cellule esposte a un ormone. Questo rappresenta un modo per identificare i geni che sono stati
indotti in presenza dell'ormone.
S2. Come descritto nel problema risolto R1, una ragione per costruire una libreria di cDNA è
quella di determinare quali RNA vengono prodotti quando cambiano le condizioni ambientali.
Devi caricare sulla colonna una piccola quantità di cDNA derivante dalle cellule esposte al
mercurio. Ricorda che il cDNA derivato dall’mRNA che è stato prodotto in assenza di
mercurio è già legato alla colonna. Desideri che il cDNA sintetizzato in presenza di mercurio si
leghi a questo cDNA se esso è complementare. Se viene caricato troppo cDNA, tutti i cDNA
saranno legati ai loro complementari, e alcuni non si legheranno alla colonna, anche se possono
essere complementari ai cDNA. In altre parole, se carichi troppo cDNA (ottenuto a partire dalle
cellule esposte al mercurio), avrai saturato i siti di legame per i cDNA che sono stati ottenuti in
assenza di mercurio. Questo non è ideale, perché desideri che attraversino la colonna solamente
i cDNA che sono derivati dagli mRNA espressi specificamente in presenza di mercurio. Questi
cDNA non sono complementari a nessuna molecola di cDNA legata alla colonna.
S3.
A. Un microarray di DNA è un piccolo vetrino sul quale sono stati deposti molti frammenti
diversi di DNA. In alcuni microarray, i frammenti di DNA, che vengono prodotti per sintesi
(cioè mediante PCR), vengono deposti singolarmente sul vetrino. I frammenti di DNA sono
lunghi tipicamente dalle 500 alle 5000 bp, e ne vengono distribuiti da poche migliaia a
decine di migliaia. Alternativamente, dei brevi oligonucleotidi possono essere sintetizzati
direttamente sulla superficie del vetrino. In questo processo, la sequenza di DNA in un
determinato spot viene prodotta mediante il controllo selettivo dell'allungamento
dell'oligonucleotide usando precisi fasci di luce. In questo caso, possono essere deposti
centinaia di migliaia di frammenti.
B. Nella maggioranza dei casi, il cDNA marcato con fluorescenza viene ibridato con il
microarray, sebbene possano essere utilizzati anche DNA genomico oppure RNA.
Principi di genetica - Robert J. Brooker
Copyright © 2010 – The McGraw-Hill Companies srl
C. Dopo l'ibridazione, l'array viene lavato e visualizzato mediante un microscopio confocale
che scansiona ciascun pixel (l'elemento più piccolo di un'immagine). Dopo avere eliminato
il segnale di fondo, l'intensità finale della fluorescenza di ogni spot viene calcolata come
media dei pixel che costituiscono ciascuno spot. I risultati sono costituiti da un gruppo di
macchie fluorescenti in posizioni definite del microarray.
S4. Il cDNA marcato con fluorescenza verde è derivato dall’mRNA ottenuto precocemente dalle
cellule, quando i livelli di glucosio erano alti. Gli altri campioni di cDNA sono derivati da
cellule raccolte in momenti successivi, quando i livelli di glucosio stavano diminuendo e
quando si stava verificando lo shift diauxico. Questi erano colorati con fluorescenza rossa. La
fluorescenza verde fornisce il livello base di espressione quando il glucosio è elevato. Nelle
fasi successive, se il rapporto rosso/verde è elevato (cioè maggiore di uno), questo significa che
un gene risulta attivato al diminuire dei livelli di glucosio, perché ci sono più cDNA rossi che
verdi. Se il rapporto è basso (cioè inferiore a uno) questo significa che un gene viene represso.
S5. L'analisi dei cluster è un modo per analizzare i dati dei microarray di DNA. Usando un
computer, i dati vengono analizzati per determinare se alcuni gruppi di geni manifestano gli
stessi profili di espressione in determinate condizioni, come è illustrato nella sezione Dati della
Figura EG21.1.1 (Esperimento di genetica 21.1 sul sito internet). Alcuni gruppi di geni
formano dei gruppi (cluster) che sono accomunati da profili di espressione molto simili.
Questo è utile perché permette di identificare i geni che partecipano a una funzione cellulare
comune.
S6. Nella prima dimensione (quindi nel gel allungato), le proteine migrano verso il punto dove la
loro carica netta è zero. Nella seconda dimensione, le proteine in presenza di SDS si separano
secondo la loro massa molecolare.
S7. Sì, l'elettroforesi bidimensionale può essere utilizzata come tecnica di purificazione. Uno spot
in un gel bidimensionale può essere tagliato e asportato, e la proteina può esserne eluita.
Questa proteina purificata può essere sottoposta alla spettrometria di massa in tandem per
determinarne la sequenza. Deve essere ricordato, tuttavia, che l'elettroforesi bidimensionale
non viene utilizzata per purificare le proteine nel loro stato funzionale. L'esposizione all'SDS
nella seconda dimensione denatura le proteine e probabilmente ne inattiva la funzione.
S8. Nella spettrometria di massa in tandem, il primo spettrometro determina la massa di un
frammento peptidico della proteina di interesse. Il secondo spettrometro determina le masse di
frammenti progressivamente più piccoli derivanti da quel peptide. Dato che le masse di ciascun
aminoacido sono note, le masse molecolari di questi frammenti più piccoli rivelano la sequenza
aminoacidica del peptide. Con l’informazione della sequenza del peptide, è possibile utilizzare
il codice genetico e ottenere le sequenze di DNA che potrebbero codificare quel peptide. A
causa della degenerazione del codice genetico è possibile più di una sequenza. Queste sequenze
sono utilizzate per interrogare un database genomico, che fornirà con buone probabilità una
sequenza corrispondente. La sequenza genomica può poi essere analizzata per determinare
l’intera sequenza codificante per la proteina di interesse.
S9. I due tipi generali di microarray di proteine sono i microarray di anticorpi e gli array di
proteine funzionali. In un microarray di anticorpi, vengono deposte numerose molecole di
anticorpi diversi, ciascuna che riconosce una sequenza peptidica diversa. Le proteine cellulari
vengono isolate, marcate con fluorescenza ed esposte al microarray. Quando una proteina viene
riconosciuta da un anticorpo, sarà catturata e rimarrà legata allo spot. Dato che ogni anticorpo
riconosce una diversa sequenza peptidica, questo microarray può essere utilizzato per
monitorare i livelli di espressione proteica. Un microarray di proteine funzionali prevede la
purificazione delle proteine funzionali e la loro deposizione su un vetrino. Questo tipo di
Principi di genetica - Robert J. Brooker
Copyright © 2010 – The McGraw-Hill Companies srl
microarray può essere analizzato rispetto alla specificità di substrato, di legame a specifiche
sostanze, e/o alle interazioni proteina/proteina.
S10. Una strategia è quella di utilizzare la ricerca di segnale, che si basa su sequenze note come i
promotori, i codoni d’inizio e di stop, i siti di splicing, per aiutarci a predire se una sequenza
contiene, o meno, un gene strutturale. L’approccio cerca di identificare una regione che
contiene una sequenza promotore, seguita da un codone d’inizio, e un codone di stop. Una
seconda strategia si basa sull’approccio della ricerca per contenuto. Lo scopo è quello di
identificare le sequenze il cui contenuto di nucleotidi si differenzi in modo significativo da una
distribuzione casuale, che è solitamente attribuibile all’uso preferenziale dei codoni.
L’approccio della ricerca per contenuto cerca di localizzare le regioni codificanti identificando
le zone dove il contenuto di nucleotidi manifesta una preferenzialità di scelta. Un terzo metodo
per localizzare i geni strutturali è quello di cercare lunghi moduli di lettura aperti (ORF)
all’interno di una sequenza di DNA. Un ORF è una sequenza che non contiene codoni di stop.
S11. Un motivo è una sequenza che svolge una particolare funzione. Ci sono motivi promotore,
motivi enhancer, e motivi aminoacidici che svolgono ruoli funzionali nelle proteine. In una
lunga sequenza genetica, un computer può analizzare la sequenza e identificare i motivi con
elevata velocità e accuratezza. L'identificazione dei motivi aminoacidici permette ai ricercatori
di capire la funzione di una particolare proteina.
S12. Interrogando un database, è possibile identificare le sequenze genetiche che sono omologhe a
una sequenza appena determinata. Nella maggior parte dei casi, le sequenze omologhe
svolgono funzioni identiche oppure molto simili. Perciò, se viene identificato un elemento di
un database omologo la cui funzione è già nota, questo fornisce un’informazione importante
rispetto alla funzione della sequenza appena determinata.
S13. In un approccio comparativo, si utilizzano le sequenze di molti geni omologhi. Questo metodo
assume che gli RNA con sequenze e funzioni simili abbiano una struttura simile. Per esempio, i
programmi informatici possono confrontare molte sequenze di RNA 16S per prevederne la
struttura secondaria.
S14. La base per la predizione della struttura secondaria è che alcuni aminoacidi tendono ad essere
presenti più frequentemente nelle α eliche o nei foglietti β. Questa informazione è stata
ottenuta dalla frequenza statistica degli aminoacidi nelle strutture secondarie che sono già state
cristallizzate. L’accuratezza dei metodi predittivi è circa del 60-70%, il che non è
soddisfacente.
S15. Prima di poter predire la struttura terziaria di una proteina di interesse sulla base della sua
sequenza aminoacidica, la struttura tridimensionale di una proteina omologa deve essere già
stata risolta mediante cristallografia ai raggi X.
S16. Il programma BACKTRANSLATE si basa sulla conoscenza del codice genetico. Ogni
aminoacido corrisponde a uno o più codoni (sequenze di tre basi) che sono specificate dal
codice genetico. Questo programma produrrà un singolo file con una sequenza di basi
nucleotidiche. Il programma BACKTRANSLATE produrrà una sequenza basica degenerata
perché il codice genetico è degenerato. Per esempio, la lisina può essere specificata da AAA
oppure AAG. Il programma probabilmente genera un file singolo con una base degenerata in
quella posizione. Per esempio, se la sequenza aminoacidica fosse lisina-metionina-glicinaglutamina, il programma produrrebbe la seguente sequenza
5′–AA(A/G)ATGGG(T/C/A/G)CA(A/G)
Principi di genetica - Robert J. Brooker
Copyright © 2010 – The McGraw-Hill Companies srl
Le basi indicate tra parentesi sono le basi possibili a causa della degenerazione del codice
genetico.
S17. I vantaggi di utilizzare un programma informatico sono la velocità e l'accuratezza. Una volta
realizzato il programma, e avere inserito la sequenza nel computer, il programma è in grado di
analizzare lunghe sequenze genetiche velocemente e in modo accurato.
S18.
A. Per identificare uno specifico elemento trasponibile, il programma userà il riconoscimento
di sequenza. La sequenza degli elementi P è già nota. Al programma sarà fornita questa
informazione e analizzerà un file di sequenza per cercare una corrispondenza.
B. Per identificare un codone di stop, il programma userà il riconoscimento di sequenza.
Esistono tre codoni di stop, che sono specifiche sequenze di tre basi. Al programma saranno
fornite queste sequenze di tre basi e il software analizzerà la sequenza per identificare una
corrispondenza perfetta.
C. Per identificare un’inversione di qualsiasi tipo, il programma utilizzerà il riconoscimento di
un pattern. In questo caso il programma cercherà un pattern nel quale la stessa sequenza sia
presente in direzioni opposte rispetto ai due file di sequenza.
D. Per identificare i geni, una ricerca mediante l’approccio di segnale usa sia il riconoscimento
di sequenza che il riconoscimento di un pattern. Esso cerca un’organizzazione degli
elementi funzionali che costituirebbero un gene funzionale. Un approccio della ricerca per
contenuto identifica i geni sulla base dei pattern, non sulla base degli elementi funzionali
specifici. Questo approccio cerca un pattern nel quale il contenuto in nucleotidi sia diverso
da una distribuzione casuale. Il terzo approccio per identificare un gene è l’analisi di una
sequenza genetica per identificare un lungo modulo di lettura aperto. Questo approccio è
una combinazione di un riconoscimento di sequenza e riconoscimento di un pattern. Il
programma ricerca elementi funzionali specifici (per esempio codoni di stop), ma cerca
anche un pattern nel quale i codoni di stop siano lontani tra loro.
S19. Un elemento funzionale è una sequenza specializzata (ossia una sequenza di basi oppure di
aminoacidi) con un particolare significato o funzione. Due esempi possono essere un codone di
stop (per esempio UAA), che è un elemento funzionale di basi, e una sequenza di aminoacidi
che rappresenta un sito di glicosilazione (per esempio asparagina-qualsiasi aminoacido-serina
oppure treonina, che è un elemento funzionale di aminoacidi oppure un motivo. Il programma
informatico non crea questi elementi funzionali. Al programma vengono fornite le
informazioni riguardanti gli elementi funzionali, e quest'informazione deriva dalla ricerca
genetica. Gli scienziati hanno svolto degli esperimenti per identificare le sequenze di basi che
costituiscono un codone di stop e le sequenze di aminoacidi che vengono glicosilate. Dopo che
queste informazioni si sono rese disponibili grazie alla ricerca, esse possono essere inserite nei
programmi informatici, che possono quindi analizzare nuove sequenze genetiche e identificare
la presenza e la posizione dei codoni di stop e dei siti di glicosilazione.
S20.
A. E’ più probabile che gli aminoacidi più conservati (gli stessi in tutti i membri della
famiglia) siano importanti per la struttura e/o la funzione. Questo perché una mutazione che
cambi l’aminoacido potrebbe alterare la struttura e la funzione, e questi tipi di mutazioni
saranno selezionati a sfavore. Aminoacidi completamente conservati sono presenti nelle
seguenti posizioni: 101, 102, 105, 107, 108, 116, 117, 124, 130, 134, 139, 143, e 147.
Principi di genetica - Robert J. Brooker
Copyright © 2010 – The McGraw-Hill Companies srl
B. E’ più probabile che gli aminoacidi meno conservati non siano molto importanti perché le
variazioni nell’aminoacido non sembrano inibire la funzione (altrimenti, la selezione
naturale avrebbe eliminato questa mutazione). In un sito, la posizione 118, ci sono cinque
diversi aminoacidi.
S21.
A. Siccome la maggior parte delle sequenze della famiglia contengono una istidina, questo
sembra essere il codone ancestrale. Il codone per l'istidina è mutato in un codone per
l'arginina dopo la duplicazione genica che ha generato il gene della ζ–globina. Questo
sarebbe avvenuto dopo la comparsa dei primati ossia tra 10 e i 20 milioni di anni fa.
B. Non sappiamo se il gene della globina ancestrale avesse una glicina oppure una prolina in
posizione 121. La mutazione probabilmente è avvenuta dopo la duplicazione che ha
generato la famiglia delle globine α e delle globine β, ma prima delle duplicazioni geniche
che ha prodotto le copie multiple delle α e β globine, rispettivamente nel cromosoma 16 e
11. Perciò, essa è avvenuta tra i 300 e i 200 milioni di anni fa.
C. Tutte le globine β possiedono un acido glutammico in posizione 103, e tutte le α-globine,
eccetto la θ−globina, presentano una valina . Non sappiamo se il gene ancestrale della
globina avesse una valina oppure un acido glutammico nel codone 121. Tuttavia, una
mutazione, che ha convertito l'uno nell'altro, è probabilmente avvenuta dopo la
duplicazione che ha generato la famiglia della α-globine e delle β-globine, ma prima delle
duplicazioni geniche che hanno prodotto le copie multiple delle α e β globine,
rispettivamente nel cromosoma 16 e 11. Perciò, essa è avvenuta tra 300 e i 200 milioni di
anni fa. La mutazione che ha generato il codone per l'alanina nel gene della θ−globina è
probabilmente avvenuta dopo la duplicazione genica che ha prodotto questo gene. Ciò si
sarebbe verificato dopo la comparsa dei mammiferi (cioè negli ultimi 200 milioni di anni).
S22. Questa sequenza è all’interno del gene lacY dell’operone lac di E. coli. I nucleotidi 801-850
sono descritti nel paragrafo 21.3.5.
S23. Come descritto nella parte C del problema risolto R2, è probabile che il codone ancestrale
codificasse serina. Consultando la tabella del codice genetico, un codone AGU oppure AGC
della serina potrebbero mutare, mediante la sostituzione di una sola base, nel codone per Asn,
Thr, oppure Ile. Al contrario, i codoni UCU, UCC, UCA, e UCG, che codificano ugualmente
per la serina, non possono mutare in codoni per Asn oppure Ile con la variazione di una sola
base. Perciò, i due possibili scenari sono illustrati di seguito. La base mutata è sottolineata. Le
mutazioni avvengono a livello del DNA, sebbene siano indicate le sequenze dei codoni di
RNA.
Codone ancestrale
ACU (Thr)
←
AGU (Ser)
→
AAU (Asn)
↓
AUU (Ile)
Codone ancestrale
ACC (Thr)
←
AGC (Ser)
→
AAC (Asn)
Principi di genetica - Robert J. Brooker
Copyright © 2010 – The McGraw-Hill Companies srl
↓
AUC (Ile)
S24.
A. Questa sequenza ha due regioni molto idrofobiche e lunghe circa 20 aminoacidi. Perciò, è
probabile che questo polipeptide abbia due segmenti transmembrana.
B.
Esterno
Membrana
plasmatica
Citoplasma
S25. La struttura secondaria di un RNA è basata sulla capacità delle sequenze complementari
(cioè le sequenze che seguono la regola dell'appaiamento AU/GC) di formare una doppia elica. Il
programma impiega un approccio di riconoscimento di un pattern. Esso cerca le sequenze
complementari sulla base della regola dell'appaiamento AU/GC.
S26.
A. Vero
B. Falso. I programmi sono accurati solamente per il 60-70%.
C. Vero