Principi di genetica - Robert J. Brooker Copyright © 2010 – The McGraw-Hill Companies srl SOLUZIONI AI PROBLEMI DEL CAPITOLO 21 Domande concettuali C1. La genomica strutturale studia la composizione di un genoma. Lo scopo è di mappare tutti i geni nel genoma e alla fine di determinare la sequenza di tutti i cromosomi. La genomica funzionale cerca di capire in che modo le sequenze genetiche producano le caratteristiche delle cellule e i caratteri degli organismi. Perlopiù la genomica funzionale ha lo scopo di comprendere la funzione dei geni . Tuttavia, essa cerca anche di capire i ruoli di altre sequenze genetiche come i centromeri e le sequenze ripetute. La proteomica si concentra sulle funzioni delle proteine. Lo scopo ultimo è di comprendere in che modo gruppi di proteine agiscano come unità integrate. C2. Ci sono due ragioni fondamentali per spiegare perché il proteoma è più grande del genoma. La prima riguarda la maturazione del pre-mRNA, un fenomeno che avviene soprattutto nelle specie eucariotiche. Lo splicing e l’editing possono alterare la sequenza codificante dell’mRNA e quindi produrre forme alternative delle proteine con diverse sequenze aminoacidiche. La seconda regione riguarda le modificazioni post-traduzionali. Ci sono molti modi con cui la struttura di una determinata proteina può essere modificata covalentemente mediante gli enzimi cellulari. Questi includono per esempio la maturazione mediante proteolisi, la formazione di legami disolfuro, la glicosilazione, l’aggiunta di lipidi, la fosforilazione, la metilazione, e l’acetilazione. C3. Un database è una raccolta di molti file in un singolo archivio elettronico. Questi dati sono solitamente sequenze di DNA, RNA oppure di proteine. I dati derivano dal lavoro di numerosi laboratori di ricerca. Lo scopo principale di un database genomico è quello di organizzare l'informazione genetica di una singola specie. Un database genomico identificherà tutti i geni noti e indicherà le loro localizzazioni di mappa nel genoma. Inoltre, un database genomico può contenere altri tipi di informazioni, come una breve descrizione della sequenza, il nome dell'organismo dal quale è stata ottenuta la sequenza, e la funzione della proteina codificata, se nota. C4. Le sequenze centromeriche, le origini di replicazione, le sequenze telomeriche, le sequenze ripetute, e gli enhancer. Sono possibili anche altri esempi. C5. Il riconoscimento di sequenza si riferisce all’identificazione informatica di una particolare sequenza, la cui funzione è già nota. Per esempio, un programma può identificare il sito dei codoni d'inizio (ATG) in una sequenza di DNA. Per confronto il riconoscimento di un pattern si basa su di un insieme di simboli ma non è necessariamente legato a particolari sequenze. C6. Ci sono alcune osservazioni interessanti. Le sequenze 1 e 2 sono simili tra loro, come lo sono le sequenze 3 e 4. Ci sono alcuni siti in cui i residui aminoacidicI sono conservati nelle cinque sequenze. Questi aminoacidi possono essere particolarmente importanti per la funzione. C7. In genetica, il termine similarità significa che due sequenze genetiche sono simili tra loro. Omologia significa che due sequenze genetiche si sono evolute a partire da una sequenza ancestrale comune. Le sequenze omologhe sono simili tra loro, ma non tutte le brevi sequenze simili sono attribuibili all'omologia. Principi di genetica - Robert J. Brooker Copyright © 2010 – The McGraw-Hill Companies srl C8. A. Corretto B. Corretto C. Errato. Queste sono brevi sequenze genetiche simili tra loro. L’operone lac e l’operone trp non sono derivati da uno stesso operone ancestrale. D. Errato. I due geni sono omologhi tra loro, è corretto dire che le loro sequenze sono identiche al 60%. C9. Un'interruzione è necessaria quando due sequenze omologhe non sono della stessa lunghezza. Siccome le sequenze omologhe sono derivate dallo stesso gene ancestrale, due sequenze omologhe erano in origine della stessa lunghezza. Tuttavia, durante l'evoluzione le sequenze possono andare incontro a delezioni e/o inserzioni che le rendono più lunghe oppure più corte rispetto al gene originale. Se un gene subisce una delezione, sarà necessario inserire un'interruzione nella sequenza genica per allinearla al gene omologo. Se avviene un'inserzione nella sequenza del gene, sarà indispensabile inserire un'interruzione in una sequenza genica omologa per allineare le due sequenze. Domande sperimentali S1. Una libreria sottrattiva di cDNA contiene i cDNA ottenuti dagli mRNA prodotti in un insieme determinato di condizioni ma non in altre. Per esempio, come descritto nella Figura 21.1, una libreria sottrattiva di cDNA può contenere solamente i cDNA ottenuti dagli mRNA prodotti da cellule esposte a un ormone. Questo rappresenta un modo per identificare i geni che sono stati indotti in presenza dell'ormone. S2. Come descritto nel problema risolto R1, una ragione per costruire una libreria di cDNA è quella di determinare quali RNA vengono prodotti quando cambiano le condizioni ambientali. Devi caricare sulla colonna una piccola quantità di cDNA derivante dalle cellule esposte al mercurio. Ricorda che il cDNA derivato dall’mRNA che è stato prodotto in assenza di mercurio è già legato alla colonna. Desideri che il cDNA sintetizzato in presenza di mercurio si leghi a questo cDNA se esso è complementare. Se viene caricato troppo cDNA, tutti i cDNA saranno legati ai loro complementari, e alcuni non si legheranno alla colonna, anche se possono essere complementari ai cDNA. In altre parole, se carichi troppo cDNA (ottenuto a partire dalle cellule esposte al mercurio), avrai saturato i siti di legame per i cDNA che sono stati ottenuti in assenza di mercurio. Questo non è ideale, perché desideri che attraversino la colonna solamente i cDNA che sono derivati dagli mRNA espressi specificamente in presenza di mercurio. Questi cDNA non sono complementari a nessuna molecola di cDNA legata alla colonna. S3. A. Un microarray di DNA è un piccolo vetrino sul quale sono stati deposti molti frammenti diversi di DNA. In alcuni microarray, i frammenti di DNA, che vengono prodotti per sintesi (cioè mediante PCR), vengono deposti singolarmente sul vetrino. I frammenti di DNA sono lunghi tipicamente dalle 500 alle 5000 bp, e ne vengono distribuiti da poche migliaia a decine di migliaia. Alternativamente, dei brevi oligonucleotidi possono essere sintetizzati direttamente sulla superficie del vetrino. In questo processo, la sequenza di DNA in un determinato spot viene prodotta mediante il controllo selettivo dell'allungamento dell'oligonucleotide usando precisi fasci di luce. In questo caso, possono essere deposti centinaia di migliaia di frammenti. B. Nella maggioranza dei casi, il cDNA marcato con fluorescenza viene ibridato con il microarray, sebbene possano essere utilizzati anche DNA genomico oppure RNA. Principi di genetica - Robert J. Brooker Copyright © 2010 – The McGraw-Hill Companies srl C. Dopo l'ibridazione, l'array viene lavato e visualizzato mediante un microscopio confocale che scansiona ciascun pixel (l'elemento più piccolo di un'immagine). Dopo avere eliminato il segnale di fondo, l'intensità finale della fluorescenza di ogni spot viene calcolata come media dei pixel che costituiscono ciascuno spot. I risultati sono costituiti da un gruppo di macchie fluorescenti in posizioni definite del microarray. S4. Il cDNA marcato con fluorescenza verde è derivato dall’mRNA ottenuto precocemente dalle cellule, quando i livelli di glucosio erano alti. Gli altri campioni di cDNA sono derivati da cellule raccolte in momenti successivi, quando i livelli di glucosio stavano diminuendo e quando si stava verificando lo shift diauxico. Questi erano colorati con fluorescenza rossa. La fluorescenza verde fornisce il livello base di espressione quando il glucosio è elevato. Nelle fasi successive, se il rapporto rosso/verde è elevato (cioè maggiore di uno), questo significa che un gene risulta attivato al diminuire dei livelli di glucosio, perché ci sono più cDNA rossi che verdi. Se il rapporto è basso (cioè inferiore a uno) questo significa che un gene viene represso. S5. L'analisi dei cluster è un modo per analizzare i dati dei microarray di DNA. Usando un computer, i dati vengono analizzati per determinare se alcuni gruppi di geni manifestano gli stessi profili di espressione in determinate condizioni, come è illustrato nella sezione Dati della Figura EG21.1.1 (Esperimento di genetica 21.1 sul sito internet). Alcuni gruppi di geni formano dei gruppi (cluster) che sono accomunati da profili di espressione molto simili. Questo è utile perché permette di identificare i geni che partecipano a una funzione cellulare comune. S6. Nella prima dimensione (quindi nel gel allungato), le proteine migrano verso il punto dove la loro carica netta è zero. Nella seconda dimensione, le proteine in presenza di SDS si separano secondo la loro massa molecolare. S7. Sì, l'elettroforesi bidimensionale può essere utilizzata come tecnica di purificazione. Uno spot in un gel bidimensionale può essere tagliato e asportato, e la proteina può esserne eluita. Questa proteina purificata può essere sottoposta alla spettrometria di massa in tandem per determinarne la sequenza. Deve essere ricordato, tuttavia, che l'elettroforesi bidimensionale non viene utilizzata per purificare le proteine nel loro stato funzionale. L'esposizione all'SDS nella seconda dimensione denatura le proteine e probabilmente ne inattiva la funzione. S8. Nella spettrometria di massa in tandem, il primo spettrometro determina la massa di un frammento peptidico della proteina di interesse. Il secondo spettrometro determina le masse di frammenti progressivamente più piccoli derivanti da quel peptide. Dato che le masse di ciascun aminoacido sono note, le masse molecolari di questi frammenti più piccoli rivelano la sequenza aminoacidica del peptide. Con l’informazione della sequenza del peptide, è possibile utilizzare il codice genetico e ottenere le sequenze di DNA che potrebbero codificare quel peptide. A causa della degenerazione del codice genetico è possibile più di una sequenza. Queste sequenze sono utilizzate per interrogare un database genomico, che fornirà con buone probabilità una sequenza corrispondente. La sequenza genomica può poi essere analizzata per determinare l’intera sequenza codificante per la proteina di interesse. S9. I due tipi generali di microarray di proteine sono i microarray di anticorpi e gli array di proteine funzionali. In un microarray di anticorpi, vengono deposte numerose molecole di anticorpi diversi, ciascuna che riconosce una sequenza peptidica diversa. Le proteine cellulari vengono isolate, marcate con fluorescenza ed esposte al microarray. Quando una proteina viene riconosciuta da un anticorpo, sarà catturata e rimarrà legata allo spot. Dato che ogni anticorpo riconosce una diversa sequenza peptidica, questo microarray può essere utilizzato per monitorare i livelli di espressione proteica. Un microarray di proteine funzionali prevede la purificazione delle proteine funzionali e la loro deposizione su un vetrino. Questo tipo di Principi di genetica - Robert J. Brooker Copyright © 2010 – The McGraw-Hill Companies srl microarray può essere analizzato rispetto alla specificità di substrato, di legame a specifiche sostanze, e/o alle interazioni proteina/proteina. S10. Una strategia è quella di utilizzare la ricerca di segnale, che si basa su sequenze note come i promotori, i codoni d’inizio e di stop, i siti di splicing, per aiutarci a predire se una sequenza contiene, o meno, un gene strutturale. L’approccio cerca di identificare una regione che contiene una sequenza promotore, seguita da un codone d’inizio, e un codone di stop. Una seconda strategia si basa sull’approccio della ricerca per contenuto. Lo scopo è quello di identificare le sequenze il cui contenuto di nucleotidi si differenzi in modo significativo da una distribuzione casuale, che è solitamente attribuibile all’uso preferenziale dei codoni. L’approccio della ricerca per contenuto cerca di localizzare le regioni codificanti identificando le zone dove il contenuto di nucleotidi manifesta una preferenzialità di scelta. Un terzo metodo per localizzare i geni strutturali è quello di cercare lunghi moduli di lettura aperti (ORF) all’interno di una sequenza di DNA. Un ORF è una sequenza che non contiene codoni di stop. S11. Un motivo è una sequenza che svolge una particolare funzione. Ci sono motivi promotore, motivi enhancer, e motivi aminoacidici che svolgono ruoli funzionali nelle proteine. In una lunga sequenza genetica, un computer può analizzare la sequenza e identificare i motivi con elevata velocità e accuratezza. L'identificazione dei motivi aminoacidici permette ai ricercatori di capire la funzione di una particolare proteina. S12. Interrogando un database, è possibile identificare le sequenze genetiche che sono omologhe a una sequenza appena determinata. Nella maggior parte dei casi, le sequenze omologhe svolgono funzioni identiche oppure molto simili. Perciò, se viene identificato un elemento di un database omologo la cui funzione è già nota, questo fornisce un’informazione importante rispetto alla funzione della sequenza appena determinata. S13. In un approccio comparativo, si utilizzano le sequenze di molti geni omologhi. Questo metodo assume che gli RNA con sequenze e funzioni simili abbiano una struttura simile. Per esempio, i programmi informatici possono confrontare molte sequenze di RNA 16S per prevederne la struttura secondaria. S14. La base per la predizione della struttura secondaria è che alcuni aminoacidi tendono ad essere presenti più frequentemente nelle α eliche o nei foglietti β. Questa informazione è stata ottenuta dalla frequenza statistica degli aminoacidi nelle strutture secondarie che sono già state cristallizzate. L’accuratezza dei metodi predittivi è circa del 60-70%, il che non è soddisfacente. S15. Prima di poter predire la struttura terziaria di una proteina di interesse sulla base della sua sequenza aminoacidica, la struttura tridimensionale di una proteina omologa deve essere già stata risolta mediante cristallografia ai raggi X. S16. Il programma BACKTRANSLATE si basa sulla conoscenza del codice genetico. Ogni aminoacido corrisponde a uno o più codoni (sequenze di tre basi) che sono specificate dal codice genetico. Questo programma produrrà un singolo file con una sequenza di basi nucleotidiche. Il programma BACKTRANSLATE produrrà una sequenza basica degenerata perché il codice genetico è degenerato. Per esempio, la lisina può essere specificata da AAA oppure AAG. Il programma probabilmente genera un file singolo con una base degenerata in quella posizione. Per esempio, se la sequenza aminoacidica fosse lisina-metionina-glicinaglutamina, il programma produrrebbe la seguente sequenza 5′–AA(A/G)ATGGG(T/C/A/G)CA(A/G) Principi di genetica - Robert J. Brooker Copyright © 2010 – The McGraw-Hill Companies srl Le basi indicate tra parentesi sono le basi possibili a causa della degenerazione del codice genetico. S17. I vantaggi di utilizzare un programma informatico sono la velocità e l'accuratezza. Una volta realizzato il programma, e avere inserito la sequenza nel computer, il programma è in grado di analizzare lunghe sequenze genetiche velocemente e in modo accurato. S18. A. Per identificare uno specifico elemento trasponibile, il programma userà il riconoscimento di sequenza. La sequenza degli elementi P è già nota. Al programma sarà fornita questa informazione e analizzerà un file di sequenza per cercare una corrispondenza. B. Per identificare un codone di stop, il programma userà il riconoscimento di sequenza. Esistono tre codoni di stop, che sono specifiche sequenze di tre basi. Al programma saranno fornite queste sequenze di tre basi e il software analizzerà la sequenza per identificare una corrispondenza perfetta. C. Per identificare un’inversione di qualsiasi tipo, il programma utilizzerà il riconoscimento di un pattern. In questo caso il programma cercherà un pattern nel quale la stessa sequenza sia presente in direzioni opposte rispetto ai due file di sequenza. D. Per identificare i geni, una ricerca mediante l’approccio di segnale usa sia il riconoscimento di sequenza che il riconoscimento di un pattern. Esso cerca un’organizzazione degli elementi funzionali che costituirebbero un gene funzionale. Un approccio della ricerca per contenuto identifica i geni sulla base dei pattern, non sulla base degli elementi funzionali specifici. Questo approccio cerca un pattern nel quale il contenuto in nucleotidi sia diverso da una distribuzione casuale. Il terzo approccio per identificare un gene è l’analisi di una sequenza genetica per identificare un lungo modulo di lettura aperto. Questo approccio è una combinazione di un riconoscimento di sequenza e riconoscimento di un pattern. Il programma ricerca elementi funzionali specifici (per esempio codoni di stop), ma cerca anche un pattern nel quale i codoni di stop siano lontani tra loro. S19. Un elemento funzionale è una sequenza specializzata (ossia una sequenza di basi oppure di aminoacidi) con un particolare significato o funzione. Due esempi possono essere un codone di stop (per esempio UAA), che è un elemento funzionale di basi, e una sequenza di aminoacidi che rappresenta un sito di glicosilazione (per esempio asparagina-qualsiasi aminoacido-serina oppure treonina, che è un elemento funzionale di aminoacidi oppure un motivo. Il programma informatico non crea questi elementi funzionali. Al programma vengono fornite le informazioni riguardanti gli elementi funzionali, e quest'informazione deriva dalla ricerca genetica. Gli scienziati hanno svolto degli esperimenti per identificare le sequenze di basi che costituiscono un codone di stop e le sequenze di aminoacidi che vengono glicosilate. Dopo che queste informazioni si sono rese disponibili grazie alla ricerca, esse possono essere inserite nei programmi informatici, che possono quindi analizzare nuove sequenze genetiche e identificare la presenza e la posizione dei codoni di stop e dei siti di glicosilazione. S20. A. E’ più probabile che gli aminoacidi più conservati (gli stessi in tutti i membri della famiglia) siano importanti per la struttura e/o la funzione. Questo perché una mutazione che cambi l’aminoacido potrebbe alterare la struttura e la funzione, e questi tipi di mutazioni saranno selezionati a sfavore. Aminoacidi completamente conservati sono presenti nelle seguenti posizioni: 101, 102, 105, 107, 108, 116, 117, 124, 130, 134, 139, 143, e 147. Principi di genetica - Robert J. Brooker Copyright © 2010 – The McGraw-Hill Companies srl B. E’ più probabile che gli aminoacidi meno conservati non siano molto importanti perché le variazioni nell’aminoacido non sembrano inibire la funzione (altrimenti, la selezione naturale avrebbe eliminato questa mutazione). In un sito, la posizione 118, ci sono cinque diversi aminoacidi. S21. A. Siccome la maggior parte delle sequenze della famiglia contengono una istidina, questo sembra essere il codone ancestrale. Il codone per l'istidina è mutato in un codone per l'arginina dopo la duplicazione genica che ha generato il gene della ζ–globina. Questo sarebbe avvenuto dopo la comparsa dei primati ossia tra 10 e i 20 milioni di anni fa. B. Non sappiamo se il gene della globina ancestrale avesse una glicina oppure una prolina in posizione 121. La mutazione probabilmente è avvenuta dopo la duplicazione che ha generato la famiglia delle globine α e delle globine β, ma prima delle duplicazioni geniche che ha prodotto le copie multiple delle α e β globine, rispettivamente nel cromosoma 16 e 11. Perciò, essa è avvenuta tra i 300 e i 200 milioni di anni fa. C. Tutte le globine β possiedono un acido glutammico in posizione 103, e tutte le α-globine, eccetto la θ−globina, presentano una valina . Non sappiamo se il gene ancestrale della globina avesse una valina oppure un acido glutammico nel codone 121. Tuttavia, una mutazione, che ha convertito l'uno nell'altro, è probabilmente avvenuta dopo la duplicazione che ha generato la famiglia della α-globine e delle β-globine, ma prima delle duplicazioni geniche che hanno prodotto le copie multiple delle α e β globine, rispettivamente nel cromosoma 16 e 11. Perciò, essa è avvenuta tra 300 e i 200 milioni di anni fa. La mutazione che ha generato il codone per l'alanina nel gene della θ−globina è probabilmente avvenuta dopo la duplicazione genica che ha prodotto questo gene. Ciò si sarebbe verificato dopo la comparsa dei mammiferi (cioè negli ultimi 200 milioni di anni). S22. Questa sequenza è all’interno del gene lacY dell’operone lac di E. coli. I nucleotidi 801-850 sono descritti nel paragrafo 21.3.5. S23. Come descritto nella parte C del problema risolto R2, è probabile che il codone ancestrale codificasse serina. Consultando la tabella del codice genetico, un codone AGU oppure AGC della serina potrebbero mutare, mediante la sostituzione di una sola base, nel codone per Asn, Thr, oppure Ile. Al contrario, i codoni UCU, UCC, UCA, e UCG, che codificano ugualmente per la serina, non possono mutare in codoni per Asn oppure Ile con la variazione di una sola base. Perciò, i due possibili scenari sono illustrati di seguito. La base mutata è sottolineata. Le mutazioni avvengono a livello del DNA, sebbene siano indicate le sequenze dei codoni di RNA. Codone ancestrale ACU (Thr) ← AGU (Ser) → AAU (Asn) ↓ AUU (Ile) Codone ancestrale ACC (Thr) ← AGC (Ser) → AAC (Asn) Principi di genetica - Robert J. Brooker Copyright © 2010 – The McGraw-Hill Companies srl ↓ AUC (Ile) S24. A. Questa sequenza ha due regioni molto idrofobiche e lunghe circa 20 aminoacidi. Perciò, è probabile che questo polipeptide abbia due segmenti transmembrana. B. Esterno Membrana plasmatica Citoplasma S25. La struttura secondaria di un RNA è basata sulla capacità delle sequenze complementari (cioè le sequenze che seguono la regola dell'appaiamento AU/GC) di formare una doppia elica. Il programma impiega un approccio di riconoscimento di un pattern. Esso cerca le sequenze complementari sulla base della regola dell'appaiamento AU/GC. S26. A. Vero B. Falso. I programmi sono accurati solamente per il 60-70%. C. Vero