Biologia molecolare 2/ed Robert F. Weaver Copyright © 2009 – The McGraw-Hill Companies srl Capitolo 24 Genomica, Proteomica e Bioinformatica PER IL RIPASSO 1. Le isole CpG sono raggruppamenti di sequenze, nei genomi dei mammiferi, tipicamente presenti in prossimità di geni attivi. Le sequenze CpG hanno avuto una tendenza a scomparire dal genoma umano con il seguente meccanismo: le C nelle sequenze CpG possono essere metilate a metil-C. Quindi, se questa metil-C viene spontaneamente deamminata, diventa una T. Nel successivo ciclo di replicazione del DNA, la T fa introdurre una A, e la C originaria viene persa. Questo è il motivo per cui le sequenze CpG si sono ridotte nel genoma umano. D’altra parte, se la C in una sequenza CpG rimane non metilata, in prossimità dei geni attivi, la deamminazione spontanea genera U, che è riconosciuta e rimpiazzata da C, conservando la sequenza CpG. Questo è il motivo per cui le sequenze CpG sono arricchite in prossimità dei geni attivi. 2. a. L’espansione di una ripetizione in tandem di sequenze CAG nel gene HD ha originato la Malattia di Hntington (HD). b. (1) Il gruppo di sequenze CAG è di 34, o meno (tipicamente meno di 25) in individui normali, ma di 36 o più nei pazienti HD. (2) Ad espansioni più ampie di ripetizioni CAG corrisponde una più precoce insorgenza dei sintomi della malattia. (3) Sono noti de casi in cui dei bambini erano affetti da HD, ed i loro genitori non lo erano. In entrambi i casi i bambini avevano subito espansioni di ripetizioni CAG nei loro geni HD, mentre i genitori non le avevano avute. (4) Topi con una copia funzionale del gene Hdh, omologo di HD, subiscono perdita di neuroni, accompagnata da ridotta intelligenza. 3. Ipotesi: L’huntingtina mutante, con il suo tratto espanso di glutammine, può interagire troppo efficientemente con Sp1, che possiede anch’esso un gruppo di glutammine. Ciò può prevenire l’interazione di Sp1 con TAFII130, quest’ultimo necessario per attivare alcuni geni target dell’huntingtina, necessari per le funzioni dei neuroni. Evidenza: Saggi del doppio ibrido dimostrano che sia Sp1 che TAFII130 interagiscono con l’huntingtina, e che Sp1, ma non TAFII130, interagisce ancora meglio con l’huntingtina mutante. Anche la co-espressione di Sp1 e TAFII130 in cellule di topo transgeniche per HD ha bloccato la normale capacità dell’huntingtina mtante di inibire uno dei suoi geni target. Ciò presumibilmente riflette il seguente scenario: normalmente, l’huntingtina lega abbastanza Sp1, da ridurne la capacità di attivare questo gene target, ma l’huntingtina mutante non è capace di titolare tutto l’Sp1 prodotto dal gene esogeno, che quindi può attivare il gene target. Infine, l’huntingtina mutante blocca la capacità di Sp1 di legarsi ai suoi geni target in campioni post-mortem di cervello da pazienti affetti da HD. 4. Una cornice di lettura aperta (ORF) è la regione codificante di un mRNA, che va da un codone di inizio ad un codone di stopo della traduzione. Qullo che segue è un ipotetico esempio di ORF, troppo corta per essere considerata una vera ORF: AUGAUCUCUAAACCGGAGUGUUUCGAAUAG. 5. Un telomero sinistro, un centromero, un sito di clonaggio, ed un telomero destro. 6. I BAC si basano su un plasmide F di E. coli. Contengono siti di clonaggio, un gene di resistenza ad antibiotici, un’origine di replicazione, e geni che dirigono la segregazione dei plasmidi alle cellule figlie. 7. Fai riferimento alla Figura 24.9. Le STS sono definite come siti che possono essere amplificati mediante PCR con primer di sequenza definita. Quindi, per trovare una STS in un genoma, comincia ad effettuare una PCR su frammenti di DNA ottenuti per stress meccanico. Un risultato positivo (una banda visibile di dimensioni attese) mostra che l’STS è presente. Per chierirne la localizzazione, si potrebbe prima identificare il cromosoma che dà un risultato positivo, e quindi usare frammenti di DNA di quel cromosoma, sempre più piccoli, fino ad identificare, in maniera non ambigua, la posizione. 8. I microsatelliti sono ripetizioni in tandem di una sequenza di 2-4 coppie di basi, mentre i minisatelliti sono ripetizioni in tandem di una sequenza lunga una dozzina, o anche più, coppie di basi. I microsatelliti sono migliori marcatori per la mappatura genetica dell’uomo, rispetto ai minisatelliti, in quanto sono più polimorfici, più diffusi, e più uniformemente distribuiti nel genoma umano. 9. Qui è schematizzato un esempio relativamente semplice: 10. Comincia con l’irradiazione di cellule umane con dosi letali di radiazioni ionizzanti in grado di rompere i cromosomi umani in frammenti, quindi fondi queste cellule con cellule di criceto, che tratterranno alcuni frammenti cromosomici umani. Cresci i cloni delle cellule ibride e saggiali per la presenza delle STS di interesse. Più vicine saranno le STS nel genoma umano, più Biologia molecolare 2/ed Robert F. Weaver Copyright © 2009 – The McGraw-Hill Companies srl probabilmente si ritroveranno insieme nelle cellule ibride. 11. I tag di sequenze espresse (EST) si ottengono da RT-PCR su mRNA di un certo tipo cellulare. Quindi le EST, in accordo con il loro nome, derivano da parti del genoma espresse come mRNA, mentre le STS possono ritrovarsi in un qualsiasi punto del genoma. 12. La strategia clone-per-clone è particolarmente logica. Si comincia con la mappatura dell’intero genoma, e nella costruzione di un set di DNA clonati contenenti i marcatori che sono stati mappati. Quindi si sequenziano i DNA clonati esi assembla la sequenza, conoscendo già l’ordine dei cloni nel genoma. Nella strategia shotgun non si fa nessuna mappatura preliminare. Al contrario, i DNA clonati sono sequenziati in ordine casuale, ed un computer raccoglie le sequenze, trova le sovrapposizioni, ed assembla l’intera sequenza. 13. (a) Ci sono interruzioni nella sequenza del cromosoma 22 (come in tutti i cromosomi umani) che probabilmente non saranno mai colmate. (b) Secondo l’analisi dei dati genomici del 1999, il cromosoma 22 contiene 679 geni annotati, compresi 134 pseudogeni. (c) Anche considerando gli introni, i geni annotati rendono conto solo di una parte minore della lunghezza totale del cromosoma 22, e gli esoni rendono conto solo del 3%. Gran parte del resto del cromosoma è occupato da sequenze ripetute. (e) La frequenza di ricombinazione varia lungo il cromosoma. (e) Il cromosoma 22 ha parecchie duplicazioni locali e duplicazioni a lungo raggio. (f) Grossi pezzi del cromosoma 22 sono conservati in parecchi cromosomi del topo. Le sequenze non sono identiche, ma sono abbastanza simili da ritenere ovvia la sintenia. 14. (a) Il cromosoma 21 ha na densità genica particolarmente bassa, con soli 284 geni annotati, inclusi 59 pseudogeni. (b) Ancora, c’è una conservazione nell’ordine dei geni, o sintenia, tra il cromosoma 21 e il cromosoma 10 di topo. (c) La sequenza del cromosoma 21 è una risorsa di rilievo per i ricercatori che stdiano la sindrome di Down ed altre comuni malattie umane. 15. Il genoma di Fugu rubripes possiede introni molto più piccoli e molto meno DNA ripetuto, rispetto al genoma umano. 16. Le regioni sinteniche sono regioni con ordine conservato di geni tra due specie. 17. Un gruppo di geni essenziali è il repertorio di geni che non può essere eliminato, per la preservazione della vitalità. Il genoma minimo di un organismo è il più piccolo set di geni che può sostenere la vita. É più grande del gruppo di geni essenziali in quanto, mentre un organismo può tollerare la perdita di certi geni, uno alla volta, non può perdere due o più di questi geni contemporaneamente, e sopravvivere. 18. La genomica funzionale ha a che fare con l’espressione di interi genomi. Essa comprende: (a) la trascrittomica, o lo studio della produzione di RNA da più geni contemporaneamente; (b) il profiling genomico funzionale, o lo studio dell’effetto sul trascrittoma dell’inattivazione di geni; (c) la proteomica, o lo studio della struttura e della funzione di prodotti proteici dei genomi. Lo studio delle strutture di grossi numeri di proteine può anche essere definito “genomica strutturale”. 19. Fai riferimento alla Figura 22.16. 20. Genera un microarray di DNA, o con oligonucleotidi virali, come mostrato in Figura 22.16, o con frammenti più grandi di DNA, tagliati dal genoma virale e legati mediante spraying, come mostrato in Figura 22.15. Quindi, raccogli gli RNA da cellule infettate durante le fasi precoce e tardiva dell’infezione. Marca l’RNA “precoce” con un fluorocromo verde, e l’RNA “tardivo” con un fluorocromo rosso. Quindi ibridizza l’RNA “precoce” ad un microarray, l’RNA “tardivo” ad un duplicato, ed entrambi gli RNA ad un altro replicato di microarray. Gli spot contenenti geni attivi durante la fase precoce dovrebbero mostrarsi verdi, quelli contenenti geni attivi durante la fase tardiva dovrebbero fluorescere nel rosso, e quelli attivi in entrambe le fasi dovrebbero risultare gialli. Qi sono mostrati alcuni risultati ipotetici, in cui i cerchi vuoti rappresentano spot verdi, i cerchi pieni rappresentano spot rossi, e i cerchi punteggiati mostrano spot gialli: 21. Fai riferimento alla Figura 22.19 per lo schema generale. (a) Invece di mRNA di tessuto pancreatico umano, utilizza mRNA da cellule tumorali come stampi per la retrotrascrizione. Innesca la sintesi di cDNA con primer oligo(dT) biotinilati. (b) Taglia con un enzima ancorante, e lega i frammenti 3’-terminali dei cDNA a resina di streptavidina. (c) Dividi i cDNA legati alla resina in due gruppi, ed aggiungi linkers ad entrambi, mediante ligazione. (d) Taglia con un enzima a livello del tag e colma le estremità per generare estremità tronche (blunt). (e) Sottoponi a ligazione i tag dai due gruppi, insieme, ed amplifica i ditag corrispondenti con primer specifici per i linker (X ed Y, nell’esempio). Questo è un esempio di come potrebbe risultare un ditag, assumendo che è stato utilizzato NlaIII come enzima ancorante, ee FokI come enzima a livello del tag. La regione sottolineata è il ditag: Primer X GGATGCATGATATTTGCATGCGCATAACATGCATCC Primer Y Anti-Primer X CCTACGTACTATAAACGTACGCGTATTGTACGTAGG Anti-Primer Y 22. Le SNP (polimorfismi a singolo nucleotide) sono posizioni nucleotidiche, nel genoma, a livello delle quali un individuo può differire da un altro in almeno l’1% della popolazione. La maggior parte delle SNP nel genoma umano non sono importanti, perché non influenzano le Biologia molecolare 2/ed Robert F. Weaver Copyright © 2009 – The McGraw-Hill Companies srl funzioni di geni, o perché si trovano al di fuori dei geni e delle regioni di controllo geniche, o perché sono il risultato di mutazioni silenti nei geni. Le SNP possono essere utili se possono essere associate ad una tendenza a sviluppare una certa malattia, o alla risposta ad un dato farmaco. Se le SNP possono essere correlate alla suscettibilità ad una malattia, questa informazione potrebbe essere utilizzata in maniera discriminante, negando coperture assicurative per la salute, o non assumendo, sulla base dell’assetto genetico di un individuo. 23. La trascrittomica è lo studio dell’espressione di geni a livello dell’RNA. Il principale tipo di informazione ottenibile è il livello di ciascun RNA in ogni tipo cellulare a ciascuno stadio del ciclo vitale. Alcune delle più popolari tecniche trascrittomiche sono: l’ibridazione di RNA a microarray di DNA; SAGE; profiling genomico funzionale con delezioni geniche o analisi RNAi; ChIP; analisi dell’espressione in situ. La Proteomica è lo studio dell’espressione di geni a livello proteico, compresa l’analisi delle strutture, delle funzioni e delle interazioni delle proteine. Tipicamente le proteine vengono separate mediante elettroforesi bi-dimensionale, e quindi analizzate mediante spettrometria di massa. Le interazioni proteina-proteina possono essere analizzate mediante saggi del doppio ibrido in lievito, cromatografia di immunoaffinità abbinata a spettrometria di massa, o mediante microarray di proteine. 24. Esamina i database genomici per sequenze conservate appena a monte dei siti di inizio della trascrizione e nelle regioni 3’-UTR di geni in diverse specie di mammiferi. Paragona i valori di conservazione delle sequenze in queste regioni di omologia ai valori di sequenze di riferimento negli introni terminali dei geni. Stabilisci un valore soglia di conservazione, come valore di conservazione del motivo (MCS, motif conservation score), corrispondente al numero di deviazioni standard per cui la conservazione di una data sequenza eccede la conservazione di una sequenza di riferimento. Un MCS di 6 è un buon valore soglia significativo. Paragona le sequenze dei presunti motivi con un database di sequenze di motivi noti per escludere quelli che sono già stati identificati come regioni di controllo. I nuovi motivi identificati costituiscono nuove, presunte sequenze di controllo dei geni. Le regioni di controllo nelle estremità 3’-UTR dei geni dovrebbero avere un bias direzionale, in quanto dovrebbero agire essenzialmente a livello di mRNA, e dovrebbero essere di circa 8 nucleotidi, e terminare con una A, in quanto i miRNA generalmente iniziano con una T, seguita da sette nucleotidi che interagiscono con queste sequenze. PER L’APPROFONDIMENTO 1. a. Un introne non sarà identificato con una trappola di esoni, perché sarà semplicemente rimosso dallo splicing assieme all’introne adiacente nel vettore. b. Parte di un esone non sarà identificata da una trappola di esoni, poiché contiene un solo segnale di splicing, ed entrambi i segnali sono necessari affinché l’esone venga riconosciuto come tale. c. Un intero esone con parti di introni ad entrambe le estremità sarà riconosciuto, in quanto contiene entrambi i segnali di splicing richiesti per l’identificazione di un esone. d. Un intero esone con parte di un introne da un lato non sarà identificato, in quanto il segnale di splicing all’altra estremità non sarà completo. 2. a. Maschera tutti gli spot, tranne due, sul vetrino, e illumina gli spot liberi per sbloccarli. b. Fai reagire con A bloccata per legare A ad entrambi gli spot. c. Maschera uno degli spot A, ma non l’altro, e illumina per sbloccare lo spot libero. d. Fai reagire con C bloccata per generare la sequenza AC sullo spot libero. e. Maschera lo spot AC e illumina per sbloccare lo spot A. f. Fai reagire con T bloccata per generare la sequenza AT sullo spot libero. 3. Aplotipo A B C D Sito 2 Present e Presente Assente Assente Sito 3 Present e Assente Present e Assente Frammento(i) atteso(i) 1, 2, e 3 kb 2 e 4 kb 5 e 1 kb 6 kb 4. Il cromosoma 5 porta il gene della malattia. Infatti, è il solo cromosoma sempre presente nelle tre linee cellulari che hanno ibridizzato alla sonda X-21. 5. Il gene identificato identificato è BRCA, breast cancer 2, early onset (carcinoma della mammella 2, esordio precoce) . Il valore E per questo gene è 0.015. Con tutti i 40 nucleotidi, si identifica lo stesso gene, con un valore E di 1e-13. Il valore E in questo caso è molto migliore (più basso) perché c’è una corrispondenza di 40/40, invece che di 20/20. La probabilità di trovare una perfetta corrispondenza di 40 nucleotidi in fila è infatti molto più bassa rispetto a 20 nucleotidi in serie. Il gene è sul cromosoma 13. Mutazioni in questo gene sono effettivamente associate a tumori prostatici ad esordio precoce negli uomini.