Functional genomics

LA GENOMICA Lo scopo della genomica funzionale è quello di capire la funzione dei geni e delle altre parti del genoma. Molte altre informazioni possono arrivare dalla genomica comparata, che consiste nel confrontare genomi di diversi organismi per tentare di capire la funzione dei geni, per esempio confrontando il genoma di topo con quello umano è possibile ipotizzare la funzione di alcuni geni umani basandosi sulla funzione dei loro omologhi in topo. La genomica fa parte, con la trascrittomica, la proteomica e la metabolomica, delle cosiddette tecniche –omiche, e viene utilizzata sia per trovare il ruolo e il funzionamento di un singolo gene all’interno della cellula, sia per studiare interi genomi. I problemi collegati alla genomica sono: -‐
-‐
-‐
La necessità di infrastrutture e macchinari molto costosi, i macchinari inoltre hanno tendenzialmente una vita media molto corta e così gli istituti cercano di farli lavorare il più possibile Centinaia di persone richiedono di accedere a queste infrastrutture C’è bisogno di integrazione tra diverse discipline, ricercatori e teorici devono collaborare per aumentare le conoscenze. Genoma, Trascrittoma, Proteoma, Metaboloma Il genoma rappresenta tutto il materiale genetico endogeno della cellula e dei suoi organelli, è indipendente dall’ambiente della cellula, cioè resta uguale in tutte le cellule di un organismo e in ogni condizione ambientale e viene analizzato tramite sequenziamento sistematico del DNA. Il trascrittoma rappresenta invece l’intero set di mRNA presente in una cellula, ovvero rappresenta l’insieme di geni che viene trascritto in un determinato momento. Ovviamente il trascrittoma è contesto-‐dipendente, e può essere analizzato tramite SAGE, array di ibridazione, … Il proteoma rappresenta il set completo di proteine in una cellula; è anch’esso contesto dipendente e può essere analizzato tramite analisi su gel in 2D, peptide mass fingerprinting e analisi di doppio ibrido. Infine il metaboloma è l’insieme di tutti i metaboliti presente in una cellula, contesto-‐dipendente e analizzabile tramite spettrometria di massa o NMR. Bioinformatica La bioinformatica consiste nel descrivere con regole e algoritmi matematici, modelli di organismi viventi. L’uso dell’information technology permette di acquisire, immagazzinare, condividere, analizzare e mostrare un gran numero di informazioni biologiche complesse e in questo modo la bioinformatica è diventata essenziale nello studio dei genomi per poter analizzare una quantità di informazioni così grande. Grazie all’apporto dato dalla bioinformatica si sta ora assistendo ad un passaggio della biologia da osservazione dei sistemi naturali a predizione di come si evolveranno questi sistemi in opportune condizioni. Per comprendere un sistema biologico bisogna considerare l’apporto fornito ad esso da una serie di fattori, che vanno dalle molecole all’ecosistema in cui si trova. Gli studi di bioinformatica si sviluppano a partire dalla raccolta di dati che riguardano tutti gli aspetti della cellula, ovvero sul genoma, trascrittoma, proteoma e metaboloma. SYSTEM BIOLOGY La system biology è la scienza dello scoprire, ridurre a modello, capire e infine intervenire a livello molecolare sulle relazioni dinamiche tra le molecole biologiche che definiscono gli organismi viventi (Leroy Hood). Questa scienza è quindi una via per capire un sistema biologico in toto, studiandone i geni, gli mRNA, le proteine, i metaboliti, i loro rispettivi ruoli nella cellula e le loro concentrazioni (si passa quindi ad una scienza quantitativa). Con la system biology non si va più a osservare di volta in volta un singolo aspetto della vita di un organismo, ma si studia piuttosto l’intero organismo vivente. Ad oggi tuttavia è impossibile fare studi su interi organismi, ma solo su parti di cellula. Lo scopo ultimo della system biology è quello di riuscire ad unire diverse percezioni di uno stesso sistema, permettendo, per esempio, anziché di creare mutanti finché si trova quello di interesse, di predire come dovrebbe essere il mutante che stiamo cercando e poi crearlo. In questa scienza quindi tutti i processi biologici vengono ridotti a modelli costituiti da complesse reti di contributi interconnessi. TECNICHE DI SEQUENZIAMENTO Il sequenziamento del genoma è utile sotto diversi aspetti: -‐
-‐
-‐
-‐
-‐
-‐
Fornisce informazioni sui geni presenti Fornisce informazioni sulla struttura del DNA Permette di amplificare ogni frammento del genoma tramite PCR Permette analisi sul genoma di tipo bioinformatica Permette il riconoscimento di introni ed esoni Permette lo studio dell’evoluzione dei genomi SEQUENZIAMENTO DI MAXAM-‐GILBERT È stato, insieme al metodo di Sanger uno dei primi metodi di sequenziamento, tuttavia è passato in disuso in quanto è un metodo piuttosto complicato che non permette analisi di tipo high throughput. In questo metodo, il filamento di DNA da sequenziare deve essere purificato e marcato radioattivamente ad una estremità (generalmente si usa32P). Il campione di DNA da sequenziare viene denaturato in presenza di DMSO e viene diviso in quattro aliquote uguali, ciascuna delle quali viene trattata con dei reagenti chimici che ne causano la metilazione o la rottura in corrispondenza di basi specifiche (G, dimetilsolfato, A+G, acido formico, C, idrazina + cloruro di sodio, C+T, idrazina). Utilizzando i reagenti a basse concentrazioni si può fare in modo che i tagli non avvengano per ognuna delle basi, ma più raramente (idealmente, solo una volta per copia di frammento di DNA): in questo modo viene generata una serie di frammenti marcati (dalla fine della molecola al primo sito di taglio della stessa) di dimensione specifica i quali vengono separati tramite elettroforesi in base alla dimensione. A corsa ultimata il gel viene posto a contatto con una pellicola radiografica sulla quale lascia impressa la disposizione delle bande che riporterà i frammenti generati tramite i quali è possibile determinare l'ordine dei nucleotidi e quindi la sequenza di partenza. Il metodo di Maxam-‐Gilbert viene comunemente descritto come metodo chimico per differenziarlo dal metodo enzimatico di Sanger. SEQUENZIAMENTO DI SANGER O DEL TERMINATORE DI CATENA Si ha una miscela di reazione contenente i primer, il DNA, i dnTP e un ddnTP in rapporto 1:10 con il dnTP corrispondente, in modo tale che la sintesi si interrompa quando si ha un incorporamento del ddnTP. Inizialmente venivano allestite 4 miscele di reazione, una per ogni ddnTP e al termine delle reazioni di replicazione il DNA veniva corso in elettroforesi e da questi 4 gel si poteva risalire alla sequenza del DNA di partenza. Ovviamente con questo metodo è impossibile sequenziare interi genomi e, alla fine degli anni 80, fu sviluppato un metodo di Sanger basato sull’utilizzo di ddnTP marcati con differenti fluorofori colorati (G=nero, A=verde, C=blu, t=rosso). In questo modo era possibile mettere tutti i ddnTP all’interno di una stessa miscela di reazione perché era possibile 2 distinguere i diversi nucleotidi incorporati sulla base del colore delle macchie del gel. Ad ogni modo anche con questo miglioramento la tecnica non era ancora utilizzabile per l’analisi di high troughput data, in quanto comportava di dover fare ogni volta un gel per elettroforesi. Il passo seguente fu l’introduzione di capillari in cui far correre il DNA al posto dei gel. Specie più piccolo corrono più velocemente di specie pesanti e in questo modo si ha una separazione del DNA basata sulla massa, rendendo questo metodo automatizzabile grazie alla possibilità di leggere la sequenza tramite un sensore che usa laser e fotocellule. Con questo metodo sono stati sequenziali i primi genomi, ovvero quello dell’Haemophilus influezae, 1.83 Mb, quello di Saccharomyces cerevisiae, 12.05 Mb e quello di Escherichia coli, 4.64 Mb. Tuttavia, nonostante questa tecnica fosse automatizzabile, progetti di sequenziamento a larga scala hanno stimolato lo studio di metodi di sequenziamento alternativi più economici e veloci. PIROSEQUENZIAMENTO Il pirosequenziamento è una tecnica basata sul principio di sequenziamento tramite sintesi. Si differenzia dal metodo di Sanger poiché utilizza un metodo di rilevamento dei nucleotidi basato non su un terminatore di catena dideossinucleotidico ma sul rilascio di pirofosfato che avviene a seguito dell’incorporazione dei nucleotidi. Le tecniche di sequenziamento basato sulla sintesi comportano l’uso di una molecola a filamento singolo di DNA da sequenziare e la sintesi enzimatica del filamento ad essa complementare. Il pirosequenziamento è basato sul rilevamento dell’attività della DNA polimerasi sfruttando un altro enzima che porta all’emissione di chemioluminescenza. Essenzialmente questo metodo permette di sequenziare DNA a singolo filamento sintetizzando il filamento complementare un nucleotide per volta e rilevando quale tipo di base viene di volte in volta inserito nella catena nucleotidica. Lo stampo di DNA è immobilizzato e alla miscela di reazione vengono aggiunti e rimossi uno per volta dATP, dCTP, dGTP e dTTP. Ogni qualvolta un nucleotide viene inserito nella catena nucleotidica si ha un’emissione di luce e quindi, basandosi sulla sequenza di nucleotidi che porta a questa luminescenza, si riesce a determinare la sequenza del DNA stampo. Funzionamento -‐
-‐
Step 1: Il DNA a singolo filamento viene ibridato con un primer e incubato in una miscela di reazione contenente la DNA polimerasi, l’ATP sulforilasi, la luciferasi, l’apirasi, APS (adenosina-‐5’-‐fosfosolfato) e luciferina. L’ATP sulforilasi è un enzima in grado di convertire l’APS in ATP in presenza di pirofosfato; un altro enzima, la luciferasi, utilizza quindi l’ATP così prodotto per convertire la luciferina in ossiluciferina, un composto che genera luce visibile Step 2: Alla miscela di reazione viene aggiunta una soluzione di un certo nTP. Quando viene aggiunto il nucleotide complementare a quello del DNA stampo, la DNA polimerasi lo incorpora nel filamento in via di sintesi. 3 -‐
-‐
Step 3: Questa incorporazione causa l’uscita di una molecole di pirofosfato (PPi), l’ATP sulforilasi usa questo PPi per produrre una molecola di ATP che fa da substrato per la produzione di ossiluciferina con conseguente emissione di luce. In questo modo, basandosi su quando la luce viene prodotta (cioè in seguito all’aggiunta di quale nucleotide) e su quanto viene prodotta (es: una sequenza TT porterà all’emissione del doppio della luce rispetto ad una sequenza TG in seguito ad aggiunta di A) è possibile determinare la sequenza del DNA stampo. L’aggiunta di dATP tuttavia, porterebbe ovviamente a problemi legati al fatto che la luciferasi avrebbe a disposizione questa molecola anche senza un’incorporazione di nucleotidi e per questo motivo al posto dell’dATP viene usata una sua variante, il dATPαS, che non viene riconosciuto dalla luciferasi ma può essere incorporato nel filamento in via di sintesi. Step 4: Qualora il nucleotide aggiunto non sia complementare al nucleotide sullo stampo esso ovviamente non viene incorporato. È però necessario rimuovere i nucleotidi non incorporati per evitare che essi possano essere inseriti nella sintesi se complementari al nucleotide successivo (ad esempio, avendo sullo stampo AGG e aggiungendo C, questo nucleotide non verrà inizialmente incorporato ma in seguito all’aggiunta di T, qualora C non fosse stato rimosso, verrebbero incorporate anche due C emettendo una quantità di luce tale da supporre una sequenza AAA sullo stampo).
Al momento uno dei limiti di questa tecnica è che la lunghezza delle molecole di DNA da sequenziare deve stare in un range tra i 300 e i 500 nucleotidi, più corto degli 800-‐1000 ottenibili con il metodo di Sanger. Questa limitazione può portare ad una complicazione del processo di sequenziamento genomico, in particolare nel caso di genomi contenenti molte sequenze di DNA ripetute. Per questi motivi il pirosequenziamento è una tecnica generalmente utilizzata per il risequenziamento o per il sequenziamento di genomi già parzialmente sequenziati. 454 SEQUENCING BY 454 LIFE SCIENCE (ROCHE) È una tecnica che sfrutta un pirosequenziamento parallelo su larga scala in grado di sequenziare circa 400-‐600 Mb di DNA in 10 ore di corsa, in cui il DNA genomico viene isolato, frammentato, legato ad adattatori e separato in singoli filamenti. I frammenti di DNA vengono legati a biglie (un frammento per bliglia) che vengono catturate in una mix di PCR emulsionata in olio. Ogni biglia viene posta in un pozzetto delle dimensioni di ~29 μm su un PicoTiterPlate, ovvero un chip a fibra ottica, a cui vengono aggiunte biglie più piccole su cui sono legati gli enzimi: DNA polimerasi, ATP solforilasi e luciferasi. A questo punto si fanno cicli di PCR aggiungendo un nucleotide per volta che viene al termine di ogni passaggio degradato con un buffer contenente apirasi. Funzionamento Il DNA genomico viene diviso in frammenti più piccoli di circa 300-‐800 bp con estremità blunt a cui vengono legati dei corti linker che fanno da sequenza di avvio sia dell’amplificazione che del sequenziamento. I filamenti di DNA vengono denaturati e a questo punto ogni singolo filamento viene immobilizzato su una diversa biglia tramite uno dei due linker, l’adaptor “B”, che contiene una tag 5’-‐biotina che permette l’immobilizzazione della molecola. Le biglie vengono quindi poste 4 in emulsione acqua (contenente la mix di PCR) in olio, in cui avviene una prima amplificazione del DNA e le molecole neosintetizzate si legano ai siti di attacco rimasti liberi delle biglie. A questo punto le biglie vengono poste in un sistema PicoTiterPlate che, centrifugato, deposita statisticamente una biglia in ogni pozzetto e ad ognuno di questi pozzetti vengono aggiunte altre biglie a cui sono legati gli enzimi necessari al pirosequenziamento. Vengono fatti a questo punto dei cicli di PCR, aggiungendo come primer l’adaptor “A” e uno per volta dei 4 nucleotidi in ordine prestabilito, e quando un nucleotide complementare allo stampo viene aggiunto ad un pozzetto, la polimerasi lo incorpora rilasciando PPi che viene convertito ad ATP e utilizzato dalla luciferasi, emettendo una radiazione luminosa che viene letta da un sensore. Il sistema di sequenziamento 454 può sequenziare qualsiasi molecola di DNA a doppio filamento, permettendo il sequenziamento de novo di interi genomi, risequenziamenti, sequenziamenti di regioni isolate di DNA, metanogenomica o analisi di RNA. ILLUMINA SOLEXA Il sistema SOLEXA prodotto da Illumina è una piattaforma per il sequenziamento in parallelo di segmenti di DNA amplificati in modo clonale e legati a sferette magnetiche. La metodologia di sequenziamento è basata sulla ”sintesi sequenziale" di oligonucleotidi attraverso l’utilizzo di terminatori dideossi reversibili. Il sistema SOLEXA può generare oltre 1 Gbp di dati di sequenza (sequenze di lunghezza pari a 30-‐35 bp) con un'accuratezza superiore al 99%. È una tecnica in grado di generare un milione di basi ad alta qualità di sequenziamento per corsa ad un costo pari a meno dell’1% del costo dei metodi basati sui capillari, e a una velocità tale che genomi di mammiferi possono essere sequenziati in settimane e non anni. Viene quindi utilizzata per risequenziare genomi ad un costo vantaggioso. Il DNA viene frammentato tramite onde sonore focalizzate, legato ad adattatori, separato in base alle dimensioni, selezionato nel range di PM pari a 200-‐300 bp, denaturato e amplificato in una PCR in modo tale da aggiungere come estremi alla sequenza le regioni P7 e P5 che permettono di immobilizzare la molecola di DNA su una apposita lastrina (ogni lastrina può contenere fino a 8 lane, permettendo di allestire fino a 8 reazioni di sequenziamento per corsa). A questo punto vengono aggiunti nucleotidi ed enzimi per avviare l’ampificazione su fase solida “a ponte”, ottenendo doppi filamenti a ponte, in cui una delle due estremità non è legata alla cella. Quindi si denatura il doppio filamento e si ottengono in questo modo filamenti singoli leggermente distanziati. Facendo quindi dei cicli di PCR si ottengono dei gruppi numerosi che sono copie dello stesso frammento. Al termine di alcuni cicli di PCR si ottengono sulle lastrine dei cluster di DNA a doppio filamento, ognuno formato da molecole di DNA identiche. Una volta ottenuti questi cluster vengono inseriti i primer, la DNA polimerasi e, uno alla volta, i quattro nucleotidi marcati. In base al nucleotide incorporato, ciascun cluster emette in seguito a irradiazione con un laser una radiazione luminosa a lunghezza d’onda diversa che viene rilevata da un sensore che può così determinare la sequenza del DNA contenuto in ogni cluster. Ogni nucleotide utilizzato blocca esso stesso l’attacco del nucleotide successivo finchè non viene emessa fluorescenza. SEQUENZIAMENTO CHIMICO SU FASE SOLIDA È una tecnica di sequenziamento high throughput con alta efficienza, per il sequenziamento di genomi, il risequenziamento di determinati campioni, lo studio dell’espressione genica, lo studio degli snRNA e di cromatine immuno-‐precipitation. L’unica fase che si differenzia in ognuna di 5 queste applicazioni è quella della preparazione del campione, mentre le altre fasi, ovvero la PCR in emulsione, la ligazione e l’analisi, restano invariate. Preparazione dei campioni Una libreria di DNA a frammenti o di tipo mate-‐paired (ovvero due frammenti di DNA legati tra loro) viene preparata dal campione che si vuole sequenziare e legata a due primer: P1 e P2 (ottenendo quindi nel caso di frammenti singoli una molecola di tipo P1-‐frammento-‐P2, e nel caso di mate-‐paired una sequenza del tipo P1-‐frammento1-‐linker-‐frammento2-‐P2). Ognuna di queste molecole viene immobilizzata su una biglia magnetica che viene posta in micro reattori contenenti mix di PCR e primer complementari alla sequenza P1 (universale presente su tutte le biglie), per avere un’amplificazione del DNA tramite PCR in emulsione e ottenere così biglie arricchite ognuna di molecole di DNA di tipo diverso (una biglia = migliaia di copie di una stessa sequenza di DNA). Al termine della PCR le biglie arricchite di DNA vengono separate dalle biglie indesiderate e il DNA ad esse legato viene modificato in 3’ con un linker che permette di immobilizzarle covalentemente su una lastrina di vetro. Durante l’operazione di caricamento delle biglie è possibile suddividere ogni lastrina fino a 8 sezioni, su ognuna delle quali può essere caricato e analizzato una libreria diversa (in realtà utilizzando un sistema di barcoding è possibile arrivare fino a 16 librerie diverse caricate su una stessa lastrina). Un vantaggio di questo sistema è la possibilità di porre una gran densità di biglie per lastrina, con il risultato di ottenere un alto livello di informazioni throughput da uno stesso sistema. Sequenziamento per ligazione Le biglie all’interno dell’analizzatore vengono messe a contatto con una DNA ligasi, con dei primer che riconoscono l’adattatore precedentemente inserito e dei frammenti lunghi 5 nucleotidi “di-‐
base probes”. Il frammento che si lega alla posizione successiva al primer dipende dalla complementarietà tra il filamento e il DNA delle prime due basi dopo il primer, infatti le prime due basi dei frammenti si legano alla molecola di DNA, mentre le 3 basi rimanenti portano gruppi fluorescenti specifici per ogni di-‐nucleotide, che vengono rilasciati una volta che il frammento viene incorporato e letti da un rilevatore. Questo processo viene ripetuto in 7 cicli, al termine dei quali le molecole neo sintetizzate vengono rimosse e alla miscela viene aggiunto un primer lungo un nucleotide di meno del primer utilizzato precedentemente, perché altrimenti si avrebbero informazioni solo su 2 nucleotidi su 5. Si fanno 5 cicli di sequenziamento e in questo modo si ha il vantaggio cche ogni nucleotide viene letto 2 volte. LEGGE DI MOORE SUL SEQUENZIAMENTO Il costo di sequenziamento per base si riduce drasticamente. 6 SMRT SYSTEM (PACIFIC BIOSCIENCE) È un sistema di sequenziamento in tempo reale di una singola molecola. In tutti gli altri metodi serve un pretrattamento del campione per amplificare il DNA, con conseguente aumento di costi del processo e perdita di tempo; infatti, con i sistemi descritti, utilizzando singole molecole di DNA si avrebbero problemi di interferenza da background, dovuti alla presenza in alta concentrazione di nucleotidi marcati che creano un segnale background infinitamente maggiore del segnale dovuto ad un singolo evento di incorporazione. Il sistema SMRT permette il sequenziamento di lunghe molecole di DNA in un tempo di corsa contenuto, ad un’alta qualità e un prezzo sensibilmente ridotto. I chip utilizzati in questo sistema contengono migliaia di ZMWs (Zero-‐Mode Waveguides), che operano analogamente agli schermi metallici presenti sugli sportelli dei forni a microonde. Questi schermi sono bucati con buchi molto più piccoli della lunghezza d’onda della radiazione elettromagnetica emessa e in questo modo la radiazione non riesce a superare lo schermo. Tuttavia nei forni a microonde la radiazione luminosa passa permettendoci di vedere l’interno del forno, mentre in questi chip i buchi sono talmente piccoli da impedire l’attraversamento anche a questo tipo di radiazione. Ogni ZMW è un foro cilindrico all’interno di un sottile strato metallico supportato da una lastrina di vetro. La luce proveniente dal laser penetra solo attraverso i primi 20-‐30 nm di ogni pozzetto, creando un volume di rilevamento di 20 zeptolitri (10-‐21 litri), quindi la radiazione attraversa solo la prima parte del pozzetto, permettendo però di attivare i gruppi fluorescenti presenti. Ogni pozzetto porta legata una singola molecola di DNA polimerasi, in questo modo aggiungendo ad ogni pozzetto nucleotidi marcati in alte concentrazioni e una molecola di DNA da sequenziare, la polimerasi inizia la replicazione. Gran parte delle tecniche di sequenziamento tramite sintesi utilizzano nucleotidi che portano fluorofori legati direttamente alla base. In questo modo però, a seguito dell’incorporazione del nucleotide all’interno della molecola in via di sintesi, si ha un aumento del segnale di background, in quanto il fluoroforo viene mantenuto nella molecola di DNA e più nucleotidi vengono incorporati più aumenta il segnale background. In questa tecnica invece i nucleotidi vengono marcati con un fluoroforo legato al fosfato γ. Il laser provoca una eccitazione del fluoroforo che emette così una radiazione luminosa solo se questo si trova all’interno del piccolo volume raggiungibile dalla radiazione proveniente dal laser. In questo modo vengono eccitati solo i fluorofori dei nucleotidi quando questi vengono incorporati nel DNA, nel breve lasso di tempo (dell’ordine dei millisecondi) cioè in cui la DNA polimerasi sta catalizzando la reazione di incorporamento. Più a lungo la DNA polimerasi funziona e più lunghe saranno le molecole che si possono sequenziare. È così possibile fare cicli di sequenziamento di una molecola circolare, arrivando ad una maggiore affidabilità. 7 CONFRONTO TRA LE TECNICHE DI SEQUENZIAMENTO SEQUENZIAMENTO: VETTORI I vettori sono molecole di DNA che vengono usate per la creazione di librerie di DNA. Il genoma viene frammentato e inserito in precise posizioni note all’interno dei vettori. I più utilizzati sono YAC (cromosomi artificiali di lievito, 1Mb), BAC (cromosomi batterici, 300 bp) e PAC (cromosomi basati sul DNA del fago P1, 300bp). Indipendentemente dall’organismo in cui vengono clonati questi elementi di DNA devono contenere: un marcatore selettivo e una origine di replicazione, oltre a un centromero e due telomeri per quelli di lievito. Una volta che una libreria di vettori è stata sequenziata sorge il problema di riordinare le sequenze ottenute per ricostruire il genoma, cioè di riunire i frammenti in un’unica sequenza tramite un’operazione di contig. Prepare una libreria di DNA di un intero genoma è un’operazione molto laboriosa, è preferibile operare su un cromosoma alla volta. Occorre quindi separare tra loro i cromosomi tramite diverse tecniche: PFGE (elettroforesi su gel in campo elettrico pulsante), separazione a flusso o FACS (fluorescence-‐
activated chromosome sorting: separazione di cromosomi attivata dalla fluorescenza). Fish (fluorescent in situ hybridization): è una tecnica che permette una mappatura fisica dei geni, un’analisi strutturale del genoma, un paragone tra regioni specifiche conservate in diverse specie, la costruzione di mappe integrate genetiche e citogenetiche e l’assegnazione di una certa sequenza di DNA ad un particolare cromosoma, basata sulla marcatura di una molecola di DNA con marcatori fluorescenti che vengono fatti ibridare con DNA genomico e si va poi a vedere in quale regione si ha ibridazione (è una tecnica utilizzata per identificare le regioni dove un certo BAC ibrida). Fingerprinting È una tecnica utilizzata per ricostruire i genomi. Avendo due BAC, digerendo questi vettori usando degli enzimi di restrizione, se i due vettori hanno delle regioni in comune, i frammenti di DNA dovuti alla digestione avranno dimensioni uguali, mentre frammenti di dimensioni diverse si riferiscono a regioni non omologhe. 8 Un’altra tecnica potrebbe essere quella di ibridare diversi BAC con una sonda marcata radioattivamente e vedere dove questa ibrida. Usando sonde diverse si può ricostruire una mappa dei frammenti inseriti nei diversi BAC. Ordinamento mediante siti di sequenze-‐etichetta STS: Sequence-‐Tagged-‐Site: vengono spesso ottenuti da cDNA clonati detti EST (Expressed Sequence Tags), sui frammenti ci sono regioni (STS) che possono essere identificate in maniera univoca e si guarda quali di questi STS sono presenti nei vari frammenti per determinarne l’ordine. Ordinamento mediante sequenziamento di YAC, BAC, PAC ends WHOLE GENOME SHOTGUN SEQUENCING Il DNA genomico viene digerito fino ad ottenere dei piccoli frammenti che vengono inseriti all’interno di vettori che vengono sequenziati e analizzati in contig con un computer (tecnica molto più veloce del sequenziamento gerarchico ma molto meno precisa). Non è adatto per genomi grossi perché ci sono molte sequenze ripetute e duplicazioni che aumentano il numero di errori commessi (è lo stesso motivo per il quale per sequenziare genomi viene utilizzata la 454, che permette di sequenziare regioni più lunghe e quindi è più difficile che ci siano errori). Le sequenze ripetute possono essere sequenze a bassa complessità (ATATATATAT), micro satelliti, trasposoni (SINE, LINE, LTR), famiglie geniche, duplicazioni di geni avvenute recentemente (in modo che le due copie dei geni non si siano ancora differenziate l’una dall’altra). Con il whole genome shotgun ogni parte del genoma dovrebbe essere sequenziata almeno 4 volte per arrivare ad un livello di accuratezza accettabile (in realtà fino a 8-‐10 volte). Utilizzando un sistema di barcoding, marcando per esempio 3 genomi diversi con 3 linker diversi, è possibile condurre il sequenziamento dei 3 genomi in una stessa reazione e poi assegnare, grazie ai diversi linker, ogni frammento di DNA sequenziato al suo genoma di origine. RICOSTRUZIONE DELLA SEQUENZA (FRAGMENT ASSEMBLY) Partendo da un frammento si analizzano i frammenti che hanno con esso delle regioni in cui si sovrappongono, e così via fino a ricostruire la sequenza genomica originale. Per definire la 9 lunghezza che devono avere queste regioni di omologia per essere considerate sufficienti e significative si usa l’equazione: dove C è la lunghezza della regione di omologia, n è il numero di frammenti, l è la lunghezza media dei frammenti e L è la lunghezza totale della sequenza genomica in analisi. Secondo il modello di Lander-‐Waterman, assumendo una distribuzione uniforme dei frammenti sul genoma, ponendo C=10 si identifica una regione ogni milione di nucleotidi. ANALISI DEL GENOMA Si divide in due tipi di analisi: -‐
-‐
Analisi di genomi interi e singoli: con la quale è possibile fare un conto dei geni presenti e una loro classificazione, un’analisi delle sequenze ripetute e delle duplicazioni cromosomiche Analisi multi-‐genomica: consente di studiare le omologie, le sequenze simili e di fare un paragone tra le classificazioni dei geni Il DNA è organizzato sui cromosomi, all’interno dei quali sono presenti oltre a geni, trasposoni, sequenze ripetute ecc, le sequenze centromeri che e le NORs (nucleolar organizer regions), anch’esse ripetute in più copie. Le dimensioni dei genomi variano notevolmente da una specie all’altra, per esempio il genoma dell’uomo contiene circa 3.5 milioni di basi, mentre quelli di arabidopsis ne contiene solo 140 mila. Sequenziando il genoma umano sono stati utilizzati due approcci distinti: un approccio di tipo clone-‐by-‐clone (ad opera di HGP) e un approccio di assemblaggio del genoma (ad opera della Celera Genomics, una compagnia privata) in grado di sequenziare 2 milioni di frammenti a settimana. Studio Clone-‐by-‐Clone Si frammenta l’intero genoma e si va a vedere le regioni che si sovrappongono per ipotizzarne la sequenza. Ci sono però dei problemi legati a sequenze ripetute e a frammenti mancanti. GENOMA DI ARABIDOPSIS Il genoma dei arabidopsis è stato interamente sequenziato. Questo significa che si sa l’intero corredo genetico dell’organismo, e che si conoscono esattamente quali geni (quale set minimo di geni) sono necessari per far crescere la pianta. Arabidopsis è utilizzato come organismo modello perché è facilmente coltivabile, produce moltissimi semi, ha un tempo di generazione da seme a seme di 8 settimane, ha un genoma completamente sequenziato ed è molto correlata ad altre piante di interesse industriale (è della stessa famiglia per sempio di cavoli, cavolfiori, broccoli, rafano, … ). Il genoma di arabidopsis contiene circa 125 Mb divise in 5 cromosomi ed è il primo genoma vegetale ad essere stato sequenziato; in realtà ci sono ancora dei frammenti di genoma che non sono stati sequenziati. Il genoma presenta numerose duplicazioni interne, contiene famiglie di sequenze ripetute e molti SNP identificati (1 ogni 3kb); è un genoma compatto streamlined. In particolare sono state sequenziate 115409949 basi su 125 Mb, le regioni non sequenziate corrispondono a centromeri e rDNA. Nel sequenziamento sono stati utilizzati degli algoritmi che hanno portato ad identificare 25498 geni (nel corso degli anni in realtà ne sono stati individuati altri 7000) della maggior parte dei quali non è ancora stata identificata la funzione. Una delle 10 caratteristiche del genoma di Arabidopsis è che la maggior parte di esso (il 60% dei geni) è duplicato e queste duplicazioni portano ad una ridondanza genica. Durante un periodo lungo di stabilizzazione del genoma, i geni duplicati hanno la possibilità di divergere dal punto di vista funzionale con un meccanismo che è molto comune nelle piante. Secondo le prime stime il sequenziamento del genoma di Arabidopsis si sarebbe dovuto concludere nel 2010, tuttavia si è solo al 20%, a causa delle difficoltà create dalle numerose duplicazioni. FAMIGLIE GENICHE Sono insiemi di geni aventi una certa sequenza in comune il cui miglior esempio è rappresentato dai fattori trascrizionali, proteine che agendo in trans riconoscono i promotori (contenenti elementi in CIS) e che sono composte di due subunità, un DNA binding domain e un activating domain, in particolare il BD è molto simile in tutti i fattori tracrizionali. Le famiglie geniche hanno origine a partire da una duplicazione genica e si evolvono quindi a seguito del reclutamento di un DNA BD da parte di geni non correlati ad esso. In particolare si può anche arrivare ad un gene A e un gene B aventi la stessa funzione, ma espressi uno nelle foglie e uno nei fiori e pertanto non ridondanti dal punto di vista funzionale. Il meccanismo di duplicazione dei fattori trascrizionali è particolarmente importante nelle piante perché esse non potendo muoversi si trovano sottoposte alle più disparate condizioni ambientali e quindi necessitano di particolari meccanismi di regolazione genica. Per riconoscere geni modificati si vanno a cercare regioni a alta omologia di sequenza o che hanno una struttura genica uguale (organizzazione di introni-‐esoni). Esempio: famiglia genica MADS-‐box, un importante famiglia di geni che controlla molti aspetti dello sviluppo delle piante. L’acronimo sta per MCM1 (lievito), Agamous (Arabidopsis), Deficiens (Antirrhinum), SRF (umano). La MADS box è un DNA BD. 11 Esempio di uno studio di ridondanza. Si guarda prima la similitudine tra i geni, poi dove i diversi geni vengono espressi (ovvero i profili di espressione in diversi compartimenti dell’organismo, per vedere se due geni sono ridondanti), quindi si analizza la struttura dei geni (introni ed esoni, fornendo indicazioni sul fatto che una duplicazione sia più o meno recente). Conoscendo la posizione e la sequenza del gene, si può avere inoltre un’idea se la duplicazione sia avvenuta in tempi recenti; infatti duplicazioni recenti sono caratterizzate da geni ripetuti in tandem. Con la genetica diretta (creazione di mutanti con delezioni casuali) non è possibile studiare mutanti in geni ridondanti, perché eliminando uno dei geni non si ottengono effetti nel fenotipo e la probabilità di riuscire a fare una delezione nella seconda copia del gene è prossima a zero. Bisogna quindi avere il genoma già sequenziato e andare a fare una mutazione specifica. L’analisi filogenetica indica quali geni potrebbero essere ridondanti. Esempio: I geni SEP1, SEP2 e SEP3 sono ridondanti in Arabidopsis thalliana. I singoli mutanti presentano un fenotipo uguale a quello del ceppo wild type, così come quello dei doppi mutanti. Nel triplo mutante invece si ha la produzione di fiori aventi solo sepali e nessun petalo e il ceppo è sterile. Questi tre geni sono quindi ridondanti, tuttavia è stato scoperto un quarto gene, SEP4, prima conosciuto come AGL3 e il quadruplo mutante mostra un fenotipo ancora più drastico: infatti questo ceppo produce solo foglie, che sostituiscono sia i sepali che i petali (a sostegno della teoria secondo cui i petali si siano evoluti a partire dalle foglie). I geni SHP1 e SHP2 sono ridondanti, e il doppio mutante non riesce a secernere i semi ed è quindi sterile. Il triplo mutante con Δstk porta ad un ceppo in cui le ovaie sono mutate in organi completamente diversi. ANALISI FUNZIONALE Con la genetica diretta si ottengono come prima cosa dei mutanti, tramite mutagenesi random, in seguito si fa una selezione per identificare i mutanti con il fenotipo di interesse e da cui viene quindi identificato il gene responsabile del fenotipo desiderato. GENETICA INVERSA Le delezioni si possono fare o per mutazione inserzionale (porta al KO del gene con una bassa varietà di mutazioni ottenibili, poche mutazioni possibili all’interno di un individuo e facile da individuare se si inserisce una tag) o per mutagenesi chimica (porta ad un indebolimento dell’espressione genica, a diverse possibili mutazioni ottenibili, più mutazioni per organismi e più lunga). Ogni organismo ha tecniche specifiche con cui è possibile ottenere il KO di un gene, in particolare: -‐
-‐
-‐
-‐
Batteri: trasposoni e ricombinazione omologa Lieviti: ricombinazione omologa Vermi: RNAi Pesci: morpholino -‐ Insetti: elementi P dei trasposoni -‐ Animali: ricombinazione omologa -‐ Piante: trasposoni, T-‐DNA BATTERI Le mutazioni vengono fatte attraverso la ricombinazione omologa o l’uso di trasposoni, elementi mobili presenti nel DNA di piante, batteri e molti altri organismi, in grado di cambiare la loro posizione nel genoma in maniera casuale. 12 Trasposoni I trasposoni non sono capaci di auto replicare (come fanno invece i repliconi) e i loro spostamenti sono catalizzati da una ricombinazione sito-‐specifica catalizzata dalle trasposasi; talvolta inoltre alla trasposizione si accompagna una duplicazione. Vengono spesso utilizzati per introdurre nella cellula una resistenza ad un antibiotico. È molto usata nei batteri la tecnica di trasposizione in vitro: il DNA di interesse viene amplificato per PCR e al suo interno viene inserito grazie alla trasposasi un trasposone, i gap vengono riparati e le cellule vengono trasformate con il frammento di DNA così creato. Il DNA in cui viene inserito il trasposone è omologo del sito sul genoma batterico in cui si vuole fare l’inserzione, si ha quindi una ricombinazione omologa e le cellule in cui è avvenuta vengono selezionate grazie alla resistenza conferita dal trasposone. GAMBIT (Genomic Analysis and Mapping by In vitro Transposition) È una tecnica utilizzata per fare un’analisi funzionale dei geni. Si prende una parte del genoma e si incuba in vitro con dei trasposoni. Il genoma modificato viene quindi clonato in cellule batteriche e viene fatta una selezione dei ricombinanti, quindi si fa una PCR utilizzando un primer complementare al genoma e uno al trasposone e, a seconda delle dimensioni del frammento di DNA amplificato si può risalire al sito in cui è avvenuta l’inserzione (ovviamente nel caso di inserzione in un gene essenziale la cellula muore). Sul gel si avranno quindi dei buchi corrispondenti alle delezioni nei geni essenziali, che permettono di localizzare la posizione di questi geni sul genoma. Il vantaggio di usare questa tecnica in vitro è quello di poter scegliere la frazione di genoma da analizzare. LIEVITO È un organismo modello che viene spesso utilizzato per studiare la funzione di determinati geni all’interno di organismi superiori. La tecnica più utilizzata per creare mutanti è la ricombinazione omologa, si fa una delezione nel gene desiderato e si cerca un gene che complementi la mutazione. Sia S. cerevisiae che S. pombe hanno dei buoni meccanismi di ricombinazione omologa, che permettono la distruzione dei geni e il rimpiazzamento allelico. Ricombinazione omologa è una tecnica utilizzata per studiare la funzione dei geni. La tecnica standard prevede la creazione tramite clonaggio di un frammento di DNA che porta un marcatore affiancato a due sequenze omologhe agli estremi di YFG, in modo che, per ricombinazione omologa, YFG venga distrutto e i mutanti possano essere 13 selezionati grazie al marcatore. È un approccio che richiede tempo, occorre infatti identificare YFG, creare il vettore, inserire nel vettore il marcatore e infine clonare il vettore nelle cellule. Esiste un metodo più veloce, al marker vengono affiancate due sequenze complementari agli estremi di YFG e per ricombinazione YFG viene distrutto. Il frammento si può mettere nella cellula, dove si integra tramite ricombinazione omologa. Questo metodo sfrutta la tecnica dell'amplificazione: partendo da un marcatore selettivo lo amplifichiamo con dei primer che terminano con delle sequenze omologhe a YFG. Quindi si utilizzano questi frammenti ottenuti per PCR per fare il knock out di YFG grazie alla ricombinazione omologa. Con queste tecniche è inoltre possibile inserire delle TAG (es GFP) in frame con i geni per creare proteine di fusione marcate. Per S. cerevisiae sono necessarie omologie di 40bp, mentre per S. pombe ne servono 60bp. Ricombinazione illegittima È una tecnica utilizzata soprattutto in S. pombe: una molecola di DNA si può ricombinare ad una regione non omologa, creando dei mutanti aventi delezioni casuali. La mutagenesi inserzionale presenta alcuni svantaggi, tra cui il principale è il fatto che mutanti in geni essenziali non possono essere studiati. Per superare questo problema si usano ceppi diploidi eterozigoti, in cui viene mantenuta una copia del gene wt. Saccharomyces Genome Deletion Project È una libreria di mutanti in cui sono state deletate tutte le ORF più lunghe di 100 amminoacidi, è stata costruita irradiando con raggi UV o tramite trattamento con mutageni chimici. Sono state generate 4 collezioni, una aploide per ogni sesso, una diploide omozigote per ogni gene non essenziale e una diploide eterozigote contenente sia i geni essenziali che quelli non essenziali. I risultati indicano che il 18.7% dei geni sono essenziali per la crescita del lievito su terreno ricco in gucosio, e la distruzione di circa il 15% di questi geni nel diploide omozigote causa una crescita rallentata. Questa libreria però ha il problema che non tutti gli eterozigoti vitali hanno un genotipo normale, infatti si ha un notevole tasso di cellule con aberrazioni cromosomiche dovute al fatto che la perdita di un gene può portare ad una pressione selettiva che accresce il numero di cromosomi contenente lo stesso gene, qualora questo conferisca una maggior velocità di crescita. Informazioni interessanti possono derivare da studi del fenotipo di un certo mutante, fatte in opportune condizioni: per esempio si può creare un mutante in un gene essenziale rendendolo temperatura sensibile o freddo sensibile. In questo modo, una volta ottenuti i mutanti, si fa un replica plating, una piastra viene mantenuta alla temperatura permissiva, mentre l’altra viene messa a temperatura selettiva, in modo che si possano individuare i mutanti temperatura sensibili. Va ricordato che i mutanti condizionali sono sempre mutanti, non solo nelle condizioni in cui la mutazione si traduce in un fenotipo diverso dal wild type. Mutanti difettivi in geni essenziali per il mantenimento dei cromosomi vengono spesso identificati tramite saggi rivolti ad analizzare difetti nella stabilità dei plasmidi in condizioni permissive. SOPPRESSIONE DELLE MUTAZIONI Talvolta può succedere che in un mutante una seconda mutazione, avvenuta in un gene in qualche modo collegato con la prima mutazione, ripristini un fenotipo wild type. 14 Studio dei soppressori Poniamo di avere YFGts e sappiamo che esiste un gene soppressore per questa mutazione. Facciamo una mutagenesi random e può succedere che il gene soppressore diventi cold sensitive e che questa mutazione sopprima la mutazione Ts su YFG. Per clonare il gene soppressore utilizzo una libreria e ricombino ogni clone con il doppio mutante. Se nella cellula entra il gene soppressore wt, allora questa non sarà più cold sensitive e posso selezionarla facendola crescere a basse temperature. Poniamo invece che la mutazione che otteniamo sul gene soppressore sia sempre una mutazione recessiva ma casuale e che non ripristini il fenotipo wt di YFG. In tal caso dopo aver ricombinato ogni clone della libreria con il doppio mutante seleziono la cellula dove è entrata la copia del gene wt guardando quali cellule non crescono ad alta temperatura. Se invece la mutazione sul gene soppressore è dominante devo prendere il mutante e fare una libreria. Quindi trasformo tutti i cloni della libreria con una cellula con il gene soppressore wt e seleziono le cellule che riescono a crescere ad alte temperature. ANALISI DI SYNTHETIC LETHALITY È l’opposto della soppressione. In questo caso si ha un fenotipo debole, la mutazione cioè non porta alla morte della cellula, si cerca di trovare una mutazione che porti alla morte delle cellule, la combinazione delle due mutazioni è quindi letale (per esempio due geni ridondanti che vengono entrambi deletati). Per fare questa analisi si crea un mutante yfg e si cercano mutazioni letali sintetiche. Avendo un ceppo yfg, ade2, ura3 (fenotipo rosso per via di ade2). Inserendo nella cellula un plasmide con i geni URA3, ADE2, e YFG, si ottiene un ceppo contenente una copia extra di YFG. A questo punto si fa una mutagenesi random, e si ottengono vari mutanti tra cui quello con letalità sintetica. I mutanti vengono piastrati su terreno contenente Ura, poco Ade e FOA. Su questo terreno le cellule aventi il plasmide (che sono ADE2) muoiono a causa del FOA e si ha quindi una pressione selettiva che porta le cellule a perdere il plasmide. Tuttavia cellule in cui la mutazione yfg è stata combinata con una mutazione letale sintetica, non possono perdere il gene YFG presente sul plasmide, e quindi muoiono. A questo punto si va a verificare che la seconda mutazione non sia caduta all’interno di yfg rendendolo completamente inattivo, in questo caso infatti la cellula non può perdere il plasmide perché avendo yfg KO non sopravvive, e non a causa di una seconda mutazione letale sintetica. Librerie di mutanti Sono state costruite librerie di mutanti in cui ogni mutazione è stata incrociata con altre 5000 mutazioni (per le mutazioni in geni essenziali sono state usate varianti ts) in modo da studiare le interazioni tra i geni. Identificazione di geni bersaglio di farmaci È uno screening basato sul principio di letalità sintetica. Viene usato un deletion set di cerevisiae contenente mutazioni in 5000 geni non essenziali. Avendo due geni A e B letali sintetici, che possono essere o ridondanti, o interagenti o mediare funzioni di altri geni, avendo un mutante b e trattandolo con un farmaco anti A, che causa un fenotipo a, si ottiene un mutante ab non vitale. Lo screening viene fatto su tutti i mutanti di lievito, e a questo punto confrontando il profilo di 15 interazione chimico-‐genetica con quello di letalità sintetica è possibile individuare il target genico del farmaco. DROSOPHILA MELANOGASTER È noto come il moscerino della frutta. È un organismo modello ideale perché: -‐
-‐
-‐
-‐
-‐
-‐
-‐
-‐
È un organismo piccolo e quindi è possibile averne in grandi quantità in ambienti ristretti È facilmente allevabile Ha un periodo di sviluppo breve Produce un gran numero di progenie Ha fenotipi facilmente riconoscibili Ha solo 4 coppie di cromosomi È suscettibile a numerose mutazioni È un buon modello per lo studio della genetica umana È uno dei primi organismi di cui sia stato sequenziato il genoma, e ha il 60% dei geni in comune con l’uomo, con 175 dei 289 geni che causano malattia in uomo presenti anche in drosofila e il 67% dei geni cancerogeni umani trovati nella mosca. È un buon organismo di studio di malattie neurodegenerative (Parkinson, Alzheimer, Tay Sachs), cecità, malattie sanguigne e difetti immunologici. Viene quindi utilizzato per sviluppare farmaci attivi a livello dei neurotrasmettitori e dei sistemi immunologici e l’olfatto umano. TOPO È un organismo modello ideale perché: -‐
-‐
-‐
-‐
-‐
-‐
-‐
È uno dei mammiferi più piccoli È da un punto di vista evoluzionistico molto vicino all’uomo Ha una gestazione corta e raggiunge velocemente la maturità sessuale, con un lungo periodo fertile I maschi non attaccano i piccoli, sono docili e facilmente maneggevoli Si possono fare facilmente inseminazioni artificiali Lo sviluppo della placenta nelle prime fasi è simile a quanto accade in uomo Si ha una certa analogia con il genoma umano Tuttavia presenta anche alcuni svantaggi: -‐
-‐
-‐
-‐
-‐
-‐
È simile all’uomo, ma ci sono tuttavia delle differenze nelle funzioni cognitive, nei comportamenti e nell’espressione genica È difficile valutare lo sviluppo in utero È un organismo diploide e quindi il fenotipo di una mutazione viene spesso represso dalla presenza dell’allele wt Ha un genoma relativamente ampio, che rende difficile lavorarci rispetto a genomi più semplici Ha un periodo di gestazione corto, ma comunque più lungo di quello di altri organismi Servono ambienti ampi per allevarlo Lo studio del genoma di topo viene fatto attraverso diverse tecniche: mutazioni spontanee e indotte in alcuni geni, aggiunta di agenti mutageni esogeni, mutazioni tessuto specifiche e tempo-‐
specifiche, mutagenesi casuale seguita da screening, uso di tossine, diete o radiazioni, trapianti di tessuti. 16 Basic targeting strategy Per marcare i geni si utilizza la ricombinazione omologa. Si costruisce il vettore contenente il gene per il marcatore (es. neo che conferisce resistenza alla neomicina), circondato da due regioni omologhe al sito in cui si desidera fare l’inserzione, a loro volta affiancate dal gene tk che conferisce sensibilità al ganciclovir. Si selezionano quindi le cellule contenenti il marcatore su un terreno contenente neomicina; in questo modo però sopravvivono anche le cellule in cui si ha avuto un’inserzione per ricombinazione non omologa in un sito diverso da quello desiderato. Per eliminare queste cellule si aggiunge al terreno il ganciclovir, infatti con la ricombinazione omologa la sequenza tk non entra nel genoma, mentre con una ricombinazione non omologa si ha l’inserzione anche di questa sequenza. KO di geni in topo Si fa una mutazione nel gene desiderato all’interno di una cellula staminale di topo marrone, che viene inserita in una blastula che viene quindi impiantata in una femmina di topo nera. La progenie avrà una colorazione mista e le cellule marroni porteranno il gene KO, e i topi effettivamente KO vengono selezionati tramite PCR. A questo punto, una volta raggiunta la maturità sessuale, le chimere vengono incrociate con un topo nero e la progenie di colorazione marrone viene nuovamente analizzata per identificare i topi KO nel gene desiderato. Talvolta, per esempio nello studio di geni essenziali, può essere utile creare mutanti in cui un certo gene venga exscisso in un determinato tessuto o stadio di sviluppo. Per creare questi mutanti su usa il sistema Cre-‐Lox: la Cre è una ricombinasi che riconosce due siti Lox esxscidendo il DNA che si trova tra questi due siti. In questo modo mettendo il gene CRE sotto controllo di un promotore tessuto specifico o sviluppo specifico si possono ottenere mutanti KO in un certo tessuto o stadio di sviluppo. È una tecnica utilizzata in topo e nelle piante. PIANTE Per usare approcci di reverse genetics si usano popolazioni di Arabidopsis contenenti nel genoma elementi trasponibili o T-‐DNA. T-‐DNA È una tecnica utilizzata per la trasformazione di piante. Si usa il plasmide T dell’Agrobacterium tumefaciens (non ha nulla a che fare con lo sviluppo di tumori in uomo) che una volta trasformate le cellule si integra nel genoma. Una volta ottenuta una cellula mutata, si sfrutta il fatto che una singola cellula vegetale posta in opportune condizioni è in grado di rigenerare un organismo completo, all’interno del quale tutte le cellule, essendo derivate dalla cellula mutata, avranno la mutazione. A seconda di dove avviene l’inserzione di DNA esogeno si può avere un risultato diverso: se avviene all’interno di un introne bisogna vedere se l’introne in questione è esone per un altro gene, se avviene all’interno di un esone si può avere KO o mutazioni della proteina e se infine avviene all’interno di un promotore si possono avere i più svariati risultati sull’espressione del gene. Trasposoni La maggior parte dei geni ha una posizione specifica nel genoma. Tuttavia non tutti i geni rispettano questa caratteristica, esiste infatti un gruppo di geni, detti trasposoni, in grado di spostarsi lungo il DNA. Nel fiore accanto la divisione in settore rosso e settore bianco è dovuta ad una mutazione avvenuta durante lo sviluppo del fiore, in cui una cellula ha cambiato colore dando così origine ad 17 una progenie mutata, mentre i puntini rossi presenti nella parte bianca sono dovuti all’azione dei trasposoni. Un esempio di trasposone è costituito dal gene Ds, che salta da un punto all’altro del genoma grazie all’attività di Ac, che è una trasposasi. Avendo a disposizione dei trasposoni endogeni all’interno di una pianta, è possibile avere diverse mutazioni a partire da poche piante. Per avere un mutante in ogni gene ci vorrebbero circa 300000 piante, invece utilizzando i trasposoni bastano pochi esemplari. Per fare ciò Ac viene reso incapace di muoversi sul genoma e ha quindi la sola funzione di codificare per la trasposasi del Ds che può ancora muoversi e creare mutazioni. A partire da una piccola popolazione di piante si raccolgono quindi i semi, si fanno crescere, si fa una selezione e si prendono i semi di interesse. La selezione viene fatta grazie al marker presente all’interno del trasposone Ds utilizzato e opportunamente modificato, e viene fatta subito perché l’obbiettivo è quello di trovare una popolazione in cui tutte le piante hanno una mutazione diversa, non servono cioè più esemplari rappresentanti una stessa mutazione. Ad esempio viene prescelto come marcatore selettivo SU1, che rende le piante sensibili alla Sulphuronyl urea. In questo modo piastrando su Sulphuronyl urea riusciamo a selezionare quelle piante in cui il trasposone si è mosso sul genoma e che non è quindi più vicino ad AC. Questo è positivo in quanto mi permette di stabilizzare la mutazione. Librerie di mutanti con T-‐DNA Hanno il vantaggio che, a differenza dei trasposoni, una volta che il T-‐DNA si inserisce all’interno di un gene vi resta stabilmente. Presentano, tuttavia, un grosso svantaggio, ovvero, utilizzando i trasposoni sono sufficienti poche piante per ottenere infinite mutazioni, in quanto i trasposoni saltano da una parte all’altra del genoma, mentre per creare mutanti con questa tecnica occorre una popolazione di individui molto più ampia. Necessità quindi di un sistema di trasformazione efficiente, inoltre non presenta organismi revertenti. Una volta creata una libreria di mutanti con T-‐DNA o con trasposoni, per individuare la regione dove si è inserito il DNA esogeno (ci sono casi in cui un fenotipo mutato può essere dovuto non ad una mutazione in YFG, ma in un gene ad esso correlato) si sfrutta questo DNA come sonda per isolare le flanking regions (ovvero le regioni limitrofe). Si fa quindi una PCR utilizzando primer che appaiano sul DNA inserito e primer complementari alle regioni del YFG in cui si vuole avere l’inserzione. Però occorrerebbe ripetere la PCR per migliaia di piante. Per ovviare a questo problema le piante vengono raggruppate, il DNA viene estratto da 48384 linee e raggruppato in 1008 pool da 48 piante ciascuna, raggruppati in 126 superpool contenenti ognuno 8 pool, raggruppati a loro volta in 42 iperpool contenenti ognuno 3 superpool e 1152 linee vegetali l’uno. Il DNA da ogni pool viene estratto e analizzato per PCR e viene fatta un’operazione di deconvoluzione, guardando in quale iperpool si ha amplificazione, si passa poi al superpool, al pool e quindi alla linea di interesse. Negli ultimi anni si è passati ad un'altra tecnica, che prevede il sequenziamento delle flanking regions e il confronto con il genoma per capire la posizione del T-‐DNA nel genoma. Per isolare le flanking regions si fa una inverse PCR: il DNA viene digerito e circolarizzato, vengono inseriti due primer, complementari al T-‐DNA e avviata la PCR. Poiché il DNA è circolarizzato si avrà amplificazione delle molecole contenenti il T-‐DNA e le flanking regions, che verrà sequenziato. Per essere sicuri di non avere concatenamento dei diversi frammenti di DNA dopo la digestione si 18 opera a basse concentrazioni di DNA, che viene molto diluito nel buffer di PCR. Sono stati prodotti dei T-‐DNA basati su plasmidi batterici, tra il right e il left band è presente un’ORI, un AMP e quindi è possibile in seguito a digestione del DNA e alla circolarizzazione tramite ligasi, trasformare cellule batteriche con questi frammenti e fare uno screening su terreno contenente ampicillina. TAIL-‐PCR (Thermal Asymmetric Interlaced PCR) È la tecnica più utilizzata per amplificare regioni sconosciute limitrofe ad una regione nota (T-‐
DNA), a causa della sua semplicità, specificità, efficienza, velocità e sensibilità. Vengono utilizzati 3 primer specifici per il T-‐DNA inserito e posti uno in serie all’altro, con temperature di melting alte e diverse, e una serie di primer arbitrariamente degenerati più corti e con temperatura di melting più bassa. Vengono fatti dei cicli di PCR con il primer SP1 (Specific Primer 1) e un AD primer (Arbitrary Degenerate), 5 utilizzando condizioni stringenti (alte T) e uno a condizioni meno stringenti. Ad alta temperatura si avrà che i primer specifici appaiano, mentre gli AD no. Questi cicli ad alta temperatura servono per avere più copie di un DNA a singolo filamento che vengono poi usate come stampo dai primer a bassa complementarietà. A questo punti si diluisce e si ripete con SP2. In questo modo si ha un arricchimento di popolazione del DNA di interesse. Gene trap Si usa un costrutto di tipo: SA-‐REPORTER-‐pA presente all’interno del trasposone. In questo modo se il trasposone finisce all’interno di un gene (non importa se esone o introne in quanto c’è il SA ma non il SD) si ottiene una proteina di fusione tra il prodotto genico e il gene reporter e in questo modo, analizzando la proteina si può capire dove è avvenuta l’inserzione. TILLING (TARGETING INDUCED LOCAL LESIONS IN GENOMES) È una tecnica utilizzata per inserire mutazioni puntiformi all’interno di geni di interesse, che combina il DHPLC (Denaturing High-‐Performance Liquid Chrom.), sfruttando il fatto che frammenti completamente omologhi denaturano più lentamente di frammenti con mutazioni puntiformi, e la mutagenesi attraverso EMS (etilmetansulfonato). A seguito di mutagenesi in EMS, le molecole di DNA contenenti mutazioni denaturano e corrono più velocemente dei filamenti wt su colonne calde. Il primo step è fare mutanti in EMS, in seguito vengono amplificate le regioni di interesse da pool di 10 individui tramite PCR (utilizzando una diluizione 1:20 di eterozigoti), quindi viene fatta un’analisi in DHPLC, vengono analizzate le singole piante che vengono sequenziate e di cui vengono costruiti individui omozigoti. Normalmente la mutagenesi in EMS causa un passaggio da G a etilenguanina, che viene riconosciuta come A. La quantità di mutageno utilizzata nell’esperimento influisce sul tipo di mutagenesi. Esistono tre meccanismi di mutagenesi puntiforme: -‐
-‐
-‐
Sostituzione di una base Alterazione di una base in modo tale che appai con una base diversa Danno ad una base in modo tale che non appai più con alcuna base L’EMS, come anche il NG, nitrosoguadinina, agiscono attraverso il secondo meccanismo, e in particolare l’EMS aggiunge un gruppo etile, mentre l’NG aggiunge un metile. Le sostituzioni di base 19 si dividono in transizioni (da purina a purina o da pirimidina a pirimidina) o trasversioni, in cui una purina viene sostituita con una pirimidina o viceversa. A livello delle proteine, le mutazioni puntiformi possono portare a risultati molto diversi: -‐
-‐
-‐
-‐
Mutazioni silenti, spesso riguardanti il terzo codone di un amminoacido, sono mutazioni in cui il cambiamento di base porta ad un codone che codifica per lo stesso amminoacido del codone wt e quindi non si ha nessuna differenza nella proteina Mutazioni neutre portano all’incorporazione di amminoacidi simili a quello incorporato nel wild type, e se hanno un fenotipo diverso dal wt esso è comunque debole Mutazioni missenso portano a proteine aventi amminoacidi diversi da quelli wt che possono anche causare perdita di funzionalità della proteina Mutazioni non senso introducono un codone di stop portando ad un’interruzione prematura della sintesi proteica. Con il tilling tutti questi tipi di mutazione possono essere ottenuti. Avendo una mutazione da C a T in EMS, ci sono frammenti di DNA in cui ci si aspetta un tasso più alto di mutagenesi, e in EMS in particolare è facile creare codoni di stop. La PCR di molecole di DNA in EMS è vantaggiosa perché: -‐
-‐
-‐
-‐
-‐
È un processo quasi completamente automatico L’EMS è un mutageno affidabile Vengono ottenute molte mutazioni missenso utili (per esempio mutanti temperatura sensibili) Possono essere bersagliati tutti i geni Si possono utilizzare tutti gli organismi che possono essere mutagenizzati Mutagenesi TILLING in riso Si trattano i semi o i fiori di una pianta di interesse con EMS e quindi si fa crescere per due generazioni. È conveniente utilizzare la seconda generazione per avere una maggior certezza che la mutazione sia stabile, la generazione M1 può presentare mutazioni che però possono non essere presenti nelle linee germinali. Una volta ottenuti i mutanti (cioè i semi M3 ottenuti dalla generazione M2) si prende il DNA e si studia normalmente in pool da 8 individui (384 pool) tramite PCR. I frammenti di DNA così ottenuti vengono studiati tramite DHPLC per individuare le molecole mutate. Possono essere selezionate specifiche regioni in cui fare avvenire la mutagenesi, per esempio volendo ottenere un KO sarà utile avere mutazioni all’inizio del gene. I frammenti di PCR ottenuti vanno da 0.5 a 1.5 kb. CODDLE (Codons Optimized to Discovere Deleterious LEsions) È un programma che individua le regioni più deleterie all’interno di una sequenza fornita dall’operatore, dando così un’idea di quali sono le regioni migliori in cui disegnare i primer per la TILLING. CEL1 (AGAROSE GEL DETECTION OF DSDNA PRODUCTS) Cel1 è un enzima che riconosce le mutazioni e le taglia nell’ansa della molecola che si forma dove i filamenti non sono appaiati, portando così ad ottenere filamenti wt integri e filamenti interrotti dovuti al taglio ad opera di Cel1. L’enzima è stato individuato in celery (sedano), ed è facilmente ottenibile, in quanto basta strizzare il sedano e prenderne il succo per ottenere una soluzione in cui Cel1 è attivo. Nella PCR vengono usati primer marcati in modo tale che i due filamenti possano essere distinti dai wt. 20 Guardando la fluorescenza si vedono due bande oltre al wt, e la somma delle dimensioni delle due bande corrisponde a quella del wt. Se le dimensioni delle bande sommate non danno la dimensione wt si hanno falsi positivi. Tilling in altri organismi C. elegans: possono essere congelati più volte D. melanogaster: cercando mutanti di interesse e avendo circa 6000 mutazioni caratterizzate sui 15000 geni identificati. Avendo mutanti nei geni essenziali che non possono essere studiati per KO, con il tilling si possono studiare questi geni perché possono essere ottenuti mutanti TS. I mutanti di drosophila vengono conservati vivi a 18°C e trasferiti ogni mese su un nuovo terreno. Zebrafish: l’unica differenza rispetto a Drosophila è che si usa una nested PCR, usando per il secondo ciclo primer aventi una regione non complementare al DNA genomico e costante in modo tale che ogni primer si appaia ad un altro primer marcato fluorescentemente. Usualmente i mutanti vengono conservati come sperma congelato, tuttavia ora si preferisce mantenere popolazioni di organismi mutati vivi perché è un metodo più veloce e perché con la crioconservazione si avevano problemi di stabilità degli alleli. SMALL RNA Sono famiglie di RNA di lunghezza compresa tra i 21 e i 24 nucleotidi che sono generalmente coinvolte nel silenziamento genico. Questi RNA contribuiscono ad un silenziamento post 21 trascrizionale alterando la trascrizione o la stabilità dell’RNA messaggero, o ad un silenziamento trascrizionale del gene tramite modificazioni epigenetiche a livello della cromatina. DICERS E ARGONAUTI il silenziamento tramite RNA utilizza una serie di reazioni in cui molecole di dsRNA vengono processate dall’enzima Dicer o da suoi omologhi a dare piccole molecole di RNA a doppio filamento che si associano quindi a proteine della famiglia degli Argonauti e causano il silenziamento genico. La particolare struttura del Dicer gli permette di misurare la lunghezza del frammento di RNA che sta tagliando, in modo che porti alla formazione di sRNA di dimensioni uniformi. L’Argonauta, il cui nome deriva dal mutante ago1 di Arabidopsis e all’octopus Argonauta argo, è una proteina che lega la molecola d small RNA e la lega al suo target. Ci possono essere due tipi di silenziamento da RNA, il silenziamento mediato da siRNA, che agisce in maniera post-‐
trascrizionale e trascrizionale, e quello mediato da MicroRNA. SIRNA proteggono il genoma da virus, trascritti aberranti e trasposoni ed elementi ripetitivi. Inoltre sono in grado di mantenere alcuni geni in uno stato di silenziamento epigenetico. Silenziamento di DNA virale Gran parte dei virus vegetali sono virus a RNA che replicano attraverso la formazione di un intermedio a doppio filamento; questo dsRNA viene digerito dal Dicer (DCL) per produrre siRNA che, una volta associato con AGO (argonauta) causa il silenziamento della replicazione ed espressione del virus. Le piante sono in grado di curarsi dalle infezioni virali e diventare resistenti, in particolare le foglie più giovani prodotte da piante infettate da virus possono essere prive di sintomi ad indicare che la pianta ha curato l’infezione. Andando a vedere l’espressione di siRNA all’interno di cellule di foglie inoculate con un virus e di foglie lontane da quelle trattate, si osserva che anche in queste foglie che non sono state trattate con il virus viene prodotto siRNA. Esperimenti per testare il silenziamento da RNA sono stati condotti in piante che producono GFP in cui è stato inserito dsRNA della proteina per verificare il suo silenziamento. Sono stati usati in questi esperimenti geni che contengono due sequenze codificanti per la GFP in senso invertito (GFP-‐PFG), in modo tale che il prodotto genico sia un dsRNA. Si è notato che spesso questo tipo di silenziamento si diffondeva fino a 15 cellule di distanza dalla cellula inoculata con il gene, e probabilmente questo avviene tramite grazie ad un trasferimento a livello dei plasmodesmi. L’amplificazione del segnale aumenta l’RNA silencing Il silenziamento può diffondersi oltre il sito di infezione virale tramite la produzione di siRNA secondari, che richiede l’azione della RdRP: RNA-‐dependent RNA Polymerase. Mutanti nei meccanismi di produzione di siRNA sono molto più sensibili a infezioni virali rispetto ai ceppi wt, per esempio in Arabidopsis, mutanti nei Dicer sono incapaci di sopprimere infezioni virali come quella ad opera del TRV (Tobacco Rattle Virus). I virus nel corso dell’evoluzione hanno sviluppato delle proteine strutturali caratterizzate da una funzione “extra” che le rende in grado di interferire con il sistema di RNA interference a livello, per esempio, dei Dicer o degli Argo. Sono stati effettuati studi su piante in cui veniva inserito il gene reporter GUS, che in assenza di soppressori virali non viene espresso, in presenza di soppressori virali mutati viene espresso a livelli molto bassi, mentre infettando la cellula con soppressori virali funzionali viene espresso a livelli elevati. 22 Gli sRNA sono inoltre coinvolti in meccanismi di difesa della pianta da batteri patogeni, in cui sono coinvolti nell’inibizione della replicazione batterica. Sommario del silenziamento virale -‐
-‐
-‐
Il silenziamento genico mediato da RNA è un meccanismo importante nella difesa delle piante verso patogeni siRNA interferiscono con la replicazione virale e agiscono sistematicamente per intensificare il recupero e la resistenza della pianta ai patogeni molti virus producono proteine in grado di sopprimere i meccanismi di silenziamento basati sull’RNA, che colpiscono componenti del sistema di difesa della pianta. SILENZIAMENTO DEI TRANSGENI I transgeni inseriti nelle piante vengono spesso silenziati a livello post-‐trascrizionale o trascrizionale dai meccanismi di siRNA e questo silenziamento può essere attivato da livelli di espressione molto alti, dsRNA derivato dal transgene o da RNA aberranti codificati dai trasngeni. L’inserzione dei transgeni nei vegetali viene fatto tramite Agrobacterium tumefaciens. Per esempio, vennero fatti degli esperimenti in petunia per modificare il colore del fiore, rendendolo di un viola più intenso, agendo a livello del CHS (Chalcone Synthase), enzima che sta all’inizio del pathway di produzione degli antociani, cioè i pigmenti che conferiscono il colore viola al fiore di petunia. Si pensò quindi che, per ottenere fiori di un viola più intenso, bastasse aumentare la concentrazione di CHS inserendo un transgene in modo da avere due copie del gene all’interno della cellula. Inserendo nella cellula vegetale il transgene sense, si ottennero piante con fiori wt, piante con fiori più intensi e piante con fiori bianchi che non ci si aspettava di ottenere. Lo studio del trascrittoma di queste piante a fiori bianchi ha rivelato che non era presente nè l’RNA corrispondente al gene CHS endogeno, né quello corrispondente al gene esogeno. Questo avvenne perché in elettroforesi le specie di DNA più corte, di circa 25 bp dovute all’RNAi corrono molto velocemente e quindi quando si andava ad analizzare il trascrittoma, queste specie erano già corse fuori dal gel e non erano quindi visibili. Si capì in seguito che l’alta concentrazione di RNA dei geni che conferiscono il colore al fiore, portava la cellula ad attivare i meccanismi di silenziamento genico mediato da RNA, portando a silenziare anche il gene endogeno con un meccanismo detto cosoppressione. Questo fenomeno è una conseguenza della produzione di siRNA. Il sistema di attivazione del silenziamento genico più efficiente è quello mediato da RNA a doppio filamento, come evidenziato da una serie di esperimenti in C. elegans. In questi esperimenti, individui vennero mutati inserendo di volta in volta sense RNA, Anti-‐sense RNA o dsRNA. Nei primi due casi si ebbe un fenotipo wt, mentre inserendo dsRNA si notò un fenotipo mutato (in particolare vennero inseriti RNA omologhi di unc22, il cui silenziamento causa una perdita di controllo della muscolatura. Small RNA possono dare il via al silenziamento genico attraverso modificazioni covalenti del DNA o degli istoni, interferendo in questo modo con la trascrizione; questa è una forma di silenziamento frequentemente associata con un silenziamento stabile del DNA a livello centromerico e dei trasposoni. Silentiamento genico a livello trascrizionale Fu scoperto attraverso esperimenti in cui si cercava di introdurre più di un transgene all’interno di una pianta tramite incroci, in particolare incrociando mutanti CaMV35S pro : KAN (che conferisce resistenza alla kanamicina) e CaMV35S pro : HYG (che conferisce resistenza all’igromicina; CaMV35S pro è il promotore sotto cui è posto il gene, entrambi i transgeni sono quindi posti sotto 23 lo stesso promotore all’interno di due linee vegetali diverse). Ci si aspettava quindi di ottenere un 50% di cellule vitali facendo crescere su terreni selettivi per uno solo dei due antibiotici, e il 25% di cellule vitali su terreni selettivi Kan + Hyg. In realtà si notò che su terreni contenenti Hyg (sia nel singolo che nel doppio selettivo) non cresceva nessuna pianta. Si scoprì in seguito che ciò avveniva a causa di silenziamento genico causato da modificazioni del promotore (comune a entrambi i geni) che portavano ad interferenze con la trascrizione: mettendo due geni diversi sotto controllo di uno stesso promotore, spesso uno dei due geni viene completamente silenziato dal sistema di siRNA. Il silenziamento tramite siRNA avviene o tramite metilazione delle citosine o tramite modificazioni a livello degli istoni catalizzate da specifici enzimi, tra cui sono coinvolte due RNA polimerasi specifiche delle piante che sono la Pol IV (che agisce producendo RNA che viene poi indirizzato ai Dicer) e la Pol V. La maggior parte del siRNA viene prodotta a partire dai trasposoni e da altre sequenze ripetute di DNA. L’integrità genomica delle linee germinali è di fondamentale importanza per la riproduzione della specie e una delle maggiori minacce a questa integrità è la presenza di trasposoni o di sequenze trasposonali fossili che occupano rispettivamente il 46% ed il 39% dei genomi umani e murini. Line-‐1 è la classe di retrotrasposoni autonomi più abbondante e conta più di 500000 copie nei genomi aploidi dei mammiferi. È stato calcolato che le inserzioni di questa classe di trasposoni causano circa lo 0.1% di tutte le mutazioni genetiche nell’uomo e un individuo su 50 ha una nuova integrazione di trasposoni Line-‐1. Per monitorare questi elementi di instabilità genetica, i genomi hanno evoluto sistemi di difesa a livello molecolare, tra cui l’RNAi e i meccanismi ad esso correlati. Le linee germinali in particolare sono caratterizzate dalla produzione di specifici elementi della famiglia Argo, le proteine piwi, che interagiscono con i piRNAs (piwi-‐interacting small RNAs). In topo sono presenti due proteine piwi, MILI e MIWI2, che hanno un’importanza fondamentale nel processamento di piRNA dei retrotrasposoni e altri trascritti cellulari. MIRNAS (MICRO RNA) I miRNA sono elementi regolatori attivi in trans che si pensa possano essersi evoluti a partire dagli siRNA e che siano prodotti e processati in maniera simile ad essi; sono codificati da geni MIR specifici e svolgono la loro funzione agendo su altri geni. Nelle piante i miRNA sono coinvolti nel regolamento dello sviluppo e di determinati eventi fisiologici; nelle specie vegetali è presente un piccolo numero di miRNA altamente conservati e un numero molto alto di miRNA non conservati. Lo scopo di questi RNA è quello di tagliare i mRNA o di interferire con la loro traduzione: dal gene MIR viene prodotto un dsRNA che viene processato dal Dicer e può o entrare nell’Argonauta e causare una digestione del mRNA del gene target (frequente nelle piante), o appaiarsi ad esso e impedirne la traduzione. I miRNA e i siRNA nelle piante vengono processati da proteine DCL (Dicers) correlate tra loro ma diverse, ed in seguito a questo processamento, entrambi questi tipi di RNA possono associarsi con diverse proteine AGO: AGO1 solitamente taglia il suo mRNA target e si associa frequentemente con miRNA e solo con pochi siRNA, mentre AGO4 si associa preferenzialmente con i siRNA e porta ad una metilazione del DNA bersaglio. I miRNA sono codificati dai geni MIR, i cui trascritti si organizzano in una struttura a doppio filamento che viene processata da DCL1. Alcuni di questi RNA sono molto conservati ed hanno importanti funzioni di regolazione genica, specie nelle piante (quasi metà dei target dei miRNA sono fattori trascrizionali). Si pensa che questi miRNA si siano evoluti a partire dai geni dei loro target in seguito ad una duplicazione. 24 Una delle funzioni principali dei miRNA è il controllo del passaggio da una fase vegetativa all’altra nel passaggio da una crescita giovanile ad una adulta nelle piante. Questo passaggio può portare ad un tipo di crescita completamente diverso (vedi cactus), influenzando la forma delle foglie, la filotassi, … In Arabidopsis il cambio di fase di crescita influenza la forma della foglia e il pattern trichomico. Le foglie di piante giovani sono più rotonde e presentano una trichomia solo sulla superficie superiore; mutanti hasty (HASTY è un gene coinvolto nell’esportazione dei miRNA dal nucleo al citoplasma) presentano una fase giovanile più corta rispetto al wt, mutanti zippy (gene che codifica per una proteina Ago) presentano un’espressione prematura dei tratti tipici dell’età adulta, mentre mutanti miR156 OE hanno un prolungamento della fase giovanile, in quanto miR156 ha come bersaglio il gene SPL, promotore del cambio di fase. In C. elegans è necessaria la downregolazione di lin-‐14 ad opera di lin-‐4 per lo sviluppo della larva, e lin-‐4 può agire legando, con il suo miRNA diversi siti del bersaglio, causandone il silenziamento. Il passaggio da una fase vegetativa all’altra si ripercuote sulla morfologie e su alcuni aspetti legati alla riproduzione delle piante; i miRNA contribuiscono a controllare l’espressione nel tempo dei geni coinvolti nel cambio di fase: -‐
-‐
-‐
-‐
-‐
miR156 promuove la fase giovanile prevenendo l’accumulo di SPL il gene SPL promuove il passaggio all’età adulta e la fioritura in arabidopsis una proteina SPL promuove la trascrizione di miR172 miR172 promuove il cambio di fase interferendo con l’espressione di GLOSSY 15. In C. elegans, il silenziamento ad opera di lin-‐4 di lin-‐14 è necessario per lo sviluppo Nelle piante si sono evoluti sistemi per segnalare all’organismo la presenza di certi nutrienti nel terreno, e alcuni di questi meccanismi sono basati sul miRNA, con cui i germogli indicano alle radici quali nutrienti servono. I miRNA vengono quindi traslocati dai germogli alle radici attraverso il floema e regolano l’assorbimento dei nutrienti. Per esempio, i geni MIR399 sono indotti in maniera specifica in carenza di fosforo, e OE di MIR399 causa un sovraccumulo di fosforo nella piante a livelli tossici; in particolare gli elementi assorbiti non vengono accumulati nelle radici, ma nei germogli. miR399 agisce silenziando il gene PHO2, con cui ha un’alta complementarietà. Nelle piante è presente anche un altro gene, IPS1, il cui mRNA presenta anch’esso un’alta complementarietà con miR399, a meno di una regione centrale di IPS1 in cui si forma un’ansa. In questo modo quando il complesso viene caricato nell’argonauta, questo non lo riconosce e quindi si ha un sequestro del miR399. tasiRNA (trans-‐acting siRNA) Sono codificati da geni TAS trascritti dalla RNA Pol II, i cui trascritti sono bersaglio di specifici miRNA e vengono quindi digeriti dagli AGO. I frammenti così generati vengono complementati a dare dsRNA da una polimerasi RNA dipendente (la RDR6) e questi dsRNA vengono digeriti da DCL4 in una serie di frammenti più piccoli a doppio filamento, causando così il rilascio di molti tasiRNA da un unico gene TAS. Arabidopsis ha 4 famiglie di geni TAS: TAS1 e TAS2 hanno come target geni ripetuti, TAS3 fattori tracrizionali ARF e TAS4 fattori trascrizionali MYB. A partire da un singolo gene TAS vengono quindi prodotti molti tasiRNA a seguito di digestione ad opera di DCL4, che si muove sulla molecola di dsRNA tagliandola in modo da produrre frammenti di uguali dimensioni. Questi tasiRNA sono coinvolti nel cambio di fase vegetativa (come dimostrato dai mutanti in cui era stato fatto un KO in questi geni). Nat-‐siRNA 25 Natural cis-‐acting siRNA: derivano da trascritti che sovrapponibili che portano alla produzione di trascritti che possono organizzarsi in dsRNA e, a seguito di digestione e incorporamento in un argo causano silenziamento. Applicazioni degli sRNA All’interno delle piante siRNA o miRNA possono portare ad un silenziamento di determinati geni di interesse, e questo può essere sfruttato, per esempio, per eliminare composti tossici o allergenici da determinati alimenti. APPLICAZIONI DELL’RNA INTERFERENCE IN PIANTE Volendo fare functional genomics l’RNAi è una tecnica usata spesso in ogni organismo per silenziare determinati geni. L’RNAi è uno strumento molto utile per studiare la funzione di un gene o per miglioramenti di specie vegetali; può essere usato per approcci di tipo High-‐throughput in organismi modello o, per esempio, per migliorare la qualità dei cereali. Il costrutto iniziale per fare RNAi in piante è costituito da un promotore, una regione antisenso, uno spacer, una regione senso e un terminatore. Ora si preferisce utilizzare sequenze in cui al posto dello spacer si inserisce un introne che viene eliminato per splicing dal sistema di trascrizione endogeno, dando origine ad una molecola di RNA a doppio filamento, in quanto in questo modo di ha un silenziamento molto più efficiente. Per utilizzare questo sistema per studi high-‐throughput è necessario trovare un modo di inserire i costrutti nel genoma senza dover effettuare reazioni di ligazione, e per fare ciò si usa il gateway recombination site. Questa tecnica non è basata su siti di restrizione e successiva ligazione, ma sulla ricombinazione (utilizzando un cocktail di enzimi in grado di mediare la ricombinazione sito-‐specifica) e sul DNA del fago λ, dove può essere presente come molecola di DNA circolare (innescando un ciclo litico) o integrando la sequenza di interesse all’interno del DNA virale (sfruttando un ciclo lisogeno). Sulla molecola da integrare si ha una regione POP (costituita dalle flanking regions) complementare ad una regione BOB del genoma dell’ospite in cui si vuole avere la ricombinazione. Il primo passo nel clonaggio Gateway è la preparazione del frammento di DNA di cui si vuole fare l’inserzione, tramite due step: nel primo vengono aggiunte rispettivamente al 5’ e al 3’ le sequenze Gateway attB1 e attB2 tramite specifici primer utilizzati in PCR; nel secondo i prodotti di PCR vengono uniti a speciali plasmidi detti Gateway Donor vectors e all’enzima “BP Clonase” ( enzimi Int, IHF). Questo enzima catalizza la ricombinazione e l’inserzione della sequenza attB nel sito di ricombinazione attP presente sul Gateway donor vector. La cassetta di DNA all’interno del Gateway Entry Clone così creato può essere agevolmente trasferita all’interno di qualunque Gateway Destination Vector (un qualunque plasmide contenente le sequenze di ricombinazione attR e elementi come promotori ma nessuna ORF) e a catalizzare questa reazione è una mix dell’enzima LR Clonase. Questi plasmidi sono simili ai classici vettori di espressione, contengono un MCS a monte del sito att R. Ricapitolando: 26 -‐
-‐
Reazione Gateway BP: si creano prodotti di PCR con sequenze affiancate att B, si uniscono a plasmidi contenenti att P tramite BP clonasi e si genera un Gateway Entry Clone in cui i prodotti di PCR sono affiancati a siti att L Reazione Gateway LR: si uniscono gli entry clone (att L) con i destinatio vector (att R) contenenti promotori e tag trmite l’enzima LR clonasi. Il vettore di espressione contiene siti att B che circondano il gene di interesse, pronto per l’espressione del gene. Il fago lambda contiene un solo attL, per questo motivo le sequenze sono state modificate in attL1 e attL2, specifiche rispettivamente per attR1 e attR2, mantenendo la specificità degli enzimi Int, Xis, IHF per queste regioni Questa tecnica presenta diversi vantaggi: -‐
-‐
-‐
È molto veloce È irrilevante che ci siano siti di restrizione all’interno del gene È possibile affrontare un progetto di clonaggio su larga scala AMIRNA (MIRNA ARTIFICIALE) Sono normalmente codificati da geni, un miRNA, un gene. I trascritti primari formano una struttura che viene riconosciuta e processata dai Dicer a dare sRNA, in questo modo si formano molti sRNA da un unico gene e, poiché non si conosce la posizione in cui il Dicer taglia l’RNA, il 5’ delle molecole di sRNA non è noto. AmiRNA vengono prodotti da precursori miRNA e lo spettro completo di target di amiRNA è facilmente prevedibile. Il silenziamento di geni di interesse mediato da RNAi e amiRNA è molto simile. RNAi in Caenorhabditis elegans L’RNAi è stata osservata per la prima volta in C. elegans nel 1998, scoprendo che i dsRNA causavano una degradazione di specifici mRNA, e questa scoperta arrivò insieme al completamento del sequenziamento del genoma di questo organismo. C. elegans è un nematode che si nutre di batteri, gli individui adulti sono lunghi 1mm e hanno un ciclo vitale di 3 giorni; sono ermafroditi autofertilizzanti; l’anatomia è nota ed essenzialmente invariabile. In questo organismo si hanno delle limitazioni silenziamento tramite RNAi all’interno di alcuni tessuti. Si può ricorrere a 4 tecniche di somministrazione di dsRNA: -‐
-‐
Microiniezione (più potente): fenotipo osservabile nella generazione successiva Immersione: del verme in una soluzione di dsRNA concentrata priva di nutrienti per più di 24 ore, il fenotipo è osservabile direttamente o nella generazione successiva 27 -‐
-‐
Nutrimento: dando al nematode batteri che producono il dsRNA di interesse, ha il vantaggio che può essere applicata ad un vasto numero di individui Transgeni: alcuni geni neurali sono più efficientemente silenziati con questa tecnica. È ereditabile, inducibile o tessuto specifica. RNAi in Zebrafish Zebrafish è un organismo modello per studi di biologia dello sviluppo: è piccolo e facilmente allevabile, produce embrioni trasparenti, le prime fasi dello sviluppo sono ben caratterizzate e ha corti intervalli tra una generazione e l’altra. Sono state fatte 2000 mutazioni che perturbano lo sviluppo di Zebrafish; questo organismo ha il vantaggio che la riproduzione necessita di fertilizzazione esterna e quindi non sono necessari interventi chirurgici. È utilizzato nelle ricerche biomediche per: -‐
-‐
-‐
-‐
-‐
-‐
Studi dei meccanismi molecolari di malattie neurologiche Distrofia muscolare Rigenerazione dei muscoli cardiaci Insufficienza renale cronica Cancro Malattie infettive IL TRASCRITTOMA Consiste nel set completo di mRNA presenti in una cellula, in un tessuto o in un organo. L’analisi di tutti gli mRNA viene fatta per individuarne alcuni espressi a livelli differenti in due campioni diversi e può servire ad individuare geni collegati ai processi di sviluppo, ai pathway metabolici, alle risposte allo stress, alle droghe o farmaci, alle malattie, … può quindi fornire informazioni sulla funzione dei geni. Gli studi sul trascrittoma vengono fatti tramite: -‐
-‐
-‐
-‐
-‐
-‐
-‐
Northern blot Analisi in situ Differential display Sequenziamento di librerie a cDNA AFLP based tran script imaging SAGE Microarrays LA NORTHERN BLOT è facile, veloce e poco costoso ma non va bene per studiare un gran numero di geni o per analisi di tipo tessuto specifiche. L’ANALISI IN SITU è una tecnica molto utilizzata per studiare l’espressione genica ed è più specifica e dettagliata della Northern blot. Si prende il tessuto, si mette in paraffina, se ne tagliano piccole sezioni con un affettatrice e su queste sezioni si inserisce la sonda per il gene e si fa l’ibridazione con RNA antisenso. L’ibridazione con RNA è più stabile di quella don il DNA; è possibile inoltre digerire il tessuto con delle RNAsi che riconoscono solo filamenti singoli, in modo tale che l’unico RNA rimasto sia il ds sonda-‐mRNA. Inoltre l’RNA presenta anche un’attività specifica più alta se confrontato con il DNA, tuttavia le sonde a DNA riescono a penetrare maggiormente i tessuti e sono potenzialmente più specifiche. Questa tecnica porta a dati ad alta risoluzione e che possono tenere conto dell’evoluzione di un organismo nel tempo, ma è difficile da applicare, richiede molto tempo ed è gene-‐specifica. 28 Le sonde possono essere marcate in maniera non radioattiva o radioattiva. Nel primo caso si può fare una marcatura diretta andando ad usare nucleotidi contenenti dei composti fluorofori o indiretta usando composti chimici o molecole reporter che accoppiano con la sonda, possono essere anche usate molecole che legano il target ed un reporter (biotina-‐streptavidina, digoxigenina), o antibiotici marcati in grado di riconoscere dsRNA. La biotina è una vitamina naturale che lega con alta affinità i propri target. La digoxigenina è invece uno steroide vegetale che è legato da un anticorpo molto specifico. Uno dei vantaggi è quello di poter utilizzare un rilevamento di mRNA multiplex, basato sull’utilizzo di diverse sonde marcate diversamente che riconoscono target diversi al fine di rilevare i livelli di espressione di più di un gene (non va bene però per studi sul trascrittoma in quanto bisogna già conoscere il gene di interesse). REAL TIME-PCR
È una tecnica usata per quantificare lo stampo (si usa un cDNA di interesse) della PCR in modo sensibile (anche se si inserisce poco cDNA questo viene amplificato), la RT-‐PCR ha quindi un range dinamico molto ampio (e il numero di cicli necessari è inversamente proporzionale alla quantità di cDNA di interesse), specifico (si usano due primer che devono appaiarsi entrambi) e (teoricamente) riproducibile. Estraendo tutto l’mRNA da una cellula si fa una retrotrascrizione e poi si usano i cDNA così ottenuti come stampo per una PCR. I 2 primer sono costruiti in maniera tale da appaiarsi stabilmente solo al DNA stampo di interesse, che quindi sarà l’unico ad essere amplificato in maniera significativa. In una PCR normale, il processo viene fatto andare fino a saturazione e interrotto dopo circa 25-‐40 cicli, quando entra in plateau. La RT segue la formazione del prodotto della PCR nel tempo; ci sono macchine per PCR apposite in grado di fornire la quantità di copie prodotte ad ogni ciclo. Questo è reso possibile dall’uso di marcatori fluorescenti o che legano il DNA. Uno dei più usati è il SyBR green, un intercalante del DNA che, quando intercala, emette fluorescenza, e in questo modo con l’aumentare del numero di copie prodotte aumenta anche la fluorescenza prodotta. Non dovendo processare i prodotti di PCR, questo sistema è utilizzabile per high throughput. La quantità di stampo iniziale si può valutare in base alla quantità di DNA prodotto dalla PCR; più stampo c’era e più DNA viene prodotto a parità di numero di cicli (più la curva DNA/numero di cicli sale velocemente e più quantità di DNA c’era alla partenza). Uno dei maggiori vantaggi della RT-‐PCR è che è possibile lavorare in multiplex, cioè è possibile analizzare con un solo processo di PCR prodotti diversi (non con SyBR che intercala in ogni prodotto, ma usando marcatori specifici per ogni prodotto) Svantaggi: -
Con la PCR si controlla la presenza e la dimensione del DNA, mentre con la RT-‐PCR non è possibile conoscere le dimensioni del DNA amplificato Teoricamente, costruendo dei primer ad hoc, si ha il controllo su quale sarà la sequenza amplificata, tuttavia, nel caso in cui ci siano prodotti di DNA secondari, a volte ciò non avviene (si possono usare condizioni che impediscono del tutto amplificazioni aspecifiche, tuttavia queste condizioni non permettono l’uso del SyBR green) Per superare i limiti imposti dal SyBR ai multiplex, sono stati sviluppati due marcatori specifici: Molecolar beacon TaqMan 29 MOLECOLAR BEACON conoscendo la sequenza del DNA di interesse, è possibile fare una sonda che sia complementare alla sequenza di interesse nellla sua porzione centrale e dotata alle estremità di due code in grado di appaiare tra loro. Queste code portano legati una un fluorocromo (molecola che emette luce a una certa λ) e un quencher (molecola che assorbe luce a una certa λ, si fa in modo di usare quencher che assorbano alla stessa λ emessa dai fluorocromi). In questo modo, quando il molecolar beacon è chiuso, fluorocromo e quencher vengono a trovarsi molto vicini tra loro, e non si ha emissione di luce; mentre quando il beacon si appaia al DNA, il quencher è troppo distante per catturare la luce emessa dal fluorocromo, che può essere così rilevata da uno spettrofotometro. Col procedere della PCR, un numero sempre maggiore di beacon si appaierà al DNA, facendo così aumentare la quantità di fluorescenza emessa. Volendo analizzare più di un gene basta usare beacon diversi, i cui fluorocromi emettono luce a λ diverse. TAQMAN Si usano in questo caso beacon più corti, che si appaiano al cDNA di interesse, ma, essendo corti, in questo caso F e Q si trovano abbastanza vicini perché Q assorba la luce emessa da F. Avviando la PCR e usando TAQ polimerasi con attività 5’à3’ nucleasica, la polimerasi inizia a tagliare, F viene in questo modo tagliato e si allontana da Q, emettendo così fluorescenza. CARATTERIZZAZIONE DI LIBRERIE A CDNA, permette di sequenziare molti cloni le cui librerie sono costruite da cellule o tessuti specifici. Si sequenziano 1000-‐2000 cloni e quindi si costruiscono set di geni di interesse che vengono blastati all’interno di genomi già sequenziati (è vantaggioso in quanto permette di evitare di sequenziare l’intero genoma dell’organismo di interesse). 30 DIFFERENTIAL DISPLAY. Avendo una cellula sana e una cellula malata si vogliono individuare i geni che sono espressi a livello diverso nei due tipi di cellula e identificare i geni in grado di convertire una cellula sana in una malata e viceversa (o anche per identificare geni che inducono il passaggio G0àmitosi e viceversa, o altri casi simili). Bisogna riuscire a distinguere i diversi mRNA dei tipi cellulari e valutare i loro livelli di espressione. Si potrebbe condurre quest’analisi tramite northern blotting; ma bisognerebbe analizzare un gene per volta (avendo così moltissimi geni da analizzare, di cui si dovrebbe già conoscere la sequenza). Il differential display ovvia a questi problemi; è una tecnica che si basa su due principi: Bisogna amplificare il cDNA, in quanto occorre aumentare ognuno dei messaggeri per far sì che si veda come una banda all’interno dello smear elettroforetico Bisogna ridurre la complessità, facendo sì che solo alcuni mRNA vengano amplificati Per ridurre la complessità: Si ha una popolazione di mRNA che, essendo poliadenilata in 3’, sarà di tipo: TAAAAA CAAAAA GAAAAA AAAAAA Per ottenere il cDNA, anziché usare oligonucleotidi normali, si usano oligonucleotidi ancorati, di tipo CTTTTT, GTTTTT e ATTTTT che riconoscono solo alcuni mRNA (CTTTTT riconoscerà GAAAAA, GTTTTT CAAAAA e ATTTTT TAAAAA. Questa tecnica non funziona con AAAAAA, perché tutti gli oligonucleotidi di tipo *TTTTT riconoscono questa sequenza; tuttavia la sequenza AAAAAA, avrà in 5’ una C, una G o una T, e sarà quindi riconosciuta da uno tra CTTTTT, GTTTTT o ATTTTT (se la sequenza in 5’ ha un’altra A si ripete lo stesso ragionamento). In questo modo viene ridotta ad 1/3 la quantità di mRNA amplificata. Per amplificare in PCR si usa quindi uno degli oligonucleotidi ancorati, e una miscela di primer casuali lunghi 13 nucleotidi, ottenendo così trascritti di dimensioni diverse, in quanto non in tutti i geni sequenze riconosciute da un primer casuale saranno alla stessa distanza dal 3’. Si fa quindi un elettroforesi e si confrontano quali trascritti sono espressi a livelli diversi nei due tipi cellulari. La procedura si ripete quindi usando sequenza di 13 nucleotidi diverse e/o gli altri due tipi di nucleotidi ancorati. Una volta trovate sul gel bande ad intensità diversa nei diversi campioni, si fa una Northern blot, si estrae il DNA dalle bande espresse a livelli diversi e lo si sequenzia. AFLP è uno dei sistemi più frequenti per fare mappe geniche. Si prende il DNA genomico, lo si digerisce con enzimi di restrizione ad una concentrazione tale che taglino in ogni sito, si legano adattatori ai frammenti di DNA e si fa un’amplificazione specifica per alcuni frammenti (amplificando tutti i frammenti si ottiene uno smear sul gel). Sui linker si possono appaiare dei primer con basi extra diagnostiche in modo tale che il numero dei frammenti amplificati si riduca drasticamente ed una volta ottenuta una popolazione di geni amplificata si può guardare la differenza dei livelli di espressione. Dopo aver incubato con gli enzimi di restrizione si può fare un 3’-‐end computing usando un poli-‐T a cui è legato un gruppo con affinità ad un substrato e si eluisce su una colonna, in modo tale che gli altri frammenti vengano lavati via. A questo punto si può fare una nuova digestione (sulla colonna) ottenendo frammenti con due sticky ends (dovute alle due digestioni) che vengono eluiti. Per ogni molecola di cDNA si ottiene un unico frammento; è quindi un sistema quantitativo. Cambiando gli enzimi di restrizione utilizzati cambiano i frammenti che si recuperano. Una volta ottenuti i frammenti si fa un AFLP aggiungendo primer diagnostici per una PCR. Avendo una scarsa selettività si vedono solo i geni molto espressi in grado di superare il segnale dello smear.SAGE – Serial Analysis of Gene Expression: Si studiano i profili di espressione di una cellula, 31 ottenendo informazioni su quali sono i trascritti presenti, e su quanto ognuno di questi trascritti è presente, senza necessità di produrre sonde specifiche. A partire da ogni cDNA, si producono delle tags, brevi sequenze di DNA lunghe 9-‐11 bp, in modo tale che ognuna di queste sequenze sia univoca per un gene (occorre conoscere la sequenza dell’intero genoma). Le tags vengono quindi concatenate in una singola molecola e sequenziate. Il profilo trascrizionale viene dedotto dalla quantità di ogni singola tag. Si parte dal cDNA che può essere catturato su una resina di oligodT-‐cellulosa (in quanto porta il poli-‐A). da ciascun cDNA si vuole identificare una piccola sequenza univoca e per fare ciò non occorre sequenziare una sequenza alla volta, ma si elaborano tutte insieme. Il cDNA immobilizzato sulla resina viene sottoposto a digenstione enzimatica con l’enzima NlaIII (legato a biglie tramite biotina-‐streptavidina), che è un enzima che taglia una sequenza corta (CTAG) e quindi molto frequentemente, infatti statisticamente taglia tutti i cDNA. Una volta tagliati, tutti i frammenti che non sono immobilizzati sulla resina verranno persi, mentre quelli legati (i frammenti in 3’) vengono mantenuti e avranno lunghezze diverse. A questi pezzi immobilizzati sulla resina viene attaccato un adattatore, costituito da una sequenza A, un sito di restrizione per Bsm F1 e la sequenza GTAC complementare a quella tagliata da Nla III; ottenendo: Bsm F1 è un enzima di restrizione di tipo 2 (cioè che lega in un sito e taglia in un altro), che taglia 14 bp downstream (verso il cDNA). In questo modo dalla resina, per ogni cDNA si stacca un pezzetto contenente l’adattatore più 10 nucleotidi di cDNA (la sequenza di DNA attaccata alla colonna deve essere più lunga di 10 bp, se no il frammento non viene tagliato; per fare ciò si lavora sulla quantità di Nla III inserita per far sì che non tagli in tutti i siti). L’adattatore è presente e uguale su tutti i frammenti, mentre il cDNA è diverso per ogni frammento. Si può fare la stessa cosa attaccando una sequenza B invece che una sequenza A. Prendendo molecole con A e molecole con B, mettendole insieme e facendo avvenire la ligazione si ottiene una molecola ditag: A e B non sono altro che sequenze primer decise dall’operatore (si scelgono sequenze non presenti nel genoma dell’organismo analizzato), e le ditag vengono quindi amplificati in una PCR in cui si usano A e B come primer. I ditag amplificati si tagliano poi con Nla III, rimuovendo così gli adattatori e ottenendo una miscela di ditag con estremità sporgenti Nla III. A questo punto i ditag vengono ligati l’uno con l’altro per ottenere una singola molecola lunga qualche kbp (la lunghezza dei singoli ditag è insufficiente per sequenziare), si sequenzia la molecola così ottenuta e si risale quindi alla quantità di partenza di ciascun tipo di cDNA (se si incontra x volte una certa sequenza, significa che nel cDNA di partenza erano presenti x copie del trascritto in questione; in questo modo sequenziando una sola molecola si ottengono informazioni su molti tag). MICROARRAYS Il trascrittoma è un insieme estremamente dinamico, in quanto le cellule in momenti diversi della loro vita, esprimono geni diversi. Per sapere quali geni vengono espressi e quando vengono espressi, si usano microarrays e DNA chips. Per capire quale tipo di tumore ha un paziente, si possono guardare le caratteristiche fisiologiche; ma questo metodo è valido solo per alcuni tipi di tumori e inoltre il giudizio può dipendere dall’operatore. Se fosse invece possibile analizzare il trascrittoma di una cellula sarebbe molto più semplice fare diagnosi e quindi terapie più precise ed efficaci. Inoltre identificare i trascritti in un certo momento invece che in un altro, in rapporto alla somministrazione di un farmaco, può fornire indicazioni utili circa gli effetti collaterali di quel farmaco. 32 Nella northern blotting, si prende un gene di interesse, si fa una sonda marcata, si mette su una matrice solida e si osserva quale banda di mRNA fornisce una risposta positiva. I microarrays funzionano al contrario, ovvero sulla matrice solida si posiziona una serie di sonde non marcate (ad esempio si mette il DNA codificante per actina, pol-‐α e tubulina (il DNA deve essere denaturato)) in posizioni diverse e su questa matrice solida viene poi messo e fatto appaiare tutto l’mRNA (precedentemente marcato) della cellula (al posto del DNA come sonde è possibile usare anche oligonucleotidi, prodotti di PCR o cDNA). Quindi con un autoradiografia si studiano le diverse ibridazioni ottenute, ed è possibile quindi confrontare i trascrittomi di più cellule tra loro usando marcatori diversi che vengono poi letti da filtri differenti. L’ibridazione è influenzata da diversi fattori: concentrazione di target e sonde, sale, temperature, composizione della sequenza: monovalenti cationici aumentano il tasso di formazione di etero duplex schermando le cariche negative dei gruppi fosfato, la temperatura e la composizione della sequenza influenzano la forza delle interazioni tra sonda e target. Esistono due principali tecnologie di DNA microarray: il “printing”, che consiste nel depositare meccanicamente molecole di DNA presintetizzato e il metodo fotolitografico, che consiste in una sintesi in-‐situ di DNA su una superficie (chip). Nel primo caso un robot lascia degli spot di DNA su una superficie vetrosa; le sonde vengono ottenute tramite amplificazione di DNA genomico, da cloni derivanti da una libreria a cDNA o altre librerie (esempio ESTs), o da oligonucleotidi sintetici. Filter array Portano meno geni rappresentati ma possono essere utili per studiare famiglie di geni, sono inoltre meno costosi. Da una preparazione di cellule si isola l’RNA, si fa una trascrizione inversa con 33P dCTP e quindi si ibrida su una membrana. Fotolitografia Si costruiscono delle maschere forate (fotolitografiche) nelle posizioni in cui si desidera attaccare un nucleotide, per esempio in tutte le posizioni in cui si vuole aggiungere una T, e si illumina. La luce raggiunge solo le posizioni corrispondenti ai fori della maschera, che sono le uniche in uci il gruppo protettore viene degradato. Viene poi aggiunta la T modificata, che può reagire solo dove non incontra il gruppo protettore. A questo punto si prepara una nuova mascherina forata in corrispondenza di A; e si procede analogamente fino ad avere sintetizzato tutti gli oligonucleotidi. Il sistema controlla anche che la lunghezza degli oligonucleotidi sia giusta; in caso contrario scarta il chip. Nei chip affymetrix si arriva ad avere centinaia di migliaia di oligonucleotidi su una piccola superficie di vetro. I vantaggi dei microarray sono: -‐
-‐
È possibile individuare singoli trascritti genici, distinguendo le varianti di splicing e i trascritti senso e antisenso La strategia di ridondanza/disappaiamento della sonda aiuta ad identificare e minimizzare gli effetti di ibridazioni non specifiche e di segnale di background Ci sono però anche degli svantaggi: -‐
-‐
-‐
Occorre avere accesso a strumentazioni sofisticate Non si possono fabbricare velocemente array personalizzati Sono costosi 33 Procedura dei microarray I target vengono amplificati, purificati e immobilizzati su dei vetrini, si preparano quindi 2 differenti popolazioni di mRNA e quindi tramite retrotrascrizione si ottengono cDNA marcati con fluorofori. Si fa a questo punto un ibridazione e si fa un’analisi della fluorescenza emessa (usando fluorofori diversi è possibile andare a studiare più genomi (o più campioni di uno stesso organismo ma in tessuti diversi) in un unico esperimento. Occorrono a questo punto diversi passaggi per analizzare i dati: -‐
-‐
-‐
-‐
-‐
Quantificazione dei dati Processamento dei dati Correzione dei segnali di background Normalizzazione dei segnali Soglia di rilevamento Il fatto che sia un metodo basato sul rilevamento di fluorescenza emessa comporta una sensibilità del segnale in uscita molto alta. I dati di un microarray forniscono informazioni su: -‐
-‐
-‐
Livello di espressione dei geni (qualitativo e quantitativo) Pattern di espressione su tutto il genoma Informazioni riguardo processi complessi Presentano tuttavia delle limitazioni: -‐
-‐
-‐
-‐
Occorre una quantità significativa di poliA-‐RNA Fornisce informazioni solo sui livelli dei trascritti e non sul turn-‐over e sintesi delle proteine Cross-‐ibridazione Nella cellula sono presenti regolazioni anche su altri livelli (es: fosforilazioni) Con i microarray è inoltre possibile andare a rilevare variazioni di singoli nucleotidi: i SNPs (Single Nucleotide Polymorphisms), che sono mutazioni puntiformi nel DNA che si creano in maniera casuale. Questi SNPs possono essere utilizzati per determinare la predisposizione genetica verso determinate malattie, per scopi forensi e per studi di genomica (studi per identificare la funzione di un determinato gene, o il gene che codifica per una determinata funzione). Per identificare gli SNPs vengono disegnati due primer specifici per una certa regione e poi si fa un sequenziamento tramite sintesi per confrontare la sequenza di uno stesso gene preso però da cellule diverse. Gli SNP sono utilizzati per diagnosticare un ritardo mentale legato a malformazioni sul cromosoma X, identificate tramite risequenziamento. Si possono così identificare varianti di un gene che si può prevedere darà origine ad una proteina troncata, rendendola non funzionale e causando il ritardo mentale. Furono trovati 9 geni probabilmente coinvolte in questo tipo di ritardo, tuttavia furono trovate anche molte varianti di proteine troncate in individui sani portando ad ipotizzare che si abbia un individuo normale finchè le mutazioni riguardano meno dell’1-‐2% dei geni del cromosoma X. La conferma dei dati ottenuti con i microarray è stata fatta tramite real time PCR con rilevamento in situ; usando livelli soglia di rilevamento per quantizzare il prodotto di PCR ottenuto con ogni ciclo. Inizialmente la PCR ha un andamento di tipo esponenziale, il DNA raddoppia ad ogni ciclo e quindi la quantità di prodotto dipende dalla quantità di DNA stampo presente. Tuttavia la PCR non è efficiente al 100% e quindi la quantità di prodotto non è più P = 2n T, dove T è la quantità di templato; ma diventa: P = T ( 1 + E )n ; dove E indica l’efficienza della PCR ed è solitamente pari a circa 80-‐90% (l’efficienza aumenta al diminuire della lunghezza del prodotto di PCR). Col procedere del tempo si arriva ad un punto in cui la PCR va a plateaux, e non può più produrre nuove copie in 34 quanto limitata da: quantità di primer disponibile, attività della polimerasi, reannililng dei filamenti dei prodotti di PCR. È di fondamentale importanza ovviamente utilizzare i dati derivanti da una fase esponenziale della PCR e misurare il prodotto di PCR ad ogni ciclo utilizzando marcatori fluorescenti, in cui la fluorescenza emessa è proporzionale alla quantità di nucleotidi incorporati. Per quantificare il prodotto di PCR si può: -
-
-
Utilizzare marcatori non specifici: Sybr Green, intercalante equivalente al bromuro di etidio. Usare il Sybr green è facile in quanto non bisogna costruire primer particolari, e non è spcifico, quindi occorre ottimizzare accuratamente la reazione per evitare l’amplificazione di regioni non specifiche. È economico (1$ per reazione di PCR) Utilizzare sonde beacon, che quando non sono allineate a DNA hanno una struttura a stem e loop in modo tale che il fluoroforo sia vicino all’elemento assorbitore, quando la sonda appaia una molecola di DNA, il fluoroforo si trova ad una distanza tale che la radiazione prodotta non viene più assorbita e la radiazione complessiva è proporzionale al numero di sonde appaiate e quindi al numero di prodotti di PCR Utilizzo di sonde Taqman. La sonda si lega al prodotto di PCR mentre questo viene sintetizzato, si attiva quindi la funzione 5’-‐3’ esonucleasica della Taq polimerasi che taglia la sonda in modo tale che il fluoroforo si stacchi dal quencher. Queste sonde sono specifiche per il DNA di interesse e possono rilevare SNP. Sono facili da disegnare utilizzare software di disegno di primer, ma sono costose. WORKING WITH MICROARRAYS I microarrays sono utili per identificare geni di interesse e gruppi di geni che sono co-‐regolati attraverso l’identificazione di elementi all’interno del promotore. Per identificare i geni è sufficiente overesprimere i fattori trascrizionali che li regolano e andare quindi a fare un’analisi di microarray. Questi TF sono proteine che regolano l’espressione genica in tutta la sua complessità, andando ad influenzare tutti i processi all’interno di una cellula, dallo sviluppo, al metabolismo, alla difesa contro patogeni ecc. L’identificazione di un gene di interesse può essere molto semplice, qualora da un segnale si arrivi ad una sola risposta, dovuta all’attivazione del gene di interesse; o molto difficile, nel caso di risposte più complesse che coinvolgono l’attivazione di numerosi geni; per identificare geni di interesse si possono utilizzare sistemi inducibili, come mutanti temperatura sensibili, promotori inducibili o proteine la cui attività può essere indotta. Si possono quindi sfruttare, per esempio, approcci di complementazione di mutanti per ripristinare la funzione mancante, ed analizzare quindi il trascrittoma. L’uso dei mutanti ts si basa sulla perdita di funzionalità dovuta ad una variazione della temperatura, che rende la proteina di interesse inattiva con un meccanismo che è, normalmente, reversibile. Esempi di sistemi che utilizzano i promotori inducibili sono due: -
Alc system: si basa sul fattore trascrizionale AlcR e un promotore inducuibile alcA (indotto da livelli molto bassi di etanolo che non risultano tossici per la cellula e che può essere applicato tramite spray, trattamento delle radici, addizione di etanolo al terreno di crescita o evaporazione). alcR in A. nidulans controlla l’attività di molti geni. In questo sistema si trasformano le cellule con un plasmide codificante per alcR e un altro plasmide contenente un gene d'interesse posto sotto controllo del promotore palcA; se c'è etanolo il gene viene trascritto altrimenti no 35 -
GR system: è un sistema che si trova nelle piante dove GR sono dei recettori glucorticoidi che formano il recettore insieme a un fattore trascrizionale e alla proteina Hsp90. In presenza di steroidi GR e TF si spostano dal citoplasma al nucleo e inducono la trascrizione dei geni di interesse In generale per identificare quali sono i geni bersaglio dei vari fattori di trascrizione si usano tecniche come i microarrays, il SAGE etc etc per verificare che il fattore di trascrizione leghi la regione che regola la trascrizione di un gene si fa un analisi ChiP cioè un'immuno precipitazione della cromatina. Si immobilizzano le proteine che legano il DNA nel momento in cui sono legate ad esso in vivo usando la formaldeide la cromatina viene quindi isolata e frammentata e ci saranno alcuni frammenti di DNA che legano la proteina. Si utilizzano quindi degli anticorpi specifici per queste proteine e isoliamo questi complessi con un'immunoprecipitazione. Separiamo poi il DNA dalle proteine e facciamo una PCR utilizzando dei primer in grado di amplificare le sequenze che vogliamo studiare. Se queste sono precipitate verranno amplificate. Altrimenti possiamo costruire dei chip sui quali poniamo le varie sequenze dei promotori che vogliamo analizzare. Marchiamo i frammenti che otteniamo dall'esperimento ChiP e facciamo avvenire un'ibridizzazione (chip on chip). ChiP sequencing: è un altro metodo utilizzato per analizzare l'interazione di proteine come i TF con il DNA senza però sfruttare la tecnica di ibridizzazione. In questo caso dopo aver fatto l'esperimento di ChiP (cioè dopo aver fatto precipitare la cromatina che lega le proteine e aver isolato i frammneti) i frammenti ottenuti vengono sequenziati. (la maggior parte delle volte per questo tipo di analisi il sequenziamento viene fatto con solexa, in alternativa possono essere usati 454 e SOLiD) Rispetto ai microarrays o al chip on chip questa tecnica è meno laboriosa e meno costosa e inoltre non siamo tenuti a conoscere la sequenza del genoma. Il passo successivo è quello di mappare i frammenti ottenuti sul genoma (dobbiamo avere un genoma di riferimento) e a questo scopo si utilizzano dei programmi specifici (BLAST non va bene perché ci metteremmo troppo tempo dato che otteniamo una gran quantità di frammenti). Questa tecnica sfrutta quindi un approccio bioinformatico: se c'è un mismatch tra la sequenza che otteniamo e quella originale (per esempio a causa di un SNP) possiamo giustificarla, mentre se utilizziamo tecniche che sfruttano l'ibridizzazione le due sequenze non riescono più a ibridizzare. L'aspetto negativo di questa tecnica è che abbiamo bisogno di buoni anticorpi. Molto spesso quelli utilizzati per il western blotting non sono adatti a questi esperimenti perché in questo caso lavoriamo in condizioni native. MICROGENOMICS Si vogliono fare dei profili di espressione relativi a una singola cellula. Inizialmente il problema era relativo alle grandi quantità di mRNA necessarie, ma la tecnologia ha superato questo problema. Le prime tecniche nate sono state quelle di LASER MICRODISSECTION dove ritagliamo una parte di tessuto che poniamo sotto un microscopio, selezioniamo al computer le cellule o la cellula che vogliamo studiare ed il laser taglia via tale cellula che poi possiamo mettere in una provetta e analizzare. Il problema è che è un metodo piuttosto laborioso e che le cellule isolate non sono abbastanza pulite. Tuttavia l'esigenza di poter fare questo tipo di analisi era forte da parte dei ricercatori. Quindi questa tecnica è stata ulteriormente sviluppata e sono nati i sistemi LEICA MICRODISSECTION che taglia via le cellule ottenendo campioni omogenei e puliti. FACS (fluorescence activated cell sorting) è una tecnica che ci permette di isolare cellule che producono proteine diverse e sono quindi fenotipicamente diverse. Inoltre ci permette di sapere quante cellule producono le proteine di nostro interesse. 36 -‐ abbiamo delle cellule in coltura che costringiamo a far passare attraverso un erogatore che fa uscire una goccia per volta, contenente o zero o una singola cellula -‐ se marchiamo le proteine delle cellule di nostro interesse con degli anticorpi specifici possiamo poi andare a separare quali sono le cellule che producono tali proteine (il laser eccita l'anticorpo fluorescente che emette una radiazione specifica) -‐ di fianco all'erogatore è posto un laser che emette luce ogni volta che passa una cellula e ci permette di contare quante cellule abbiamo e possiamo poi raggrupparle in base alla carica SELEX tecnica che ci permette di costruire una libreria di piccoli frammenti di DNA. Si utilizzano delle sequenze casuali che facciamo interagire con una proteina target. Selezioniamo quali frammenti interagiscono con la proteina (per esempio con un'elettroforesi su gel) e ripetiamo l'esperimento 3 o 4 volte per accertarci ci sia davvero interazione. Possiamo quindi poi utilizzare questi frammenti per ricostruire il binding site della proteina. IDENTIFICAZIONE DI PROTEINE TRAMITE SPETTROMETRIA DI MASSA La più usata è la spettrometria MALDI-‐TOF. Frammenti di proteine all’interno di un campione in fase solida vengono ionizzati da un raggio laser La soluzione con l'analita è unita a una matrice che assorbe luce UV ed è applicata a un probe di metallo. La matrice e la soluzione peptidica co-‐
precipitano. Quindi irradiamo con raggi UV che vengono assorbiti dalla matrice che getta i peptidi nel vuoto. Si formano dei peptidi ionici solitamnete per protonazione che vengono accelerati da una differenza di potenziale, che conferisce a tutti i frammneti la stessa en.cinetica. Quindi i vari frammneti vengono separati grazie a un analizzatore a tempo di vole cioè in base al tempo che ci mettono per percorrere un dato spazio. Dal tempo impiegato risaliamo alla massa del frammento stesso. In base ai frammenti ottenuti e alla loro massa possiamo risalire alla proteina utilizzando un database genomico: si fanno digerire al computer tutte le proteine con lo stesso metodo utilizzato in laboratorio. Se non si trova un match potrebbe essere che la proteina è modificata oppure il database non è aggiornato oppure la proteina non è annotata del tutto. Durante la corsa verso il detector i singoli peptidi tendono a rompersi a casua dell'accellerazione ma questo non ci interessa perchè giungono al rilevatore nello stesso istante. TANDEM MS si sfrutta la tendenza dei peptidi di frammentarsi mentre accelerano. (per favorire la frammentazione si aggiungono anche delle celle di collisione). In questo caso i vari frammneti che si ottengono vengono separati grazie al secondo passaggio di spettrometria. Ogni AA ha una massa specifica e la rottura dei peptidi avviene sempre tra un AA e l'altro. Otteniamo in questo modo tutte le possibili combinazioni possibili di frammenti peptidici e conoscendo la massa di ogni soingolo AA e la massa dei vari frammneti possiamo risalire alla seuenza della proteina. Le tecniche di 2D page sono tuttavia molto lunghe e complesse. Sono nati nuovi approcci che non utilizzano i gel – LC/MS multi dimensional è una spettrometria di massa basata sui liquidi e corrisponde alla prima separazione di imensione nel gel 2D. Si fa inizialemente una doppia cromatografia liquida in modo da ridurre la complesità – ICAT (isotope coded affinity tag) si basa sull'espressione differenziale delle proteine: possiamo per esempio marcare un frammento con un isotopo leggero e uno con un isotopo pesante) 37 PROTEOMICA È lo studio delle proteine espresse all’interno di una cellula o di un tessuto, uno dei problemi principali a questo tipo di studi è che non esistono sistemi di amplificazione delle proteine, contrariamente a quanto accade con lo studio di DNA e RNA tramite PCR. Per risolvere questo problema, poiché non si possono amplificare le proteine, si agisce cercando di rendere l’analisi più sensibile (che è l’opposto di quanto avviene nello studio del DNA). Un altro problema legato allo studio di proteine è che queste sono molto più variabili di quanto non siano gli acidi nucleici, che possono subire modificazioni come glicosilazioni e fosforilazioni. I livelli principali di studio del proteoma sono: studio dei profili di espressione, delle modificazioni, del folding, delle interazioni proteina-‐proteina e della localizzazione e trafficking delle proteine. Confrontando i microarray con la proteomica, si nota subito come il primo sia una tecnica relativamente semplice, mentre lo studio del secondo è più complesso. La proteomica è divisa in diverse branchie: strutturale, funzionale, … Il fine ultimo di studi di proteomica è quello di avere una visione di insieme delle caratteristiche e attività di tutte le proteine che vengono sintetizzate in un organismo nell’arco della sua vita. Fino a 15 anni fa i biochimici identificavano 2-‐3 proteine all’anno, ora si è arrivati a centinaia di proteine ogni settimana, ma lo stato della tecnologia è ancora l’elemento limitante degli studi di proteomca. È in fase di dibattito l’avviamento di un progetto per lo studio del proteoma umano che conta diversi milioni di proteine e richiede uno sviluppo tecnologico per arrivare a sistemi automatizzati. Le fasi principali della proteomica sono due: la prima è la separazione delle proteine a cui segue l’identificazione delle proteine. Il trascrittoma contiene le informazioni che codificano per la funzione svolta dalle proteine, ma non mostra qual è questa funzione. Il rapporto tra mRNA e livelli proteici è meno di 0.5 inoltre da un mRNA a seguito di diversa maturazione possono derivare proteine diverse. Le proteine mostrano quindi un quadro più accurato. TECNICHE DI SEPARAZIONE Elettroforesi bidimensionale in gel di poliacrilammide È la tecnica di separazione più utilizzata, le proteine vengono estratte dalle cellule, messe in un gel in polyacrylamide e separate prima in base alla carica (separazione in base al punto isoelettrico, non denaturante) e quindi in base alla massa in SDS-‐PAGE. Una volta separate le proteine, queste vengono colorate, solitamente usando il comassie blue, il silver stain (più sensibile del comassie), dei fluorofori o dei radiolabel (più sensibili in assoluto). Quindi un software riesce ad identificare la proteine contenuta in ogni spot tramite confronto con un database, la tecnica non riesce a rilevare proteine sotto a 1 ng. I gel normali separano fino a 2000 proteine, ma esistono gel ad alte performance che possono separare fino a 11000 proteine. Questa tecnica però presenta diversi problemi, in particolare è necessaria molta pratica in quanto è una tecnica difficile, alcune proteine non possono essere rilevate in quanto proteine idrofobiche, come proteine e recettori di membrana, non dissolvono nei solventi utilizzati per il focusing isoelettrico e lo stesso accade per proteine a peso molecolare molto alto. Inoltre le proteine presenti a livelli bassi (che spesso sono quelle di interesse) vengono mascherate da proteine house keeping molto abbondanti (presenti a livelli 10000 volte maggiori). 38 IDENTIFICAZIONE DI PROTEINE TRAMITE SPETTROMETRIA DI MASSA La più usata è la spettrometria MALDI-‐TOF. Frammenti di proteine all’interno di un campione in fase solida vengono ionizzati da un raggio laser; è una tecnica facilmente automatizzabile ed usata da gran parte dei gruppi accademici. È possibile utilizzare una spettrometria più sofisticata, la spettrometria di massa in tandem, con la quale si ottengono informazioni non solo sul peso molecolare, ma anche sequenziare piccoli pepetidi e predire in quale regione di un gel 2D finirà una proteina di interesse (anche se, talvolta, le proteine possono trovarsi in altre regioni del gel a causa di un processamento). Ci sono due tipi principali di spettrometria di massa: la MALDI (Matrix Assisted Laser Desorption Ionization) e la ESI (ElectroSpray Ionization), quest’ultima tecnica negli ultimi anni sta diventando sempre più diffusa ed utilizzata, ed è in fase liquida. È una tecnica più sensibile ai sali e ai buffer, ma questi possono essere rimossi facilmente con dei pretrattamenti. Può inoltre essere facilmente accoppiata a cromatografie liquide che permettono l’eliminazione di sali e buffer e una parziale separazione. Uno dei vantaggi delle spettrometrie di massa è che fosforilazioni e glicosilazioni non interferiscono. *** STUDIO DELLE INTERAZIONI PROTEINA-‐PROTEINA Le interazioni tra proteine sono molto importanti per studiare la funzione delle proteine nella cellula. Inizialmente si trattava di studi in vitro, ma ora ci sono tecnica che permettono questo tipo di analisi in vivo. Yeast-‐two hybrid Sfrutta il fatto che spesso le proteine si associano a formare complessi multimerici, e in particolare molti fattori di trascrizione formano omodimeri o etero dimeri. Permette di verificare velocemente la presenza di interazioni tra proteine di interesse, in quanto il più delle volte si utilizzano marcatori di resistenza ad antibiotici, in modo tale che le cellule sopravvivano solo se le proteine interagiscono tra loro. Si sfruttano sistemi di complementazione, per esempio: Gal4-‐P è un fattore trascrizionale che lega una sequenza upstream attivativa e così facendo recluta l’RNA polimerasi. I fattori trascrizionali sono composti da un DBD (DNA Binding Domain, es: LexA) e un AD (Activating Domain, es: B42). Si usano ceppi di lievito His-‐, Lys-‐ e Ura-‐ e con il gene His sotto controllo di un fattore trascrizionale esogeno. Il ceppo viene cresciuto su terreno H+, L+, U+. se le proteine interagiscono questo lievito dovrebbe crescere anche su terreno privo di istidina. È possibile fare un esperimento di TH usando come preda una proteina o un’intera libreria. Per clonare un gene di interesse all’interno del plasmide, il vettore e l’inserto vengono digeriti con 2 enzimi di restrizione diversi per poter controllare l’orientamento dell’inserto. Si fa un controllo positivo che serve per testare la presenza di cellule trasformate (per vedere se l’efficienza di trasformazione è sufficiente); nel corso degli anni il TH è stato migliorato significativamente riducendo il numero di falsi positivi e negativi e facendo sì che abbia un basso numero di plasmidi per cellula in modo tale che non si abbiano interazioni false positive dovute all’eccessiva concentrazione di proteine. I falsi positivi possono essere dovuti ai livelli troppo alti delle proteine in analisi, a più copie del gene reporter regolate da promotori diversi o a interazioni tra proteine 39 che in realtà nella cellula wt non verrebbero mai a contatto (perché espresse in organelli diversi, per risolvere questo problema si utilizzano librerie normalizzate); mentre i falsi negativi sono dovuti a errori nel folding di DB-‐X e AD-‐Y, a proteine di fusione tossiche o a geni non presenti nella libreria utilizzata. Inoltre può accadere che due proteine interagiscono attraverso altre proteine che fanno da mediatrici. Avendo una specificità bassa del promotore, si potrebbero avere molti falsi positivi; per aumentare a sensibilità viene quindi posta a monte di HIS3 una regione 3-‐AT, che è un inibitore competitivo del prodotto genico His3, in modo tale che il reporter sia visibile solo se le interazioni sono molto forti. Si può utilizzare inoltre un sistema di selezione basato sul gene ADE, che permette una selezione più sensibile. Cytoplasmatic system: CYTO-‐TRAP Il sistema Gal4 è basato sulla localizzazione all’interno del nucleo e quindi le interazioni tra proteine si hanno nel nucleo. Il cyto-‐trap presenta invece il vantaggio di essere un sistema citoplasmatico non basato sulla trascrizione e quindi immune da auto attivazione. Non si possono quindi avere trans attivazioni, in quanto il sistema è basato sul pathway di risposta SOS. Si utilizzano ceppi CDC25ts incapaci di crescere a 37°C. Questo gene è omologo del SOS (Son Of Sevenless) umano, Guanyl-‐Nucleotide Exchange factor (GEF) che attiva Ras, una G-‐protein associata alla membrana. Le proteine GTP-‐binding vengono attivate quando legano GTP, e quando questo viene idrolizzato a GDP lo liberano e restano inattivate fino a legare una nuova molecola di GTP. La SOS normalmente è localizzata a livello del citoplasma; tuttavia può essere reclutata da dei recettori alla membrana qualora questi vengono attivati dall’azione di proteine contenenti SH2. Vengono quindi trasformati i ceppi con un plasmide pSOS, che sarebbe in grado di complementare il Cdc25ts, ma non viene riconosciuto dai recettori di membrana. La proteina SOS viene quindi fusa con un’altra proteina di interesse ed usata come esca, mentre come preda si utilizza una proteina di membrana (Myr) a cui viene legata la preda; in questo modo se le due proteine interagiscono il mutante vive a 37°C. I ceppi Cdc25ts vengono quindi trasformati con il pSOS e il pMyr, si fa una selezione su glucosio –
Ura e –Leu a 25°C e dopo un replica plate si crescono le cellule su galattosio a 37°C, temperatura alla quale Cdc25 è inattivo e quindi hSOS deve complementare (il galattosio serve a fare sì che la proteina codificata dal pMyr vada nella membrana). A questo punto si va a vedere su quali piastre crescono le colonie: Glucosio Galattosio 25 °C 37 °C 25 °C 37 °C # 1 + -‐ + -‐ # 2 + + + + # 3 + -‐ + + Il patch # 2 rappresenta un falso positivo, in quanto cresce a 37 °C anche su terreno contenente glucosio, quando cioè il pMyr non viene espresso. Three Hybrid È uno screening per cercare proteine che mediano l’interazione tra due proteine di interesse che non interagiscono direttamente tra loro. 40 Reverse Two-‐Hybrid Si utilizzano come reporter dei geni tossici; è una tecnica utilizzata per capire quale parte di una proteina è coinvolta nelle interazioni; vengono fatte delezioni sistematiche nei geni di interesse per capire quale parte è necessaria per le interazioni. One-‐Hybrid Utilizzato per trovare proteine che interagiscono con una certa sequenza di DNA all’interno del promotore, è utile per scoprire quali TF interagiscono con un dato promotore o quali sequenze del promotore sono importanti per l’espressione di YFG. Questa tecnica è limitata dal fatto che molti TF sono etero dimeri e quindi servono più proteine per ottenere un TF funzionale, si possono quindi avere molti falsi negativi. Può essere utilizzato anche come reverse one-‐hybrid, in cui si pone un gene tossico sotto controllo di un promotore riconosciuto da un certo TF, e quindi si fa una mutagenesi per selezionare poi le cellule in cui si ha un TF mutato e che non è più in grado di riconoscere il promotore. Guit-‐by-‐association Dovendo fare uno screening di una libreria Vs. una libreria hanno 60002 interazioni e quindi 36000000 trasformazioni da fare, che comportano la creazione di 12000 vettori. Si può quindi sfruttare questa tecnica basata sul mating. Con un robot si spottano su una piastra di terreno permissivo e su una di terreno selettivo IDENTIFICAZIONE DI INTERATTORI CON UNA PROTEINA DI INTERESSE Molte funzioni all’interno della cellula sono svolte da complessi proteici. Ad esempio certe malattie non sono causate da un unico fattore, ma da più fattori che concorrono. Con GWAS (Genome Wide Association Studying) c’è la possibilità di vedere quali malattie sono associate a quali geni, oppure si può vedere associazione tra proteine e malattie (infatti piccoli cambiamenti, mutazioni in proteine interagiscono con altri cambiamenti, ad esempio in altri geni). Per individuare questi complessi si utilizzano proteine “esca” marcate; metodi: -
Fusione della proteina con la TAP-‐tag Introduzione della proteina marcata nella cellula o organismo ospite Ottenimento degli estratti cellulari Purificazione della proteina di interesse+complesso proteico Separazione della proteina in SDS-‐PAGE Spettrometria di massa per identificare le proteine presenti nel complesso TAP-‐Tagging (tandem affinity purification) È il sistema di purificazione più efficiente. A monte del gene YFG viene inserito il gene TAP, che è un gene composto di tre parti: ZZ, Tev, CBP; ottenendo il prodotto genico: -‐[ZZ][TEV][CBP][YFG]-‐ ZZ: è la parte di proteina A che riconosce la sezione costante delle immunoglobuline (ha quindi affinità per le immunoglobuline) TEV: è un sito di taglio per una proteasi sequenza-‐specifica CBP: ha affinità per la camglobulina Esprimendo TAP nelle cellule, si ottiene la proteina di fusione TAP-‐YFP. La porzione YFP è ancora una proteina funzionale e avrà quindi interazioni normali dando così un certo numero di complessi 41 (per essere sicuri che la proteina è funzionale, ad es, la si introduce in un mutante e si vede se complementa (se complementa è biologicamente attiva). Quello che spesso purtroppo può succedere è che il TAG venga proteolizzato, quindi quando si fa il test di complementazione bisogna controllare che il TAG sia ancora legato alla proteina). Si fanno crescere le cellule e si estraggono le proteine, purificando quindi con due passaggi per isolare TAP-‐YFP. Si prende l’estratto e si fa passare sulla colonna con sefarosio-‐immunoglobulina (non importa quale immunoglobulina sia legata al sefarosio in quanto ZZ riconosce la porzione costante) in modo tale che la proteina di fusione e i suoi interattori restino in colonna mentre le proteine aspecifiche vengano eluite. Poiché con un solo passaggio non si ottengono livelli di purificazione abbastanza elevati si procede ad una nuova purificazione. Per staccare la proteina dalle colonne si sfrutta la sequenza TEV, aggiungendo la proteasi TEV che riconosce il sito di taglio; in questo modo ZZ resta sulla resina, ma CBP-‐YFP e gli interattori vengono eluiti (si usa una proteasi perché, per staccare la zz dalle immunoglobuline occorrerebbe usare NaCl che però staccherebbe gli interattori dalla YFP) Si ha così la proteina solubile e si aggiunge una resina di camglobulina-‐sefarosio e Ca+ (il calcio serve per l’interazione tra CBP e camglobulina. Si eluisce la colonna e si stacca il CBP dalla resina (basta aggiungere EGTA, un agente chelante che sequestra il calcio) e la proteina viene eluita. Si prende la proteina e si analizza per SDS-‐PAGE. A questo punto si fa un controllo con solo TAP o TAP-‐proteina non correlata. Vantaggi: -
Si ottiene un risultato molto pulito Si può partire da volumi elevati Non si basa su un anticorpo (a differenza della co-‐immunoprecipitazione; è un vantaggio perché, sebbene l’anticorpo riconosca l’epitopo meglio di quanto la zz riconosce l’immunoglobuilna, può capitare che l’epitopo si trovi in una porzione della proteina non raggiungibile, o che sia coperto da un interattore, rendendolo invisibile all’anticorpo) Avendo purificato grandi quantità di proteina, facendo l’SDS page e colorando il gel con silverstain (un colorante molto sensibile) si ottengono tante bande distinte, una per ogni interattore di YFP e quindi è possibile usare questa tecnica anche per trovare nuovi interattori. Viene fatto un controllo; tutte le bande presenti nel TAP-‐YFP e non presenti nel controllo sono probabili interattori. A questo punto si identificano le proteine trovate tramite spettrometria di massa MALDI-‐TOF. Con questo metodo si trovano tutte le proteine che interagiscono con la proteina target che porta il TAG, ma non è detto che si riesca a trovare il complesso di interesse in cui agisce. Inoltre non è facile distinguere complessi tessuto-‐specifici. [Con questo metodo è stato messo a punto il modello del sistema di poliadenilazione (validazione della composizione del complesso tramite Reverse Purification).] Nelle piante invece (ad es in Arabidopsis) non è presente ricombinazione, quindi o si overesprime la proteina di fusione o la si esprime sotto un proprio promotore ma in un background mutato (in un mutante cioè). Per produrla in grandi quantità sono necessarie grandi quantità di tessuto e che la proteina venga espressa in modo specifico in quel tessuto. Ciò rende il metodo più difficoltoso nelle piante. 42 HMS-‐PCI è un metodo di identificazione dei complessi proteici high-‐throughput che si basa sull’overespressione di una proteina legata a un epitopo, immunoprecipitazione tramite anticorpi, SDS PAGE e analisi MS delle proteine. L’immunoprecipitazione è una tecnica di purificazione meno pulita del TAP tag e un altro aspetto poco approvabile di questo metodo è l’overespressione (utile mantenere livelli naturali di espressione). Come detto il tap-‐tagging non può essere utilizzato nelle piante e sono quindi stati utilizzati altri sistemi di studio di complessi proteici: FRET (Fluorescence Resonance Energy Transfer) La luce ad una certa frequenza attiva la proteina donatore CFP (Cyan Fluorescent Protein): essa assorbe la luce e la riemette con una certa frequenza (nel blu), diversa da quella assorbita. L’onda riemessa può essere catturata da una proteina accettore YFP (Yellow Fluorescence Protein) nelle vicinanze che assorbendola emettere fluorescenza gialla. Sono state create delle proteine di fusione CFP-‐X e Y-‐YFP: se c’è interazione tra le proteine X e Y, si ha emissione di radiazione da parte di YFP (nel giallo), altrimenti si ha emissione di radiazione da parte di CFP (nel blu). Nelle piante la lunghezza d’onda con cui si fa l’esperimento di interazione tra le proteine di fusione è nell’ UV (usato laser UV). SPIM (Spectral Imaging) Si riportano sullo stesso grafico gli spettri di assorbimento e di emissione di CFP e YFP. Ad es con luce laser a 420 nm, si attiva la CFP (e non la YFP). La luce emessa da CFP, a una lunghezza d’onda maggiore, viene assorbita dalla YFP e questo si vede dal fatto che i 2 spettri (quello di emissione di CFP e di assorbimento di YFP) si sovrappongono. FLIM (Fluorescence Lifetime Imaging) È un metodo per misurare FRET, solo che questo è un metodo quantitativo, FRET è qualitativo (luce emessa da CFP o da YFP). Quando di fornisce energia luminosa, gli elettroni delle proteine vengono eccitati a un livello superiore di energia e “rilassandosi” a livelli inferiori di energia emettono radiazioni di una certa energia. Questo metodo misura il tempo in ns (nanosecondi) di emissione, cioè quanto tempo trascorre dalla somministrazione dell’impulso luminoso alla riemissione (se avviene). FRET si basava su fluorescenza visibile, dovuta a grandi quantità di proteine CFP e YFP usate (indagine basata sulla lunghezza d’onda riemessa, quella di CFP o quella di YFP: dettava presenza o meno di interazione). FLIM è una tecnica molto più sensibile, bastano pochi fotoni riemessi per avere quantizzazione. Dal tempo di emissione si capisce se si ha o meno interazione: se si ha interazione il tempo di emissione è più breve (ma non si sa perché). CLM (Microscopia Confocale) Usata per vedere se le MADS-‐box sono situate nel nucleo. Le MADS-‐box sono dei fattori di trascrizione e nell’esempio vengono presi in esame le proteine di fusione FBP11-‐CFP e FBP2-‐YFP: si può così vedere dove e quando vengono espressi se si ha fluorescenza (e di che tipo). Per la localizzazione di 2 proteine che interagiscono, con il saggio del doppio ibrido si può capire solo se interagiscono, non dove. Ad es 2 proteine possono interagire in vitro ma in vivo in realtà si trovano in tessuti o zone della cellula diverse per cui in realtà non interagiscono. Il profilo di espressione può ingannare: interazione con altra proteina porta invece a certa localizzazione. 43 FRET e FLIM si possono combinare. FRAP e FLIP sono 2 tecniche basate sempre sull’emissione di fluorescenza: la prima consiste nel irradiare una zona della cellula e monitorare la quantità di fluorescenza che si sviluppa; la seconda consiste nell’irradiazione di una zona della cellula e il monitoraggio di un’altra parte, di un’altra zona della cellula per vedere se la proteina si muove. SPLIT YFP, detta anche BiFC (Bimolecular Fluorescence complementation) È una tecnica molto elegante e semplice per i macchinari usati, più delle tecniche precedenti. È usata per osservare l’interazione delle proteine nelle cellule viventi. Si usano delle proteine di fusione che sviluppano fluorescenza: con microscopio confocale si vede se, dove e quando 2 proteine interagiscono in una cellula. Uno svantaggio è che si tratta di un sistema non molto dinamico: se 2 proteine entrano in contatto, indipendentemente dal grado di affinità che hanno non riusciranno più a staccarsi. 44