Caccia al gene della Fibrosi Cistica Scenario e simulazione di consulenza genetica Siete un genetista medico e lavorate in un consultorio genetico. Si presenta da voi una coppia che richiede consulenza genetica. In base al racconto della storia familiare, costruite il pedigree della famiglia e impostate l’analisi del DNA da richiedere al laboratorio per rispondere alle domande poste dalla coppia. In consultorio si presenta una giovane coppia (Davide e Sofia). Hanno 2 figli, Pietro di 6 anni sano, e Maria, di 4 anni, che soffre spesso di tosse, raffreddore e infezioni polmonari. Sofia racconta che una sua sorella maggiore è morta giovane di fibrosi cistica (FC), mentre nella famiglia di Davide non ci sono casi di malattia. Sofia è in attesa di un terzo figlio (è alla fine della sesta settimana di gravidanza) e vorrebbe informazioni sul rischio di avere un figlio affettto da FC. Viene suggerito alla coppia di sottoporre Maria al test del sudore per stabilire il livello di ioni Na+ e Cl-, un test semplice di valore diagnostico per la FC, e di ritornare con i risultati delle analisi. Con i dati a vostra disposizione in questo momento costruite l’albero genealogico di questa famiglia e rispondete alle seguenti domande: ! • • • • quale è il rischio che Sofia sia portatrice di FC? quale è il rischio che Davide sia portatore di FC? quale è il rischio che il nascituro sia affetto da FC? che probabilità ha il nascituro di essere sano? Di essere portatore? Il test del sudore conferma la diagnosi di fibrosi cistica (livello di Na+ di 87 nmol/l, molto superiore al valore normale di 60 nmol/l). In base a questa nuova informazione, rispondete nuovamente alle domande: ! • • • • quale è il rischio che Sofia sia portatrice di FC? quale è il rischio che Davide sia portatore di FC? quale è il rischio che il nascituro sia affetto da FC? che probabilità ha il nascituro di essere sano? Di essere portatore? La FC è sempre causata da mutazioni del gene CFTR sul cromosoma 7. La malattia è recessiva e quindi se Maria è malata, devono essere mutate entrambe le copie del suo gene CFTR. NB: Le due mutazioni possono essere uguali o diverse. A questo punto il genetista suggerisce di accertare, mediante analisi del DNA, quali sono le mutazioni presenti in Maria e nei suoi genitori. Sofia deve inoltre sottoporsi ad 1 amniocentesi, per determinare, attraverso l’analisi del DNA, il genotipo del nascituro. In prima battuta, per la diagnosi genetica di fibrosi cistica si usano le tecniche che ricercano le mutazioni più frequenti del gene CFTR (vedi tabella). Soluzioni di DNA, estratto dalle cellule del paziente, sono messe su un filtro in punti definiti (dots) e, una volta denaturate, sono ibridizzate con sonde specifiche per le mutazioni frequenti, opportunamente marcate. Dopo lavaggio, per eliminare la sonda in eccesso non legata, si procede alla rilevazione per identificare quale delle sonde si è ibridata con il DNA in esame. Tab.1 Mutazioni più frequenti nel gene CFTR; p e c indicano rispettivamente che la mutazione è descritta nella proteina o nel cDNA; > significa “cambia in”, X significa un codone di stop; +1 significa che è coinvolto il primo nucleotide dell’introne successivo all’esone che termina con il nucleotide indicato dal numero che precede il segno +. Risultati del Dot Blot. I tre campioni di DNA (dei genitori e di Maria) ibridano con la stessa sonda; Il DNA dei genitori ibrida anche con la sonda di controllo (gene wild type); Il DNA di Maria non ibrida con la sonda di controllo; Il DNA del feto (ottenuto in seguito ad amniocentesi) ibrida con una sonda specifica (la stessa dei genitori e di Maria) e con la sonda di controllo. ! • • • Quale è il genotipo dei genitori? Quale è il genotipo di Maria? Quale è il genotipo del feto? 2 Scheda: la Fibrosi Cistica (CF) La fibrosi cistica è una malattia ereditaria, autosomica recessiva che interessa molteplici funzioni, dalla respirazione, alla funzione digestiva, a quella riproduttiva; interessa sia maschi che femmine ed è caratterizzata da un’anomala regolazione del trasporto degli elettroliti da parte degli epiteli e quindi da una conseguente alterazione della secrezione delle ghiandole esocrine. È la malattia ereditaria più comune nella popolazione caucasica di razza bianca con una incidenza di circa 1/2500-3500 individui. La frequenza dell’eterozigote è di 1/25-30. È causata da mutazioni nel gene che codifica per una proteina chiamata: cystic fibrosis transmembrane regulator (CFTR), che regola la secrezione di cloro, sodio, bicarbonato nei tessuti epiteliali (spesso nella fibrosi cistica si ha la completa perdita di funzione del canale del cloro che causa la presenza di secrezioni disidratate). Questo porta alla presenza di muco denso nei bronchi, all’ispessimento del succo pancreatico e ai caratteristici elevati livelli di cloro nel sudore. Il gene si trova sul cromosoma 7, nella posizione 7q31.2, è molto grande costituito da 27 esoni sparsi su 1888 kb del cromosoma 7 (Fig2). Le mutazioni che causano la fibrosi cistica sono più di 1000 e possono trovarsi in qualunque punto del gene; tutte le mutazioni sono cambiamenti di un singolo nucleotide o di un piccolo numero di nucleotidi adiacenti. Fig.1. Il gene della CF; la proteina CFTR è localizzata nella membrana plasmatica della cellula e regola il movimento degli ioni cloro tra I due lati della membrana. Nella maggior parte dei casi di CF la proteina è priva della regione 1 di legame. Sebbene nei pazienti affetti da fibrosi cistica siano state descritte più di 1000 mutazioni nel gene CFTR, il numero delle mutazioni più comuni e diffuso nella popolazione è piuttosto basso. La mutazione p.F508del è la più comune nella popolazione nordeuropea e costituisce il 70/80% di tutte le mutazioni della fibrosi cistica in molte popolazioni. Come abbiamo detto, la malattia è autosomica recessiva e quindi un soggetto malato ha entrambe le copie del suo gene CFTR mutate. Le due mutazioni possono essere uguali o diverse. Le diverse mutazioni descritte nel gene CFTR provocano effetti diversi sul funzionamento della proteina. Alcune Fig. 2. Posizione del gene CFTR sul cromosoma 7. Nucleotidi e amminoacidi coinvolti nella mutazione ΔF508 (F508 del) 3 bloccano prematuramente la sintesi della proteina, altre influiscono sul suo processamento, sulla regolazione o la funzionalità (Fig. 4). Per questo motivo, gli effetti della mutazione possono essere di gravità diversa. Sono allo studio strategie per modificare o attenuare gli effetti delle mutazioni più frequenti (dalle terapie più convenzionali alla terapia genica). Fig. 3. Gli apparati corporei colpiti dalla CF. In tutti gli individui colpiti, le ghiandole sudoripare producono un eccesso di sale. Il muco inspessito blocca il trasporto degli enzimi digestivi nel pancreas e il pancreas lentamente si distrugge. Il muco denso e vischioso congestiona i condotti respiratori rendendo difficile la respirazione. Nei maschi il muco blocca i dotti che portano lo sperma e solo il 2-3% dei maschi colpiti è fertile. Fig. 4. Alcune mutazioni e i loro effetti sulla funzionalità della proteina CFTR. 4 Identificazione della mutazione presente nella famiglia in esame Sequenza della sonda che ibrida con il DNA dei membri della famiglia esaminati: 5’- CACCATTAAAGAAAATATCATCGGTGTTTCCTATGATGA -3’ Iniziate la vostra ricerca al sito del National Center for Biotechnology Information (NCBI) http://www.ncbi.nlm.nih.gov/ Nella home page del sito della NCBI scegliete la voce BLAST (sulla barra verticale nella parte destra della pagina). BLAST (Basic Local Alignment Search Tool) è un programma euristico per la ricerca di omologie locali di sequenza, dove con euristica si intende “ogni principio o espediente che contribuisca a ridurre la quantità di ricerca media necessaria per la soluzione di un problema”. Il software BLAST in realtà è composto da diversi algoritmi che consentono di allineare non solo sequenze nucleotidiche con sequenze nucleotidiche, ma anche sequenze proteiche fra di loro, sequenze nucleotidiche con sequenze proteiche e viceversa, ovviamente utilizzando le regole del codice genetico per passare dalle sequenze nucleotidiche a quelle aminoacidiche. Nella pagina seguente, fra le opzioni Basic Blast, scegliete nucleotide blast. 5 Vi apparirà una schermata con un campo vuoto (search) dove è possibile “incollare” la sequenza che si intende confrontare con la banca dati. Incollate nel campo “search” la sequenza della sonda che vi è stata data. In ”Choose search set, scegliete il Database “Human genomic + transcript”, per cercare un allineamento solo con le sequenze depositate umane. In molti casi potreste preferire il Database “Others” e le sequenze non ridondanti (nr) di tutti gli organismi; in realtà questa è solo una definizione “storica” in quanto oggi molte delle informazioni contenute nei Database sono ridondanti. Ognuna delle voci sottolineate è un hyperlink che vi rimanda ad una breve definizione del campo in questione. Potete quindi ottenere ulteriori spiegazioni cliccando le varie voci. Per semplicità utilizziamo un’analisi standard senza utilizzare le opzioni di ricerca avanzate. Una volta incollata la vostra sequenza, cliccate sul tasto “BLAST!”. Identificazione della sequenza con il miglior punteggio di allineamento La pagina dei risultati è divisa in cinque parti. La prima parte fornisce informazioni: • sul database BLASTN; • sulla sequenza in esame, chiamata “query” di cui fornisce la lunghezza in basi (letters). 6 La seconda parte è una rappresentazione grafica delle sequenze che hanno ottenuto i migliori punteggi nell’allineamento con la sequenza “query”: • la linea rossa spessa rappresenta la sequenza “query”; • i numeri sotto di essa si riferiscono alla lunghezza in basi; ciascuna delle linee sottili sottostanti, di diverso colore, indica un allineamento della suddetta sequenza con una sequenza del database nucleotidico; il codice dei colori impiegato nel rappresentare le sequenze riflette il punteggio ottenuto nell’allineamento che dipende a sua volta dalla percentuale di identità calcolata fra le due sequenze. Se provate a passare con il puntatore sui diversi segmenti colorati vedrete che compariranno il nome e il numero di accesso della sequenza corrispondente; se provate a cliccare su uno dei segmenti verrete portati all’allineamento di sequenza corrispondente. La terza parte, al di sotto dello schema grafico, consiste nell’elenco delle sequenze nucleotidiche del database più simili alla sequenza query, ordinate per significatività dell’allineamento; vengono, cioè, calcolati dal software un punteggio (score) e un valore di significatività statistica (E) che indica la probabilità di ottenere un allineamento come quello identificato, solo per caso o confrontando due sequenze non correlate. Più piccolo il valore di “E”, tanto più l’allineamento sarà significativo. La quarta parte (Alignments) visualizza gli allineamenti significativi della sequenza "query" con le sequenze, identificate come più simili all’interno del database (sequenze “subject”). Per ciascun allineamento sono indicate le seguenti proprietà: 7 • • • • • Score, cioè il punteggio dell'allineamento; Expect, corrispondente di “E value” nell'allineamento; Identities che indica il rapporto tra il numero di basi identiche (nell'esempio sono 38/41) e la lunghezza dell'allineamento in questione; tra parentesi è indicata la risultante percentuale di identità fra le due sequenze nella regione allineata; Gaps indica il rapporto tra il numero di interruzioni presenti nell'allineamento (nell'esempio 3) e la lunghezza dell'allineamento in questione; tra parentesi è indicata la percentuale totale di gap (nell'esempio è lo 7%); Strand indica l'orientamento della sequenza "query" rispetto alla sequenza del database con cui si allinea (Plus/Plus significa che la sequenza “query” ha lo stesso orientamento di quella presente nel database, invece, Plus/Minus indica che le due sequenze hanno orientamento opposto). Segue l'allineamento vero e proprio tra la sequenza "query" e la sequenza del database in questione, denominata " sbjct". I numeri indicano la posizione delle basi all'interno delle rispettive sequenze e quando, in una data posizione dell'allineamento, la base della sequenza "query" e quella del database coincidono. compare tra le due righe il carattere "|". Quando tale carattere non è presente significa che, in quella posizione dell'allineamento, la base nella sequenza "query" non corrisponde della sequenza del database sono diverse oppure che una delle due sequenze presenta un gap, come risulta dall’analisi degli allineamenti caratterizzati da basse percentuali di identità. ! Avete identificato di che mutazione si tratta? Alla scoperta del gene della Fibrosi Cistica Cliccate sul link corrispondente a NM_000492.3 e si aprirà una pagina della banca dati contenente le informazioni relative alla sequenza che avete scelto. La pagina è strutturata secondo uno schema fisso che prevede diverse voci (LOCUS, DEFINITION, ACCESSION ecc). Nella pagina sono presenti anche informazioni sugli articoli scientifici relativi alla sequenza stessa (REFERENCE), nonché le FEATURES ovvero una serie di informazioni sui principali elementi di sequenza con significato funzionale noto (predetto o dimostrato sperimentalmente). Trova il numero identificativo della proteina prodotta dal gene (NP_000483), e copia la sua sequenza di amminoacidi, salvandola in un nuovo file di testo dal nome CFTRprot.doc. Prendi nota del numero di amminoacidi che costituiscono la proteina normale. 8 Tornate in alto nella pagina e cliccate la voce FASTA per ottenere la sequenza del cDNA per il gene CFTR. Nella pagina web che si è aperta, trovate tutta la sequenza nucleotidica del cDNA, nel formato utilizzabile per proseguire la vostra ricerca. Salvate la sequenza di basi su un file di testo con il nome cDNA FASTA.doc. Adesso che hai la sequenza codificante completa (cDNA) del gene CFTR puoi cercarne la sequenza genomica usando il software BLAT (BLAST-Like Alignment Tool), un algoritmo ottimizzato per confrontare sequenze di cDNA (prive di introni) con intere sequenze genomiche (che contengono introni) e che consente di identificare la struttura in esoni ed introni del gene genomico. 9 Vai alla pagina http://genome.ucsc.edu/cgi-bin/hgBlat?db=mm2 ed incolla la sequenza di cDNA nella finestra di BLAT. Clicca submit e quando comparirà la nuova pagina clicca su details alla sinistra del primo record in elenco (score 6106, size in nucleotides 6172, 100% identity). Il gene si trova sul cromosoma 7. Clicca su details alla prima voce. Nella pagina che si apre troverai la tua sequenza di cDNA, la sequenza di DNA genomico nella quale sono evidenziati in blu scuro e con le lettere maiuscole gli esoni, in nero e con le lettere minuscole gli introni e in azzurro i siti di splicing. Clicca sui links, nella colonna di sinistra, per navigare nella sequenza. Cliccando sui vari blocchi, ti appare ad inizio pagina l’esone corrispondente nella sequenza genomica; noterai che ci sono 27 esoni nel gene CFTR. 10 Traduzione del cDNA Ora impariamo a usare un nuovo software per tradurre la sequenza di cDNA in sequenza di amminoacidi, vai al sito http://star.mit.edu/orf/ Questo software cerca le ORF (Open Reading Frame) all’interno di una sequenza di cDNA. Clicca sul bottone START Start StarORF application (HTML version) e incolla la sequenza del cDNA nella finestra Input Sequence. (Probabilmente nella finestra c’è già una sequenza. Sostituiscila con la sequenza del cDNA CF). Clicca sul tasto Calculate all ORFs. Otterrai una immagine che è il risultato della traduzione della sequenza nelle 6 possibili cornici di lettura (3 per ogni elica di DNA): in viola sono rappresentati i possibili codoni di inizio e in rosso i codoni di stop. Identifica la cornice di lettura detta anche “Open Reading Frame o ORF” più lunga, senza interruzioni dovute a codoni di stop. Puoi facilmente personalizzare l’interfaccia del software scegliendo di visualizzare la sequenza amminoacidica con il codice a una o a tre lettere, con o senza la sequenza di DNA appaiata. Scegli 3 letter code. Nel nostro caso la ORF più lunga è forward frame 1. Localizzazione delle caratteristiche principali del cDNA Ora puoi localizzare le principali caratteristiche del cDNA/mRNA, per esempio: • 5’UTR (5’ UnTranslated Region) • start codon (inizio della traduzione, ATG (AUG) il codone della metionina) • CDS (CoDing Sequence) • stop codon (fine della traduzione, TAA (UAA)/ TAG (UAG) / TGA (UGA) • 3’UTR (3’ UnTranslated Region) • sito polyA (sito di poliadenilazione) costituito dalle sequenze consenso AAUAAA o UAUAAA. Identifica tutti gli elementi sopra elencati e prendi nota della loro posizione. Iniziando dall’estremità 5’ della molecola, trova il codone d’inizio cioè il primo ATG, che corrisponde alla prima metionina (Met), in posizione 132. Una volta identificato il codone di inizio, la sequenza che lo precede è la regione 5’UTR, non tradotta dai 11 ribosomi in proteina. Analogamente, trovato il codone di stop (UAG) la regione che lo segue è la 3’UTR. La CDS (la sequenza tradotta in proteina) si estende dal nucleotide 132 al 4572 Identifica anche il segnale di poliadenilazione, la sequenza a valle della quale si interrompe la trascrizione e a cui viene aggiunta la coda di polyA (parte dalla posizione 5770). Visualizzazione della struttura 3D della proteina CF e confronto tra la proteina sana e quella mutata (del F508). Le strutture tridimensionali (3D) delle proteine possono essere determinate con una serie di approcci sperimentali, fra i quali i più utilizzati e in grado di fornire le informazioni più dettagliate sono la cristallografia ai raggi X e la risonanza magnetica nucleare. E’ inoltre possibile effettuare delle previsioni di struttura per proteine che mostrino un sufficiente livello di identità di sequenza con proteine la cui struttura sia stata determinata sperimentalmente. Questo tipo di analisi è ovviamente molto meno accurato ma può fornire informazioni molto importanti sulla struttura e sulla funzione di una proteina. Le coordinate tridimensionali di ogni singolo atomo vengono scritte in un file che è poi possibile visualizzare mediante diversi software. In particolare noi utilizzeremo la App iMolView. I file contenenti le coordinate molecolari delle molecole la cui struttura 3D è già stata risolta sono raccolti (in diversi formati utilizzabili con diversi tipi di software) in un database chiamato PDB (“Protein Data Bank”). Caricate il file (con estensione “.pdb” o “.ent”) contenente la struttura 3D della proteina in esame, riferimento 2BBO (aa 389-678, corrispondente al dominio funzionale NBD1 della proteina). Utilizzando il software iMolView, imparerete a: • Osservare la struttura terziaria della proteina, identificare domini e strutture secondarie • Familiarizzare con le diverse visualizzazioni: ribbon diagram, backbone e sidechains • Identificare, all’interno della struttura, i residui eventualmente interessati da mutazioni patologiche (es: F508del) • Confrontare le strutture 3D della proteina sana e di quella mutata. Il Menu (in alto a destra) dà accesso ai più comuni strumenti utili per manipolare la proteina mentre la finestra posta in basso mostra la sequenza della proteina. Manipolazione della proteina Potete portare la proteina al centro dello schermo, trascinare, zoomare e ruotare la proteina. Le icone del terzo gruppo, poste a destra,permettono di compiere alcune operazioni di 12 Potete selezionare uno o più residui amminoacidici del modello evidenziando i singoli aminoacidi nella sequenza. Poi accedete al menu, cliccate sul bastoncino rosso-blu e, selezionando il colore (color select), attribuite un colore ai residui selezionati. Provate a selezionare, nella sequenza, gli aminoacidi 507 (isoleucina), 508 (fenilalanina) e 509 (glicina) e colorateli in blu. Per confrontare la struttura della proteina CFTR sana con la proteina che presenta la delezione della fenilalanina nella posizione 508, aprite il file 1XMJ.pdb (delezione della Phe 508); compaiono le due proteine sullo schermo, vi accorgerete che nella sequenza 1XMJ manca la fenilalanina. Selezionate, nella sequenza, gli aminoacidi 507 (isoleucina), e 509 (glicina) e colorateli in viola. In basso a destra vedete l’elenco delle proteine caricate e potete attivare l’una o l’altra. Cliccando sull’icona in basso a sinistra (che simboleggia la sovrapposizione) le due strutture si sovrappongono. Noterete che la struttura 3D della proteina mutata si sovrappone quasi completamente alla struttura della proteina normale. 13 Come già detto nella Fig. 4 della scheda, la mutazione F508del causa il mancato processamento a livello del reticolo endoplasmico della proteina CFTR. La proteina non raggiunge la membrana non perché la sua struttura è drasticamente alterata dalla mutazione, ma in quanto la maturazione post-traduzionale della proteina non può essere completata a causa della mancanza di un segnale specifico in cui è coinvolta la F508. La proteina con la delezione F508 non supera il severo controllo di qualità a cui sono sottoposte tutte le proteine a livello del reticolo endoplasmico; di conseguenza, viene trasportata ai proteasomi dove viene degradata. 14