Bioinformatica

Caccia al gene della Fibrosi Cistica
Scenario e simulazione di consulenza genetica
Siete un genetista medico e lavorate in un consultorio genetico. Si presenta da voi una
coppia che richiede consulenza genetica. In base al racconto della storia familiare,
costruite il pedigree della famiglia e impostate l’analisi del DNA da richiedere al
laboratorio per rispondere alle domande poste dalla coppia.
In consultorio si presenta una giovane coppia (Davide e Sofia). Hanno 2 figli, Pietro di 6
anni sano, e Maria, di 4 anni, che soffre spesso di tosse, raffreddore e infezioni
polmonari. Sofia racconta che una sua sorella maggiore è morta giovane di fibrosi cistica
(FC), mentre nella famiglia di Davide non ci sono casi di malattia. Sofia è in attesa di un
terzo figlio (è alla fine della sesta settimana di gravidanza) e vorrebbe informazioni sul
rischio di avere un figlio affettto da FC.
Viene suggerito alla coppia di sottoporre Maria al test del sudore per stabilire il livello di
ioni Na+ e Cl-, un test semplice di valore diagnostico per la FC, e di ritornare con i
risultati delle analisi.
Con i dati a vostra disposizione in questo momento costruite l’albero genealogico di
questa famiglia e rispondete alle seguenti domande:
!
•
•
•
•
quale è il rischio che Sofia sia portatrice di FC?
quale è il rischio che Davide sia portatore di FC?
quale è il rischio che il nascituro sia affetto da FC?
che probabilità ha il nascituro di essere sano? Di essere portatore?
Il test del sudore conferma la diagnosi di fibrosi cistica (livello di Na+ di 87 nmol/l,
molto superiore al valore normale di 60 nmol/l). In base a questa nuova informazione,
rispondete nuovamente alle domande:
!
•
•
•
•
quale è il rischio che Sofia sia portatrice di FC?
quale è il rischio che Davide sia portatore di FC?
quale è il rischio che il nascituro sia affetto da FC?
che probabilità ha il nascituro di essere sano? Di essere portatore?
La FC è sempre causata da mutazioni del gene CFTR sul cromosoma 7. La malattia è
recessiva e quindi se Maria è malata, devono essere mutate entrambe le copie del suo
gene CFTR. NB: Le due mutazioni possono essere uguali o diverse.
A questo punto il genetista suggerisce di accertare, mediante analisi del DNA, quali sono
le mutazioni presenti in Maria e nei suoi genitori. Sofia deve inoltre sottoporsi ad
1
amniocentesi, per determinare, attraverso l’analisi del
DNA, il genotipo del nascituro.
In prima battuta, per la diagnosi genetica di fibrosi
cistica si usano le tecniche che ricercano le mutazioni
più frequenti del gene CFTR (vedi tabella). Soluzioni
di DNA, estratto dalle cellule del paziente, sono messe
su un filtro in punti definiti (dots) e, una volta
denaturate, sono ibridizzate con sonde specifiche per le
mutazioni frequenti, opportunamente marcate. Dopo
lavaggio, per eliminare la sonda in eccesso non legata,
si procede alla rilevazione per identificare quale delle sonde si è ibridata con il DNA in
esame.
Tab.1 Mutazioni più frequenti nel gene CFTR; p e
c indicano rispettivamente che la mutazione è
descritta nella proteina o nel cDNA; > significa
“cambia in”, X significa un codone di stop; +1
significa che è coinvolto il primo nucleotide
dell’introne successivo all’esone che termina con il
nucleotide indicato dal numero che precede il
segno +.
Risultati del Dot Blot.
I tre campioni di DNA (dei genitori e
di Maria) ibridano con la stessa
sonda;
Il DNA dei genitori ibrida anche con
la sonda di controllo (gene wild
type);
Il DNA di Maria non ibrida con la
sonda di controllo;
Il DNA del feto (ottenuto in seguito ad amniocentesi) ibrida con una sonda specifica (la
stessa dei genitori e di Maria) e con la sonda di controllo.
!
•
•
•
Quale è il genotipo dei genitori?
Quale è il genotipo di Maria?
Quale è il genotipo del feto?
2
Scheda: la Fibrosi Cistica (CF)
La fibrosi cistica è una malattia ereditaria, autosomica recessiva che interessa molteplici
funzioni, dalla respirazione, alla funzione digestiva, a quella riproduttiva; interessa sia
maschi che femmine ed è caratterizzata da un’anomala regolazione del trasporto degli
elettroliti da parte degli epiteli e quindi da una conseguente alterazione della secrezione
delle ghiandole esocrine.
È la malattia ereditaria più comune nella popolazione caucasica di razza bianca con una
incidenza di circa 1/2500-3500 individui. La frequenza dell’eterozigote è di 1/25-30.
È causata da mutazioni nel gene che codifica per una proteina chiamata: cystic fibrosis
transmembrane regulator (CFTR), che regola la secrezione di cloro, sodio, bicarbonato
nei tessuti epiteliali (spesso nella fibrosi cistica si ha la completa perdita di funzione del
canale del cloro che causa la presenza di secrezioni disidratate). Questo porta alla
presenza di muco denso nei bronchi, all’ispessimento del succo pancreatico e ai
caratteristici elevati livelli di cloro nel sudore.
Il gene si trova sul cromosoma 7, nella
posizione 7q31.2, è molto grande costituito
da 27 esoni sparsi su 1888 kb del
cromosoma 7 (Fig2). Le mutazioni che
causano la fibrosi cistica sono più di 1000 e
possono trovarsi in qualunque punto del
gene; tutte le mutazioni sono cambiamenti di
un singolo nucleotide o di un piccolo numero
di nucleotidi adiacenti.
Fig.1. Il gene della CF; la proteina CFTR è localizzata nella
membrana plasmatica della cellula e regola il movimento degli
ioni cloro tra I due lati della membrana. Nella maggior parte dei
casi di CF la proteina è priva della regione 1 di legame.
Sebbene nei pazienti affetti da fibrosi cistica siano state descritte più di 1000 mutazioni
nel gene CFTR, il numero delle mutazioni più comuni e diffuso nella popolazione è
piuttosto basso.
La mutazione p.F508del è la più comune
nella
popolazione
nordeuropea
e
costituisce il 70/80% di tutte le mutazioni
della fibrosi cistica in molte popolazioni.
Come abbiamo detto, la malattia è
autosomica recessiva e quindi un soggetto
malato ha entrambe le copie del suo gene
CFTR mutate. Le due mutazioni possono
essere uguali o diverse.
Le diverse mutazioni descritte nel gene
CFTR provocano effetti diversi sul
funzionamento della proteina. Alcune
Fig. 2. Posizione del gene CFTR sul cromosoma 7. Nucleotidi e
amminoacidi coinvolti nella mutazione ΔF508 (F508 del)
3
bloccano prematuramente la sintesi della proteina, altre influiscono sul suo
processamento, sulla regolazione o la funzionalità (Fig. 4). Per questo motivo, gli effetti
della mutazione possono essere di gravità diversa.
Sono allo studio strategie per modificare o attenuare
gli effetti delle mutazioni più frequenti (dalle terapie
più convenzionali alla terapia genica).
Fig. 3. Gli apparati corporei colpiti dalla CF. In tutti
gli individui colpiti, le ghiandole sudoripare
producono un eccesso di sale. Il muco inspessito
blocca il trasporto degli enzimi digestivi nel
pancreas e il pancreas lentamente si distrugge. Il
muco denso e vischioso congestiona i condotti
respiratori rendendo difficile la respirazione. Nei
maschi il muco blocca i dotti che portano lo sperma
e solo il 2-3% dei maschi colpiti è fertile.
Fig. 4. Alcune mutazioni e i loro effetti sulla funzionalità della proteina CFTR.
4
Identificazione della mutazione presente nella famiglia in esame
Sequenza della sonda che ibrida con il DNA dei membri della famiglia esaminati:
5’- CACCATTAAAGAAAATATCATCGGTGTTTCCTATGATGA -3’
Iniziate la vostra ricerca al sito del National Center for Biotechnology Information
(NCBI) http://www.ncbi.nlm.nih.gov/
Nella home page del sito della NCBI scegliete la voce BLAST (sulla barra verticale
nella parte destra della pagina).
BLAST (Basic Local Alignment Search Tool) è un programma euristico per la ricerca di omologie locali di
sequenza, dove con euristica si intende “ogni principio o espediente che contribuisca a ridurre la quantità di
ricerca media necessaria per la soluzione di un problema”.
Il software BLAST in realtà è composto da diversi algoritmi che consentono di allineare non solo sequenze
nucleotidiche con sequenze nucleotidiche, ma anche sequenze proteiche fra di loro, sequenze nucleotidiche
con sequenze proteiche e viceversa, ovviamente utilizzando le regole del codice genetico per passare dalle
sequenze nucleotidiche a quelle aminoacidiche.
Nella pagina seguente, fra le opzioni Basic Blast, scegliete nucleotide blast.
5
Vi apparirà una schermata con un campo vuoto (search) dove è possibile “incollare” la
sequenza che si intende confrontare con la banca dati.
Incollate nel campo “search” la sequenza della sonda che vi è stata data.
In ”Choose search set, scegliete
il Database “Human genomic +
transcript”, per cercare un
allineamento solo con le
sequenze depositate umane. In
molti casi potreste preferire il
Database “Others” e le sequenze
non ridondanti (nr) di tutti gli
organismi; in realtà questa è solo
una definizione “storica” in
quanto oggi molte delle
informazioni contenute nei
Database sono ridondanti.
Ognuna delle voci sottolineate è
un hyperlink che vi rimanda ad
una breve definizione del campo in questione. Potete quindi ottenere ulteriori spiegazioni
cliccando le varie voci. Per semplicità utilizziamo un’analisi standard senza utilizzare le
opzioni di ricerca avanzate.
Una volta incollata la vostra sequenza, cliccate sul tasto “BLAST!”.
Identificazione della sequenza con il miglior punteggio di allineamento
La pagina dei risultati è divisa in cinque parti.
La prima parte fornisce informazioni:
• sul database BLASTN;
• sulla sequenza in esame, chiamata “query” di cui fornisce la lunghezza in basi
(letters).
6
La seconda parte è una rappresentazione grafica delle sequenze che hanno ottenuto i
migliori punteggi nell’allineamento con la sequenza “query”:
• la linea rossa spessa rappresenta la sequenza “query”;
• i numeri sotto di essa si riferiscono alla lunghezza in basi;
ciascuna delle linee sottili sottostanti, di diverso colore, indica un allineamento della
suddetta sequenza con una sequenza del database nucleotidico;
il codice dei colori impiegato nel rappresentare le sequenze riflette il punteggio ottenuto
nell’allineamento che dipende a sua volta dalla percentuale di identità calcolata fra le due
sequenze.
Se provate a passare con il puntatore sui diversi segmenti colorati vedrete che
compariranno il nome e il numero di accesso della sequenza corrispondente; se provate a
cliccare su uno dei segmenti verrete portati all’allineamento di sequenza corrispondente.
La terza parte, al di sotto dello schema grafico, consiste nell’elenco delle sequenze
nucleotidiche del database più simili alla sequenza query, ordinate per significatività
dell’allineamento; vengono, cioè, calcolati dal software un punteggio (score) e un valore
di significatività statistica (E) che indica la probabilità di ottenere un allineamento come
quello identificato, solo per caso o confrontando due sequenze non correlate. Più piccolo
il valore di “E”, tanto più l’allineamento sarà significativo.
La quarta parte (Alignments) visualizza gli allineamenti significativi della sequenza
"query" con le sequenze, identificate come più simili all’interno del database (sequenze
“subject”).
Per ciascun allineamento sono indicate le seguenti proprietà:
7
•
•
•
•
•
Score, cioè il punteggio dell'allineamento;
Expect, corrispondente di “E value” nell'allineamento;
Identities che indica il rapporto tra il numero di basi identiche (nell'esempio sono
38/41) e la lunghezza dell'allineamento in questione; tra parentesi è indicata la
risultante percentuale di identità fra le due sequenze nella regione allineata;
Gaps indica il rapporto tra il numero di interruzioni presenti nell'allineamento
(nell'esempio 3) e la lunghezza dell'allineamento in questione; tra parentesi è
indicata la percentuale totale di gap (nell'esempio è lo 7%);
Strand indica l'orientamento della sequenza "query" rispetto alla sequenza del
database con cui si allinea (Plus/Plus significa che la sequenza “query” ha lo
stesso orientamento di quella presente nel database, invece, Plus/Minus indica che
le due sequenze hanno orientamento opposto).
Segue l'allineamento vero e proprio tra la sequenza "query" e la sequenza del database in
questione, denominata " sbjct". I numeri indicano la posizione delle basi all'interno delle
rispettive sequenze e quando, in una data posizione dell'allineamento, la base della
sequenza "query" e quella del database coincidono. compare tra le due righe il carattere
"|".
Quando tale carattere non è presente significa che, in quella posizione dell'allineamento,
la base nella sequenza "query" non corrisponde della sequenza del database sono diverse
oppure che una delle due sequenze presenta un gap, come risulta dall’analisi degli
allineamenti caratterizzati da basse percentuali di identità.
!
Avete identificato di che mutazione si tratta?
Alla scoperta del gene della Fibrosi Cistica
Cliccate sul link corrispondente a NM_000492.3 e si aprirà una pagina della banca dati
contenente le informazioni relative alla sequenza che avete scelto.
La pagina è strutturata secondo uno schema fisso che prevede diverse voci (LOCUS,
DEFINITION, ACCESSION ecc). Nella pagina sono presenti anche informazioni sugli
articoli scientifici relativi alla sequenza stessa (REFERENCE), nonché le FEATURES
ovvero una serie di informazioni sui principali elementi di sequenza con significato
funzionale noto (predetto o dimostrato sperimentalmente).
Trova il numero identificativo della proteina prodotta dal gene (NP_000483), e copia la
sua sequenza di amminoacidi, salvandola in un nuovo file di testo dal nome
CFTRprot.doc. Prendi nota del numero di amminoacidi che costituiscono la proteina
normale.
8
Tornate in alto nella pagina e cliccate la voce FASTA per ottenere la sequenza del cDNA
per il gene CFTR.
Nella pagina web che si è aperta, trovate tutta la sequenza nucleotidica del cDNA, nel
formato utilizzabile per proseguire la vostra ricerca.
Salvate la sequenza di basi su un file di testo con il nome cDNA FASTA.doc.
Adesso che hai la sequenza codificante completa (cDNA) del gene CFTR puoi cercarne
la sequenza genomica usando il software BLAT (BLAST-Like Alignment Tool), un
algoritmo ottimizzato per confrontare sequenze di cDNA (prive di introni) con intere
sequenze genomiche (che contengono introni) e che consente di identificare la struttura in
esoni ed introni del gene genomico.
9
Vai alla pagina http://genome.ucsc.edu/cgi-bin/hgBlat?db=mm2 ed incolla la sequenza di
cDNA nella finestra di BLAT.
Clicca submit e quando comparirà la nuova pagina clicca su details alla sinistra del primo
record in elenco (score 6106, size in nucleotides 6172, 100% identity). Il gene si trova sul
cromosoma 7.
Clicca su details alla prima voce. Nella pagina che si apre troverai la tua sequenza di
cDNA, la sequenza di DNA genomico nella quale sono evidenziati in blu scuro e con le
lettere maiuscole gli esoni, in nero e con le lettere minuscole gli introni e in azzurro i siti
di splicing. Clicca sui links, nella colonna di sinistra, per navigare nella sequenza.
Cliccando sui vari blocchi, ti appare ad inizio pagina l’esone corrispondente nella
sequenza genomica; noterai che ci sono 27 esoni nel gene CFTR.
10
Traduzione del cDNA
Ora impariamo a usare un nuovo software per tradurre la sequenza di cDNA in sequenza
di amminoacidi, vai al sito http://star.mit.edu/orf/
Questo software cerca le ORF (Open Reading Frame) all’interno di una sequenza di
cDNA.
Clicca sul bottone START Start StarORF application (HTML version) e incolla la
sequenza del cDNA nella finestra Input Sequence. (Probabilmente nella finestra c’è già
una sequenza. Sostituiscila con la sequenza del cDNA CF). Clicca sul tasto Calculate all
ORFs.
Otterrai una immagine che è il risultato della traduzione della sequenza nelle 6 possibili
cornici di lettura (3 per ogni elica di DNA): in viola sono rappresentati i possibili codoni
di inizio e in rosso i codoni di stop. Identifica la cornice di lettura detta anche “Open
Reading Frame o ORF” più lunga, senza interruzioni dovute a codoni di stop.
Puoi facilmente personalizzare l’interfaccia del software scegliendo di visualizzare la
sequenza amminoacidica con il codice a una o a tre lettere, con o senza la sequenza di
DNA appaiata. Scegli 3 letter code.
Nel nostro caso la ORF più lunga è forward frame 1.
Localizzazione delle caratteristiche principali del cDNA
Ora puoi localizzare le principali caratteristiche del cDNA/mRNA, per esempio:
• 5’UTR (5’ UnTranslated Region)
• start codon (inizio della traduzione, ATG (AUG) il codone della metionina)
• CDS (CoDing Sequence)
• stop codon (fine della traduzione, TAA (UAA)/ TAG (UAG) / TGA (UGA)
• 3’UTR (3’ UnTranslated Region)
• sito polyA (sito di poliadenilazione) costituito dalle sequenze consenso AAUAAA
o UAUAAA.
Identifica tutti gli elementi sopra elencati e prendi nota della loro posizione. Iniziando
dall’estremità 5’ della molecola, trova il codone d’inizio cioè il primo ATG, che
corrisponde alla prima metionina (Met), in posizione 132. Una volta identificato il
codone di inizio, la sequenza che lo precede è la regione 5’UTR, non tradotta dai
11
ribosomi in proteina. Analogamente, trovato il codone di stop (UAG) la regione che lo
segue è la 3’UTR. La CDS (la sequenza tradotta in proteina) si estende dal nucleotide 132
al 4572 Identifica anche il segnale di poliadenilazione, la sequenza a valle della quale si
interrompe la trascrizione e a cui viene aggiunta la coda di polyA (parte dalla posizione
5770).
Visualizzazione della struttura 3D della proteina CF e confronto tra la
proteina sana e quella mutata (del F508).
Le strutture tridimensionali (3D) delle proteine possono essere determinate con una serie
di approcci sperimentali, fra i quali i più utilizzati e in grado di fornire le informazioni
più dettagliate sono la cristallografia ai raggi X e la risonanza magnetica nucleare. E’
inoltre possibile effettuare delle previsioni di struttura per proteine che mostrino un
sufficiente livello di identità di sequenza con proteine la cui struttura sia stata determinata
sperimentalmente. Questo tipo di analisi è ovviamente molto meno accurato ma può
fornire informazioni molto importanti sulla struttura e sulla funzione di una proteina. Le
coordinate tridimensionali di ogni singolo atomo vengono scritte in un file che è poi
possibile visualizzare mediante diversi software. In particolare noi utilizzeremo la App
iMolView. I file contenenti le coordinate molecolari delle molecole la cui struttura 3D è
già stata risolta sono raccolti (in diversi formati utilizzabili con diversi tipi di software) in
un database chiamato PDB (“Protein Data Bank”).
Caricate il file (con estensione “.pdb” o “.ent”) contenente la struttura 3D della proteina
in esame, riferimento 2BBO (aa 389-678, corrispondente al dominio funzionale NBD1
della proteina).
Utilizzando il software iMolView, imparerete a:
• Osservare la struttura terziaria della proteina, identificare domini e strutture
secondarie
• Familiarizzare con le diverse visualizzazioni: ribbon diagram, backbone e
sidechains
•
Identificare, all’interno della struttura, i residui eventualmente interessati da
mutazioni patologiche (es: F508del)
•
Confrontare le strutture 3D della proteina sana e di quella mutata.
Il Menu (in alto a destra) dà accesso ai più comuni strumenti utili per manipolare la
proteina mentre la finestra posta in basso mostra la sequenza della proteina.
Manipolazione della proteina
Potete portare la proteina al centro dello schermo, trascinare, zoomare e ruotare la
proteina.
Le icone del terzo gruppo, poste a destra,permettono di compiere alcune operazioni di
12
Potete selezionare uno o più residui amminoacidici del modello evidenziando i singoli
aminoacidi nella sequenza. Poi accedete al menu, cliccate sul bastoncino rosso-blu e,
selezionando il colore (color select), attribuite un colore ai residui selezionati.
Provate a selezionare, nella sequenza, gli aminoacidi 507 (isoleucina), 508 (fenilalanina)
e 509 (glicina) e colorateli in blu.
Per confrontare la struttura della proteina CFTR sana con la proteina che presenta la
delezione della fenilalanina nella posizione 508, aprite il file 1XMJ.pdb (delezione della
Phe 508); compaiono le due proteine sullo schermo, vi accorgerete che nella sequenza
1XMJ manca la fenilalanina. Selezionate, nella sequenza, gli aminoacidi 507 (isoleucina),
e 509 (glicina) e colorateli in viola.
In basso a destra vedete l’elenco delle proteine caricate e potete attivare l’una o l’altra.
Cliccando sull’icona in basso a sinistra (che simboleggia la sovrapposizione) le due
strutture si sovrappongono.
Noterete che la struttura 3D della proteina mutata si sovrappone quasi completamente alla
struttura della proteina normale.
13
Come già detto nella Fig. 4 della scheda, la mutazione F508del causa il mancato
processamento a livello del reticolo endoplasmico della proteina CFTR. La proteina non
raggiunge la membrana non perché la sua struttura è drasticamente alterata dalla
mutazione, ma in quanto la maturazione post-traduzionale della proteina non può essere
completata a causa della mancanza di un segnale specifico in cui è coinvolta la F508. La
proteina con la delezione F508 non supera il severo controllo di qualità a cui sono
sottoposte tutte le proteine a livello del reticolo endoplasmico; di conseguenza, viene
trasportata ai proteasomi dove viene degradata.
14