lezione14-2016clonaggio posizionale e progetto genoma

Identificazione di geni candidati nella regione individuata
Dopo aver localizzato un gene responsabile di una malattia vicino ad un “ marcatore
polimorfico del DNA” si può pensare ad una strategia per identificare e poi clonare il gene
responsabile
Catalogazione di tutti i geni della regione: quando il locus del gene di una malattia è stato
localizzato in una regione, i ricercatori cercano, all'interno di questa regione, tutte LE
SEQUENZE CODIFICANTI.
Diversi modi per identificare le regioni codificanti in una serie di cloni genomici:
1.
Si possono usare analisi bioinformatiche :
-si possono rivelare regioni codificanti cercando schemi di lettura aperti, o usando
programmi che riconoscono la struttura dei siti di splicing;
-si può verificare se la sequenza genomica compare in uno o più cloni EST
ottenuti da diversi tessuti umani
2.
Si può analizzare la sequenza mediante ZOO blot: le sequenze codificanti degli
esseri umani hanno quasi sempre una sequenza conservata nei mammiferi e spesso le
due sequenze ibridano tra loro; questa ricerca si fa per Southern
3.
Si può usare la tecnica definita dell’ ”exon trapping” (questa tecnica è stata
usata nell‘identificazione del gene della Corea di Huntington, dopo avere associato
la malattia ad un polimorfismo)
Descrizione dell’ “exon trapping”
Si clonano tutti i frammenti genomici della regione di interesse in un vettore di questo tipo:
VETTORE
P1
P2
Esone 1 Introne Esone 2
mcs
Esone 1
Esone A
TRASFEZIONE e
TRASCRIZIONE
AAAAAAAA
Trascritto PRIMARIO
TRASFEZIONE e
TRASCRIZIONE
AAAAAAAA
Trascritto PRIMARIO
SPLICING
Trascritto MATURO
AAAAAAAA
P1
AMPLIFICAZIONE
Esone 2
SPLICING
AAAAAAAA
Trascritto MATURO
P1
AMPLIFICAZIONE
AAAAAAAA
P2
PRODOTTO DI PCR
P2
PRODOTTO DI PCR
Se nel SITO MULTIPLO DI CLONAGGIO del vettore si è inserito un frammento che possiede un
ESONE, il prodotto di amplificazione risulterà più grande di quello del vettore in cui sia entrato un
frammento contenente una regione non codificante che verrà elimita con lo SPLICING
CLONAGGIO POSIZIONALE
La capacità di identificare ed isolare geni sulla base di informazioni
riguardanti la loro localizzazione cromosomica è stato uno dei maggiori
contributi della genomica: questo approccio è detto CLONAGGIO
POSIZIONALE (un esempio è dato dal clonaggio del gene della Corea di
Huntington)
Il CLONAGGIO POSIZIONALE dipende dalla disponibilità di mappe
dettagliate della regione cromosomica in cui sono localizzati i geni di
interesse.
È possibile fare un'analisi di associazione con centinaia di “MARCATORI
ANONIMI (come ad esempio gli SNP o i MICROSATELLITI) ed il locus della
malattia a cui si è interessati.
Se si dimostra un'associazione tra la malattia ed 1 o più marcatori del DNA,
mappati in precedenza, allora il gene responsabile è mappato nella regione
dove questo "marcatore" è localizzato; ciò facilita il suo CLONAGGIO
La Corea di Huntington è stata la prima malattia per
cui si è trovata una associazione con un RFLP
La Corea di Huntington è una malattia neurodegenerativa, molto grave che è stata
descritta in modo dettagliato verso la fine dell’800 da un medico, George Huntington.
Una ricercatrice Wexler, la cui famiglia era stata colpita dalla malattia, si è molto
impegnata per l’identificazione del gene responsabile. Ha iniziato una collaborazione con
un altro giovane ricercatore Jim Gusella, a Boston, ed insieme hanno immaginato la
strategia che si è poi rivelata vincente per l’identificazione del gene.
Anche se il mondo accademico, intorno al 1983, era ancora scettico sull’uso dei marcatori
molecolari polimorfici, loro hanno deciso di utilizzarli per la Corea di Huntington. Avevano
a disposizione 2 famiglie, una americana dell’Iowa non molto numerosa ed una del
Venezuela, molto numerosa.
Hanno raccolto i campioni di DNA di tutti i possibili componenti delle due famiglie e li
hanno analizzati usando, a caso, sonde polimofiche che mappavano su diversi
cromosomi.
Sono stati molto fortunati, in questa fase, poiché all’ottavo tentativo (avevano solo 12
sonde polimorfiche a disposizione), hanno trovato l’associazione!
La sonda si chiamava G8!
Regione genomica in cui mappa la sonda G8
H H1
(R)
H
R
H2
HR
H R
R
H ( R)
CLONE G8
cromosoma 4
(parte telomerica)
Aplotipi identificati
dal clone G8
H (H)1
(H)2 H H
H
H
Siti HindIII
polimorfici
2Kb
H1
17,5
3,7
1,2 2,3
17,5
4,9
15,0
3,7
15,0
4,9
8,4
2,3
1,2 2,3
2,3
8,4
8,4
8,4
32,6 kb
2 siti polimorfici H1 e H2!
Regione corrispondente
nel genoma umano
APLOTIPO
H2
-
+
A
-
-
B
+
+
C
+
-
D
Ricerca dell’associazione dell’aplotipo rivelato dalla sonda G8 in
due famiglie con la Corea di Huntington
Famiglia americana
AB
AB
AB AC AB
AB AB
AA AA AA
AB
AA
AA AB
AA AB
AA
AC AC
AA AA AA
Associazione con l’aplotipo A (sonda
G8)
AC
Famiglia venezuelana
AB
AA AB
AB
AC AB AC AC AB AC AA BC
BC BC
BC
AB
BB
BC AB AB AB AB BC AB AB BC BB BC
AB BC AA
BC BC
BC AB BB BC
BC
Associazione con l’aplotipo C (sonda
Analisi di associazione del gene della Corea di
Huntington con altre sonde polimorfiche della
regione
Braccio corto del
cromosoma 4 (4p)
Telomero
del 4p
Usando altre sonde posizionate verso il centromero il Lod-score diminuiva e quindi ci si
allontanava dal gene; quindi il gene era localizzato tra la sonda G8 ed il telomero ad
una distanza di 4cM cioè di circa 6 Mega basi
Identificazione del gene responsabile della Corea di Huntington (IT-15)
Dopo che è stata dimostrata l’associazione con la sonda polimorfica, la regione in cui è localizzato il gene è saturata e tutte le sonde
sono analizzate per l’identificazione di trascritti, con la tecnica dell’”exon trapping”. Usando poi confronti tra sani e malati si identifica il
500 kb
GENE RESPONSABILE
D4S10 (G8)
D4S180
D4S98
D4S127 D4S95
telomero
centromero
Il trascritto è di 11
kb, la proteina è di
3144 aa (348 kda)
200 kb
IT-15
CROMOSOMA 4
17 alleli con 11-34 Q
affetti 48 Q
67 E
IT-11
IT-10C
ADDA
Scoperta del gene responsabile della malattia
L’ identificazione del gene responsabile richiede anche l’analisi di espressione dei geni
“candidati”. Ad esempio il gene responsabile del fenotipo neurodegenerativo della Corea
di Huntington deve essere espresso nel cervello, mentre un gene responsabile di un tumore
alla mammella deve essere espresso in quel tessuto. Negli organismi molto studiati le
informazioni sull'espressione possono essere già disponibili nelle banche dati pubbliche delle
sequenze EST. Se il pattern non è noto si effettua un Northern blot.
Se la sequenza del DNA o del trascritto del gene candidato è alterato in tutti gli individui
con la malattia con buona probabilità quello è il gene candidato.
Per confermare che uno dei geni identificati sia proprio il GENE RESPONSABILE della
malattia, bisogna confrontare la sequenza del gene candidato nel gruppo di individui con
la malattia con quella di individui con un fenotipo normale.
Oltre al pattern di espressione e la sequenza, alcune ulteriori conferme che il gene identificato è il gene
RESPONSABILE del fenotipo alterato sono:
1. Il recupero del fenotipo mutato attraverso l’inserimento di un gene funzionale
2. Il “knock out” del gene
Queste prove ulteriori sono ovviamente da compiere in sistemi modello e
costituiscono la “GENOMICA FUNZIONALE”
RFLP e clonaggio posizionale del gene responsabile della fibrosi
cistica CFTR
(Cystic Fibrosis Transmembrane Regulator)
La relazione approssimativa tra la distanza tra loci nella mappa genetica e la loro effettiva distanza
in coppie di basi è la seguente:
1 cM = 1 Unità di Mappa = 1% di frequenza di ricombinazione =
1 Megabase 106 bp
(2cM)
5’
3’
quattro geni candidati
IDENTIFICAZIONE DEI GENI CANDIDATI
Identificazione del gene responsabile
della Fibrosi Cistica
28 S
18 S
I bambini affetti da CF hanno una varietà di sintomi che
derivano dalla anormale viscosità delle secrezioni
polmonari, del pancreas e delle ghiandole sudoripare.
L'analisi per Northern, dei 4 geni candidati, ha dimostrato
che solo uno, chiamato CFTR, era espresso in tutti i
tessuti interessati e non in altri.
Il gene, sequenziato nei pazienti, conteneva piccole
delezioni o sostituzioni nucleotidiche che ne sopprimevano
la funzione.
Alcune delle proteine mutanti non si
localizzano nella membrana
Alcuni dei geni identificati con il “CLONAGGIO POSIZIONALE”
Cromosoma 4
Malattia di Huntington
Cromosoma 5
Poliposi familiare (APC)
Cromosoma 7
Fibrosi cistica
Cromosoma 11
Tumore di Wilms
Atassia-telangiectasica
Cromosoma 13
Retinoblastoma
Cromosoma 16
Malattia policistica del rene
Cromosoma 17
Cancro della mammella (BRCA1)
Neurofibromatosi
Cromosoma 19
Distrofia miotonica
Cromosoma 21
Sclerosi laterale amiotriofica
Cromosoma X
Distrofia muscolare di Duchenne
Sindrome X fragile
Adrenoleucodistrofia
Aspettative per la realizzazione del
Progetto Genoma Umano
La spinta verso la realizzazione del PROGETTO GENOMA è stata la
consapevolezza che la conoscenza della sequenza del genoma completo
avrebbe potuto permettere più facilmente l ’ identificazione di geni
responsabili di MALATTIE GENETICHE
Ciò si sarebbe ottenuto attraverso la “reverse genetics” che mette in
relazione pezzi di DNA (di cui è nota la localizzazione sui cromosomi) a
funzione sconosciuta con una malattia, allo scopo di identificare il gene
responsabile
L’identificazione di un gene responsabile della malattia può fornire informazioni
sul suo ruolo, sul tipo di proteina che produce, rendendo più semplici anche le
ricerche su nuovi farmaci; può inoltre permettere di allestire test diagnostici
per la malattia e di applicare la terapia genica.
I geni responsabili di malattie già noti sono disponibili al sito OMIM :
http://www3.ncbi.nlm.nih.gov/Omim/.
Progetto Genoma Umano
Gruppi coinvolti nel progetto:
Pubblico: Internartional Human Genome Sequencing Consortium
Privato: Celera Genomics.
Costo del progetto -> circa 3 milioni di euro
Pubblicazione della prima bozza sul numero di
Nature 15 Febbraio 2001
Sito web-> www. nature.com
Risultati del sequenziamento del
Genoma Umano
• Sono state sequenziate 3.2 Gigabasi di DNA (3200 Megabasi, 3.200.000 kilobasi,
3 miliardi e duecentomila basi).
• Si è calcolato un numero di geni (ancora non definitivo) pari a circa 25.00035.000 (sono di meno di quanto la comunità scientifica si aspettasse).
• Sono stati anche sequenziati completamente i genomi di alcuni organismi modello.
• I geni sono : 6000 nel lievito, 13000 nella Drosophila, 18000 in C. elegans, 26000
in Arabidopsis Thaliana.
Lo studio dei GENOMI interi di organismi prende il nome di GENOMICA
Mappe fisiche
La base per il SEQUENZIAMENTO DEI GENOMI è stata la produzione di MAPPE
FISICHE; a loro volta queste sono ottenute da mappe di associazione (GENETICHE) e
mappe CITOGENETICHE
La MAPPA FISICA è una costellazione di frammenti di DNA sovrapposti ordinati ed
orientati che si localizzazano su ciascun cromosoma in un genoma; e quindi indicano l’
EFFETTIVO NUMERO DI COPPIE DI BASI che definiscono un locus e lo separano
da quello adiacente in una determinata regione cromosomica.
Per generare una MAPPA FISICA completa è necessario ottenere un insieme di cloni
ordinati (contig) che si sovrappongono e che nel loro insieme rappresentino un INTERO
CROMOSOMA O ADDIRITTURA UN INTERO GENOMA.
1) I MARCATORI GENETICI, eventualmente presenti nei cloni, possono essere ORDINATI
contribuendo alla MAPPATURA DEL GENOMA
2) Si ottengono dei CLONI CONTIGUI che rappresentano una GENOTECA ORDINATA di
sequenze di DNA utilizzabile per analisi genetiche successive (caratterizzazione di
particolari regioni o identificazione di geni non ancora caratterizzati)
3) Questi cloni ordinati sono la base per il sequenziamento del GENOMA COMPLETO
RFLP 2
80
RFLP 3
50
Gene Z
20
Gene Y
0
RFLP 1
Gene X
Correlazione tra mappa GENETICA, CITOLOGICA e
FISICA di un cromosoma
100
125
150
MAPPA
GENETICA
cM
MAPPA
CITOLOGICA
0
25
50
75
100
125
150
Megabasi
Kb 0
500
1000
0
500
1000è il
La MAPPA
analisi
5
10FISICA a cui si tende inKbultima
sequenziamento dei vari 2cloni
che 4fornisce l’esatto numero di
3
coppie di basi
separano un locus dall’altro
Clone YACche
1
Kb 0
Mappa di
restrizione
Mappa
di “contig”
Mappa
di STS
MAPPE FISICHE
Che cos’è un “contig”
Un insieme di cloni che si sovrappongono è chiamato
CONTIG
Nelle fasi iniziali di un progetto di mappatura genomica i
“contig” sono numerosi e rappresentano cosiddette “ isole”
di genoma clonato.
Con l ’ aumentare del numero dei cloni caratterizzati, i “ contig ” si
ingrandiscono e si fondono l’uno con l’altro finchè alla fine del PROGETTO
non rimane un numero di CONTIG pari a quello dei singoli cromosomi
dell’organismo in esame.
Ottenere un “contig”
Per ottenere dei contig è fondamentale ordinare i cloni
ottenuti, cercando le SOVRAPPOSIZIONI tra i cloni.
I cloni ottenuti si possono ordinare in vario modo:
1) Ordinamento mediante “ MAPPE DI RESTRIZIONE”
dei cloni ottenuti
2) Ordinamento mediante STS (sequence tagged sites)
presenti nei cloni
3) FISH
Un buon punto di partenza per ottenere cloni che si ordinano facilmente
è l’utilizzo di GENOTECHE cromosoma-specifiche
Costruzione di genoteche
cromosoma-specifiche
Separazione dei cromosomi mediante FACS
(Fluorescence Activated Cell Sorter)
Miscela di cromosomi
laser
Hoechst 33258 (AT)
Cromomicina A3 (GC)
Rivelatore di fluorescenza
caricatore
Le gocce che
non hanno la
specifica
fluorescenza
impostata
sono deviate
Campione contenente
tutti
i
tipi
di
cromosoma
Piastra di deflessione
Campione contenente
un
solo
tipo
di
cromosoma
Ottenere un “contig”
1) Ordinamento mediante “ MAPPE DI RESTRIZIONE”
dei cloni ottenuti
2) Ordinamento mediante STS (sequence tagged sites)
presenti nei cloni
3) FISH
Ordinamento dei cloni mediante “MAPPE DI RESTRIZIONE”
1.
Identificare una serie di cloni genomici che si sovrappongono
cromosoma
4
2.
Clone 2
4.
3
Clone 1
5
Analizzare ciascun clone per i siti di restrizione e per la localizzazione dei geni identificati
geni -> A
3.
2
B C
D E
F
G
Clone 1
Creare mappe di cloni genomici che si sovrappongono
X
Y
Z
A
B C
A
B C
D E
F
G
F
G
H
I
L
Clone 3
Clone 1
Combinare tutte le informazioni in un’unica mappa fisica che si estende per tutto il cromosoma
X
Y
Z
A
B C
D E
F
G
H
I
L
Ottenere un “contig”
1) Ordinamento mediante “ MAPPE DI RESTRIZIONE”
dei cloni ottenuti
2) Ordinamento mediante STS (sequence tagged sites)
presenti nei cloni
3) FISH
Mappa fisica generata per STS
STS 1
BAC 1
STS 2
BAC 2
STS 3
BAC 3
STS 4
BAC 4
BAC 5
STS 5
BAC 6
STS 6
BAC 7
STS 7
BAC 8
È possibile usare brevi sequenze uniche entro lunghi inserti clonati come se fossero
delle etichette (tag) al fine di allineare in “contig” i vari cloni.
In base a questa caratterizzazione i cloni che hanno in comune particolari STS devono
avere inserti parzialmente sovrapposti, quindi possono essere allineati in CONTIG.
Spesso gli STS sono ottenuti da cDNA clonati, per cui sono chiamati EST
(Espressed Sequence Tags), siti di sequenze etichetta espresse.
Approccio top down per la sovrapposizione di cloni contenenti
marcatori genetici
Questo tipo di approccio permette di ottenere cloni associati a marcatori già mappati in regioni vicine tra loro.
Ad es. i marcatori M1 ed M2 sono stati localizzati in una determinata regione del cromosoma.
Si usa il marcatore M1 come
sonda
di
ibridazione
per
analizzare una genoteca in YAC
sonda M1
Risultato dopo analisi della genoteca in YAC con
7 marcatori polimorfici (M1-M7)
Si usa il marcatore M2 come
sonda
di
ibridazione
per
analizzare una genoteca in YAC
sonda M2
M1
clone yM1
M2
M3 M4
contig
clone yM2
M5
Intervallo non
coperto da cloni
M6
contig
yM1 ed yM2 si sovrappongono?
Si isola un’ estremità del clone
M1, si marca e si utilizza come
sonda sul clone M2 digerito e
trasferito su un filtro
M7
Megabasi
Contig completo che comprende l’intera regione M1-M7
clone yM1
Estrazione,
restrizione ed
elettroforesi
del clone M2
Risultato dell’
ibridazione con
la sonda M1
M1
M2
L’ibridazione
dimostra che
l’estremità del
clone M1 è
presente nel
clone M2
M3 M4
M5
M6
M7
Approccio (dal basso) bottom up: per la sovrapposizione di cloni ottenuti a caso
Questo tipo di approccio permette di ottenere cloni ordinati in “contig” partendo da cloni “a caso” privi di informazioni sulla
loro localizzazione
Genoma umano aploide
1) Digerire con enzimi di restrizione e clonare in cosmidi per ottenere una genoteca cosmidica
3) Inserire i dati della mappe di restrizione in un computer
per ottenere le sovrapposizioni
2) Tipizzare ciascun cosmide mediante mappe di restrizione
4
5
3
Clone 1
2,5
5
6
5
4
3,5
3
2,5
2
1
3
2,5 2 1
Clone 2
3,5
6
Clone 1
Clone 3
Clone 2
Clone 4
Contig lungo un intero cromosoma
4) Ordinare tutti i cloni cosmidici ottenuti in 24 contig
mediante FISH
Cromosoma 17
intero milioni di
coppie di basi
Segmento 17Q21
due milioni di
coppie di basi
Segmento 17Q21
di 600.000 coppie
di basi
BAC 283
130.000 coppie
di basi
BRCA1
BAC 283
17Q21
17Q21
Mappa fisica del cromosoma 17 umano
Gene BRCA1
80.000 coppie
di basi
Mappa fisica del cromosoma Y umano
YAC
geni
STS
Bande
cromosomiche
PSEUDOAUTOSOMALE
YAC
geni
STS
Bande
cromosomiche
Sequenze omologhe X-Y
Sequenze ripetute dell’Y