Tecniche per il sequenziamento
degli acidi nucleici
Nel 1965 viene determinata la prima sequenza completa
di un Acido Nucleico: il tRNA dell’alanina di lievito (78
nucleotidi)
1971: prima mappa di restrizione (individuazione della
disposizione dei geni sul genoma mediante enzimi di
restrizione) del DNA circolare di SV40
(11 frammenti di restrizione).
Nel 1975 viene sequenziato il primo genoma completo:
l’RNA del fago MS2 (3568 nucleotidi).
3 geni separati da pochi nucleotidi
Alle estremità 2 lunghe (129 e 174 basi) regioni non tradotte
Il Progetto Genoma (inizio 1990 - fine 2003)
“Department of Energy and the National Institutes of Health”
Scopi del Progetto
•
determinare
•
identificare
le sequenze delle circa 3x109 coppie di
basi di cui é costituito il DNA umano
tutti i circa ~105 geni geni del DNA umano
•
registrare
tutta l’informazione in Banche Dati
•
sviluppare
strumenti per l'analisi dei dati raccolti
•
trasferire
le tecnologie sviluppate ai settori privati
•
indirizzare
le questioni etiche, sociali e legali che
originino dallo svolgimento del progetto
Operazioni preliminari al sequenziamento
• Molecola troppo grande
taglio in punti definiti
¾ DNasi ⇒ completamente aspecifiche
⇒ impossibile tagliare in punti specifici
¾ RNasi ⇒ specificità strutturale
¾ Enzimi di restrizione
La scoperta degli enzimi di restrizione
DNA E.coli di ceppo B in E.coli di ceppo C ⇒ digestione
1966: si osserva la “sopravvivenza” di un DNA virale in E.coli
enzima di modificazione ⇒ basi metilate
enzima di restrizione
sono stati identificati più di 150 siti di restrizione specifici
sequenze specifiche di 4-8 basi
casuale ⇒ 1/256 – 1/65536
5’ GTPy PuAC 3’
3’ CAPu PyTG 5’
I frammenti di DNA tagliati dagli REs (restriction enzymes)
possono essere separati, in base alle loro dimensioni relative,
utilizzando l’lettroforesi su gel di agaroso
I plasmidi sono utilizzati come vettori di clonaggio
9un frammento di DNA, proveniente da altra sorgente, é integrato
nel plasmide (plasmide chimera)
Costruzione e clonazione di molecole di DNA ricombinante
I passi sono:
• Costruzione di una molecola
ricombinante (plasmide)
taglio al centro del sito di riconoscimento ⇒ frammenti ad estremità piatte
taglio sfalsato ⇒ frammenti ad estremità coesive
CCGC
GG
GG
CGCC
CCGC
CGCC
DNA ricombinante
Costruzione e clonazione di molecole di DNA ricombinante
I passi sono:
• Costruzione di una molecola
ricombinante (plasmide)
• Introduzione nelle cellule ospite
(batteri mutanti che non degradino
rapidamente il DNA estraneo)
• Selezione e clonazione delle
cellule che portano il DNA
ricombinante
Costruzione e clonazione di molecole di DNA ricombinante
I passi sono:
• Costruzione di una molecola
ricombinante (plasmide)
• Introduzione nelle cellule ospite
(batteri mutanti che non degradino
rapidamente il DNA estraneo)
• Selezione e clonazione delle
cellule che portano il DNA
ricombinante
moltiplicazione genica
clonaggio molecolare
DNA ricombinante
utilizzando plasmidi e fagi come vettori
Molti batteri contengono uno o piú plasmidi
v Molecole di DNA circolare a doppia-elica
v # coppie di basi (bp): da 3000 a 100000
v unitá autonoma di replicazione
v opzionale per la cellula ospite (resistenza agli antibiotici)
Plasmidi come vettori di clonaggio
9un frammento di DNA, proveniente da altra sorgente, é integrato
nel plasmide (plasmide chimera)
9plasmide modificato é inserito in una cellula di E.coli
9le cellule con il plasmide chimera sono individuate dalla loro
resistenza ad un farmaco
9l’insieme dei discendenti di queste cellule é un clone
I plasmidi sono utilizzati come vettori d’espressione
9esprimendo il gene inserito si può produrre una proteina
di interesse medico (es: insulina)
Fotografie al microscopio elettronico
Il plasmide pSC101: il primo usato per clonare DNA
Il fago filamentoso M13
Fago lambda come vettore di clonaggio
Nota bene: Amplificazione di DNA mediante PCR
(Polymerase Chain Reaction)
Si può amplificare una sequenza di DNA di qualsiasi
origine (virus, batteri, organismi superiori) centinaia
di milioni di volte in un’ora (con la tecnica del DNA
ricombinante ci sarebbero voluti molti giorni).
Polymerase Chain Reaction, PCR
K.Mullis 1985
1º Ciclo
2º Ciclo
3º Ciclo
A partire dal 3º ciclo, ad
ogni ciclo il numero di
molecole di DNA a
doppia elica raddoppia.
All’n-esimo
ciclo
ci
n-2
saranno quindi N=2
molecole di DNA a
doppia elica
Metodo di Maxam e Gilbert (o metodo del taglio chimico)
• marcatura del DNA ad una estremità con 32P
• taglio a livello di uno dei 4 nucleotidi
• elettroforesi
• autoradiografia
polinucleotide chinasi ⇒ inserisce 32P al terminale 5’
Esempio
Sequenza marcata ⇒ 5’-32P- GCTACGTA-3’
Frammenti radioattivi
Taglio a livello di A:
32P-
GCT
32P- GCTACGT
Taglio a livello di G: 32P- GCTAC
Taglio a livello di C: 32P- G
32P- GCTA
Taglio a livello di T: 32P- GC
32P- GCTACG
Diagramma schematico di un’autoradiografia su gel
dei frammenti radioattivi prodotti dai tagli specifici
A
7
6
5
4
3
2
1
G
C
T
Autoradiografia di gel che mostra frammenti
marcati prodotti dal taglio chimico
Metodo di Sanger (o dell’interruzione controllata)
• copiatura della sequenza a singolo filamento
• blocco della crescita ad opera di una miscela di incubazione contenente
P-P-POCH2
O
•i 4 nucleosidi 3P marcati
HH
• un analogo 2’,3’-dideossi di uno di essi
• elettroforesi
DNA polimerasi I e primer
• autoradiografia
2’
H
base
HH
3’
H
Variante del metodo di Sanger
• marcatura dei primer di ciascuna delle 4 miscele con sonde
fluorescenti a λ diversi
•spettri di fluorescenza
• elettroforesi
blu
verde
giallo
viola
Batteri: ospiti ideali per l’amplificazione di molecole di DNA
⇒ produzione di numerose proteine procariotiche ed eucariotiche
Molti geni eucariotici sono espressi correttamente solo
in cellule eucariotiche
L’introduzione del DNA ricombinante in cellule eucariotiche
permette di studiare, per esempio, in che modo i geni vengono
attivati e disattivati durante lo sviluppo dell’embrione
(differenziazione)
DNA-computing
La macchina di Turing (Alan Turing, 1936)*
Un meccanismo (finite control) si muove tra una coppia di nastri:
. legge le istruzioni da un nastro (input tape)
. scrive il risultato sull’altro nastro (output tape)
La replicazione del DNA
La DNA polimerasi scorre lungo un filamento del DNA
. legge ciascuna base sul filamento
. scrive il suo complemento sul filamento nuovo
Leonard M. Adleman (1994):
macchina di Turing ≈ DNA?
*dieci anni prima della comparsa dei computers!!
1944: electronic discrete variable automatic computer (EDVAC)
La Tesi di Church &Turing (Alonzo Church & Alan Turing)
Universalità : la macchina di Turing (= qualsiasi computer)
può “calcolare” qualsiasi cosa sia “calcolabile”, nell’ipotesi che
ci sia sufficiente tempo e sufficiente memoria
L’algoritmo con cui viene fatto il “calcolo” deve soddisfare i seguenti requisiti
1.
2.
3.
4.
L’algoritmo deve consistere di un set finito di istruzioni descritte con un
numero finito di simboli
L’algoritmo produce il risultato in un numero finito di steps
L’algoritmo può, in teoria, essere operato da un umano con solo carta e penna
La sua esecuzione non richiede un’intelligenza “umana” tranne quella necessaria
a capire le istruzioni ed eseguirle
DNA Computing
La sfida computazionele ⇒ risolvere gli “NP-problems”
P-problems ⇒ possono essere risolti in un tempo polinomiale (Nk)
NP-problems ≡ Non-standard Polynomial problems
• il tempo per testare una ipotesi (ansatz) è polinomiale, ma il
numero di possibili prove è esponenziale (eN)
• se disponessi di un computer parallelo con un numero
esponenzialmente grande di nodi il tempo di calcolo sarebbe
polinomiale
Ovviamente ⇒ P-problems ⊆ NP-problems*
•il problema di decidere se l’inclusione è stretta è uno dei problemi più importanti
della matematica
Esempi di problemi NP (completi)
• Il problema del commesso viaggiatore (Hamilton path problem)
• Colorare un grafo connesso con 3 colori, senza vertici adiacenti
dello stesso colore
• Problemi di consistenza (SAT-problems = SATisfability-problems)
• Minimizzazione di una hamiltoniana di spin
completo ≡ se si trova un algoritmo (efficiente) per risolvere un
problema NP completo questo potrà essere utilizzato per risolvere
ogni altro problema NP
DNA computer ⇒
permette di risolvere problemi NP in un tempo polinomiale
“strumenti” molecolari naturali & artificiali
• appaiamento alla Watson-Crick
• DNA-polimerasi (+ primer)
• DNA-ligasi
• endonucleasi di restrizione
• sintesi (artificiale) di DNA
• elettroforesi su gel
Hamilton Path Problem
Connessioni orientate
Vertici
Grafo
Esempio di algoritmo (non efficiente)
Dato un grafo con n vertici
1. generare un insieme di cammini casuali
2. per ciascun cammino
a. verificare che cominci dal vertice di partenza e finisca nel vertice di
arrivo; altrimenti rimuoverlo
b. verificare che il cammino passi esattamente per n vertici;
altrimenti rimuoverlo
c. per ogni vertice verificare che il cammino passi per quel vertice;
altrimenti rimuoverlo
3. Se l’insieme non è vuoto: c’è un cammino di Hamilton. Se l’insieme è vuoto: no
Hamilton path: Roma-Parigi-Madrid-Berlino
Berlino
Madrid
4 vertici (= città)
6 connessioni (= voli)
Parigi
Roma = vertice di partenza
Berlino = vertice di arrivo
Roma
VOLO
ROMA-PARIGI
ROMA-BERLINO
PARIGI-MADRID
PARIGI-BERLINO
PARIGI-ROMA
MADRID-BERLINO
CITTA’
SEQ. DNA
COMPL
ROMA
PARIGI
MADRID
BERLINO
ACTT GCAG
TCGG ACTG
GGCT ATGT
CCGA GCAA
TGAA CGTC
AGCC TGAC
CCGA TACA
GGCT CGTT
SEQUENZA # VOLO
GCAGTCGG
GCAGCCGA
ACTGGGCT
ACTGCCGA
ACTGACTT
ATGTCCGA
Come si procede in pratica:
1. Sintesi* delle sequenze complementari ai nomi delle città e delle
sequenze con i numeri dei voli (i nomi delle città non sono necessari)
2. Nella stessa provetta: un “pizzico” (circa 1014 molecole) di
ognuna delle diverse sequenze, acqua, ligasi, sali, etc.
⇓
In circa 1 sec si ha in mano il risultato
* Occorrono pochi giorni per ricevere una provetta con circa 1018 molecole di DNA tutte
(o in gran parte) aventi la sequenza richiesta. Una sequenza di 20 basi costa circa 25$.
Si possono facilmente ottenere sequenze lunghe anche 100 basi.
Algoritmo: passo 1
Cosa succede nella provetta
a. il volo Roma-Parigi (GCAGTCGG) ed il complemento del
nome Parigi (AGCC TGAC) si incontrano per caso.
b. la fine della 1a e l’inizio della 2a sono complementari e
si appaiano
c. questo complesso incontra il volo Parigi-Madrid (ACTGGGCT)
d. la 1a parte di questo è complementare all’ultima del complesso
e si appaia
e. e così via
GCAGTCGG
AGCCTGAC
GCAGTCGGACTGGGCT
AGCCTGAC
...
La provetta conterrà sequenze relative a cammini casuali.
Numero elevatissimo di cammini (sequenze)
se esiste, almeno uno sarà quello di Hamilton
tutti i cammini sono stati generati
contemporaneamente (elevato parallelismo)
ci sono (anche) circa 1011 molecole che traducono cammini che
non sono quello di Hamilton ⇒ devono essere eliminati
Algoritmo: passo 2a
Eliminare le molecole che non cominciano con la città di partenza
e non finiscono con la città di arrivo.
Polymerase Chain Reaction (PCR) con molte copie delle sequenze
. complemento del nome della città di partenza (TGAA)
. del cognome della città di arrivo (GCAA) [primers*]
5’
3’
ACTT
TGAA
3’
5’
si producono molte copie “solo” dei complementi di tutte quelle molecole
la cui sequenza
comincia con il nome della città di partenza
* segnalano alla DNA polimerasi dove cominciare la replicazione alla Watson e Crick
5’
3’
CGTT
TGAA
GCAA
ACTT
Roma: ACTT GCAG
3’
5’
Berlino: CCGA GCAA
si producono molte copie “solo” dei complementi (prodotti nel precedente passo e che
quindi cominciano tutti con il complemento del nome della città di partenza)
di tutte quelle molecole la cui sequenza
comincia con il complemento del cognome della città di arrivo
le molecole moltiplicate da PCR sono quindi quelle che
cominciano con il nome della città di
partenza e finiscono con il cognome
della città di arrivo
Algoritmo: passo 2b
Con l’elettroforesi seleziono solo quelle molecole che hanno
la lunghezza (numero di vertici) giusta. Nell’esempio: 24 basi
Algoritmo: passo 2c
i.
Si attacca al complemento del nome di una delle città intermedie una
microscopica pallina di ferro.
ii. Si mette in soluzione e si promuove l’appaiamento.
iii. Si usa un magnete per attrarre solo le molecole attaccate alla pallina e
le altre vengono lavate via.
iv. Si stacca la pallina di ferro
v. Si ripete la stessa operazione a partire da (i) per le altre città intermedie
Algoritmo: passo 3
PCR seguito da elettroforesi e sequenziamento
Nota: se la provetta è vuota: non ci sono cammini di Hamilton
Passo 2c
Vantaggi dei computers a DNA
Capacità di Memoria:
1gr DNA (1cc) = 109 CD
Parallelismo:
1014 numeri di volo connessi in 1 sec
Efficienza energetica:
DNA:
1 joule/1019 operazioni di legame
supercomputers: 1 joule/109 operazioni
...però, per conoscere il risultato, ottenuto in 1 sec, ci è voluta
circa 1 settimana!
...e soprattutto, il numero di catene di DNA che devono essere prodotte
a caso cresce esponenzialmente con il numero di variabili (nodi)
⇒ i problemi NP non hanno veramente trovato una soluzione!
Perchè il computer a DNA non ha rimpiazzato quello al silicio?
DNA = macchina di Turing ? Abbastanza più complicato
Vantaggi del DNA:
• parallelismo massivo, numero esponenzialmente
grande di processori (più DNA nel beaker!!).
Vantaggi del silicone:
• versatilità, disponibilità, durata, facilità d’interfacciamento
• 50-60 anni di sviluppo di algoritmi e tecnologie per il silicio
non facilmente trasferibili al computer a DNA