Applicazioni biotecnologiche in
systems biology
Lezione #2
Dr. Marco Galardini
AA 2012/2013
Contatti
Dr. Marco Galardini
Dip. Di Biologia
Via Madonna del Piano 6, Polo Scientifico
S. Fiorentino (c/o Incubatore delle idee)
Email: [email protected]
Tel: 0554574737
Systems biology
Principali tecnologie di
sequenziamento e controllo qualità
Lezione #2
Dr. Marco Galardini
AA 2012/2013
Sequenziamento del genoma
Genoma: intera sequenza nucleotidica di un organismo
Sequenziamento: determinazione di una sequenza nucleotidica
Le tecniche di sequenziamento
Generazione 0 – Sequenziamento chimico
Generazione 1 – Dye-terminator
Generazione 2 – NGS con pre-amplificazione
Generazione 3 – NGS su singola molecola
NGS: Next Generation Sequencing
Sequenziamento del genoma
Le tecniche di sequenziamento
Generazione 0 - Maxam & Gilbert
Generazione 1 - Sanger
Generazione 2 – Pyrosequencing (454), Solexa-Illumina, Solid, Ion Torrent
Generazione 3 –PACBIO RS, Nanopore
Evoluzione del sequenziamento
1977
Frederick Sanger
Prima tecnica di sequenziamento
1987
Applyed Biosystems
Prima macchina automatica per il
sequenziamento del DNA
1986
Leeroy E.Hoods
Prima macchina semiautomatica per il
sequenziamento del DNA
1996
Pål Nyrén
Nascita del pyrosequencing
1998
Phil Green and Brent Ewing
Viene pubblicato il softwere “Phred” per l’analisi di
sequenze di DNA
2000
Lynx Therapeutics
Lancio sul mercato del “MPSS” e inizio del
sequenziamento di nuova generazione (NGS)
Evoluzione del sequenziamento
1977
Frederick
Frederick Sanger
Sanger
Prima tecnica di sequenziamento
1987
Applyed Biosystems
Prima macchina automatica per il
sequenziamento del DNA
Qualità e controllo
dei dati ottenuti
1986
Leeroy E.Hoods
Prima macchina semiautomatica per il
sequenziamento del DNA
Riduzione del costo
Quantità di dati
1998
Green and Brent Ewing
nell’unità di Phil
tempo
1996
Pål Nyrén
Nascita del pyrosequencing
Viene pubblicato il softwere “Phred” per l’analisi di
sequenze di DNA
2000
Lynx Therapeutics
Lancio sul mercato del “MPSS” e inizio del
sequenziamento di nuova generazione (NGS)
Automatismi di sequenziamento
?
Automatismi di sequenziamento
Maggiore automazione, industrializzazione del sequenziamento
Concentrazione di sequenziatori presso centri genomici (economia di scala)
Riduzione del numero di singoli sequenziatori presso laboratori di ricerca
Utilizzo della genomica per applicazioni cliniche, farmaceutiche, industriali
Incremento della complessità
Sanger sequencing
Risorse per la lettura ed
immagazzinamento delle
sequenze
Quantità di basi lette
Nell’unità di tempo
NGS
Sequenziamento del genoma
Le tecniche di sequenziamento
Generazione 0 - Maxam & Gilbert
Generazione 1 - Sanger
Generazione 2 – Pyrosequencing (454), Solexa-Illumina, Solid, Ion Torrent
Generazione 3 –PACBIO RS, Nanopore
Generazione 1 - Sanger
ovvero l’idea geniale dei dideossi!
Sanger sequencing: Cycle Sequencing
Molecola segnale
La bassa percentuale di ddNTP
fa sì passi del tempo prima che
la sintesi venga interrotta
Animation @ dnalc
Sequenziamento manuale
• Di-deossi nucleotidi radioattivi
• Una lane per ogni nucleotide
• Esistono sequenziatori
automatici che leggono
automaticamente i gel di
poliacrilamide
Sequenziamento automatico
• Di-deossi nucleotidi fluorescenti
• Un colore per ogni nucleotide
• Una singola lane per i 4 nucleotidi
• Separazione attraverso elettroforesi
capillare
• Lettura nucleotidi tramite laser
• Macchinari multi-capillari per letture
in parallelo
Cromatogramma
Lunghezza dei frammenti raggiunta: fino a 1000 bp
Cromatogramma – possibili errori
Sovrapposizione
fra i picchi
Omonucleotidi
Difficile separazione fra i picchi
Sovrapposizione
fra i picchi
Necessario un approccio algoritmico per determinare la qualità dei
cromatogrammi ed individuare la giusta sequenza
Generazione 2 – NGS con pre-amplificazione
Pyrosequencing (454)
Solexa-Illumina
Solid
(Anche la tecnica Sanger prevede un’amplificazione del dna prima del
sequenziamento, con successiva ligazione di un primer)
NGS, seconda generazione
NGS, seconda generazione
Viene commercializzata
la prima macchina
automatica per il
pirosequenziamento
Prima pubblicazione
sul
pirosequenziamento
Primo
sequenziamento
automatico
Primo sequenziamento
semi-automatico
(Sanger dye-terminator)
NGS, seconda generazione
454 pyrosequencing
Viene commercializzata
la prima macchina
automatica per il
pirosequenziamento
Prima pubblicazione
sul
pirosequenziamento
Primo
sequenziamento
automatico
Primo sequenziamento
semi-automatico
(Sanger dye-terminator)
Illumina (Solexa)
SOLiD
Ion semiconductor
DNA nanoball
Helioscope
SMRT/RNAP
NGS, seconda generazione
454 pyrosequencing
Viene commercializzata
la prima macchina
automatica per il
pirosequenziamento
Prima pubblicazione
sul
pirosequenziamento
Primo
sequenziamento
automatico
Primo sequenziamento
semi-automatico
(Sanger dye-terminator)
Illumina (Solexa)
SOLiD
Ion semiconductor
DNA nanoball
Helioscope
SMRT/RNAP
Il Pyrosequencing (o 454)
La tecnologia 454
• Da 400 a 700 basi per read
• Circa la metà rispetto al Sanger
• 400-600 megabasi ogni 10 ore
• Più veloce del Sanger
• Costi medio alti
• Impossibilità di sequenziare
correttamente più di 8 basi
identiche consecutive
(omonucleotidi)
Il Pyrosequencing (o 454)
• Amplificazione tramite emulsion PCR (emPCR)
• Multiple reazioni di PCR nella stessa provetta
• Sospensioni acquose in “olio”
• Frantumazione DNA
• Primer di PCR legati a microsfere
• Intrappolamento microsfere in micropiastra
• Una microsfera per pozzetto
La tecnologia 454
Il Pyrosequencing (o 454)
Pirosequenziamento
• Inserimento di un nucleotide per volta
• Incorporazione di un nucleotide da parte della
DNA polimerasi comporta lo sviluppo di luce
• Rilevazione da parte di una videocamera
La tecnologia 454
Importante:
Cosa succede quando aggiungo ATP?
Importante:
Cosa succede quando aggiungo ATP?
Al posto dell’ATP si usa d-alpha-thio triphosphate (non utilizzata dalla luciferasi)
Il Solexa-Illumina
La tecnologia Solexa, cioè sequencing on-a-chip
•
•
•
•
Circa 100 basi per read
10 milioni di reads per spot
Ridotti costi di sequenziamento
Profondità di sequenziamento
elevata
Video
Overview
• Frammentazione + ligazione adattatori
• Annealing sul chip
• Amplificazione tramite bridge PCR
• Amplificazione tramite bridge PCR
• Formazione di cluster densi e separati
• Ogni cluster contiene una singola sequenza
• Aggiunta di nucleotidi fluorescenti
• Terminatori reversibili (il fluoroforo può essere clivato)
• Lettura di una base per volta, ma in parallelo su molti cluster
Lunghezza dei frammenti raggiunta: 100 basi (in pair-end)
Il SOliD – Sequencing by ligation
• No DNA polimerasi
• Utilizzo dell’enzima ligasi
•
•
•
•
•
Reads di 150 bp massimo (generalmente 35 bp)
Massima accuratezza
Vengono utilizzati sonde con due basi
Ogni base della sequenza viene «letta» due volte
Costi bassi
• Pre-amplificazione con emPCR su microsfere
• Ligazione delle microsfere su un vetrino
Sequencing by Ligation
1. Primers hybridize to the P1 adapter sequence on the templated beads.
2. A set of four fluorescently labeled di-base probes compete for ligation to the sequencing primer.
Specificity of the di-base probe is achieved by interrogating every 1st and 2nd base in each ligation
reaction.
3. Multiple cycles of ligation, detection and cleavage are performed with the number of cycles determining
the eventual read length.
4. Following a series of ligation cycles, the extension product is removed and the template is reset with a
primer complementary to the n-1 position for a second round of ligation cycles.
Lunghezza dei frammenti raggiunta: 35-75 basi
Video
Ion Torrent
•
•
•
•
•
Amplificazione tramite emPCR su microsfere (intrappolate in micropozzetti)
Utilizzo di normali dNTP
L’incorporazione di un dNTP rilascia un protone (H+)
Rilevazione della differenza di voltaggio (ΔV)
ΔV proporzionale al numero di nucleotidi incorporati
Lunghezza dei frammenti raggiunta: oltre 100 basi
Previsto nuovo CMOS chip da 400 basi entro dicembre 2011
Generazione 3
Oxford Nanopore
PacBio – Single Molecule Real Time sequencing (SMRT)
• Sequenziamento a singola molecola di DNA
• Amplificazione iniziale tramite PCR non necessaria
• Riduzione di bias dovuti all’amplificazione
(amplificazione differenziale di alcune parti della sequenza)
Oxford Nanopore
• Tecnologia ancora molto sperimentale
• Vari metodi per determinare i singoli nucleotidi
PacBio RS - SMRT Technology
Filmato SMRT
• Pozzetti con volume 10-21 litri (zeptolitri)
• Aggiunta sequenziale di dNTP marcati con fluorofori
• Determinazione incorporazione tramite ZMW (zero-mode waveguide)
Lunghezza dei frammenti raggiunta: 860-1100bp (esperimenti con circa 2.5 kb)
Qualità dei sequenziamenti
Dalla reazione alla sequenza
Qualità dei sequenziamenti
Sequence: ??????????????????????????????????
Qualità dei sequenziamenti
Come è possibile risalire alla sequenza di DNA sequenziata?
• Necessità di trovare un modo univoco per l’interpretazione dei
cromatogrammi.
E’ possibile ripetere il processo per milioni di volte?
• Necessità di sviluppare algoritmi in grado di assegnare ad ogni picco una
determinata base in modo automatico.
Qualità dei sequenziamenti
Qualità dei sequenziamenti
G
Qualità dei sequenziamenti
G C
Qualità dei sequenziamenti
G C A
Qualità dei sequenziamenti
G C A G
Qualità dei sequenziamenti
…………
G C A G
C
G
A
• Durante l’elettroforesi capillare frammenti di lunghezza diversa
possono non essere ben separati
• Lettura simultanea di basi diverse
• Man mano che il sequenziamento procede verso la fine del
segmento di DNA, la qualità andrà a diminuire (anche
all’inizio)
• Una bassa qualità può significare una sequenza diversa da
quella reale
Base-calling algorithm
Algoritmo che, data una serie di picchi
cromatografici, sia in grado di risalire alla corretta
sequenza di DNA che li ha generati ed assegnare ad
ogni base una certa «qualità»
Phred
E’ l’algoritmo più utilizzato. Ad oggi la
qualità delle sequenze di DNA viene
espressa utilizzando il suo score
Base-calling algorithm
Vengono presi in considerazione i
principali parametri relativi alla forma ed
all’ampiezza dei picchi; in base a questi
viene calcolato un certo valore di qualità
relativo ad ogni base.
Base-calling algorithm
Vengono presi in considerazione i
principali parametri relativi alla forma ed
all’ampiezza dei picchi; in base a questi
viene calcolato un certo valore di qualità
relativo ad ogni base.
La qualità così ottenuta è
strettamente legata alla probabilità
di ottenere quella determinata
base in quel punto del
cromatogramma
Base
A
C
Quality
40
30
Qualità e Probabilità
Q = Qualità (Phred Score)
P = Probabilità di errore
Q = -10log10(P)
P = 10-Q/10
BASES
A
ERROR
QUALITY 20
C
T
G
30
40
50
Qualità e Probabilità
Q = Qualità (Phred Score)
P = Probabilità di errore
Q = -10log10(P)
P = 10-Q/10
BASES
A
ERROR
1%
QUALITY 20
Ad esempio:
una qualità pari a 20 si traduce in una
probabilità di errore dell’1%, mentre una
qualità pari a 30 si traduce in una
probabilità dello 0.1%
C
0.1%
30
T
0.01%
40
G
0.001%
50
Qualità e Probabilità
BASES
A
ERROR
1%
QUALITY 20
Base scartata
C
0.1%
30
T
0.01%
40
G
0.001%
50
Qualità generalmente
accettata
Importante:
Una probabilità d’errore dell’1% può sembrare bassa
Bisogna tenere conto che vengono sequenziate milioni di basi
1% = 10’000 basi errate ogni Mb
Queste basi errate possono essere confuse per mutazioni -> implicazioni cliniche gravi!
Dal sequenziamento al genoma
Dalle reads alle sequenze (più o meno) complete
• Tutte le tecniche di sequenziamento
portano alla produzione di molte sequenze
corte (35-2000 bp)
• Il genoma batterico più corto è circa 1Mb
(500 volte la reads più lunga)
• Un gene batterico è lungo in media 300 bp
• Necessario unire insieme le varie reads per
ottenere un genoma
Trimming, Assembling, Scaffolding