Array and NGS

Macro, Micro …and Chips
Cosa Sono gli Arrays
Tipi di Arrays
Utilizzi tipici degli Arrays
Thousands of genes
One gene
I microarray possono misurare l’espressione
di migliaia di geni noti in poche ore
Arrays
MacroArray
Depositati su Nylon
MicroArray
Depositati su Nylon,
su Vetro (silice) o Plastica
Chip
Sintesi di oligo direttamente
su matrice di silice.
(microarray)
Arrays: una matrice ordinata
composta da segmenti di DNA a
localizzazione nota
Evoluzione tecnologica
Southern Blot
Ricerca e selezione di sequenze “target” fra le moltissime
prodotte per frammentazione da DNA
Dot Blot
Ricerca e selezione di sequenze “target” nel DNA
proveniente da cloni (cDNA) “spottati” su filtro
Macroarray
Ricerca e selezione di sequenze “target” in cDNAteche
di sequenze note e “spottate” ordinatamente su filtro a
bassa densità
Microarray su Filtro
Ricerca e selezione di sequenze “target” in cDNAteche
di sequenze note e “spottate” ordinatamente su filtro ad
alta densità
Microarray su Vetro
Chip (microarray su vetro)
Ricerca e selezione di sequenze “target” in cDNAteche
di sequenze note adese ordinatamente su base solida
non-porosa (vetro) ad alta densità
Sintesi diretta su vetro di oligonucleotidi ancorati con
legame covalente ad altissima densità spaziale
Cosa distingue un Macro da un Micro-Array?
La distinzione fra Macro e Micro Array
viene effettuata sulla base della densità
dei geni posti sul supporto:
Numero di Geni
= Densità
Dimensioni del supporto
Macro e Micro Array
Dimensione
supporto
Densità
Geni/cm2
Spaziatura
Macro Array
8 x 12 cm
10-100/cm2
1–2 mm
Micro Array
(Nylon)
27 x 18 mm
5005000/cm2
Fino a 300 µm
Micro Array
(Vetro)
18 x 18 mm
10000/cm2
Meno di 300
µm
Chips a
Oligonucleotidi
12.8 x 12.8
mm
300.000
oligo
20-30 µm fino
a 30-40
Angstrom
Tecnologia degli arrays
spottati
Sfrutta la capacità di una data molecola di mRNA di associarsi
con il DNA stampo da cui è stata generata
PREPARAZIONE
Libreria di cDNA
o set di oligonucleotidi
Spotting o sintesi
diretta su vetro: con
micro-capillari, ink jet o
con robot dedicati
Fissaggio al supporto
Denaturazione (Alcali, Calore)
Robot per MicroArray
Un
“Array”
di
“penne”
per
spottare
un
“Array” di DNA in
una
singola
operazione
di
scrittura.
Le
penne funzionano
per capillarità o
pressione.
Il Robot in azione…
“Penne” per lo spotting del DNA
MacroArray su nylon
RNA Totale estratto da linee
cellulari (microgrammi)
DNA da cloni di cDNA noti
Marcatura con 33P
8 cm
12 cm
Ibridazione su nylon
N° geni 12 x 8 = 96 cm2
x10 = 960
x 100 = 9600
Lettura dei Segnali
Interpretazione e
Quantificazione PhosphoImager
MicroArray con Fosforo Radioattivo
Confronto di campioni provenienti da due fonti (p.es.
trattato e controllo) è necessario utilizzare 2 filtri in
parallelo o ibridare, deibridare e reibridare lo stesso
filtro
MicroArray Research Genetics contenente
5760 spots di sequenze di DNA. Sono
inclusi spots senza di DNA per la
normalizzazione del Background e spots con
DNA
genomico
totale
per
rilevare
l’intensità del segnale aspecifico.
Spot di controllo:
tDNA
vuoti
Il segnale da Fosforo Radioattivo
• Per la marcatura si preferisce il 33P al 32P perchè dà
minore effetto “bleeding” nella rivelazione del segnale
32P
33P
• L’espressione differenziale viene valutata ibridando
sequenzialmente il filtro con il cDNA test ed il cDNA di
riferimento.
Radioattività o Fluorescenza?
Il confronto fra i limiti di sensibilità per cDNA
marcati con radioattivo e cDNA marcati con
fluorocromi ha rivelato che la marcatura
fluorescente è 100 volte meno sensibile.
Radioattività o fluorescenza
Quantità di RNA totale, poli(A) e
cellule/tessuti di origine necessari
per superare il limite minimo di
sensibilità
delle
tecniche
che
impiegano isotopi radioattivi e
fluorocromi.
Radioattività e Fluorescenza
La marcatura con isotopi radioattivi è efficiente
per quantità di RNA totale estratto dal sistema
biologico in esame a partire da 0.1 microgrammi in
su, paragonabile all’efficienza di marcatura con
fluorescenza indiretta.
La marcatura diretta dell’RNA con fluorocromi
diventa efficienta a partire da 10 microgrammi di
RNA totale. Il grafico precedente evidenzia la
quantità di materiale tipicamente disponibile per
studi sullo sviluppo, campioni istologici, biopsie
cliniche, culture cellulari. La quantità di materiale
richiesto per le tecniche con radioattivo è molto
inferiore.
MicroArray con Fluorocromi
MicroArray con Fluorocromi
Paragonare campioni provenienti da due
fonti (p.es. trattato e controllo, normale
tumorale, differenziato e non) è più
semplice con i fluorocromi, in quanto è
possibile utilizzare contemporaneamente 2
fluorocromi diversi (Cy3 e Cy5) per
marcare il campione test e quello di
riferimento. Osservando e quantificando le
due differenti emissioni si ottiene il
risultato.
Fluorophore
DyLight 405
Aminomethylcoumarin,
AMCA
Cyanine, Cy2
Alexa Fluor® 488
Fluorescein, FITC/DTAF
Indocarbocyanine, Cy3
Tetramethyl Rhodamine,
TRITC
Rhodamine Red-X, RRX
Alexa Fluor® 594
Texas Red, TR
Alexa Fluor® 647
Indodicarbocyanine, Cy5
Alexa Fluor® 680
Excitation Peak (nm)
400
Emission Peak (nm)
421
350
450
492
493
492
550
510
519
520
570
550
570
570
591
596
651
650
684
590
616
620
667
670
702
Alexa Fluor® 790
792
803
Campione 1
Campione 2
Qualità dell’RNA
RNA
Elettroforesi su gel
ND-1000 NanoDrop
Bioanalyzer
Ratio 260/280=1.8-2.0
1.0 OD di Assorbanza a (260)=40mg/ml di RNA
Marcatura con fluorocromi
Campione 1
Campione 2
RNA
Cy5
cDNA
Cy3
Cy5 conjugates are excited maximally at 650 nm and fluoresce
maximally at 670 nm krypton/argon laser (647 nm)
Cy3 conjugates are excited maximally at 550 nm and fluoresce
maximally at 570 nm
Campione 1
Campione 2
RNA
Cy5
cDNA
Cy3
+
REPLICHE SPERIMENTALI
Stesso RNA testato su due vetrini distinti
REPLICHE BIOLOGICHE
RNA proveniente da campioni simili ma distinti
Tipico esperimento Microarray
Acquisizione dell’immagine mediante scanner
Cy3
Cy5
MicroArray con Fluorocromi
Cy5
Cy3
MicroArray con 550 spot di cDNA di topo; le
sequenze target sono stae marcate con Cy3dUTP –verde (wild type) e Cy5-dUTP –rosso
(mutante).
La sovrapposizione dell’emissione di Cy3 e
Cy5 in uno stesso spot genera una colorazione
gialla. L’intensità della fluorescenza è legata al
numero di fluorofori legati.
Interpretazione dei dati
Cy5 X sperim. Cy5
Cy3
X sper =0 X rif = 0
Cy3 verde
X riferim.
spot nero
X sper = X rif
Xs – Xr = 0 spot giallo
X sper > X rif
Xs – Xr > 0 spot rosso
X sper < X rif
Xs – Xr > 0 spot verde
La sovrapposizione di uno spot verde ed
uno rosso di eguale intensità dà
fluorescenza gialla
= azzeramento del segnale differenziale
L’intensità del segnale di fluorescenza (legata al
CHIP) verde o rosso è proporzionale alla quantità di
molecole targets nella soluzione e, quindi, costituisce
una stima della quantità di RNA espresso dalla cellula.
Analisi di Espressione
Rosso: aumento di abbondanza di mRNA
Verde: diminuzione
Espressione
genica
differenziale
studiata
durante il ciclo cellulare di
Lievito.
800
geni
coinvolti
rappresentati dalle righe del
diagramma.
Sono messi a confronto 4
ceppi
sincronizzati
con
procedure diverse.
Le barre colorate in alto
rappresentano le fasi del
ciclo cellulare; la barra
colorata verticale a destra
rappresenta il momento del
ciclo cellulare in cui ciascun
gruppo di geni raggiunge il
massimo di espressione.
Microarray ad oligonucleotidi
Tecnologia Affimetrix Human Whole
Genome
Fotolitografia
Alla superficie del Chip viene legata una prima serie di
“blocchi da costruzione” rappresentato da deossiribo
nucleosidi con il gruppo idrossilico funzionale 3’OH
protetto.
Alcuni di questi blocchi vengono “de-protetti” per azione di
un fascio di luce che illumina aree specifiche del chip.
Segue una reazione chimica che lega uno specifico
nucleoside (a sua volta “protetto”).
Questa sequenza viene ripetuta ciclicamente producendo
una serie di oligonucleotidi specifici, diversi fra loro, legati
in posizioni note sulla superficie del chip.
MicroArray ad Oligo
Sintesi automatica diretta di oligonucleotidi con sequenza
predeterminata in specifiche posizioni su di una superficie
(Affymetrix)
Microarray ad oligonucleotidi
Agilent Human Whole Genome
41015 60mers
sintetizzati sul
vetrino mediante
ink-jetting (più un
numero di spot
vuoti, più gli spot
di allineamento
negli angoli)
>33.000 geni noti
e nuovi; 41.015 tra
geni e trascritti
Troubleshootings
Fonti di confusione in un
esperimento microarray
•
•
•
•
•
•
•
•
Qualità dell’RNA estratto
Retrotrascrizione
Marcatura
Deposizione delle sequenze sul vetrino
Disomogeneità della superficie del vetrino
Ibridazione
Lavaggi
Acquisizione dell’immagine
MicroArray a Oligo
Target di grosse dimensioni hanno la tendenza a ripiegarsi su se stessi a causa
dell’accoppiamento di basi all’interno della sequenza.
Questo porta ad una parziale “mascheratura” delle sequenze bersaglio degli
oligo legati alla superficie che può abbassare l’efficienza di ibridazione di alcuni
targets rispetto ad altri.
La figura mostra targets di tRNAphe in soluzione di ibridazione contro oligo
decanucleotidici legati al substrato
MicroArray a Oligo
Piccoli target interagiscono meglio con gli oligonucleotidi legati al substrato:
hanno minori probabilità di ripiegarsi su se stessi formando legami
intramolecolari che possano nascondere basi necessarie al riconoscimento da
parte degli oligo.
Inoltre la massa minore consente a queste molecole di penetrare meglio fra gli
oligo.
Idealmente, target e probe (cioè gli oligonucleotidi fissati al supporto)
dovrebbero avere la stessa lunghezza.
MicroArrays a oligo: spaziatori e linkers
Oligo
Linkers
Spaziatori
Superficie (vetro o chip)
La densità degli oligo sia su vetro che su chip è altissima: si può arrivare a
1 molecola / 39 angstrom2. In questa situazione impedimenti sterici fra
oligo vicini e fra oligo e superficie possono interferire nel processo di
ibridazione. Questi problemi vengono parzialmente superati con
l’inserzione di elementi “spaziatori” fra gli oligo e di catene (linkers) per
allontanare l’oligo dalla superficie (qui sono rappresentate catene di glicole
oligoetilenico)
Validazione del risultato
mediante Real-Time PCR
Applicazioni degli Arrays
Analisi di Espressione
Macro e MicroArray
Genotipizzazione
MicroArray
Screening di Mutazioni
Chip
Misurazione dei livelli di RNA entro un
set completo dei trascritti di un organismo.
Analisi dei livelli differenziali di
espressione genica fra linee cellulari
diverse o diversamente trattate o in tempi
diversi di un trattamento sperimentale.
Determinazione contemporanea degli alleli
presenti in centinaia o migliaia di loci
differenti.
Analisi di mutazioni.
Studi sull’associazione genica.
Ricerca e caratterizzazioni di mutazioni legate
a specifiche malattie.
Screening
popolazioni.
genico
su
individui
o
intere
http://gslc.genetics.utah.edu/units/biotech/microarray/
Genotipizzazione
Alleli SNPs (Single Nucleotide Polymorphisms)
Singolo Array con 120.000
Oligo per la determinazione
del genotipo di un campione
in più di 3.000 loci biallelici
caratterizzati da un SNP
Le due metà superiore ed inferiore
di ciascun blocco si riferiscono ai 2
alleli; Per ciascun allele c’è una
coppia di probe centrati sulla
posizione dell’SNP e dei probe
centrati in posizione –1 e –4
dell’SNP per ciascun lato. La
coppia di probe, inoltre, è formata
dalla sequenza perfetta e da una
sequenza di controllo mutata in una
base.
MicroArray a Oligonucleotidi
•
•
L’identificazione della corretta ibridazione è data dalla presenza,
per ogni oligo, di un oligo di controllo mutagenizzato in una singola
posizione.
Più oligo di regioni diverse di un certo gene sono poste sul chip allo
scopo di ridurre i falsi positivi.
Tre diversi approcci per l’analisi mutazionale in un
singolo nucleotide
Analisi mutazionale
a) Analisi per Aumento di Segnale il target in esame si va a
legare alla sequenza contenente il nucleotide mutato
complementare;
b) Analisi per Diminuzione di Segnale il DNA di riferimento
selvatico è marcato con il fluoroforo Cy5 (red) . Il DNA da
analizzare è marcato con Cy3 (green). Dove un allele mutato
trova l’oligo con la mutazione corrispondente vi si lega
causando una diminuzione del segnale rosso.
c) Analisi per mini sequenziamento gli oligonucleotidi sono uniti
all’array per l’estremità 5’ ed hanno un gruppo 3’-OH esposto.
Le sequenze target non marcate dopo l’ibridazione fanno da
stampo per una reazione enzimatica di Primer extension
usando i 4 ddNTP, un singolo ddNTP per volta marcato con
fluorocromo. La sua presenza blocca la sequenza e viene
rilevata con una analisi della fluorescenza con microscopio
laser.
Analisi computazionale dei dati
Acquisizione Dati
Lettore asservito a Computer
Banca Dati Posizione Spot o Oligo
Filtro/Vetrino/Chip
Emissione e Cattura del Segnale
Digitalizzazione del Segnale
Salvataggio Dati Numerici
00100010010010010
010010011110110100
101101001010111111
10010100101000100
010101010111111100
000000101010101101
10101010 …..
Normalizzazione Dati
Lettura Valore Sperimentale
Lettura Valore Sperimentale Geni di Riferimento:
HouseKeeping o Total DNA, o altro…
Lettura Background Locale
Divisione per il Background
Lettura Background Locale
Divisione per il Background
Normalizzazione
Ricalcolo Valori Sperimentali rispetto ai valori di riferimento
Dato Sperimentale Normalizzato
Calcolo Media e
Deviazione Standard
Elaborazione dei Dati
Wet Biology
In Silico Biology
Preparazione
target
Elaborazione dati:
•Normalizzazione
•Confronto
Ibridazione
Lettura Array
Image Analysis
Data Mining
Clustering
Rappresentazione Dati
Collegamento a
Banche Dati
Strumenti basati su WEB Servers
Gene Bank
Entrez
BLAST
Data Base Locali o
Specializzati
1.602123918
0.337338397
1.844665188
0.323511778
1.768371159
0.353063436
1.713861779
0.267738357
1.303581653
0.254316183
1.547421159
0.317877837
0.836073045
0.881123347
1.087850536
0.33549304
0.305381289
0.283247613
0.853842716
0.542276827
0.757941912
0.440914237
0.328088028
0.304303553
1.643209944
0.324313594
1.877650509
0.294381073
1.655292613
Rappresentazione Dati
1.940693947
0.425630257
2.096773288
0.586138673
2.340281295
0.536911137
2.192482278
0.418784684
2.179213283
0.370275224
2.21861074
0.435055016
0.832259526
1.110397913
1.255508348
0.390475344
0.42840439
0.34408926
1.044141295
0.70624124
0.817729689
0.628867053
0.521591696
0.529410599
2.323978705
0.471268812
2.357837714
0.482821154
2.714877603
2.302936699
0.30506372
2.744427633
0.390622914
2.963051643
0.481762233
2.731550961
0.30659347
2.380973934
0.321728961
2.57892107
0.326781951
1.263089068
0.589378951
0.865317535
0.302573619
0.282743216
0.374218306
0.762380469
0.649139013
1.375079017
0.399835463
0.33594167
0.339880513
2.552775603
0.412139213
3.003807813
0.39106552
2.943123795
Tabella Numerica
Raw Data (Dati “Crudi”)
Dati Normalizzati
Raw Data (Dati “Crudi”)
1.866142311
0.389038225
2.316925173
0.347776799
2.276261836
0.491311494
2.106607882
0.426630292
2.085540052
0.378401935
1.967187072
0.340941878
0.708350554
0.637161764
0.688994822
0.397882942
0.368334098
0.375125914
0.708389619
0.520128891
1.289974878
0.465834776
0.446383404
0.565695482
2.134509286
0.459601985
2.34030319
0.495577595
2.289567976
Dati Normalizzati
Istogramma
Esperimento “A”
3.5
3
2.5
Serie1
2
Esperimento “B”
Serie2
Serie3
1.5
Serie4
1
0.5
0
1
Trasformazione Logaritmica
Scatter Plot
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Clustering
Esperimento “A”
Esperimento “B”
Clustering Geni con Comportamento Simile
Esperimento “C”
Esperimento “D”
Esperimenti:
a tempi diversi o
con trattamenti diversi
Data Mining
Il Data Mining è il processo di “estrazione” di
informazioni funzionali dai dati sperimentali.
È un processo che, per la enorme mole di dati prodotti
dalla tecnica in esame, dovrà essere sempre più
affidato alle macchine.
Come per ogni altro approccio sperimentale, lo scopo
del Data Mining è cercare relazioni significative fra i
dati sperimentali, quelli già acquisiti e la letteratura
scientifica che li discute.
La possibilità di riarrangiare, secondo nuove
prospettive, e confrontare i risultati sperimentali fra
loro consente di favorire la “scoperta” di modi nuovi di
esaminare i dati stessi, offrendo – a volte – risposte a
problemi non ancora chiaramente posti.
Sonda gene-specifica
La FISH può essere eseguita su:
Nuclei isolati
Cromosomi metafasici
Cromatina interfasica
Fibre di DNA allungate meccanicamente
La FISH usa la tecnica della ibridazione molecolare
Le sonde possono essere:
Locus-specifiche
Cromosoma-specifiche
Centromero/Telomero specifiche
nuclei isolati: per diagnosi di
o ed anomalie numeriche
Y
21
X
TRISOMIA 21
Su nuclei isolati (2 ml di
liquido
amniotico):
per
diagnosi di sesso ed anomalie
numeriche
Y
Su villi coriali: per diagnosi di
riarrangiamenti cromosomici
21
Su cromosomi metafasici (15
ml di liquido amniotico): per
diagnosi di alterazioni
cromosomiche strutturali
Su fibre (Fiber-FISH): per
diagnosi di micro-alterazioni e
gene mapping
X
TRISOMIA 21
Sonde del 7q
3
7
 SKY and Multicolor-FISH are molecular cytogenetic techniques
that permit the simultaneous visualization of all human (or mouse)
chromosomes in different colors, considerably facilitating karyotype
analysis.
 Chromosome-specific probe pools (chromosome painting probes)
are generated from flow-sorted chromosomes, and then amplified
and fluorescently labeled by degenerate oligonucleotide-primed
polymerase chain reaction.
 Both SKY and M-FISH use a combinatorial labeling scheme
with spectrally distinguishable fluorochromes, but employ different
methods
for
detecting
and discriminating the different combinations of fluorescence after
in situ hybridization.
CGH utilizes the hybridization of differentially
labeled tumor and reference
DNA to generate a map of DNA copy number
changes in tumor genomes.
Mutazioni sporadiche con fenotipo severo
Microdelezioni con fenotipo severo
G6PD
sostituzione nucleotidica
5’-CGTG-204
nt 202 G -> A
5’-GAATG-379 nt 376 A -> G
G6PD A
Sito di restrizione
5’-CATG-204
+ NLA III
5’-GGATG-379 + FOK I
Omozigote normale
NLAIII
Omozigote variante
Eterozigote
Omozigoti var Eterozigote Omozigoti normali
Q F-PCR
Quantitative Fluorescent-PCR



Polimorfismo del Singolo Filamento
Esoni 11-13
Esone 6
Genetic Heterogeneity of Glucose-6-Phosphate Dehydrogenase Deficiency
Revealed by Single-Strand Conformation and Sequence Analysis
V. Calabro et al. Am. J. Hum. Genet. 52:527-536, 1993
Oligonucleotide Ligation AssayPCR
OLA
Oligonucleotide-Ligation Assay
C
G
MUTATO
*
C
5’ P modificato
T
DNA LIGASI
C
G
T
G
ELETTROFORESI CAPILLARE
ECCITAZIONE LASER
RIVELATORE CCD
Dispositivo a carica accoppiata
A S O
La sostituzione nucleotidica A>T responsabile della genesi di un allele
“malattia” non genera o abolisce alcun sito di restrizione
Gli ASO permettono di determinare il genotipo di
qualsiasi locus SNP
La diagnosi clinica di una mutazione si ottiene ibridando o
sequenziando con oligonucleotidi allele-specifici su microarray
Le mutazioni dinamiche
Le mutazioni nel locus del
morbo
di
Huntington sono causate
dall’espansione
di
un
microsatellite
a
tripletta
ripetuta all’inteno di una
regione codificante
Distrofia muscolare Facio-Scapolo-Omerale (FSHD)
1:10000
Cromosoma 4
D G G E o TGGE
GGGGGGGG
Anche la D G G E è una tecnica basata sulla PCR
I domini di “melting” sono regioni
di una sequenza di DNA
caratterizzate da una diversa Tm
che dipende dai legami idrogeno
ed ancor più dalle interazioni
idrofobiche fra le basi impilate del
DNA
I domini di “melting” sono regioni
di una sequenza di DNA
caratterizzate da una diversa Tm
che può variare dai 65 agli 80°C
Il GC-clamp assicura che i due
filamenti di DNA rimangano legati
anche alla massima temperatura
o alla massima concentrazione di
denaturante raggiunta.
DDGE gel preparation
DDGE electrophoretic analysis
NGS
Next Generation Sequencing
454 genome Sequencer
Metodo Solexa “Illumina”
THE END