Systems biology

1
Systems Biology: the 21st Century Science
Whole-istic biology
Systems biology is the study of an organism, viewed as an integrated and interacting
network of genes, proteins and biochemical reactions which give rise to life.
2
ANALOGY
If you wanted to study an
automobile, and focused on
identifying the engine, seat
belts, and tail lights, and
studied
their
specific
functions, you would have
no real understanding of
how
an
automobile
operates.
?
More important, you would have
no understanding of how to
effectively service the vehicle
when something malfunctions.
?
3
So too, a traditional approach to studying biology and human health has left us with
a limited understanding of how the human body operates, and how we can best
predict, prevent, or remedy potential health problems.
Researchers have had limited success in curing complex diseases such as
cancer, HIV, and diabetes because traditional biology generally looks at only
a few aspects of an organism at a time.
4
Genes and proteins almost never work alone. They interact with each other and
with other molecules in highly structured but incredibly complex ways, similar to the
complex interactions among the countless computers on the Internet.
Systems biology aims at explaining the properties and behavior of complex
biological systems such as the cell or its molecular machineries
5
6
Metodologie High-Throughput
(HT)
7
DNA microarrays consist of thousands of individual gene sequences bound to
closely spaced regions on the surface of a glass microscope slide.
20 - 50 µm
20 - 50 µm
Millions of identical
oligonucleotide
probes per feature
49 - 400
chips/wafer
1.28cm
up to ~ 400,000 features/chip
8
Esistono di fatto due tecnologie per la produzione di
microarrays: la prima denominata a spotting e la
seconda detta in situ.
9
Nella tecnologia spotting, le sonde da
ancorare al supporto solido, normalmente un
vetrino da microscopia, sono sintetizzate a
parte e quindi depositate sul supporto.
Tali sonde possono essere costituite da
molecole di cDNA lunghe alcune migliaia di
paia di basi le cui sequenze possono essere
ricavate da banche dati genomiche
(GenBank, dbEST o UniGene)
10
Selezionate le sequenze da studiare, il cDNA
relativo viene prodotto mediante PCR
ottenendo così sonde della dimensione da
600 a 2400 bp.
Più recentemente, le sonde che vengono
depositate sono rappresentate non tanto da
frammenti di materiale genomico ottenuto via
PCR, quanto piuttosto da sequenze sintetiche
di oligonucleotidi lunghe 50-70 paia di basi.
11
Una volta prodotte, le sonde vengono depositate sul supporto solido, in
genere costituito da un vetrino. La deposizione viene effettuata da
sistemi robotizzati che mediante l’utilizzo di pennini prelevano le sonde
direttamente dalle piastre utilizzate per la PCR e le depositano sul
vetrino formando spots di circa 100-150 µm di diametro, distanziati l’uno
dall’altro 200-250 µm.
Durante la deposizione, il sistema di controllo del robot registra
automaticamente tutte le informazioni necessarie alla caratterizzazione
ed alla completa identificazione di ciascun punto della matrice (identità
del cDNA, coordinate sul supporto, ecc.). Una volta sul vetrino, il probe
viene legato covalentemente ai gruppi amminici del supporto attraverso
una reazione innescata dall’irragiamento con luce ultravioletta, mentre il
cDNA in eccesso viene rimosso con semplici lavaggi dell’array. Infine, il
cDNA sul supporto viene reso a catena singola attraverso una
denaturazione termica o chimica.
12
L’altra tecnica utilizzata per la produzione di
microarrays è quella detta in situ che,
sviluppata da Affimetrix, è frutto
dell’interazione di due tecnologie particolari, la
fotolitografia e la sintesi diretta in fase solida di
oligonucleotidi.
La sintesi delle sonde avviene direttamente
sulla superficie del supporto solido
13
14
I targets, ovvero gli acidi nucleici da ibridizzare alle catene
di cDNA ancorate al supporto solido,
sono normalmente ottenuti dalla marcatura dell’mRNA
proveniente da un dato organismo per mezzo di molecole
fluorescenti.
Probes e targets vengono poi messi a contatto per fare
avvenire la reazione di ibridazione e dopo alcuni lavaggi per
rimuovere i prodotti aspecifici, l’array viene passato
attraverso uno scanner per la misura dei segnali
fluorescenti.
L’intensità dei pixel di ciascuna immagine è proporzionale al
numero di molecole di tracciante presenti sullo spot e quindi
al numero di targets che hanno ibridizzato le sonde
ancorate al supporto.
15
16
Schematically
Before labelling
Array
17
Schematically
Labelled but before hybridization
Array
18
Schematically
After hybridization
Array
19
Schematically
Quantification
4
2
0
Array
3
20
oligonucleotide arrays
cDNA clones
21
Tumor sample
Reference sample
RNA
RNA
cDNA
cDNA
Hybridize
22
excitation
red laser
green laser
emission
overlay images and normalise
23
Di fatto, livelli diversi di fluorescenza indicano livelli diversi di
ibridizzazione e quindi di espressione genica.
Il segnale rilevato dallo scanner viene poi sottoposto ad
algoritmi di filtrazione e di pulizia del segnale e convertito in
valori numerici .
In generale, quindi, un esperimento di analisi dei profili di
espressione fornisce come risultato una matrice di dati, in cui le
righe rappresentano i geni monitorati e le colonne corrispondono
alle diverse condizioni sperimentali, quali punti temporali,
condizioni fisiologiche, tessuti.
Ogni elemento della matrice rappresenta quindi il livello di
espressione di un particolare gene in uno specifico stato
fisiologico.
Ciascuna colonna è data da un vettore che ha tante dimensioni
quanti sono i geni o le sequenze immobilizzate sull’array.24
25
26
27
È necessario, quindi, avere a disposizione
tutta una serie di tecniche computazionali
capaci di gestire ed interpretare questi
enormi database nonché di interfacciarsi
con gli strumenti bioinformatici per l’analisi
funzionale (database mining).
28
Si definiscono tecniche di database mining tutta una serie di strumenti informatici per
l’esplorazione e l’analisi di grandi quantità di dati al fine di estrarre motivi caratteristici e
persistenti (patterns) e regole. Gli algoritmi che costituiscono il database mining derivano
da campi quali la statistica, la pattern recognition, l’intelligenza artificiale e l’analisi dei
segnali; essi sfruttano le informazioni ricavate direttamente dai dati per creare dei modelli
empirici in grado di descrivere il comportamento di un sistema complesso. Nel caso dei
profili di espressione genica, le tecniche di database mining rappresentano un utile
strumento per identificare ed isolare particolari pattern di espressione che di fatto
rappresentano delle vere e proprie impronte digitali genetiche di un determinato stato
fisiologico. L’analisi dei dati degli array di cDNA è normalmente basata sull’uso sinergico
di test di ipotesi (hypothesis testing) e di sistemi per l’estrazione della conoscenza
(knowledge discovery). I metodi di hypothesis testing sono sostanzialmente degli approcci
di tipo top-down con i quali si ricercano nei dati le conferme sperimentali ad ipotesi
precedentemente formulate. La knowledge discovery può essere intesa invece come un
approccio bottom-up nel quale sono i dati stessi che forniscono le indicazioni necessarie alla
formulazione di nuove ipotesi. Un aspetto cruciale dell’applicazione di queste procedure è
l’identificazione di tutti quei geni che manifestano un’elevata attività in un determinato
stato fisiologico. Questi geni attivi, e le loro relazioni, possono essere identificati attraverso
tecniche quali Mean Hypothesis Testing (MHT), Cluster Analysis (CA), Principal
Component Analysis (PCA) e Decision Tree (DT).
29
Microarrays may be used to assay gene expression within a single
sample or to compare gene expression in two different cell types or
tissues samples, such as in healthy and diseased tissue.
Follow population of (synchronized) cells over time, to see how expression
changes (vs. baseline)
Expose cells to different external stimuli and measure their response (vs.
baseline)
Take cancer cells (or other pathology) and compare to normal cells.
30
•Developmental stage-specific gene expression
31
•Gene expression during differentiation - investigation of how gene
expression patterns are altered during differentiation.
32
Gene expression during tumorigenesis - cells can be sampled at
different recognized stages during the progression to cancer
33
ADVANTAGES
Microarray analysis offers the advantage of profiling expression levels
of hundreds or thousands of genes simultaneously using a single RNA
preparation
Human ~ 25,000 genes
Mouse ~ 25,000 genes
Theorycally, all genes of an organism can be analyzed by a single array
Easy to use
Yeast ~ 6200 genes
E. coli ~ 4200 genes
High speed
Phage T4 ~ 20 genes
Influenza ~ 12 genes
34
This technology is a very dynamic one and is currently spawning
a variety of derivative technologies including the development of
protein and antibody microarrays and cell microarrays
35
LIMITS
Obviously, this is an expression-based technology, capable only
of monitoring cellular responses at the RNA level. Some critical
signaling changes may occur only at the protein or posttranslational level and therefore would not be detected with gene
arrays.
The correlation between the number of mRNA and protein molecules is
generally not strong enough to predict one value from the measurement
of the other
DNA
transcription
mRNA
translation
36
Protein
Regolazione dell’espressione genica
Organizzazione della cromatina
Punto 1
Inizio della trascrizione
37
38
LIMITS
High cost technology
No quantitative: 3 fold variations are experimental
Data interpretation represent a complex problem:
mRNA profiling data (as other applications) typically consist of many
thousands of measurements for each array
Needs verification by other approach (i.e., Real time PCR)
39
40
41
42
43
•screening of polymorphisms and mutation
•There is also huge potential for assaying for mutations in known disease
genes, as recently exemplified in the case of the breast cancer
susceptibility gene, BRCA1. In addition, there have been vigorous efforts
to identify and catalog human single nucleotide polymorphism (SNP)
44
markers
45
46
47
Comparative Genomic Hybridization
CGH
L’ibridazione genomica comparativa (Comparative Genomic
Hybridization,
CGH)
convenzionale
è
una
tecnica
di
rilevazione che consente di analizzare l’intero genoma del
soggetto che si vuole esaminare, grazie ad in un unico
esperimento in grado di identificare anomalie del corredo
genetico quali riarrangiamenti inter– ed intracromosomici,
regioni di amplificazione genica e regioni con delezioni.
48
Il principio della tecnica si basa su una competizione per il
legame di 2 DNA genomici, marcati con fluorocromi diversi, a
cromosomi in metafase, non marcati e provenienti da un
soggetto sano.
Il primo DNA è estratto dal paziente in esame mentre l'altro
costituisce il DNA genomico di riferimento proveniente da un
soggetto sano.
Tale
processo
prende
il
nome
di
ibridazione
in
situ
su
cromosomi e, grazie allo stato altamente condensato dei
cromosomi metafisici, la risoluzione di questa tecnica (vale a
dire la capacità di riconoscere alterazioni nelle sequenze del
genoma) è nell’ordine delle 5 Mb (1 Mb = 1 milione di basi).
49
Nelle immagini si vede la stessa preparazione di cromosomi (metafase) di un soggetto
normale, fatta ibridare con
(a) il DNA estratto da cellule tumorali marcate con uno specifico fluorocromo verde, e
(b) il DNA delle cellule normali di riferimento marcati con uno specifico fluorocromo
rosso.
(c) La sovrapposizione delle immagini dimostra l’intensità relativa della fluorescenza
verde e di quella rossa, riflettendo le variazioni del numero di copie di geni che si
riscontra nel genoma tumorale. Una perdita di geni in aree più o meno estese del
DNA tumorale conferisce al DNA di riferimento un vantaggio nella competizione per
il legame al DNA normale. Proprio per questo motivo in tali aree il microscopio rileva
un aumento della fluorescenza rossa.
Viceversa, duplicazioni ed amplificazioni di geni del DNA tumorale corrispondono al
prevalere della fluorescenza verde.
50
51
BANDEGGI
• Bandeggi generali:
bande
ande
identificazione di TUTTI i cromosomi per mezzo di una serie di b
lungo tutto l’
l’intero cromosoma, diverse da un cromosoma all’
all’altro
Bande G → varie tecniche, combinate a colorazione Giemsa
Bande Q → bande fluorescenti visibili con mostarda
quinacrina o composti simili
Bande R → dopo denaturazione al calore
• Bandeggi particolari:
limitati ad aree di ogni singolo cromosoma o gruppi di cromosomi
Bande T → regioni telomeriche
Bande C → regioni pericentromeriche
Bande AgNOR → regioni dell’
dell’organizzatore nucleolare
Bande DaDa-DAPI → tratto prossimale braccio corto n.15,
costrizioni secondarie n.1,9,16 e tratto distale Yq
52
53
54
CGHarray
Il principio della CGHarray è identico a quello della CGH
convenzionale.
La differenza sta nel fatto che i due DNA (test e reference)
vengono ibridati su un microarray di frammenti di DNA
genomico
ben
caratterizzati,
invece
che
su
un
vetrino
contenente metafasi.
55
Risoluzione
CGH convenzionale
CGH array
10 Mb
1 Mb
56
57
58
Identificazione delle mutazioni
Diagnosi
pre-impianto – prenatale – postnatale – eterozigoti
Terapia
malattia minima residua – terapia specifica –
disegno di nuovi farmaci
Prevenzione
screening eterozigoti – geni oncosoppressori SNPs
59