Lezione 1 Introduzione alla Systems Biology Diego di Bernardo

Lezione 1
Introduzione alla Systems Biology
Diego di Bernardo
TIGEM
Telethon I nstitute of Genetics and M edicine
www.tigem.it
www.tigem.it/research/DiBernardo.htm
1
Schema della lezione
• Cenni di biologia
• Le teoria delle reti e le “reti biologiche”
• Metodi sperimentali: i microarray
www.tigem.it/research/DiBernardo.htm
2
Systems Biology?
Una possibile definizione:
“Integrazione dei dati sperimentali in modelli
computazionali della cellula”
Motivazione:
Le nuove biotecnologie permettono la misura di migliaia
di segnali (geni, proteine, metaboliti) durante il
funzionamento della singola cellula.
Per essere interpretati in maniera corretta, tali misure
hanno bisogno di modelli.
www.tigem.it/research/DiBernardo.htm
3
Biologia
www.tigem.it/research/DiBernardo.htm
4
Cenni di Biologia Molecolare
• La cellula e’ composta per il 99% da C, N, O, H.
• Un polimero e’ una macromolecola composta da un numero di
molecole piu’ piccole e simili tra loro.
www.tigem.it/research/DiBernardo.htm
5
Acidi Nucleici e proteine
• Polimeri:
– DNA (Informazione)
• nucleotidi
– RNA (Decodifica)
• ribonucleotidi
– Proteine (Prodotti)
• amino acidi
www.tigem.it/research/DiBernardo.htm
6
www.tigem.it/research/DiBernardo.htm
7
Central Dogma
Transcription
copia
Gene (DNA)
Hard disk
Translation
elabora
mRNA
Memoria RAM
Proteina
Prodotto
I geni possono essere accesi o spenti a seconda delle
necessita’ della cellula
www.tigem.it/research/DiBernardo.htm
8
Trascrizione e traduzione
www.tigem.it/research/DiBernardo.htm
9
Regolazione della trascrizione: i fattori di trascrizione
www.tigem.it/research/DiBernardo.htm
10
Regolazione Combinatoriale
www.tigem.it/research/DiBernardo.htm
11
Esempio di regolazione
www.tigem.it/research/DiBernardo.htm
12
Livelli di regolazione
M-RNA IS PROCESSED
(SPLICED)
TRANSCRIPTIONAL CONTROL
RNA PROCESSING CONTROL
RNA TRANSPORT CONTROL
RNA DEGRADATION
TRANSLATIONAL CONTROL
PROTEIN ACTIVITY
www.tigem.it/research/DiBernardo.htm
13
Teoria delle reti
•
•
•
La cellula e’ il risultato di molti sub-componenti che
interagiscono fra loro.
La teoria dei grafi (reti) e’ utile per descrivere sistemi
complessi
Definizioni:
– grafo G={V,E} dove V insieme di vertici o
nodi, e E insieme degli archi
– grado k: numero di archi incidenti sul nodo
– digrafo: gli archi hanno una direzione (E
insieme ordinato di nodi)
– P(k) distribuzione di grado: probabilita’ che
un nodo abbia esattamente grado k:
P(k)=N(k)/N
– C(k) clustering: tendenza dei nodi a formare
agglomerati. Se A e’ connesso con B, e B
con C, allora e’ probabile che A sia
connesso con C?
Barabasi et al, Nature Review Genetics, 2004, 5:101: http://www.nd.edu/~networks/PDF/Wuchty03_NatureGenetics.pdf
www.tigem.it/research/DiBernardo.htm
14
Teoria delle reti
• Random networks:
– I nodi hanno circa lo
stesso numero di archi
• Scale-free networks:
– P(k)=k-g Alcuni nodi
hanno molti archi
(hubs)
– Internet, reti
biologiche, reti sociali
• Hierarchical netoworks
– Modularita’
– Sono formate dalla
ripetizioni di cluster di
nodi. Sono scale-free.
Barabasi et al, Nature Review Genetics, 2004, 5:101: http://www.nd.edu/~networks/PDF/Wuchty03_NatureGenetics.pdf
www.tigem.it/research/DiBernardo.htm
15
Matrice di adiacenza
0
0 -1
+1 +1 0
+1 0
www.tigem.it/research/DiBernardo.htm
0
16
Reti biologiche
• I processi biologici possono essere rappresentati come reti:
– Reti trascrizionali(proteina-DNA)=digrafo
• Nodi: geni e proteine
• Archi: un TF regola un gene
– Reti proteina-proteina = grafo
• Nodi: proteine
• Archi: esiste una interazione diretta tra due proteine
– Reti metaboliche:
• Nodi: prodotti
• Archi: se esiste un enzima (proteina) che trasforma un
prodotto in un altro
…oppure come Reti di influenza
• Nodi: geni
• Archi: esiste una “influenza” di un gene su un altro
www.tigem.it/research/DiBernardo.htm
17
Esempio di rete trascrizionale
www.tigem.it/research/DiBernardo.htm
18
Esempio di rete di interazione: proteina-proteina in lievito
www.tigem.it/research/DiBernardo.htm
19
Esempio di rete metabolica
www.tigem.it/research/DiBernardo.htm
20
Metodi Sperimentali
• Per sviluppare un modello della reti di
regolazione, abbiamo bisogno di misure:
– Esistono almeno 40’000 geni, cioe’ 40’000
specie di mRNA e 40’000 specie di proteine
– Una “rivoluzione” e’ stata la possibilita’ di
misurare tutti e 40’000 mRNA in maniera
parallela grazie ai microarray
– Non esisto ancora tecniche per misurate le
40’000 proteine…ma ci siamo quasi…
www.tigem.it/research/DiBernardo.htm
21
Microarray
Affymetrix GeneChip
cDNA microarray
www.tigem.it/research/DiBernardo.htm
22
cDNA: funzionamento
www.tigem.it/research/DiBernardo.htm
23
cDNA: esperimento
www.tigem.it/research/DiBernardo.htm
24
Risultato:
www.tigem.it/research/DiBernardo.htm
25
Affymetrix GeneChip
Hybridized Probe Cell
Single stranded, fluorescently
labeled DNA target
Oligonucleotide probe
1.28cm
*
*
*
*
*
24µm
Each probe cell or feature contains
millions of copies of a specific
oligonucleotide probe
Over 250,000 different probes
complementary to genetic
information of interest
Image of Hybridized Probe Array
www.tigem.it/research/DiBernardo.htm
26
Vantaggi:
•107 probe per
gene
•Standard
Svantaggi:
• ~900 €
www.tigem.it/research/DiBernardo.htm
27
Analisi dei dati
• Problemi:
– Image analysis: identificazione degli spot e della loro
intensita’
– Normalizzazione: non posso confrontare piu’ array tra
loro se prima non correggo per la quantita’ totale di cRNA
(cDNA) che ho usato
– Qualita’: un microarray puo’ dare risultati “strani” a
causa di errori sperimentali, come li identifico?
– Esiste una vasta letteratura e molta ricerca in questa area
• Quali geni sono (relativamente) piu’ o meno espressi ?
www.tigem.it/research/DiBernardo.htm
28
Misurare le interazioni tra proteine: Y2H
www.tigem.it/research/DiBernardo.htm
29
Protein a
Protein b
known
unknown
Interaction
Le proteine a e b interagiscono
www.tigem.it/research/DiBernardo.htm
30
Prima
1 sola proteina alla volta
Ora
Larga scala
www.tigem.it/research/DiBernardo.htm
31
Yeast two hybrid
AD = Activation Domain
DBD = DNA Binding Domain
AD
T
DBD
ti
p
i
r
on
lex
p
m
Co
s
ran
c
transcription
gene
www.tigem.it/research/DiBernardo.htm
32
bait
DBD
AD
fish
www.tigem.it/research/DiBernardo.htm
33
AD
fish
bait
T
DBD
ti
p
i
r
on
lex
p
m
Co
s
ran
c
transcription
UAS
Reporter gene
www.tigem.it/research/DiBernardo.htm
34
Lezione 2
Applicazioni della systems biology:
• Identificazione di reti biologiche
• Farmaci intelligenti
• Malattie genetiche
www.tigem.it/research/DiBernardo.htm
35
Applicazioni della Systems Biology
• Ricerca di base
– capire il funzionamento di un processo
biologico
– Malattie genetiche: perche’ se manca quel gene
ho una malattia?
• Ricerca applicata
– capire il principio di azione dei farmaci
– Con quali gene/proteine/metaboliti va ad
interagire la molecola?
www.tigem.it/research/DiBernardo.htm
36
www.tigem.it/research/DiBernardo.htm
37
Identificazione di reti biologiche
Rete di regolazione da identificare
Rete identificata
?
www.tigem.it/research/DiBernardo.htm
38
“System Identification” e “reverse engineering”
?
INPUT(S)
OUTPUT(S)
Input: perturbazioni allo stato del sistema (esempio accendiamo un gene)
Output: misura della risposta alla perturbazione (risposta dei 40’000 geni)
www.tigem.it/research/DiBernardo.htm
39
Identificare la rete significa capire cosa c’e’ nella
“scatola nera”
INPUT(S)
OUTPUT(S)
www.tigem.it/research/DiBernardo.htm
40
Modello di rete con ODE
f (X1,X2,X3,u)
u
+u
www.tigem.it/research/DiBernardo.htm
41
Studi preliminari su E. coli: rete del sistema SOS
Oltre 100 geni sono coinvolti
nel sistema SOS
Studio piloti su 9 geni
www.tigem.it/research/DiBernardo.htm
42
7-9 training perturbations
used to recover 9 gene
SOS subnetwork
Insignificant changes set to
zero during data
preprocessing
0.6
0.4
0.2
0
-0.2
-0.4
recA
lexA
ssb
recF
dinI umuDC rpoD rpoH
rpoS
Gene
Perturbation
Example perturbation: lexA
Relative
Expression Change
Esperimenti di perturbazione
www.tigem.it/research/DiBernardo.htm
43
D di Bernardo, TS
Gardner, JJ Collins
Science, 2003
Validazione di NIR
Network identified by NIR algorithm
(with 68% noise on data)
“Known” transcriptional network
recA
recA
umuDC
lexA
umuDC
rpoD
ssb
rpoS
recF
rpoH
lexA
rpoD
ssb
rpoS
recF
rpoH
dinI
dinI
Connection strengths
• Blue - previously observed connections
correctly identified by the algorithm
• Red - possible novel connections identified
by the algorithm or false positives
recA
lexA
ssb
recF
dinI
umuD
rpoD
rpoH
rpoS
recA
0.40
-0.18
-0.01
0
0.10
0
-0.01
0
0
lexA
0.39
-0.67
-0.01
0
0.09
-0.07
0
0
0
ssb
0.04
-1.19
-0.28
0
0.05
0
0.03
0
0
recF
0
0
0
0
0
0
0
0
0
dinI
0.28
0
0
0
-1.09
0.16
-0.04
0.01
0
umuDC
0.11
-0.40
-0.02
0
0.20
-0.15
0
0
0
rpoD
-0.17
0
-0.02
0
0.03
0
-0.51
0.02
0
rpoH
0.10
0
0
0
0.01
-0.03
0
0.52
0
rpoS
0.22
0
0
-1.68
0.67
0
0.08
0
-2.92
www.tigem.it/research/DiBernardo.htm
44
Systems Biology e farmaci
www.tigem.it/research/DiBernardo.htm
45
Meccanismo di azione dei farmaci
farmaco
Proteina
www.tigem.it/research/DiBernardo.htm
46
Meccanismo di azione dei farmaci
complesso
proteina+farmaco
www.tigem.it/research/DiBernardo.htm
47
Problema
• Con quale proteina interagisce il farmaco?
• Effetti indesiderati:
– Il farmaco interagisce anche con altre proteine
oltre quella “terapeutica”, possiamo
identificarle?
www.tigem.it/research/DiBernardo.htm
48
Systems Biology e farmaci
D di Bernardo, TS
Gardner, JJ Collins
Nature Biotechnolgy, in
press
www.tigem.it/research/DiBernardo.htm
49
Identificazione dei target dei farmaci
?
www.tigem.it/research/DiBernardo.htm
50
L’algoritmo MNI riesce ad individuare i target di antimicotici
www.tigem.it/research/DiBernardo.htm
51
Systems Biology e malattie genetiche
• Malettie genetiche:
– …AAACGACC… sequenza del gene “sano”
– …AAATGACC… sequenza del gene “mutato”
– La proteina prodotta non funziona piu’ come
deve
Problema: quale
processo biologico viene
alterato?
www.tigem.it/research/DiBernardo.htm
52
Identificazione della rete di regolazione locale di un gene malattia
www.tigem.it/research/DiBernardo.htm
53
Serie temporale da microarray
• Analisi dei dati:
• rumore
•punti mancanti
•geni che non cambiano
•outliers
smoothing
www.tigem.it/research/DiBernardo.htm
54
Conclusioni
• L’analisi dei dati sperimentali attraverso modelli
computazionali riesce ad individuare interazioni
tra geni non visibili altrimenti.
• I modelli computazionali di reti genetiche sono
utili per indentificare i target di farmaci.
• La biologia computazionale e’ una realta’
www.tigem.it/research/DiBernardo.htm
55
Lezione 3: Ingegneria e Systems Biology
• Cenni di system identification
• Il problema del "curse of dimensionality”
• Cosa ci resta da fare?
www.tigem.it/research/DiBernardo.htm
56
Identificazione di sistemi
•
•
•
•
Definisci un modello
Definisci una funzione di costo per misurare la bonta’ di un modello
Definisci una strategia per trovare i parametri del modello che meglio
rappresentano i dati.
Esegui le misure sperimentali per raccogliere i dati
www.tigem.it/research/DiBernardo.htm
57
Identificazione di sistemi
•
Modelli: probabilistici/deterministici
– Reti booleane
– Reti bayesiane
– Equazione differenziali ordinarie
• Modelli: statici/dinamici
– x1=f(x1,x2,…,xN)
STATICI
– x1(t)=f(t,x1,x2,…,xN) DINAMICI
•
Funzione di costo
–
–
–
–
•
Errore Quadratico Medio
Errore assoluto
Maximum Likelihood Estimation
…
Strategia per trovare la soluzione (dipende dalla f.c. scelta)
–
–
–
–
–
Algebre lineare (PCA, ICA)
Reti neurali
Simulated Annealing
Genetic algorithm
…
www.tigem.it/research/DiBernardo.htm
58
Esempio:
www.tigem.it/research/DiBernardo.htm
59
Modello: sistemi LTI
x’1(t) = a11x1+a12x2+...+a1nxn + u1
........................................ Transcriptional perturbations
x’n(t) = an1x1+an2x2+...+annxn + un
Oppure in forma matriciale:
x’=Ax+u
www.tigem.it/research/DiBernardo.htm
60
Strategia
•
Perturbiamo un gene x i alla volta e misuriamo la risposta degli altri geni allo stato
stazionario:
x’(t) = 0 = A x+u
A x = -u
•
Se ripetiamo l’esperimento per tutti gli N geni possiamo risolvere direttamente:
A X=-U
A (N x N), X (N x N), U (NxN)
?
Dati
Dati
www.tigem.it/research/DiBernardo.htm
61
Oppure:
•
Perturbiamo un gene e misuriamo la risposta dinamica degli altri geni:
?
X’=AX + u
X’ derivata della concetrazione del gene a t1…tM
X concentrazione del gene a t1…tM
(N x M)
(N x M)
u perturbazione a t1…tM (N x M)
www.tigem.it/research/DiBernardo.htm
62
Funzione di costo
• Se facciomo M esperimenti (M>N) il sistema e’
sovradeterminato (piu’ equazioni che incognite)
• Possiamo scegliere la soluzione che minimizza
una funzione di costo: Errore Quadratico Medio:
f.c.=minA{||AX+U||2}
www.tigem.it/research/DiBernardo.htm
63
Reti Booleane
– Gene {0,1}
– Gene x1= f(x1,x2,…,xN)
– f(.) e’ una funzione booleana
• Esempio f(x1)= (x1 AND x2) NOT (x3 OR x4)
A
At = At-1 OR Ct-1
C
Bt = At-1 AND Ct-1
Ct = NOT At-1
Boolean circuits
B
www.tigem.it/research/DiBernardo.htm
64
Reti bayesiane
•
X e’ condizionalmente indipendente da Y se:
–
•
•
P(X | Y, Z) = P(X | Z)
Rete bayesiana
–
GRAFO che rappresente le dipendenze
–
nodi: gene
–
archi: esite un arco da X a Y se Y dipende da X
Identificazione di reti bayesiane
–
Dati D={d1,d2,…,dM} trova il grafo G che meglio rappresenta D
–
F.C.= max P(G/D)=P(D/G)P(G)
n
P ( X 1 , X 2 ,..., X n ) = ∏ P ( X i | parents( X i ))
i =1
X2
X€
4
X1
X5
X3
www.tigem.it/research/DiBernardo.htm
65
www.tigem.it/research/DiBernardo.htm
66
Principali problemi da risolvere
www.tigem.it/research/DiBernardo.htm
67
Principali problemi da risolvere
Molti dati sperimentali sono necessari per l’identificazione:
• Struttura del modello
• Numero di esperimenti
– Booleana N geni
– 2N
– Boolena N geni, grado k
– k 2k log(N)
– Lineari
– k log(k/N)
N geni, grado k
www.tigem.it/research/DiBernardo.htm
68
Possibili soluzioni
• Riduzione della dimensionalita’
– PCA, ICA
• Smoothing e interpolazione
• Introdurre dei “constrains”
– La rete deve essere sparsa (non tutti i geni sono
connessi tra loro). La rete e’ scale-free
www.tigem.it/research/DiBernardo.htm
69
Dalle reti trascrizionale a modelli completi:
• Le reti biologiche possono essere suddivise in:
– Trascrizionali
– Proteina-proteina
– Metaboliche
• In realta’ questa suddivisione non esiste
• Bisogna integrare questi tre tipi di rete:
www.tigem.it/research/DiBernardo.htm
70
Systems Biology and Gene networks
Research group:
Diego di Bernardo, PI - engineering
Alberto Ambesi, MD student - medicine
Mukesh Bansal, PhD student - physics
Giusy Della Gatta, PhD student - biology
Silvana Capasso, PhD student - engineering
http://www.tigem.it/Research/DiBernardo.h t m
External collaborators:
Dr Timothy Gardner: Biomedical Engineering, Boston University
Prof. James Collins: Biomedical Engineering, Boston University
Dr Pietro Lio’: Computer Laboratory, University of Cambridge
Dr Umberto Amato, Dr Italia De Feis, Dr Claudia Angelini: CNR Institute of Applied
Mathematics, Italy
Internal collaborators:
Dr Caterina Missero
www.tigem.it/research/DiBernardo.htm
71
Bibliografia
• Reti biologiche:
–
Barabasi AL, Oltvai ZN. Network biology: understanding the cell's functional organization. Nat Rev Genet. 2004 Feb;5(2):101-13. Review.
–
Yook SH, Oltvai ZN, Barabasi AL. Functional and topological characterization of protein interaction networks. Proteomics. 2004 Apr;4(4):92842.
–
de Jong H. Modeling and simulation of genetic regulatory systems: a literature review. J Comput Biol. 2002;9(1):67-103. Review.
• Identificazione di reti biologiche:
–
Gardner TS, di Bernardo D, Lorenz D, Collins JJ. Inferring genetic networks and identifying compound mode of action via expression profiling.
Science. 2003 Jul 4;301(5629):102-5.
–
Chemogenomic profiling on a genome wide scale using reverse-engineereeing gene networks . Diego di Bernardo Michael J. Thompson,
Timothy S. Gardner et al. Nature Biotechnology, In press (esce sul numero di Marzo).
www.tigem.it/research/DiBernardo.htm
72