M. Cosentino Lagomarsino ( Curie- Paris and dip Fis

M. Cosentino Lagomarsino ( Curie- Paris and dip Fis-Unimi)
P. Jona (Politecnico di Milano, Dip. Fisica)
B. Bassetti (dip Fis-Unimi)
F. Capuani and A. Ciliberto (Ifom)
H. Isambert (Curie- Paris)
J. Berg (Un- Colonia )
G. Franzese (Un- Barcellona )
C. Maffi
P. Malgaretti
A. Sellerio
S. Mandra’
due autori
S. Kauffman
U. Alon
due articoli
M.Mezard,F.Ricci-Tersenghi,R. Zecchina
“Alternative solution to diluited p-spin models and XORSAT problem”
J. Stat.Phys,505, 2003
S.Caracciolo, A. Sportiello
“ An exactly solvable random satisfiably problem” J. Phys. A,35:7661-7688, 2002
un libro
VF Kolchin Random graphs Cambridge Un Press (1998)
qual è lo spazio configurazionale per un genoma ?
quale geometria ?
quali dinamiche compatibili?
Modello trascrizionale • 1- oggetto elementare: gene
• 2- topologia ambiente : network di interazione
• 3- tipi di interazione : combinatoriale (multicorpi)
1.
gene come oggetto elementare genoma ≡ set di N geni
sperimentalmente ...?!?
Assunzione 0
un gene puo’ essere acceso o spento
σ stato configurazionale del genoma
il j-simo gene e’ nello stato σj = ±1
2.
Rete trascrizionale due tipi di geni:
⇒ strutturali: determinano la sequenza delle proteine
⇒ regolatori: modulano la trascrizione dei geni strutturali
proteine prodotte da j si legano ai siti di trascrizione per i
inibendo o attivando la trascrizione
sperimentalmente ... micro-array
Ai,j matrice di adiacenza :
Ai,j = 1 j controlla i
Ai,j = 0 altrimenti
3. tipo di interazione:
l’attivazione e la repressione di un gene
sembrano descritte da
combinatorial transcription logic
( ⇒ funzioni a piu’ variabili f (·))
sperimentalmente ...???
Assunzione 1
Lo stato di un gene (strutturale o regolatore ) e’ determinato
dagli stati dei geni regolatori che lo controllano
σm = fm (A 3 σ)m
m∈M
(A 3 σ)m: set di variabili associate alla clausola m
Assunzione 2
Le equazioni sono vincoli che lo stato configurazionale
deve rispettare
(dinamiche: residue, sulla ridondanza delle soluzioni)
Le equazioni definiscono un problema di soddisfacibilita’
Grandezze di interesse
1. numero stati configurazionali accessibili
N (A, f ) =
X
δ(f (Aσ) − σ)
σ
2. geometria degli stati:
numero coppie di soluzioni distanti αN
Z(A, f ; α) =
P P
σ τ δ(|σ − τ | − αN ) δ(f (Aσ) − σ) δ(f (Aτ ) − τ )
gap nelle distanze (→ possibili fasi)
3. spin congelati - (· · · energia consumata)
4. motif · · ·
5. (dinamiche): esistono cicli ? (T (N ) = O(1))
Aleatorietà:
L’aleatorietà è
• nel network
(distr. di “connesioni-in”,distr. di “connesioni-out”, distr. di “1 su diag.”)
• nelle fm
Q
Xor: fm(σ1(m) , ...σp(m)) = Jm i∈m σi
....
Fp “tutte” le funzioni a p variabili
....
Jm = ±1
(nel limite termodinamico)
sono sorprendentemente semplici da calcolare
i valori medi delle precedenti grandezze : EN , EZ(α), · · ·
!! le clausole sono RV iid e le funzioni sono RV iid
anche RV iid → RV scambiabili
ma il calcolo e’ significativo solo se le grandezze
sono tipiche e non eccezionali
Si puo’ controllare con sefl-average
(comportamento di
(EN )2 (EZ(α))2
, EZ 2(α) )
EN 2
tipico / eccezionale
La questione e’ centrale nel senso :
“ la cellula e’ un sistema che emerge dalle proprieta’ del network dei geni
o c’e’ di piu’ “?
Network Ecoli → randomizzo con criterio R
Ecoli e’ tipica ? ≡ gradezze misurabili hanno valori ∼ medi?
( evoluzione, selezione naturale ...agiscono sul network o su cosa ?)
Parametri del sistema
N numero geni totali
M geni sottoposti a vincoli (equazioni)
geni regolati “dall’interno” del sistema (RAR,R,RR)
rispondono solo ai geni stessi.
(N − M ) = ∆ geni liberi (ATT! diff. Kauffman)
- “liberi” di rispondere agli input dell’ambiente in modo diretto
- controllano senza essere controllati
(!! problema: autocontrollati → matrice con diagonale strutturata)
un buon parametro quando N → ∞: γ = M
N
intricatezza della rete
FREE
i 0 ... ... 0
FAR
i
0
0
RR
i
i 0 1 0 ...
0
1
...
FREE=free regulator
FAR= free auto-regulator
i
i 100
1**
***
R
...
i
i 100
0**
0**
RAR
1
RAR=regulated autoregolator
R=regulated
RR=regulated regolator
Meccanica Statistica
• Per meccanica statistica MS e reti neurali RN è sempre N = ∞
(in MS: N = 1027, in RN : N = 1015)
• è ben definito il significato del network e dell’interazione
(MS: energia , RN scariche eccitatorie / inibitorie)
• è ben definito il concetto di stato macroscopico / fase
(in MS: fasi di Gibbs, in RN: memorie)
Nel caso cellula: Meccanica Statistica ??
• il numero dei geni è relativamente basso: 103 ≤ N ≤ 105
organism
Plant
Human, mouse or rat
Fruit Fly
Fungus
Bacterium
DNA virus
RNA virus
Viroid
genes
< 5 104
2.5 104
1.4 104
6 103
5 102 : 6 103
10 : 9 102
1 : 25
0:1
base pairs
< 1011
3 109
1.3108
1.3107
.
5
7
510 : 10
5 103 : 8 105
103 : 2.3 105
5 102
• non e’ scontato il significato del network:
esempio λ-fago
esempio apoptosi
• Per cellula cos’e’ stato macroscopico?
insieme degli stati in un ciclo cellulare?
tipo di cellula ?
specie?
reti e risolvibilita’ delle equazioni
intuitivamente
reti ad albero


1 0 0





 0 1 0







1
0
0 0 1 ...
0 0 0 1
0 0 0 0
...
...
...
0
1
...
1
...
...
...
...
...
...
...
...
1
... ...
2
4
7
→ sempre risolubile
3
... ...
5
6
... ...
69
186
56
193
136
141
142
132
2
278
131
esempio E-coli
1
294
332
365
3
137
135
140
134
4
138
139
264
367
381
133
5
reti con feedback e loop

1 0
1
1
0
0 ...

 1

 0

 1

1 .0.. 0 1 1
0 .0. 1 0 1
1 ... 0 0 1
... 1 ... ... ...
1
0 1 ... ...
6




 . → risolubile ma ... .



7
1
4
2
3
5
reti con feedback e hyperloop








1
0
1
0
...
0
1
1
0
...
1
0
1
0
...
1
0
0
1
...
1
1
1
1
...
0
1
0
1
...

0
1
0
1
...



. →



1
3
5
4
6
7
2
irresolubile
- esistenza di loop
non compromette la risolvibilità
(e’ condizione per cicli)
oscillatore armonico
- esistenza hyperloop (critical set )
la struttura topolologica seleziona sottoclassi di funzioni
f1(f2(..(σ1))), f3(..(σ1))), ..))) = σ1
Due strumenti per studiare il feedback:
problema lineare GF2
Leaf Removal
grafo ⇒ problema lineare in campo Galois {0, 1}
GF2
Ax = v
hP
i
j Ai,j xj mod 2 = vi
vi ≡ funzione
valgono tutti i teoremi di algebra lineare:
kernel, rango,...
R(A) + K(A) = N ;
R(At ) + K(At) = M ;
R(A) = R(At)
tutto diventa algebrico:
albero ≡ vettori riga con componenti distinte
hyperloop ≡ {∃h : hA = 0}
loop ≡{∃B ⊂ A, ∃h0 : h0 B = 0}
1 – numero di soluzioni di Ax = v
tante quante quelle contenute nel kernel di A
condizionatamente al fatto che v sia nel range di A
↓
numero medio:
EN =
X
p(A)
X
v
A
p(v)δv∈R(A) · 2K(A)
per v con distr. uniforme
EN = 2N −M
con
2
N −M
EN = 4
·
X
A
t
2K(A )p(A)
ATT!!
tipico contro eccezionale
2R(A) K(A)
N =
p(A)
· 2
M
2
A
X
e’ sempre
EN = 2N −M
ma A a range nullo contro A a range massimo
solo se:
EN 2 = 4N −M ·
X
A
“tutti” gli A hanno lo stesso comportamento
la cellula non e’ la vincitrice del superenalotto
t
2K(A )p(A) ≡ (EN )2
P
P s
t)
K(A
p(A) = s 2 p(K(At ) = s)
A2
nel limite termodinamico la distr. di K(At)
e’ funzione singolare di γ = M
N con valore critico γc
tipicamente (circa-circa):
P (K(At ) = 0) → 1 γ < γc(p)
P (K(At ) = M ) → 1
γ > γc(p)
2 – distanza fra soluzioni
numero di coppie che
soddisfano la stessa istanza A, v
e distano αN :
Z(α; A, v) =
=
P
⇓
valor medio:
x
δ(Ax − v)
XX
x
P
z
δ(|x − y| − αN ) δ(Ax − v) δ(Ay − v)
y
δ(|z| − αN ) δ(Az)
N −M
EZ(α) = 2
N X
eα = {1, 1, ...., 1, −1, −1, ...}
αN
A
p(A) δ(Aeα)
⇒
P
A p(A) δ(Aeα) ≡
probabilita’ che le prime αN colonne siano l.d.
asintoticamente:
EZ(α) = exp N [(1 − γ) ln(2) + S(α) + h(α, γ)]
→ stima di γd
(sup)
similmente varianza EZ 2(α)
→ stima di γd (inf)
esempio
grafi connettivita’-in tipo poisson
1 ln(Z(α)) contro α
N
B(x,0.99)
B(x,0.9)
B(x,0.85)
B(x,0.80)
B(x,0.75)
0
0.4
0.2
0
-0.2
-0.4
0
0.2
0.4
0.6
0.8
1
grafi quasi-completo
denso:
D(x,0.99)
D(x,0.9)
D(x,0.85)
D(x,0.80)
D(x,0.75)
0
0.4
0.2
0
-0.2
-0.4
0
0.2
0.4
0.6
0.8
1
1 ln(Z(α))controα
N
Leaf Removal
processo iterativo tipo Gauss
Iindividuazione di un gene “leaf”’
(gene regolato ma non regolatore)
⇒ cancellazione dell’equazione e del gene stesso.
(ulteriore cancellazione di geni che
appaiono in questa sola equazione)
Iitero fino esaurimento foglie
N (0), M (0) → N (1), M (1) → N (2), M (2) · · · → N (t), M (t) · · · → N (stop), M (stop)
M (t) decresce linearmente con i passi
N (t) decresce super-lineare
Ila matrice finale si chiama CORE
Nc = N (stop), Mc = M (stop) le sue dimensioni
Isi scrive equazione di evoluzione
si risolve analiticamente per out tipo Poisson
numericamente altri casi
Nc, Mc sono funzioni singolari di γ = M
N
il valore ( limN →∞
c determina la fase
)M
Nc
grafo senza diagonale strutturata
connettivia’-in p = 3
x≡γy≡
Mc
Nc
<Mc/Nc> vs. gamma per Xor con L.R. canonico p=3,N=1000,4x1E3 realizzazioni
1.2
1
0.8
0.6
0.4
0.2
0
0.5
0.6
0.7
0.8
0.9
1
c = 0 (M = N = o(N ))
se (γd > γ) : M
c
c
Nc
il core e’ vuoto ⇒
(fase Easy)
posso contare i livelli (O(1) !!)
e la relativa popolazione
c
se (γc > γ > γd): 0 < M
Nc < 1
il core non e’ vuoto ⇒
ho loop (in quantita’ estensiva)
e sono in fase Hard
c > 1
se(γ > γc) M
Nc
il core non e’ vuoto
e ho hyperloop (in quantita’ estensiva) ⇒
sono nella fase UNSAT
diagramma fase grafo diag non-strutturata
connettivita’ distribuita con Poisson di parametro ν:
c
ν
−ν
P (in = c) = e c!
ν ordinate, γ ascisse
1.8
1.6
1.4
EASY (Prokaryotes)
1.2
UN-SAT
1
0.8
0.6
HARD (Eukaryotes)
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
il LR permette di distinguere fra entropia e complessita’:
h
i
ln(EN ) = [N − M ] ln(2) = ∆c + (N − M − ∆c) ln(2)
e mostrare (...) che
complessita’ =: ∆c h: ln(2) →numero
cluster
i
entropia residua =: (N − M ) − ∆c ln(2) → dimensione cluster
**********
schematicamente
Per network A,
quasi completi (p(Ai,j = 1) = p ≡ O(1))
o diluiti (p(Ai,j = 1) = ln(NN)+x )
- GF2 da’ il γc e stima il γd
γc : in termini del divergere del kernel di At
(in prob., in media ...)
γd in termini di
gap fra distanze permesse a coppie di soluzioni,
(≡ stima dimensioni del kernel di sottomatrici di A)
- il LR non dice nulla in piu’
(core coincide con la matrice stessa )
Per network A a connettivita’-in finita
(tipo Xor, tipo Poisson (p(Ai,j = 1) = Nl ≡ o(N ))
- GF2 da’ facilmente γc
ma non e’ (?) altrettanto efficace per γd
- LR (... ) determina
1) il core (diverso dalla matrice iniziale)
2) distingue fra entropia e complessita’
3) individua la componente ad albero
4) e calcola il numero di livelli e la loro popolazione
Due osservazioni
1- -per passare da Xor, ... → modello trascrizionale ...
- problema autoregolati
- il LR ha comportamenti quantitativamente diversi
nel caso diagonale strutturata o non strutturata
diagramma fase (p =
P 3)
Ai,i
N
ascisse ≡ γ ordinate≡
i
Diagramma gamma-chi per p=3 controllato
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0.78
0.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
0.98
1
2- si possono definire vari LR
- in relazione grafi direzionati non direzionati
- e / o in relazione alle funzioni considerate
... cambia la complessita’ in funzione di γ
... e i valori critici γc, γd
N=500 p=3 <Mc/Nc> vs. M/N confronto casi 1,2a,2b
1
0.8
0.6
2a
1
2b
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
<Delta_f> vs. gamma per GR1 con L.R. canonico,modificato e bi-modificato, curva analitica
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
0.2
0.4
0.6
0.8
1
682
699
803
714
831
849
9
932
739
233
369
294
22
892
466
828
539
407
417
700
906
170
44
49
1
2
745
351
456
532
686
756
30
893
330
775
668
289
40
23
348
600
961
611
93
45
42
24
360
44
944
472
592
297
909
905
795
263
604
257
587
469
12
43
27
11
889
830
647
77
379
101
798
177
814
49
240
34
31
70
949
526
396
802
313
385
18
17
931
185
347
609
659
15
394
16
32
711
245
85
113
7
645
262
655
36
857
20
181
594
13
46
5
3
163
8
39
561
59
564
21
25
208
861
40
24
35
328
29
17
231
386
37
434
26
149
Core da L.R.modificato (loop e albero)
e da L.R.bi-modificato (loop)
L.R. canonico porta a core nullo
(γ = 0.4 , N = 1000)
19
Core da L.R. canonico (γ = 0.8 , N = 50)
questa ribollitura di problemi tipo SAT
ha rilevanza biologica ?
tentativo:
data la rete
→ e’ definibile un “core”
costituito da Nc geni
di cui Mc di tipo controllato
e ∆c = (Nc − Mc) con ruolo critico
Nella fase Hard
∆c e’ estensivo
i geni corrispondenti sono super-regolatori:
• ognuno di questi controlla O(N ) geni.
• il loro stato determina/definisce la specie della cellula
o il bacino dinamico
• il fatto che ogni superreg controlli O(N ) geni
implica l’irreversibilita’ del processo di speciazione
• fissato lo stato dei superreg,
i restanti geni possono esplorare un insieme di stati (interni),
associati ad una rete ad albero con 0(1) livelli
• (??) condizione per dinamiche con cicli finiti anche per N grande
possibile rete eucarioti
Nella fase Easy
il core e’ vuoto
• I geni liberi sono le radici di una rete ad albero
con numero finito di livelli
• si ha un solo ipotetico tipo di cellula
• e un insieme di stati (interni ) massimale, non strutturati
• per grande N dinamiche in generale caotiche
possibile rete batteri ( N piccolo)
la fase Unsat
possibile rete biologica?
Se si : cellula ≡ rete eccezionale
si devono individuare altre caratteristiche per descrivere il sistema
!! problema !!
- grande fragilita’
sperimentalmente:
autoregolatori in numero estensivo
↓
escludo fase Unsat
!! problema!!
quale evoluzione per giustificare autoregolatori ?
analisi dati
Rete E-coli
423 geni totali
M = 342
i τ sono 81
γ = 0.809
e quindi
Se non considero autoregolati: core nullo
Se considero autoregolati:
i τ core sono 14
gli σ core sono 4
i RAR sono 24
24
127
292
136
arcA
fhlA
ompR_envZ
flhDC
66
69
114
143
156
190
229
251
282
339
346
358
370
413
σc
4
154
169
193
267
fur
glnALG
hns
nac
αc
crp
cspA
exuR
fnr
GalR
himA
lysR
metJ
nlpD_rpoS
rob
rpoN
soxR
tdcAR
yhdG_fis
τc
14
4
τ free
67
α nc
20
σ nc
314