M. Cosentino Lagomarsino ( Curie- Paris and dip Fis-Unimi) P. Jona (Politecnico di Milano, Dip. Fisica) B. Bassetti (dip Fis-Unimi) F. Capuani and A. Ciliberto (Ifom) H. Isambert (Curie- Paris) J. Berg (Un- Colonia ) G. Franzese (Un- Barcellona ) C. Maffi P. Malgaretti A. Sellerio S. Mandra’ due autori S. Kauffman U. Alon due articoli M.Mezard,F.Ricci-Tersenghi,R. Zecchina “Alternative solution to diluited p-spin models and XORSAT problem” J. Stat.Phys,505, 2003 S.Caracciolo, A. Sportiello “ An exactly solvable random satisfiably problem” J. Phys. A,35:7661-7688, 2002 un libro VF Kolchin Random graphs Cambridge Un Press (1998) qual è lo spazio configurazionale per un genoma ? quale geometria ? quali dinamiche compatibili? Modello trascrizionale • 1- oggetto elementare: gene • 2- topologia ambiente : network di interazione • 3- tipi di interazione : combinatoriale (multicorpi) 1. gene come oggetto elementare genoma ≡ set di N geni sperimentalmente ...?!? Assunzione 0 un gene puo’ essere acceso o spento σ stato configurazionale del genoma il j-simo gene e’ nello stato σj = ±1 2. Rete trascrizionale due tipi di geni: ⇒ strutturali: determinano la sequenza delle proteine ⇒ regolatori: modulano la trascrizione dei geni strutturali proteine prodotte da j si legano ai siti di trascrizione per i inibendo o attivando la trascrizione sperimentalmente ... micro-array Ai,j matrice di adiacenza : Ai,j = 1 j controlla i Ai,j = 0 altrimenti 3. tipo di interazione: l’attivazione e la repressione di un gene sembrano descritte da combinatorial transcription logic ( ⇒ funzioni a piu’ variabili f (·)) sperimentalmente ...??? Assunzione 1 Lo stato di un gene (strutturale o regolatore ) e’ determinato dagli stati dei geni regolatori che lo controllano σm = fm (A 3 σ)m m∈M (A 3 σ)m: set di variabili associate alla clausola m Assunzione 2 Le equazioni sono vincoli che lo stato configurazionale deve rispettare (dinamiche: residue, sulla ridondanza delle soluzioni) Le equazioni definiscono un problema di soddisfacibilita’ Grandezze di interesse 1. numero stati configurazionali accessibili N (A, f ) = X δ(f (Aσ) − σ) σ 2. geometria degli stati: numero coppie di soluzioni distanti αN Z(A, f ; α) = P P σ τ δ(|σ − τ | − αN ) δ(f (Aσ) − σ) δ(f (Aτ ) − τ ) gap nelle distanze (→ possibili fasi) 3. spin congelati - (· · · energia consumata) 4. motif · · · 5. (dinamiche): esistono cicli ? (T (N ) = O(1)) Aleatorietà: L’aleatorietà è • nel network (distr. di “connesioni-in”,distr. di “connesioni-out”, distr. di “1 su diag.”) • nelle fm Q Xor: fm(σ1(m) , ...σp(m)) = Jm i∈m σi .... Fp “tutte” le funzioni a p variabili .... Jm = ±1 (nel limite termodinamico) sono sorprendentemente semplici da calcolare i valori medi delle precedenti grandezze : EN , EZ(α), · · · !! le clausole sono RV iid e le funzioni sono RV iid anche RV iid → RV scambiabili ma il calcolo e’ significativo solo se le grandezze sono tipiche e non eccezionali Si puo’ controllare con sefl-average (comportamento di (EN )2 (EZ(α))2 , EZ 2(α) ) EN 2 tipico / eccezionale La questione e’ centrale nel senso : “ la cellula e’ un sistema che emerge dalle proprieta’ del network dei geni o c’e’ di piu’ “? Network Ecoli → randomizzo con criterio R Ecoli e’ tipica ? ≡ gradezze misurabili hanno valori ∼ medi? ( evoluzione, selezione naturale ...agiscono sul network o su cosa ?) Parametri del sistema N numero geni totali M geni sottoposti a vincoli (equazioni) geni regolati “dall’interno” del sistema (RAR,R,RR) rispondono solo ai geni stessi. (N − M ) = ∆ geni liberi (ATT! diff. Kauffman) - “liberi” di rispondere agli input dell’ambiente in modo diretto - controllano senza essere controllati (!! problema: autocontrollati → matrice con diagonale strutturata) un buon parametro quando N → ∞: γ = M N intricatezza della rete FREE i 0 ... ... 0 FAR i 0 0 RR i i 0 1 0 ... 0 1 ... FREE=free regulator FAR= free auto-regulator i i 100 1** *** R ... i i 100 0** 0** RAR 1 RAR=regulated autoregolator R=regulated RR=regulated regolator Meccanica Statistica • Per meccanica statistica MS e reti neurali RN è sempre N = ∞ (in MS: N = 1027, in RN : N = 1015) • è ben definito il significato del network e dell’interazione (MS: energia , RN scariche eccitatorie / inibitorie) • è ben definito il concetto di stato macroscopico / fase (in MS: fasi di Gibbs, in RN: memorie) Nel caso cellula: Meccanica Statistica ?? • il numero dei geni è relativamente basso: 103 ≤ N ≤ 105 organism Plant Human, mouse or rat Fruit Fly Fungus Bacterium DNA virus RNA virus Viroid genes < 5 104 2.5 104 1.4 104 6 103 5 102 : 6 103 10 : 9 102 1 : 25 0:1 base pairs < 1011 3 109 1.3108 1.3107 . 5 7 510 : 10 5 103 : 8 105 103 : 2.3 105 5 102 • non e’ scontato il significato del network: esempio λ-fago esempio apoptosi • Per cellula cos’e’ stato macroscopico? insieme degli stati in un ciclo cellulare? tipo di cellula ? specie? reti e risolvibilita’ delle equazioni intuitivamente reti ad albero 1 0 0 0 1 0 1 0 0 0 1 ... 0 0 0 1 0 0 0 0 ... ... ... 0 1 ... 1 ... ... ... ... ... ... ... ... 1 ... ... 2 4 7 → sempre risolubile 3 ... ... 5 6 ... ... 69 186 56 193 136 141 142 132 2 278 131 esempio E-coli 1 294 332 365 3 137 135 140 134 4 138 139 264 367 381 133 5 reti con feedback e loop 1 0 1 1 0 0 ... 1 0 1 1 .0.. 0 1 1 0 .0. 1 0 1 1 ... 0 0 1 ... 1 ... ... ... 1 0 1 ... ... 6 . → risolubile ma ... . 7 1 4 2 3 5 reti con feedback e hyperloop 1 0 1 0 ... 0 1 1 0 ... 1 0 1 0 ... 1 0 0 1 ... 1 1 1 1 ... 0 1 0 1 ... 0 1 0 1 ... . → 1 3 5 4 6 7 2 irresolubile - esistenza di loop non compromette la risolvibilità (e’ condizione per cicli) oscillatore armonico - esistenza hyperloop (critical set ) la struttura topolologica seleziona sottoclassi di funzioni f1(f2(..(σ1))), f3(..(σ1))), ..))) = σ1 Due strumenti per studiare il feedback: problema lineare GF2 Leaf Removal grafo ⇒ problema lineare in campo Galois {0, 1} GF2 Ax = v hP i j Ai,j xj mod 2 = vi vi ≡ funzione valgono tutti i teoremi di algebra lineare: kernel, rango,... R(A) + K(A) = N ; R(At ) + K(At) = M ; R(A) = R(At) tutto diventa algebrico: albero ≡ vettori riga con componenti distinte hyperloop ≡ {∃h : hA = 0} loop ≡{∃B ⊂ A, ∃h0 : h0 B = 0} 1 – numero di soluzioni di Ax = v tante quante quelle contenute nel kernel di A condizionatamente al fatto che v sia nel range di A ↓ numero medio: EN = X p(A) X v A p(v)δv∈R(A) · 2K(A) per v con distr. uniforme EN = 2N −M con 2 N −M EN = 4 · X A t 2K(A )p(A) ATT!! tipico contro eccezionale 2R(A) K(A) N = p(A) · 2 M 2 A X e’ sempre EN = 2N −M ma A a range nullo contro A a range massimo solo se: EN 2 = 4N −M · X A “tutti” gli A hanno lo stesso comportamento la cellula non e’ la vincitrice del superenalotto t 2K(A )p(A) ≡ (EN )2 P P s t) K(A p(A) = s 2 p(K(At ) = s) A2 nel limite termodinamico la distr. di K(At) e’ funzione singolare di γ = M N con valore critico γc tipicamente (circa-circa): P (K(At ) = 0) → 1 γ < γc(p) P (K(At ) = M ) → 1 γ > γc(p) 2 – distanza fra soluzioni numero di coppie che soddisfano la stessa istanza A, v e distano αN : Z(α; A, v) = = P ⇓ valor medio: x δ(Ax − v) XX x P z δ(|x − y| − αN ) δ(Ax − v) δ(Ay − v) y δ(|z| − αN ) δ(Az) N −M EZ(α) = 2 N X eα = {1, 1, ...., 1, −1, −1, ...} αN A p(A) δ(Aeα) ⇒ P A p(A) δ(Aeα) ≡ probabilita’ che le prime αN colonne siano l.d. asintoticamente: EZ(α) = exp N [(1 − γ) ln(2) + S(α) + h(α, γ)] → stima di γd (sup) similmente varianza EZ 2(α) → stima di γd (inf) esempio grafi connettivita’-in tipo poisson 1 ln(Z(α)) contro α N B(x,0.99) B(x,0.9) B(x,0.85) B(x,0.80) B(x,0.75) 0 0.4 0.2 0 -0.2 -0.4 0 0.2 0.4 0.6 0.8 1 grafi quasi-completo denso: D(x,0.99) D(x,0.9) D(x,0.85) D(x,0.80) D(x,0.75) 0 0.4 0.2 0 -0.2 -0.4 0 0.2 0.4 0.6 0.8 1 1 ln(Z(α))controα N Leaf Removal processo iterativo tipo Gauss Iindividuazione di un gene “leaf”’ (gene regolato ma non regolatore) ⇒ cancellazione dell’equazione e del gene stesso. (ulteriore cancellazione di geni che appaiono in questa sola equazione) Iitero fino esaurimento foglie N (0), M (0) → N (1), M (1) → N (2), M (2) · · · → N (t), M (t) · · · → N (stop), M (stop) M (t) decresce linearmente con i passi N (t) decresce super-lineare Ila matrice finale si chiama CORE Nc = N (stop), Mc = M (stop) le sue dimensioni Isi scrive equazione di evoluzione si risolve analiticamente per out tipo Poisson numericamente altri casi Nc, Mc sono funzioni singolari di γ = M N il valore ( limN →∞ c determina la fase )M Nc grafo senza diagonale strutturata connettivia’-in p = 3 x≡γy≡ Mc Nc <Mc/Nc> vs. gamma per Xor con L.R. canonico p=3,N=1000,4x1E3 realizzazioni 1.2 1 0.8 0.6 0.4 0.2 0 0.5 0.6 0.7 0.8 0.9 1 c = 0 (M = N = o(N )) se (γd > γ) : M c c Nc il core e’ vuoto ⇒ (fase Easy) posso contare i livelli (O(1) !!) e la relativa popolazione c se (γc > γ > γd): 0 < M Nc < 1 il core non e’ vuoto ⇒ ho loop (in quantita’ estensiva) e sono in fase Hard c > 1 se(γ > γc) M Nc il core non e’ vuoto e ho hyperloop (in quantita’ estensiva) ⇒ sono nella fase UNSAT diagramma fase grafo diag non-strutturata connettivita’ distribuita con Poisson di parametro ν: c ν −ν P (in = c) = e c! ν ordinate, γ ascisse 1.8 1.6 1.4 EASY (Prokaryotes) 1.2 UN-SAT 1 0.8 0.6 HARD (Eukaryotes) 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 il LR permette di distinguere fra entropia e complessita’: h i ln(EN ) = [N − M ] ln(2) = ∆c + (N − M − ∆c) ln(2) e mostrare (...) che complessita’ =: ∆c h: ln(2) →numero cluster i entropia residua =: (N − M ) − ∆c ln(2) → dimensione cluster ********** schematicamente Per network A, quasi completi (p(Ai,j = 1) = p ≡ O(1)) o diluiti (p(Ai,j = 1) = ln(NN)+x ) - GF2 da’ il γc e stima il γd γc : in termini del divergere del kernel di At (in prob., in media ...) γd in termini di gap fra distanze permesse a coppie di soluzioni, (≡ stima dimensioni del kernel di sottomatrici di A) - il LR non dice nulla in piu’ (core coincide con la matrice stessa ) Per network A a connettivita’-in finita (tipo Xor, tipo Poisson (p(Ai,j = 1) = Nl ≡ o(N )) - GF2 da’ facilmente γc ma non e’ (?) altrettanto efficace per γd - LR (... ) determina 1) il core (diverso dalla matrice iniziale) 2) distingue fra entropia e complessita’ 3) individua la componente ad albero 4) e calcola il numero di livelli e la loro popolazione Due osservazioni 1- -per passare da Xor, ... → modello trascrizionale ... - problema autoregolati - il LR ha comportamenti quantitativamente diversi nel caso diagonale strutturata o non strutturata diagramma fase (p = P 3) Ai,i N ascisse ≡ γ ordinate≡ i Diagramma gamma-chi per p=3 controllato 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.78 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1 2- si possono definire vari LR - in relazione grafi direzionati non direzionati - e / o in relazione alle funzioni considerate ... cambia la complessita’ in funzione di γ ... e i valori critici γc, γd N=500 p=3 <Mc/Nc> vs. M/N confronto casi 1,2a,2b 1 0.8 0.6 2a 1 2b 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 <Delta_f> vs. gamma per GR1 con L.R. canonico,modificato e bi-modificato, curva analitica 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 0.2 0.4 0.6 0.8 1 682 699 803 714 831 849 9 932 739 233 369 294 22 892 466 828 539 407 417 700 906 170 44 49 1 2 745 351 456 532 686 756 30 893 330 775 668 289 40 23 348 600 961 611 93 45 42 24 360 44 944 472 592 297 909 905 795 263 604 257 587 469 12 43 27 11 889 830 647 77 379 101 798 177 814 49 240 34 31 70 949 526 396 802 313 385 18 17 931 185 347 609 659 15 394 16 32 711 245 85 113 7 645 262 655 36 857 20 181 594 13 46 5 3 163 8 39 561 59 564 21 25 208 861 40 24 35 328 29 17 231 386 37 434 26 149 Core da L.R.modificato (loop e albero) e da L.R.bi-modificato (loop) L.R. canonico porta a core nullo (γ = 0.4 , N = 1000) 19 Core da L.R. canonico (γ = 0.8 , N = 50) questa ribollitura di problemi tipo SAT ha rilevanza biologica ? tentativo: data la rete → e’ definibile un “core” costituito da Nc geni di cui Mc di tipo controllato e ∆c = (Nc − Mc) con ruolo critico Nella fase Hard ∆c e’ estensivo i geni corrispondenti sono super-regolatori: • ognuno di questi controlla O(N ) geni. • il loro stato determina/definisce la specie della cellula o il bacino dinamico • il fatto che ogni superreg controlli O(N ) geni implica l’irreversibilita’ del processo di speciazione • fissato lo stato dei superreg, i restanti geni possono esplorare un insieme di stati (interni), associati ad una rete ad albero con 0(1) livelli • (??) condizione per dinamiche con cicli finiti anche per N grande possibile rete eucarioti Nella fase Easy il core e’ vuoto • I geni liberi sono le radici di una rete ad albero con numero finito di livelli • si ha un solo ipotetico tipo di cellula • e un insieme di stati (interni ) massimale, non strutturati • per grande N dinamiche in generale caotiche possibile rete batteri ( N piccolo) la fase Unsat possibile rete biologica? Se si : cellula ≡ rete eccezionale si devono individuare altre caratteristiche per descrivere il sistema !! problema !! - grande fragilita’ sperimentalmente: autoregolatori in numero estensivo ↓ escludo fase Unsat !! problema!! quale evoluzione per giustificare autoregolatori ? analisi dati Rete E-coli 423 geni totali M = 342 i τ sono 81 γ = 0.809 e quindi Se non considero autoregolati: core nullo Se considero autoregolati: i τ core sono 14 gli σ core sono 4 i RAR sono 24 24 127 292 136 arcA fhlA ompR_envZ flhDC 66 69 114 143 156 190 229 251 282 339 346 358 370 413 σc 4 154 169 193 267 fur glnALG hns nac αc crp cspA exuR fnr GalR himA lysR metJ nlpD_rpoS rob rpoN soxR tdcAR yhdG_fis τc 14 4 τ free 67 α nc 20 σ nc 314