Lezione 1 Introduzione alla Systems Biology Diego di Bernardo TIGEM Telethon I nstitute of Genetics and M edicine www.tigem.it www.tigem.it/research/DiBernardo.htm 1 Schema della lezione • Cenni di biologia • Le teoria delle reti e le “reti biologiche” • Metodi sperimentali: i microarray www.tigem.it/research/DiBernardo.htm 2 Systems Biology? Una possibile definizione: “Integrazione dei dati sperimentali in modelli computazionali della cellula” Motivazione: Le nuove biotecnologie permettono la misura di migliaia di segnali (geni, proteine, metaboliti) durante il funzionamento della singola cellula. Per essere interpretati in maniera corretta, tali misure hanno bisogno di modelli. www.tigem.it/research/DiBernardo.htm 3 Biologia www.tigem.it/research/DiBernardo.htm 4 Cenni di Biologia Molecolare • La cellula e’ composta per il 99% da C, N, O, H. • Un polimero e’ una macromolecola composta da un numero di molecole piu’ piccole e simili tra loro. www.tigem.it/research/DiBernardo.htm 5 Acidi Nucleici e proteine • Polimeri: – DNA (Informazione) • nucleotidi – RNA (Decodifica) • ribonucleotidi – Proteine (Prodotti) • amino acidi www.tigem.it/research/DiBernardo.htm 6 www.tigem.it/research/DiBernardo.htm 7 Central Dogma Transcription copia Gene (DNA) Hard disk Translation elabora mRNA Memoria RAM Proteina Prodotto I geni possono essere accesi o spenti a seconda delle necessita’ della cellula www.tigem.it/research/DiBernardo.htm 8 Trascrizione e traduzione www.tigem.it/research/DiBernardo.htm 9 Regolazione della trascrizione: i fattori di trascrizione www.tigem.it/research/DiBernardo.htm 10 Regolazione Combinatoriale www.tigem.it/research/DiBernardo.htm 11 Esempio di regolazione www.tigem.it/research/DiBernardo.htm 12 Livelli di regolazione M-RNA IS PROCESSED (SPLICED) TRANSCRIPTIONAL CONTROL RNA PROCESSING CONTROL RNA TRANSPORT CONTROL RNA DEGRADATION TRANSLATIONAL CONTROL PROTEIN ACTIVITY www.tigem.it/research/DiBernardo.htm 13 Teoria delle reti • • • La cellula e’ il risultato di molti sub-componenti che interagiscono fra loro. La teoria dei grafi (reti) e’ utile per descrivere sistemi complessi Definizioni: – grafo G={V,E} dove V insieme di vertici o nodi, e E insieme degli archi – grado k: numero di archi incidenti sul nodo – digrafo: gli archi hanno una direzione (E insieme ordinato di nodi) – P(k) distribuzione di grado: probabilita’ che un nodo abbia esattamente grado k: P(k)=N(k)/N – C(k) clustering: tendenza dei nodi a formare agglomerati. Se A e’ connesso con B, e B con C, allora e’ probabile che A sia connesso con C? Barabasi et al, Nature Review Genetics, 2004, 5:101: http://www.nd.edu/~networks/PDF/Wuchty03_NatureGenetics.pdf www.tigem.it/research/DiBernardo.htm 14 Teoria delle reti • Random networks: – I nodi hanno circa lo stesso numero di archi • Scale-free networks: – P(k)=k-g Alcuni nodi hanno molti archi (hubs) – Internet, reti biologiche, reti sociali • Hierarchical netoworks – Modularita’ – Sono formate dalla ripetizioni di cluster di nodi. Sono scale-free. Barabasi et al, Nature Review Genetics, 2004, 5:101: http://www.nd.edu/~networks/PDF/Wuchty03_NatureGenetics.pdf www.tigem.it/research/DiBernardo.htm 15 Matrice di adiacenza 0 0 -1 +1 +1 0 +1 0 www.tigem.it/research/DiBernardo.htm 0 16 Reti biologiche • I processi biologici possono essere rappresentati come reti: – Reti trascrizionali(proteina-DNA)=digrafo • Nodi: geni e proteine • Archi: un TF regola un gene – Reti proteina-proteina = grafo • Nodi: proteine • Archi: esiste una interazione diretta tra due proteine – Reti metaboliche: • Nodi: prodotti • Archi: se esiste un enzima (proteina) che trasforma un prodotto in un altro …oppure come Reti di influenza • Nodi: geni • Archi: esiste una “influenza” di un gene su un altro www.tigem.it/research/DiBernardo.htm 17 Esempio di rete trascrizionale www.tigem.it/research/DiBernardo.htm 18 Esempio di rete di interazione: proteina-proteina in lievito www.tigem.it/research/DiBernardo.htm 19 Esempio di rete metabolica www.tigem.it/research/DiBernardo.htm 20 Metodi Sperimentali • Per sviluppare un modello della reti di regolazione, abbiamo bisogno di misure: – Esistono almeno 40’000 geni, cioe’ 40’000 specie di mRNA e 40’000 specie di proteine – Una “rivoluzione” e’ stata la possibilita’ di misurare tutti e 40’000 mRNA in maniera parallela grazie ai microarray – Non esisto ancora tecniche per misurate le 40’000 proteine…ma ci siamo quasi… www.tigem.it/research/DiBernardo.htm 21 Microarray Affymetrix GeneChip cDNA microarray www.tigem.it/research/DiBernardo.htm 22 cDNA: funzionamento www.tigem.it/research/DiBernardo.htm 23 cDNA: esperimento www.tigem.it/research/DiBernardo.htm 24 Risultato: www.tigem.it/research/DiBernardo.htm 25 Affymetrix GeneChip Hybridized Probe Cell Single stranded, fluorescently labeled DNA target Oligonucleotide probe 1.28cm * * * * * 24µm Each probe cell or feature contains millions of copies of a specific oligonucleotide probe Over 250,000 different probes complementary to genetic information of interest Image of Hybridized Probe Array www.tigem.it/research/DiBernardo.htm 26 Vantaggi: •107 probe per gene •Standard Svantaggi: • ~900 € www.tigem.it/research/DiBernardo.htm 27 Analisi dei dati • Problemi: – Image analysis: identificazione degli spot e della loro intensita’ – Normalizzazione: non posso confrontare piu’ array tra loro se prima non correggo per la quantita’ totale di cRNA (cDNA) che ho usato – Qualita’: un microarray puo’ dare risultati “strani” a causa di errori sperimentali, come li identifico? – Esiste una vasta letteratura e molta ricerca in questa area • Quali geni sono (relativamente) piu’ o meno espressi ? www.tigem.it/research/DiBernardo.htm 28 Misurare le interazioni tra proteine: Y2H www.tigem.it/research/DiBernardo.htm 29 Protein a Protein b known unknown Interaction Le proteine a e b interagiscono www.tigem.it/research/DiBernardo.htm 30 Prima 1 sola proteina alla volta Ora Larga scala www.tigem.it/research/DiBernardo.htm 31 Yeast two hybrid AD = Activation Domain DBD = DNA Binding Domain AD T DBD ti p i r on lex p m Co s ran c transcription gene www.tigem.it/research/DiBernardo.htm 32 bait DBD AD fish www.tigem.it/research/DiBernardo.htm 33 AD fish bait T DBD ti p i r on lex p m Co s ran c transcription UAS Reporter gene www.tigem.it/research/DiBernardo.htm 34 Lezione 2 Applicazioni della systems biology: • Identificazione di reti biologiche • Farmaci intelligenti • Malattie genetiche www.tigem.it/research/DiBernardo.htm 35 Applicazioni della Systems Biology • Ricerca di base – capire il funzionamento di un processo biologico – Malattie genetiche: perche’ se manca quel gene ho una malattia? • Ricerca applicata – capire il principio di azione dei farmaci – Con quali gene/proteine/metaboliti va ad interagire la molecola? www.tigem.it/research/DiBernardo.htm 36 www.tigem.it/research/DiBernardo.htm 37 Identificazione di reti biologiche Rete di regolazione da identificare Rete identificata ? www.tigem.it/research/DiBernardo.htm 38 “System Identification” e “reverse engineering” ? INPUT(S) OUTPUT(S) Input: perturbazioni allo stato del sistema (esempio accendiamo un gene) Output: misura della risposta alla perturbazione (risposta dei 40’000 geni) www.tigem.it/research/DiBernardo.htm 39 Identificare la rete significa capire cosa c’e’ nella “scatola nera” INPUT(S) OUTPUT(S) www.tigem.it/research/DiBernardo.htm 40 Modello di rete con ODE f (X1,X2,X3,u) u +u www.tigem.it/research/DiBernardo.htm 41 Studi preliminari su E. coli: rete del sistema SOS Oltre 100 geni sono coinvolti nel sistema SOS Studio piloti su 9 geni www.tigem.it/research/DiBernardo.htm 42 7-9 training perturbations used to recover 9 gene SOS subnetwork Insignificant changes set to zero during data preprocessing 0.6 0.4 0.2 0 -0.2 -0.4 recA lexA ssb recF dinI umuDC rpoD rpoH rpoS Gene Perturbation Example perturbation: lexA Relative Expression Change Esperimenti di perturbazione www.tigem.it/research/DiBernardo.htm 43 D di Bernardo, TS Gardner, JJ Collins Science, 2003 Validazione di NIR Network identified by NIR algorithm (with 68% noise on data) “Known” transcriptional network recA recA umuDC lexA umuDC rpoD ssb rpoS recF rpoH lexA rpoD ssb rpoS recF rpoH dinI dinI Connection strengths • Blue - previously observed connections correctly identified by the algorithm • Red - possible novel connections identified by the algorithm or false positives recA lexA ssb recF dinI umuD rpoD rpoH rpoS recA 0.40 -0.18 -0.01 0 0.10 0 -0.01 0 0 lexA 0.39 -0.67 -0.01 0 0.09 -0.07 0 0 0 ssb 0.04 -1.19 -0.28 0 0.05 0 0.03 0 0 recF 0 0 0 0 0 0 0 0 0 dinI 0.28 0 0 0 -1.09 0.16 -0.04 0.01 0 umuDC 0.11 -0.40 -0.02 0 0.20 -0.15 0 0 0 rpoD -0.17 0 -0.02 0 0.03 0 -0.51 0.02 0 rpoH 0.10 0 0 0 0.01 -0.03 0 0.52 0 rpoS 0.22 0 0 -1.68 0.67 0 0.08 0 -2.92 www.tigem.it/research/DiBernardo.htm 44 Systems Biology e farmaci www.tigem.it/research/DiBernardo.htm 45 Meccanismo di azione dei farmaci farmaco Proteina www.tigem.it/research/DiBernardo.htm 46 Meccanismo di azione dei farmaci complesso proteina+farmaco www.tigem.it/research/DiBernardo.htm 47 Problema • Con quale proteina interagisce il farmaco? • Effetti indesiderati: – Il farmaco interagisce anche con altre proteine oltre quella “terapeutica”, possiamo identificarle? www.tigem.it/research/DiBernardo.htm 48 Systems Biology e farmaci D di Bernardo, TS Gardner, JJ Collins Nature Biotechnolgy, in press www.tigem.it/research/DiBernardo.htm 49 Identificazione dei target dei farmaci ? www.tigem.it/research/DiBernardo.htm 50 L’algoritmo MNI riesce ad individuare i target di antimicotici www.tigem.it/research/DiBernardo.htm 51 Systems Biology e malattie genetiche • Malettie genetiche: – …AAACGACC… sequenza del gene “sano” – …AAATGACC… sequenza del gene “mutato” – La proteina prodotta non funziona piu’ come deve Problema: quale processo biologico viene alterato? www.tigem.it/research/DiBernardo.htm 52 Identificazione della rete di regolazione locale di un gene malattia www.tigem.it/research/DiBernardo.htm 53 Serie temporale da microarray • Analisi dei dati: • rumore •punti mancanti •geni che non cambiano •outliers smoothing www.tigem.it/research/DiBernardo.htm 54 Conclusioni • L’analisi dei dati sperimentali attraverso modelli computazionali riesce ad individuare interazioni tra geni non visibili altrimenti. • I modelli computazionali di reti genetiche sono utili per indentificare i target di farmaci. • La biologia computazionale e’ una realta’ www.tigem.it/research/DiBernardo.htm 55 Lezione 3: Ingegneria e Systems Biology • Cenni di system identification • Il problema del "curse of dimensionality” • Cosa ci resta da fare? www.tigem.it/research/DiBernardo.htm 56 Identificazione di sistemi • • • • Definisci un modello Definisci una funzione di costo per misurare la bonta’ di un modello Definisci una strategia per trovare i parametri del modello che meglio rappresentano i dati. Esegui le misure sperimentali per raccogliere i dati www.tigem.it/research/DiBernardo.htm 57 Identificazione di sistemi • Modelli: probabilistici/deterministici – Reti booleane – Reti bayesiane – Equazione differenziali ordinarie • Modelli: statici/dinamici – x1=f(x1,x2,…,xN) STATICI – x1(t)=f(t,x1,x2,…,xN) DINAMICI • Funzione di costo – – – – • Errore Quadratico Medio Errore assoluto Maximum Likelihood Estimation … Strategia per trovare la soluzione (dipende dalla f.c. scelta) – – – – – Algebre lineare (PCA, ICA) Reti neurali Simulated Annealing Genetic algorithm … www.tigem.it/research/DiBernardo.htm 58 Esempio: www.tigem.it/research/DiBernardo.htm 59 Modello: sistemi LTI x’1(t) = a11x1+a12x2+...+a1nxn + u1 ........................................ Transcriptional perturbations x’n(t) = an1x1+an2x2+...+annxn + un Oppure in forma matriciale: x’=Ax+u www.tigem.it/research/DiBernardo.htm 60 Strategia • Perturbiamo un gene x i alla volta e misuriamo la risposta degli altri geni allo stato stazionario: x’(t) = 0 = A x+u A x = -u • Se ripetiamo l’esperimento per tutti gli N geni possiamo risolvere direttamente: A X=-U A (N x N), X (N x N), U (NxN) ? Dati Dati www.tigem.it/research/DiBernardo.htm 61 Oppure: • Perturbiamo un gene e misuriamo la risposta dinamica degli altri geni: ? X’=AX + u X’ derivata della concetrazione del gene a t1…tM X concentrazione del gene a t1…tM (N x M) (N x M) u perturbazione a t1…tM (N x M) www.tigem.it/research/DiBernardo.htm 62 Funzione di costo • Se facciomo M esperimenti (M>N) il sistema e’ sovradeterminato (piu’ equazioni che incognite) • Possiamo scegliere la soluzione che minimizza una funzione di costo: Errore Quadratico Medio: f.c.=minA{||AX+U||2} www.tigem.it/research/DiBernardo.htm 63 Reti Booleane – Gene {0,1} – Gene x1= f(x1,x2,…,xN) – f(.) e’ una funzione booleana • Esempio f(x1)= (x1 AND x2) NOT (x3 OR x4) A At = At-1 OR Ct-1 C Bt = At-1 AND Ct-1 Ct = NOT At-1 Boolean circuits B www.tigem.it/research/DiBernardo.htm 64 Reti bayesiane • X e’ condizionalmente indipendente da Y se: – • • P(X | Y, Z) = P(X | Z) Rete bayesiana – GRAFO che rappresente le dipendenze – nodi: gene – archi: esite un arco da X a Y se Y dipende da X Identificazione di reti bayesiane – Dati D={d1,d2,…,dM} trova il grafo G che meglio rappresenta D – F.C.= max P(G/D)=P(D/G)P(G) n P ( X 1 , X 2 ,..., X n ) = ∏ P ( X i | parents( X i )) i =1 X2 X€ 4 X1 X5 X3 www.tigem.it/research/DiBernardo.htm 65 www.tigem.it/research/DiBernardo.htm 66 Principali problemi da risolvere www.tigem.it/research/DiBernardo.htm 67 Principali problemi da risolvere Molti dati sperimentali sono necessari per l’identificazione: • Struttura del modello • Numero di esperimenti – Booleana N geni – 2N – Boolena N geni, grado k – k 2k log(N) – Lineari – k log(k/N) N geni, grado k www.tigem.it/research/DiBernardo.htm 68 Possibili soluzioni • Riduzione della dimensionalita’ – PCA, ICA • Smoothing e interpolazione • Introdurre dei “constrains” – La rete deve essere sparsa (non tutti i geni sono connessi tra loro). La rete e’ scale-free www.tigem.it/research/DiBernardo.htm 69 Dalle reti trascrizionale a modelli completi: • Le reti biologiche possono essere suddivise in: – Trascrizionali – Proteina-proteina – Metaboliche • In realta’ questa suddivisione non esiste • Bisogna integrare questi tre tipi di rete: www.tigem.it/research/DiBernardo.htm 70 Systems Biology and Gene networks Research group: Diego di Bernardo, PI - engineering Alberto Ambesi, MD student - medicine Mukesh Bansal, PhD student - physics Giusy Della Gatta, PhD student - biology Silvana Capasso, PhD student - engineering http://www.tigem.it/Research/DiBernardo.h t m External collaborators: Dr Timothy Gardner: Biomedical Engineering, Boston University Prof. James Collins: Biomedical Engineering, Boston University Dr Pietro Lio’: Computer Laboratory, University of Cambridge Dr Umberto Amato, Dr Italia De Feis, Dr Claudia Angelini: CNR Institute of Applied Mathematics, Italy Internal collaborators: Dr Caterina Missero www.tigem.it/research/DiBernardo.htm 71 Bibliografia • Reti biologiche: – Barabasi AL, Oltvai ZN. Network biology: understanding the cell's functional organization. Nat Rev Genet. 2004 Feb;5(2):101-13. Review. – Yook SH, Oltvai ZN, Barabasi AL. Functional and topological characterization of protein interaction networks. Proteomics. 2004 Apr;4(4):92842. – de Jong H. Modeling and simulation of genetic regulatory systems: a literature review. J Comput Biol. 2002;9(1):67-103. Review. • Identificazione di reti biologiche: – Gardner TS, di Bernardo D, Lorenz D, Collins JJ. Inferring genetic networks and identifying compound mode of action via expression profiling. Science. 2003 Jul 4;301(5629):102-5. – Chemogenomic profiling on a genome wide scale using reverse-engineereeing gene networks . Diego di Bernardo Michael J. Thompson, Timothy S. Gardner et al. Nature Biotechnology, In press (esce sul numero di Marzo). www.tigem.it/research/DiBernardo.htm 72