Cose che non avreste mai pensato di fare con l’Informatica: Modellistica e Simulazione algoritmica e computazionale di sistemi biologici Marco Antoniotti AA 2010/2011 Orientamento 201103 1 Modellazione e biologia • La biologia è una disciplina eminentemente descrittiva – La Matematica, la Fisica e - di riflesso - l’Informatica e l’”Ingegneria” sono discipline generaliste • • I “modelli” proposti dai biologi (ad esempio le pathways) sono il risultato diretto dell’osservazione sperimentale e di una successiva interpretazione Negli ultimi 10-20 anni, una serie di nuove tecnologie ha reso possibile generare grandi quantità di dati- Enhanced Polymerase Chain Reaction (PCR), Optical Mapping, RNA Interference (RNAi) – Analisi di sequenze – Analisi di Micro-array • Queste tecnologie “High-throughput” in bioinformatica and “systems biology” richiedono conoscenze matematiche, statistiche ed algoritmiche AA 2010/2011 Orientamento 201103 2 Modellazione e biologia • • Le conoscenze matematiche, statistiche ed algoritmiche servono ai biologi ed ai medici per orientarsi nell’analisi di queste grandi basi di dati Il tipo di applicazione, la scala dei fenomeni studiati ed il numero di osservazioni disponibili e/o da fare determina il tipo degli strumenti usati da gruppi di ricerca interdisciplinari AA 2010/2011 Orientamento 201103 3 Ordini di grandezza in Biologia • Organismi • Tessuti • Cellule – – – – – Membrane Nuclei Ribosomo Mitocondrii and Cloroplasti Altri organelli e strutture Scala – Proteine – Materiale Genetico (DNA e RNA) AA 2010/2011 Orientamento 201103 4 Separazione della Scala dei Tempi • I sistemi biologici operano (si sono evoluti darwinianamente) in un regime di netta separazione della scala temporale (cfr. Alon 2006) Proprietà E. coli Mammalian (Human fibroblast) Tempo di diffusione di una proteina in una cellula ~0.1 s ~100 s Tempo per la trascrizione di un gene ~1 m (80 bp/sec) ~30 m (inclusa la manipolazione mRNA) Tempo di una generazione di cellule ~30 m (in presenza di nutrienti) a molte ore Da 20 h a statiche Transizione tra stati di proteine (attivo/inattivo) 1-100 µs 1-100 µs Tasso di mutazione ~10-9/bp/generazione ~10-8/bp/anno AA 2010/2011 Orientamento 201103 5 Due grandi gruppi di organismi Source: http://www.ncbi.nlm.nih.gov/About/primer/genetics_cell.htm l" AA 2010/2011 Orientamento 201103 6 Dimensioni dei Genomi • I genomi hanno dimensioni molto diverse tra di loro: da poche migliaia di paia di basi (bps) per i virus a 3 x 1011 bps per certi anfibi e piante da fiori – Coliphage MS2 (un virus) ha il genome più piccolo conosciuto in natura: only 3.5 x 103bps – Mycoplasmas (un organismo unicellulare) ha il più piccolo genoma cellulare conosciuto: 5 x 105bps – C. elegans (un verme nematode, un organismo “modello” multicellulare) ha un genoma lungo > 108bps – H. Sapiens (alcuni di noi) ha un genoma di dimensione 3 x 109 e 23 cromosomi – A. Cepa (la base della cucina italiana: la cipolla) ha un genoma lungo 1.5 x 1010bps e 8 cromosomi AA 2010/2011 Orientamento 201103 7 Un semplice schema rappresentante “trascrizione” e “traduzione” Una descrizione dei processi di trascrizione e traduzione (Oak Ridge National Laboratory DoE Primer) AA 2010/2011 Orientamento 201103 8 Il Dogma Centrale • La molecola intermedia che trasporta informazione al di fuori del nucleo di una cellula eukariotica è l’RNA, un polimero ad una singola banda. L’RNA controlla anche il processo di traduzione in cui sono costruiti gli amino acidi che compongono le proteine. • Il dogma centrale (Francis Crick, 1958) stabilisce che questi flussi di informazione sono unidirezionali: “... once `information' has passed into protein it cannot get out again. The transfer of information from nucleic acid to nucleic acid, or from nucleic acid to protein, may be possible, but transfer from protein to protein, or from protein to nucleic acid is impossible. Information means here the precise determination of sequence, either of bases in the nucleic acid or of amino acid residues in the protein.” AA 2010/2011 Orientamento 201103 9 “Structure and Interpretation of Bioinformatics and Systems Biology” I • La Bioinformatica e la Systems Biology più o meno, e comunque non necessariamente sempre, manipolano oggetti biologici di diverso tipo ed a diverse scale • Bioinformatica – Analisi di sequenze: “mapping” di genomi (ricerca di geni e di “motif”), applicazioni di “copy-number”, RNA “folding” ed interazioni microRNA, folding di proteine (assieme a tutte le tecnologie di basi di dati che servono come infrastruttura) • Systems biology – L’associazione degli elementi di sequenze alle funzioni, interazioni e processi che possono essere osservati o che “emergono” in un sistema biologico – La (ri)costruzione di Reti Metaboliche e Regolatorie, Reti di Segnalazione, Interazioni Proteina-Proteina, comunicazioni intercellulari AA 2010/2011 Orientamento 201103 10 “Structure and Interpretation of Bioinformatics and Systems Biology” II Strumenti – Bioinformatica • “Matching” di stringhe algoritmico e statistico, e altri metodi di analisi di stringhe – Systems Biology • • “Machine learning” per l’analisi di data-sets “high throughput” Algoritmi di simulazione, sia deterministici che stocastici (Gillespie and Monte Carlo), analisi di “raggiungibilità” – Infrastruttura • • • Basi di Dati e accesso Web Ontologie e formalismi di descrizione Manipolazione di Dati e software matematico statistico specializzato – Tecnologie di laboratorio • AA 2010/2011 Polymerase chain reaction (PCR), micro-array, chromatine immunoprecipitation, RNA interference, micro-arrays, var “blots”, etc. Orientamento 201103 11 UN ESEMPIO PIÙ IN DETTAGLIO AA 2010/2011 Orientamento 201103 12 Systems Biology • L’obiettivo della System Biology è di capire, anche in termini computazionali, un grande sistema fondato sulla biologia di – cellule individuali – popolazioni di cellule – processi intra-cellulari • • Il tutto mediante simulazioni e visualizzazioni “realistiche” di questi processi a varie scale spazio-temporali Un sistema di analisi (e “ragionamento”) siffatto, può essere usato da un biologo per: – acquisire conoscenze circa la biologia di base – costruire esperimenti biologici – scoprire possibili modalità di intervento al fine di modificare in modo appropriato vari processi biologici a fini terapeutici AA 2010/2011 Orientamento 201103 13 Un esempio: il “Repressilator” • Tre proteine: – LacI, TetR & λcI – Arrangiate in un ciclo logico (non necessariamente “fisico”) in modo tale che il prodotto di un gene è il repressore del gene “successivo” M. B. Elowitz, S. Leibler, A synthetic oscillatory network of transcriptional regulators, Nature 403(20), January 2000 AA 2010/2011 Orientamento 201103 14 Cicli di “Repressione” • La prima proteina “repressore”, LacI (da E. coli) inibisce la trascrizione del secondo gene repressore, tetR (da trasposone Tn10 tetracycline-resistente), il cui prodotto della proteina associata, TetR, a sua volta inibisce l’espressione del terzo gene cI (dal λphage) • Infine, CI inibisce l’espressione di lacI expression, completando il ciclo the cycle. – I nomi maiuscoli rappresentano le (concentrazioni di) proteine prodotti dalla trascrizione e traduzione di geni, i cui nomi sono in minuscolo AA 2010/2011 Orientamento 201103 15 Modello Biologico • Biologia molecolare standard: si costruisce – Un plasmide che codifica il repressilator, e – Un plasmide compatible “reporter” che contiene il promotore tet-repressible PLtet01 fuso ad una variante di stabilità intermedia di green fluorescent protein (gfp) AA 2010/2011 Orientamento 201103 16 Un modello matematico del repressilator α α0 β n "= proteine/cell. dal promotore non-represso "= proteine/cell. dal promotore represso "= proteina : mRNA “velocità” di decadimento = Coefficiente di “cooperatività” di Hill dmi α = −mi + + α0 dt 1+ p nj dpi = −β( pi − mi ) dt where mi = i-esimo [mRNA] and pi = i-esima [proteina repressrice] i = lacI, terR, cI j = cl, lacI, € tetR Concentration units: KM Time units: τmRNA AA 2010/2011 Orientamento 201103 17 Oscillation AA 2010/2011 Orientamento 201103 18 Teoria ⇒ Simulazione ⇒ Esperimento • Requisito per ottenere delle oscillazioni stabili: – Bassa “leakiness” • Promotori artificiali compatti – Velocità di decadimento simile per proteine e mRNA • Si attacca ssrA ai repressori – Curve “ripide” di repressione • Si usa un repressore cooperativo (e.g., λcI) • Si usa un promotore con “binding sites” multipli – “Reporter” non stabile • Si attacca una variante dell’etichetta ssrA alla GFP AA 2010/2011 Orientamento 201103 19 Gene Ontology (GO) • • GO è un vocabolario controllato per l’annotazione funzionale di geni GO è composta da tre classificazioni indipendenti, ognuna delel quali ha una struttura gerarchica a DAG – MF: Molecular Function (attvità biochimica e tipo di molecola) – BP: Biological Process – CC: Cellular Component www.geneontology.org AA 2010/2011 Orientamento 201103 20 Entrez AA 2010/2011 Orientamento 201103 21 BioModels AA 2010/2011 Orientamento 201103 22 BioCyc AA 2010/2011 Orientamento 201103 23 KEGG AA 2010/2011 Orientamento 201103 24 Conclusione • La Bioinformatica e la Systems Biology sono campi importanti con molte sfaccettature – Infrastruttura Basi di dati, Web services – Algoritmica Analisi di sequenze – Modellazione Modellazione statistica, ODE, Sistemi Ibridi, Teoria dei Sistemi e del Controllo AA 2010/2011 Orientamento 201103 25