Orientamento Bio Com 2011.pptx - Dipartimento di Informatica

Cose che non avreste mai pensato di fare
con l’Informatica:
Modellistica e Simulazione algoritmica
e computazionale di sistemi biologici
Marco Antoniotti
AA 2010/2011
Orientamento 201103
1
Modellazione e biologia
• 
La biologia è una disciplina eminentemente descrittiva
–  La Matematica, la Fisica e - di riflesso - l’Informatica e l’”Ingegneria” sono
discipline generaliste
• 
• 
I “modelli” proposti dai biologi (ad esempio le pathways) sono il risultato
diretto dell’osservazione sperimentale e di una successiva
interpretazione
Negli ultimi 10-20 anni, una serie di nuove tecnologie ha reso possibile
generare grandi quantità di dati- Enhanced Polymerase Chain Reaction
(PCR), Optical Mapping, RNA Interference (RNAi)
–  Analisi di sequenze
–  Analisi di Micro-array
• 
Queste tecnologie “High-throughput” in bioinformatica and “systems
biology” richiedono conoscenze matematiche, statistiche ed
algoritmiche
AA 2010/2011
Orientamento 201103
2
Modellazione e biologia
• 
• 
Le conoscenze matematiche, statistiche ed algoritmiche servono ai
biologi ed ai medici per orientarsi nell’analisi di queste grandi basi di
dati
Il tipo di applicazione, la scala dei fenomeni studiati ed il numero di
osservazioni disponibili e/o da fare determina il tipo degli strumenti
usati da gruppi di ricerca interdisciplinari
AA 2010/2011
Orientamento 201103
3
Ordini di grandezza in Biologia
•  Organismi
•  Tessuti
•  Cellule
– 
– 
– 
– 
– 
Membrane
Nuclei
Ribosomo
Mitocondrii and Cloroplasti
Altri organelli e strutture
Scala
–  Proteine
–  Materiale Genetico (DNA e RNA)
AA 2010/2011
Orientamento 201103
4
Separazione della Scala dei Tempi
• 
I sistemi biologici operano (si sono evoluti darwinianamente) in un regime di
netta separazione della scala temporale (cfr. Alon 2006)
Proprietà
E. coli
Mammalian (Human
fibroblast)
Tempo di diffusione di una
proteina in una cellula
~0.1 s
~100 s
Tempo per la trascrizione
di un gene
~1 m (80 bp/sec)
~30 m (inclusa la
manipolazione mRNA)
Tempo di una generazione
di cellule
~30 m (in presenza di
nutrienti) a molte ore
Da 20 h a statiche
Transizione tra stati di
proteine (attivo/inattivo)
1-100 µs
1-100 µs
Tasso di mutazione
~10-9/bp/generazione
~10-8/bp/anno
AA 2010/2011
Orientamento 201103
5
Due grandi gruppi di organismi
Source: http://www.ncbi.nlm.nih.gov/About/primer/genetics_cell.htm l"
AA 2010/2011
Orientamento 201103
6
Dimensioni dei Genomi
• 
I genomi hanno dimensioni molto diverse tra di loro: da poche migliaia
di paia di basi (bps) per i virus a 3 x 1011 bps per certi anfibi e piante da
fiori
–  Coliphage MS2 (un virus) ha il genome più piccolo conosciuto in natura:
only 3.5 x 103bps
–  Mycoplasmas (un organismo unicellulare) ha il più piccolo genoma cellulare
conosciuto: 5 x 105bps
–  C. elegans (un verme nematode, un organismo “modello” multicellulare) ha
un genoma lungo > 108bps
–  H. Sapiens (alcuni di noi) ha un genoma di dimensione 3 x 109 e 23
cromosomi
–  A. Cepa (la base della cucina italiana: la cipolla) ha un genoma lungo
1.5 x 1010bps e 8 cromosomi
AA 2010/2011
Orientamento 201103
7
Un semplice schema rappresentante
“trascrizione” e “traduzione”
Una descrizione dei
processi di trascrizione
e traduzione (Oak
Ridge National
Laboratory DoE Primer)
AA 2010/2011
Orientamento 201103
8
Il Dogma Centrale
•  La molecola intermedia che trasporta informazione al di fuori
del nucleo di una cellula eukariotica è l’RNA, un polimero ad
una singola banda. L’RNA controlla anche il processo di
traduzione in cui sono costruiti gli amino acidi che compongono
le proteine.
•  Il dogma centrale (Francis Crick, 1958) stabilisce che questi
flussi di informazione sono unidirezionali:
“... once `information' has passed into protein it cannot get out again.
The transfer of information from nucleic acid to nucleic acid, or from
nucleic acid to protein, may be possible, but transfer from protein to
protein, or from protein to nucleic acid is impossible. Information
means here the precise determination of sequence, either of bases in
the nucleic acid or of amino acid residues in the protein.”
AA 2010/2011
Orientamento 201103
9
“Structure and Interpretation of
Bioinformatics and Systems Biology” I
• 
La Bioinformatica e la Systems Biology più o meno, e comunque non
necessariamente sempre, manipolano oggetti biologici di diverso tipo ed a
diverse scale
• 
Bioinformatica
–  Analisi di sequenze: “mapping” di genomi (ricerca di geni e di “motif”), applicazioni di
“copy-number”, RNA “folding” ed interazioni microRNA, folding di proteine (assieme a
tutte le tecnologie di basi di dati che servono come infrastruttura)
• 
Systems biology
–  L’associazione degli elementi di sequenze alle funzioni, interazioni e processi che
possono essere osservati o che “emergono” in un sistema biologico
–  La (ri)costruzione di Reti Metaboliche e Regolatorie, Reti di Segnalazione, Interazioni
Proteina-Proteina, comunicazioni intercellulari
AA 2010/2011
Orientamento 201103
10
“Structure and Interpretation of
Bioinformatics and Systems Biology” II
Strumenti
–  Bioinformatica
• 
“Matching” di stringhe algoritmico e statistico, e altri metodi di analisi di stringhe
–  Systems Biology
• 
• 
“Machine learning” per l’analisi di data-sets “high throughput”
Algoritmi di simulazione, sia deterministici che stocastici (Gillespie and Monte Carlo), analisi di
“raggiungibilità”
–  Infrastruttura
• 
• 
• 
Basi di Dati e accesso Web
Ontologie e formalismi di descrizione
Manipolazione di Dati e software matematico statistico specializzato
–  Tecnologie di laboratorio
• 
AA 2010/2011
Polymerase chain reaction (PCR), micro-array, chromatine immunoprecipitation, RNA
interference, micro-arrays, var “blots”, etc.
Orientamento 201103
11
UN ESEMPIO PIÙ IN
DETTAGLIO
AA 2010/2011
Orientamento 201103
12
Systems Biology
• 
L’obiettivo della System Biology è di capire, anche in termini
computazionali, un grande sistema fondato sulla biologia di
–  cellule individuali
–  popolazioni di cellule
–  processi intra-cellulari
• 
• 
Il tutto mediante simulazioni e visualizzazioni “realistiche” di questi
processi a varie scale spazio-temporali
Un sistema di analisi (e “ragionamento”) siffatto, può essere usato da
un biologo per:
–  acquisire conoscenze circa la biologia di base
–  costruire esperimenti biologici
–  scoprire possibili modalità di intervento al fine di modificare in modo
appropriato vari processi biologici a fini terapeutici
AA 2010/2011
Orientamento 201103
13
Un esempio: il “Repressilator”
•  Tre proteine:
–  LacI, TetR & λcI
–  Arrangiate in un ciclo
logico (non
necessariamente
“fisico”) in modo tale che
il prodotto di un gene è il
repressore del gene
“successivo”
M. B. Elowitz, S. Leibler, A synthetic
oscillatory network of transcriptional
regulators, Nature 403(20), January
2000
AA 2010/2011
Orientamento 201103
14
Cicli di “Repressione”
•  La prima proteina “repressore”, LacI (da E. coli) inibisce la
trascrizione del secondo gene repressore, tetR (da trasposone
Tn10 tetracycline-resistente), il cui prodotto della proteina
associata, TetR, a sua volta inibisce l’espressione del terzo
gene cI (dal λphage)
•  Infine, CI inibisce l’espressione di lacI expression, completando
il ciclo the cycle.
–  I nomi maiuscoli rappresentano le (concentrazioni di) proteine
prodotti dalla trascrizione e traduzione di geni, i cui nomi sono in
minuscolo
AA 2010/2011
Orientamento 201103
15
Modello Biologico
•  Biologia molecolare standard:
si costruisce
–  Un plasmide che codifica il
repressilator, e
–  Un plasmide compatible
“reporter” che contiene il
promotore tet-repressible
PLtet01 fuso ad una variante di
stabilità intermedia di green
fluorescent protein (gfp)
AA 2010/2011
Orientamento 201103
16
Un modello matematico del
repressilator
α
α0
β
n
"= proteine/cell. dal promotore non-represso
"= proteine/cell. dal promotore represso
"= proteina : mRNA “velocità” di decadimento
= Coefficiente di “cooperatività” di Hill
dmi
α
= −mi +
+ α0
dt
1+ p nj
dpi
= −β( pi − mi )
dt
where mi = i-esimo [mRNA] and pi = i-esima [proteina repressrice]
i = lacI, terR, cI
j = cl, lacI,
€ tetR
Concentration units: KM
Time units: τmRNA
AA 2010/2011
Orientamento 201103
17
Oscillation
AA 2010/2011
Orientamento 201103
18
Teoria ⇒ Simulazione ⇒
Esperimento
•  Requisito per ottenere delle oscillazioni stabili:
–  Bassa “leakiness”
•  Promotori artificiali compatti
–  Velocità di decadimento simile per proteine e mRNA
•  Si attacca ssrA ai repressori
–  Curve “ripide” di repressione
•  Si usa un repressore cooperativo (e.g., λcI)
•  Si usa un promotore con “binding sites” multipli
–  “Reporter” non stabile
•  Si attacca una variante dell’etichetta ssrA alla GFP
AA 2010/2011
Orientamento 201103
19
Gene Ontology (GO)
• 
• 
GO è un vocabolario controllato per
l’annotazione funzionale di geni
GO è composta da tre classificazioni
indipendenti, ognuna delel quali ha una
struttura gerarchica a DAG
–  MF: Molecular Function (attvità biochimica
e tipo di molecola)
–  BP: Biological Process
–  CC: Cellular Component
www.geneontology.org
AA 2010/2011
Orientamento 201103
20
Entrez
AA 2010/2011
Orientamento 201103
21
BioModels
AA 2010/2011
Orientamento 201103
22
BioCyc
AA 2010/2011
Orientamento 201103
23
KEGG
AA 2010/2011
Orientamento 201103
24
Conclusione
• 
La Bioinformatica e la Systems Biology sono campi importanti con molte
sfaccettature
–  Infrastruttura
Basi di dati, Web services
–  Algoritmica
Analisi di sequenze
–  Modellazione
Modellazione statistica, ODE, Sistemi Ibridi, Teoria dei Sistemi e del Controllo
AA 2010/2011
Orientamento 201103
25