Il problema della regolazione genica

“System Biology”: un nuovo
paradigma per la biologia
molecolare.
Michele Caselle
Università degli studi di Torino – INFN
Indice
• Idee guida
 “System Biology”, Biologia computazionale e
Bioinformatica


Breve ripasso di Biologia Molecolare
Le innovazioni degli ultimi anni: Genomica,
Trascrittomica, Proteomica
• Esempi di applicazioni
 La regolazione genica
 L’evoluzione
Le idee guida:
System biology e Biologia
computazionale
La biologia computazionale
Coi termini “Biologia Computazionale” o “Bioinformatica”
si intende tutto ciò che riguarda l’analisi di dati biologici
con metodi provenienti dalla
matematica / fisica / statistica / computer-science
I dati biologici (sia sequenze che annotazioni)
sono raccolti in enormi banche dati “open access”.
Tra questi dati e’ nascosta molta piu’ informazione
di quanto non sia già stato pubblicato.
Esiste la possibilità di ottenere risultati anche molto importanti
senza che si debba fare un singolo esperimento, semplicemente
rileggendo in modo originale risultati sperimentali esistenti.
System Biology
Tre strumenti fondamentali
Teoria delle reti: E’ sbagliato pensare alle funzioni in termini di
singolo gene o singola proteina. Le funzioni complesse
coinvolgono sempre molti geni in interazione tra loro.
Modelli: Queste reti possono però essere scomposte in circuiti
elementari (“network motifs”) che possono essere descritti in
modo quantitativo usando equazioni differenziali o stocastiche
Ontologie: E’ pero’ indispensabile cercare di standardizzare e
quantificare le informazioni di tipo medico o biologico.
Le ontologie sono il tentativo di miglior successo in questa
direzione
La genomica moderna: networks
 Le proteine (geni)
dentro una cellula
formano un network.
 La risposta di una cellula
ad un certo stimolo è
una risposta “globale”,
non di singole unità
separate.
H.Jeong et al.
Nature, 411 (2001) 41
Network motifs
Esempio: SIM (Single Input Module) (a) realizzazione sperimentale:
la biosintesi dell’arginina b) Soluzione del circuito: al variare di X
(regolatore) i geni vengono attivati in tempi diversi a seconda della
loro soglia di attivazione.
R.Milo et al. Science 298 (2002) 824
La genomica moderna:
Gene Ontology
• Gene Ontology è un modello
per l’unificazione di dati
biologici.
• Lo scopo di GO è di costruire
un vocabolario controllato per
la descrizione di:
- Molecular function
- Biological process
- Cellular component
di un certo gene.
• I vocabolari sono organizzati in
un network gerarchico.
The G.O. Consortium
Nature Genet. 25 (2000) 25
La Biologia Molecolare
“Classica”
La cellula
 Ogni organismo
vivente è composto
da una o più
cellule. Ogni cellula
può essere vista
come una macchina
complessa che
esegue delle
istruzioni scritte e
memorizzate nel
proprio genoma.
Il DNA
 Il genoma di un
qualunque
organismo è
costituito da una
lunghissima
molecola di DNA.
Il DNA
 Una molecola di
DNA è formata da
quattro tipi diversi
di nucleotidi (A, C,
G o T), legati tra di
loro con legami
covalenti a formare
una lunga catena
orientata. In ogni
molecola di DNA,
sono presenti due
catene appaiate,
tenute assieme da
legami idrogeno
Le proteine: le macchine del
nostro organismo
 La maggior parte
delle funzioni del
nostro organismo
sono eseguite da
proteine. Le
proteine sono
macromolecole
formate da catene
di amminoacidi.
L’informazione dentro la cellula
 Dogma centrale
della biologia
molecolare
Sintesi delle proteine
Il codice genetico
 Il passaggio
dall’alfabeto con cui
è scritto il DNA
all’alfabeto con cui
sono scritte le
proteine avviene
tramite il codice
genetico.
Le novita’ degli ultimi 10 anni
Alla fine degli anni ’90  nasce “era genomica”
La biologia diventa sempre più quantitativa:
 sequenziamento dei genomi di interi organismi
 microarray
 dati proteomici
 Gene Ontology
Perche’ si parla di una nuova “era” ?
Perchè siamo in presenza di una vera e propria
rivoluzione tecnologica :
- diminuzione dei costi di sequenziamento,
- introduzione di tecnologie high-throughput
- Aumento della scala tipica degli esperimenti
(e del numero di persone coinvolte).
Nuove domande, nuove idee
-
Perché i geni sono così pochi?
- A cosa serve il DNA non codificante?
- Quanto siamo diversi dalle scimmie?
- Il “dogma centrale” e’ falso: a un gene
corrispondono molte proteine (splicing
alternativo)
- L’informazione genetica puo’ andare dal DNA
all’RNA (Retrotrasposoni)
La genomica moderna: sequenze
 Automatizzazione dei processi
di sequenziamento del DNA
 Sequenziamento sistematico
di molti organismi. Nascita
delle banche dati genomiche
> homo_sapiens
ACTTTTTTACCCTCGTGTGTTGC
AGACTTTTTGCCACTTTTAAAAC
GCTGACAATTCGACCCTTTCCAA
GTGCAAAAAGTGCCAAGATTTA
CGATAAAATTCCCCCGAGAGAC
GTGTGCA………
Dimensioni dei genomi
Procarioti:
Mycoplasma Genitalium
Escherichia Coli
Eucarioti:
Saccaromices cerevisiae
Arabidopsis thaliana
Drosophila Melanogaster
Caenorabditis Elegans
Homo Sapiens
(Mb)
0,58
4,64
12
100
140
100
3000
Struttura del Genoma
- La densita’ di sequenze codificanti proteine (o
RNA) diventa sempre piu’ bassa man mano
che aumenta la complessita’ dell’organismo. E’
molto alta nei Procarioti, media nel lievito,
bassissima nell’uomo. La maggior parte del
genoma umano ( 99%) non e’ codificante !
- Questo DNA non codificante e’
(probabilmente) coinvolto nella regolazione
dell’espressione genica.
Struttura dei Geni
Un tipico gene umano ha una struttura interna
molto complessa: e’ composto da un set di
sequenze codificanti (dette esoni) separate da
sequenze non codificanti (dette introni). Gli
esoni possono essere combinati in molti modi
diversi a formare proteine diverse (splicing
alternativo)
Il Genoma umano
Ensembl Genome Browser
Zoom !
La trascrittomica: microarray
 In un esperimento di
microarray si misura il
livello di espressione (mRNA)
di migliaia di geni
contemporaneamente
log2(ratio)
gene
timepoints
La proteomica:
 Studio sistematico della
struttura 3D delle proteine
mediante X-ray
spectroscopy
 Studio sistematico delle
interazioni tra proteine
Due esempi di ricerca
 Il problema della regolazione genica
 Verifiche dei modelli evolutivi
Esempio:
Regolazione genica
Il problema della regolazione
genica
• Sequenza del genoma umano
(2001 draft, 2004 finished)
– 3.2 x 109 bp di DNA
– ~ 3 % codifica per proteine:
i “mattoni elementari”
– ~ 97 % non codifica:
–
è il “libretto di istruzioni”
Contiene le sequenze che regolano
l’espressione dei geni in proteine
~ 25000 “geni”:proteine
Il problema della regolazione
genica
• La maggioranza dei geni
specifica uno o più proteine:
“espressi”.
• L’espressione dei geni coinvolge
un intermediario detto
messaggero or mRNA.
• Il processo di espressione inizia
con una fase detta
“trascrizione” che è
accuratamente controllata in ogni
tipo cellulare.
Regolazione trascrizionale
Il problema della regolazione
genica
• Negli eucarioti superiori (es: uomo) l’evento di trascrizione è
molto complesso
Il problema della regolazione
genica
• Negli eucarioti superiori la risposta trascrizionale è organizzata
in un network.
Il problema della regolazione
genica
•
Regolazione trascrizionale:
fattori di trascrizione (TF) si accoppiano a particolari DNA motifs
(TFBS) localizzati upstream del gene regolato.
RNA polymerase II
TF
EXON 1
TSS
5’ UPSTREAM
TFBSs
INTRON
EXON 2
TRASCRITTO PRIMARIO
3’ DOWNSTREAM
Dove è nascosta l’informazione?
• Obiettivo:
identificare, a partire dalla sola sequenza
genomica, dei candidati TFBS ovvero identificare il
“vocabolario” di DNA motifs che regolano l’espressione dei
geni.
 TFBS sono di solito corti (5-20 bp di DNA).
TFBS sono di solito variabili.
 TFBS sono di solito dispersi su lunghe distanze( ≥ 15000 bp nel
caso umano ).
 TFBS sono di solito attivi in entrambe le orientazioni.
Il rapporo segnale / rumore è molto basso !
Risultati
Alla fine si ottiene un “dizionario” di putative TFBSs.
Il problema della verifica
dei modelli evolutivi
Il problema della verifica
dei modelli evolutivi
La verifica di modelli evolutivi può
essere eseguita con opportuni algoritmi
di allineamento di sequenze.
Il problema della verifica
dei modelli evolutivi
Il 96% del genoma
umano è uguale nello
scimpanzè.
Evoluzione e regolazione
• Obiettivo: identificare, a partire dalla sola sequenza
genomica, i segnali dell’evoluzione dei geni nel tempo e tra i
vari organismi e riconoscere i geni “ortologhi”. Usare la
conservazione filogenetica per selezionare le regioni
funzionalmente importanti del genoma
Nel genoma umano ci sono sequenze “ultraconservate” che
sono state protette dai cambiamenti evolutivi per milioni di
anni. In alcuni casi queste sequenze NON sono codificanti.
Molto probabilmente hanno un ruolo nella regolazione della
espressione genica.
FOXP2 !!
Mutazioni (SNPs) nel gene
FOXP2 causano severe alterazioni nel linguaggio parlato.
Un esempio più sofisticato:
Circuiti di regolazione misti
conservati tra topo e uomo
Transcription Factors
and miRNAs
• Regulation of gene expression mainly mediated by:
Transcription Factors (TFs): proteins
binding to specific recognition motifs
(TFBSs) usually short (5-10 bp) and
located upstream of the coding region
of the regulated gene.
Wassermann, Nat. Rev. Genetics
MicroRNAs (miRNAs) are a family of
small RNAs (typically 21 - 25 nucleotide
long) that negatively regulate gene
expression at the posttranscriptional
level, (usually) thanks to the “seed”
region in 3’-UTR regions.
Our Project
Several methods exist to study, separately TF-related and
microRNA-related
regulatory
networks,
but
comparable
information is lacking to explicitly connect them.
The main goal of our project was to infer and then combine the
two networks looking in particular for Mixed Feed-Forward
Regulatory Loops --> a network motif in which a master
Transcription Factor (TF) regulates a miRNA and together with it
a set of Joint Target coding genes.
TF
QuickTime™ e un
decompressore TIFF (Non compresso)
sono necessari per visualizzare quest'immagine.
Joint
Target
Hornstein E, Shomron N, Nat Genet 38 Suppl:S20–4 (2006).
miR
Results
Human Transcriptional Network --> Fixing 0.1 as FDR level, we obtained a catalogue of
2031 oligos that can be associated to known TFBSs for
a total of 115 different TFs.
--> target a total of 21159 genes
(20972 protein-coding and 187 miRNAs)
Human Post-Transcriptional Network --> Fixing 0.1 as FDR level, we obtained a
catalogue of 3989 oligos (7-mers). 182 of them turned out
to match with at least one seed present in 140 mature
miRNAs.
--> target a total of 17266 genes
Human mixed FFLs catalogue --> We were able to obtain a list of 5030 different “single
target circuits”, corresponding to 638 “merged circuits”.
TF
JT 1
JT 2
JT …
miR
--> involving a total of 2625 joint target genes (JTs),
101 TFs and 133 miRNAs.
# of JTs ranged from 1 to 38.
Functional role of mixed FFLs
Depending on the type of transcriptional regulation
(excitatory or inhibitory) exerted by the master TF on the
miRNA and on the targets, FFLs may be classified as
• incoherent (“type I” FFLs), or
• coherent (“type II” FFLs).
Type I and II FFLs
Possible biological role for mixed TF/miRNA network motifs:
TF
TF
Joint
Target
miR
Joint
Target
TF
Joint
Target
miR
TF
miR
type I circuits
Joint
Target
miR
type II circuits
Main role: noise dumping
Type I (incoherent) can stabilize the steady state
production of a protein by dumping translational and
transcriptional fluctuations.
In a simple TF-target interaction any fluctuation of master
TF could induce a non-linear increase in the amount of its
target products. The presence, among the targets, of a
miRNA which downregulates the other targets might
represent a simple and effective way to control these
fluctuations.
Study of protein fluctuations via
stochastic equations
The only way to address this issue is to describe the
FFLs in terms of stochastic equations and to compare
the results with those obtained with that of a standard
transcription +translation process
In both cases fluctuations are proportional to the mean
number of proteins produced by a single mRNA. This
number is a function of the miRNA-mRNA affinity.
Stochastic equations for gene expression:
two steps model.
This model assumes that the promoter is always active and so has
only two stochastic variables: the number of mRNAs and the
number of proteins
The probability of having m mRNAs and n proteins at time t
satisfies the master equation:
The corresponding mean value and fluctuations of the number
of proteins are:
Where b is the mean number of proteins produced by a single
mRNA (burst parameter). Fluctuations only depend on the
burst parameter b.
Comparison between FFL noise and plane transcription
The noise reduction can
be traced back to the
different efficiency of
the mRNA translation
in the two cases
With this choice of
parameters each
mRNA produces a
mean of 30 proteins
while in the FFL this
numebr is reduced to
about 20.
The noise reduction is a
function of the
miRNA-mRNA
affinity
References
• D. Cora’, C. Herrmann, C. Dieterich, F. Di Cunto, P. Provero and M.
Caselle
“Ab initio identification of putative human transcription factor binding
sites by comparative genomics.”
BMC Bioinformatics 2005, 6:110.
• D. Cora’, M. Caselle, F. Di Cunto and P. Provero
“Identification of candidate regulatory sequences in mammalian 3’ -UTRs by
statistical analysis of oligonucleotide distributions.”
BMC Bioinformatics. 2007 May 24;8:174.
• D. Cora’, A. Re, D. Taverna and M. Caselle
“Genome-Wide Survey of MicroRna-Transcription Factor Feed-Forward
Regulatory
Circuits in Human”
Molecular BioSystems. 2009 Aug; 5(8):854-67.
Thanks to
C. Bosia, D. Cora’
M. El Baroudi
and M. Osella
Dep. of Theoretical Physics
A. Re
CIBIO
University of Trento
D. Taverna
Dep. of Genetics, Biology and
Biochemistry and M.B.C.
University of Torino
University of Torino