Genome structure

Elementi di genomica dei Microrganismi
Applications of Bioinformatics and Biocomputing to
Microbiological Research
DNA sequencing
Bioinformatics and Biocomputing tools
Analysis of DNA sequence
Expression studies
Functional assays
3D protein structure
Gene knockouts
Protein-protein interaction
Biology
Computer
science
Bioinformatics
Information
tecnology
Sviluppare Database più complessi in cui è
possibile avere libero accesso ai dati, depositarne
nuovi (submit) e/o modificarli quelli già presenti
Il processo di analisi ed interpretazione dei dati è indicato come
“computational Biology”, sub-disciplina all’interno della bioinformatica
This deluge of genomic information has led to an absolute requirement
• for computerized databases to store, organize and index the data
• for specialized tools to view and analyze the data
What is the Grid?
Experiments
The Grid
Computers
Sensors
Data
Scientists
Displays
Technology that enables persistent shared use of distributed resources
– computing, data, visualisation, instruments, networks –
without needing to know in advance where these are or who owns them
DATABASE
- 1979 un gruppo di biologi e matematici Rockefeller University a New York
istituiscono un database in cui memorizzare le sequenze geniche
- 1981 European Molecular Biology Laboratory (EMBL) finanziato da alcuni Paesi
europei istituisce EMBL data Library
GenBank: depositario di sequenze geniche di DNA e di informazioni relative a queste
Genbank è un database di sequenze, genomi, proteine
Ogni unità è generata dall’immissione diretta delle sequenze da parte dei relativi autori
Questa banca dati di biologia molecolare è mantenuta dal National Center for
Biotechnology Information (NBCI –http://www.ncbi.nlm.nhi.gov/entrez/query
Nucleotide sequence databases
Le sequenze possono essere deposita in uno dei tre maggiori database
•GenBank at the NCBI (http://www.ncbi.nlm.nhi.gov/entrez) (Americana)
•The European Molecular Biology Laboratory ( EMBL) at the Nucleotide
Sequence Database at the European Bioinformatics Istitute (EBI)
( http://www.ebi.ac.uk) (Europea –Heidelberg Germania)
•The DNA Database of Japan (DDBJ) at the National Institute of
Genetics (http://www.ddbj.nig.acjp) (Giapponese)
L’insieme dei dati costituiscono “International Nucleotide Sequence
Database Collaboration” che scambiano giornalmente le informazioni
provenienti da ciascun ente (htt://www.ncbi.nlm.nih.gov/projects/collab)
ogni sequenza ha lo stesso accession number in tutti i databases
Ex NCBI
PubMed
web site is hyperlinked : GenBank, Taxonomy database,
Approccio « substems» per annotation dei genomi
Questo sistema è di grande aiuto per i ricercatori riunendo annotazioni genomiche «verticali »
invece di quelle orizzontali.
Le annotazioni sono riunite da un punto di vista funzionale nell’ambito di strutture biologiche
Sono stati sviluppati più di 500 distinti subsystems
Ex: metabolic pathways
Complex structure
Genotype and phenotype associations
1.
2.
3.
Steps
Strain choice….now any kind of microrganism
From shotgun to finishing
Annotation
The goal of the genome annotation is to determine the
location of specific genes in the genome map:
Find ORFs:
-look for ATG-stop( alternative s)
- over certain size
- overlaps
- computer based
ORF Function
- search databases with predicted translated sequences
- consider level of similarity and context
- domain comparisons
-Pfam/Prosite
L’uso di questi dati conservati in un database richiede:
• facilità nell’accesso dell’informazione
• un metodo per estrarre solo le informazioni necessarie a
rispondere ad una specifica domanda
Molti database nell’ NCBI sono
collegati in un unico sistema
“Entrez” che permette l’accesso a differenti database e
l’integrazione con altre informazioni contenute in altri database.
Ad esempio Entrez Protein databases ha un link con Entrez
taxonomy databases
http://www.ncbi.nlm.nih.gov/
Molecular evolution in bacteria
L’analisi
del
genoma
dei
procarioti
evidenzia
un
continuo
scambio
dell’informazione genica mediante meccanismi di trasferimento orizzontale e
processi di ricombinazione omologa
L’idea che l’evoluzione nei procarioti avviene per divergenza clonale viene
rivista alla luce di queste nuove conoscenze che indicano lo scambio genico
come “creative force” in questo processo
Il genoma batterico è composto da un parte di genoma conservata “core” , che contiene le
informazioni geniche necessarie per le funzioni vitali ( “minimal genome”) ed una porzione
indicata “ flexible” (mobiloma) un pool genico che codifica geni addizionale che possono
migliorare la vita del microrganismo e garantire in alcuni casi la stessa sopravvivenza !!
Questi includono i geni per la resistenza agli antibiotici, fattori di virulenza, produzione di
tossine ecc.
Mentre il core è una porzione del genomi molto stabile e conservata nelle diverse specie, la
parte flexible rappresenta la regione maggiormente variabile, veicolata da elementi mobili
come plasmidi, fagi IS, trasposoni coniugativi, Isole di patogenicità, integroni.
Dall’analisi di differenti genomi microbici è emerso che più del 20% è costituita da geni
acquisiti per trasferimento orizzontale!!!
Il trasferimento orizzontale consente l’ingresso di DNA sia potenzialmente utile che
dannoso ed in questo caso viene eliminato!!
Nonostante ciò le dimensioni del genoma si mantengono costanti!! Processi di delezioni
avvengono frequentemente, eliminando il DNA esogeno
Alcuni geni possono essere persi, perché inutilizzati in alcune nicchie e mantenuti e/o
acquisiti altri per occupare nuove
Es: Geni possono essere persi se le loro funzioni possono interferire con l’adattamento a
nuove nicchie ecologiche
Ex- Shigella ha perso i geni che codificano OmpT proteasi di superficie e CadA perché la
loro espressione attenuavano la virulenza
Three important areas of comparative analysis:
1. Genome structure
2. Coding regions
3. Non conding regions
Homology implies common ancestry of two genes or gene products
Similarity is what we can measure from alignment of sequences or
structures
The first step in comparative genomics analysis is often the alignment of two
genome sequences
Ex. Algorithms/tools: BLASTN (http//www.ncb.nlm.nih.gov/BLASt/)
MEGABLAST
1. Genome structure
Analizza la struttura globale del genoma:
•dimensioni,
•geometria e numero dei repliconi,
•sequenza nucleotidica,
•disposizione genica,
•similarità e differenze tra genomi
GENOME SIZE ……
TOPOLOGY
Burkholderia mallei genome
Fig. 1. Circular diagrams of chromosome 1 and
chromosome 2 in B. mallei. Locations of selected
genome features are denoted on seven layers of
circles. From the outermost layer
1) CDS in color codes for predicted functional role
categories
2) CDS in the other orientation,
3) GC skew
4) IS elements flanking syntenic breaks compared to
B. pseudomallei chromosome,
5) IS elements not associated with syntenic breaks
6) Sequence that contain at least one A or T in the
repeat unit
7) putative virulence genes.
The locations of wcb capsule gene cluster
lipopolysaccharide biosynthesis genes, and a single
luxR-type regulator in chromosome 1, plant and
animal pathogen-type type III secretion system
loci, and two pairs of luxR/luxI-type regulators in
chromosome 2 are shown.
La struttura di differenti genomi può essere comparata in tre livelli:
a) Comparison of overall nucleotide statistic
b) Comparison of genome structure at DNA level
c) Comparison of genome structure at gene level
a) Comparison of overall nucleotide statics
genome size, overall (G+C) content, regions of different (G+C) content,
codon usage.
Il contenuto in CG varia dal 25% al 75%
G+C/G+C for leading and lagging strand referred as GC skew
Il sequenziamento e l’analisi dei genomi ha evidenziato una forte variabilità
nelle dimensioni, organizzazioni circolari e/o lineari e nel contenuto di CG
Es. 29% in Borrelia burgdorferi
68% in Deinococcus radiodurans
Codon usage
Composizione aminoacidica di una specie
a) Comparison of overall nucleotide statics
ex: two Helicobacter pylori strains J99, 26695, have about the same
overall (G+C) content but they each have several regions of different
(G+C) content that are strain- specific (horizontal gene transfer)
Il contenuto di G+C varia dal 25% al 75% nei batteri ed è correlato con la crescita in
aerobiosi:
batteri aerobi hanno un maggiore contenuto in G+C rispetto a quelli che vivono in
anaerobiosi
b) Comparison of genome structure at DNA level
Chromosomal breakage and exchange of chromosomal fragments are common
mode of gene evolution
Il termine “synteny” originalmente usato per indicare loci genici su uno stesso
cromosoma, adesso, è, anche riferito a due regioni di due genomi che mostrano
una forte similarità !!
L’identificazione e l’analisi delle “synteny regions ” forniscono informazioni
sull’organizzazione e sull’ evoluzione dei genomi
b) Comparison of genome structure at DNA level
Similarity of sequence and conservation of chromosomal fragments in those
regions ……are likely to be related by common descent.
1. the length of the regions and percentage of DNA sequence identity between
conserved syntenic regions
2. Distribution of these regions along the genomes
3. Gene order of conservated regions
4. Content of DNA repeats
c) Comparison of genome structure at gene level
Chromosomal breakage and exchange of chromosomal fragments cause distruption of gene order and
“gene order”correlates with evolutionary distance
These studies analize
•the conservation of gene order
• conservation of relative orientation of gene pairs
•generate plots of positions in two species
This plots suggest hot spots of genome rearrangements
I riarrangiamenti genomici rappresentano un problema per valutare le distanze geniche tra genomi.
Computational tools quali GRIMM (http://www-cse.ucsd.edu/groups/bioinformatics
/GRIMM/index.html), consentono di valutare una serie di riarrangiamenti probabilmente associate con
la conversione di un genoma in un altro utilizzando l’analisi di distinti “gene order “
2. Comparative analysis of coding regions
sequenza - struttura - funzione
genomica funzionale: tecnologie innovative rivolte ad assegnare rapidamente e
ed efficacemente funzioni geniche alle sequenze
La bioinformatica
fornisce
un mezzo
rapido
ed efficace peranalysis:
assegnare una funzione
Three
important
areas
of comparative
genica presunta
1. Genome structure
2. Coding regions
3. Non conding regions
2. Comparative analysis of coding regions
Involves:
1. the identification of gene-coding regions
2. comparison of gene content
3. comparison of protein content
Predizione genica ed annotazione
numerosi programmi bioinformatici sono utili alla
identificazione di geni all’interno di una sequenza di DNA.
Predizione genica:
identificare le regioni di DNA che codificano le proteine
Annotazione:
definire la funzione dei geni (o ORF) predetti:
- la localizzazione dei geni (la loro posizione nella sequenza),
 la struttura degli stessi ( regioni regolatorie predette),
 l'eventuale match con sequenze proteiche o di RNA note.
Identificazione di orf funzionali utilizza i programmi di bioinformatica
L’identificazione di una orf funzionale richiede un codone di inizio ed
una di fine.
La ricerca delle orf richiede l’analisi nei 6 schemi di lettura
- informazione sulla funzione di un nuovo gene
ORF Finder (Open Reading Frame Finder)
http://www.ncbi.nlm.nih.gov/gorf/gorf.html
ExPASy Home page
http://www.expasy.org/tools/dna.html
Figure 4.1. Open reading frames of 100 bp encoded on a 10-kb fragment of
the Escherichia coli K12 genome from 3435250 to 3445250.
The figure was generated using the program ORF finder at the NCBI web site
(http://www.ncbi.nlm.nih.gov/gorf/gorf.html). The six horizontal lines
represent frames 1, 2, 3, 1, 2, and 3, respectively. ORFs in each frame are
shown as green boxes.
La predizione genica è più semplice nei procarioti che negli eucarioti
Nei procarioti, poiché non hanno introni, le sequenze
codificanti le proteine sono facilmente identificate come
le open reading frames più lunghe.
1
1000
2000
3000
4000
5000
+1
+2
+3
-1
-2
-3
Ci possono essere diversi start codon potenziali in un gene di procariote:
1) L’mRNA può essere policistronico
2) Alcune volte nei genomi procarioti si trovano geni sovrapposti.
3) Il genoma procariotico è costituito per la maggior parte da regioni codificanti (ORF)
programma DNA STRIDER
Un test per l’identificazione di geni si basa sul codon usage, cioè
sull’utilizzo preferenziale e non casuale di codoni nelle ORFs espresse di
un organismo.
programma DNA STRIDER rappresenta la posizione dei
codoni comuni (O=optimal),
meno comuni (S=suboptimal),
rari (I) ed unici (U=unique + i codoni di STOP)
Ovviamente il gene è rappresentato dai codoni più comunemente usati.
Protein sequence databases
Il database di sequenze proteiche è ottenuto in gran parte dalla
traduzione delle sequenze depositate nei tre sequencedatabase:GenBank, EMBL, DDBJ.
NCBI protein database contiene un set completo e semplice di proteine
Ciascuna sequenza proteica è riferito ad uno specifico gene
Gene prediction historically had been one of the most important
and complex aspects of computational biology !!
The main problem is getting the correct protein set e.i. correctly predicting
the protein-coding regions in DNA sequences for which
Theisresponsibility
the correctness of the sequence and its
there
no experimentalfor
evidence!!!!!!
annotations rests with the submitter!!!!
ExPaSy web site: http://www.expasy.org/alinks.html
Protein families database of alignments
and HMMs
Pfam è una banca dati di famiglie proteiche accomunate da elementi strutturali e
funzionali. Ogni entry è caratterizzata da:
famiglia
raggruppa sequenze proteiche accomunate dagli stessi domini,
dominio
definisce unità strutturali che possono essere presente in famiglie
differenti,
repeat
raggruppa elementi funzionali attivi e presenti in copie multiple in
proteine globulari,
motivo
include pattern che compongono blocchi strutturali non associati a
proteine globulari.
LINK A PFAM
1
2
3
PSORT
La genomica comparativa:
•compara due o più genomi per individuare regioni simili o differenti
•studia la biologia dei singoli genomi
Tools informatici innovativi
BLAST (Basic Local Alignment Search Tool)
algoritmo sviluppato nel 1990 da David Lipman
ANALISI COMPARATIVA
Rappresenta uno degli approcci bioinformatici più rilevanti per
la caratterizzazione funzionale delle sequenze nucleotidiche e
proteiche.
la funzione di un gene o di una proteina può essere
predetta basandosi sul confronto di un certo numero di
sequenze simili relative allo stesso o a diversi organismi.
inoltre consente di:
- stabilire le relazioni evolutive tra differenti microrganismi
- ipotizzare l’esistenza di un comune antenato
Sequenziamento di DNA su larga scala
Traduzione della sequenza in tutti e sei i frame di lettura
Ricerca di similarità nei database di sequenze proteiche
Nucleotide
Nucleotide-nucleotide BLAST (blastn)
Translated
•Translated query vs. protein database
(blastx)
•Protein query vs. translated database
(tblastn)
•Align two sequences (bl2seq)
Protein
•Protein-protein BLAST (blastp)
Utilizzo di programmi
di predizione genica per
localizzare i geni
Analisi delle sequenze regolative dei geni
Selecting the BLAST Program
The BLAST search pages allow you to select from several different programs.
Below is a table of these programs.
Program
Description
blastp
Compares an amino acid query sequence
against a protein sequence database.
blastn
Compares a nucleotide query sequence against
a nucleotide sequence database.
blastx
Compares a nucleotide query sequence
translated in all reading frames against a
protein sequence database. You could use this
option to find potential translation products of
an unknown nucleotide sequence.
tblastn
Compares a protein query sequence against a
nucleotide sequence database dynamically
translated in all reading frames.
tblastx
For identifying nucleotide sequences similar to
the query based on their coding potential
Please note that the tblastx program cannot be
used with the nr database on the BLAST Web
page because it is computationally intensive.
L’analisi dei "motivi funzionali“ sono utili per identificare la
funzionalità della proteina
A volte bastano solo un paio di aminoacidi per potere assegnare una
caratteristica funzionale ad una proteina (ad esempio un sito di
glicosilazione).
Queste caratteristiche si riflettono, in genere, in porzioni conservate
nella sequenza aminoacidica della proteina che è possibile
individuare attraverso l'allineamento multiplo delle sequenze.
Analizzando allineamenti di sequenze a coppie non si è in grado di definire
quali siano tra i residui conservati quelli che risultano più importanti per la
funzione della proteina.
 Invece se si analizza un allineamento multiplo è possibile misurare la
variabilità relativa di ciascuna delle posizioni all’interno del
multiallineamento.
individuazione siti
conservati
collezione di sequenze
omologhe
allineamento multiplo
Un multiallineamento può essere più o meno informativo a seconda
delle sequenze che lo compongono;
ad es. se si allineano sequenze molto simili si avrà poca informazione perché
non si potranno individuare i residui “veramente importanti”.
Spesso invece è più informativo analizzare sequenze differenti provenienti
anche da specie differenti.
Tutta l’informazione di un multiallineamento può essere contenuta
nel suo profilo il quale, sulla base degli aminoacidi rappresentati,
attribuisce a ciascuna colonna (allineamento) il punteggio relativo a
ciascuno dei 20 AA.
ClustaW multiple sequence alignment
Clustered Regularly Interspaced Short Palindromic Repeats
(CRISPR)
is “immune system” that control invasions of viruses and plasmids in archea and bacteria!!
CRISPR systems: acquired, heritable,sequence –specific “adaptive “immunity
CRISPR present a curious repeat structure found in many prokaryotic genomes
They show characteristics of both tandem and interspaced repeats. They have been described in
a wide range of prokaryotes, including the majority of Archae and many Eubacteria
CRISPRs utilizza small non-coding RNAs per la difesa ed agisce con le proteine Cas
Clustered Regularly Interspaced Short Palindromic Repeats
(CRISPR)
A CRISPR locus is mainly characterized by :
•Direct Repeat (DRs) and Spacers : A CRISPR is a succession of 24-47bp
sequences called Direct Repeat (DRs) separated by unique sequences of a
similar length (spacers). Sometimes, at one end of the CRISPR, the DR is not
totally conserved, it is called degenerate DR.
•A leader sequence : the CRISPR locus is generally flanked on one side by a
common leader sequence of 200-350 bp,
•A family of Cas genes : CRISPR-associated genes are genes always found
closely linked to the repetitive sequences. 6-20 cas genes usually in close
proximity to one array
CRISPRs: genetic memory banks
• short, direct repeat sequences: there are 12 families of CRISPR repeats based on
sequence and secondary structure
• the variable sequences , called spacers, are derived from viruses, plasmids and other
invaders and confer immunity against the corrisponding invader.
• CRISPR locus transcripts are processed to generate small crRNAs
“core”cas genes (1-6) are present in a wide array of organisms
cas 1 and cas 2 appear to be universal
 one or more of the nine sets of subtype-specific cas genes
auxilary Cmr module
Csa (only archea), Cst, Csh and Csm subtype are
common in archea
Cas system are disseminate by horizontal gene
Transfer
Cas protein sequences indicate potential funtions as
Nuclease, helicase RNA binding proteins
Cas protein systems
CAS genes codificano le proteine che agiscono in CRISPR RNA processing and/or DNA
silencing, e sono localizzate vicine sul genoma.
CAS proteins spesso contengono RNA- or DNA binding domains, helicase motif and endo or
exonuclease domains.
Non è noto il meccanismo con cui i CRISPR scelgono il DNA esogeno da integrare
Streptococcus pyogenes
è un patogeno strettamente umano- non sono noti altri reservoir, responsabile di:
• Fig. 1. Circular representation of the S. pyogenes strain SF370 genome.
•M1 serotype: test sierologico e sequenza del gene emm1
Outer circle, predicted coding regions transcribed on
the forward (clockwise) DNA strand.
Second circle, predicted coding regions transcribed on
the reverse (counterclockwise) DNA strand.
Third circle, stable RNA molecules.
Fourth circle, mobile genetic elements: bacteriophage;
blue,
transposons/IS
elements;
light
cyan,
transposons/IS elements (10% of the total genome)
Fifth circle, known and putative virulence factors:
purple, previously identified ORFs; brown, ORFs
identified as a result of genome sequence.
The lines in each concentric circle indicate the position
of the represented feature.
Colors:
Ex:dark gray, amino acid transport and metabolism; light gray, carbohydrate transport and metabolism; green,
cell division and chromosome portioning; violet, DNA replication, recombination and repair; yellow, energy
production and conversion; light pink, function unknown; rose, general function prediction only; purple,
virulence factors; brown, newly identified virulence factors; blue, transposons/IS elements.
Genoma dello S.pyogenes
• Recentemente sono stati sequenziati gli interi genomi di diversi ceppi di
S.pyogenes con differenti proprietà sierologiche e di virulenza.
Un carattere distintivo è la presenza di genomi fagici completi, che
costituiscono il 10% del genoma totale.
Sono i fagi i protagonisti del trasferimento genico orizzontale in S.pyogenes, e
quindi della sua complessiva evoluzione, con un continuo emergere di nuovi cloni
con nuove caratteristiche e nuovi profili di virulenza.
S.pyogenes sono divisi in due gruppi sulla base delle sequele post-infezione:
Gruppo I : associati alla febbre reumatica, infezioni delle gola, infezioni
invasive M-type 1, 4, 12, 25 (class I M protein)
Gruppo II associati alle forme di gromerulonefrite acute, piodermiti ed
infezione della pelle con i type M2, 42, 49, 56, 57 e 60 (class II M protein)
e contengono il fattore SOF (serum opacity factor)
http://www.cdc.gov/ncidod/biotech/strep/strepblast.htm
Bacteriophages
•I geni che codificano per “superantigen-like protein” sono spesso localizzate su elementi
genici mobili/fagi ipotizzando una loro diffusione mediante trasferimento orizzontale
•contiene la tossina C codificata dal gene speC ( tossina eritrogenica ) associata ad un
batteriofago “phage 370.1”
• phage 370.2 veicola due geni “ superantigen-like genes “ indicati speH/I
• phage 370.3 veicola due geni coinvolti nel trasferimento orizzontale e virulenza
Uno dei sistemi di regolazione maggiormente studiati in Streptoccoccus
pyogenes a due componenti è covR-covS (Cov control of virulence)
geni di virulenza
covS-covR
• peptidi cationici
antimicrobici
15 % del genoma
• livelli bassi di pH
• alte temperature
P
covS
• variazione della
concentrazione
ionica di Fe o Mg²
Regolatore di risposta
Sensore chinasi
P
covR
Horizontal Gene Transfer
Plasmid
Plasmid is very compact - little "junk" genetic material,
compared to chromosome
Plasmids carry genes that have either an essential function (such as replication,
maintenance or transfer) or accessory functions (such as those that contribute to
the obvious phenotype of the host and enable it to adapt to specific environmental
changes).
Although they have their own genes for the initiation and regulation of replication,
they are absolutely dependent on host cell for replication process (need basic
enzymes, nucleotides, and energy).
Functions encoded by Plasmid
Il microrganismo che contiene un plasmide che conferisce un “selective
advantage”, sopravvive e garantisce la sopravvivenza della specie
I plasmidi consentono ai batteri di occupare una grande varietà di nicchie
ecologiche
Nomenclature
pBR322 was constructed by Bolivar and Rodriguez da ColE1 plasmid
pBR325 is pBR322 con chloramphenicol resistance gene inserted
R- Plasmids
Functions of the ori region
• Host range - narrow or broad host ranges
ColE1, pBR322, pET, pUC: narrow host ranges (E.coli, Salmonella,
Klebsiella)
RK2, RS1010: broad host ranges (Gram-positive and gram-negative
bacteria)
Broad-host-range plasmids encode all of their own proteins required for
replication initiation
Functions of the ori region-Regulation of copy number
I plasmidi si replicano con due modalità:
• quelli di maggiori dimensioni si replicano in maniera coordinata con il
cromosoma batterico e si definiscono sottoposti a “controllo stringente” , sono
presenti una o poche copie per cellula
•quelli di piccole dimensioni si replicano in maniera indipendente dalla
replicazione batterica e si definiscono a “controllo rilassati”, sono presenti in
molte copie –fino a 1000 per batterio
Stringent - low copy number (F factor)
Relaxed - high copy number (pBR322 - 16 copies; pUC18- 30 to 50 copies)
Regulation of replication of ColE1-derived plasmid
Replication regulated by an RNA
replication
no replication
RNAI e RNAII sono complemetari
Per le prime 108 bp di RNA II
-più alta la concentrazione dei plasmidi
maggiore quantità di RNA I e rop
Caratteristiche essenziali dei vettori
plasmidici:
1)
Origine di replicazione
2) Marcatore di selezione che permette ai
batteri trasformati di crescere su terreno
selettivo
3) Regione adatta ad inserire il DNA da clonare
(sito multiplo di clonaggio o
poly-linker)
Controllo del numero di copie
I plasmidi possono controllare il numero di copie regolando l’inizio della replicazione
plasmidica
L’inizio della replicazione può essere controllata regolando:
• La disponibilità del primer necessario a innescare la replicazione del DNA plasmidico
• La disponibilità di proteine essenziali alla replicazione
• La funzionalità di proteine essenziali alla replicazione
Rnasi H
RNA II
ori
rop
RNA I
La replicazione plasmidica inizia dalla ori ed è innescata da un primer a RNA (RNA II),
trascritto da un promotore situato 550 bp a monte della ori. Gli ibridi DNA:RNA formati dal
filamento di DNA e dall’RNA II nascente, costituiscono un substrato per la Rnasi H che taglia
l’ibrido e fornisce l’OH al 3' per la replicazione del DNA.
La maturazione dell’RNA II è controllata dall’RNA I, trascritto sul filamento opposto della
stessa regione di DNA e, quindi, complementare all’RNA II. L’appaiamente tra l’RNA II e
l’RNA I compete con l’appaiamento tra l’RNA II e il filamento stampo, riducendo la
frequenza di inizio della replicazione. Il prodotto d’espressione del gene rop, inoltre,
stabilizza il complesso RNA I:RNA II, riducendo ulteriormente la frequenza di inizio.
Rnasi H
RNA II
ori
RNA I
Il numero di copie dei plasmidi, quindi, è alterato da
-mutazioni che destabilizzano il legame tra il filamento stampo e l’RNA II
- mutazioni che stabilizzano il complesso RNA I / RNA II
-mutazioni che aumentano la disponibilità della proteina Rop o dell’RNA I
rop
Mutazione nel plasmide ColE1
Per aumentare il numero di copie per cellula di plasmidi pMB1/ColE1 si può
intervenire in diversi modi
RNAI
Ridurre i livelli di trascrizione dell’RNAI, per es. introducendo mutazione nella
nella sequenza del promotore
Proteina Rop
La delezione del gene Rop aumenta di 25- 50 il numero di copie per cellula
• i plasmidi di prima generazione (es. pBR322) sono presenti in 15-20 copie
per cellula
• i plasmidi con un replicone pMB1/ColE1 modificato, privi del gene rop,
hanno un numero di copie molto più elevato (>500 per cellula)