STRUTTURA E FUNZIONE DEL GENE
EVOLUZIONE DEI GENOMI
Lodish – Molecular Cell Biology
GENOME: total genetic information carried by a cell or organism
GENE: physical and functional unit of heredity, which carries
information from one generation to the next. In molecular terms,
it is the entire DNA sequence (including exons, introns and
noncoding transcriptional control regions) necessary for
production of a functional protein or RNA
ATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGGATGACTTTCCTCCAGCTACGTCTCAAC
TATTCAGCCCAGGAGCGCCTTTAGATGTGCACCCACTTAATCCATCCAATCCAGAGACTGTATTTCATTCACATCTTGGTGCAGTCAAAAAGGCACCCAGTGACTTTTCATCTGTGGATCTAAGCTTCTT
ACCAGATGAACTTACCCAAGAAAATAAAGACCGAACTGTCACTGGAAACAAAGTCACAAATGAGGAAAGCTTTAGGACTCAAGATTGGCAAAGTCAGTTGCAGTTGCCTGATGAACAAGGCAGTGGG
CTGAACTTGAATAGCAACAGTTCACCAGATACCCAGTCATGTCTGTGCTCTCATGATGCTGACTCCAACCAGCTCTCTTCAGAAACACCAAATTCCAATGCCTTACCTGTGGTATTGATATCATCCATGA
CACCAATGAACCCTGTTACAGAATGTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCTTTGAATGCCAAAAACACAGAATATA
ATCCAAAGAGGTTTGCTGCAGTCATAATGAGGATCCGAGAGCCAAGGACCACAGCTCTTATATTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGACGAGTCTCGGCTGGCAGCAAGA
AAGTATGCTCGCGTGGTGCAGAAGCTGGGGTTCCCCGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGCAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGC
AGTTCAGTAGTTATGAGCCTGAACTGTTCCCTGGCCTTATTTATAAGATGGTGAAACCGCAGGTTGTGCTGCTCATCTTTGCATCTGGAAAGGTTGTACTGACAGGTGCCAAAGAGCGTTCTGAGATCTA
CGAAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGGAGGACATATACCTGGACCTCTTCCTGGATCCTTATACCATCCAGGATGACTTTCCTCCAGCTATGTCTCAA
CTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACC
AGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTG
AACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGC
CAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCCCTGAATGCCAAAAACACAGAATATAACC
CAAAGAGGTTTGCTGCAGTAATAATGAGGATCCGAGAGCCAAGGACAACAGCTCTCATCTTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGAGGAGTCTCGGCTGGCAGCGAGAAA
GTATGCTCGTGTGGTGCAGAAGCTCGGGTTCCCTGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGCAG
TTCAGTAGTTATGAACCTGAACTTTTCCCCGGCCTTATTTATAAGATGGTAAAACCACAGGTTGTGTTGCTAATCTTTGCATCTGGAAAAGTTGTGTTAACAGGTGCCAAAGAGCGTTCTGAGATCTATG
AAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGCAGGAGGAGACCTACCTGGAGCTCTACCTGGACCAGTGCGCCGCTCAGGATGGCCTTGCCCCACCCAGGTCTC
CCCTGTTCAGCCCAGTTGTACCTTATGATATGTACATACTGAATGCATCCAATCCGGATACTGCATTTAATTCGAACCCTGAAGTCAAAGAAACATCTGGTGATTTCTCATCTGTGGATCTTAGCTTCCTA
CCAGATGAAGTTACCCAGGAAAATAAAGACCAGCCTGTCATTAGCAAACACGAAACTGAAGAAAATTCTGAAAGCCAAAGTCCACAAAGTAGGTTGCCATCACCCAGCGAACAGGACGTTGGGCTGG
GCTTAAACAGCAGCAGTTTGTCAAATTCCCATTCACAGCTGCACCCTGGTGATACTGACTCAGTCCAGCCCTCTCCTGAGAAACCAAACTCCGACTCCTTGTCTCTGGCATCCATAACTCCCATGACACC
AATGACCCCTATTTCAGAATGTTGTGGAATTGTACCTCAACTACAGAATATAGTTTCCACTGTAAACCTGGCCTGTAAGTTGGATCTGAAGAAAATAGCTTTGCATGCAAAAAATGCAGAATATAACCC
AAAGAGGTTTGCTGCTGTCATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAAT
ATGCTCGTGTGGTGCAGAAGCTTGGGTTCCCTGCCAGATTCCTCGATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAGATTTCCCATCAGGCTGGAAGGTTTGGTGCTAACCCATCAGCAGTT
CAGTAGTTACGAGCCTGAACTGTTTCCTGGTCTTATTTATAGAATGGTAAAACCACGAATTGTGTTGCTTATCTTTGTATCTGGAAAAGTTGTGTTGACAGGTGCCAAAGAACGTTCTGAGATCTATGAA
GCATTTGAAAACATCTATCCTATTCTAAAAGGTTTTAAAAAAGCCTGAGAAGTCCCCTGGGTAACTTCCAGGCAGCTTCATTTCTGAAGAGTCCAAACTGCAGCATAGAGGACTTATGAAAAACTGTAA
AAAATTGGTTTTAAGTGTTCCATTAAACCCAAAGAAAACAGTCACACAACAAAGCCAGACACAGAAAATTAGGGTGACATGTTTCCTGTCATATGTGGAGCCTAGAGAACATAGAGATGATGTGAAAG
CAGAAGGAGCTATCAAGAAAAAGGAAAGCAGATGGGGCAGCAGATCCATGGGAATACTGGCAGAACTGTATAATGGAAGAATGTCGTATGCACATATGAACATGTCATAATGAAACCTAGTATTTTGT
ACAGTTAATATGGACTAGACAATAGCACAAAGAAATTAGAGATTAGTCTAGCTATATGAAGAGGCTACATCAAAGATCACTCCTTTTTGATGGACAAATTTAATTCCTTATAACTGTAGAGCTGAGATA
TTCACTTGCTTGTCAGACATTAAATGTATCCCACTCTTAGGGTCTAGAAGTTACCCAGACTTCTTGTACCATGGTCCCATCTATCTTCAAAGTCAGCAGTGACGACTCTGCCTTATGACAAGGTCATCTCC
TGCTTTCAAATCCCTCCCAAAGAGTGGCCAATTCCTCCTTGGCTGCTCAGTCAGTAAGGGCAGGCTTGGATCCTTTCCCTTTCCTAACAATGGACTTGGAATTTTAATTACATCTTCAAAACCCAAGAGC
ATTTGGTTTTTTTTAGATAACTGGGAGATACATTTGGAGATAGGGATTTGGGGAGCCACCGAAACATTCTACCTACCATAGGAAATAGTTATAAATCTATTTTACTGGCTGGAGAGATGGCCAAGCAGTT
AAGAATACTTTCTGCTTTTTCAAAGGATAGAAATTCTGTTCCTAGCACCCACACTGGGCTTCTTAGTGATTCCAACTCTACAGGACCTGATGCCTCCTTCTCTCTGGCTTCCTTAGATACCAGTTTGTACT
GGCACATGCATATGCACAGGAGAAGGCTCTCTCTCTCTCTCTCCCCCCCCCCCCTCTCTCTCTCTCACACACACACACAAGATGGTGAGATATAATTAATAAAATAAAGTAAAATTTGGATCTGTTTTAG
TCAGTTTGGGATGCCATAATAAAACACCACAAACTGGGCAGTTTAAACCACAGAAATTTCCTTCATAGTTCTGAAGGCTGGAGATCTAAGATCAAGGTCCCTGCAGATTTGGTCTCTCCTGTAGCAATC
CTCCATCTTTCCTTTTAGGTAGCTGCCTTAATGTTGCTCTTTTTACAGCTTTTTCTTTGTATTTCTATGAAAACATCAGACATATTGGATTGGGGCTTCTACACATGATCTTCATGGGATAAGCAATAACCA
TAGTTACTGATCTGTGAGGCTGGTTCTGAGTGTGCAGCTCAGTAGGCTGTCTCATTTACAGACACTATGACATTACATCACACATCACTATATAAATCCCAGATTTTTCAAAAGGATCCCCCTATTTTTAT
TGGAATGTCTGACTCTAGTGCAGGTTATCCAAGCTCCATTCTCAGGTTCGTTTTATCCACCAAGACTGAGCAGATGAGCTGGGCACAGAGACATGATGATGAATAATTTAAATTGTTCCTTTTAAACAGT
AGAATCAAGTAAGGAAGATTTAAAAATACATTTTGCAATCTCTTACATCAAAGTGTCTTCTTCTAGAACAGTTCAATACAGTTAAGCTAAGACATTTGAATTAAAGCGTTTAAGAAAGAAAAGCTTCTCT
GGATATTTGGTTTTACATTAACTTCTTGAGTTGTCTGAACCCTAACTGTGGAATTTGCACAGCTGTAGGCAAATTCTCTGTAATAGGTGAAAATCTACCTGGGGTGTGAAGGTGAAGAATAATTACAGAA
ATATCACATCTGAATAGATGAGGGGATTCAGCGGGCAAGGGTGCTTGCCACCAAGCCTGACACTCTGGGTTTGATCCTTGTGTTTCTTCCAGAGCTGGAAGGAGAGAACCTACTCCTGAAAATTGTCTT
CTGACCATAACATGAGCTCTGCACTGTGCATGTGTCCATGCACACATGCCAATGAAGATAAATCAATATTAGAAATATCACATCTAAGAATCTGGGTATGGTGATGCTCATGCATGTTGTAACCCCAGA
ACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAGGGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGGAAAAGGATAAGGATAAAGGCAGAAGAGA
AAAGCATTCTTTTCTCACTTGCACAATGAGAAAACCTTATCATGCTACTCTACTGGAAGCACTAGTCTCGGCCCTCCTCTTCTTCTGGGTGCCACCAGCTGTGTCTTGCCTGGCTCATCAACTCCTTCTCT
GCTTCTCACCTGACTCCTCAGCTCATTCACAGCATCTGTGCAAGGCAGCAGAGCTGGTCCCGCCTCACTGCGTGCTCCCTGAGGCTGATAAAAGGTATCTGCTCCCACAGCCAGACTGGTACTAACAAA
GCTTCTTCCACTTGCCTGGACGCTGATTCCTTTGCTTGTCCTCAGCTCTACGATGACTTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGA
GACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACCAGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCT
GGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTGAACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATG
ATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGCCAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGATGAC
TTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATC
TGTGGATCTAAGCTTCTTACCAGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCG
ATGAACATGGCAGTGAGCTGAACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGG
CATTGATAGCATCCATGATGCCAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAAGAACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAG
GGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTC
TCGACTTGCAGCAAGAAAATATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAA
ATATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAATATAATGAGGATCCGAG
Struttura del GENE
GENE procariotico
Genoma di E. coli
GENE procariotico
OPERONE
Sequenze regolatrici a monte
Sequenze codificanti
Sequenze terminatrici
della sequenza codificante
GENE procariotico
animazione
GENE procariotico
Promotori
GENE procariotico
Sequenze codificanti
ORF
(Open Reading Frame)
ATGGTATAT-------------------------------TAA
MET VAL TYR
STOP
GENE procariotico
A
Promotore
B
C
Operone
Sequenze codificanti
Terminatore
GENE procariotico
A
Promotore
B
C
Operone
Sequenze codificanti
mRNA
Terminatore
mRNA mRNA
Proteina Proteina Proteina
GENE procariotico
Repressione
A
Promotore
B
C
Operone
Sequenze codificanti
Nessuna espressione
Terminatore
GENE EUCARIOTICO
GENI DELLA I CLASSE
RNA RIBOSOMIALE – rRNA (28S-5,8S e 18s)
GENI DELLA II CLASSE
RNA MESSAGGERO – mRNA
Piccoli RNA nucleari – snRNA
microRNA - LncRNA
GENI DELLA III CLASSE
RNA TRANSFER – tRNA
Piccoli rna nucleolari – snorna
Piccoli rna citoplasmatici - scrna
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE EUCARIOTICO
Promotore
GENE EUCARIOTICO
Promotore
GENE EUCARIOTICO
Sequenza
codificante
modulare
GENE EUCARIOTICO
Segnale di
poliadenilazione
Organizzazione genica negli eucarioti
I geni eucariotici sono monocistronici
Eccezioni: Unità di trascrizione policistroniche risolte in mRNA maturi
monocistronici per trans-splicing (es in tripanosomi, nematodi,
platelminti); uso di IRES, reinizio della traduzione o frameshift
traduzionale
I geni eucariotici non mostrano nessuna evidente
relazione tra localizzazione e l’attività funzionale
(functional clustering) o con l’espressione spaziotemporale
Eccezioni: Raggruppamento di geni con funzione correlata, quali geni
Hox, geni per emoglobine e geni per immunoglobuline (duplicazioni
in
23
tandem?)
Organizzazione genica negli eucarioti
Alcuni geni eucariotici sono policistronici
Taxon
Tripanosomi (Euglenozoa)
Cnidari
Platelminti (Metazoa Acoelomata)
Nematodi (Metazoa Pseudocoelomata)
Ciona intestinalis/Oikopleura dioica
Entità
tutti gli RNA
alcuni RNA
pochi RNA
molti RNA
molti RNA
Il processamento del precursore policistronico è associato al Trans
Splicing delle estremità 5’ degli mRNA e alla poliadenilazione delle
estremità 3’ per generare i trascritti monocistronici.
25
Geni codificanti per proteine
- geni presenti in unica copia (single-copy genes)
- geni omologhi presenti in copie multiple ed organizzati in famiglie geniche
I membri di una stessa famiglia genica possono essere localizzati in
unico cluster, dispersi, o localizzati in più cluster:
Geni in cluster:
-globin (7), growth hormone (5), Class I HLA heavy chain (20),….
Geni dispersi:
Pyruvate dehydrogenase (2), Aldolase (5), PAX (>12),..
Geni localizzati in più cluster:
HOX (38 – 4), Histones (61 – 2), Olfactory receptors (>900 – 25),…
26
La struttura dei geni eucariotici
Nel genoma umano non si osserva una distribuzione omogenea dei
geni. La più alta densità genica si osserva nel chr 19, mentre il chr 13 e
Y mostrano la più bassa densità.
GENE
esone
introne
introne
esone
TRASCRIZIONE
TSS
mRNA
5’UTR
Caratteristiche
dei geni umani
esone
CDS
3’UTR
TRADUZIONE
Mediana Media
Num ero di esoni
7
8,8
L introni (bp)
1023 3365
L 5'UTR (bp)
240
300
L CDS (bp)
1100 1340
L 3'UTR (bp)
400
770
L gene (bp)
14000 27000
28
La struttura dei geni eucariotici
I geni eucariotici presentano una grande varietà di strutture e dimensioni.
Ad esempio nel genoma umano:
Il più piccolo:
Il più grande:
tRNAGLU (69 bp)
Distrofina (2.4 Mb, la sua
trascrizione richiede circa 16h)
Il numero di esoni può variare da 1 (geni privi di introni come molti geni per
ncRNA, interferoni, istoni, ribonucleasi, HSP, GPCR, ecc.) sino a 363 (Titina).
Le dimensioni degli esoni e degli introni sono estremamente variabili.
A fronte di esoni costituiti da pochi nucleotidi, l’esone più grande è presente nel
gene per ApoB (7.6 kbb). Anche le dimensioni degli introni possono variare da
pochi nucleotidi fino a 800 kbp (gene WWOX).
Le proteine codificate possono variare nelle dimensioni da pochi residui (piccoli
ormoni) sino a molte migliaia (Titina, 38.138 aa).
29
GENE EUCARIOTICO
Può un gene codificare per diverse proteine?
Uno stesso gene può codificare per proteine indirizzate a diversi
compartimenti cellulari: l’esempio del gene NFS1
La proteina codificata dal gene NFS1 rimuove lo zolfo dalla cisteina formando alanina. Questo gene utilizza
siti di inizio alternativi della trascrizione e quindi traduzione per generare una isoforma mitocondriale ed una
isoforma citoplasmatica. La selezione del sito di inizio della traduzione è regolata dal pH citosolico.
L’isoforma che codifica per la proteina mitocondriale (457 aa) contiene un peptide segnale e un dominio
aminotrasnferasico.
L’altra isoforma, che deriva sa un sito di inizio alternativo della trascrizione codifica per una proteina
più corta (397 aa) priva del peptide segnale ma contenente il dominio aminotransferasico.
GENE EUCARIOTICO
Può un gene codificare per diverse proteine?
X
Uno stesso gene può esprimere proteine con funzioni opposte:
l’esempio dell’attività della Caspasi 9 (CASP9)
La forma costitutiva della proteina (CASP9, 9 esoni, 416 aa) induce
apoptosi. Essa contiene un Caspase recruitment domain (CARD) e un
dominio caspasi Peptidase_C14.
L’isoforma più corta della proteina (CASP9S, 5 esoni, 266 aa)
contiene un dominio Caspase recruitment domain (CARD) e un
dominio tronco della Peptidase_C14. Questa isoforma è priva
dell’attività proteasica e agisce da inibitore dell’apoptosi.
Splicing Alternativo
Oltre il 90% dei geni umani è in grado di esprimere più di un
trascritto (ed è quindi soggetto a splicing alternativo). Le diverse
isoforme di splicing possono avere specificità a livello di tessuto, di
condizione fisiologica, o patologica.
17,635 Human genes
35
30
25
%
20
15
10
5
0
1
2 -5
6 -1 0
1 1 -2 0
2 1 -3 0
Number of Transcripts/ Gene
3 1 -5 0
>5 0
Splicing alternativo e duplicazione genica sono inversamente correlati
GENE EUCARIOTICO
Può un gene codificare per diverse proteine?
Definizione di GENE
• La trascrizione di un gene si può arrestare in corrispondenza di diversi
terminatori
Il gene per tp73L codifica per 10 trascritti alternativi, e utilizza 2 promotori e 3 diversi
terminatori della trascrizione
I geni possono essere sovrapposti
I geni possono essere sovrapposti tra loro, nello stesso orientamento o in
orientamento opposto, o anche essere completamente contenuti in altri
geni.
GENE EUCARIOTICO
Geni dentro i geni
Geni all’interno di altri geni sono descritti per i genomi di
organismi semplici e nei mitocondri
Nei mammiferi sono descritti geni contenuti nei grandi introni di alcuni geni.
A differenza dei genomi piu’ semplici in questi casi spesso viene utilizzato il
filamento opposto al gene “canonico”
Esempio:
NF1: introne 26 (40Kb) contiene tre piccoli geni (2 esoni)
che vengono trascritti dal filamento opposto
GENE EUCARIOTICO
Geni dentro i geni
NF1
Filamento di senso
5’
Filamento antisenso
3’
Introne 26
esone 26
esone 27
3’
5’
OGMP
2.2KB
EVI2B
10 KB
EVI2A
4 KB
GENE EUCARIOTICO
GENE EUCARIOTICO
GENE nei virus
GENE nei virus
VITA?
Virus a DNA
Virus a RNA
GENE nei virus
GENE nei virus
Geni sovrapposti
Met Val … proteina b
Sequenza di DNA …GTTTATGGTA…
Val
Tyr
Gly
… proteina A
Il genoma è fatto solo di geni?
Il genoma è fatto solo di geni?
Anatomia del Genoma Umano
Il genoma è fatto solo di geni?
Pseudogeni
Talvolta la copia di un gene non è funzionale, ovvero non viene trascritta in RNA, o
viene trascritta in un RNA non funzionale. Le copie inattive di un gene vengono dette
pseudogeni.
Gli pseudogeni possono essere classificati in: 1) non processati; 2) processati.
Nel primo caso il gene inattivo è originato dal gene funzionale e contiene la tipica
struttura in esoni ed introni. La copia genica può essere completa o parziale. Gli
pseudogeni di questo tipo si formano con maggiore probabilità nelle regioni
pericentromeriche.
Gli pseudogeni processati sono privi di introni in quanto derivano dalla
retrotrasposizione di mRNA (retropseudogeni). Il numero di copie di retropseudogeni
è correlato al livello di espressione del gene da cui derivano.
Pseudogeni
La Trascrittasi Inversa codificata da elementi LINE può retrotrascrivere un mRNA in
cDNA che successivamente può essere integrato a caso in un cromosoma. Se sul sito di
inserimento è casualmente presente un promotore il retrogene può essere
eventualmente espresso e diventare funzionale. Normalmente, questo non accade e lo
pseudogene comincia ad accumulare mutazioni casuali che distruggono la ORF
funzionale (frameshifts, codoni di stop).
51
Pseudogeni
Nel genoma umano sono stati descritti ~8.000 pseudogeni (~5.000 nel genoma del
topo). Il maggior numero di pseudogeni processati deriva da geni per proteine
ribosomiali; altri gruppi derivano da geni che codificano per proteine che legano il DNA
e l’RNA, per molecole strutturali ed enzimi metabolici. Molti pseudogeni derivano da
geni a cui non è stata attribuita una funzione.
Oltre al livello di espressione dei geni, altri fattori gene-specifici sono responsabili
dell’origine degli pseudogeni, quali la lunghezza o il loro contenuto in G+C.
Il genoma è fatto solo di geni?
Il DNA NON
CODIFICANTE
RIPETUTO IN TANDEM
SATELLITE, tipico delle sequenze centromeriche (a-satellite,
monomero di 171 bp)
MINISATELLITE, monomero 6-64bp, altamente polimorfico.
Utilizzato per esami di fingerprint del DNA.
Es.DNA telomerico (TTAGGG)
MICROSATELLITE, 2-4 bp ripetuti in tandem. Espansioni
di triplette sono responsabili di alcune patologie (Distrofia
Miotonica)
Microsatelliti e Minisatelliti
I microsatelliti sono costituiti da unità di
ripetizione lunghe da 1 a 10 pb, ripetute
in tandem 10-20 volte, che formano
raggruppamenti molto corti, <150pb, di
tipo (A)n, (CA)n, (CGG)n, ecc.
Sono anche detti SSR (simple sequence
repeats). Le ripetizioni possono essere
perfette o presentare piccole variazioni.
I minisatelliti sono costituiti da unità più
lunghe (da 11 a 100pb)
ripetute in
tandem 20-50 volte che formano
raggruppamenti di lunghezza fino a 20kb
Gli SSR costituiscono circa il 3% del
genoma umano. Sono molto importanti
nello studio delle malattie genetiche in
quanto mostrano un elevato grado di
polimorfismo nella popolazione umana.
Da: Lander et al. Nature 2001, 409: 860
54
Gli SSR possono formarsi attraverso un meccanismo
di scivolamento della replicazione
Gli SSR sono presenti con una frequenza di almeno uno ogni circa 2 kb del genoma.
• Si originano da vari meccanismi tra cui il più importante è lo scivolamento della DNA polimerasi
55
durante la replicazione.
Microsatelliti: Genetic Fingerprint
Caratteristiche degli SSRs
• Polimorfismo di lunghezza: DNA fingerprinting
• Spesso adoperati come marcatori genetici per la mappatura di
geni associati a patologie.
Microsatelliti e malattie genetiche
I microsatelliti, ed in particolare le ripetizioni di triplette sono associati a
varie malattie genetiche
Il genoma è fatto solo di geni?
Il DNA NON
CODIFICANTE
INTERSPERSO
SINE, brevi elementi nucleari ripetuti (pseudogene processato di RNA7SL)
Alu (300bp, 1.000.000 copie nel genoma umano)
MIR (130bp, 400.000 copie nel genoma umano)
LINE, lunghi elementi nucleari ripetuti (retrotrasposoni)
L1 (6,1Kb a lunghezza completa, 200.000-500.000 copie)
Retrovirus endogeni, HERV
Elementi simili retroviral tronchi, RTLV e LTR
Trasposoni a DNA, Mariner
Porzione non codificante:Ripetizioni intersperse
Costituite da sequenze di DNA ripetute, disperse in tutto il genoma.
Sono definite anche Elementi mobili del DNA, perché derivano da elementi
trasponibili (sequenze di DNA che si muovono o sono duplicate da una posizione ad
un’altra nel genoma)
Classe I o Retrotrasposoni
si originano per eventi di
retrotrasposizione, attraverso un
intermedio ad RNA
• elementi LTR
• LINEs: long interspersed nuclear
elements
• SINEs: short interspersed nuclear
elements
Classe II o Trasposoni a DNA
si originano attraverso un intermedio a
DNA, secondo meccanismo di
trasposizione conservativa o replicativa
59
Retrotrasposoni
La caratteristica di tutti i retrotrasposoni
è la presenza di brevi ripetizioni dirette
alle estremità 3’ e 5’ , copia della
sequenza del sito d’integrazione.
Ripetizioni Intersperse nel Genoma Umano
Gli elementi ripetuti interspersi costituiscono cirva il
45% del genoma umano.
• LINE (Long interspersed nuclear elements)
– L1, L2, L3 LINE ( ~21% del genoma, ~100,000 copie)
• SINE (Short interspersed nuclear elements)
– Alu (~10,7% del genoma, ~1,200, 000 copie)
– MIR, MIR3 (~3% del genoma, ~500,000 copie)
• Elementi LTR (Long Terminal Repeats)
– ERV, MalR (8% del genoma, ~500,000 copie)
• Transposoni a DNA
– MER1 (Charlie), MER2 (Tigger), others (2,8% del genoma, ~350, 000 copie)
Elementi LTR
Gli elementi LTR
retrovirus.
o retrotrasposoni virali (6-7kb) presentano analogie con i
Caratteristici degli invertebrati (piante, funghi, insetti) dove sono presenti in gran
numero di copie
Elementi Ty in S. cerevisiae
elementi copia in Drosophila
mancano del gene env e non
possono formare particelle virali
250-600pb
LINEs:long interspersed nuclear elements
promotore
Pol II
RNA binding
anche endonucleasi
ripetizioni
dirette
Gli elementi LINEs o trasposoni non-LTR hanno una lunghezza di circa 6-7kb,
contengono un promotore per l’RNA polimerasi II (derivano da trascritti della
l’RNA pol II), una o due ORF e un segnale di poliadenilazione all’estremità 3’.
•ORF1 codifica per una proteina a funzione ignota ( lega l’RNA?),
•ORF2 codifica per un’enzima che possiede sia un’attività di trascrittasi inversa
(RT), simile a quella dei retrovirus e dei retrotrasposoni virali, che un’attività di
DNA endonucleasi (EN).
Vi sono tre famiglie principali di elementi LINES: L1 (incluse 60-100 copie tuttora
attive e moltissime copie inattive troncate all’estremità 5’); L2 e L3 (inattive). Le
copie attive inserendosi in punti critici del genoma possono inattivare dei geni con
conseguente insorgenza di patologie.
63
Le LINEs si inseriscono preferibilmente nelle regioni eucromatiche ricche in A+T.
Meccanismo di trasposizione degli elementi LINEs
1. Generazione di un trascritto LINE full-length a partire dal promotore.
2. ORF1 e ORF2 vengono tradotte e legano il LINE mRNA.
5’
orf1
orf2
3’
3. Il complesso LINE mRNA/ORF1/ORF2 si sposta nel nucleo, dove l’attività
endonucleasica di ORF2 taglia il dsDNA. L’estremità libera al 3’ (sul DNA)
funge da innesco per la retrotrascrizione a partire dal 3’UTR.
5’
orf1
orf2
5’
3’
3’ 5’
3’
Il sito di taglio di ORF1 è TTTT A, e questo spiega l’integrazione
preferenziale nelle regioni genomiche ricche in AT. Dato che la LINE RT ha
una bassa processività molte delle copie integrate sono tronche (solo
1/100 è completa).
SINEs: short interspersed nuclear elements
A B
AAAA
SINE
Gli
elementi SINEs sono elementi non-autonomi, hanno una lunghezza
compresa tra 0.1 e 0.4 kb.
Hanno un promotore (interno) per L’RNA polimerasi III (derivano da trascritti
della l’RNA pol III), e una regione ricca in A all’estremità 3’ ma non contengono
un segnale di poliadenilazione.
Gli elementi SINEs non contengono alcuna ORF codificante per una trascrittasi
inversa, ma sono in grado di trasporre utilizzando la trascrittasi inversa
sintetizzata da altri retroelementi (trasposizione LINEs-dipendente).
SINEs: short interspersed nuclear elements
Gli elementi SINEs sono distribuiti ad alta densità nelle regioni ricche in CG del
genoma (isocore H), perché hanno un più elevato contenuto C+G (~57%) rispetto
agli elementi LINEs ( 40%).
Nel genoma dei primati sono presenti tre differenti famiglie di elementi SINEs:
l’elemento Alu, ancora attivo, e gli elementi inattivi MIR e Ther2/MIR3.
L’elemento Alu, il più comune nei primati, è lungo 0,3kb; è presente in circa
1.200.000 di copie nel genoma umano e rappresenta quindi oltre il 10% di tutto il
genoma. Presenta una regione ricca in A/T all’estremità 3’, coinvolta nel
meccanismo di retrotrasposizione.
Le sequenze Alu sono localizzate a monte o a valle dei geni, negli introni, nelle
regioni 5’ e 3’ non tradotte dell’mRNA. Non è noto il loro ruolo funzionale,
nonostante siano molto diffuse nel genoma di tutti i primati.
Le sequenze Alu presentano analogie con l’RNA 7SL, componente di una particella
ribonucleoproteica coinvolta nel meccanismo di secrezione dei polipeptidi di nuova
sintesi attraverso le membrane del reticolo endoplasmatico.
Si ritiene che il primo elemento Alu si è originato per un evento di retrotrascrizione
di una molecola di RNA 7SL e successiva integrazione della copia nel genoma.
Meccanismo di retroposizione dell’elemento Alu
Si pensa che il taglio al sito di
inserimento sia opera della L1
endonucleasi
Target-primed reverse
transcription (TPRT)
Il promotore pol III è necessario ma non
sufficiente per la trascrizione che richiede
anche sequenze fiancheggianti appropriate.
La maggior parte degli elementi Alu
integrati non è attiva in quanto non viene
integrata in un contesto favorevole e muta
rapidamente sia nelle sequenze CpG che
nella regione ricca in A.
Evoluzione e classificazione degli elementi Alu
Gli elementi Alu sono classificati in sottofamiglie che si differenziano per l’epoca della loro integrazione nel genoma, dalle
più antiche (Sx, J) alle più recenti (Yc1, etc.).
da: Batzer and Deininger, Nature Rev. Gen. 3:370380, 2002)
Danni genomici indotti da Alu
Numerose patologie sono provocate dall'integrazione casuale di Alu
(Neurofibromatosi,
haemophilia, sindrome di Apert, ecc.) o da
ricombinazione disuguale (diabete di tipo II, sindrome di Lesch–Nyhan,
malattia di Tay–Sachs, ipercolesterolemia familiare, α-thalassaemia,
ecc.).
69
Trasposoni a DNA
I Trasposoni a DNA sono elementi mobili distinti in due categorie:
•Trasposoni a DNA che si spostano replicandosi: una copia rimane nel sito
originale, mentre la nuova copia si inserisce altrove nel genoma
•Trasposoni a DNA che si spostano in maniera conservativa, da un sito all’altro
del genoma senza aumentare il numero di copie
Sono caratterizzati da una sequenza codificante la trasposasi contenente introni,
fiancheggiata da ripetizioni terminali invertite, simili a quelle dei trasposoni batterici.
Sono meno comuni negli eucarioti (3% nel genoma umano, raggruppati in 7 classi
principali) rispetto ai retrotrasposoni.
I più noti sono gli Elementi Ac e Ds del granturco, i primi elementi mobili identificati
negli anni 50 da B. McClintock e gli elementi P di Drosophila. Traspongono mediante il
meccanismo di trasposizione conservativa
70
Funzione degli elementi ripetuti
• Punti caldi per ricombinazione (duplicazioni, inversioni, traslocazioni;
creazione di nuovi geni per shuffling esonici)
• Alterazione della espressione genica in quanto portatori di segnali
trascrizionali (es. promotori e enhancer di LTR; promotori di Alu; siti di
terminazione deboli della trascrizione di elementi L1; segnali di
poliadenilazione)
• Presenza in geni per proteine (Le Alu contengono siti criptici di splicing;
fonte di domini proteici; contributo a variabilità delle proteine)
• Reclutamento come elementi regolatori (es. BC200 di primati deriva da Alu
monomerica)
• Fonte di pseudogeni processati (ritorno in vita come lunghi esoni? Come
nuovi geni? )
• Fonte di plasticità del genoma e quindi ruolo attivo nel rimodellamento
genomico (riarrangiamenti cromosomici, reshuffling di geni, etc)
Qual è l’origine di tutto questo?
Come si sono evoluti i genomi?
Origine ed evoluzione dei genomi
Origine ed evoluzione dei genomi
Mondo a RNA
Nascita di molecole autoreplicanti
Origine ed evoluzione dei genomi
Mondo a RNA
Protogenomi a RNA
Compartimentalizzazione
all’interno di membrane
lipidiche
Prime strutture di tipo cellulare
Origine ed evoluzione dei genomi
Come si è evoluto il genoma a DNA?
Nascita di enzimi proteici
Origine ed evoluzione dei genomi
Come si è evoluto il genoma a DNA?
Trasferimento della funzione codificante dall’RNA
al DNA (chimicamente piu’ stabile)
Origine ed evoluzione dei genomi
Primi Genomi a DNA (3,8 miliardi di anni fa)
Ogni molecola di DNA rappresenta un singolo gene
che codifica per una singola proteina
singolo gene
singola proteina
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
1. Duplicazione di alcuni o tutti i geni del genoma
2. Acquisizione di geni da altre specie
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
Duplicazione di un intero genoma
Genoma duplicato
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
Duplicazione di geni
•Crossing-over disuguale
•Scambio disuguale tra cromatidi fratelli
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
Duplicazione di geni
Gene A1
Duplicazione
Gene A1
Gene A2
Pressione
selettiva
Nessuna
pressione
selettiva
Gene B
Gene A1
Nuova funzione
o
Funzione simile
Divergenza
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
Duplicazione di geni
Famiglie geniche
EVOLUZIONE DEI GENI
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
Riarrangiamento genico
•Duplicazione
dei domini
•Rimescolamento
di domini
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
ESONI = MOTIVI PROTEICI
MOTIVI
N
 b
b 
b
b 
b
C
Proteina
Gene
ESONI
Origine ed evoluzione dei genomi
Acquisizione di nuovi geni
Acquisizione di geni da altre specie
Il trasferimento di geni tra batteri è un fenomeno comune in natura
che avviene ancora oggi
I retrovirus sono capaci di spostare geni animali
tra individui della stesse specie e tra specie diverse
EVOLUZIONE DEI GENI
Maria C. Rivera & James A. Lake
The ring of life provides evidence for a genome fusion
origin of eukaryotes
NATURE |VOL 431 | 9 SEPTEMBER 2004
Origine ed evoluzione dei genomi
INTRONI? UN MISTERO
1. IPOTESI INTRONI ANTICHI: gli introni sono molto antichi
e si stanno gradualmente perdendo nei genomi degli eucarioti
2. IPOTESI INTRONI RECENTI: gli introni si sono evoluti di recente
e si stanno gradualmente accumulando nei genomi degli eucarioti
Origine ed evoluzione dei genomi
INTRONI? UN MISTERO
Teoria esonica dei geni
Origine ed evoluzione dei genomi
INTRONI? UN MISTERO
Le evidenze attuali non inficiano alcuna ipotesi
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Uomo – Scimpanzè= 98,5% di omologia?
Usando una statistica corretta,
considerando il numero di misure
fatte, la similitudine si riduce al
96%.
Recenti studi indipendenti hanno
ricalcolato queste percentuali,
ottenendo un range di omologia
compreso tra il 66 e il 76% (in base
al cromosoma)
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Recenti studi indipendenti hanno ricalcolato queste percentuali,
ottenendo un range di omologia compreso tra il 66 e il 76% (in base
al cromosoma)
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Che cosa ci rende diversi dalle scimmie?
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Che cosa ci rende diversi dalle scimmie?
Sottili cambiamenti nei profili di espressione dei geni coinvolti in
processi di sviluppo e nella specificazione delle interconnessioni
all’interno del sistema nervoso
why do humans have a high risk of cancer, even though chimps rarely
develop the disease?
Scientists have looked at brain samples of each species. They found that
differences in DNA methylation, may contribute to phenotypic changes.
The results also hint that DNA methylation plays an important role for
some disease-related phenotypes in humans, including cancer and autism.
Origine ed evoluzione dei genomi
IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI
Quello che ci rende umani probabilmente
non è il genoma umano di per sé,
ma il modo in cui il genoma funziona