Insegnamento di Genomica
Corsi di Laurea Specialistica in:
Biotecnologie Agro-industriali
Biologia Molecolare e cellulare
docenti:
Silvia Fuselli ([email protected])
Vincenza Colonna
Inga Prokopenko
Morena de Bastiani
Definizioni
• Genomica: Scienza che si interessa della
determinazione e dello studio, a livello
molecolare, dell’intera sequenza di DNA di
un organismo.
• Genoma: L’intero contenuto genico di un
organismo vivente
Genetica Molecolare
Informatica
1940-1950
Collegamento tra DNA ed
ereditarietà
Primi computer
1950-1960
Struttura del DNA
Primo computer
commerciale
1960-1970
Codice genetico
Chip
1970-1980
Sequenziamento DNA
Internet collega 4
università
americane
1980-1990
PCR
PC
1990-oggi
Progetto genoma umano
Internet collega tutto
il mondo
Bioinformatica
• Informatica applicata alla biologia (molecolare)
con diversi scopi:
– Generazione di dati:
• Interpretazione di dati di sequenziamento
• “Assemblaggio” di sequenze e genomi
– Organizzazione di dati:
• I dati sono memorizzati in banche dati di pubblico
dominio
• Devono essere accessibili per parole chiave o comunque
in modo “semplice”
• Devono essere “collegati” tra loro in modo logico: da un
cromosoma devo potere risalire ai geni mappati sul
cromosoma, dai geni alle proteine che codificano, e così
via
Bioinformatica
• Ma anche analisi (alcuni esempi):
– Analisi delle sequenze nucleotidiche per la localizzazione di
geni ed elementi di regolazione.
– Analisi delle sequenze proteiche allo scopo di riconoscerne
la funzione biologica.
– Studio delle interazioni intermolecolari tra proteine e acidi
nucleici allo scopo di riconoscerne la funzione e sviluppare
nuovi farmaci.
– Studio dell’evoluzione di geni e genomi per la loro
classificazione funzionale e filogenetica
– Studio dell’espressione dei geni in diverse condizioni
– Sviluppo di tecniche diagnostiche innovative
– Progettazione e applicazione di modelli che simulino i
processi biologici cellulari
Genomica
Determinazione e studio dell’intera sequenza del DNA
di un organismo.
Identificazione e studio dell’espressione dei geni
(associati a malattie e non) in essa contenuti.
Trascrittomica
Proteomica
Identificazione, studio e analisi funzionale dell’intero
contenuto di mRNA di una cellula.
Studio sistematico della struttura (primaria, secondaria, terziaria), della funzione e delle interazioni tra
proteine.
Studio di serie di processi biochimici legati tra loro da
relazioni funzionali.
Reti metaboliche
Es:. Processi chimici e biochimici che portano alla
morte cellulare nelle patologie tumorali
5 agosto 2005 – da ensembl
5 maggio 2006 – da ensembl
Ensembl release 53
- Mar 2009
Obiettivi fondamentali della Genomica
Tutti i “progetti genoma” condividono un gruppo
comune di scopi:
• Stabilire un database ed un’interfaccia di ricerca, reciprocamente integrati
e disponibili su Internet
• Ottenere e combinare mappe fisiche e genetiche del genoma
• Generare ed ordinare sequenze genomiche e sequenze di geni espressi
(allineamento contig, segnali di sequenze espresse: EST)
• Identificare ed annotare tutti i geni codificati da un determinato genoma
• Costruire atlanti di espressione genica (analisi dei microarray)
• Accumulare dati funzionali, identificando le caratteristiche biochimiche,
cellulare e fisiologiche dei geni (Genomica funzionale, Farmacogenomica).
• Caratterizzare la diversità di sequenza del DNA attraverso lo studio della
distribuzione dei polimorfismi, analisi del LD (Genetica forense, Genetica
delle popolazioni)
• Fornire le risorse per eseguire comparazioni tra i genomi (Genomica
comparativa)
Programma
• Anatomia dei genomi
– I genomi dei procarioti
– I genomi degli eucarioti (I genomi nucleari, I genomi degli organelli)
• Studio dei genomi
– Enzimi (nucleasi,ligasi,ecc.), Clonazione, Vettori (BAC, YAC, ecc.),
PCR
• La mappatura dei genomi
– Mappatura genetica (RFLP, SSLP, SNPs ecc.)
– Mappatura fisica (restrizione, FISH, STS, ecc.)
• Metodi per il sequenziamento del DNA
– Metodi di sequenziamento
– Assemblaggio dei contigua
• Funzionamento dei genomi
– I domini della cromatina
– Modificazioni della cromatina e l’espressione del genoma
• Progetto Genoma umano
• Evoluzione dei Genomi
Diversi tessuti umani sono formati da cellule
che si comportano in modo diverso
(nel corpo umano ci sono circa 6x1013 cellule)
Ogni cellula contiene una esatta copia del
genoma (che non è altro che l’intera
sequenza del DNA dell’organismo)
All’interno del nucleo della cellula ci
sono i cromosomi: 22 paia di autosomi
e un paio di cromosomi sessuali XY
Nei cromosomi si possono individuare porzioni di DNA
codificante chiamati geni
Dogma Centrale
L’ espressione dell’informazione genetica raccolta nelle molecole
di DNA, avviene in due stadi:
–(i) trascrizione, durante la quale il DNA è trascritto in mRNA
–(ii) traduzione, durante la quale l’ mRNA è tradotto per produrre
la proteina associata
DNA
mRNA
proteine
Espressione Differenziale
Se ogni cellula contiene una copia dell’intero genoma, e le
cellule sono di diversi tipi (cellule muscolari, cellule cardiache,
cellule della pelle, cellule del sangue …),
Che cosa le rende differenti ?
Espressione genica differenziale, cioè: quando, dove, e in che
quantità ogni gene è espresso.
Il controllo dell’espressione genica può essere esercitato ad ogni
tappa del processo che termina con la sintesi proteica ma avviene
prevalentemente a livello della prima tappa, ovvero a livello della
trascrizione del DNA in RNA messaggero.
Anatomia dei genomi
EUCARIOTI: nucleo, mitocondri (cloroplasti)
•
•
•
•
piante
animali
funghi
protozoi
PROCARIOTI • eubatteri (gram +, gram -,
cianobatteri)
• archeobatteri
Anatomia dei genomi eucariotici
Componenti nucleari e mitocondrali del genoma umano
Genoma nucleare: 3,2 Gb
composto da 46 molecole
di DNA lineare:
La molecola più corta è di
~ 47Mb e la più lunga è di
~ 245 Mb
Genoma mitocondriale:
molecola di DNA circolare
di 16.569 bp;
Ci sono ~ 800 mt per
cellula e ~10 copie di
mtDNA per mitocondrio =
8000 molecole di mtDNA
Il genoma mitocondriale umano
Sequenziato nel 1981 (Anderson et al.)
Control region
16.569 bp
Il Genoma umano in numeri
• 23 paia di cromosomi;
• 2 metri di DNA;
• 3,200,000,000 bp (3,2 Gb; 3,200 Mb; 3,200,000 kb);
• 20,000-25,000 geni.
???????????
Dicembre, 2003
Maggio, 2005
Maggio, 2004
10% di sequenze
ripetute non
assegnabili
perché
appartengono a
telomeri,
centromeri ecc.
Science. 1996 Jun 21;272(5269):1755-62.
The complete 685-kilobase DNA sequence of the human beta T cell receptor
locus.
Rowen L, Koop BF, Hood L.
Department of Molecular Biotechnology, University of Washington, Seattle 981957730, USA.
The human beta T cell receptor (TCR) locus, comprising
a complex family of genes, has been sequenced. The
locus contains two types of coding elements-TCR
elements (65 variable gene segments and two clusters
of diversity, joining, and constant segments) and eight
trypsinogen genes --that constitute 4.6 percent of the
DNA. Genome-wide interspersed repeats and locusspecific repeats span 30 and 47 percent, respectively, of
the 685-kilobase sequence. A comparison of the
germline variable elements with their approximately 300
complementary DNA counterparts reveals marked
differential patterns of variable gene expression, the
importance of exonuclease activity in generating TCR
diversity, and the predominant tendency for only
functional variable elements to be present in
complementary DNA libraries.
65 Vß; 2 cluster DJC
con 1 Dß, 6-7 Jß, 1 Cß
Un segmento del genoma umano
50 Kb
Locus:
Recettore ß
delle cellule T
Cromosoma 7
685 Kb
Cosa contiene questa regione di 50 kb, parte del
locus che codifica il β T-cell receptor?
• un gene: TRY4 (5 esoni, 4 introni)
• due segmenti genici: V28 e V29-1, discontinui
• uno pseudogene: TRY5
• 52 “genome-wide repeat sequences”: 4 tipi
tutti presenti (LINEs, SINEs, elementi LTR,
trasposoni)
• due microsatelliti
• il rimanente 50% della sequenza è composto di
DNA a singola copia, non genico e non
ripetitivo, a funzione ignota
GENOMI EUCARIOTI
• tutti sono suddivisi in 2 o + molecole lineari
• tutti gli eucarioti hanno anche genomi
mitocondriali, alcuni anche cloroplastici
• le caratteristiche generali sono comuni, l’unico
aspetto molto variabile è la grandezza
• il n° di cromosomi non è legato alla complessità
della specie, né alla grandezza del genoma
(es. salamandra ha un genoma 30 volte più grande dell’uomo ed è
distribuito su un n° di cromosomi che è la metà di quello umano)
Contenuto in paia di basi
del genoma aploide
Le dimensioni dei genomi dei vari
organismi sono molto variabili.
L’ordine di grandezza però coincide
in un certo modo con la complessità
dell’organismo:
•eucarioti semplici (funghi) hanno
genomi piccoli,
•eucarioti superiori (vertebrati o
piante a fiore) hanno genomi grandi
AMEBA?!?!?
paradosso del valore C
Paradosso del valore C
manca correlazione tra la complessità di
un organismo e la grandezza del suo
genoma
La grandezza del genoma è correlata
al numero di geni in esso contenuti???
Paradosso del numero dei geni
es: genoma di lievito = 12 Mb
genoma umano = 3200 Mb
0.004 x genoma umano
uomo ha ~ 25.000 geni
lievito dovrebbe avere
25.000 x 0.004= 100 geni
in realtà ne ha 5.800
la correlazione tra le dimensioni del genoma
di un organismo ed il numero di geni in esso
contenuto non è affatto esatta!
esatta
Specie
Dimensioni del
genoma (Mb)
N° geni
approssimativo
Eucarioti
S. Cerevisiae
C. elegans
Arabitopsis thaliana (erba galletta)
D. Melanogaster
Homo Sapiens
12,1
97
125
180
3200
5800
19000
25500*
13600
27000
Batteri
Mycoplasma genitalium
Streptococcus pneumoniae
Vibrio cholerae EI Tor N16961
Mycobacterium tubercolosis H37Rv
Escherichia coli K12
Yersinia pestis CO92
Pseudomonas aeruginosa PA01
0,58
2,16
4,03
4,41
4,64
4,65
6,26
500
2300
4000
4000
4400
4100
5700
Archea
Methanococcus jannaschii
Archaeoglobulus fulgidusla)
1,16
2,18
1750
2500
(*) circa 8000 geni sono specifici per la fotosintesi
Ipotesi: i genomi più grossi presentano un numero di geni maggiore
Cr. 7
Cr. 3
rispetto a quello umano il segmento del genoma
di lievito
•
contiene più geni (26 per proteine e 2 per tRNA)
• i geni discontinui sono molto pochi: solo 239
introni in tot (nell’uomo > di 300.000)
• ci sono poche genome wide repeats: una LTR
(Ty2) e 4 LTR troncate (sequenze delta). In questo
caso LTR sono 16% del tot, ma in realtà, su tutto
il genoma, sono solo il 3.4% (nell’uomo il 44%, in
drosofila il 12%)
soluzione: i genomi degli organismi
meno complessi hanno i geni
strettamente impacchettati, e per
questo risultano più piccoli.
Sembra che le genome-wide repeats abbiano
ruolo importante nel determinare il grado di
compattezza di un genoma
in mais sembrano
costituire ~ 50% del genoma
sta emergendo che nei genomi di alcune specie
queste repeats hanno proliferato massicciamente
questo spiegherebbe perché genomi di specie
molto simili possono essere anche molto diversi
per grandezza
Riflette l’eterogeneità degli eventi evolutivi che
hanno portato al modellamento dei diversi genomi