5. corso 2011-2012 ASSEMBLAGGIO

GENOMICA STRUTTURALE:
GENOMICA FUNZIONALE:
1.  Anatomia dei genomi
8. Funzionamento dei genomi
Il genoma dei procarioti
Modificazioni della cromatina e l’espressione del
Il genoma degli eucarioti
genoma
2.  La mappatura dei genomi
Microarray e RNA-seq
Mappatura genetica
Metil-seq
Mappatura fisica
Chip-seq
3.  Il sequenziamento automatico del DNA
Il principio del sequenziamento secondo Sanger
Il sequenziamento su larga scala
La lettura dei tracciati di sequenziamento
4.  Il sequenziamento del genoma
I nuovi metodi di sequenziamento
Il sequenziamento gerarchico
Il sequenziamento shogun
Piattaforme di sequenziamento di interi genomi
5.  Assemblaggio e annotazione del genoma
Copertura del genoma
Phrap/Consed
Approccio Overlap-Layout-Consensus ed Euleriano
La verifica delle sequenze
Le caratteristiche funzionali delle sequenze genomiche
6.  I Progetti Genoma
Il Progetto Genoma Umano
Il Progetto Genoma Animali
Il Progetto Genoma Piante
Il Progetto Genoma Microrganismi
7.  Genotipizzazione
Gli SNP e la variazione
La genotipizzazione degli SNP
Sequencing
SOLiD
Sequencing types
Short sequence reads are obtained from
sequencing one end (single-end sequencing) or
both ends (paired-end and mate pairs
sequencing) of each DNA fragment.
3 major types of sequencing:
  Single Ends reads
  Paired Ends reads
  Mate Pair reads
A
S
S
E
M
B
L
A
G
G
I
O
L’assemblaggio del genoma è il processo per il quale a
partire a un elevato numero di sequenze corte (reads),
generate da un sequenziamento shotgun, vengono
ricostruite le sequenze dei cromosomi da cui queste
originano
L’assemblaggio di un genoma è un processo molto difficile
da un punto di vista computazionale, specialmente perché
molti genomi contengono sequenze ripetute, lunghe anche
migliaia
di nucleotidi vennero disegnati alla fine degli anni
I primi assemblatori
’80, inizio anni ’90, ed erano varianti di algoritmi di
allineamento di sequenza. Oggi algoritmi più evoluti
vengono disegnati per gestire:
•  Terabytes di sequenza (1024 Gigabytes)
•  ripetizioni
•  errori
di tipi
sequenziamento
Ci sono
due
di assemblatori:
1. 
de-novo: le reads sono assemblate a formare una
sequenza sconosciuta
2. re-sequencing: le reads sono assemblate su
un’impalcatura già nota
kilobyte (kB)
103
1 000
Megabyte
(MB)
106
1 000 000
Gigabyte (GB) 109
1 000 000 000
Terabyte (TB)
1012
1 000
024 000
000 000
000 000
1
000
petabyte (PB)
1015
exabyte (EB)
1018
zettabyte (ZB) 1021
yottabyte (YB) 1024
Read: la sequenza determinata dal sequenziatore
Contig (it. contiguo): tratto di sequenza assemblato
senza discontinuità. Una sequenza ininterotta
formata da molte reads sovrapposte
Scaffold: un insieme ordinato e orientato di due o più
contigs
reads
contig
scaffold
La ricostruzione della sequenza del
genoma: l’assemblaggio dei frammenti
reads
genoma
contig
scaffold
Copertura del genoma (Coverage)
Data la natura casuale della frammentazione delle sequenze
genomiche, un buon assemblaggio è possibile solo se il
numero delle reads è tale da coprire il genoma con una
ridondanza di 8-10 volte (copertura 8-10X)
Modello di Lander-Waterman (1988):
Correla il coverage e il numero di contings che possono
essere generati da un assemblatore
L = lunghezza del genoma da ricostruire
l = lunghezza media delle reads
n = numero delle reads
Il coverage sarà C = nl/L
maggiore sarà il coverage, maggiore sarà anche la
probabilità che una base sia vista
Assumendo una distribuzione uniforme delle reads, C=10
equivale a 1 gap ogni 1.000.000 di nucleotidi
Programmi per assemblare genomi
1.  Overlap-Layout-Consensus
• 
• 
greedy (TIGR Assembler, Phrap, CAP3...)
graph-based (Celera Assembler, Arachne)
2.  Eulerian path (especially useful for
short read sequencing)
Approcio Overlap-Layout-Consensus
Overlap: trovare tutte le reads con
regioni di sovrapposizione
Layout: fondere reads
sovrapposte identificando i confini
di ogni regione (contigs). I contigs
devono essere ordinati e le regioni
di separazione devono essere
riempite a formare supercontigs
(scaffold)
Consensus: ottenere la
…...ACGATTACAATAGGTT…….
sequenza rappresentativa
Diversi programmi sono disponibili per l'assemblaggio dei
frammenti, tra essi Phrap è uno dei più usati: il
programma allinea le sequenze mediante ricerca di "parole"
di lunghezza stabilita, come altri programmi di allineamento,
e attribuisce un punteggio sulla base della similarità delle
basi e della affidabilità delle lettura. L'assemblaggio inizia a
partire dagli allineamenti più significativi e procede a
mosaico costruendo tratti contigui composti da più letture,
definiti contig.
Phrap usa il punteggio di qualità assegnato da Phred per
determinare sequenze consenso altamente accurate. Phred
esamina tutte le singole sequenze in una data posizione e
generalmente usa la sequenza con il valore di qualità più
alto per costruire il consenso
L'unione dei contig
L'unione dei contig richiede spesso una rifinitura manuale.
A tale scopo è necessario disporre di una interfaccia
capace di visualizzare i risultati delle fasi di
sequenziamento e assemblaggio.
Consed
è un programma sviluppato per eseguire la
fase di finishing durante la quale l'operatore, visualizzando
i risultati dell'assemblaggio, potrà eseguire modifiche
all'allineamento automatico e valutare la qualità del
sequenziamento ed eventualmente decidere la ripetizione
di regioni mancanti o di bassa qualità.
La chiusura dei gap
La determinazione dell'intera sequenza in esame richiede
infine l'unione di tutti i contig ottenuti dall'assemblaggio.
La chiusura dei gap tra contig non è però semplice, anche
aumentando il numero di sequenze, perchè la probabilità di
sequenziare in maniera casuale le regioni mancanti diviene
più bassa, man mano che si riduce il numero e l'estensione
dei gap. Inoltre alcuni gaps sono dovuti alla differente
rappresentazione delle sequenze in libreria: non tutte le
sequenze hanno uguali probabilità di essere sede di taglio
o di essere amplificate.
ARACHNE: assemblare un genoma
Obiettivo: assemblare quante più possibile sequenze
uniche basandosi sulla sovrapposizione (overlap) tra
sequenze fino al punto in cui la maggior parte dei buchi
di sequenza (gaps) sono dovuti a sequenze ripetute o a
sequenze che non sono rappresentate nella libreria
shotgun (es. alcune regioni del genoma non si clonano).
1.  Trimming
2.  Overlapping
3.  Assembly
4.  Scaffolding and repeats solving
5.  Consensus sequence construction
6.  Sequence verification: completness, accuracy, validity
1. Trimming
I pezzi di sequenza dei vettori di clonaggio, di DNA genomico
di E. coli (contaminante delle preparazioni plasmidiche) e dei
genomi cloroplastico e mitocondriale vengono eliminati.
Elimina le regioni terminali delle sequenze, generalmente di
bassa qualità.
2. Overlapping: ricerca delle sequenze che si sovrappongono
Ogni sequenza deve essere confrontata con tutte le altre
sequenze come fa Blast nella ricerca di omologia di
sequenza.
ARACHNE: ogni sequenza viene divisa in k-meri di
lunghezza fissa (k=24). Viene creata una tabella per ogni
sequenza contenente tutti i possibili k-meri di quella
sequenza. La tabella è ordinata in modo che tutti i k-meri
identici siano consecutivi
6.
Verifica della bontà dell’assemblaggio
La valutazione della veridicità della sequenza dell’intero genoma viene
fatta a 3 livelli:
Completezza. È limitata dalla possibilità di clonare e sequenziare
regioni ad altissima ripetitività
Genomi microbici (piccole dimensioni): piccoli gaps
dell’ordine di 1 Kb difficili da chiudere
Genomi eucariotici (grandi): lunghi tratti di regioni
eterocromatiche mancano
Accuratezza. Viene stabilità tramite punteggi di probabilità (Phred).
L’accuratezza di una sequenza aumenta con la copertura in reads di
sequenze nella regione
Validità di ricostruzione di una sequenza. Non è facilmente
determinabile. È possibile avere un’idea misurando la coerenza interna
di una sequenza, oppure comparare l’assemblaggio con i dati
provenienti da mappe genetiche e mappe fisiche pre-esistenti. Per
misurare la coerenza interna dell’assembaggio è necessario verificare
la corretta distanza tra paired-end reads di cloni di differente
dimensione e la % di errore dell’allineamento dei profili di restrizione
Assemblatori per NGS reads
Gli algoritmi per l’assemblaggio di sequenze shotgun
sequencing non sono adatti per reads corte generate da
un NGS. Il gran numero di reads, gli overlap corti e l’alta
frequenza di errori di sequenza fanno sì che l’approccio
overlap-layout-consensus, diventi inappropriato
AbySS
ALLPATHS
Edena
SHARCGS
VElVET
Annotazione genica
L'annotazione a livello genetico è il processo che
consiste nel mappare geni ed altre caratteristiche
biologiche all'interno di una sequenza di DNA. Il primo
software per l'annotazione genica fu sviluppato nel
1995 dal Dr. Owen White, membro del team che ha
sequenziato ed analizzato per primo il genoma del
batterio Haemophilus influenzae.
Una sequenza viene detta “finita” quando presenta un
livello di errore inferiore a 1/10000 basi e non ha gaps.
Un genoma appena sequenziato non contiene altre
informazioni oltre la sequenza dei suoi nucleotidi. Un
aspetto fondamentale della sua analisi è quindi quello
dell'individuazione al suo interno di tutte le regioni
funzionalmente importanti come geni, introni, esoni,
Un
genomasequenze
appena sequenziato
può variabili
essere inserito
promotori,
ripetute, regioni
ecc.. in una
banca-dati che nella sua forma più semplice non deve
contenere altro che una serie di lunghe sequenze numerate
(una per ciascun cromosoma dell'organismo).
Queste sequenze da sole non forniscono informazioni utili.
Informazioni aggiuntive che possono essere inserite in
queste banche dati riguardano la posizione all'interno della
sequenza del cromosoma di geni (con i loro introni, esoni,
regioni 3‘ e 5' non tradotte e promotori), regioni variabili,
mutazioni, SNP etc.
Tutte
queste
informazioni
vengono
definite
annotazioni
Le banche dati primarie, di acidi nucleici e proteine, contengono
informazioni molto generiche -> informazioni minime associate alla
sequenza per identificarla dal punto di vista della specie di
appartenenza e della funzione
The National Center for Biotechnology
Informationhttp://www.ncbi.nlm.nih.gov/
GenBank-NCBI
The European Molecular Biology
Laboratory
http://www.embl.de/
EMBL Data Library
DNA Data Bank of Japan
http://www.ddbj.nig.ac.jp/index-e.html
Alcune banche dati sono specializzate nel conservare dati
relativi ad interi genomi ed offrono oltre alle sequenze
primarie anche tutta una serie di informazioni riguardo
l’annotazione e/o specifici dettagli correlati. Queste banche
dati sono consultabili mediante appositi “browser” che
facilitano il recupero di dati genomici e l’esplorazione delle
relative annotazioni. Tali browser rappresentano delle
finestre sul genoma da cui è possibile recuperare tutte le
informazioni associate ad una determinata regione.
I browser genomici più diffusi sono:
NCBI
ENSEMBL
UCSC
Un browser genomico è un’interfaccia grafica per
visualizzare tutte le informazioni da una banca dati
biologica, in particolare tutti i dati genomici.
I browser genomici permettono di esplorare un genoma
spostandosi
orizzontalmente
lungo
la
sequenza,
ingrandendo
le regioni di interesse e scegliendo le
informazioni addizionali (i dati annotati, come geni,
promotori, siti di restrizione espressione genica, proteine,
variazioni ecc…) che si vogliono visualizzare.
200Mb
1Mb
10Kb
200bp
www.ensembl.org
http://genome.ucsc.edu
Individuazione dei geni su di un genoma
La parte principale di annotazione di un genoma appena
sequenziato consiste nell'individuazione di tutti i suoi geni
sperimentalmente o metodi bioinformatici:
I metodi estrinseci sono così chiamati perchè utilizzano delle
informazioni esterne al genoma (contenute in altre banche dati).
Questi metodi individuano i geni come regioni sul genoma che si
allineano bene a sequenze note di proteine, RNA ed altri geni già
presenti in altre banche dati. Ogni sequenza contenuta in una banca
dati viene confrontata con l'intera sequenza del genoma da
annotare.
I metodi intrinseci invece non utilizzano informazioni aggiuntive ma
fanno previsioni sulla posizione dei geni solamente considerando la
sequenza del genoma in esame.
I metodi più avanzati per individuare i geni si basano sul confronto e
l'allineamento del genoma sconosciuto con genomi di organismi
vicini. (confronto tra genomi)
Metodi estrinseci
Le parti di un gene che possono essere identificate con
metodi estrinseci dipendono dal tipo di sequenze (proteine,
cDNA, EST) che sono state utilizzate per la ricerca
5’UTR
3’UTR
proteina
proteina omologa
cDNA
5’UTR
3’UTR
EST
altro genoma
5’UTR
3’UTR
3’UTR
Metodi intrinseci
I geni nuovi le cui sequenze non sono presenti nelle
banche dati di sequenze non possono però essere
individuati utilizzando i metodi estrinseci. In questo caso si
utilizzano i metodi intrinseci così denominati perché
utilizzano solamente informazioni contenute nel genoma
stesso senza fare uso di banche dati di sequenze di
proteine e geni già noti.
 
I metodi di analisi del contenuto studiano la
composizione nucleotidica delle diverse regioni del
genoma per determinare se possono essere regioni
codificanti per una proteina (e quindi incluse in un gene) o
meno.
  I metodi di analisi dei segnali cercano motivi di
sequenze caratteristici (motivi funzionali sulle sequenze
proteiche) che individuano regioni importanti per
caratterizzare un gene come ad esempio i siti di splicing.
Identificazione
codificanti
delle
regioni
  mediante ricerca degli schemi di lettura aperti
(ORF)
  utilizzando le frequenze degli esanucleotidi
  individuando introni ed esoni
  individuando i siti di splicing
Identificazione
promotrici
delle
regioni
  mediante ricerca isole CpG
  analizzando le proprietà chimico-fisiche del
genoma
  TATA box
  TFBS