GENOMICA STRUTTURALE: GENOMICA FUNZIONALE: 1. Anatomia dei genomi 8. Funzionamento dei genomi Il genoma dei procarioti Modificazioni della cromatina e l’espressione del Il genoma degli eucarioti genoma 2. La mappatura dei genomi Microarray e RNA-seq Mappatura genetica Metil-seq Mappatura fisica Chip-seq 3. Il sequenziamento automatico del DNA Il principio del sequenziamento secondo Sanger Il sequenziamento su larga scala La lettura dei tracciati di sequenziamento 4. Il sequenziamento del genoma I nuovi metodi di sequenziamento Il sequenziamento gerarchico Il sequenziamento shogun Piattaforme di sequenziamento di interi genomi 5. Assemblaggio e annotazione del genoma Copertura del genoma Phrap/Consed Approccio Overlap-Layout-Consensus ed Euleriano La verifica delle sequenze Le caratteristiche funzionali delle sequenze genomiche 6. I Progetti Genoma Il Progetto Genoma Umano Il Progetto Genoma Animali Il Progetto Genoma Piante Il Progetto Genoma Microrganismi 7. Genotipizzazione Gli SNP e la variazione La genotipizzazione degli SNP Sequencing SOLiD Sequencing types Short sequence reads are obtained from sequencing one end (single-end sequencing) or both ends (paired-end and mate pairs sequencing) of each DNA fragment. 3 major types of sequencing: Single Ends reads Paired Ends reads Mate Pair reads A S S E M B L A G G I O L’assemblaggio del genoma è il processo per il quale a partire a un elevato numero di sequenze corte (reads), generate da un sequenziamento shotgun, vengono ricostruite le sequenze dei cromosomi da cui queste originano L’assemblaggio di un genoma è un processo molto difficile da un punto di vista computazionale, specialmente perché molti genomi contengono sequenze ripetute, lunghe anche migliaia di nucleotidi vennero disegnati alla fine degli anni I primi assemblatori ’80, inizio anni ’90, ed erano varianti di algoritmi di allineamento di sequenza. Oggi algoritmi più evoluti vengono disegnati per gestire: • Terabytes di sequenza (1024 Gigabytes) • ripetizioni • errori di tipi sequenziamento Ci sono due di assemblatori: 1. de-novo: le reads sono assemblate a formare una sequenza sconosciuta 2. re-sequencing: le reads sono assemblate su un’impalcatura già nota kilobyte (kB) 103 1 000 Megabyte (MB) 106 1 000 000 Gigabyte (GB) 109 1 000 000 000 Terabyte (TB) 1012 1 000 024 000 000 000 000 000 1 000 petabyte (PB) 1015 exabyte (EB) 1018 zettabyte (ZB) 1021 yottabyte (YB) 1024 Read: la sequenza determinata dal sequenziatore Contig (it. contiguo): tratto di sequenza assemblato senza discontinuità. Una sequenza ininterotta formata da molte reads sovrapposte Scaffold: un insieme ordinato e orientato di due o più contigs reads contig scaffold La ricostruzione della sequenza del genoma: l’assemblaggio dei frammenti reads genoma contig scaffold Copertura del genoma (Coverage) Data la natura casuale della frammentazione delle sequenze genomiche, un buon assemblaggio è possibile solo se il numero delle reads è tale da coprire il genoma con una ridondanza di 8-10 volte (copertura 8-10X) Modello di Lander-Waterman (1988): Correla il coverage e il numero di contings che possono essere generati da un assemblatore L = lunghezza del genoma da ricostruire l = lunghezza media delle reads n = numero delle reads Il coverage sarà C = nl/L maggiore sarà il coverage, maggiore sarà anche la probabilità che una base sia vista Assumendo una distribuzione uniforme delle reads, C=10 equivale a 1 gap ogni 1.000.000 di nucleotidi Programmi per assemblare genomi 1. Overlap-Layout-Consensus • • greedy (TIGR Assembler, Phrap, CAP3...) graph-based (Celera Assembler, Arachne) 2. Eulerian path (especially useful for short read sequencing) Approcio Overlap-Layout-Consensus Overlap: trovare tutte le reads con regioni di sovrapposizione Layout: fondere reads sovrapposte identificando i confini di ogni regione (contigs). I contigs devono essere ordinati e le regioni di separazione devono essere riempite a formare supercontigs (scaffold) Consensus: ottenere la …...ACGATTACAATAGGTT……. sequenza rappresentativa Diversi programmi sono disponibili per l'assemblaggio dei frammenti, tra essi Phrap è uno dei più usati: il programma allinea le sequenze mediante ricerca di "parole" di lunghezza stabilita, come altri programmi di allineamento, e attribuisce un punteggio sulla base della similarità delle basi e della affidabilità delle lettura. L'assemblaggio inizia a partire dagli allineamenti più significativi e procede a mosaico costruendo tratti contigui composti da più letture, definiti contig. Phrap usa il punteggio di qualità assegnato da Phred per determinare sequenze consenso altamente accurate. Phred esamina tutte le singole sequenze in una data posizione e generalmente usa la sequenza con il valore di qualità più alto per costruire il consenso L'unione dei contig L'unione dei contig richiede spesso una rifinitura manuale. A tale scopo è necessario disporre di una interfaccia capace di visualizzare i risultati delle fasi di sequenziamento e assemblaggio. Consed è un programma sviluppato per eseguire la fase di finishing durante la quale l'operatore, visualizzando i risultati dell'assemblaggio, potrà eseguire modifiche all'allineamento automatico e valutare la qualità del sequenziamento ed eventualmente decidere la ripetizione di regioni mancanti o di bassa qualità. La chiusura dei gap La determinazione dell'intera sequenza in esame richiede infine l'unione di tutti i contig ottenuti dall'assemblaggio. La chiusura dei gap tra contig non è però semplice, anche aumentando il numero di sequenze, perchè la probabilità di sequenziare in maniera casuale le regioni mancanti diviene più bassa, man mano che si riduce il numero e l'estensione dei gap. Inoltre alcuni gaps sono dovuti alla differente rappresentazione delle sequenze in libreria: non tutte le sequenze hanno uguali probabilità di essere sede di taglio o di essere amplificate. ARACHNE: assemblare un genoma Obiettivo: assemblare quante più possibile sequenze uniche basandosi sulla sovrapposizione (overlap) tra sequenze fino al punto in cui la maggior parte dei buchi di sequenza (gaps) sono dovuti a sequenze ripetute o a sequenze che non sono rappresentate nella libreria shotgun (es. alcune regioni del genoma non si clonano). 1. Trimming 2. Overlapping 3. Assembly 4. Scaffolding and repeats solving 5. Consensus sequence construction 6. Sequence verification: completness, accuracy, validity 1. Trimming I pezzi di sequenza dei vettori di clonaggio, di DNA genomico di E. coli (contaminante delle preparazioni plasmidiche) e dei genomi cloroplastico e mitocondriale vengono eliminati. Elimina le regioni terminali delle sequenze, generalmente di bassa qualità. 2. Overlapping: ricerca delle sequenze che si sovrappongono Ogni sequenza deve essere confrontata con tutte le altre sequenze come fa Blast nella ricerca di omologia di sequenza. ARACHNE: ogni sequenza viene divisa in k-meri di lunghezza fissa (k=24). Viene creata una tabella per ogni sequenza contenente tutti i possibili k-meri di quella sequenza. La tabella è ordinata in modo che tutti i k-meri identici siano consecutivi 6. Verifica della bontà dell’assemblaggio La valutazione della veridicità della sequenza dell’intero genoma viene fatta a 3 livelli: Completezza. È limitata dalla possibilità di clonare e sequenziare regioni ad altissima ripetitività Genomi microbici (piccole dimensioni): piccoli gaps dell’ordine di 1 Kb difficili da chiudere Genomi eucariotici (grandi): lunghi tratti di regioni eterocromatiche mancano Accuratezza. Viene stabilità tramite punteggi di probabilità (Phred). L’accuratezza di una sequenza aumenta con la copertura in reads di sequenze nella regione Validità di ricostruzione di una sequenza. Non è facilmente determinabile. È possibile avere un’idea misurando la coerenza interna di una sequenza, oppure comparare l’assemblaggio con i dati provenienti da mappe genetiche e mappe fisiche pre-esistenti. Per misurare la coerenza interna dell’assembaggio è necessario verificare la corretta distanza tra paired-end reads di cloni di differente dimensione e la % di errore dell’allineamento dei profili di restrizione Assemblatori per NGS reads Gli algoritmi per l’assemblaggio di sequenze shotgun sequencing non sono adatti per reads corte generate da un NGS. Il gran numero di reads, gli overlap corti e l’alta frequenza di errori di sequenza fanno sì che l’approccio overlap-layout-consensus, diventi inappropriato AbySS ALLPATHS Edena SHARCGS VElVET Annotazione genica L'annotazione a livello genetico è il processo che consiste nel mappare geni ed altre caratteristiche biologiche all'interno di una sequenza di DNA. Il primo software per l'annotazione genica fu sviluppato nel 1995 dal Dr. Owen White, membro del team che ha sequenziato ed analizzato per primo il genoma del batterio Haemophilus influenzae. Una sequenza viene detta “finita” quando presenta un livello di errore inferiore a 1/10000 basi e non ha gaps. Un genoma appena sequenziato non contiene altre informazioni oltre la sequenza dei suoi nucleotidi. Un aspetto fondamentale della sua analisi è quindi quello dell'individuazione al suo interno di tutte le regioni funzionalmente importanti come geni, introni, esoni, Un genomasequenze appena sequenziato può variabili essere inserito promotori, ripetute, regioni ecc.. in una banca-dati che nella sua forma più semplice non deve contenere altro che una serie di lunghe sequenze numerate (una per ciascun cromosoma dell'organismo). Queste sequenze da sole non forniscono informazioni utili. Informazioni aggiuntive che possono essere inserite in queste banche dati riguardano la posizione all'interno della sequenza del cromosoma di geni (con i loro introni, esoni, regioni 3‘ e 5' non tradotte e promotori), regioni variabili, mutazioni, SNP etc. Tutte queste informazioni vengono definite annotazioni Le banche dati primarie, di acidi nucleici e proteine, contengono informazioni molto generiche -> informazioni minime associate alla sequenza per identificarla dal punto di vista della specie di appartenenza e della funzione The National Center for Biotechnology Informationhttp://www.ncbi.nlm.nih.gov/ GenBank-NCBI The European Molecular Biology Laboratory http://www.embl.de/ EMBL Data Library DNA Data Bank of Japan http://www.ddbj.nig.ac.jp/index-e.html Alcune banche dati sono specializzate nel conservare dati relativi ad interi genomi ed offrono oltre alle sequenze primarie anche tutta una serie di informazioni riguardo l’annotazione e/o specifici dettagli correlati. Queste banche dati sono consultabili mediante appositi “browser” che facilitano il recupero di dati genomici e l’esplorazione delle relative annotazioni. Tali browser rappresentano delle finestre sul genoma da cui è possibile recuperare tutte le informazioni associate ad una determinata regione. I browser genomici più diffusi sono: NCBI ENSEMBL UCSC Un browser genomico è un’interfaccia grafica per visualizzare tutte le informazioni da una banca dati biologica, in particolare tutti i dati genomici. I browser genomici permettono di esplorare un genoma spostandosi orizzontalmente lungo la sequenza, ingrandendo le regioni di interesse e scegliendo le informazioni addizionali (i dati annotati, come geni, promotori, siti di restrizione espressione genica, proteine, variazioni ecc…) che si vogliono visualizzare. 200Mb 1Mb 10Kb 200bp www.ensembl.org http://genome.ucsc.edu Individuazione dei geni su di un genoma La parte principale di annotazione di un genoma appena sequenziato consiste nell'individuazione di tutti i suoi geni sperimentalmente o metodi bioinformatici: I metodi estrinseci sono così chiamati perchè utilizzano delle informazioni esterne al genoma (contenute in altre banche dati). Questi metodi individuano i geni come regioni sul genoma che si allineano bene a sequenze note di proteine, RNA ed altri geni già presenti in altre banche dati. Ogni sequenza contenuta in una banca dati viene confrontata con l'intera sequenza del genoma da annotare. I metodi intrinseci invece non utilizzano informazioni aggiuntive ma fanno previsioni sulla posizione dei geni solamente considerando la sequenza del genoma in esame. I metodi più avanzati per individuare i geni si basano sul confronto e l'allineamento del genoma sconosciuto con genomi di organismi vicini. (confronto tra genomi) Metodi estrinseci Le parti di un gene che possono essere identificate con metodi estrinseci dipendono dal tipo di sequenze (proteine, cDNA, EST) che sono state utilizzate per la ricerca 5’UTR 3’UTR proteina proteina omologa cDNA 5’UTR 3’UTR EST altro genoma 5’UTR 3’UTR 3’UTR Metodi intrinseci I geni nuovi le cui sequenze non sono presenti nelle banche dati di sequenze non possono però essere individuati utilizzando i metodi estrinseci. In questo caso si utilizzano i metodi intrinseci così denominati perché utilizzano solamente informazioni contenute nel genoma stesso senza fare uso di banche dati di sequenze di proteine e geni già noti. I metodi di analisi del contenuto studiano la composizione nucleotidica delle diverse regioni del genoma per determinare se possono essere regioni codificanti per una proteina (e quindi incluse in un gene) o meno. I metodi di analisi dei segnali cercano motivi di sequenze caratteristici (motivi funzionali sulle sequenze proteiche) che individuano regioni importanti per caratterizzare un gene come ad esempio i siti di splicing. Identificazione codificanti delle regioni mediante ricerca degli schemi di lettura aperti (ORF) utilizzando le frequenze degli esanucleotidi individuando introni ed esoni individuando i siti di splicing Identificazione promotrici delle regioni mediante ricerca isole CpG analizzando le proprietà chimico-fisiche del genoma TATA box TFBS