Laboratorio di Bioinformatica I Introduzione alla Genomica Dott. Sergio Marin Vargas (2014 / 2015) Il Genoma umano Gene codificanti proteine Gene non codificanti proteine Geni codificanti proteine 3 Il modello genico Il modello genico di un gene codificante proteine è composto da: • gene: la regione completa del gene (a volte mRNA) • exon: regione che viene mantenuta dopo la maturazione. • intron: regione che viene eliminata durante la maturazione. • transcript: RNA maturo, composto da esoni o parte di esoni (spezzato). • mRNA: RNA maturo, composto da esoni o parte di esoni (spezzato). • CDS: regione codificante dell‘mRNA (esoni o parte di esoni spezzati). • UTR: regione non tradotta dell’mRNA (esoni o parte di esoni spezzati). Formato di annotazione GFF3 http://www.sanger.ac.uk/resources/software/gff/spec.html http://www.sequenceontology.org/gff3.shtml GFF3 è molto simile ad un altro formato GTF!!! Il genoma di riferimento http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/ http://hgdownload.soe.ucsc.edu/downloads.html#human Il primo genoma è stato completato dal “Human Genome Project” nel 2003, il quale era composto da una mescolanza di 6 individui della città di Buffalo (USA) a un costo di 3 miliardi di dolari e 15 anni di lavoro. Attualmente siamo alla versione GRCh38.p3 del Genome Reference Consortium, il quale è equivalente alla versione hg38 del UCSC Human Genome (ENCODE PROJECT). Per questo progetto si è lavorato su del DNA offerto da un certo numero di donatori selezionati con criteri di rappresentatività statistica. Il genoma di riferimento è aploide (più del 99,9% del genoma è omozigote), anche se si sta lavorando per avere un genoma diploide. La versione del genoma di riferimento precedente GRCh37.p13 (hg19) è ancora molto utilizzata. Ensembl (Genome Browser) http://www.ensembl.org/ Ensembl (Dettaglio) http://www.ensembl.org/ Ensembl (Zoom) http://www.ensembl.org/ Configurazione Tracce Esercizio 1: Ensembl La proteina tumorale 53 o p53 (Gene TP53) è considerata come "il guardiano del genoma" riferendosi al suo ruolo di prevenzione delle mutazioni. Cercare mediante Ensembl, il gene della P53 nell’uomo. Qual’é il codice Ensembl di questo gene? Quanti trascritti sono riportati per questo geni? Tutti codificano la proteina? Qual’é il codice Emsembl del trascritto con lunghezza nucleotidica maggiore? Qualè il codice CCDS di questo trascritto? Cosa è il CCDS? Qualè sono i codici Refseq? Qual’é la localizzazione (cromosoma e coordinate) di questo gene? Cliccando su Location si arriva al genome browser. Utilizzando il mouse per selezionare una regione si può arrivare a vedere il contenuto del genoma anche del singolo nucleotide. Qual’é la sequenza nucleotidica del genoma di riferimento tra le posizioni 7.672.500 e 7.672.503. Perche i “Contigs sequence” vengono visti con il nucleotide complementare? Esercizio 2: Ensembl Visualizzare tramite Ensembl il dettaglio del gene dell’uomo nella regione 196,027,183-196,082,189 del cromosoma 3 del genoma di riferimento GRCh38. Qual’é il codice Ensembl del gene di questa regione? A quale gene corrisponde? Per quale proteina codifica? Visualizzare tramite il genome browser di Ensembl la regione col massimo dettaglio. Tramite la configurazione lasciare solo le tracce: sequence, 1000 genomes all short variants, ruler, variation legend. Se guardate a partire della posizioni 196064369 del Chr3 vedrete che ci sono due SNPs consecutivi, uno sinonimo e l’altro missenso. Quale posizione corrisponde a quella missenso? Sono varianti (SNPs) omozigoti o eterozigoti? Indicare quali sono i nucleotidi nel genoma di riferimento e in quale base sono mutati? UCSC Genome Browser https://genome.ucsc.edu/ UCSC (Dettaglio) https://genome.ucsc.edu/ Esercizio 3: UCSC Utilizzando il genome browser UCSC, cercare il gene dell’uomo che codifica per l’emoglobina subunità alpha 1. Qual’é il genoma di riferimento di default su cui cerca in UCSC? Qual’é il codice del gene? Qual’é la localizzazione di questo gene? Si trova all’inizio o alla fine del cromosoma? E forward o reverse strand? Di quanti esoni e quanti introni è composto? Visualizzare la traccia CCDS (full), attivarla mediante il menu “Genes and Gene Predictions” in basso, poi utilizzarla per vedere la sequenza proteica codificata dal gene. Alcuni aminoacidi sono evidenziati col colore verde brillante. A quale aminoacido corrispondono e qual’é il codone che lo codifica? Qual’é la base corrispondente al nucleotide 227.000 del cromosoma rispettivo? A quale codone appartiene e per quale aminoacido codifica? Ricercare le coordinate del gene TP53, sono diverse rispetto al genoma di riferimento hg38 ? E’ sempre reverse strand? Vega Genome Browser http://vega.sanger.ac.uk/index.html Nel dettaglio Vega è molto simile ad “Ensembl” !!! Esercizio 4: Vega Quanti cromosomi ha il genoma della Zebrafish? Ricercare il gene TP53 per la Zebrafish. Qual è il codice “Vega” del gene TP53? Quale’è la localizzazione del gene? Quanti trascritti sono stati visti per questo gene in Zebrafish? Cliccando “Splice variants” se riesce a vedere i trascritti e la loro mappatura sul gene. Di quanti esoni è composto il gene TP53 di Zebrafish? Tutti i trascritti hanno gli stessi esoni? Di quante basi è composto il primo trascritto TP53-001? Il primo esone del trascritto corrisponde a una regione codificante o a un UTR? Quale è il primo codone del primo esone di questo trascritto? In quale esone comincia la zona codificante proteina (CDS)? In quale posizione si trova l’inizio del CDS? A quale codone corrisponde l’inizio del CDS? Per quale aminoacido codifica questo codone? NCBI Genome Information http://www.ncbi.nlm.nih.gov/genome/ Esercizio 5: NCBI Cercare informazione sul genoma dell’uomo in NCBI. Di quanti cromosomi è composto il cariotipo umano? Qual’é la dimensione in Mb del cromosoma più grande e a quale cromosoma corrisponde? E di quello più piccolo? Cliccando su “Genome Assembly and Annotation report” si vedono i diversi genomi assemblati. Qual’é la dimensione complessiva del genoma secondo il progetto PRJNA168? Una proteina di membrana che fa di canale del potassio si trova nel cromosoma 21. Qual’é il codice di questo gene? Predizione Genica Lo scopo dei programmi di predizione genica è quello di predirre in quale posizioni di una data sequenza nucleotidica si trova i geni. Questi programmi utilizzano diversi metodi, ma principalmente fanno un “training” con gene conosciuti per poi cercare di identificare i geni sconosciuti. Sequenza Nucleotidica Sconosciuta Sequenza Nucleotidica con geni conosciuti Principali programmi di Predizione Genica Predittore Augustus Snap GeneMark-ES GeneID FGenesh Genescan MZEF mGene.NGS Contrast GrailExp TwinScan/N-Scan Training in Utilizzo di Predizione di Utilizzo di Predizione Predizione locale per EST e Predizione geni RNA-Seq per dei trascritti degli UTR ab initio nuovi Proteine per la predizione alternativi eucarioti genomi la predizione SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI NO SI SI NO NO SI SI NO SI SI NO NO SI NO SI NO SI SI SI SI SI NO NO SI NO SI NO SI NO NO NO SI NO NO SI NO SI NO SI SI SI NO SI NO NO SI NO NO NO NO NO NO SI Augustus http://augustus.gobics.de/ Esercizio 6: Predizione genica con Augustus http://augustus.gobics.de/ In Ensembl, ricercare il gene HBA1 dell’uomo, tramite l’opzione “Export Data” scaricare solo la sequenza nucleotidica (deselezionare tutto) e salvare la sequenza in un file. Tramite il web server di Augustus, utilizzare la sequenza appena scaricata per predire se esiste qualche gene nella sequenza. Lanciare Augustus con l’opzione “only predict complete genes” e per l’organismo “uomo”. Verificare se il risultato della predizione di Augustus è concorde con la traccia “CCDS set” del gene HBA1 in Ensembl. La proteina predetta conincide con quella vera (cercare il gene HBA1 in uniprot)? Risequenziamento del genoma Next Generation Sequencing (NGS) (reads) Load into sequencer o To be reliable enough to sequence the entire genome high coverage is required. o Human Genome (~ 3 Gb) needs more than 90 Gb. o Human Exome (~ 135 Mb) needs more than 4 Gb. Risultato del sequenziamento (Sequence) Chiamata delle Varianti Formato VCF Genoma di riferimento (Human Genome Reference) IGV Genome Browser https://www.broadinstitute.org/igv/ IGV Genome Browser https://www.broadinstitute.org/igv/ Genoma di riferimento Cromosoma Coordinate Esercizio 7: IGV Il gene CECR6 si trova rispetto al genoma di riferimento hg19 nella posizione : Chromosome 22: 17,597,189-17,602,257. E’ stato sequenziato un genoma di una certa persona, un pezzo del file di allineamento delle reads (BAM) e un pezzo del file delle chiamate delle varianti (VCF), così come un pezzo dell’annotazione del chr22 del genoma hg19, si trova alla pagina del corso con il nome IGV.zip. Nella zona codificante (CDS) del gene CECR6 è stata trovata una variante. Tramite il genome browser IGV e utilizzando il genoma hg19 (chr22) e i files precedenti, identificare la posizione della variante e dire anche a quale base è mutata rispetto al genoma di riferimento. Dire anche se la mutazione è in omozigosi o eterozigosi? In posizione chr22:17600148 c’è anche una variante in zona UTR. Questa mutazione è in omozigosi o eterozigosi? Esercizio 7: IGV Varianti (file VCF) Reads Allineate (file BAM) Annotazione (File GTF o GFF3)