Introduzione alla Introduzione alla Genomica

Laboratorio di
Bioinformatica I
Introduzione alla
Genomica
Dott. Sergio Marin Vargas (2014 / 2015)
Il Genoma umano
Gene
codificanti
proteine
Gene non
codificanti
proteine
Geni codificanti proteine
3
Il modello genico
Il modello genico di un gene codificante proteine è composto da:
• gene: la regione completa del gene (a volte mRNA)
• exon: regione che viene mantenuta dopo la maturazione.
• intron: regione che viene eliminata durante la maturazione.
• transcript: RNA maturo, composto da esoni o parte di esoni (spezzato).
• mRNA: RNA maturo, composto da esoni o parte di esoni (spezzato).
• CDS: regione codificante dell‘mRNA (esoni o parte di esoni spezzati).
• UTR: regione non tradotta dell’mRNA (esoni o parte di esoni spezzati).
Formato di annotazione GFF3
http://www.sanger.ac.uk/resources/software/gff/spec.html
http://www.sequenceontology.org/gff3.shtml
GFF3 è molto simile ad un altro formato GTF!!!
Il genoma di riferimento
http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/
http://hgdownload.soe.ucsc.edu/downloads.html#human
Il primo genoma è stato completato dal “Human
Genome Project” nel 2003, il quale era composto da
una mescolanza di 6 individui della città di
Buffalo (USA) a un costo di 3 miliardi di dolari e 15
anni di lavoro.
Attualmente siamo alla versione GRCh38.p3 del
Genome Reference Consortium, il quale è
equivalente alla versione hg38 del UCSC Human
Genome (ENCODE PROJECT).
Per questo progetto si è lavorato su del DNA offerto
da un certo numero di donatori selezionati con criteri
di rappresentatività statistica.
Il genoma di riferimento è aploide (più del 99,9% del
genoma è omozigote), anche se si sta lavorando per
avere un genoma diploide.
La versione del genoma di riferimento precedente
GRCh37.p13 (hg19) è ancora molto utilizzata.
Ensembl (Genome Browser)
http://www.ensembl.org/
Ensembl (Dettaglio)
http://www.ensembl.org/
Ensembl (Zoom)
http://www.ensembl.org/
Configurazione
Tracce
Esercizio 1: Ensembl
La proteina tumorale 53 o p53 (Gene TP53) è considerata
come "il guardiano del genoma" riferendosi al suo ruolo di
prevenzione delle mutazioni. Cercare mediante Ensembl, il
gene della P53 nell’uomo.
Qual’é il codice Ensembl di questo gene? Quanti trascritti sono
riportati per questo geni? Tutti codificano la proteina?
Qual’é il codice Emsembl del trascritto con lunghezza
nucleotidica maggiore? Qualè il codice CCDS di questo
trascritto? Cosa è il CCDS? Qualè sono i codici Refseq?
Qual’é la localizzazione (cromosoma e coordinate) di questo
gene?
Cliccando su Location si arriva al genome browser. Utilizzando
il mouse per selezionare una regione si può arrivare a vedere il
contenuto del genoma anche del singolo nucleotide.
Qual’é la sequenza nucleotidica del genoma di riferimento tra le
posizioni 7.672.500 e 7.672.503. Perche i “Contigs sequence”
vengono visti con il nucleotide complementare?
Esercizio 2: Ensembl
Visualizzare tramite Ensembl il dettaglio del gene
dell’uomo nella regione 196,027,183-196,082,189 del
cromosoma 3 del genoma di riferimento GRCh38.
Qual’é il codice Ensembl del gene di questa regione? A
quale gene corrisponde? Per quale proteina codifica?
Visualizzare tramite il genome browser di Ensembl la
regione
col
massimo
dettaglio.
Tramite
la
configurazione lasciare solo le tracce: sequence, 1000
genomes all short variants, ruler, variation legend.
Se guardate a partire della posizioni 196064369 del
Chr3 vedrete che ci sono due SNPs consecutivi, uno
sinonimo e l’altro missenso. Quale posizione
corrisponde a quella missenso? Sono varianti (SNPs)
omozigoti o eterozigoti? Indicare quali sono i nucleotidi
nel genoma di riferimento e in quale base sono mutati?
UCSC Genome Browser
https://genome.ucsc.edu/
UCSC (Dettaglio)
https://genome.ucsc.edu/
Esercizio 3: UCSC
Utilizzando il genome browser UCSC, cercare il gene dell’uomo
che codifica per l’emoglobina subunità alpha 1.
Qual’é il genoma di riferimento di default su cui cerca in UCSC?
Qual’é il codice del gene? Qual’é la localizzazione di questo
gene? Si trova all’inizio o alla fine del cromosoma? E forward o
reverse strand? Di quanti esoni e quanti introni è composto?
Visualizzare la traccia CCDS (full), attivarla mediante il menu
“Genes and Gene Predictions” in basso, poi utilizzarla per
vedere la sequenza proteica codificata dal gene. Alcuni
aminoacidi sono evidenziati col colore verde brillante. A quale
aminoacido corrispondono e qual’é il codone che lo codifica?
Qual’é la base corrispondente al nucleotide 227.000 del
cromosoma rispettivo? A quale codone appartiene e per quale
aminoacido codifica?
Ricercare le coordinate del gene TP53, sono diverse rispetto al
genoma di riferimento hg38 ? E’ sempre reverse strand?
Vega Genome Browser
http://vega.sanger.ac.uk/index.html
Nel dettaglio Vega è molto simile ad “Ensembl” !!!
Esercizio 4: Vega
Quanti cromosomi ha il genoma della Zebrafish?
Ricercare il gene TP53 per la Zebrafish. Qual è il codice
“Vega” del gene TP53? Quale’è la localizzazione del gene?
Quanti trascritti sono stati visti per questo gene in Zebrafish?
Cliccando “Splice variants” se riesce a vedere i trascritti e la
loro mappatura sul gene. Di quanti esoni è composto il gene
TP53 di Zebrafish? Tutti i trascritti hanno gli stessi esoni?
Di quante basi è composto il primo trascritto TP53-001? Il
primo esone del trascritto corrisponde a una regione
codificante o a un UTR?
Quale è il primo codone del primo esone di questo trascritto?
In quale esone comincia la zona codificante proteina (CDS)?
In quale posizione si trova l’inizio del CDS? A quale codone
corrisponde l’inizio del CDS? Per quale aminoacido codifica
questo codone?
NCBI Genome Information
http://www.ncbi.nlm.nih.gov/genome/
Esercizio 5: NCBI
Cercare informazione sul genoma dell’uomo in
NCBI.
Di quanti cromosomi è composto il cariotipo umano?
Qual’é la dimensione in Mb del cromosoma più
grande e a quale cromosoma corrisponde? E di
quello più piccolo?
Cliccando su “Genome Assembly and Annotation
report” si vedono i diversi genomi assemblati. Qual’é
la dimensione complessiva del genoma secondo il
progetto PRJNA168?
Una proteina di membrana che fa di canale del
potassio si trova nel cromosoma 21. Qual’é il codice
di questo gene?
Predizione Genica
Lo scopo dei programmi di predizione genica è quello
di predirre in quale posizioni di una data sequenza
nucleotidica si trova i geni.
Questi programmi utilizzano diversi metodi, ma
principalmente fanno un “training” con gene conosciuti
per poi cercare di identificare i geni sconosciuti.
Sequenza
Nucleotidica
Sconosciuta
Sequenza
Nucleotidica
con geni
conosciuti
Principali programmi di
Predizione Genica
Predittore
Augustus
Snap
GeneMark-ES
GeneID
FGenesh
Genescan
MZEF
mGene.NGS
Contrast
GrailExp
TwinScan/N-Scan
Training in Utilizzo di
Predizione di
Utilizzo di
Predizione
Predizione
locale per
EST e
Predizione
geni
RNA-Seq per
dei trascritti
degli UTR
ab initio
nuovi
Proteine per
la predizione
alternativi
eucarioti
genomi la predizione
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
NO
SI
SI
NO
NO
SI
SI
NO
SI
SI
NO
NO
SI
NO
SI
NO
SI
SI
SI
SI
SI
NO
NO
SI
NO
SI
NO
SI
NO
NO
NO
SI
NO
NO
SI
NO
SI
NO
SI
SI
SI
NO
SI
NO
NO
SI
NO
NO
NO
NO
NO
NO
SI
Augustus
http://augustus.gobics.de/
Esercizio 6: Predizione genica
con Augustus
http://augustus.gobics.de/
In Ensembl, ricercare il gene HBA1 dell’uomo, tramite
l’opzione “Export Data” scaricare solo la sequenza
nucleotidica (deselezionare tutto) e salvare la sequenza in
un file.
Tramite il web server di Augustus, utilizzare la sequenza
appena scaricata per predire se esiste qualche gene nella
sequenza. Lanciare Augustus con l’opzione “only predict
complete genes” e per l’organismo “uomo”.
Verificare se il risultato della predizione di Augustus è
concorde con la traccia “CCDS set” del gene HBA1 in
Ensembl. La proteina predetta conincide con quella vera
(cercare il gene HBA1 in uniprot)?
Risequenziamento del genoma
Next Generation
Sequencing (NGS)
(reads)
Load into
sequencer
o To be reliable enough to
sequence the entire genome
high coverage is required.
o Human Genome (~ 3 Gb)
needs more than 90 Gb.
o Human Exome (~ 135 Mb)
needs more than 4 Gb.
Risultato del sequenziamento
(Sequence)
Chiamata delle Varianti
Formato VCF
Genoma di
riferimento
(Human
Genome
Reference)
IGV Genome Browser
https://www.broadinstitute.org/igv/
IGV Genome Browser
https://www.broadinstitute.org/igv/
Genoma di
riferimento
Cromosoma
Coordinate
Esercizio 7: IGV
Il gene CECR6 si trova rispetto al genoma di riferimento hg19
nella posizione :
Chromosome 22: 17,597,189-17,602,257.
E’ stato sequenziato un genoma di una certa persona, un
pezzo del file di allineamento delle reads (BAM) e un pezzo del
file delle chiamate delle varianti (VCF), così come un pezzo
dell’annotazione del chr22 del genoma hg19, si trova alla
pagina del corso con il nome IGV.zip.
Nella zona codificante (CDS) del gene CECR6 è stata trovata
una variante. Tramite il genome browser IGV e utilizzando il
genoma hg19 (chr22) e i files precedenti, identificare la
posizione della variante e dire anche a quale base è mutata
rispetto al genoma di riferimento. Dire anche se la mutazione è
in omozigosi o eterozigosi?
In posizione chr22:17600148 c’è anche una variante in zona
UTR. Questa mutazione è in omozigosi o eterozigosi?
Esercizio 7: IGV
Varianti
(file VCF)
Reads
Allineate
(file BAM)
Annotazione
(File GTF o
GFF3)