Analisi di dati RNA-Seq
Alberto Ferrarini
Il dogma centrale della biologia
molecolare
DNA
Replicazione
RNA
Trascrizione
Traduzione
PROTEIN
Geni sono trascritti da DNA ad mRNA che lascia il nucleo e viene tradotto in
proteine.
2
Il trascrittoma
• Il set completo di tutti gli mRNA di un organismo in un dato
momento.
• Il trascrittoma è dinamico e cambia a seconda delle condizioni
considerate. Differenti condizioni danno luogo a differenti profili di
espressione genica.
Trascrittomica: lo studio del trascrittoma; l’analisi del trascrittoma in
diverse condizioni permette di inferire quali geni siano potenzialmente
coinvolti in un dato processo di sviluppo, risposta a stress, ecc…
Analisi di espressione genica
Prima delle tecnologie
“omiche”
• Uno o pochi geni analizzati
per volta tramite analisi
Northern o PCR
quantitativa/semiquantitativa
Oggi
• Da poche migliaia di geni a
trascrittomi completi
analizzati in un singolo
esperimento.
Microarray
Next Generation
Sequecing (NGS)
4
Evoluzione delle tecnologie di analisi
del trascrittoma
1995- Sviluppati i primi
microarray basati su
spotting di molecole di
cDNA
Quantitative Monitoring of Gene
Expression Patterns with a Complementary
DNA Microarray- Schena et. al.
2002- High density
oligo microarrays
2008- RNA-Seq:
sequenziamento dei
messaggeri basato su
tecnologie NGS
Sequenziamento del trascrittoma
Campioni di interesse
Tessuto normale
Tessuto tumorale
Isolamento
dell’RNA/mRNA
Frammentazione
chimica
Immagine modificata da:
http://www.nature.com/nrc/journal/v6/n4/full/nrc1838.html
Sequenziamento
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
AGTCGTGGATCCAT
Milioni di read paired-end
Conversione a cDNA e
ligazione degli adattatori
Perché sequenziare l’RNA?
• Studi funzionali:comparazione
dell’espressione genica tra diverse condizioni
(sano-malato, diversi tessuti, risposta ad uno
stimolo, ecc…)
• Studio delle isoforme di espressione
• Identificazione di trascritti non annotati
• Studio RNA editing
• Identificazione di trascritti di fusione
Protocollo di analisi dati RNA-Seq
reads
Allineamento su un
genoma di riferimento
genome
Assegnamento delle read
ai geni annotati
Known gene
Rilevazione di eventuali
geni “nuovi” non annotati
Unknown gene
Quantificazione dell’espressione
e analisi statistica
Mortazavi, A., Williams, B. A., McCue, K., Schaeffer, L., & Wold, B. (2008).
Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature
methods, 5(7), 621-8. doi: 10.1038/nmeth.1226.
Assegnamento delle read ai geni e
quantificazione dell’espressione genica
• Il numero di read che mappano su un gene è
proporzionale al livello di espressione
• I valori di espressione ottenuti dall’RNA-Seq deriva
dalla conta diretta delle read che mappano su un
gene: misura digitale
• Non richiede la conoscenza a priori delle posizioni dei
geni
• Intervallo dinamico più ampio comparato a
microarray
Disegno sperimentale: numero di replicati
•
•
•
•
Tre o più repliche biologiche
Non sono generalmente richieste repliche tecniche
della stessa libreria ad RNA
La correlazione R2 (Pearson) tra i livelli di espressione
degli RNA rilevati in comune tra 2 replicati biologici
dovrebbe essere tra 0.92 e 0.98.
Esperimenti con correlazioni inferiori a 0.9 devono
venire ripetuti o spiegati.
Disegno sperimentale: profondità di
copertura richiesta
Numero di ORF rilevate al variare
della profondità
Numero di siti di inizio della
trascrizione al variare della profondità
•Analisi di epressione differenziale: sono raccomandate 30 o più milioni di read
paired-end (uomo).
•Esperimenti destinati alla scoperta e caratterizzazione di nuovi geni/isoforme o
finalizzati ad una quantificazione molto solida delle isoforme richiede coperture
maggiori (fino a 100-200 M di frammenti)
http://encodeproject.org/ENCODE/protocols/dataStandards/RNA_standards_v1_2011_May.pdf
Wang, Z., Gerstein, M., & Snyder, M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature Rev. Retrieved from
http://www.nature.com/nrg/journal/v10/n1/authors/nrg2484.html
Disegno sperimentale: profondità di
copertura richiesta
Il numero di read richieste dipende anche dal tipo di RNA che vogliamo
caratterizzare.
Tarazona, S., Garcia-Alcalde, F., Dopazo, J., Ferrer, a., & Conesa, a. (2011). Differential expression in RNA-seq: A matter of depth. Genome Research.
doi:10.1101/gr.124321.111
Problematiche connesse con l’analisi di
dati RNA-Seq
• Allineamento delle read ottenute da librerie a
cDNA su sequenze genomiche (per metodi
basati su genoma di riferimento).
• Assemblaggio de novo delle read ottenute da
librerie a cDNA in putativi trascritti (per
metodi che non utilizzano il genoma di
riferiemento).
• Quantificazione dei livelli di epressione
• Analizzare l’espressione differenziale
Garber, M., Grabherr, M. G., Guttman, M., & Trapnell, C. (2011). Computational methods for transcriptome annotation and quantification using
RNA-seq. Nature methods, 8(6), 469–77. doi:10.1038/nmeth.1613
Metodi di ricostruzione del
trascrittoma
Metodi
guidati dal
genoma
Metodi
indipendenti
dal genoma
Garber, M., Grabherr, M. G., Guttman, M., & Trapnell, C. (2011). Computational methods for transcriptome annotation and quantification using
RNA-seq. Nature methods, 8(6), 469–77. doi:10.1038/nmeth.1613
Nel caso di metodi basati sul
genoma il primo passaggio è
l’allineamento delle read
ottenute dai frammenti al
genoma di riferimento
Allineamento di read RNA-Seq ad un
genoma di riferimento
esoni
genoma
introni
mRNA
In un esperimento RNA-Seq le read vengono generate dal sequenziamento delle estremità di
frammenti da 200-300 bp dell’RNA messaggero da cui le sequenze introniche sono state
rimosse dal macchinario di splicing durante la maturazione dell’mRNA.
Alcuni frammenti saranno a cavallo delle giunzioni esone-esone
Allineamento di read RNA-Seq ad un
genoma di riferimento
esoni
genoma
introni
mRNA
Read derivanti da frammenti contenuti completamente in singoli esoni mapperanno
correttamente con una distanza tra le read compatibile con le dimensioni della libreria
Allineamento di read RNA-Seq ad un
genoma di riferimento
esoni
genoma
introni
mRNA
Coppie di read
mappanti su 2 esoni
diversi avranno una
dimensione dell’inserto
non compatibile con le
dimensioni della
libreria
Dimensioni libreria
Allineamento di read RNA-Seq ad un
genoma di riferimento
esoni
genoma
introni
mRNA
Read a cavallo di una
giunzione esone-esone non
potranno essere mappate
correttamente dagli
algoritmi standard.
Allineamento di read RNA-Seq ad un
genoma di riferimento
esoni
genoma
introni
mRNA
Read a cavallo di una
giunzione esone-esone non
potranno essere mappate
correttamente dagli
algoritmi standard.
Allineamento di read RNA-Seq ad un
genoma di riferimento
esoni
genoma
introni
mRNA
Idealmente la read dovrebbe
essere spezzata in uno spliced
alignment che tenga conto
dell’introne
• Non mappare le read sovrapposte a giunzioni
esone-esone porterebbe alla sottostima
dell’espressione dei geni con tanti esoni
Utilizzo di un database di giunzioni di
splicing
Un database di giunzioni
custom viene costruito
unendo le estremità degli
esoni.
Read spliced vengono rilevate
allineando le read non
mappanti sul database di
giunzioni.
Database
custom di
giunzioni note.
[…]
Una limitazione di questo aproccio è che può rilevare
solo giunzioni note.
Wang, E. T., Sandberg, R., Luo, S., Khrebtukova, I., Zhang, L., Mayr, C., … Burge, C. B. (2008). Alternative isoform regulation in human tissue transcriptomes.
Nature, 456(7221), 470–6. doi:10.1038/nature07509
Metodi computazionali per allineamento
splittato di read su un genoma di riferimento
Gli approcci per l’allineamento delle read su un
genoma di riferimento si dividono in:
• approccio exon-first
• approccio seed-extent
Approccio exon-first
• Nell’approccio exon-first
vengono prima allineate
tutte le read sul genoma.
• Le read che non mappano
utilizzate per trovare siti
di splicing candidati.
• Software:
– Tophat
– MapSplice
– SpliceMap
Garber, M., Grabherr, M. G., Guttman, M., & Trapnell, C. (2011). Computational methods for transcriptome annotation and quantification using
RNA-seq. Nature methods, 8(6), 469–77. doi:10.1038/nmeth.1613
TopHat
Pipeline scritta in Python e C++ basata su Bowtie e la libreria SeqAn
Versione pubblicata quando le read erano tendenzialmente < 50 bp
Identificazione ab initio dei siti di
splicing (fino a versione 0.8.3)
• Bowtie mappa le read sul genoma
con un massimo di 2 mismatch
nel seed e 10 allineamenti
multipli (serve a riportare geni
con copie multiple).
• Le read allineate vengono quindi
assemblate in un consenso a cui
vengono aggiunte 45 basi dalle
regioni fiancheggianti.
• Vengono quindi identificati i
possibili siti donatori e accettori
di splicing canonici (GT-AG) verso
le estremità di queste regioni.
• Le read non mappanti vengono
mappate sui putativi siti di
splicing.
TopHat 1.0
• Dalla versione 1.0 sfrutta le maggiore
lunghezza delle read
Maggiore sensibilità
Unmappable read
Reference genome
Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq.
Bioinformatics (Oxford, England), 25(9), 1105-11. doi: 10.1093/bioinformatics/btp120.
30
TopHat 1.0
• Dalla versione 1.0 sfrutta le maggiore
lunghezza delle read
Maggiore sensibilità
• Read non mappate da 75 basi (o più
lunghe) vengono splittate in 3 o più subread da 25 basi che vengono mappate
indipendentemente.
Unmappable read
25nt
Reference genome
Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq.
Bioinformatics (Oxford, England), 25(9), 1105-11. doi: 10.1093/bioinformatics/btp120.
31
TopHat 1.0
• Dalla versione 1.0 sfrutta le maggiore
lunghezza delle read
Maggiore sensibilità
• Read non mappate da 75 basi (o più
lunghe) vengono splittate in 3 o più subread da 25 basi che vengono mappate
indipendentemente.
• Read con segmenti che possono essere
mappati solo in maniera non contigua
Marcati come possibili read intronspanning
Unmappable read
25nt
Reference genome
Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq.
Bioinformatics (Oxford, England), 25(9), 1105-11. doi: 10.1093/bioinformatics/btp120.
32
TopHat 1.0
• Dalla versione 1.0 sfrutta le maggiore
lunghezza delle read
Maggiore sensibilità
• Read non mappate da 75 basi (o più
lunghe) vengono splittate in 3 o più subread da 25 basi mappate
indipendentemente.
• Read con segmenti che possono essere
mappati solo in maniera non contigua
Marcati come possibili read intronspanning
• Il set di tutte le possibili combinazioni
dondatore-accettore viene descritto da:
L1+L2=k; 1 < L1 < k-1; L2 = k-L1
Unmappable read
25nt
L1
L2
Reference genome
Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq.
Bioinformatics (Oxford, England), 25(9), 1105-11. doi: 10.1093/bioinformatics/btp120.
33
TopHat 1.0
• Dalla versione 1.0 sfrutta le maggiore
lunghezza delle read
Maggiore sensibilità
• Read non mappate da 75 basi (o più
lunghe) vengono splittate in 3 o più subread da 25 basi mappate
indipendentemente.
• Read con segmenti che possono essere
mappati solo in maniera non contigua
Marcati come possibili read intronspanning
• Il set di tutte le possibili combinazioni
dondatore-accettore viene descritto da:
L1+L2=k; 1 < L1 < k-1; L2 = k-L1
• k basi a monte del sito donatore
concatenate con k basi a valle
dell’accettore
Unmappable read
25nt
donor
site
acceptor
site
Reference genome
Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq.
Bioinformatics (Oxford, England), 25(9), 1105-11. doi: 10.1093/bioinformatics/btp120.
34
TopHat 1.0
• Dalla versione 1.0 sfrutta le maggiore
lunghezza delle read
Maggiore sensibilità
• Read non mappate da 75 basi (o più
lunghe) vengono splittate in 3 o più subread da 25 basi mappate
indipendentemente.
• Read con segmenti che possono essere
mappati solo in maniera non contigua
Marcati come possibili read intronspanning
• Il set di tutte le possibili combinazioni
dondatore-accettore viene descritto da:
L1+L2=k; 1 < L1 < k-1; L2 = k-L1
• k basi a monte del sito donatore
concatenate con k basi a valle
dell’accettore
Unmappable reads
Allineamento delle
read non allineabili al
database di giunzioni
Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq.
Bioinformatics (Oxford, England), 25(9), 1105-11. doi: 10.1093/bioinformatics/btp120.
35
Limiti dei sistemi exon-first
Il genoma umano contiene circa 14,000 pseudogeni e molti pseudogeni hanno una
sequenza simile ad un gene annotato read possono mappare sia sul gene che sul
corrispondente pseudogene
• L’allineamento su pseudogeni processati favorito rispetto all’allineamento sul gene nel
caso di read a cavallo di giunzioni esone-esone.
La maggior parte delle read a cavallo di giunzioni “assorbite” da pseudogeni
Garber, M., Grabherr, M. G., Guttman, M., & Trapnell, C. (2011). Computational methods for transcriptome annotation and quantification using RNA-seq.
Nature methods, 8(6), 469–77. doi:10.1038/nmeth.1613 Kim, D., Pertea, G., Trapnell, C., Pimentel, H., Kelley, R., & Salzberg, S. L. (2013).
TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4), R36. doi:10.1186/gb-201314-4-r36
Basato su Bowtie2 (migliore sensibilità per Indel)
Attua una serie di strategie per migliorare la sensibilità e la
specificità di allineamento.
Riduce il problema di allineamenti scorretti dovuti a
pseudogeni
Workflow di TopHat2
1) transcriptome mapping
c
c
• Se viene fornita un’annotazione (consigliato)
TopHat2 allinea le read contro le sequenze del
trascrittoma.
aumenta la sensibilità e specificità verso
trascritti noti.
TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4), R36. doi:10.1186/gb-2013-14-4-r36
Workflow di TopHat2
1) transcriptome mapping
c
• Le read che non mappano sui trascritti
annotati vanno al passaggio successivo
TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4), R36. doi:10.1186/gb-2013-14-4-r36
Workflow di TopHat2
2) genome mapping
c
c
• Nel secondo passaggio le read che vengono mappate in modalità end-toend sul genoma di riferimento
solo le read che mappano completamente su un esone vengono
allineate
TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4), R36. doi:10.1186/gb-2013-14-4-r36
Workflow di TopHat2
2) genome mapping
c
c
• Read che non mappano completamente sul
genoma vanno al passaggio successivo.
TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biology, 14(4), R36. doi:10.1186/gb-2013-14-4-r36
Workflow di TopHat2
3) spliced mapping
• Read non mappate nel
secondo passaggio
vengono utilizzate per
cercare i segnali di
splicing (GT-AG, GC-AG,
AT-AC).
• E’ stato inoltre integrato
algoritmo per
identificare breakpoint
di fusione (da TopHatFusion)
Workflow di TopHat2
3) spliced mapping
• Nell’ultima fase di questo passaggio vengono
riallineate le read che si sovrappongono
minimamente con sequenze introniche
Soglia basata sulla edit-distance
• TopHat2 consente di indicare una soglia (t)
basata sulla edit distance:
– Se una read allinea in un passaggio ma con una
edit distance ≥ t essa verrà riallineata nei passaggi
successivi per cercare un eventuale allineamento
migliore.
– Se viene settata una soglia t = 0 tutte le read che
mappano nel passaggio 1 verranno riallineate nei
passaggi successivi aumenta la sensibilità e la
specificità.
Effetto in presenza di pseudogeni
• Allineamento contro
trascrittoma noto assegna
tutte le read possibili ai
trascritti noti evitando che
allineino contro gli
pseudogeni corrispondenti
• Riallineamento basato su
edit distance consente di
rimappare read sovrapposte
a siti di splicing ignoti
mappate scorrettamente a
pseudogeni nel passaggio 2.
Approccio seed-extent
• Nell’approccio seed-extend
viene memorizzato un indice
di k-mer del genoma.
• Le read vengono divise in kmer e confrontate con l’indice
del genoma.
• I k-mer mappati vengono
quindi estesi e l’allineamento
può includere siti di splicing.
• Software:
– GSNAP
– QPALMA
• Sistemi seed-extent sono
accurati ma generalmente
molto più lenti di sistemi exonfirst
Garber, M., Grabherr, M. G., Guttman, M., & Trapnell, C. (2011). Computational methods for transcriptome annotation and quantification using
RNA-seq. Nature methods, 8(6), 469–77. doi:10.1038/nmeth.1613
GSNAP
Genomic Short-read Nucleotide Alignment Program
Allineatore creato per identiticare varianti complesse e
siti di splicing da read NGS.
Allineamento sul reference “space”
• GSNAP utilizza una tabella di
hash dei possibili 12-mer sul
genoma (spaziati di 3 nt).
• SNP in un 12-mer genomico
vengono rappresentate
duplicando le posizioni nella lista
per tutte le combinazioni di alleli
maggiori e minori nel 12-mer.
• Alleli maggiori vengono
rappresentati in un genoma
compresso mentre gli alleli
minori vengono rappresentati in
un altro genoma compresso.
Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics (Oxford, England),
26(7), 873–81. doi:10.1093/bioinformatics/btq057
Rilevazione di varianti ed eventi di
splicing
• GSNAP può utilizzare 2
tipi di evidenze per
identificare i siti di
splicing:
Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics (Oxford, England),
26(7), 873–81. doi:10.1093/bioinformatics/btq057
Rilevazione di varianti ed eventi di
splicing
• GSNAP può utilizzare 2
tipi di evidenze per
identificare i siti di
splicing:
1. Modello probabilistico
di siti donatoriaccettori
Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics (Oxford, England),
26(7), 873–81. doi:10.1093/bioinformatics/btq057
Rilevazione di varianti ed eventi di
splicing
• GSNAP può utilizzare 2
tipi di evidenze per
identificare i siti di
splicing:
1. Modello probabilistico
di siti donatoriaccettori
2. Database di estremità
esone-introne note
Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics (Oxford, England),
26(7), 873–81. doi:10.1093/bioinformatics/btq057
Rilevazione di varianti ed eventi di
splicing
• GSNAP può utilizzare 2
tipi di evidenze per
identificare i siti di
splicing:
1. Modello probabilistico di
siti donatori-accettori
2. Database di estremità
esone-introne note
•
Eventi di splicing
possono anche essere
intercromosomali
(fusioni geniche)
Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics (Oxford, England),
26(7), 873–81. doi:10.1093/bioinformatics/btq057
Controllo qualità di dati RNA-Seq
●
RseQC è un pacchetto software che fornisce
dei moduli per controllare la qualità delle
sequenze RNASeq allineate
Livello di duplicazione
read_duplication.py calcola i livelli di duplicazione a livello di allineamento e a livello
di sequenza.
Read duplicate nei dati RNA-Seq
• Read duplicate non vengono normalmente
rimosse dai dati RNA-Seq:
– Duplicati di PCR non sono distinguibili da
frammenti uguali dovuti a elevati livelli di
espressione
Distribuzione delle read
Distribuzione delle read tra le diverse feature (CDS,UTR, Introni, …)
Distribuzione tra le feature
900000
3000
800000
700000
2500
600000
2000
Read intergeniche
500000
1500
400000
1000
300000
200000
500
100000
0
0
cds
5'UTR
3'UTR
intron
intergenic
TSS_up_5kb
TES_down_1kb
TES_down_10kb
TSS_up_10kb
TSS_up_1kb
TES_down_5kb
upstream
downstream
Bias possono intervenire se i rapporti CDS/UTR/Introni non vengono mantenuti
Analisi del gene body coverage
Permette di rilevare bias nel coverage rispetto alla posizione nel gene body
3’ end bias
Un bias al 3’ potrebbe indicare un campione degradato.
Distanza tra paia di read
Distanza tra due paia di read tenendo in considerazione la posizione degli introni.
Saturazione degli RPKM
●
●
●
RPKM_saturation.py
Stima dell'errore come
percentuale comparata
all'RPKM ottenuto da
tutte le read.
Q1, Q2, Q3, Q4 sono i 4
quartili di espressione.
Reads Per Kilobase of gene per Million
mapped reads (RPKM)
• Valore di espressione normalizzato dividendo
le conte grezze per la lunghezza in kilobasi dei
geni e per i milioni di read totali mappate per
campione:
– Geni più lunghi hanno una maggiore probabilità di
essere sequenziati
– Il numero di read ottenute può variare a seconda
della run di sequenziamento
Comparazione delle giunzioni rilevate
con l’annotazione
Total splicing Events: 160912
Known Splicing Events:
155526
Partial Novel Splicing Events:
3396
Novel Splicing Events:1941
Total splicing Junctions:
4326
Known Splicing Junctions: 3871
Partial Novel Splicing Junctions: 259
Novel Splicing Junctions: 196
splice event: Una read RNA-Seq,
specialmente se lunga, può venire splittata 2
o più volte; ogni volta viene contata come
splicing event
splice junction: eventi di splicing multipli
riguardanti lo stesso introne.
Saturazione delle giunzioni
Fornisce una misura di quanto la profondità utilizzata è stata in grado di
saturare le giunzioni di splicing note e novel importante se si è interessati
all’analisi dello splicing alternativo.
Giunzioni note a saturazione
Giunzioni note non sono
saturate