Laboratorio di Elementi di
Bioinformatica
Laurea Triennale in Informatica
(codice: E3101Q116)
AA 2015/2016
Esempio di workflow
Docente del laboratorio: Raffaella Rizzi
1
Scopo del workflow
Scopo: dato un insieme R di reads genomici (ottenuti con
tecnologia NGS) e i locus genici del cromosoma 1,
stimare, per ogni gene, il numero di reads che hanno
origine dal suo locus.
Scopo del workflow
Ogni gene è fornito come locus
Scopo: dato un insieme
di reads
genomici
(ottenuti con
[start,Rend]
sul DNA
genomico
tecnologia NGS) eài locus
genici del cromosoma 1,
file genes-chr1.csv
stimare, per ogni gene, il numero di reads che hanno
origine dal suo locus.
5’
G1
start
G2
end
G3
3’
chr1
Scopo del workflow
Scopo: dato un insieme R di reads genomici (ottenuti con
tecnologia NGS) e i locus genici del cromosoma 1,
stimare, per ogni gene, il numero di reads che hanno
origine dal suo locus.
5’
G1
G2
G3
3’
chr1
Set R
Scopo del workflow
Scopo: dato un insieme R di reads genomici (ottenuti con
tecnologia NGS) e i locus genici del cromosoma 1,
stimare, per ogni gene, il numero di reads che hanno
origine dal suo locus.
5’
G1
G2
G3
3’
chr1
Set R
Scopo del workflow
Scopo: dato un insieme R di reads genomici (ottenuti con
tecnologia NGS) e i locus genici del cromosoma 1,
stimare, per ogni gene, il numero di reads che hanno
origine dal suo locus.
5’
G1
G2
G3
3’
chr1
In G1 hanno origine 2 reads.
In G2 hanno origine 0 reads.
In G3 ha origine 1 reads
Steps del workflow
① 
Recuperare un file di NGS reads in formato FASTQ
da SRA (Sequence Read Archive)
Steps del workflow
① 
② 
Recuperare un file di NGS reads in formato FASTQ
da SRA (Sequence Read Archive)
Allineare i read al genoma
Steps del workflow
① 
② 
③ 
Recuperare un file di NGS reads in formato FASTQ
da SRA (Sequence Read Archive)
Allineare i read al genoma
Scrivere un programma Ruby:
INPUT: allineamenti prodotti allo step 2 (in formato
SAM), il file genes-chr1.csv dei geni sul
cromosoma 1 e una soglia di qualità Q.
OUTPUT: una tabella che descrive per ognuno dei
geni del cromosoma 1 il numero di allineamenti di
reads, con qualità media al di sopra di Q, che
cadono all’interno del locus del gene.
Steps del workflow
① 
② 
③ 
Recuperare un file di NGS reads in formato FASTQ
da SRA (Sequence Read Archive)
Allineare i read al genoma
Scrivere un programma Ruby:
INPUT: allineamenti prodotti allo step 2 (in formato
SAM), il file genes-chr1.csv dei geni sul
cromosoma 1 e una soglia di qualità Q.
OUTPUT: una tabella che descrive per ognuno dei
geni NB:
del dato
cromosoma
1end]
il numero
didiciamo
allineamenti di
il locus [start,
di un gene
reads, condiqualità
al di sopra
che
l’allineamento
un read media
cade all’interno
del genediseQ,
il valore
del campo
POS nel file
SAM
è compreso
in [start, end]
cadono
all’interno
del
locus
del gene.
Steps del workflow
① 
② 
③ 
Recuperare un file di NGS reads in formato FASTQ
da SRA (Sequence Read Archive)
Allineare i read al genoma
Scrivere un programma Ruby:
Galaxy à https://usegalaxy.org/
INPUT: allineamenti
prodotti allo step 2 (in formato
https://orione.crs4.it/
SAM), il file genes-chr1.csv
dei geni sul
cromosoma 1 e una soglia di qualità Q.
OUTPUT: una tabella che descrive per ognuno dei
geni del cromosoma 1 il numero di allineamenti di
reads, con qualità media al di sopra di Q, che
cadono all’interno del locus del gene.
Steps del workflow
① 
Recuperare un file di input (di NGS reads) in formato
FASTQ da SRA (Sequence Read Archive)
Tool Galaxy: “Get Data” à “EBI SRA ENA SRA”
ID del set di NGS read: SRR1517298
Steps del workflow
① 
Recuperare un file di input (di NGS reads) in formato
FASTQ da SRA (Sequence Read Archive)
Tool Galaxy: “Get Data” à “EBI SRA ENA SRA”
ID del set di NGS read: SRR1517298
In alternativa, scaricare il set SRR1517298 direttamente
all’indirizzo http://www.ebi.ac.uk/ena e caricare poi il file in
Galaxy
Tool Galaxy: “Get Data” à “Upload File from your computer”
Steps del workflow
① 
Recuperare un file di input (di NGS reads) in formato
FASTQ da SRA (Sequence Read Archive)
Tool Galaxy: “Get Data” à “EBI SRA ENA SRA”
ID del set di NGS read: SRR1517298
In alternativa, scaricare il set SRR1517298 direttamente
all’indirizzo http://www.ebi.ac.uk/ena e caricare poi il file in
Galaxy
Tool Galaxy: “Get Data” à “Upload File from your computer”
Convertire in formato Sanger FASTQ il file dei reads
Tool Galaxy: “NGS: QC and manipulation” à “FASTQ Groomer
convert between various FASTQ quality formats”
Tipo di input: “Illumina 1.3–1.7”
Steps del workflow
② 
Allineare il set di reads al genoma usando BWA
(Burrows-Wheeler Aligner)
Tool Galaxy: “NGS: mapping” à “BWA - map short reads (< 100
bp) against reference genome”
Genoma: “Human (Homo Sapiens) (b38): hg38”
Steps del workflow
② 
Allineare il set di reads al genoma usando BWA
(Burrows-Wheeler Aligner)
Tool Galaxy: “NGS: mapping” à “BWA - map short reads (< 100
bp) against reference genome”
Genoma: “Human (Homo Sapiens) (b38): hg38”
③ 
Scrivere il programma Ruby