Laboratorio di Elementi di Bioinformatica Laurea Triennale in Informatica (codice: E3101Q116) AA 2015/2016 Esempio di workflow Docente del laboratorio: Raffaella Rizzi 1 Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma 1, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. Scopo del workflow Ogni gene è fornito come locus Scopo: dato un insieme di reads genomici (ottenuti con [start,Rend] sul DNA genomico tecnologia NGS) eài locus genici del cromosoma 1, file genes-chr1.csv stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5’ G1 start G2 end G3 3’ chr1 Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma 1, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5’ G1 G2 G3 3’ chr1 Set R Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma 1, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5’ G1 G2 G3 3’ chr1 Set R Scopo del workflow Scopo: dato un insieme R di reads genomici (ottenuti con tecnologia NGS) e i locus genici del cromosoma 1, stimare, per ogni gene, il numero di reads che hanno origine dal suo locus. 5’ G1 G2 G3 3’ chr1 In G1 hanno origine 2 reads. In G2 hanno origine 0 reads. In G3 ha origine 1 reads Steps del workflow ① Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Steps del workflow ① ② Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma Steps del workflow ① ② ③ Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma Scrivere un programma Ruby: INPUT: allineamenti prodotti allo step 2 (in formato SAM), il file genes-chr1.csv dei geni sul cromosoma 1 e una soglia di qualità Q. OUTPUT: una tabella che descrive per ognuno dei geni del cromosoma 1 il numero di allineamenti di reads, con qualità media al di sopra di Q, che cadono all’interno del locus del gene. Steps del workflow ① ② ③ Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma Scrivere un programma Ruby: INPUT: allineamenti prodotti allo step 2 (in formato SAM), il file genes-chr1.csv dei geni sul cromosoma 1 e una soglia di qualità Q. OUTPUT: una tabella che descrive per ognuno dei geni NB: del dato cromosoma 1end] il numero didiciamo allineamenti di il locus [start, di un gene reads, condiqualità al di sopra che l’allineamento un read media cade all’interno del genediseQ, il valore del campo POS nel file SAM è compreso in [start, end] cadono all’interno del locus del gene. Steps del workflow ① ② ③ Recuperare un file di NGS reads in formato FASTQ da SRA (Sequence Read Archive) Allineare i read al genoma Scrivere un programma Ruby: Galaxy à https://usegalaxy.org/ INPUT: allineamenti prodotti allo step 2 (in formato https://orione.crs4.it/ SAM), il file genes-chr1.csv dei geni sul cromosoma 1 e una soglia di qualità Q. OUTPUT: una tabella che descrive per ognuno dei geni del cromosoma 1 il numero di allineamenti di reads, con qualità media al di sopra di Q, che cadono all’interno del locus del gene. Steps del workflow ① Recuperare un file di input (di NGS reads) in formato FASTQ da SRA (Sequence Read Archive) Tool Galaxy: “Get Data” à “EBI SRA ENA SRA” ID del set di NGS read: SRR1517298 Steps del workflow ① Recuperare un file di input (di NGS reads) in formato FASTQ da SRA (Sequence Read Archive) Tool Galaxy: “Get Data” à “EBI SRA ENA SRA” ID del set di NGS read: SRR1517298 In alternativa, scaricare il set SRR1517298 direttamente all’indirizzo http://www.ebi.ac.uk/ena e caricare poi il file in Galaxy Tool Galaxy: “Get Data” à “Upload File from your computer” Steps del workflow ① Recuperare un file di input (di NGS reads) in formato FASTQ da SRA (Sequence Read Archive) Tool Galaxy: “Get Data” à “EBI SRA ENA SRA” ID del set di NGS read: SRR1517298 In alternativa, scaricare il set SRR1517298 direttamente all’indirizzo http://www.ebi.ac.uk/ena e caricare poi il file in Galaxy Tool Galaxy: “Get Data” à “Upload File from your computer” Convertire in formato Sanger FASTQ il file dei reads Tool Galaxy: “NGS: QC and manipulation” à “FASTQ Groomer convert between various FASTQ quality formats” Tipo di input: “Illumina 1.3–1.7” Steps del workflow ② Allineare il set di reads al genoma usando BWA (Burrows-Wheeler Aligner) Tool Galaxy: “NGS: mapping” à “BWA - map short reads (< 100 bp) against reference genome” Genoma: “Human (Homo Sapiens) (b38): hg38” Steps del workflow ② Allineare il set di reads al genoma usando BWA (Burrows-Wheeler Aligner) Tool Galaxy: “NGS: mapping” à “BWA - map short reads (< 100 bp) against reference genome” Genoma: “Human (Homo Sapiens) (b38): hg38” ③ Scrivere il programma Ruby