Metodologie informa/che per l’analisi dei genomi Metodologie informa/che per l’analisi dei genomi Perchè sono qui? Walter Sanseverino, CEO at !? Informa/cs = Genomics? We have a problem!!! Focus curve Prima di iniziare Che cos’è la gene/ca? La gene/ca (dal greco an/co γενετικός ghene/kós, «rela/vo alla nascita», da γένεσις ghénesis, «genesi, origine») è la scienza, branca della biologia, che studia i geni, l'ereditarietà e la variabilità gene/ca degli organismi. I 'cara]eri' mendeliani dell'individuo corrispondono a sequenze di DNA, chiamate geni presen/ nel genoma in duplice copia (nel cromosoma ereditato dal padre e in quello ereditato dalla madre). Che cos’è la genomica? La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viven/. In par/colare si occupa della stru]ura, contenuto, funzione ed evoluzione del genoma. È una scienza che si basa sulla bioinforma/ca per l'elaborazione e la visualizzazione dell'enorme quan/tà di da/ che produce. Che cos’è la bioinforma/ca? La bioinforma/ca è una disciplina scien/fica dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informa/ci. La bioinforma/ca La bioinforma/ca principalmente si occupa di: 1. Fornire modelli sta/s/ci validi per l'interpretazione dei da/ provenien/ da esperimen/ di biologia molecolare e biochimica al fine di iden/ficare tendenze e leggi numeriche 2. Generare nuovi modelli e strumen/ matema/ci per l'analisi di sequenze di DNA, RNA e proteine al fine di creare un corpus di conoscenze rela/ve alla frequenza di sequenze rilevan/, la loro evoluzione ed eventuale funzione. 3. Organizzare le conoscenze acquisite a livello globale su genoma e proteoma in basi di da/ al fine di rendere tali da/ accessibili a tuh, e ohmizzare gli algoritmi di ricerca dei da/ stessi per migliorarne l'accessibilità. Storia della gene/ca I Storia della gene/ca II Moore’s law « Le prestazioni dei processori, e il numero di transistor ad esso rela/vo, raddoppiano ogni 18 mesi. » Unica slide di questa prima parte che dovete ricordare Il sequenziamento di un genoma ci perme]e di avere una panoramica completa di tu]e le cara]eris/che di un organismo: La sua stru]ura Il numero di geni La loro funzione Il numero di elemen/ non-­‐codifican/ La sequenza del genoma è il punto di partenza per tuh gli studi di genomica Non esite genomica senza sequenziamento Non esiste genomica senza genoma Non esiste genomica senza informa/ca Come possiamo trasformare i da/ di sequenziamento in informazioni u/li? Metodologie informa7che per l’analisi dei genomi! Reads and common files De novo assembly Genome annota/on and predic/on Gbrowse Resequencing SNP and InDEL calling Structural varia/on analysis Genome reconstruc/on Genome comparison Reads and common files Sapete quali sono I file che escono da un sequenziatore? Sapete quali sono I sequenziatori a]ualemente disponibili sul mercato? Sapete quali sono le differenze tra i sequenziotori Qual’è la differenza tra ques/ due file? File1: atgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagcta gctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgcta gctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaat gctagctagctaatgctagctagctaatgctagctagcta File2: >seq_without_any_sense atgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagcta gctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgcta gctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaat gctagctagctaatgctagctagctaatgctagctagcta A sequence in FASTA format begins with a single-­‐line descrip7on, followed by lines of sequence data. The descrip7on line is dis7nguished from the sequence data by a greater-­‐than (">") symbol in the first column. The word following the ">" symbol is the iden7fier of the sequence, and the rest of the line is the descrip7on (both are op7onal). There should be no space between the ">" and the first leIer of the iden7fier. It is recommended that all lines of text be shorter than 80 characters. Common genomics file FASTA FASTQ GFF/GTF SAM BAM BED Common genomic nomenclature READS CONTIG SCAFFOLD SUPERSCAFFOLD PSEUDOMOLECULES Instrument Output Illumina MiSeq Illumina HiSeq Images (./ff) Cluster intensity file (.cif) Base call file (.bcl) IonTorrent PGM Roche 454 Standard flowgram file (.sff) Sequence Data (FASTQ Format) Pacific Biosciences RS Movie Trace (.trc.h5) Pulse (.pls.h5) Base (.bas.h5) FASTQ FASTQ format is a text-­‐based format for storing both a biological sequence (usually nucleo/de sequence) and its corresponding quality scores. A FASTQ file normally uses four lines per sequence. Line 1 begins with a '@' character and is followed by a sequence iden/fier and an op/onal descrip/on (like a FASTA /tle line). Line 2 is the raw sequence le]ers. Line 3 begins with a '+' character and is op/onally followed by the same sequence iden/fier (and any descrip/on) again. Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as le]ers in the sequence. A FASTQ file containing a single sequence might look like this "read" means a short sequence of dna, typically 25-­‐400 base pairs long. Basically, reads are raw sequences that come off a sequencing machine. @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-­‐+*''))**55CCF>>>>>>CCCCCCC65 The character '!' represents the lowest quality while '~' is the highest. Here are the quality value characters in le€-­‐to-­‐right increasing order of quality (ASCII): !"#$%&'()*+,-­‐./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ Andiamo adesso su questo sito e vediamo gli altri file h]p://genome.ucsc.edu/FAQ/FAQformat.html#format3 Illumina E FASTQ file FASTQ Format (Illumina xample) Read Record Header Separator (with op7onal repeated header) Lane Flow Cell ID Tile Tile Coordinates Barcode @DJG84KN1:272:D17DBACXX:2:1101:12432:5554 1:N:0:AGTCAA CAGGAGTCTTCGTACTGCTTCTCGGCCTCAGCCTGATCAGTCACACCGTT + Read Bases BCCFFFDFHHHHHIJJIJJJJJJJIJJJJJJJJJJIJJJJJJJJJIJJJJ @DJG84KN1:272:D17DBACXX:2:1101:12454:5610 1:N:0:AG AAAACTCTTACTACATCAGTATGGCTTTTAAAACCTCTGTTTGGAGCCAG Read Quality + Scores @@@DD?DDHFDFHEHIIIHIIIIIBBGEBHIEDH=EEHI>FDABHHFGH2 @DJG84KN1:272:D17DBACXX:2:1101:12438:5704 1:N:0:AG CCTCCTGCTTAAAACCCAAAAGGTCAGAAGGATCGTGAGGCCCCGCTTTC + CCCFFFFFHHGHHJIJJJJJJJI@HGIJJJJIIIJGIGIHIJJJIIIIJJ @DJG84KN1:272:D17DBACXX:2:1101:12340:5711 1:N:0:AG GAAGATTTATAGGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGG + CCCFFFFFHHHHHGGIJJJIJJJJJJIJJIJJJJJGIJJJHIIJJJIJJJ Base Call Quality: Phred Quality Scores Phred* quality score Q with base-­‐calling error probability P Q = -­‐10 log10P * Name of first program to assign accurate base quality scores. From the Human Genome Project. Sanger-­‐encoded (Q Score + 33) Base confidence ASCII character Q score Probability of base error 10 0.1 90% “+” 20 0.01 99% “5” 30 0.001 99.9% “?” 40 0.0001 99.99% “I” SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS..................................................... ...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII...................... LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL.................................................... !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ | | | | | | 33 59 64 73 104 126 S - Sanger Phred+33 I - Illumina 1.3+ Phred+64 L - Illumina 1.8+ Phred+33 range: 0 to 40 range: 0 to 40 range: 0 to 41 Abbiamo capito: Qual’è output di un sequenziatore Che cos’è una read Che cos’è un FASTQ file Come si legge la qualità di un FASTQ