Metodologie informalche per l`analisi dei genomi

Metodologie informa/che per l’analisi dei genomi Metodologie informa/che per l’analisi dei genomi Perchè sono qui? Walter Sanseverino, CEO at !? Informa/cs = Genomics? We have a problem!!! Focus curve Prima di iniziare Che cos’è la gene/ca? La gene/ca (dal greco an/co γενετικός ghene/kós, «rela/vo alla nascita», da γένεσις ghénesis, «genesi, origine») è la scienza, branca della biologia, che studia i geni, l'ereditarietà e la variabilità gene/ca degli organismi. I 'cara]eri' mendeliani dell'individuo corrispondono a sequenze di DNA, chiamate geni presen/ nel genoma in duplice copia (nel cromosoma ereditato dal padre e in quello ereditato dalla madre). Che cos’è la genomica? La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viven/. In par/colare si occupa della stru]ura, contenuto, funzione ed evoluzione del genoma. È una scienza che si basa sulla bioinforma/ca per l'elaborazione e la visualizzazione dell'enorme quan/tà di da/ che produce. Che cos’è la bioinforma/ca? La bioinforma/ca è una disciplina scien/ﬁca dedicata alla risoluzione di problemi biologici a livello molecolare con metodi informa/ci. La bioinforma/ca La bioinforma/ca principalmente si occupa di: 1.  Fornire modelli sta/s/ci validi per l'interpretazione dei da/ provenien/ da esperimen/ di biologia molecolare e biochimica al ﬁne di iden/ﬁcare tendenze e leggi numeriche 2.  Generare nuovi modelli e strumen/ matema/ci per l'analisi di sequenze di DNA, RNA e proteine al ﬁne di creare un corpus di conoscenze rela/ve alla frequenza di sequenze rilevan/, la loro evoluzione ed eventuale funzione. 3.  Organizzare le conoscenze acquisite a livello globale su genoma e proteoma in basi di da/ al ﬁne di rendere tali da/ accessibili a tuh, e ohmizzare gli algoritmi di ricerca dei da/ stessi per migliorarne l'accessibilità. Storia della gene/ca I Storia della gene/ca II Moore’s law « Le prestazioni dei processori, e il numero di transistor ad esso rela/vo, raddoppiano ogni 18 mesi. » Unica slide di questa prima parte che dovete ricordare Il sequenziamento di un genoma ci perme]e di avere una panoramica completa di tu]e le cara]eris/che di un organismo: La sua stru]ura Il numero di geni La loro funzione Il numero di elemen/ non-‐codiﬁcan/ La sequenza del genoma è il punto di partenza per tuh gli studi di genomica Non esite genomica senza sequenziamento Non esiste genomica senza genoma Non esiste genomica senza informa/ca Come possiamo trasformare i da/ di sequenziamento in informazioni u/li? Metodologie informa7che per l’analisi dei genomi! Reads and common ﬁles De novo assembly Genome annota/on and predic/on Gbrowse Resequencing SNP and InDEL calling Structural varia/on analysis Genome reconstruc/on Genome comparison Reads and common ﬁles Sapete quali sono I ﬁle che escono da un sequenziatore? Sapete quali sono I sequenziatori a]ualemente disponibili sul mercato? Sapete quali sono le diﬀerenze tra i sequenziotori Qual’è la diﬀerenza tra ques/ due ﬁle? File1: atgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagcta
gctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgcta
gctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaat
gctagctagctaatgctagctagctaatgctagctagcta File2: >seq_without_any_sense atgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagcta
gctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgcta
gctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaatgctagctagctaat
gctagctagctaatgctagctagctaatgctagctagcta A sequence in FASTA format begins with a single-‐line descrip7on, followed by lines of sequence data. The descrip7on line is dis7nguished from the sequence data by a greater-‐than (">") symbol in the ﬁrst column. The word following the ">" symbol is the iden7ﬁer of the sequence, and the rest of the line is the descrip7on (both are op7onal). There should be no space between the ">" and the ﬁrst leIer of the iden7ﬁer. It is recommended that all lines of text be shorter than 80 characters. Common genomics ﬁle FASTA FASTQ GFF/GTF SAM BAM BED Common genomic nomenclature READS CONTIG SCAFFOLD SUPERSCAFFOLD PSEUDOMOLECULES Instrument Output Illumina MiSeq Illumina HiSeq Images (./ﬀ) Cluster intensity ﬁle (.cif) Base call ﬁle (.bcl) IonTorrent PGM Roche 454 Standard ﬂowgram ﬁle (.sﬀ) Sequence Data (FASTQ Format) Paciﬁc Biosciences RS Movie Trace (.trc.h5) Pulse (.pls.h5) Base (.bas.h5) FASTQ FASTQ format is a text-‐based format for storing both a biological sequence (usually nucleo/de sequence) and its corresponding quality scores. A FASTQ ﬁle normally uses four lines per sequence. Line 1 begins with a '@' character and is followed by a sequence iden/ﬁer and an op/onal descrip/on (like a FASTA /tle line). Line 2 is the raw sequence le]ers. Line 3 begins with a '+' character and is op/onally followed by the same sequence iden/ﬁer (and any descrip/on) again. Line 4 encodes the quality values for the sequence in Line 2, and must contain the same number of symbols as le]ers in the sequence. A FASTQ ﬁle containing a single sequence might look like this "read" means a short sequence of dna, typically 25-‐400 base pairs long. Basically, reads are raw sequences that come oﬀ a sequencing machine. @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-‐+*''))**55CCF>>>>>>CCCCCCC65 The character '!' represents the lowest quality while '~' is the highest. Here are the quality value characters in le€-‐to-‐right increasing order of quality (ASCII): !"#$%&'()*+,-‐./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~ Andiamo adesso su questo sito e vediamo gli altri ﬁle h]p://genome.ucsc.edu/FAQ/FAQformat.html#format3 Illumina E
FASTQ ﬁle FASTQ Format (Illumina xample) Read Record Header Separator (with op7onal repeated header) Lane Flow Cell ID Tile Tile Coordinates Barcode @DJG84KN1:272:D17DBACXX:2:1101:12432:5554 1:N:0:AGTCAA
CAGGAGTCTTCGTACTGCTTCTCGGCCTCAGCCTGATCAGTCACACCGTT
+
Read Bases BCCFFFDFHHHHHIJJIJJJJJJJIJJJJJJJJJJIJJJJJJJJJIJJJJ
@DJG84KN1:272:D17DBACXX:2:1101:12454:5610 1:N:0:AG
AAAACTCTTACTACATCAGTATGGCTTTTAAAACCTCTGTTTGGAGCCAG
Read Quality +
Scores @@@DD?DDHFDFHEHIIIHIIIIIBBGEBHIEDH=EEHI>FDABHHFGH2
@DJG84KN1:272:D17DBACXX:2:1101:12438:5704 1:N:0:AG
CCTCCTGCTTAAAACCCAAAAGGTCAGAAGGATCGTGAGGCCCCGCTTTC
+
CCCFFFFFHHGHHJIJJJJJJJI@HGIJJJJIIIJGIGIHIJJJIIIIJJ
@DJG84KN1:272:D17DBACXX:2:1101:12340:5711 1:N:0:AG
GAAGATTTATAGGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGG
+
CCCFFFFFHHHHHGGIJJJIJJJJJJIJJIJJJJJGIJJJHIIJJJIJJJ
Base Call Quality: Phred Quality Scores Phred* quality score Q with base-‐calling error probability P Q = -‐10 log10P * Name of ﬁrst program to assign accurate base quality scores. From the Human Genome Project. Sanger-‐encoded (Q Score + 33) Base conﬁdence ASCII character Q score Probability of base error 10 0.1 90% “+” 20 0.01 99% “5” 30 0.001 99.9% “?” 40 0.0001 99.99% “I” SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS.....................................................
...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................
LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL....................................................
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
|
|
|
|
|
|
33
59
64
73
104
126
S - Sanger
Phred+33
I - Illumina 1.3+ Phred+64
L - Illumina 1.8+ Phred+33
range: 0 to 40
range: 0 to 40
range: 0 to 41
Abbiamo capito: Qual’è output di un sequenziatore Che cos’è una read Che cos’è un FASTQ ﬁle Come si legge la qualità di un FASTQ