Bioinformatica (modulo “bioinf. dei genomi moderni”) Dr. Marco Fondi Lezione # 1 Corso di Laurea in Scienze Biologiche, AA 2010-2011 1 giovedì 14 ottobre 2010 Dr. Marco Fondi Lab. di Evoluzione Microbica e Molecolare Dip. di Biologia Evoluzionistica Via Romana 17/19 tel: 055 2288244 email: [email protected] 2 giovedì 14 ottobre 2010 stay tuned! mail a [email protected] oggetto “corso bioinformatica” mailing list www.unifi.it/dblemm 3 giovedì 14 ottobre 2010 Programma del modulo 1. Introduzione al corso, risorse web, principali tipi di file 2. Allineamenti multipli di sequenze, Editing di sequenze, BioEdit Package. Caso studio: RND efflux system, ricerca dei domini conservati 3. BLAST (Basic Alignment Search Tool) 4. Basi di evoluzione molecolare, Filogenesi (metodi ed applicazioni), Mega4 Package. Caso studio: Trasferimento genico orizzontale, identificazione batterica 5. Analisi di dati di espressione genica e/o assegnazione funzionale di sequenze 6. Simuazione di un protocollo (esercitazione pratica) 4 giovedì 14 ottobre 2010 orario 5 giovedì 14 ottobre 2010 oggi Cosa è la bioinformatica Web resources Struttura file più comuni 6 giovedì 14 ottobre 2010 era “-OMICS” Genomica (presenza/assenza geni) Trascrittomica (espressione geni) Fenomica 7 giovedì 14 ottobre 2010 era “-OMICS” Genomica (presenza/assenza geni) Trascrittomica (espressione geni) Fenomica 8 giovedì 14 ottobre 2010 cosa si ottiene da queste nuove tecnologie? sequenziamento massivo (454 Roche) esperimento di trascrittomica (microarray) esperimento di fenomica (Biolog) 9 giovedì 14 ottobre 2010 ERA GENOMICA 10 giovedì 14 ottobre 2010 454, Roche ® Sequenziatori ABI's SOLiD Method. Solexa, Illumina ® 11 giovedì 14 ottobre 2010 12 giovedì 14 ottobre 2010 13 giovedì 14 ottobre 2010 numero attuale di genomi disponibili 14 giovedì 14 ottobre 2010 15 giovedì 14 ottobre 2010 16 giovedì 14 ottobre 2010 17 giovedì 14 ottobre 2010 > 20 000 strutture proteiche 18 giovedì 14 ottobre 2010 Microarray experiments data 19 giovedì 14 ottobre 2010 ? 20 giovedì 14 ottobre 2010 TASK 1 organizzare le conoscenze acquisite a livello globale (es. genoma e proteoma) al fine di rendere tali dati accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei dati stessi per migliorarne l'accessibilità. 21 giovedì 14 ottobre 2010 TASK 2 fornire modelli statistici validi per l'interpretazione dei dati provenienti da esperimenti di biologia molecolare e biochimica al fine di identificare tendenze e leggi numeriche 22 giovedì 14 ottobre 2010 TASK 3 generare nuovi modelli e strumenti matematici per l'analisi di sequenze di DNA, RNA e proteine (evoluzione, funzione ipotetica etc.). Algoritmo Codice 23 giovedì 14 ottobre 2010 Biologia Bioinformatica Informatica giovedì 14 ottobre 2010 24 genetica Biologia Molecolare genomica Teoria dei Grafi biochimica statistica Bioinformatica biofisica Analisi numerica paleontologia Analisi di immagine Trattamento dati Design di algoritmi 25 giovedì 14 ottobre 2010 “Due differenti tecnologie domineranno il XXI secolo, sia dal punto di vista dell’industria che della ricerca scientifica -- le biotecnologie e le tecnologie informatiche” Bill Gates 26 giovedì 14 ottobre 2010 ? 27 giovedì 14 ottobre 2010 Wet-Lab experiments DATA Bibliographic Databases Taxonomic Databases WEB Databases Nucleotide Databases Genomic Databases Protein Databases 28 Microarray Databases giovedì 14 ottobre 2010 Knowledge bases = Biological databases Punto di partenza di qualsiasi analisi bioinformatica (e non). 29 giovedì 14 ottobre 2010 Sequence Data/Genome Data …atgctggactgagtaatcct… …MQYYLERRSQMPGYTRYMML… Gene Prediction (ORF finding) Protein Structure Taxonomy Expression profiles (Microarray Data) Metabolic pathways information DataBase overview 30 giovedì 14 ottobre 2010 Sequence Data/Genome Data …atgctggactgagtaatcct… …MQYYLERRSQMPGYTRYMML… Gene Prediction (ORF finding) Protein Structure Taxonomy Expression profiles (Microarray Data) Metabolic pathways information 31 giovedì 14 ottobre 2010 EMBL-EBI 32 giovedì 14 ottobre 2010 GenBank 33 giovedì 14 ottobre 2010 PDB (Protein DataBank) database 34 giovedì 14 ottobre 2010 JGI Database 35 giovedì 14 ottobre 2010 sequence in FASTA Format giovedì 14 ottobre 2010 36 FASTA Format >gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glycerald GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA CTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTAT GACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAAC TTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGC CATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGC CAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACC CCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGG CTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCAC GGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTC GTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACA TGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCG GCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC 37 giovedì 14 ottobre 2010 FASTA Format >gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glycerald GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT Locus Name gi number ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA CTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTAT GACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAAC TTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGC Database Identifiers CATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGC Accession number gb GenBank CAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACC CCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGG emb EMBL CTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCAC GGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTC dbj DDBJ GTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACA TGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCG sp SWISS-PROT GCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC FASTA Definition Line >gi|193425|gb|M60978.1|MUSGAPDS pdb pir ref Protein Databank PIR RefSeq 38 giovedì 14 ottobre 2010 “Text” search DB Sequence in FASTA Format BLAST Sequence similarity search 39 giovedì 14 ottobre 2010 Sequence Data/Genome Data …atgctggactgagtaatcct… …MQYYLERRSQMPGYTRYMML… Gene Prediction (ORF finding) Protein Structure Taxonomy Expression profiles (Microarray Data) Metabolic pathways information 40 giovedì 14 ottobre 2010 ? giovedì 14 ottobre 2010 41 tAAATAAACTAAACTAAaCctACGTAGTAGGagTTTTTTATGTCATTCAAGATTACCAGT GTTCGCCTGGGAACAAACGGGCATAAGCACGTTGCACAAGATTAAGTTTTtCTTGTTTAC CGATTGAAGCTGTTGAGCTAGGGAACAAGTTAAAACCAATCGACATTAAAATGTTGTTAA TGTCCGGTGCAACCGCGTAAGTAATCGATGCAAGACGACCAAGGTTTGTCGCGATTTTCT TCGGACGTTTTACGATTGCATAAGCAATCAAATCAGCCGCTTCTTCTGGAGAAAGCGTTG GTACATATTTATAAATCTTAGTTGGTGCGATCATTGGTGTGCGCACTAAAGGCATATAAA TCGAAGTAATTGCAATTTTGTGCGAATGAACTTCTGCCGATAAGCAACGGCTAAATGCAT CAAGCGCAGCTTTCGATGCGACATAAGCCGAGAAGCGTGTTGCATTTGCCAATACACCAA TCGAACTGATGTTGATGATTTGACCGTCTTTGCGTTGCATCATGTGCGGTAATACATTGA GAACTAAACGAACTGCACCGAAGTAATTCAACTGCATGGTACGTTCAAAATCATGGAAAC GATCAATCGATTCATGCACCGCACGACGAATAGAGCGACCTGCATTGTTGACCAAAATAT CAATATGATCTACCGCTGCAAGAATTTCTTTTGAAACCGCATCAATCGAATCCATATCAT TCAGATCACATGGGAAAACAGATGCTTTACCGCCTTCTGCTTCGATCTCTGCTTTAACTT CGTCTAATTTTTCCTTGGTACGAGCAAGTAATAAGACATGTGCACCAGCTTGAGCAAGAT ACTTTGAAACCGTTAGACCAATGCCACTAGATGCACCTGTGACAATGATTGTTTTACCGT CGACTTTTTGCTGAAAAAGTTTTTTGAGTTTTCCGTTCATGTAAGTTACCTACATTAATC AAGCTGTTGTTTGCAATGTCTTCTTATTGCGATTAAACATTGCACTTTATTTTGTATGTA TATTAACCGATATTTTTtGTTTGTCCAGTGTAAATATTTGAAAAATAATAATTTTTTtAG AGTAAAAACTCTAAAACAAAGTATTGTAATAGTTGAAAAAGCAATAATATTTTTTGAGAT ACTTTGAAACCGTTAGACCAATGCCACTAGATGCACCTGTGACAATGATTGTTTTACCGT CGACTTTTTGCTGAAAAAGTTTTTTGAGTTTTCCGTTCATGTAAGTTACCTACATTAATC AAGCTGTTGTTTGCAATGTCTTCTTATTGCGATTAAACATTGCACTTTATTTTGTATGTA TATTAACCGATATTTTTtGTTTGTCCAGTGTAAATATTTGAAAAATAATAATTTTTTtAG 42 AGTAAAAACTCTAAAACAAAGTATTGTAATAGTTGAAAAAGCAATAATATTTTTTGAGAT giovedì 14 ottobre 2010 Sequenza in formato FASTA: >Cromosoma (TITOLO) ATCATTATTGATCCTGATCGGTTAGCATCGTAT TTCCTTACCGGGACCCCATGATCGATACAGTAA ACCTTAGGATGATTATTGATGCTGATCGGTTAG CATCGTATTTCCTTACCGGGACCCCATGATCGA TACAGTAAACCTTAGGTGATTATTGATCCTGAT CGGTTAGCATCGTATTTCCTTACCGGGACCCCA TGATCGATACAGTAATAATTAGGATGATTATTG ATCCTGATCGGTTAGCATCGTATTTCCTTACCG GGACCCCATGATCGATACAGTAAACCTTAGGAT GATTATTGATCCTGATCGGTTAGCATCGTATTT CCTTACCGGGACCCCATGATCGATACAGTAAAC CTTAGATGATTATTGATCCTGATCGGTATGCAT CGTATTTCCTTACCGGGACCCCATGATCGATAC AGTAAACCTTAGGTTGAATCGTATTTCCTTACC GGGACCCCATGATCGATACAGTAAACCTTAGGT AGCATCGTATTTCCTTACCGGGACCCCATGATC GAATGAGTAAACCTTAGGTAGCATTGAATTTCC TTACCGGGACCCCATGATCGATACAGTAAACCT TAGG….. 43 giovedì 14 ottobre 2010 ORF Finder @ NCBI: 44 giovedì 14 ottobre 2010 45 giovedì 14 ottobre 2010 Sequence Data/Genome Data …atgctggactgagtaatcct… …MQYYLERRSQMPGYTRYMML… Gene Prediction (ORF finding) Protein Structure Taxonomy Expression profiles (Microarray Data) Metabolic pathways information 46 giovedì 14 ottobre 2010 Ho un gene (una sequenza), in quale processo metabolico è coinvolto? Dato un processo metabolico, quali sono i geni coinvolti? 47 giovedì 14 ottobre 2010 Metabolic pathways information @ KEGG 48 giovedì 14 ottobre 2010 Metabolic pathways information @ KEGG 49 giovedì 14 ottobre 2010 Apoptosis in Homo sapiens 50 giovedì 14 ottobre 2010 Apoptosis in Monodelphis domestica 51 giovedì 14 ottobre 2010 Sequence Data/Genome Data …atgctggactgagtaatcct… …MQYYLERRSQMPGYTRYMML… Protein Structure Gene Prediction (ORF finding) Taxonomy Expression profiles (Microarray Data) Metabolic pathways information 52 giovedì 14 ottobre 2010 Ogni proteina ha una sua struttura 3D Amino acid sequence >title NLKTEWPELVGKSVEEA KKVILQDKPEAQIIVLPV GTIVTMEYRIDRVRLFVD KLDNIAEVPRVG Folding! 53 giovedì 14 ottobre 2010 Protein Structure in the WEB Strutture note If prediction = true Predizioni di strutture 54 giovedì 14 ottobre 2010 55 giovedì 14 ottobre 2010 Protein structure prediction 56 giovedì 14 ottobre 2010 Protein structure @ NCBI 57 giovedì 14 ottobre 2010 Disegno di farmaci drug design Protein-protein docking Evoluzione Proteomica Assegnazione funzionale 58 giovedì 14 ottobre 2010 Sequence Data/Genome Data …atgctggactgagtaatcct… …MQYYLERRSQMPGYTRYMML… Gene Prediction (ORF finding) Protein Structure Taxonomy Metabolic pathways information Expression profiles (Microarray Data) 59 giovedì 14 ottobre 2010 Expression profiles (Microarray Data) Array Analysis Hierarchical Clustering giovedì 14 ottobre 2010 60 Gene Expression @ NCBI 61 giovedì 14 ottobre 2010 Expression profile: Interazioni proteina-proteina Assegnazione funzionale Proteomica 62 giovedì 14 ottobre 2010 NCBI (http:// www.ncbi.nlm.nih.gov/) • • • • Entrez interface to databases – Medline/OMIM – Genbank/Genpept/Structures BLAST server(s) – Five-plus flavors of blast Draft Human Genome Much, much more… 63 giovedì 14 ottobre 2010 64 giovedì 14 ottobre 2010 INTEGRATION!!! 65 giovedì 14 ottobre 2010 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro • (Probabilmente) state utilizzando un insieme ristretto delle opzioni disponibili • Grande utilità per analisi preliminari e “veloci”. Per analisi più accurate e complesse è preferibile utilizzare database e software in maniera “locale” • La pratica e gli errori (intelligenti!!!) sono il miglior modo per imparare 66 giovedì 14 ottobre 2010