Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Mercoledì 17 dicembre 2014 Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri, è contenuta una putative sequenza di DNA di dinosauro. Usa Nucleotide BLAST contro la banca dati refseq_genomic per identificare la fonte di questa sequenza. A quale organism questo “dinosauro” è più vicino? >DinoDNA from JURASSIC PARK p. 103 nt 1-910 CCGGCTGGAAAATGCCTGCGGATATCCGCTTACAGCTGCGCGATAACACACTGATACTCAGTGATAACGGCGG CAGAAGCCTGTATTTTGAGCACCTGTTTCCCGGTGAGGACGGTTACAGCCGCAGCGAGTCACTCTGGCTGGTG CGCGGCGGCGTGGCGAAACTGGATGAAGGTCACCGGCTGGCCGCACTCTGGCAGGCGCTGCCGGAAGAACTCC GCTTAAGTCCGCATCGTTATCTGGCGACAAACAGTCCGCAGGGGCCGTGGTGGCTGCTCGGCTGGTGTGAGCG GGTGCCGGAAGCGGATGAGGTGCTGCCTGCGCCGCTGCCGCCGTACCGGGTACTGACCGGGCTGGTGGACCGC TTCGGGCGCACACAGACGTTCCACCGCGAAGCCGCCGGTGAATTCAGCGGCGAAATCACCGGCGTGACGGATG GTGCCGGGCGTCACTTCCGGCTGGTACTGACCACGCAGGCGCAGCGGGCAGAAGAAGCCCGGCAGCAGGCCAT TTCCGGCGGGACGGAACCGTCCGCTTTTCCTGATACCCTGCCGGGTTACACCGAATATGGCCGGGACAACGGC ATCCGTCTGTCTGCCGTGTGGCTGACGCACGACCCGGAATACCCGGAGAATTTACCTGCCGCGCCGCTGGTGC GCTATGGCTGGACGCCGCGCGGCGAACTGGCGGTGGTGTATGACCGTAGTGGCAAACAGGTGCGCAGCTTTAC TTACGATGATAAATACCGGGGCCGGATGGTGGCGCACCGTCACACGGGCCGGCCGGAAATCCGTTACCGTTAC GACAGCGACGGGCGGGTGACAGAACAGCTAAACCCGGCAGGCTTAAGCTACACGTATCAGTATGAGAAAGACC GCATCACCATCACCGACAGCCTGAACCGCCGTGA Lo scienziato dell’NCBI Mark Boguski notò questa ovvia "contaminazione" e fornì a Crichton una sequenza migliore per il sequel The Lost World. Identifica la fonte più probabile di questa sequenza usando translating BLAST (blastx) e nr database. >DinoDNA from THE LOST WORLD p. 135 GAATTCCGGAAGCGAGCAAGAGATAAGTCCTGGCATCAGATACAGTTGGAGATAAGGACGGACGTGTGGCAGC TCCCGCAGAGGATTCACTGGAAGTGCATTACCTATCCCATGGGAGCCATGGAGTTCGTGGCGCTGGGGGGGCC GGATGCGGGCTCCCCCACTCCGTTCCCTGATGAAGCCGGAGCCTTCCTGGGGCTGGGGGGGGGCGAGAGGACG GAGGCGGGGGGGCTGCTGGCCTCCTACCCCCCCTCAGGCCGCGTGTCCCTGGTGCCGTGGGCAGACACGGGTA CTTTGGGGACCCCCCAGTGGGTGCCGCCCGCCACCCAAATGGAGCCCCCCCACTACCTGGAGCTGCTGCAACC CCCCCGGGGCAGCCCCCCCCATCCCTCCTCCGGGCCCCTACTGCCACTCAGCAGCGGGCCCCCACCCTGCGAG GCCCGTGAGTGCGTCATGGCCAGGAAGAACTGCGGAGCGACGGCAACGCCGCTGTGGCGCCGGGACGGCACCG GGCATTACCTGTGCAACTGGGCCTCAGCCTGCGGGCTCTACCACCGCCTCAACGGCCAGAACCGCCCGCTCAT CCGCCCCAAAAAGCGCCTGCTGGTGAGTAAGCGCGCAGGCACAGTGTGCAGCCACGAGCGTGAAAACTGCCAG ACATCCACCACCACTCTGTGGCGTCGCAGCCCCATGGGGGACCCCGTCTGCAACAACATTCACGCCTGCGGCC TCTACTACAAACTGCACCAAGTGAACCGCCCCCTCACGATGCGCAAAGACGGAATCCAAACCCGAAACCGCAA AGTTTCCTCCAAGGGTAAAAAGCGGCGCCCCCCGGGGGGGGGAAACCCCTCCGCCACCGCGGGAGGGGGCGCT CCTATGGGGGGAGGGGGGGACCCCTCTATGCCCCCCCCGCCGCCCCCCCCGGCCGCCGCCCCCCCTCAAAGCG ACGCTCTGTACGCTCTCGGCCCCGTGGTCCTTTCGGGCCATTTTCTGCCCTTTGGAAACTCCGGAGGGTTTTT TGGGGGGGGGGCGGGGGGTTACACGGCCCCCCCGGGGCTGAGCCCGCAGATTTAAATAATAACTCTGACGTGG GCAAGTGGGCCTTGCTGAGAAGACAGTGTAACATAATAATTTGCACCTCGGCAATTGCAGAGGGTCGATCTCC ACTTTGGACACAACAGGGCTACTCGGTAGGACCAGATAAGCACTTTGCTCCCTGGACTGAAAAAGAAAGGATT TATCTGTTTGCTTCTTGCTGACAAATCCCTGTGAAAGGTAAAAGTCGGACACAGCAATCGATTATTTCTCGCC TGTGTGAAATTACTGTGAATATTGTAAATATATATATATATATATATATATCTGTATAGAACAGCCTCGGAGG CGGCATGGACCCAGCGTAGATCATGCTGGATTTGTACTGCCGGAATTC Rispondi alle seguenti domande: a. b. c. d. e. f. Da quale organismo proviene probabilmente? Che proteina è? Qual è il suo accession number nel database refseq_protein? Che proporzione della nostra proteina ha trovato allineamento con la prima hit di BLAST? Quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che mostra la prima hit di BLAST? Noti qualche cosa di strano visualizzando l’allineamento Query/Sbjct? 2) Cerca il termine CFTR[gene] (copia tutti i caratteri, anche gene nelle quadre) nel database Protein dell’NCBI e usando i filtri a sinistra nella pagina cerca le sequenze solo umane (Human). Quante sono? Ora applica un nuovo filtro: Refseq. Concentrati sulla proteina e non sulla isoforma. Rispondi alle seguenti domande: a. Che proteina è? b. Da quanti aminoacidi è composta? c. Il gene che la codifica si trova su quale cromosoma e su che braccio? Segui il link a dbSNP (database dell’NCBI dove sono elencati ed annotati gli SNP, cioè i Single Nucleotide Polymorphisms. Usando questo link avremo dati solo di human variation on GRCh38) a. Quanti sono gli SNP in tutto? b. Trova il primo SNP non sinonimo e di in che posizione si trova nella proteina, quale base del codone è stata sostituita, quale cambiamento aminoacidico comporta Torna alla pagina precedente a dbSNA e cerca il link al database OMIM dell’NCBI. Domande Che malattia è collegata a mutazioni a questo gene? E’ una malattia rara o comune? Riesci a capire da OMIM qual è la mutazione più comunemente associata alla patologia? Di che tipo di cambiamento del DNA si tratta? 3) Trova il tumor suppressor pp32r1 gene (accession number AF008216) nel database nucleotide dell’NCBI. a. Qual è l’organismo e il cromosoma da cui la sequenza è stata ottenuta? b. A che nucleotide inizia la traduzione? c. Quanti aminoacidi ci sono nella proteina? 4) Cerca in nucleotide dell’NCBI la sequenza che corrisponde all’accession number AY545216. Di che gene si tratta? Scarica la sequenza in formato FASTA di questo gene umano per trovare il suo ortologo nello scimpanzè attraverso BLAT dello UCSC genome browser. a. Il gene si trova sullo stesso cromosoma nelle due specie? b. che percentuale di identità si osserva tra le due sequenze? 5) Usando NCBI Genome trova il genoma di Human immunodeficiency virus 2 (HIV-2). a. quanti geni sono presenti? b. quante proteine? c. come descriveresti il genoma di questo virus? 6) Usando l’NCBI genome database trova il genoma di Aquifex aeolicus VF5 (senza plasmidi). a. Qual è il contenuto in GC del suo cromosoma? b. Quel è la lunghezza del genoma? 7) La sequenza di DNA che segue è associata ad un polimorfismo umano legato ad una patologia: GTTCACACTCTCTGCACTACCTCTTCATGGGTGCCTCAGAGCAGGACCTTGGTCTTTCCTTGTTTGAAGCTTTGGGCTAC GTGGATGACCAGCTGTTCGTGTTCTATGATGATGAGAGTCGCCGTGTGGAGCCCCGAACTCCATGGGTTTCCAGTAGA ATTTCAAGCCAGATGTGGCTGCAGCTGAGTCAGAGTCTGAAAGGGTGGGATCACATGTTCACTGTTGACTTCTGGACT ATTATGGAAAATCACAACCACAGCAAGG a. Usa Blast contro il database refseq del genoma umano per identificare il gene. Che gene è? b. Su quale cromosoma si trova? c. quali sono gli alleli?