Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli Mercoledì 17 dicembre 2014 Esercizi ricerche in banche dati 1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri, è contenuta una putative sequenza di DNA di dinosauro. Usa Nucleotide BLAST contro la banca dati refseq_genomic per identificare la fonte di questa sequenza. A quale organism questo “dinosauro” è più vicino? >DinoDNA from JURASSIC PARK p. 103 nt 1-910 CCGGCTGGAAAATGCCTGCGGATATCCGCTTACAGCTGCGCGATAACACACTGATACTCAGTGATAACGGCGG CAGAAGCCTGTATTTTGAGCACCTGTTTCCCGGTGAGGACGGTTACAGCCGCAGCGAGTCACTCTGGCTGGTG CGCGGCGGCGTGGCGAAACTGGATGAAGGTCACCGGCTGGCCGCACTCTGGCAGGCGCTGCCGGAAGAACTCC GCTTAAGTCCGCATCGTTATCTGGCGACAAACAGTCCGCAGGGGCCGTGGTGGCTGCTCGGCTGGTGTGAGCG GGTGCCGGAAGCGGATGAGGTGCTGCCTGCGCCGCTGCCGCCGTACCGGGTACTGACCGGGCTGGTGGACCGC TTCGGGCGCACACAGACGTTCCACCGCGAAGCCGCCGGTGAATTCAGCGGCGAAATCACCGGCGTGACGGATG GTGCCGGGCGTCACTTCCGGCTGGTACTGACCACGCAGGCGCAGCGGGCAGAAGAAGCCCGGCAGCAGGCCAT TTCCGGCGGGACGGAACCGTCCGCTTTTCCTGATACCCTGCCGGGTTACACCGAATATGGCCGGGACAACGGC ATCCGTCTGTCTGCCGTGTGGCTGACGCACGACCCGGAATACCCGGAGAATTTACCTGCCGCGCCGCTGGTGC GCTATGGCTGGACGCCGCGCGGCGAACTGGCGGTGGTGTATGACCGTAGTGGCAAACAGGTGCGCAGCTTTAC TTACGATGATAAATACCGGGGCCGGATGGTGGCGCACCGTCACACGGGCCGGCCGGAAATCCGTTACCGTTAC GACAGCGACGGGCGGGTGACAGAACAGCTAAACCCGGCAGGCTTAAGCTACACGTATCAGTATGAGAAAGACC GCATCACCATCACCGACAGCCTGAACCGCCGTGA Risposta: Escherichia coli Lo scienziato dell’NCBI Mark Boguski notò questa ovvia "contaminazione" e fornì a Crichton una sequenza migliore per il sequel The Lost World. Identifica la fonte più probabile di questa sequenza usando translating BLAST (blastx) e nr database. >DinoDNA from THE LOST WORLD p. 135 GAATTCCGGAAGCGAGCAAGAGATAAGTCCTGGCATCAGATACAGTTGGAGATAAGGACGGACGTGTGGCAGC TCCCGCAGAGGATTCACTGGAAGTGCATTACCTATCCCATGGGAGCCATGGAGTTCGTGGCGCTGGGGGGGCC GGATGCGGGCTCCCCCACTCCGTTCCCTGATGAAGCCGGAGCCTTCCTGGGGCTGGGGGGGGGCGAGAGGACG GAGGCGGGGGGGCTGCTGGCCTCCTACCCCCCCTCAGGCCGCGTGTCCCTGGTGCCGTGGGCAGACACGGGTA CTTTGGGGACCCCCCAGTGGGTGCCGCCCGCCACCCAAATGGAGCCCCCCCACTACCTGGAGCTGCTGCAACC CCCCCGGGGCAGCCCCCCCCATCCCTCCTCCGGGCCCCTACTGCCACTCAGCAGCGGGCCCCCACCCTGCGAG GCCCGTGAGTGCGTCATGGCCAGGAAGAACTGCGGAGCGACGGCAACGCCGCTGTGGCGCCGGGACGGCACCG GGCATTACCTGTGCAACTGGGCCTCAGCCTGCGGGCTCTACCACCGCCTCAACGGCCAGAACCGCCCGCTCAT CCGCCCCAAAAAGCGCCTGCTGGTGAGTAAGCGCGCAGGCACAGTGTGCAGCCACGAGCGTGAAAACTGCCAG ACATCCACCACCACTCTGTGGCGTCGCAGCCCCATGGGGGACCCCGTCTGCAACAACATTCACGCCTGCGGCC TCTACTACAAACTGCACCAAGTGAACCGCCCCCTCACGATGCGCAAAGACGGAATCCAAACCCGAAACCGCAA AGTTTCCTCCAAGGGTAAAAAGCGGCGCCCCCCGGGGGGGGGAAACCCCTCCGCCACCGCGGGAGGGGGCGCT CCTATGGGGGGAGGGGGGGACCCCTCTATGCCCCCCCCGCCGCCCCCCCCGGCCGCCGCCCCCCCTCAAAGCG ACGCTCTGTACGCTCTCGGCCCCGTGGTCCTTTCGGGCCATTTTCTGCCCTTTGGAAACTCCGGAGGGTTTTT TGGGGGGGGGGCGGGGGGTTACACGGCCCCCCCGGGGCTGAGCCCGCAGATTTAAATAATAACTCTGACGTGG GCAAGTGGGCCTTGCTGAGAAGACAGTGTAACATAATAATTTGCACCTCGGCAATTGCAGAGGGTCGATCTCC ACTTTGGACACAACAGGGCTACTCGGTAGGACCAGATAAGCACTTTGCTCCCTGGACTGAAAAAGAAAGGATT TATCTGTTTGCTTCTTGCTGACAAATCCCTGTGAAAGGTAAAAGTCGGACACAGCAATCGATTATTTCTCGCC TGTGTGAAATTACTGTGAATATTGTAAATATATATATATATATATATATATCTGTATAGAACAGCCTCGGAGG CGGCATGGACCCAGCGTAGATCATGCTGGATTTGTACTGCCGGAATTC Rispondi alle seguenti domande: a. Da quale organismo proviene probabilmente? Gallus gallus b. Che proteina è? erythroid transcription factor c. Qual è il suo accession number nel database refseq_protein? NP_990795.1 d. Che proporzione della nostra proteina ha trovato allineamento con la prima hit di BLAST? 66% e. Quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che mostra la prima hit di BLAST? 3e-113 f. Noti qualche cosa di strano visualizzando l’allineamento Query/Sbjct? Due cose. Primo: ci sono delle lettere minuscole in grigio, sono le regioni a bassa complessità (low complexity) per cui abbiamo filtrato (se l’abbiamo fatto!) che sono regioni con ripetizioni che possono allinearsi per caso più facilmente di altre. La seconda cosa è la frease MARK WAS HERE NHI composta dagli aminoacidi della Query che sembrano inserzioni rispetto alla Sbjct (chiaro esempio di nerd joke!) 2) Cerca il termine CFTR[gene] (copia tutti i caratteri, anche gene nelle quadre) nel database Protein dell’NCBI e usando i filtri a sinistra nella pagina cerca le sequenze solo umane (Human). Quante sono? Ora applica un nuovo filtro: Refseq. Concentrati sulla proteina e non sulla isoforma. Rispondi alle seguenti domande: a. Che proteina è? cystic fibrosis transmembrane conductance regulator b. Da quanti aminoacidi è composta? 1480 c. Il gene che la codifica si trova su quale cromosoma e su che braccio? Cromosoma 7 braccio q Segui il link a dbSNP (database dell’NCBI dove sono elencati ed annotati gli SNP, cioè i Single Nucleotide Polymorphisms. Usando questo link avremo dati solo di human variation on GRCh38) a. Quanti sono gli SNP in tutto? 6160 b. Trova il primo SNP non sinonimo e di in che posizione si trova nella proteina, quale base del codone è stata sostituita, quale cambiamento aminoacidico comporta rs1800072: posizione 11 nella proteina, G>A in prima posizione del codone che comporta Val > Ile Torna alla pagina precedente a dbSNA e cerca il link al database OMIM dell’NCBI. Domande Che malattia è collegata a mutazioni a questo gene? LA FIBROSI CISTICA. E’ una malattia rara o comune? RARA Riesci a capire da OMIM qual è la mutazione più comunemente associata alla patologia? PHE508DEL Di che tipo di cambiamento del DNA si tratta? È UNA DELEZIONE DI 3 bp, CTT 3) Trova il tumor suppressor pp32r1 gene (accession number AF008216) nel database nucleotide dell’NCBI. a. Qual è l’organismo e il cromosoma da cui la sequenza è stata ottenuta? Homo Sapiens; 4 b. A che nucleotide inizia la traduzione? 4453 c. Quanti aminoacidi ci sono nella proteina? 234 4) Cerca in nucleotide dell’NCBI la sequenza che corrisponde all’accession number AY545216. Di che gene si tratta? Scarica la sequenza in formato FASTA di questo gene umano per trovare il suo ortologo nello scimpanzè attraverso BLAT dello UCSC genome browser. a. Il gene si trova sullo stesso cromosoma nelle due specie? Si, 22; 22 b. che percentuale di identità si osserva tra le due sequenze? 98.2% 5) Usando NCBI Genome trova il genoma di Human immunodeficiency virus 2 (HIV-2). a. quanti geni sono presenti? 8 b. quante proteine? 9 c. come descriveresti il genoma di questo virus? 6) Usando l’NCBI genome database trova il genoma di Aquifex aeolicus VF5 (senza plasmidi). a. Qual è il contenuto in GC del suo cromosoma? 43% b. Quel è la lunghezza del genoma? 1,551,335 bp 7) La sequenza di DNA che segue è associata ad un polimorfismo umano legato ad una patologia: GTTCACACTCTCTGCACTACCTCTTCATGGGTGCCTCAGAGCAGGACCTTGGTCTTTCCTTGTTTGAAGCTTTGGGCTAC GTGGATGACCAGCTGTTCGTGTTCTATGATGATGAGAGTCGCCGTGTGGAGCCCCGAACTCCATGGGTTTCCAGTAGA ATTTCAAGCCAGATGTGGCTGCAGCTGAGTCAGAGTCTGAAAGGGTGGGATCACATGTTCACTGTTGACTTCTGGACT ATTATGGAAAATCACAACCACAGCAAGG a. Usa Blast contro il database refseq del genoma umano per identificare il gene. Che gene è? gene HFE b. Su quale cromosoma si trova? 6 c. quali sono gli alleli? G/C