Esercizi banche dati_soluzioni

Corso di Bioinformatica e analisi dei genomi, docente Silvia Fuselli
Mercoledì 17 dicembre 2014
Esercizi ricerche in banche dati
1) Nel romanzo fantasy Jurassic Park di Michael Crichton sulla possibilità di clonare i dinosauri, è contenuta
una putative sequenza di DNA di dinosauro. Usa Nucleotide BLAST contro la banca dati refseq_genomic
per identificare la fonte di questa sequenza. A quale organism questo “dinosauro” è più vicino?
>DinoDNA from JURASSIC PARK p. 103 nt 1-910
CCGGCTGGAAAATGCCTGCGGATATCCGCTTACAGCTGCGCGATAACACACTGATACTCAGTGATAACGGCGG
CAGAAGCCTGTATTTTGAGCACCTGTTTCCCGGTGAGGACGGTTACAGCCGCAGCGAGTCACTCTGGCTGGTG
CGCGGCGGCGTGGCGAAACTGGATGAAGGTCACCGGCTGGCCGCACTCTGGCAGGCGCTGCCGGAAGAACTCC
GCTTAAGTCCGCATCGTTATCTGGCGACAAACAGTCCGCAGGGGCCGTGGTGGCTGCTCGGCTGGTGTGAGCG
GGTGCCGGAAGCGGATGAGGTGCTGCCTGCGCCGCTGCCGCCGTACCGGGTACTGACCGGGCTGGTGGACCGC
TTCGGGCGCACACAGACGTTCCACCGCGAAGCCGCCGGTGAATTCAGCGGCGAAATCACCGGCGTGACGGATG
GTGCCGGGCGTCACTTCCGGCTGGTACTGACCACGCAGGCGCAGCGGGCAGAAGAAGCCCGGCAGCAGGCCAT
TTCCGGCGGGACGGAACCGTCCGCTTTTCCTGATACCCTGCCGGGTTACACCGAATATGGCCGGGACAACGGC
ATCCGTCTGTCTGCCGTGTGGCTGACGCACGACCCGGAATACCCGGAGAATTTACCTGCCGCGCCGCTGGTGC
GCTATGGCTGGACGCCGCGCGGCGAACTGGCGGTGGTGTATGACCGTAGTGGCAAACAGGTGCGCAGCTTTAC
TTACGATGATAAATACCGGGGCCGGATGGTGGCGCACCGTCACACGGGCCGGCCGGAAATCCGTTACCGTTAC
GACAGCGACGGGCGGGTGACAGAACAGCTAAACCCGGCAGGCTTAAGCTACACGTATCAGTATGAGAAAGACC
GCATCACCATCACCGACAGCCTGAACCGCCGTGA
Risposta: Escherichia coli
Lo scienziato dell’NCBI Mark Boguski notò questa ovvia "contaminazione" e fornì a Crichton una sequenza
migliore per il sequel The Lost World. Identifica la fonte più probabile di questa sequenza usando
translating BLAST (blastx) e nr database.
>DinoDNA from THE LOST WORLD p. 135
GAATTCCGGAAGCGAGCAAGAGATAAGTCCTGGCATCAGATACAGTTGGAGATAAGGACGGACGTGTGGCAGC
TCCCGCAGAGGATTCACTGGAAGTGCATTACCTATCCCATGGGAGCCATGGAGTTCGTGGCGCTGGGGGGGCC
GGATGCGGGCTCCCCCACTCCGTTCCCTGATGAAGCCGGAGCCTTCCTGGGGCTGGGGGGGGGCGAGAGGACG
GAGGCGGGGGGGCTGCTGGCCTCCTACCCCCCCTCAGGCCGCGTGTCCCTGGTGCCGTGGGCAGACACGGGTA
CTTTGGGGACCCCCCAGTGGGTGCCGCCCGCCACCCAAATGGAGCCCCCCCACTACCTGGAGCTGCTGCAACC
CCCCCGGGGCAGCCCCCCCCATCCCTCCTCCGGGCCCCTACTGCCACTCAGCAGCGGGCCCCCACCCTGCGAG
GCCCGTGAGTGCGTCATGGCCAGGAAGAACTGCGGAGCGACGGCAACGCCGCTGTGGCGCCGGGACGGCACCG
GGCATTACCTGTGCAACTGGGCCTCAGCCTGCGGGCTCTACCACCGCCTCAACGGCCAGAACCGCCCGCTCAT
CCGCCCCAAAAAGCGCCTGCTGGTGAGTAAGCGCGCAGGCACAGTGTGCAGCCACGAGCGTGAAAACTGCCAG
ACATCCACCACCACTCTGTGGCGTCGCAGCCCCATGGGGGACCCCGTCTGCAACAACATTCACGCCTGCGGCC
TCTACTACAAACTGCACCAAGTGAACCGCCCCCTCACGATGCGCAAAGACGGAATCCAAACCCGAAACCGCAA
AGTTTCCTCCAAGGGTAAAAAGCGGCGCCCCCCGGGGGGGGGAAACCCCTCCGCCACCGCGGGAGGGGGCGCT
CCTATGGGGGGAGGGGGGGACCCCTCTATGCCCCCCCCGCCGCCCCCCCCGGCCGCCGCCCCCCCTCAAAGCG
ACGCTCTGTACGCTCTCGGCCCCGTGGTCCTTTCGGGCCATTTTCTGCCCTTTGGAAACTCCGGAGGGTTTTT
TGGGGGGGGGGCGGGGGGTTACACGGCCCCCCCGGGGCTGAGCCCGCAGATTTAAATAATAACTCTGACGTGG
GCAAGTGGGCCTTGCTGAGAAGACAGTGTAACATAATAATTTGCACCTCGGCAATTGCAGAGGGTCGATCTCC
ACTTTGGACACAACAGGGCTACTCGGTAGGACCAGATAAGCACTTTGCTCCCTGGACTGAAAAAGAAAGGATT
TATCTGTTTGCTTCTTGCTGACAAATCCCTGTGAAAGGTAAAAGTCGGACACAGCAATCGATTATTTCTCGCC
TGTGTGAAATTACTGTGAATATTGTAAATATATATATATATATATATATATCTGTATAGAACAGCCTCGGAGG
CGGCATGGACCCAGCGTAGATCATGCTGGATTTGTACTGCCGGAATTC
Rispondi alle seguenti domande:
a. Da quale organismo proviene probabilmente?
Gallus gallus
b. Che proteina è?
erythroid transcription factor
c. Qual è il suo accession number nel database refseq_protein?
NP_990795.1
d. Che proporzione della nostra proteina ha trovato allineamento con la prima hit di BLAST?
66%
e. Quante sequenze mi aspetto che abbiano per caso uno score maggiore o uguale a quello che
mostra la prima hit di BLAST?
3e-113
f. Noti qualche cosa di strano visualizzando l’allineamento Query/Sbjct?
Due cose. Primo: ci sono delle lettere minuscole in grigio, sono le regioni a bassa
complessità (low complexity) per cui abbiamo filtrato (se l’abbiamo fatto!) che sono regioni
con ripetizioni che possono allinearsi per caso più facilmente di altre. La seconda cosa è la
frease MARK WAS HERE NHI composta dagli aminoacidi della Query che sembrano
inserzioni rispetto alla Sbjct (chiaro esempio di nerd joke!)
2) Cerca il termine CFTR[gene] (copia tutti i caratteri, anche gene nelle quadre) nel database Protein
dell’NCBI e usando i filtri a sinistra nella pagina cerca le sequenze solo umane (Human). Quante sono? Ora
applica un nuovo filtro: Refseq. Concentrati sulla proteina e non sulla isoforma.
Rispondi alle seguenti domande:
a. Che proteina è?
cystic fibrosis transmembrane conductance regulator
b. Da quanti aminoacidi è composta?
1480
c. Il gene che la codifica si trova su quale cromosoma e su che braccio?
Cromosoma 7 braccio q
Segui il link a dbSNP (database dell’NCBI dove sono elencati ed annotati gli SNP, cioè i Single Nucleotide
Polymorphisms. Usando questo link avremo dati solo di human variation on GRCh38)
a. Quanti sono gli SNP in tutto?
6160
b. Trova il primo SNP non sinonimo e di in che posizione si trova nella proteina, quale base del
codone è stata sostituita, quale cambiamento aminoacidico comporta
rs1800072: posizione 11 nella proteina, G>A in prima posizione del codone che comporta
Val > Ile
Torna alla pagina precedente a dbSNA e cerca il link al database OMIM dell’NCBI.
Domande
Che malattia è collegata a mutazioni a questo gene? LA FIBROSI CISTICA.
E’ una malattia rara o comune? RARA
Riesci a capire da OMIM qual è la mutazione più comunemente associata alla patologia? PHE508DEL
Di che tipo di cambiamento del DNA si tratta? È UNA DELEZIONE DI 3 bp, CTT
3) Trova il tumor suppressor pp32r1 gene (accession number AF008216) nel database nucleotide dell’NCBI.
a. Qual è l’organismo e il cromosoma da cui la sequenza è stata ottenuta? Homo Sapiens; 4
b. A che nucleotide inizia la traduzione? 4453
c. Quanti aminoacidi ci sono nella proteina? 234
4) Cerca in nucleotide dell’NCBI la sequenza che corrisponde all’accession number AY545216. Di che gene si
tratta? Scarica la sequenza in formato FASTA di questo gene umano per trovare il suo ortologo nello
scimpanzè attraverso BLAT dello UCSC genome browser.
a. Il gene si trova sullo stesso cromosoma nelle due specie? Si, 22; 22
b. che percentuale di identità si osserva tra le due sequenze? 98.2%
5) Usando NCBI Genome trova il genoma di Human immunodeficiency virus 2 (HIV-2).
a. quanti geni sono presenti? 8
b. quante proteine? 9
c. come descriveresti il genoma di questo virus?
6) Usando l’NCBI genome database trova il genoma di Aquifex aeolicus VF5 (senza plasmidi).
a. Qual è il contenuto in GC del suo cromosoma? 43%
b. Quel è la lunghezza del genoma? 1,551,335 bp
7) La sequenza di DNA che segue è associata ad un polimorfismo umano legato ad una patologia:
GTTCACACTCTCTGCACTACCTCTTCATGGGTGCCTCAGAGCAGGACCTTGGTCTTTCCTTGTTTGAAGCTTTGGGCTAC
GTGGATGACCAGCTGTTCGTGTTCTATGATGATGAGAGTCGCCGTGTGGAGCCCCGAACTCCATGGGTTTCCAGTAGA
ATTTCAAGCCAGATGTGGCTGCAGCTGAGTCAGAGTCTGAAAGGGTGGGATCACATGTTCACTGTTGACTTCTGGACT
ATTATGGAAAATCACAACCACAGCAAGG
a. Usa Blast contro il database refseq del genoma umano per identificare il gene. Che gene è? gene
HFE
b. Su quale cromosoma si trova? 6
c. quali sono gli alleli? G/C