Diapositiva 1 - Corso di Biologia Molecolare 2

Principali Database biologici
Acidi nucleici:
-Sequenze DNA genomico
-Sequenze di trascritti (mRNA)
La maggior quantità di dati biologici
presenti nei database è rappresentata
da sequenze di acidi nucleici
-Sequenze EST (corte sequenze di trascritti)
Proteine:
-Sequenze delle proteine ottenute in modo diretto
(degradazione di Edman)
-Sequenze proteiche ricavate dalle sequenze
nucleotidiche (traduzione)
-Studi di espressione proteica (gel bidimensionale e
spettrometria di massa)
-Cristallografia e determinazione delle strutture
secondarie e terziarie
Noi ci occuperemo soprattutto delle sequenze nucleotidiche ed in
parte delle sequenze proteiche
1
Sequenze di acidi nucleici
Alla fine degli anni 70’ Maxam-Gilbert e Sanger hanno ideato due differenti tecniche per il
sequenziamento del DNA basato sulla sintesi del DNA in vitro in presenza di opportuni
terminatori marcati.
Le sequenze che si ricavano hanno la direzione 5’  3’ (domanda: lo stampo per la
sintesi di queste sequenze che direzione avrà ?)
Oggi sono disponibili delle nuovissime tecniche con le quali è possibile ottenere più di mezzo milione di sequenze
in un singolo esperimento (queste nuove tecniche produrranno una nuova rivoluzione nella ricerca genomica)
ATTENZIONE: Con le attuali tecniche di sequenziamento si ottengono solo corte sequenze
(inferiori a 1000 bp): all’aumentare della lunghezza si perde in risoluzione ed in qualità. Le basi
non risolte vengono indicate con ‘n’
2
Esempio: Le sequenze lunghe hanno una scarsa qualità al 3’
>CF5530xx.0
Ggagcccggacgtccaagagatgtcttctgggagccactgggcaattgccagggctccaggaagggctctggctcaggt
Tgcagacagctgagaaaagatggccctgtcagccaccctctctcagtctgaaacatccaacatccccagaaggcttagc
-----------------ecc. ecc. ---------------------Tgaagtagaggggccttcaaactactttatactagtgatagtttgagttaggtaagcatnttaaagctgnntggtgat
Aaagaaggcagcttangattctgtggttgggaaacaagtgtagtccgcttccccttttttangaaagccctgttaaaa
tangctnatttgnnaacat
Frammenti di un
cromatogramma
(output del sequenziamento
ottenuto col metodo Sanger)
Se si vogliono conoscere lunghe sequenze di DNA, è necessario sequenziare
frammenti del DNA e poi assemblare le corte sequenze in modo che si
sovrappongano tra loro
Sequenze parziali
Sequenza assemblata
3
Come si ottengono le sequenze di DNA
Il DNA viene frammentato e poi amplificato con tecniche di biologia molecolare (es.
inserimento dei frammenti all’interno di cloni batterici che replicandosi riproducono anche
il DNA esogeno). I differenti frammenti vengono poi sequenziati.
Solo con l’assemblaggio delle sequenze ottenute da questi frammenti si ottengono le
lunghe sequenze di DNA presenti nei database.
(Ricordate che, se nei DB trovate record contenenti lunghi sequenze (maggiori di un
migliaio di basi) , queste sicuramente sono il frutto di un assemblaggio di corte sequenze.)
Come si ottengono le sequenze di mRNA
L’mRNA (meno stabile del DNA) deve essere preventivamente trasformato in cDNA (da
una molecola di mRNA si ottiene prima una copia complementare di DNA (per questo
si chiama cDNA) a singolo filamento che poi viene resa a doppia elica. Si procede poi
come per il DNA
Nota: l’insieme dei batteri contenenti gli inserti di DNA esogeno viene detto ‘libreria di
DNA’ (o libreria di cDNA)
4
Perché si sequenzia anche l’mRNA (non è sufficiente conoscere solo le sequenze
di DNA) ?
Risposte:
- Per conoscere le sequenze codificanti (negli eucarioti superiori, solo il 3% del genoma è
codificante). Si possono così individuare le sequenze geniche e distinguere gli esoni dagli
introni.
- Per conoscere le sequenze che fiancheggiano le regioni codificanti e quindi le regolazioni
della trascrizione dei geni.
- Per conoscere la sequenza proteica (traducendo la sequenza nucleotidica) e studiare quindi la
relativa proteina.
- Per conoscere varianti (splicing alternativi) dello stesso gene e quindi probabili funzioni
differenti
- Sequenziando mRNA in tessuti differenti o momenti differenti si può conoscere
l’espressione genica: determinare quando (sviluppo o momento particolare) e dove (quale
tessuto) un particolare gene viene espresso
L’insieme degli mRNA (RNA messaggeri o trascritti) espressi in un
organismo viene definito trascrittoma
5
Importanze delle Sequenze EST (Expressed Sequence Tag)
Per individuare un trascritto non serve conoscere tutta la sua sequenza, ma è sufficiente
identificarne una parte.
Da questo presupposto sono stati sviluppati progetti di sequenziamento di corte sequenze di
cDNA chiamate EST (Expressed Sequence Tag) che hanno permesso di tracciare
numerosi profili trascrizionali (espressione genica di un particolare tessuto o in un
particolare momento o in presenza di una particolare malattia genetica).
Attualmente nei database esistono più di 30 milioni di sequenze di EST di cui circa 8 milioni
relative a Homo sapiens (human) e più di 4 milioni relative a topo
3’UTR
Seq. codificante
5’UTR
ATG
EST 5’
TAA
polyA
AAAAAAAAA
EST 3’
6
I database primari
Cosa sono i database primari?
Sono i contenitori di tutte le sequenze prodotte
nel mondo e rese disponibili alla comunità
scientifica.
Memorizzano essenzialmente le sequenze e poche
altra informazioni generiche correlate (laboratorio
dove è avvenuto il sequenziamento, data, specie,
descrizione …)
EMBL datalibrary
 GenBank
 DDBJ

Europa
USA
Giappone
I tre database si aggiornano quotidianamente scambiandosi i dati ricevuti
durante la giornata, in modo che sia sufficiente interrogare solo uno dei tre.
7
EBI European Bioinformatics Institute
(Hinxton – Cambridge, UK)
http://www.ebi.ac.uk/embl/
8
NCBI
http://www.ncbi.nih.gov/Genbank/index.html
9
DDBJ
http://www.ddbj.nig.ac.jp/
10
Banche Dati derivate
Le banche dati primarie contengono tutte le sequenze conosciute, di tutti gli
organismi, genomiche di mRNA ecc., per rendere organica la ricerca sono state
costruite delle banche dati derivate che raggruppano solo dati relativi a specifici
argomenti.
Esempi:
- Database sequenze genomiche: GDB (uomo) , MGI (topo), SGD (lievito)
- Database di geni e trascritti: UniGene, LocusLink, dbEST, ecc.
- Inoltre database dei fattori di trascrizione, dbSNP (di polimorfismi) e molti altri.
Esistono poi dei database integrati che raggruppano i dati provenienti da differenti
database fornendo informazioni particolareggiate di argomenti specifici
Allegato alla prima esercitazione troverete un elenco (non completo) di
questi database
11
Sistemi di interrogazione alle banche dati
(sistemi di "retrieval“)
Esistono dei sistemi integrati che permettono di interrogare, attraverso il web, in
modo semplice ed intuitivo le banche dati biologiche. I tre sistemi principali
sono:
 ENTREZ → associato a GENBANK
 SRS
→ associato a EMBL
 DBGET
→ associato a DDBJ
I sistemi integrati forniscono una interfaccia WEB omogenea a tutti i database
gestiti dal sistema.
FORM DI
QUERY
1
2
SISTEMA
INTEGRATO
PAGINA DI
RISPOSTA
5
PC UTENTE RETE
4
DB1
3
…
DBn
COMPUTER „SERVER“ REMOTO
12
SRS è un sistema aperto, può essere installato su
calcolatori differenti (server) e può integrare
banche dati strutturate su altri server SRS o altre
banche dati previa strutturazione o indicizzazione
nel sistema SRS.
http://srs.ebi.ac.uk/
Come SRS, anche ENTREZ è un sistema
disponibile via web per la ricerca e l’estrazione dei
dati da banche dati di sequenze nucleotidiche,
proteiche, dalla banca dati bibliografica
MEDLINE, dalla banca dati delle malattie
mendeliane OMIM, e da ogni banca dati
sviluppata dall’NCBI.
E’ un sistema chiuso e non è possibile
ottenere il software che gestisce il sistema.

http://www.ncbi.nlm.nih.gov/Entrez/index.html
13
Esistono molti tipi di siti e/o database biologici, in questo corso ci soffermeremo solo
su alcuni
Qui sono riportati i link di Entrez (NCBI) , all’EBI esistono siti corrispondenti
14
Qui invece sono riportati i link presenti all’ABI con EB-eye la semplice interfaccia grafica
All’EBI è comunque possibile accedere direttamente al sistema SRS per
formulare query complesse
15
NUCLEOTIDE
http://www.ncbi.nlm.nih.gov/nucleotide/
(versione 2012)
Da qui si possono
scaricare interi database
di sequenze in formato
flat-file testuale (via
FTP)
Osservate che le ‘query’, sono molto simili a quelle di
‘PubMed’. In generale, l’NCBI sta adottando uno
stesso metodo di immissioni dati per le ricerche nei
propri database
16
Advanced Search
(versione 2012)
Operatori Multirighe
Help menù
(dal 2012)
(dal 2012)
17
18
Vedere ‘Sample GenBank Record’ per un esempio completo di record nucleotidico
(file allegato alle lezioni Sample GenBamk Record.pdf oppure al sito
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html )
Attenzione che il nome dei campi dei record ottenuti dall’EMBL possono essere
rappresentati in modo differente. (vedi esempio qui sotto)
19
In questo corso ci limiteremo ad approfondire i contenuti solo di particolari campi
dei alcuni database biologici. Fra parentesi gli ‘headers’ (a due caratteri) dei
corrispondenti campi utilizzati dall’EMBL
ACCESSION (AC): codice identificativo del record.
SOURCE (OS): abbreviazione del nome dell’organismo (specificato poi meglio qui sotto).
-ORGANISM (OC): The formal scientific name for the source organism (genus and species, where appropriate)
and its lineage, based on the phylogenetic classification scheme used in the NCBI Taxonomy Database.
REFERENCE (RN): riferimenti bibliografici (nei relativi sottocampi).
FEATURES (FT): Regioni o siti della sequenza considerati interessanti. Descritti in più ‘sottocampi’.
I più importanti:
- source: in un record, può essere riportata una lunga sequenza. E’ possibile scrivere delle annotazioni a parti
specifiche della sequenza facendo riferimento alla localizzazione seguita da una o più righe che iniziano con ‘/’
- gene: dati del relativo gene (se esiste ed è conosciuto): inizio e fine della sequenza, poi negli altri
‘sottocampi’, nome del gene ed eventuali link (db_xref).
- 5’UTR: la sequenza 5’UTR (inizio e fine).
- CDS: la sequenza codificante (inizio e fine) e poi negli altri sottocampi link al DB (protein_ID) (ad
altri DB (db_xref), da ricordare link ad OMIM: /db_xref=‘MIM xx’ , traduzione (se conosciuta),
- 3’UTR: la sequenza 3’UTR (inizio e fine).
ORIGIN (SQ) : la sequenza scritta come stringa di caratteri.
20
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
PUBMED
REFERENCE
AUTHORS
TITLE
JOURNAL
PUBMED
REFERENCE
AUTHORS
TITLE
JOURNAL
MMAJ3854
949 bp
mRNA
linear
ROD 19-MAR-2001
Mus musculus telethonin complete cDNA.
AJ223854
AJ223854.1 GI:3115294
telethonin.
Mus musculus (house mouse)
Mus musculus
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia;
Sciurognathi; Muroidea; Muridae; Murinae; Mus.
1
Valle,G., Faulkner,G., De Antoni,A., Pacchioni,B., Pallavicini,A.,
Pandolfo,D., Tiso,N., Toppo,S., Trevisan,S. and Lanfranchi,G.
Telethonin, a novel sarcomeric protein of heart and skeletal muscle
FEBS Lett. 415 (2), 163-168 (1997)
9350988
2
Moreira,E.S., Wiltshire,T.J., Faulkner,G., Nilforoushan,A.,
Vainzof,M., Suzuki,O.T., Valle,G., Reeves,R., Zatz,M.,
Passos-Bueno,M.R. and Jenne,D.E.
Limb-girdle muscular dystrophy type 2G is caused by mutations in
the gene encoding the sarcomeric protein telethonin
Nat. Genet. 24 (2), 163-166 (2000)
10655062
3 (bases 1 to 949)
Ievolella,C.
Direct Submission
Submitted (10-FEB-1998) Ievolella C., CRIBI Biotechnology Centre,
Universita' di Padova, viale G.Colombo 3, 35121, ITALY
21
Cross-Ref.
Traduzione
Struttura delle FEATURES o FT (Feature Table)
(Regioni o siti della sequenza considerati interessanti):
I campi ‘cerchiati’ sono importanti;
necessario ricordare il loro significato
Per questo, vedere nelle px diapositive
Possono essere riportate più regioni particolari. Ognuna
è caratterizzata dalla definizione (es. source, gene,
5’UTR ecc.) seguita dalla localizzazione (location) punto
di inizio e di fine della regione, seguite da una o più
righe che iniziano con ‘/’ e che riportano note
caratteristiche di tale regione (Qualifiers).
22
Se nella sequenza esistono regioni geniche, allora vengono riportati anche i dati
relativi al ‘gene’, alle regioni codificanti (CDS) e alla sequenza proteica
La regione della sequenza identificata come gene (inizio- fine)
(in questo caso corrisponde alla sequenza completa)
CDS (coding sequence):
la sequenza codificante inizia in 15 e finisce in 518
GO (GENE ONTOLOGY)
http://www.geneontology.org/
Link al DB delle proteine
Link ad OMIM (database di malattie genetiche
Sequenza Proteina
23
Altri dettagli delle ‘Features’
Source: in un record può essere riportata una lunga
sequenza. E’ possibile scrivere delle annotazioni a parti
specifiche della sequenza facendo riferimento alla
localizzazione seguita da una o più righe che iniziano con ‘/’
con riportate particolari annotazioni specifiche.
5’ UTR: Qui è riporta (se si
conosce) la localizzazione della
sequenza NON codificante posta
a monte dell’mRNA. In questo
caso 1-36
CDS (coding sequence):
la sequenza codificante inizia in 37e finisce in 540
3’ UTR: Qui è riporta (se si
conosce) la localizzazione della
sequenza NON codificante posta
a valle dell’mRNA
24
IL FORMATO “FASTA”


Spesso i programmi che effettuano analisi bioinformatiche sulle sequenze richiedono
che esse vengano date come input in questo formato particolare:
FASTA è un formato per la descrizione di una sequenza “grezza”. Consiste
essenzialmente in una parte iniziale di intestazione, di solito limitata a una linea di
testo, e da una o più linee che riportano una sequenza di DNA o di amminoacidi
usando l’alfabeto standard. Ecco un esempio:
Riga di intestazione
Interruzione di riga
>37463.f1 g83244 telethonin ecc.
ACGTGACTGCTACGTACGGGCGTTACGACTGCTACGACGCATGCTATGTC
GTAGCAGCCGTGTACACGTGTTTATTCGTAGGGCTTCTA
‘>’ Simbolo d’inizio della
riga di intestazione
Sequenza
L’intestazione (la prima riga del file precedente) `e riconoscibile perchè ha inizio con il
simbolo ‘>’.
Il testo che segue tale simbolo nella stessa riga può essere strutturato liberamente: di
solito, la prima cosa che si trova scritta `e un accession number, ossia l’identificatore della
sequenza che ne permette il reperimento
25
SEQUENZA
Per recuperare la sequenza nucleotidica in formato FASTA
26
Database ‘NON RIDONDANTI’ : RefSeq, UniGene, Gene
Come già detto: nei database primari sono inserite tutte le sequenze conosciute ottenute
sperimentalmente e/o ricostruite.
La stessa regione genomica o lo stesso trascritto possono essere stati sequenziati più volte.
Quindi ci aspettiamo, in molti casi, che la stessa sequenza sia presente più volte.
Per evitare problemi di ridondanza sono stati creati dei database ‘semplificati’ senza ripetizioni
di informazioni. In particolare:
In RefSeq sono rappresentate, in modo non ridondante, tutte le sequenze genomiche,
sequenze di mRNA e di proteine.
In UniGene Sono rappresentate in modo non ridondante , le sequenze ottenute dal
sequenziamento dei trascritti (mRNA)
Gene: è un sottoinsieme di RefSeq con rappresentate solo le sequenze geniche.
Domanda: che differenza c’è tra una sequenza genica ed una sequenza di un trascritto?
27
http://www.ncbi.nlm.nih.gov/RefSeq/
The Reference Sequence (RefSeq) collection aims to provide a comprehensive, integrated,
non-redundant set of sequences, including genomic DNA, transcript (RNA), and protein
products. RefSeq is a baseline for medical, functional, and diversity studies; they provide a
stable reference for genome annotation, gene identification and characterization, mutation
and polymorphism analysis, expression studies, and comparative analyses
RefSeq are derived from GenBank records but differ in that each RefSeq is a synthesis of
information, not an archived unit of primary research data. Similar to a review article in
the literature, a RefSeq represents the consolidation of information by a particular group
at a particular time.
http://www.ncbi.nlm.nih.gov/unigene
UniGene: An Organized View of the Transcriptome.
Each UniGene entry is a set of transcript sequences that appear to come from the
same transcription locus (gene or expressed pseudogene), together with information on
protein similarities, gene expression, cDNA clone reagents, and genomic location.
28
Gene (http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene oppure http://www.ncbi.nlm.nih.gov/gene)
Entrez Gene is NCBI's database for gene-specific information. It does not include all known or
predicted genes; instead Entrez Gene focuses on the genomes that have been completely sequenced,
that have an active research community to contribute gene-specific information, or that are scheduled
for intense sequence analysis. The content of Entrez Gene represents the result of curation and
automated integration of data from NCBI's Reference Sequence project (RefSeq)
Continua
29
Si aprono 4 paragrafi:
- Summary
- Genomic context
- Genomic regions, transripts and product
- Bibliography
Continua record NCBI-Gene 
30
 Continua record NCBI-Gene
Importante: le frecce indicano
il senso della trascrizione
Per questa parte,
vedere px diapositiva
31
Vengono riportate 6 isoforme (varianti dello stesso gene), dovute a splicing
alternativo dello stesso gene
Osservate gli introni e gli esoni, le regioni codificanti e le regioni UTR
Esoni: sono rappresentati dalle linee più spesse
Introni: sono rappresentati dalle linee più sottili
Le regioni UTR sono
di colore più chiaro
Importante  osservare il senso della trascrizione: un gene può essere codificato dal
filamento ‘senso’ (detto anche ‘+’ o ‘forward’) o dal filamento ‘antisenso’ (detto anche ‘-’ o
reverse)
Possibili domande: Quanti introni, quanti esoni sono rappresentati ?
Il gene è codificato dal filamento ‘+’ (forwars) oppure dal filamento ‘-’ (reverse)?
Qual è il senso della trascrizione?
Quante isoforme sono visibili ?
Le diverse isoforme sono dovute a splicing alternativo?
32
Banche Dati proteiche
Un secondo grande aggregato di banche dati è quello relativo alle proteine.
Esistono Database di strutture come PDB, che è la Banca dati di riferimento per i dati
strutturali 3D di proteine ottenuti, ad esempio, mediante analisi cristallografiche ai raggi X
e/o NMR (risonanza magnetica). In questo corso, però, ci interesseremo solo di database di
sequenze proteiche, in particolare a) NCBI-Protein e b) UniProtKB.
Tenere presente che, le sequenze proteiche possono essere ottenute tramite:
-Sequenziamento diretto della proteina
-Traduzione da sequenze nucleotidiche per le quali sia stata individuata o predetta la
regione codificante (CDS) di un gene
a) NCBI-Protein: The Protein database is a collection of sequences from several
sources, including translations from annotated coding regions in GenBank, RefSeq and
TPA (Third Party Annotation), as well as records from SwissProt, PIR, PRF, and PDB.
Il sito, da dove si possono effettuare ricerche, è simile a quello degli altri database
dell’NCBI.
Anche la struttura dei record è molto simile a quelli già visti per i DB di sequenze
nucleotidiche.
Durante un’esercitazione, proveremo a fare una interrogazione a questa banca dati.
33
http://www.isb-sib.ch/index.php
In questo sito, oltre al database UniProtKB, esistono anche altri
interessanti DB e utili tool per analizzare proteine
b) UniProtKB (http://www.uniprot.org/ ) banca dati di riferimento (protein knowledgebase)
sviluppata a Ginevra. Si divide in due sezioni:
SWISS-PROT Contiene informazioni accuratamente annotate, spesso a mano. ( In
maggio 2011 esistevano 528.048 entries)

TrEMBL (TRanslated EMBL) risultato della traduzione automatica in aminoacidi di
tutte le sequenze annotate nella banca dati EMBL come codificanti proteine;
supplemento a SWISS-PROT. (In maggio 2011 esistevano 15.062.837 entries)

The mission of UniProt is to provide the scientific community with a comprehensive, highquality and freely accessible resource of protein sequence and functional information.
Questo Database è molto interessante perché, oltre che riportare le principali caratteristiche
delle proteine (sequenze, strutture, ecc.), vengono riportati anche altri dati come:
-Descrizione dettagliata della funzione della proteina
-Eventuali domini funzionali
-Interazioni con altre proteine
-Localizzazione subcellulare
-Espressione tissutale (in quali tipi di cellule/tessuti viene espressa la proteina)
-Eventuali variazioni/mutazioni con riferimenti bibliografici
-Eventuali coinvolgimenti in malattie genetiche
-Similarità con altre proteine
34
Alcuni paragrafi riportati in un foglio html, ottenuto da UniProtKB
Continua record Swiss-Prot 
35
 Continua record Swiss-Prot
>sp|O15273|TELT_HUMAN Telethonin OS=Homo sapiens GN=TCAP PE=1 SV=1
MATSELSCEVSEENCERREAFWAEWKDLTLSTRPEEGCSLHEEDTQRHETYHQQGQCQVL
VQRSPWLMMRMGILGRGLQEYQLPYQRVLPLPIFTPAKMGATKEEREDTPIQLQELLALE
TALGGQCVDRQEVAEITKQLPPVVPVSKPGALRRSLSRSMSQEAQRG
36
Domini proteici
Molte proteine, specialmente quelle di grandi dimensioni, sono formate da più parti funzionali
organizzate in strutture tridimensionali distinte che vengono chiamate ‘domini proteici’.
E’ una sottostruttura di una catena polipeptidica che si ripiega in una struttura compatta e
stabile, in grado di esercitare una particolare funzione.
Esempio: l’emoglobina è formata da 4 domini legati covalentemente tra loro. La
Mioglobina, invece, è formata da un solo dominio (simile a quelli dell’emoglobina)
Esempio: alcuni fattori di trascrizione hanno due domini, uno in grado legarsi con una
particolare sequenza di DNA, l’altro in grado di attivare la trascrizione.
Fattore di
trascrizione
activation
domain
Complesso della
trascrizione
DNA binding domain
DNA
Seq. DNA
promotore
37
Altri esempi di domini proteici
Src Tyrosine Kinase
SH3 –Attività di regolazione
SH2 –Attività di regolazione
Kinase: dominio chinasico con attività
catalitica
Altro esempio: Proteine (Zasp, ALP, CLP, ecc.) contenenti domini PDZ e LIM. Questi
domini possono interagire e legare altre proteine
Proteine formate da più di un dominio si sono probabilmente evolute per fusione di geni che
contenevano tali domini e questo è stato un fattore importante nell’evoluzione.
nell’evoluzione
38
Esempi: Domini LIM associati ad altri domini
(Sono riportate solo alcune strutture proteiche contenenti il LIM domain)
PFAM: http://pfam.sanger.ac.uk , PROSITE: http://www.expasy.org/prosite ,
SMART: http://smart.embl.de/ , InterPro: http://www.ebi.ac.uk/interpro/
sono database contenenti domini funzionali delle proteine
39
Pfam
The Pfam database is a large collection of protein families. Proteins are generally composed of one or more
functional regions, commonly termed domains. Different combinations of domains give rise to the diverse
range of proteins found in nature. The identification of domains that occur within proteins can therefore
provide insights into their function.
Esempio: voglio ricerca i domini presenti nella proteina ZASP
Continua
40
 Continua da scelta PDZ Domain
Possono essere visualizzati le
principali architetture proteiche che
possiedono domini PDZ
41
Mutazioni (alterazioni della sequenza nucleotidica di un gene) possono riflettersi in alterazioni
della funzionalità della proteina da esso codificata. Questo mutazioni possono causare le
cosiddette malattie genetiche.
Esempio: una mutazione a carico del gene della β globina fa sì che una particolare base del gene
venga sostituita con un’altra, ciò altera il codone e nella proteina ciò si riflette nella sostituzione
di un glutamato con una valina e in una ridotta funzionalità della proteina che causa una
malattia genetica detta anemia a cellule falciformi (anemia falciforme).
Il database OMIM cataloga le malattie
genetiche, fornisce descrizioni
particolareggiate delle malattie e delle
possibili cause (mutazioni).
In laboratorio approfondiremo ed utilizzeremo questo DB
42
Database di malattie genetiche (umane)
Anche qui
possiamo
fare ricerche
complesse
Esempio di una query (telethonin): da notare l’estensiva descrizione di quanto noto sulla/e
malattia/e determinate da mutazioni a carico del gene in esame
43
Purtroppo non esiste un modo univoco per indicare un gene (esempio potete trovare scritto ‘subunit 4’
o ‘subunit iv’ (nella prima esercitazione affronterete questo problema)), anche i geni che io ho chiamato
telethonin o zasp possono essere scritti in modi differenti (tcap , LDB3) . Questo crea confusione e non
facilita la ricerca informatica
The Human Genome Organisation (HUGO) (è una organizzazione scientifica internazionale che
promuove e sostiene le collaborazioni internazionali nella genetica umana) ha istituito un comitato allo
scopo di dare un unico nome significativo a tutti i geni umani. Con questo intento è stato costruito il
database HGNC (HUGO Gene Nomenclature Committee)
44
Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche
differenti modi per descrivere le loro funzioni e le loro localizzazioni.
A volte è corretto assegnare differenti funzioni ad una molecola biologica (spesso una proteina svolge più di
una funzione), per non generare confusioni è però necessario usare una terminologia univoca per ogni
funzione.
Per questo motivo è stato fondato il database GeneOntology che fornisce una definizione precisa del ruolo
svolto dalle singole proteine tramite un vocabolario (delle ontologie) che consenta di definire in modo corretto
e non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue
localizzazioni cellulare.
Troverete spesso link con la sigla ‘GO’ questi rimandano al database della gene ontology
45
46