Informatica e Bioinformatica – AA 2013-2014

Banche Dati proteiche
Un altro grande database è UniProt, The Universal Protein Resource (http://www.uniprot.org/)
nel quale sono radunate le sequenze proteiche, e le annotazione delle stesse, ottenute grazie a:


determinazione diretta della sequenza proteica
traduzione di sequenze nucleotidiche per le quali sia stata individuata o predetta la
funzione di gene codificante la proteina
Uniprot è un consorzio che nasce dalla
collaborazione tra:
European Bioinformatics Institute (EBI);
SIB Swiss Institute of Bioinformatics;
Protein Information Resource (PIR).
UniProt è una risorsa onnicomprensiva
che in realtà raduna diversi database, tra
cui fondamentale è
UniProtKB (Protein knowledgebase)
Informatica e Bioinformatica – A. A. 2013-2014
1
Swiss-Prot
(http://web.expasy.org/docs/swiss-prot_guideline.html)
Il punto di forza di questo
database è l’elevato livello
di annotazione effettuata
dai suoi curatori.
Informatica e Bioinformatica – A. A. 2013-2014
2
Query di sequenza in UniProt
Siamo interessati a conoscere la sequenza proteica codificata dalla lactate dehydrogenase A
Informatica e Bioinformatica – A. A. 2013-2014
3
Anche in questo caso
possiamo ottenere la
sequenza proteica
E molte altre informazioni
sulla struttura secondaria,
terziaria (via PDB), sulle
varianti conosciute e sulla
funzione della proteina
ricercata
Informatica e Bioinformatica – A. A. 2013-2014
4
I database proteici secondari
Contengono il risultato di analisi eseguite sulle sequenze contenute nei database
primari per arricchire il dato di informazioni utili.
Esempio: da Swiss-Prot sono stati ricavati i database secondari Prosite e
Pfam, nei quali si pone maggior rilievo alla classificazione delle famiglie e
dei domini proteici.
http://prosite.expasy.org/
Database of protein domains, families and functional sites
as well as associated patterns and profiles to identify them
http://pfam.sanger.ac.uk/
Large collection of protein families, each represented by
multiple sequence alignments and HMMs
Informatica e Bioinformatica – A. A. 2013-2014
5
Famiglie proteiche e domini





Nonostante l’elevato numero di proteine esistenti, la maggior parte di esse può
venire raggruppata in un numero limitato di famiglie in base alla similarità tra le
loro sequenze.
Studiando le famiglie proteiche si nota che durante l’evoluzione alcune regioni si
sono meglio conservate di altre.
Analizzando le proprietà costanti e variabili di questi gruppi di sequenze simili, si
può ricavare una firma per una famiglia proteica o dominio, che contraddistingue
le proteine di un gruppo da altre proteine
non correlate.
I domini permettono di assegnare una
nuova proteina ad una specifica famiglia
proteica e così formulare ipotesi sulla
sua funzione.
Proteine o domini proteici appartenenti a una particolare famiglia solitamente
condividono attributi funzionali e derivano da un comune progenitore: queste
considerazioni sono fondamentali per effettuare un’analisi comparativa.
Informatica e Bioinformatica – A. A. 2013-2014
6
Domini proteici
Molte proteine, specialmente quelle di grandi dimensioni, sono formate da più parti funzionali
organizzate in strutture tridimensionali distinte che vengono chiamate ‘domini proteici’.
Ad esempio alcuni fattori di trascrizione hanno due domini, uno in grado legarsi con una
particolare sequenza di DNA, l’altro in grado di attivare la trascrizione.
Fattore di
trascrizione
activation
domain
Complesso della
trascrizione
DNA binding domain
DNA
Seq. DNA
promotore
Altro esempio: proteine (Zasp, ALP, CLP, ecc.) contenenti domini PDZ e LIM. Questi
domini possono interagire e legare altre proteine
Proteine formate da più di un dominio si sono probabilmente evolute per fusione di
geni che contenevano tali domini: fusione genica è fattore importante nell’evoluzione.
Informatica e Bioinformatica – A. A. 2013-2014
7
Esempi: Domini LIM associati ad altri domini
(Sono riportate solo alcune strutture proteiche contenenti il LIM domain)
PFAM, PROSITE, ma anche SMART (http://smart.embl.de/) e InterPro
(http://www.ebi.ac.uk/interpro/) sono tutti database contenenti domini
funzionali delle proteine.
Informatica e Bioinformatica – A. A. 2013-2014
8
Informatica e Bioinformatica – A. A. 2013-2014
9
Tra i 16 diversi record presenti
in PROSITE che contengono
il termine ricercato troviamo il
dominio PDZ (PS50106)
Informatica e Bioinformatica – A. A. 2013-2014
10
Nota: gli Hidden Markov Models sono complessi modelli statistici che dall’analisi di
sequenze primarie permettono la predizione di domini proteici e strutture proteiche.
Informatica e Bioinformatica – A. A. 2013-2014
11
Esempio di ricerca in Pfam
Ricerca dei domini presenti nella
proteina ZASP: sono individuati
6 record
Possono essere visualizzati le
principali architetture proteiche
che possiedono domini PDZ
Informatica e Bioinformatica – A. A. 2013-2014
12
Possono essere visualizzati
anche gli allineamenti dei
domini nelle differenti
proteine
Informatica e Bioinformatica – A. A. 2013-2014
13
I browser genomici
UCSC genome browser
University of California Santa Cruz
(http://genome.ucsc.edu/)
L’enorme aumento dei dati riguardanti interi genomi, in particolare quelli
derivanti dai progetti di sequenziamento di vertebrati, ha richiesto lo sviluppo di
veri e propri browser di genomi.

Per questo motivo presso la UCSC è stato sviluppato uno dei primi genome
browser in grado di fornire una rapida visualizzazione grafica di ogni regione di
genoma di qualsivoglia lunghezza assieme ad una grande quantità di informazioni
come:
geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA,
elementi regolativi, geni omologhi di altri organismi, ecc.

Successivamente i principali siti (NCBI, EBI ecc.) hanno sviluppato piattaforme
sempre più complesse, in grado di integrare il maggior numero di informazioni su
una certa regione in particolare del genoma umano e di numerosi altri organismi.

Definizione di browser: interfaccia utente che permette di la navigazione tra
oggetti, ad esempio Mozilla Web Browser.
Informatica e Bioinformatica – A. A. 2013-2014
14
http://genome.ucsc.edu/
Informatica e Bioinformatica – A. A. 2013-2014
15
group
Organismo di cui si
vuole visualizzare la
regione genomica
Gruppo di organismi
di interesse
Nota: durante il sequenziamento
di un genoma, spesso sono
rilasciate versioni successive
specialmente nella fase finale
del progetto: possono essere più
o meno definitive.
Qui si fa riferimento a varie
versioni (release) del genoma
umano (l’ultima è del 2009).
Informatica e Bioinformatica – A. A. 2013-2014
16
Pulsanti di spostamento sul
genoma
Posizione attuale
sul genoma
Pulsanti per ingrandire o
rimpicciolire l’area di interesse
chr: rappresentazione
schematica e posizione
Permette di “saltare” sulla posizione
digitata sulla finestra di sinistra
Informatica e Bioinformatica – A. A. 2013-2014
17
Posizione (bp)
Geni con esoni,
le barre spesse, e
introni, le barre
sottili.
Traccia dei
trascritti
Grado di conservazione
della sequenza tra
organismi diversi
Informatica e Bioinformatica – A. A. 2013-2014
18
Moltissimi sono i campi a disposizione, essi possono essere visualizzati in modo
diverso o nascosti utilizzando le opzioni presenti nella parte inferiore della pagina
Tipologia di traccia
Ci sono varie possibilità
di visualizzazione di ogni
informazione sul genome
browser.
Provate ad esercitazione
Informatica e Bioinformatica – A. A. 2013-2014
19
UCSC Genome Browser: descrizione del gene scelto
….e molte altre informazioni!!
Informatica e Bioinformatica – A. A. 2013-2014
20