ANALISI
BIOINFORMATICA
DELLE PROTEINE
Matteo Ramazzotti
[email protected]
Pr ogr amma
Banche dati proteiche. Interrogazione delle banche dati.
Allineamento di sequenze proteiche. Matrici di sostituzione. Allineamento con
gap. Allineamento globale e locale. BLAST e FASTA. Allineamento multiplo.
Visualizzazione degli allineamenti. Applicazioni dei profili di multiallinemento.
Ricerca di pattern e motivi funzionali nelle proteine. Banche dati dei profili
proteici.
Filogenesi molecolare. L’orologio molecolare.
Analisi della struttura primaria delle proteine. Struttura secondaria delle proteine.
Strumenti per la predizione della struttura secondaria.
Visualizzazione tridimensionale delle proteine. Strumenti per la proteomica.
RasMol. Swiss PDB Viewer. Strumenti per la predizione della struttura
tridimensionale. Homology modelling. Interazione tra proteine. Docking.
Testi consigliati:
G.Valle et al. – “Introduzione alla bioinformatica” – Zanichelli
A.Tramontano – “Bioinformatica” - Zanichelli
Cos’è la bioinfor matica
E’ una scienza multidisciplinar e che integra conoscenze
informatiche, chimiche, matematiche, biologiche allo scopo di
collezionare ed elaborare sistematicamente ogni informazione per
ottenere la massima resa dalle ricerche sperimentali ma anche per
sviluppare queste ultime in modo più mirato.
Grazie alla bioinformatica è possibile avere uno sguar do
d’insieme su tutte le conoscenze scientifiche e da questo partire
per ulteriori osservazioni sia mediante metodi informatici, sia
mediante metodi sperimentali.
Chi si occupa di bioinformatica può appartenere a due categorie
principali:
SVILUPPATORI: coloro che si occupano di creare nuovi
strumenti informatici per l’analisi scientifica
UTENTI: coloro che utilizzano gli strumenti bioinformatici per
ottenere dati e da questi partire per l’analisi sperimentale vera e
propria.
⇒ il programma che si utilizza può definirsi il metodo sper imantale
della bioinformatica
⇒ le banche dati posso definirsi il mater iale sper imentale utilizzato
dalla bioinformatica
Banche dati
Si possono raggruppare in quattro categorie principali:
- di biosequenze (dette anche primarie)
- genomiche
- di espressione genica
- proteiche
Nel corso verranno trattate le banche dati proteiche
anche se non bisogna dimenticare che molti dati sulle
pr oteine der ivano dalle banche dati pr imar ie, cioè
quelle nucleotidiche.
Traduzione in silico
Data una sequenza nucleotidica è possibile tradurla utilizzando tutti
e tre i frame di lettura (+1, +2, +3) di entrambi i filamenti (senso e
antisenso), allo scopo di individuare una
Open Reading Fr ame (ORF)
cioè una sequenza proteica di
lungheza adatta ad essere una proteina (non meno di 70-100
residui). In questo modo, e con programmi appositi che
scansionano tutto un genoma, è possibile trovare tantissime
proteine PUTATIVE, cioè possibili ma non verificate.
+2
T
N
+1
E
R
A
R
M
N
E
P
A
C
L
S
L
S
L
S
L
S
L
S
F
F
M
D
R
G
G
W
M
Y
V
P
A
C
I
N
Q
V
C
L
H
P
S
I
H
T
H
S
F
S
L
T
R
1 gaacgcgaatgcctctctctctttcgatgggtatgccaattgtccacattcactcgt
F
+3
A
R
V
F
S
R
A
H
I
E
R
G
R
E
R
E
R
E
K
K
R
S
R
E
P
H
I
Y
T
P
A
H
I
L
W
G
Q
N
I
G
D
T
C
V
W
E
N
M
S
V
*
T
R
E
Il codice genetico
Si definisce
DEGENERATO e
RIDONDANTE.
E’ composto da 64 diversi
codoni che codificano i 20
amino acidi.
La tebella accanto mostra
le varie degenerazioni dei
codoni per ogni amino
acido.
Alanine
Ala
A
GC[CATG]
Cysteine
Cys
C
TG[CT]
Aspartic AciD
Asp
D
GA[CT]
Glutamic Acid
Glu
E
GA[AG]
Phenylalanine
Phe
F
TT[CT]
Glycine
Gly
G
GG[CATG]
Histidine
His
H
CA[CT]
Isoleucine
Ile
I
AT[CAT]
Lysine
Lys
K
AA[AG]
Leucine
Leu
L
CT[CATG], TT[AG]
Methionine
Met
M
ATG
AsparagiNe
Asn
N
AA[CT]
Proline
Pro
P
CC[CATG]
Glutamine
Gln
Q
CA[AG]
ARginine
Arg
R
CG[CATG], AG[AG]
Serine
Ser
S
TC[CTAG], AG[CT]
Threonine
Thr
T
AC[CATG]
Valine
Val
V
GT[CATG]
Tryptophan
Trp
W
TGG
TYrosine
Tyr
Y
TA[CT]
-
-
TA[AG], TGA
STOP
Aminoacil-tRNA
tRNA
rRNA
mRNA
Trascrizione
------------RBS----ATG AAA TAC
TAA
Struttura primaria
Sintesi proteica
Struttura secondaria
Folding
Struttura terziaria
Gli amino acidi
Sono composti organici che presentano almeno un gruppo carbossilico
(-COOH) a funzione acida e un gruppo aminico (-NH2) a funzione basica
Le proteine sono composte soltanto da alfa-amino acidi, legati tra loro
mediante legami detti PEPTIDICI che si instaurano tra il COOH e l’NH2.
Ciò che diversifica i vari amino acidi è la catena laterale legata al carbonio
alfa, che può conferire all’amino acido caratteristiche chimico-fisiche
diverse.
In base alla catena later ale si r iconoscono 5 gr uppi
pr incipali di amino acidi
Acidi
Polari non carichi
Basici
Strutturali
Idrofobici
Aromatici
I polimeri di alfa amino acidi (le proteine) sono influenzati dalle
caratteristiche chimico-fisiche delle catane laterali e in base a
principi di inter azioni deboli di tipo idr ofobico o elettr ostatico si
osservano dei ripiegamenti, fino al raggiungimento della minor
energia termodinamica. Questo processo, denominato FOLDING, è
alla base del funzionamento delle proteine, visto che solo se sono
correttamente strutturate esse assumeranno la loro forma e
soprattutto FUNZIONE definitiva.
La strutturazione delle proteine
dipende quindi principalmente dalla
sequenza dei residui che la
compongono, oltre che dall’ambiente
in cui si strutturano
Str uttur a delle pr oteine
Il legame peptidico ha delle caratteristiche di doppio legame e
costringe i due atomo adiacenti a giacere sullo stesso piano. La
rotazione della molecola avviene intorno al car bonio alfa, ma non
tutti gli angoli di rotazione sono permessi a causa degli ingombri
sterici delle diverse catene laterali e dello scheletro stesso.
Il legame peptidico genera una polarità negli scheletri proteici per cui
si vengono a formare PONTI IDROGENO tra gli idrogeni
dei gruppi amidici e ossigeni dei carbonili. Queste
interazioni deboli portano la struttura primaria della
proteina (la sequenza dei suoi residui) a ripiegarsi in una
STRUTTURA SECONDARIA in cui sono riconoscibili
due formazioni
1- Alfa elica: struttura compatta avvolta in cui i legami idrogeno sono
disposti parallelamente allo scheletro.
2 - Beta-str and: struttura rilassata in cui i ponti idrogeno si stabiliscono
tra catene adiacenti che possono essere parallele o antiparallele, a
formare dei foglietti beta.
Le varie strutture secondarie si collegano tra loro mediante anse
(loop) in cui non ci sono ponti idrogeno intramolecolari e che
quindi non hanno un’organizzazione definita.
In realtà alcune connessioni tra strutture secondarie sono
conservate: es. per congiungere due beta-strands antiparalleli
serve un connettore che permetta una curva molto stretta. La
connessione HAIRPIN LOOP è un esempio.
Strutture secondarie che si
uniscono formano molto spesso
delle strutture super-secondarie
denominate MOTIVI
Beta-turn-beta
up-down
greca
jelly-roll
Alpha-turn-alpha
super-barrel
coiled-coil
four helix bundle
beta-alpha-beta
fold di Rossmann
Alcune strutture terziarie
Dominio doppio
Dominio singolo
Dominio triplo
Dominio quadruplo
Strutture quaternarie simmetriche
Alcune osser vazioni impor tanti
1) nello scrivere le proteine o i nucleotidi, usate sempr e il carattere
COURIER, non altri caratteri con spaziatura ineguale come il times,
altrimenti succede questo:
VILMA anzichè: VILMA e si perdono gli allineamenti
VLLMA
VLLMA
2) utilizzate sempre il blocco note o simili per editare le sequenze, in
modo da non avere formattazioni impreviste. Il formato SOLO
TESTO è il più adatto.
3) non copiate MAI a mano le sequenze, anche se brevi. Usate
sempre il copia e incolla. Quindi: tenete i dati in formato
elettronico, non cartaceo.
4) per modificare l’aspetto delle sequenze, utilizzate programmi
appositi, non fate nulla a mano. Un ottimo programma è il
Sequence Manipulation Suite (SMS)
Banche dati
Nascita delle banche dati
Inizio anni 70: nasce la tecnologia del DNA r icombinante, che
permette di manipolare le sequenze nucleotidiche e di capire la
struttura, la funzione e l’organizzazione del DNA.
Fine anni 70: pubblicazione dei primi dati genomici, con le prime
sequenze nucleotidiche codificanti liberamente accessibili
attraverso i rudimenti della rete disponibili a quel tempo tra le varie
università.
2001: il Consorzio Pubblico Internazionale e la Celera Genomics
forniscono dati del genoma umano completo, aprendo la strada ai
progetti di sequenziamento a tappeto.
Successivamente, l’approccio biotecnologico ha fornito una serie
imponente di dati di natura pr oteomica grazie all’analisi
spettrometrica e all’elettroforesi 2-D, ed una serie altrettanto vasta
di dati di tr ascr ittomica grazie alla tecnologia dei microarrays.
Insieme ai dati nasce l’esigenza di sistemi di ar chiviazione e di
ritrovamento facili e esaustivi, in modo da averli a disposizione in
ogni istante, dato che
sebbene ci siano tantissime infor mazioni, ognuna deve esser e
validata e confer mata, essendo per la maggior par te dati gr ezzi
non r ielabor ati.
Conoscer e il dato non significa capir e il dato, ser ve sempr e un
appr occio sper imentale classico per chè questo sia ver amente
ver ificato.
=> una banca dati è il posto dove cercare i dati da cui partire per
una ricerca, non il suo punto di arrivo.
I pionier i
1965: Margareth Dayhoff compila un atlante di proteine omologhe
studiando le relazioni tra le sequenze primarie
1970: l’atlante viene reso pubblico in versione elettronica nella
banca dati NBRF
⇒ nascita della pr ima banca dati proteica.
Ancora non ci sono dati di sequenziamento nucleotidico nella
banca, sono tutti dati di natura biochimica classica, ma
l’idea di r ender e disponibili in modo liber o dei dati accumulati
e or ganizzati è alla base del concetto che muove gli
or ganizzator i e i cur ator i delle banche dati, e che muove anche
i fondi per la lor o gestione
Banche dati pr imar ie
1981: nasce nel Laboratorio Europeo di Biologia Molecolare ad
Heidelberg (Germania) l’EMBL-datalibrary, 519 entries con
sequenze di DNA e RNA, autore Kurt Stueber
1982: nasce una banca dati simile negli USA, darà vità alla
GenBank, autore Walter Goad
1986: nel National Institute of Genetics in Mishima (Giappone)
nasce un mirror della GenBank, la DDBJ
EMBL
GenBank
DDBJ
=> cir ca le stesse infor mazioni, or ganizzate in modo diver so
Infr astr uttur e pr incipali
EMBNet , nata nel 1988 come rete europea a supporto della
ricerca bio-molecolare, oggi conta 41 nodi nazionali in paesi
europei ed extraeuropei (In Italia il nodo è a Bari)
APBioNet (Asian-Pacific Biologic Network), recentemente
gemelleta con EMBNet, organizzazione analoga
Oggi i due database primari più importanti sono nei centri
EBI
(Cambridge, UK) : EMBL data-library
NCBI
(USA) : GenBank
Or ganizzazione di un database biologico
L’oggetto principale è la ENTRY, una unità riconoscibile
grazie ad un identificatore univoco, che possiede una
descrizione organizzata in campi standardizzati riconoscibili
grazie ad HEADERS univoci nella banca dati.
es.
Identificatore
-----------------
Autore
-----------------
Data
-----------------
ecc.
Ogni banca dati presenta 2 versioni delle entries:
Flat-file: un file di testo semplice, formattato, non interattivo
HTML (o XML): interattivo, di facile consultazione
L’inter attività ha un r uolo centr ale per una banca dati,
per chè per mette di navigar e tr a le sue entr ies e quelle di
altr i databases
⇒ sia i flat-file sia le pagine XML sono ricchi di cr oss-r efer ences,
riferimenti che mandano ad altre banche dati generiche o
specializzate.
Si ottiene così per ogni entry una serie di infor mazioni spesso
r idondanti, tra cui è bene sapresi orientare, anche perchè alcune
sembrano in contraddizione, es.
- una proteina può avere dei riferimenti a sequenze codificanti diverse
- una entry può avere più nomi per descriverla o può corrispondere a
più autori
Un esempio di entry proteica EMBL (flat-file)
1: AAC74054. orf, hypothetical...[gi:1787203]
LOCUS
AAC74054
92 aa
linear
DEFINITION
orf, hypothetical protein [Escherichia coli K12].
ACCESSION
AAC74054
VERSION
AAC74054.1
DBSOURCE
locus AE000199 accession AE000199.1
KEYWORDS
.
SOURCE
Escherichia coli K12.
ORGANISM
Escherichia coli K12
BCT 01-DEC-2000
GI:1787203
Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae;
Escherichia.
REFERENCE
1
(residues 1 to 92)
AUTHORS
Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V.,
Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F.,
Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J.,
Mau,B. and Shao,Y.
TITLE
The complete genome sequence of Escherichia coli K-12
JOURNAL
Science 277 (5331), 1453-1474 (1997)
MEDLINE
97426617
PUBMED
9278503
REFERENCE
2
(residues 1 to 92)
AUTHORS
Blattner,F.R.
TITLE
Direct Submission
JOURNAL
Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics,
University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA.
Email: [email protected] Phone: 608-262-2534 Fax:
608-263-7459
REFERENCE
3
(residues 1 to 92)
AUTHORS
Blattner,F.R.
TITLE
Direct Submission
JOURNAL
Submitted (02-SEP-1997) Guy Plunkett III, Laboratory of Genetics,
University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA.
Email: [email protected] Phone: 608-262-2534 Fax:
608-263-7459
REFERENCE
4
(residues 1 to 92)
AUTHORS
Plunkett,G. III.
TITLE
Direct Submission
JOURNAL
Submitted (13-OCT-1998) Laboratory of Genetics, University of
Wisconsin, 445 Henry Mall, Madison, WI 53706, USA
COMMENT
This sequence was determined by the E. coli Genome Project at the
University of Wisconsin-Madison (Frederick R. Blattner, director).
Supported by NIH grants HG00301 and HG01428 (from the Human Genome
Project and NCHGR). The entire sequence was independently
determined from E. coli K12 strain MG1655. Predicted open reading
frames were determined using GeneMark software, kindly supplied by
Mark Borodovsky, Georgia Institute of Technology, Atlanta, GA,
30332 [e-mail: [email protected]].
Open reading frames that
have been correlated with genetic loci are being annotated with CG
Site Nos., unique ID nos. for the genes in the E. coli Genetic
Stock Center (CGSC) database at Yale University, kindly supplied by
Mary Berlyn. A public version of the database is accessible
(http://cgsc.biology.yale.edu). Annotation of the genome is an
ongoing task whose goal is to make the genome sequence more useful
by correlating it with other data.
Comments to the authors are
appreciated. Updated information will be available at the E. coli
Genome Project's World Wide Web site
(http://www.genetics.wisc.edu). *** The E. coli K12 sequence and
its annotations are periodically updated; this is version M54. No
sequence changes. Annotation updates: updated gene identifications
and products; all new functional assignments courtesy of Monica
Riley; added promoters, protein binding sites, and repeated
sequences described in reference 1. The unique numeric identifiers
beginning with a lowercase 'b' assigned to each gene (protein- or
RNA-encoding) are now designated as gene synonyms instead of
labels. This should allow them to be searched for in Entrez as gene
names.
Method: conceptual translation.
FEATURES
Location/Qualifiers
source
1..92
/organism="Escherichia coli K12"
/strain="K12"
/sub_strain="MG1655"
/db_xref="taxon:83333"
Protein
1..92
/function="orf; Unknown"
CDS
1..92
/gene="b0968"
/coded_by="AE000199.1:121..399"
/note="o93; 44 pct identical (2 gaps) to 85 residues
from acylphosphatase, organ-common type isozyme, ACYO_CHICK
SW:P07032 (98 aa)"
/transl_table=11
ORIGIN
1 mskvciiawv ygrvqgvgfr yttqyeakrl gltgyaknld dgsvevvacg eegqveklmq
61 wlksggprsa rvervlseph hpsgeltdfr ir
//
Revised: July 5, 2002.
Ogni banca dati ha dei suoi codici di identificazione e definisce le
sue entries secondo un rigido standard, imponendo a priori un certo
numero di possibili campi contrassegnati da tag specifici.
Nell’esempio visto prima:
ACCESSION
AAC74054
indica il numero di accesso,
ORGANISM
Escherichia coli K12
Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae;
Escherichia.
indica l’organismo a cui appartiene e la sua tassonomia.
Qualsiasi cosa è standardizzata, dai tags agli spazi ed ai segni di
punteggiatura.
Questo per mette ai pr ogr ammi di RETRIEVAL, cioè di
r icer ca, di tr ovar e r apidamente ciò che si cer ca.
Banche dati dell’EMBL
Banche dati dell’NCBI
Banche dati pr oteiche più utilizzate
UniProt raccoglie le informazioni dei database Swiss-prot, TrEMBL e PIR. Offre
la possibilità di effettuare Text Search o Blast Search. Viene curato anche un
database NON RIDONDANTE (UniRef).
Molto curato e dattagliato, con
annotazioni circa funzione,
struttura, modificazioni e altre
informazioni utili
E’ la traduzione in silico
di ogni entry codificante
del database primario
dell’EMBL,
non
è
accurato, ma è ricchissimo
E’ il discendente diretto del
database della Dayhoff, è curato a
mano e le annotazioni sono molto
ricche e precise
Banche dati pr oteiche più utilizzate
E’ un database di famiglie e domini proteici comprensiva di pattern e
motivi (signatur es) che identificano e rendono riconoscibili e
classificabili le proteine. La ricerca in prosite comprende anche altri
database strutturali e di
classificazione.
una signature formattata,
definita anche pattern.
Banche dati pr oteiche più utilizzate
Pfam è una raccolta di proteine allineate e di profili generati con gli
HMM che descrivono quasi tutte le famiglie e i domini pr oteici
conosciuti. Da qui è possibile una analisi dettagliata sfruttando le
risorse disponibili nel server del Sanger Institute per l’analisi familiare
delle proteine.
Il Proteome Analysis Database è una immensa raccolta di proteine
catalogate per or ganismo di appar tenenza e permette analisi
interproteomiche mediante opportuni programmi di confronto.
Banche dati pr oteiche più utilizzate
Database di Protein Finger pr ints, cioè
pattern caratteristici di certe famiglie
proteihce
Database di domini pr oteici generato
in modo automatico da Swiss-Prot e
TrEMBL
Database di ar chitettur e pr oteiche
annotate per organismo e per famiglia
Database di str uttur e tr idimensionali
di proteiene altre componenti proteiche