Informatica Complessità dei dati Actina Proteine Amminoacidi

annuncio pubblicitario
09/05/2011
Rappresentazione 3D di molecole
Informatica
• Wireframe
• solo legami
• Stick
Lezione IX
• Legami con migliore vista prospettica
• Ball and Stick
Visualizzazione 3D di proteine
• Visualizza anche gli atomi
• Importante se ci sono atomi isolati
• Spacefill
• Inviluppo delle sfere di van der Waals
A.A. 2010/11
SSCTA
1
Lezione IX
A.A. 2010/11
SSCTA
2
Lezione IX
Actina
Complessità dei dati
Space fill
stick and balls
• Più grande e complessa è la molecola e
più numerosi divengono i modi di
rappresentarla
• una maggiore complessità richiede
rappresentazioni efficienti sotto il profilo
della compattezza dell‟informazione
Queste rappresentazioni sono poco informative per una proteina
A.A. 2010/11
SSCTA
3
Lezione IX
A.A. 2010/11
SSCTA
4
Amminoacidi
Proteine
• Sono costituite da una catena di
amminoacidi legati fra loro mediante
legame peptidico
• esistono 20 amminoacidi, che
compongono tutte le proteine
• Gli amminoacidi si differenziano per
dimensione e caratteristiche chimiche
(polarità, idrofobia, possibilità di formare
legami H)
A.A. 2010/11
SSCTA
5
Lezione IX
Lezione IX
acido aspartico
alanina
cisteina
acido glutamico
valina
triptofano
lisina
leucina
metionina
istidina
A.A. 2010/11
SSCTA
arginina
asparagina
glicina
glutamina
isoleucina
serina
6
prolina
treonina
fenilanina
tirosina
Lezione IX
1
09/05/2011
Catena polipeptidica
Catena polipeptidica
• Il legame peptidico consente piccole
torsioni attorno al proprio asse
• distribuendo piccole torsioni su tanti
legami, la catena si puo‟ ripiegare
secondo angoli rilevanti
• Gli amminoacidi si legano fra loro
mediante legame peptidico
• Il legame rispetta una specifica
geometria di distanze e angoli
A.A. 2010/11
SSCTA
7
Lezione IX
A.A. 2010/11
SSCTA
8
Lezione IX
Folding
Eliche e sheet
• La torsione dei legami e la creazione di ponti
tra zone distanti della sequenza produce un
preciso tipo di avvolgimento della catena di
amminoacidi chiamato „folding‟
• Il modo di ripiegarsi dipende dalla sequenza
di amminoacidi e dall‟ambiente circostante
(es. grado di pH e presenza di altre proteine)
• la forma finale della catena determina quali
gruppi si affacciano all‟esterno ed all‟interno,
e quindi il tipo di interazioni con l‟esterno
• Alcune sequenze di amminoacidi danno
luogo a tratti piuttosto rigidi, per via
della formazione di legami idrogeno
• I tratti rigidi hanno molta importanza ai
fini del folding e la loro eventuale
presenza è un fattore da evidenziare
• si distinguono due tipi di tratti
A.A. 2010/11
SSCTA
9
Lezione IX
Struttura di una proteina
• Primaria
A.A. 2010/11
SSCTA
10
Lezione IX
Importanza della
rappresentazione strutturale
• Nella progettazione di farmaci si può definire la
“forma” della molecola da sintetizzare sulla base
delle caratteristiche morfologiche del sito a cui
dovrà legarsi.
• Conoscere la forma del bersaglio
• la sequenza degli amminoacidi
• Secondaria
• alpha eliche o beta sheet
• Terziaria
• Forma e disposizione di cariche
• folding
• Definire la forma dell‟oggetto che potrà legarsi
• Analizzare tutto l‟esistente per cercare composti
dalle caratteristiche opportune
• Quaternaria
• assemblaggio di più catene
A.A. 2010/11
SSCTA
• alpha eliche
• beta sheet
11
Lezione IX
A.A. 2010/11
SSCTA
12
Lezione IX
2
09/05/2011
Struttura primaria dell’actina
Progettazione dei farmaci
• Una volta si procedeva quasi da subito andando
per tentativi
• inietta qualcosa in un animale da laboratorio e guarda
quali reazioni avvengono
• Adesso si fa molto al computer
• analisi dei sito da legare/attivare
• analisi della banche dati sulle molecole esistenti per
studiare forma e proprietà
• selezione di un numero di molecole “candidate”
• esperimenti simulati per verificare gli effetti di un
legame
A.A. 2010/11
SSCTA
13
Lezione IX
ACE
ALA
ARG
GLY
HIS
TYR
PRO
PHE
SER
VAL
ALA
SER
CYS
SER
GLU
SER
ILE
PRO
MET
GLY
GLU
ASP
GLY
PRO
ASP
GLY
ASN
LEU
ASN
GLY
PRO
GLY
PHE
TYR
LEU
ARG
CYS
ARG
GLY
LYS
SER
TYR
ASP
PHE
ARG
GLU
ILE
GLU
ASN
THR
ARG
ILE
ARG
THR
VAL
GLU
PHE
GLY
LYS
ILE
ILE
ILE
ASP
Lezione IX
LEU
ALA
MET
ARG
ASP
PRO
ARG
VAL
VAL
ALA
TYR
ARG
GLU
LEU
ALA
THR
ASN
GLN
PRO
SER
SER
VAL
PRO
VAL
GLY
ASP
GLU
GLU
ALA
MET
LEU
LEU
GLU
GLN
PRO
LEU
PHE
THR
LYS
PRO
THR
ILE
VAL
ARG
GLY
ILE
MET
GLU
LYS
ILE
ASP
PRO
MET
ILE
GLU
ASP
PHE
ASN
VAL
GLU
GLU
PHE
VAL
ASP
ALA
MET
LEU
GLU
HIS
MET
GLN
SER
HIS
LYS
VAL
MET
GLY
GLN
SER
LEU
ILE
ARG
GLN
HIS
ASN
VAL
GLY
THR
LYS
PRO
THR
ALA
GLY
ALA
ILE
ARG
ALA
GLN
PRO
ILE
SER
THR
LYS
GLN
ARG
GLY
PHE
GLN
LEU
ILE
VAL
GLN
VAL
ASP
ILE
LEU
ASP
THR
VAL
SER
MET
GLY
ALA
TYR
MET
LYS
SER
PRO
LYS
LYS
TRP
LEU
ILE
LEU
GLY
LEU
THR
ILE
ALA
ILE
PHE
LYS
GLY
LEU
SER
TRP
CYS
GLY
SER
ASP
TYR
HIS
LEU
MET
SER
VAL
ARG
GLU
LYS
ALA
THR
LEU
CYS
THR
ALA
VAL
ILE
PHE
MET
ILE
SER
PRO
HIS
THR
PHE
LEU
THR
LEU
ARG
GLU
SER
ILE
GLY
ASP
THR
PRO
TRP
SER
14
CYS
VAL
TYR
ILE
THR
GLU
GLU
TYR
HIS
ASP
GLY
LYS
SER
GLY
MET
VAL
MET
SER
ILE
LYS
LYS
GLY
VAL
GLU
PHE
ALA
THR
ALA
THR
LEU
TYR
LEU
SER
ASN
GLU
ASP
TYR
THR
GLY
GLN
Lezione IX
A.A. 2010/11
SSCTA
16
Lezione IX
Beta sheet
• Sono zone di elevata rigidità dovuta alla
formazione di ponti H tra tratti paralleli
della catena
17
ALA
ASP
VAL
LYS
TRP
ALA
ASN
TYR
ILE
TYR
ASP
GLU
PHE
GLU
GLU
THR
ALA
MET
ALA
LEU
PRO
Zona ad elevata rigidità a causa di legami idrogeno fra atomi di
aminoacidi consecutivi lungo la catena
Un‟elica può essere schematizzata con un semplice nastro
Beta sheet
A.A. 2010/11
SSCTA
ALA
ASP
GLY
SER
ASN
VAL
ALA
MET
GLY
GLY
THR
ALA
ASP
TYR
PRO
GLU
TYR
ARG
ILE
SER
GLY
Alfa eliche
• E‟ importante cogliere le caratteristiche
di interesse in modo immediato
• Si fa uso di rappresentazioni
convenzionali per alpha eliche e beta
sheet
• Ogni altra caratteristica degli
amminoacidi (polarità ecc.) deve poter
essere rappresentata
15
ILE
GLY
GLN
GLN
THR
ARG
LYS
ALA
THR
GLU
LEU
THR
LEU
SER
CYS
HIS
LEU
ASP
ILE
ALA
SER
A.A. 2010/11
SSCTA
Rappresentazione
A.A. 2010/11
SSCTA
ASP
ALA
HIS
ALA
VAL
LEU
PRO
PRO
THR
TYR
ASP
THR
ALA
LYS
ARG
ILE
ASP
ALA
LYS
LEU
GLU
Lezione IX
Rappresentazione a stick con
un colore per ciascuna catena
A.A. 2010/11
SSCTA
Rappresentazione compatta
18
Lezione IX
3
09/05/2011
Rappresentazione globale
„backbone‟ o scheletro
della catena
A.A. 2010/11
SSCTA
Rappresentazione compatta per
evidenziare eliche e sheet
19
Lezione IX
Uso di programmi diversi
VMD (con GL)
Rasmol
A.A. 2010/11
SSCTA
20
Canale del potassio
Uso dei colori
Un diverso colore per ogni
catena
Wireframe (O rosso)
• Colori diversi per distinguere
•
•
•
•
Lezione IX
catene diverse
gruppi diversi
eliche da sheet
parti idrofobe e parti idrofile
A.A. 2010/11
SSCTA
21
Lezione IX
A.A. 2010/11
SSCTA
Canale del potassio
Anelli aromatici evidenziati
A.A. 2010/11
SSCTA
Lezione IX
DNA
Parti idrofobe in rosso
23
22
Lezione IX
Il colore distingue le catene
A.A. 2010/11
SSCTA
Il colore distingue le basi
24
Lezione IX
4
09/05/2011
DNA: perché le due catene si
attaccano in un solo modo
Marcatura di un amminoacido
• Coppia di basi
Adenina-Tirosina in
rosso
• Coppia CitosinaGuanina in blu
• Legami H A-T in giallo
(doppi)
• Legami H C-G in
verde (tripli)
A.A. 2010/11
SSCTA
La prolina (rosso) si
trova
nelle
zone
terminali delle eliche,
dove la curvatura è
maggiore
25
Lezione IX
A.A. 2010/11
SSCTA
26
Lezione IX
Insiemi di aminoacidi in una proteina
Il comando Select
fatta da tre catene: A, B e C
• Per precisare l‟insieme da selezionare si
può fare uso di funzioni logiche:
• Select *A OR *B
B
• Seleziona le catene A e B
alpha
• Select *A AND helix
A
• Seleziona i tratti alpha elica della catena A
C
• Select helix OR sheet
beta
• Seleziona alpha eliche e beta sheet (tutti i pezzi
con struttura secondaria)
A.A. 2010/11
SSCTA
27
Lezione IX
A.A. 2010/11
SSCTA
28
Formato dati: File PDB
Record ATOM
• File di tipo testo (apribile da un editor)
• Derivato dai formati testo per fortran, ogni riga
contiene record di 80 colonne con campi in posizioni
definite
• Per saperne di più
• http://www.rcsb.org/pdb/docs/format/pdbguide2.2/guide2.2_f
rame.html
• Tipi di record
•
•
•
•
•
•
Atom (tipo di atomo e coordinate)
Helix
Sheet
Author
Source (origine della molecola)
Cryst1 (informazioni cristallografiche)
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
CB
SG
H
N
CA
C
O
CB
CG
SD
CE
H
N
CA
C
O
CB
OG
H
CYS
CYS
CYS
MET
MET
MET
MET
MET
MET
MET
MET
MET
SER
SER
SER
SER
SER
SER
SER
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
47
47
47
35.088
34.536
36.365
48
48
48
48
48
48
48
49
49
49
49
49
49
49
38.652
38.631
40.329
40.987
39.662
39.959
37.755
38.608
38.388
39.492
40.385
38.101
38.655
38.704
29
Lezione IX
A.A. 2010/11
SSCTA
4.772
3.830
6.271
-6.633
-8.107
-4.921
1.00 6.39
1.00 9.41
1.00 17.00
1.00 3.11
1.00 2.19
3.637 -10.513 1.00 2.00
2.429 -10.546 1.00 2.00
4.325 -8.810 1.00 4.82
5.502 -9.420 1.00 8.48
6.766 -9.547 1.00 13.79
7.565 -11.163 1.00 18.11
Numero
dell‟aminoacido
3.106 progressivo
-7.894 1.00
17.00
4.407 -11.595 1.00 2.00
3.892
-12.939 1.00 2.41
Tipo
di aminoacido
3.023 -13.505 1.00 4.27
3.523 -14.219 1.00 7.42
5.042 -13.903 1.00 3.24
6.267 -13.436 1.00 8.00
5.379 -11.514 1.00 17.00
Numero
progressivo
dell‟atomo
48
37.985
4.036
-8.096
48
38.859 Tipo
4.362
-9.209
di atomo
Catena proteica (A,B,C….)
A.A. 2010/11
SSCTA
Lezione IX
C
S
H
N
C
C
O
C
C
S
C
H
N
C
C
O
C
O
H
Coordinate atomiche
30
Lezione IX
5
09/05/2011
Record SEQRES
Record HELIX
Numero progressivo dell‟elica
SEQRES
1
735 GLU VAL LYS GLN GLU ASN ARG LEU
SEQRES
2
735 SER SER SER GLN GLY LEU LEU GLY
SEQRES
3
735 LEU ASN PHE GLN ALA PRO MET VAL
SEQRES
4
735 THR GLY ASP LEU SER ILE PRO SER
SEQRES
5
735 ILE PRO SER GLU ASN GLN TYR PHE
SEQRES
6
735 SER GLY PHE ILE LYS VAL LYS LYS
SEQRES
7
735 PHE ALA THR SER ALA ASP ASN HIS
SEQRES
8
735 ASP ASP GLN GLU VAL ILE ASN LYS
SEQRES
9
735 LYS ILE ARG LEU GLU LYS GLY ARG
SEQRES 10
735 ILE GLN TYR GLN ARG GLU ASN PRO
SEQRES 11
735 ASP PHE LYS LEU TYR TRP THR ASP
SEQRES 12
735 GLU VAL ILE SER SER ASP ASN LEU
................................................
............................................
LEU
TYR
VAL
SER
GLN
SER
VAL
ALA
LEU
THR
SER
GLN
ASN
TYR
THR
GLU
SER
ASP
THR
SER
TYR
GLU
GLN
LEU
GLU
PHE
SER
LEU
ALA
GLU
MET
ASN
GLN
LYS
ASN
PRO
SER
SER
SER
GLU
ILE
TYR
TRP
SER
ILE
GLY
LYS
GLU
GLU
ASP
THR
ASN
TRP
THR
VAL
ASN
LYS
LEU
LYS
LEU
Riportano la struttura primaria della proteina
A.A. 2010/11
SSCTA
1
2
3
4
5
6
31
A
A
A
A
A
A
6
6
6
6
6
6
GLN
VAL
LEU
SER
LEU
PRO
94
87
113
62
20
32
ILE
VAL
GLN
LYS
PHE
SER
97
91
121
70
24
37
0
-1
-1
-1
-1
-1
Lezione IX
N
N
N
N
N
VAL
GLN
ILE
PHE
THR
91
119
69
24
36
O
O
O
O
O
GLN
THR
TYR
SER
GLY
94
88
114
62
21
33
Lezione IX
ASP
SER
ARG
ARG
ARG
ASP
SER
ARG
ARG
ARG
ASP
A
A
A
A
A
B
B
B
B
B
C
263
297
316
334
339
263
297
316
334
339
263
GLN
ALA
GLY
LEU
VAL
GLN
ALA
GLY
LEU
VAL
GLN
A
A
A
A
A
B
B
B
B
B
C
284
307
328
338
343
284
307
328
338
343
284
1
1
1
5
5
1
1
1
5
5
1
Lunghezza dell‟elica
(in numero di residui)
22
11
13
5
5
22
11
13
5
5
22
Punto finale
(aminoacido Alanina, 307° della catena A)
A.A. 2010/11
SSCTA
32
Lezione IX
HEADER
TITLE
COMPND
COMPND
COMPND
COMPND
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
SOURCE
KEYWDS
EXPDTA
AUTHOR
REVDAT
JRNL
JRNL
JRNL
JRNL
JRNL
JRNL
REMARK
REMARK
TOXIN
05-FEB-97
1ACC
ANTHRAX PROTECTIVE ANTIGEN
MOL_ID: 1;
2 MOLECULE: ANTHRAX PROTECTIVE ANTIGEN;
3 CHAIN: NULL;
4 SYNONYM: PA
MOL_ID: 1;
2 ORGANISM_SCIENTIFIC: BACILLUS ANTHRACIS;
3 ORGANISM_COMMON: ANTHRAX BACILLUS;
4 CELLULAR_LOCATION: SECRETED;
5 PLASMID: PXO1;
6 GENE: PAG
TOXIN, CALCIUM-BINDING
X-RAY DIFFRACTION
C.PETOSA,R.C.LIDDINGTON
1
11-FEB-98 1ACC
0
AUTH
C.PETOSA,R.J.COLLIER,K.R.KLIMPEL,S.H.LEPPLA,
AUTH 2 R.C.LIDDINGTON
TITL
CRYSTAL STRUCTURE OF THE ANTHRAX TOXIN PROTECTIVE
TITL 2 ANTIGEN
REF
NATURE
V. 385
833 1997
REFN
ASTM NATUAS UK ISSN 0028-0836
0006
1
2
A.A. 2010/11
SSCTA
34
Lezione IX
Sequenze
Dati e Proteine
• Le sequenze di aminoacidi che formano la struttura
primaria vengono ottenute mediante sequenziatori e
conservati in apposite banche dati
• Queste banche spesso conservano anche i dati del
genoma
• NCBI (National Center for Biotechnoly Information)
• Hanno un formato puramente testuale (sono
stringhe di lettere di un certo alfabeto)
• Esempi di sequenze biologiche:
• Sequenze DNA  formate da 4 tipi di lettere:
A (adenina), C (citosina), G (guanina), T (timina)
esempio: ATGCCGTAA, TAG, TTT, …
• Sequenze RNA  formate da 4 tipi di lettere:
A (adenina), C (citosina), G (guanina),U (uracile)
• http://www.ncbi.nlm.nih.gov/
• Enseble Genome Browser
esempio: AUCGCUAA, AUUCG, …
• http://www.ensembl.org/
• Sequenze proteiche  formate da 20 lettere
corrispondenti agli aminoacidi: A, C, D, E, F, G, H, I,
K, L, M, N, P, Q, R, S, T, V, W, Y
• Expasy Proteomics server
• http://www.expasy.org/
• EBI (European Bioinfomatics Institute)
• http://www.ebi.ac.uk/
A.A. 2010/11
SSCTA
1
2
3
4
5
6
7
8
9
10
11
Intestazione
•Per gli sheet la composizione del record è complessa in quanto tiene
conto di parecchi fattori che descrivono chimicamente la struttura
•Anche qui si notano gli aminoacidi di inizio e fine dei ponti
A.A. 2010/11
SSCTA
1
2
3
4
5
6
7
8
9
10
11
Punto d‟inizio
(aminoacido Serina, 297° della catena A)
Record SHEET
SHEET
SHEET
SHEET
SHEET
SHEET
SHEET
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
HELIX
esempio: MPIVDTGSVAPLSAAEK…
35
Lezione IX
A.A. 2010/11
SSCTA
36
Lezione IX
6
09/05/2011
Simboli degli aminoacidi
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gli
His
Ile
A
R
N
D
C
Q
E
G
H
I
A.A. 2010/11
SSCTA
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
• La struttura terziaria è più difficile da
ottenere
L
K
M
F
P
S
T
W
Y
V
37
Struttura Terziaria
• Bisogna disporre di cristalli macroscopici
• purificare la proteina e farla cristallizzare
• Studiare la diffrazione a Raggi X
• Ricostruire la cella elementare
• Alla fine si ottiene la posizione e la
distanze relativa fra gli atomi della
molecola
Lezione IX
A.A. 2010/11
SSCTA
Perché si parla di cristalli
38
Lezione IX
Cristalli
• L‟analisi ai raggi X permette di determinare la
struttura di molecole o proteine a livello atomico,
purché esse siano impaccate in modo regolare
• Cristalli (diamante, quarzo, grafite ….)
• Strutture dotate di periodicità nello spazio
• Ripetizione per traslazione
• Sono possibili diversi tipi di periodicità
• Simmetria
• Elemento caratteristico: cella elementare
• Prisma definito dai vettori di traslazione
A.A. 2010/11
SSCTA
39
Lezione IX
A.A. 2010/11
SSCTA
Protein Data Bank
40
Lezione IX
Il Protein Data Bank
• I file contenti le coordinate atomiche di
tutte le proteine note sono conservati nel
PROTEIN DATA BANK
• Informazioni sulla proteina
• Visualizzazioni della struttura
• File scaricabili ed analizzabili sul proprio
PC
• Tutte le strutture memorizzate ricevono
una sigla (chiave primaria)
• Le ricerche si eseguono per:
A.A. 2010/11
SSCTA
A.A. 2010/11
SSCTA
41
Lezione IX
• Chiave (se la si conosce)
• Spesso quando si parla di una struttura viene
indicata
• Nome della proteina
• Reazioni interessate
• Autori dello studio
42
Lezione IX
7
09/05/2011
Informazione contenuta in
ciascun record
Dati strutturali
• File formato PDB della struttura
• Composizione
• Coordinate atomiche
• File scaricabile (download)
•
•
•
•
• Numero di catene, residui e atomi
• Aspetti cristallografici
• Gruppo spaziale (tipo di impaccamento)
• Dimensioni di cella (lati ed angoli)
• Risoluzione
Sequenza primaria
Strumenti di visualizzazione
Proprietà
Collegamenti con altre banche dati
A.A. 2010/11
SSCTA
43
Lezione IX
A.A. 2010/11
SSCTA
Protein data bank
44
Lezione IX
Ricerca avanzata
Ricerca per chiave
Per autori
Per testo
contenuto
A.A. 2010/11
SSCTA
45
Lezione IX
A.A. 2010/11
SSCTA
Struttura 1PRE
46
Lezione IX
Rappresentazioni
Summary Information: dati generali
Serie di opzioni per la
visualizzazione
possono richiedono
plug-in
A.A. 2010/11
SSCTA
47
Lezione IX
A.A. 2010/11
SSCTA
48
Lezione IX
8
09/05/2011
File formato PDB
Download file
File formato PDB
Non compresso
E‟ un file di testo, leggibile e modificabile con wordPad
A.A. 2010/11
SSCTA
49
Lezione IX
A.A. 2010/11
SSCTA
Visualizzazione con rasmol
50
Lezione IX
Altri dati
Biology &
chemistry
Sequenza
FASTA
Materiali
& metodi
Struttura secondaria evidenziata
A.A. 2010/11
SSCTA
Rapp. space-fill; catene in diverso col.
51
Lezione IX
A.A. 2010/11
SSCTA
52
Lezione IX
Sequenza FASTA
A.A. 2010/11
SSCTA
53
Lezione IX
9
Scarica