POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
MATERIALE DIDATTICO
1
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Concetti di base
di INFORMATICA
2
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Definizione di Informatica ed Informazioni
La parola INFORMATICA indica l‟insieme delle discipline e delle tecniche che permettono la
trattazione automatica delle informazioni che sono alla base delle nostre conoscenze e delle loro
comunicazioni.
Il termine INFORMATICA è nato nel 1966 in Francia dalla contrazione delle parole
INFORmazione e autoMATICA
Una Informazione è una “Sequenza (o stringa) di simboli associata a un significato”.
I possibili supporti fisici per l‟informazione sono suono (conversazioni tra persone), onde radio
(radio e televisione), correnti e tensioni elettriche (cavi telefonici), campi magnetici (audiocassette,
floppy disk), segni su carta (libri, giornali).
Sull‟informazione
si
possono
effettuare
numerose
operazioni:
creazione,
trasmissione,
immagazzinamento (archiviazione), recupero, copia, distruzione, elaborazione (trasformazione).
I simboli che fanno parte della sequenza vengono scelti all‟interno di un insieme detto alfabeto.
Esempi di alfabeti:
- Alfabeto italiano, 21 simboli (lettere): {A, B, …., V, Z}
- Alfabeto numerico decimale, 10 simboli (cifre): {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
- Alfabeto telegrafico Morse, 2 simboli: {., -}
- Alfabeto del Totocalcio, 3 simboli: {1, X, 2}
Da questi esempi risulta evidente la necessità di regole che associno un significato a queste stringhe
di simboli.
Un siffatto insieme di regole prende il nome di codice. Nei sistemi per l‟elaborazione
dell‟informazione viene adottato un alfabeto composto da soli 2 simboli, rappresentati dalle cifre 0
e 1. Tale alfabeto è detto alfabeto binario.
3
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Una cifra binaria viene definita bit (da binary digit, “cifra binaria”). Una stringa di 8 bit è definita
byte (28=256 valori diversi)
Ci sono vari tipi di informazioni:
1. Informazione di tipo numerico è indicata da una quantità numerica.
2. Informazione di tipo alfanumerico è rappresentata da un carattere {A, …, Z, a, …, z, 0, …, 9, ;,
:, ., @, $, ... }
3. Informazione di tipo logico è rappresentata da grandezze logiche, cioè grandezze che possono
avere soltanto due valori: vero o falso. Questo tipo di informazione è associato al valore di verità di
un determinato enunciato: vero se l‟enunciato è vero, falso se l‟enunciato è falso. Le informazioni
di tipo logico si possono manipolare in maniera simile ai numeri; la differenza è che invece delle
operazioni aritmetiche (+, -, etc) si utilizzano delle operazioni logiche (AND, OR, NOT).
L‟operazione AND agisce su due operandi. Il valore dell‟AND di due operandi è vero soltanto
quando entrambi gli operandi hanno valore vero.
falso AND falso = falso
falso AND vero = falso
vero AND falso = falso
vero AND vero = vero
L‟operazione OR agisce su due operandi. Il valore dell‟OR è vero se almeno uno dei due operandi è
vero.
falso OR falso = falso
falso OR vero = vero
vero OR falso = vero
vero OR vero = vero
L‟operatore NOT agisce su un solo operando e ha come valore il contrario del valore dell‟operando.
4
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
NOT falso = vero
NOT vero = falso
4. Informazione di tipo istruzione è un‟operazione da eseguire. Il codice che associa ad ogni stringa
binaria l‟azione da eseguire viene detto linguaggio macchina, che è interpretabile dalla CPU.
5. Altri tipi di informazioni sono suoni, immagini, filmati, oggetti tridimensionali
5
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Caratteristiche generali di un Computer
Il Computer è definito come il “sistema per l‟elaborazione dell‟informazione”.
Questo sistema è costituito da due componenti: Hardware e Software. L‟hardware è l‟insieme di
tutti i circuiti delle macchine e dei componenti elettronici, elettrici e meccanici di un sistema di
elaborazione. Il software è l‟insieme dei programmi operanti su di esso.
Un Computer è definito
digitale poichè tutti i suoi principi di funzionamento sono fondati su basi logiche e matematiche;
automatico dal momento che evolve da uno stato iniziale a uno stato finale eseguendo
automaticamente, senza interventi esterni, un numero finito di operazioni;
elettronico poiché sono elettronici i circuiti preposti all‟esecuzione delle istruzioni, così come gli
elementi bistabili che costuiscono le memorie del sistema;
a programma registrabile poiché la sequenza di istruzioni costituenti il programma è immagazzinata
nella stessa memoria dell‟elaboratore. Ciò conferisce ampia flessibilità al sistema, poiché
cambiando il programma registrato si può cambiare l‟elaborazione che viene compiuta.
6
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Le varie Componenti del computer
Le unità che compongono un computer sono indicate nel Modello di Von Newman:
Il Processore (CPU) comprende l‟unità di controllo, l‟unità aritmetico-logica ed i registri interni.
L‟Unità di Controllo (CU, Control Unit) presiede a tutte le operazioni eseguite dall‟elaboratore,
interpretando le istruzioni prelevate in sequenza dalla memoria centrale e inviando alle specifiche
unità i segnali abilitanti.
L‟Unità logico-aritmetica (ALU, Arithmetical Logical Unit) esegue le operazioni aritmetiche e
logiche richieste dall‟unità di controllo.
I registri interni servono per memorizzare i dati sui quali il processore sta operando, come ad
esempio i risultati intermedi dei calcoli.
La Memoria comprende la memoria centrale, la memoria ROM e le memorie ausiliarie. Le funzioni
di memoria di un elaboratore sono distribuite in una gerarchia con il principio di allocare negli strati
più bassi le informazioni che vengono richiamate più spesso e gestire il loro trasferimento fra i
diversi strati.
La Memoria centrale (RAM, Random Access Memory) è un insieme ordinato locazioni (anche
dette celle) numerate in successione. Ogni locazione è identificata dal suo numero d‟ordine, che
7
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
prende il nome di indirizzo della locazione. LA RAM è una memoria ad accesso casuale.
L‟operazione di scrittura in una locazione consiste nell‟alterare lo stato dei singoli bit che la
costituiscono in modo da registrare la sequenza di 0 e 1 da memorizzare. Tale operazione è
distruttiva. L‟operazione di lettura di una locazione consiste nel riprodurre (copiare) lo stato dei
singoli bit che la costituiscono nei bit corrispondenti di un‟altra locazione o registro. Tale
operazione è non distruttiva perché l‟informazione letta viene preservata e può essere letta di nuovo.
La ROM (Read Only Memory) è elettronica e ad accesso casuale come la RAM. Inoltre, è
permanente e a sola lettura: una volta che le informazioni vi sono state memorizzate non è più
possibile modificarle. I chip di ROM vengono inizializzati in fabbrica all‟atto della produzione e
contengono software specializzato (gestione di periferiche, set aggiuntivi di caratteri per stampanti,
programma di avvio del sistema (boot loader))
Le memorie di massa sono dischi rigidi, floppy disk, CD-ROM, nastri ed etc.
L‟Unità di Ingresso(Input devices) sono impiegate per immettere il programma in fase di
caricamento e i dati in fase di esecuzione. Sono indicate come unità di ingresso: tastiera, mouse,
penna ottica, floppy disk drive (unità a floppy), hard disk drive (unità a disco rigido), CD-ROM
(lettore di CD-ROM), scanner, modem, telecamera, scheda per la connessione in rete locale
(Ethernet), microfono.
L‟Unità di Uscita (Output devices) sono impiegate per presentare i risultati dell‟elaborazione. Sono
indicate come unità di uscita: monitor, stampante, plotter, floppy disk drive e hard disk drive,
masterizzatore di CD-ROM, modem, interfacce varie, scheda per la connessione in rete locale,
dispositivi audio.
8
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Hardware e Software
Un sistema per l‟elaborazione dell‟informazione consiste di due componenti : l‟hardware ed il
software
Una macchina reale è costituita solo dall‟hardware mentre una macchina virtuale è costituita dalla
macchina reale + software.
La macchina reale esplica le funzioni fondamentali del sistema di elaborazione ed è in grado di
effettuare un grande numero di operazioni elementari in tempi molto ridotti rispetto a quelli umani
La macchina reale è programmabile esclusivamente in linguaggio macchina ed è, pertanto, molto
scomoda da utilizzare direttamente: infatti, la programmazione in linguaggio macchina è ardua e
poco efficace. E‟ difficile adattare la logica sintetica del pensiero umano a quella analitica ed
elementare della macchina reale. Per superare queste difficoltà si realizzano degli strati di software
che vanno a ricoprire la macchina reale.
Si possono distinguere due tipi di software: software di base e software applicativi.:
Il Software di base è l‟insieme di programmi necessari per lo stesso funzionamento del sistema che
costituiscono macchine virtuali di basso livello.
Il Software applicativo è costituito da tutti i programmi orientati alla risoluzione di problemi
specifici utilizzati direttamente dall‟utente finale.
9
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Sistema operativo
Il sistema operativo è una collezione di moduli software che gestiscono le risorse hardware e
software e controllano lo svolgimento delle diverse procedure di elaborazione.
Le macchine virtuali di livello più basso sono tutte realizzate da moduli di sistema operativo.
Fra i vari moduli c‟è un supervisore o kernel che risiede stabilmente in memoria centrale,ossia
viene caricato una tantum all‟atto dell‟accensione del sistema.
Gli altri moduli, residenti in memoria di massa, vengono richiamati dal supervisore e caricati in
memoria centrale quando devono svolgere i compiti specifici di loro competenza (ad esempio
loader, shell, driver)
Il sistema operativo gestisce le risorse disponibili e le periferiche, controlla l‟esecuzione dei
programmi ed interagisce con l‟utente.
In dettaglio, il sistema operativo deve fare in modo che le richieste per accedere a tali risorse
vengano servite in maniera ottimale (come l‟esecuzione di vari programmi, le code di stampa,
l‟accesso ai file su disco..).
Per ogni periferica il sistema operativo ha un modulo chiamato driver. I driver di periferica sono
programmi specializzati nel tradurre richieste formulate dall‟utente in una forma comprensibile
dalla periferica (Es. Driver per una stampante).
Quando si ci propone di eseguire un programma, che risiede in memoria di massa, il sistema
operativo deve copiarlo in memoria centrale. In questo caso, viene avviato un modulo del sistema
operativo chiamato loader, che si occupa di copiare il programma dalla memoria di massa nella
RAM.
Inoltre, un altro modulo all‟interno del sistema operativo è l‟interprete di comandi, anche detto
shell. Esso è un interprete che risponde i comandi forniti dall‟utente tramite la tastiera o il mouse e
10
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
li traduce uno ad uno in comandi di livello più basso che portino a termine le azioni specificate
dall‟utente.
I sistemi operativi più diffusi sono MS-DOS, Windows e Unix/Linux.
MS-DOS non risiede nella memoria ROM ma viene caricato da disco. Esso implementa la
monoprogrammazione per singolo utente, con delle limitatissime capacità di multiprogrammazione.
Windows non è nato come un sistema operativo ma come un programma applicativo che
aggiungeva una interfaccia grafica al sistema operativo MS-DOS. Oggi è il più diffuso sistema
operativo che implementa la multiprogrammazione in monoutenza e permette la condivisione di
risorse fra elaboratori connessi in rete.
Unix/Linux permettono la multiprogrammazione e multiutente; l‟accesso a questo sistema è
possibile anche attraverso terminali remoti.
11
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Collegamenti fra sistemi elaborativi
Un sistema per l‟elaborazione dei dati può essere dislocato in un impianto singolo o può essere
distribuito su vari laboratori. In quest‟ultimo caso le varie unità sono interconnesse tramite una rete
di trasmissione dati (rete). Possiamo distinguere 3 tipi di rete: LAN, MAN e WAN.
Una Rete locale (LAN) è una rete di interconnessione di estensione limitata tipicamente all‟ambito
di un solo edificio, e che non attraverso suolo pubblico.
Una Rete geografica è una rete di interconnessione di estensione maggiore, che può coprire un‟area
cittadina (MAN, Metropolitan Area Network) o anche un territorio più vasto (Widea Area Network)
Reti locali
I vari componenti sono connessi mediante un cavo coassiale. Sia i sistemi sia le periferiche possono
essere di natura e marca diversa, creando una rete eterogenea (ethernet), in cui tutte le risorse
presenti sono utilizzabili da ciascuno dei punti di accesso alla rete.
Un apposito insieme di programmi (software di rete) implementa una serie di macchine virtuali, che
si occupano di gestire lo scambio di informazioni secondo un preciso protocollo. Con il termine
protocollo si intende un insieme di regole che governano i dettagli tecnici dello scambio di
informazioni. Il software di rete risolve anche gli eventuali conflitti (collisioni) dovuti alla richiesta
contemporanea di accesso alla stessa risorsa da parte di due o più utenti della rete.
Reti geografiche
Una rete geografica può essere privata (banca, industria) o pubblica (università , enti di ricerca).
Più reti separate possono essere collegate mediante gateway. Poiché ciascuna delle reti collegate
12
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
può avere un protocollo diverso, il gateway provvede all‟opportuna conversione di protocollo al
fine di garantire una corretta trasmissione delle informazioni.
Tutte le reti create da organizzazioni tecnico-scientifiche sono collegate tra loro, pervenendo così
alla costituzione di una rete unica internazionale che tocca quasi tutti i paesi del mondo: Internet,
Inter-network, cioè “reti fra reti”.
Ogni sistema connesso in rete è definito nodo.
13
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Servizi di rete
I principali sono:
1) Posta elettronica o E-mail consente lo scambio di messaggi personali tra utenti dei nodi della
rete. È possibile spedire messaggi a più persone contemporaneamente (mailing list).
2) FTP (File Transfer Protocol) èservizio di rete che consente di trasferire file da un nodo ad un
altro.
3) Telnet (Teletype Network) è possibile effettuare procedure di elaborazione su un sistema remoto.
4) World Wide Web o WWW è definito ragnatela diffusa in tutto il mondo. In questa modalità di
fruizione della rete, l‟utente sfoglia un ipertesto suddiviso in pagine. All‟interno di ciascuna pagina
esistono degli oggetti chiamati link (parole o icone) che, se attivati, richiamano suoni, animazioni o
altre pagine (scritte in HTML).
Indirizzi Internet
Possiamo distinguere due tipi di indirizzi internet (Domain name e IP).
Domain name è una stringa di caratteri, intervallata da punti, che individua un nodo della rete
Ad esempio l‟indirizzo: sirio.acme.it
Indica che il nodo si trova in Italia (it)
il nodo sta in un sub-network che si chiama „acme‟ (rete privata di un‟aziena o di
un‟università)
il nodo che ci interessa nel sub-network acme.it si chiama „sirio‟.
14
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Indirizzi IP è costituito da 4 numeri separati da punti.
Esempio: 192.9.18.1
La traduzione da indirizzo IP a FQDN si chiama name serving e richiede la consultazione di un
enorme database che, a causa delle proprie dimensioni, è distribuito su tutta Internet invece di
risiedere su un solo elaboratore.
Indirizzi di posta elettronica
Questo tipo di indirizzo oltre a specificare un nodo, deve anche specificare un utente di quel nodo.
Il formato è utente @ host, dove host è il domain name del sistema utilizzato dal destinatario,
mentre utente è il nome con cui il destinatario è conosciuto presso il suo sistema remoto.
Negli indirizzi di posta elettronica non si usano l‟ indirizzo IP al posto del FQDN.
Indirizzi www
Gli indirizzi www sono indirizzi di pagine Web e si dicono URL (Uniform Resource Locator).
Il formato usato è prot://host/pathname dove
-„prot‟ indica il protocollo da utilizzare (tipo http o ftp)
-„host‟ è il domain name o l‟indirizzo IP su cui risiede la pagina (tipo www)
-„pathname‟ è il pathname del file che contiene la pagina.
15
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Varie topologie di rete
a
c
b
e
d
Possiamo distinguere 5 tipologie di rete.
Nella topologia di rete ad albero (a) il traffico va dai terminali dei livelli più bassi verso i sistemi
intermedi o il sistema del livello più alto. Il sistema del livello più alto è il più potente dell‟intera
struttura, infatti provvede alle richieste di tutta la rete. Tale livello è responsabile della gestione
completa dell‟intera rete, ma può anche esistere una cooperazione, per la gestione il controllo della
rete, fra il nodo principale ed alcuni o tutti i sistemi di livello inferiore (a cui vengono assegnati
compiti gestionali specifici o limitati ad una specifica sottorete.
In questo caso l‟inconveniente è che il sovraccarico del sistema principale provoca il rallentamento
dei servizi per tutti gli utenti.
16
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La topologia di rete a stella (b) è simile alla rete ad albero, da cui differisce per il fatto che non c‟è
alcuna distribuzione funzionale: tutte le funzioni riguardanti gli utenti periferici sono realizzate nel
nodo centrale.
La Topologia di rete a maglia (c) collega le varie stazioni con diversi circuiti. Ciò assicura buone
prestazioni perché il traffico viene ripartito sui vari percorsi ed aumenta l‟affidabilità dell‟intera
struttura, grazie ai percorsi multipli.
Nella topologia di rete dorsale (d) un unico cavo collega tutte le stazioni: la trasmissione di una
stazione viene ricevuta da tutte le altre.
L‟inconveniente è che l‟eventuale interruzione del cavo mette fuori uso l‟intera rete e la mancanza
di punti di concentrazione rende difficoltosa l‟individuazione di eventuali punti di
malfunzionamento.
Nella topologia di rete ad anello (e) la trasmissione è unidirezionale ma, essendo l‟anello un circuito
chiuso su se stesso, è possibile inviare un messaggio da qualsiasi stazione verso qualsiasi altra
anche trasmettendo sempre nello stesso senso.
17
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Concetti di base
di BIOCHIMICA
18
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Concetti fondamentali riguardo le proteine
Le proteine sono le macromolecole più abbondanti delle cellule e sono presenti in tutte le cellule ed
in tutti i compartimenti cellulari.
Una singola cellula può contenere migliaia di proteine diverse, con svariate funzioni diverse.
Tutte le proteine sia che derivino dal batterio più vecchio che dalla forma di vita più complessa,
sono costituite dallo stesso numero gruppo di 20 amminoacidi, legati tra loro in modo covalente in
caratteristiche sequenze lineari.
Poiché ognuno dei 20 amminoacidi ha una sua caratteristica catena laterale da cui dipendono le
proprietà chimiche, questo gruppo di precursori chimici può essere considerato come l‟alfabeto con
cui viene scritto il linguaggio delle proteine.
Le proteine sono catene di amminoacidi, uniti tra loro da uno specifico legame covalente. È
importante il fatto che le cellule possano produrre proteine con proprietà diverse solo legando tra
loro gli stessi 20 amminoacidi, ma in combinazioni ed in sequenze diverse.
Da questi blocchi di costruzione, organismi diversi ottengono una varietà di prodotti diversi, come
enzimi, ormoni, anticorpi ed una miriade di altre sostanze con attività biologiche diverse.
Gli amminoacidi
Tutti i 20 amminoacidi presenti nelle proteine hanno un gruppo carbossilico ed un gruppo amminico
legati allo stesso atomo di carbonio.
Essi differiscono l‟uno dall‟altro per la catena laterale o gruppo R, che ha struttura, dimensioni e
carica diversa ed influenza la solubilità dell‟amminoacido in acqua.
Questa è la struttura generale di un amminoacido:
19
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Questa è la struttura dell‟amminoacido in acqua (zwitterione):
Il carbonio in  è asimmetrico, perché è legato a 4 sostituenti diversi: un gruppo carbossilico, un
gruppo amminico, un idrogeno ed un gruppo R. Poiché la disposizione degli orbitali di legame
intorno al carbonio a è di tipo tetraedrico, i quattro sostituenti possono disporsi nello spazio in due
modi nello spazio, che sono immagini speculari non sovrapponibili l‟uno dell‟altro.
Queste due forme sono dette enantiomeri o diastereoisomeri.
I due diastereoisomeri dell‟alanina:
L-alanina
D-alanina
20
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Proprietà delle catene laterali degli ammino-acidi
La catena laterale (gruppo R) degli amminoacidi gioca un ruolo importante per la determinazione
delle proprietà delle proteine. Possiamo distinguere 6 tipi di catena laterale:
Alifatica: Glicina, alanina, valina, leucina, isoleucina
Contenente idrossile o solfuro: Serina, cisteina, treonina, metionina
Aromatica: Fenilalanina, tiroxina, triptofano
Basica: Istidina, lisina, arginina
Acida e la forma ammidica: Acido aspartico,acido glutammico, asparagina, glutammica
Ciclica: prolina (che ha proprietà in comune con i gruppi alifatici).
Possibili reazioni delle catene laterali
La cisteina ha un gruppo R (un gruppo tiolico) che si comporta come un acido, come l‟ossidrile
della tirosina.
La cisteina richiede una particolare attenzione in quanto è facilmente ossidabile trasformandosi
mediante la formazione di un legame covalente con un‟altra molecola di cisteina, nel dimero cistina,
in cui i due monomeri sono uniti da un ponte disolfuro.
21
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
I ponti disolfuro sono spesso presenti in proteine quali l‟insulina.
Catene laterali e punto isoelettrico
Di seguito sono riportati i valori di pka relativi alle catene laterali dei vari amminoacidi:
Catena laterale
-Carboxyl
Asp, Glu
His
Cys (SH)
Tyr (OH)
-Amino
Lys
Arg
Campo di pKa
1.8-2.6
4.0-4.8
6.5-7.4
8.5-9.0
9.5-10.5
8.0-9.0
9.8-10.4
12.0-12.5
Gli ammino-acidi aromatici (triptofano, tirosina e fenilalanina) assorbono luce nella regione
ultravioletta dello spettro (250-300 nm). Il triptofano ha la più alta assorbanza molare, seguito dalla
tirosina e dalla fenilalanina con un piccolo contributo.
Alcune catene laterali degli amminoacidi nelle proteine sono modificate come le seguenti:
22
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
O-fosfoserina
4-Idrossiprolina
Il legame Peptidico
Nelle proteine gli amminoacidi sono legati insieme per mezzo del legame peptidico che si forma da
una reazione del gruppo carbossilico di un amminoacido con il gruppo amminico di un altro
amminoacido.
Di seguito è riportato in celeste il legame peptidico che si forma tra una Glicina ed una Alanina.
Se questo processo si ripete con più amminoacidi, si produce una lunga catena che prende il nome
di peptide e polipeptide.
23
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La sequenza del polipeptide si scrive iniziando con il residuo che contiene il gruppo amminico
libero (N- terminale) e finendo con il residuo che contiene il gruppo carbossilico terminale.
I quattro atomi impegnati nel legame peptidico (O, C, N e H) si trovano quasi su uno stesso piano.
Infatti, a causa del parziale carattere di doppio legame del legame peptidico non c‟è libera rotazione
attorno al legame peptidico.
Generalmente la configurazione del legame peptidico è di tipo trans per rendere minime le
interazioni steriche.
Cis
Trans
Esempi di reazioni chimiche degli Amminoacidi
Tutti gli amminoacidi hanno almeno due gruppi reattivi, l‟ammino gruppo e il gruppo carbossilico,
e possono reagire con una serie svariata di reagenti.
24
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Ecco due esempi:
25
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Struttura delle proteine
La struttura di una proteina è formata da
Struttura primaria, cioè la sequenza di amminoacidi delle sue catene peptidiche.
Struttura secondaria, l‟arrangiamento spaziale dello scheletro peptidico.
Struttura terziaria, la forma che l‟intero peptide assume nello spazio.
Struttura quaternaria, la struttura nello spazio di proteine composte di due o più catene
polipeptidiche denominate subunità.
26
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La struttura primaria delle proteine
La composizione degli amminoacidi
La composizione in amminoacidi è una caratteristica fondamentale di ogni proteina.
Infatti, l‟idrolisi in ambiente acido libera gli amminoacidi che analizzati mediante cromatografia a
scambio ionico in un analizzatore automatico. I picchi relativi agli amminoacidi sono determinati
usando la Ninidrina che reagendo con i gruppi NH2 liberi produce un color porpora secondo la
reazione che segue.
La determinazione della sequenza degli amminoacidi viene fatta per deduzione usando il
sequenziamento dei geni
Si usano processi automatici basati sulla degradazione di Edman. Però anche se la reazione
procede con rese del 90% dopo circa 25 cicli è difficile determinare il nuovo prodotto rilasciato.
Perciò una degradazione di Edman singola non basta.
Di seguito è riportato uno schema relativo alla degradazione di Edman:
27
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Precisamente la proteina viene degradata con un enzima, come la tripsina, che genera vari polipetidi
che vengono separati e sequenziati. In particolare, la tripsina taglia il legame peptidico sui carbonili
di Lys o Arg, come illustrato in seguito, mentre la chimotripsina sui carbonili della Phe, Trp o Tyr.
Negli ultimi anni viene spesso utilizzata la spettrometria di massa associata a vari strumenti
bioinformatici che permettono di verificare la somiglianza della sequenza caratterizzata con altre
sequenze depositate nelle banche dati.
28
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Di seguito è riportato un esempio:
#1
MKRTYQPNRRKRSKVHGFRARMSTKNGRKVLARRRRKGRKVLSA
#2
MKRTWQPSKLKHARVHGFRARMATKNGRKVIKARRAKGRVRLSA
#3
MKRTYQPSRVKRNRKFGFRARMKTKGGRLILSRRRAKGRMKLTV
#4
MKRTFQPSILKRNRSHGFRTRMATKNGRYILSRRRAKLRTRLTV
#5
MKRTYQPSKQKRNRTHGFRARMATKNGRQVLNRRRAKGRKRLTV
#6
TKRTFQPNNRRRARKHGFRARMRTRAGRAILSARRGKNRAELSA
#7
SKRTFQPNNRRRAKTHGFRLRMRTRAGRAILANRRAKGRASLSA
#8
GKRTFQPNNRRRARVHGFRLRMRTRAGRSIVSDRRRKGRRTLTA
Il grado di identità tra le sequenze può essere usato per costruire una matrice di distanza che ci
indica la correlazione tra sequenze differenti. Basandosi su questa matrice si può costruire un albero
filogenetico. Di seguito è riportato un esempio di matrice di distanze e di albero filogenetico.
29
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Esempio della sequenza (struttura primaria) di una proteina
Questa è la struttura primaria dell‟insulina bovina, composta da due catene polipeptidiche (A e B).
In verde è riportata la catena A ed in rosso la catena B. Le due catene sono unite da due ponti
disolfuro. La catena A contiene a sua volta un ponte disolfuro interno.
30
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La struttura secondaria delle proteine
Il legame peptidico ha un parziale carattere di doppio legame che induce gli atomi O-C-N-H dello
scheletro peptidico a trovarsi su di un piano.
Quindi gli unici gradi di libertà per la rotazione nello scheletro peptidico sono i legami attorno al
C, phi () e psi (). Comunque ci sono significative limitazioni ai valori degli angoli  e  a
causa degli ingombri sterici tra gli atomi. Di seguito è riportato un esempio del grafico di
Ramachandran che mostra le zone permesse per gli angoli e
31
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Tipi struttura secondaria
Le proteine hanno le catene laterali idrofobiche rivolte verso l‟interno e quelle idrofile sulla
superficie. Si conoscono vari tipi di struttura secondaria (-elica, -foglietti e ripiegamenti).
Conformazione -elica
In questa conformazione lo scheletro del polipeptide è strettamente arrotolato intorno all‟asse
longitudinale della molecola e le catene laterali dei residui sporgono verso l‟esterno dello scheletro.
I residui amminoacidici in una a-elica hanno conformazioni con angoli psi variabili tra -45° e -50° e
phi di circa -60°. Ogni giro dell‟elica contiene 3,6 residui amminoacidici ed è stabilizzata da legami
ad idrogeno che si formano tra il gruppo CO di un residuo n ed il gruppo NH del residuo n+4.
L‟-elica possiede un momento dipolare. Infatti, i legami ad idrogeno in una  -elica sono orientati
lungo l‟asse, tutte le unità del legame peptidico sono allineati nella stessa direzione. A causa del
32
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
dipolo presente nei legami NH e C=O, anche l‟elica avrà un suo momento di dipolo che attraversa
l‟elica con una parziale carica positiva sul N terminale e parziale carica negativa sul C terminale.
Conformazione 
Questa conformazione, al contrario dell‟-elica, che è costituita da un‟unica regione continua,
risulta dalla combinazione di più regioni della catena polipeptidica.
Queste regioni, dette filamenti beta, hanno lunghezza di 5-10 residui ed una conformazione quasi
completamente distesa, con coppie di angoli phi e psi che ricadono nell‟ampia regione presente nel
quadrante superiore sinistro del grafico di Ramachandran.
Se i filamenti sono orientati in modo tale che l‟estremità N terminale e C terminale vanno nella
stessa direzione, si parla di struttura a pieghe parallela. Nel disegno i C sono in rosso, in azzurro i
legami ad idrogeno.
33
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Se i filamenti sono orientati nel senso che l‟estremità N terminale e C terminale si trovano in
direzioni opposte, allora si parla di strutture a
pieghe antiparallele.
34
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Loop e turn
La maggior parte delle proteine contengono una combinazione delle due strutture interconnesse per
mezzo di anse (loop). Queste strutture hanno lunghezza e forma irregolari e sono localizzate sulla
superficie della proteina. Di solito i loop formano legami idrogeno con l‟acqua.
Di seguito sono elencati vari motivi che si ripetono nelle proteine:
Elica-loop-elica: motivo utile per legare il Calcio.
Forcina  (-turn): che sarebbe un beta-loop-beta. Esso consiste di due filamenti  adiacenti uniti
da una regione loop che può contenere da 2 a 5 residui. Questo motivo si ha quando i filamenti sono
antiparalleli.
Beta-elica-beta: motivo che si ha quando i filamenti sono paralleli.
35
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Struttura terziaria
La maggior parte delle proteine hanno una forma globulare organizzandosi a formare una struttura
terziaria compatta.
È stata determinata mediante metodi sperimentali la struttura tridimensionale di molte proteine
mediante Risonanza Magnetica Nucleare (NMR) e diffrazione ai raggi X (RX).
La combinazione di elementi di sruttura secondaria porta alla definizione di motivi.
Alcuni di questi motivi hanno un significato funzionale, come il motivo elica-loop-elica che lega il
DNA o il Calcio, altri, invece, hanno solo un ruolo strutturale.
Una catena con più di 200 amminoacidi si organizza in due o più gruppi compatti che possono
essere definiti come domini. Ci sono tre tipi principali di domini:

domini alfa, composti solo di alfa eliche (ad es. mioglobina).

domini beta, con tutta struttura beta. (ad es. superossido dismutasi (SOD))

domini alfa beta, contenenti struttura beta e alfa-eliche. (ad es. ubiquitina).
Domini adiacenti sono connessi da uno o due segmenti di catena peptidica. Ad esempio la
proteina SEB (Enterotoxin type B) ha un dominio alpha-beta ed uno beta.
Esaminando la struttura delle proteine, si sono raggiunte alcune considerazioni generali circa il
ripiegamento della catena polipeptidica a raggiungere la struttura terziaria:
1. Tutte le proteine globulari hanno le catene idrofobiche rivolte verso l‟interno e quelle idrofile
verso l‟Esterno.
2. Le proteine globulari sono compatte.
36
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
3. Loop e turn si trovano di solito all'esterno.
4. Mutazioni amminoacidiche delle sequenze che portano catene laterali idrofobicheverso l‟esterno
(sulla superficie) causano cambiamenti significativi nel foding (ripiegamento) della proteina.
La stabilizzazione della struttura terziaria
Il modo per dimostrare l‟importanza di una specifica struttura di una proteina per la sua funzione
biologica è quello di alterare la struttura e stabilirne l‟effetto sulla funzione.
Un tipo di alterazione estrema è la perdita totale dell‟organizzazione tridimensionale, con
l‟assunzione di strutture casuali; questo processo va sotto il nome di denaturazione. Le proteine
possono denaturarsi non soltanto con il calore ma anche con pH estremi, con certe miscele di
solventi organicicome l‟alcol e l‟acetone, con alcuni tipi di soluti
come l‟urea oppure con
determinati detergenti.
Per esempio bollendo una proteina si rompono molte interazioni deboli. I solventi organici, l‟urea
ed i detergenti agiscono disturbando le interazioni idrofobiche che rendono stabile il nucleo delle
proteine; i pH estremi modificano la carica netta della proteina determinando repulsioni
elettrostatiche e la rottura di legami idrogeno.
In realtà, è bene ricordare che la struttura nativa di una proteina è solo marginalmente stabile; non è
quindi necessario rompere tutte le interazioni deboli per ridurre la stabilità termodinamica ad un
livello insufficiente per mantenere la conformazione proteica nativa.
Comunque un processo di denaturazione di una proteina è un processo reversibile. Infatti, alcune
proteine globulari denaturate con il calore o a pH estremi possono riacquistare la loro struttura
37
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
nativa e la loro attività biologica (rinaturazione) se vengono portate nelle condizioni in cui la
conformazione nativa è stabile.
38
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La Struttura Quaternaria delle proteine
Molte proteine contengono due o più catene polipeptidiche denominate Subunità. La disposizione
delle proteine e delle subunità proteiche in complessi tridimensionali costituisce la struttura
quaternaria della proteina. Le forze che tengono insieme le varie subunità sono le forze di Van der
Waals, ponti salini e legami idrogeno.
L‟esempio classico per questo tipo di struttura è l‟Emoglobina (Vedi capitolo sull‟Emoglobina).
Il folding (ripiegamento) delle proteine
La sequenza di amminoacidi di una proteina contiene tutte le informazioni necessarie alla proteina
per ripiegare in una struttura tridimensionale corretta e biologicamente attiva. Uno degli importanti
problemi insoluti in biochimica “il problema del folding” cioè “di come si ripiegano le proteine?”
39
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Il processo più probabile comincia con la formazione di elementi della struttura secondaria che
servono come centri di enucleazione attorno ai quali la struttura nativa della proteina si può
formare. Questi nuclei con appropriata struttura secondaria interagiscono tra loro finché non
formano una superstruttura (dominio). Poi questi domini strutturali e secondari si avvicinano a
formare una struttura secondaria estesa ma a struttura terziaria disordinata. Questo stadio è definito
globulo fuso.
Infine, un piccolo riordinamento del globulo fuso genera la conformazione nativa (come si vede
dall‟animazione che segue). È una Cold Shock Protein (CspA) da Escherichia Coli e sono mostrati
anche gli ipotetici stadi del processo.
In realtà, è ormai chiaro che ci sono delle proteine accessorie che partecipano al processo del
ripiegamento. Fra queste ci sono le Chaperones che, costituite da molte subunità, utilizzano ATP
per "guidare" le proteine nel processo corretto di ripiegamento.
40
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La determinazione sperimentale della struttura delle proteine
La struttura tridimensionale di una proteina può essere determinata sperimentalmente mediante due
tecniche principali: la diffrattometria ai raggi X di cristalli proteici o la risonanza magnetica
nucleare (NMR). L‟utilizzo di questi metodi richiede attrezzature molto sofisticate e costose ed
inoltre la disponibilità della proteina in forma estremamente pura. Nel caso dell‟NMR la proteina
viene analizzata in soluzione, ma si richiedono concentrazioni elevate, con il rischio che la proteina
precipiti; nel caso della cristallografia è necessario disporre di un cristallo proteico di adeguata
qualità, il che può richiedere tempi lunghi o addirittura non essere possibile. La complessità
dell'interpretazione dei dati cresce con il numero di amminoacidi, soprattutto nel caso dell‟NMR,
per cui questa tecnica è risultata finora applicabile solo per piccole proteine (non più di 250-300
amminoacidi), mentre nel caso della cristallografia a raggi X si possono ottenere risultati anche con
proteine molto grandi, ma a risoluzioni relativamente basse (2-3 Å) che non consentono
un‟interpretazione esatta delle posizioni degli atomi nello spazio.
Tali difficoltà spiegano la differenza esistente tra il numero di strutture tridimensionali note
(dell‟ordine di 104) e il numero di sequenze note (dell‟ordine di 106), recentemente incrementato
esponenzialmente grazie anche ai progressi e all‟automazione dei metodi di sequenziamento.
Perciò, in alternativa ai metodi sperimentali, ma anche sulla base dei loro risultati, si sono sviluppati
dei metodi computazionali aventi come scopo la predizione della struttura secondaria e terziaria di
una proteina, partendo dalla sola conoscenza della sua sequenza di amminoacidi. Anche se possono
esserci difficoltà, che impediscono il raggiungimento di una predizione affidabile, questi metodi
costituiscono un‟alternativa promettente alla cristallografia e all'NMR, ed inoltre, sono in continua
evoluzione. I miglioramenti sono possibili grazie sia alle sempre maggiori conoscenze sulla
struttura proteica, che consentono di sviluppare metodi più accurati, sia al potenziamento degli
strumenti di calcolo, che permettono l‟utilizzo di algoritmi sempre più complessi.
41
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Concetti di base
sull’algebra delle matrici e sull’analisi statistica
42
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Vettori
Definizione 1. Si definisce vettore numerico di ordine n un insieme ordinato di n numeri che
vengono detti scalari non necessariamente distinti.
Definizione 2. Si definiscono componenti di un vettore v elementi del vettore.
Definizione 3. Un vettore si dice di dimensione o di ordine n se è rappresentato da una n-pla
ordinata di numeri.
Esempio 1.
Ad esempio un vettore v di dimensione 4 e di componenti a1, a2, a3 e a4 sarà
rappresentato dalla seguente quaterna ordinata:
v =( a2, a2, a3, a4 )
Operazioni sui vettori
Dati due vettori: a = (a1, a2, …,an), b = (b1, b2, …,bn) dimensione n, valgono le seguenti definizioni:
Definizione 4. Due vettori numerici si dicono uguali se hanno uguali le componenti omonime,
distinti in caso contrario
a = b  a1 = b1, a2 = b2, …, an = bn
Definizione 5. Si definisce somma di due o più vettori numerici dello stesso ordine il vettore
numerico che ha come componenti le somme delle componenti omonime
43
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
c = a + b = (c1 = a1 + b1, c2 = a2 + b2, …, cn = an + bn ) = (c1, c2, …, cn )
Definizione 6. Si definisce prodotto di uno scalare per un vettore numerico, il vettore le cui
componenti sono uguali ai prodotti delle componenti del vettore dato per lo scalare.
c = a * b = (a1, a2, …,an) * b == (c1 = a1 * b, c2 = a2 * b, …, cn = an * b) = (c1, c2, …, cn )
Definizione 7. Si definisce prodotto scalare fra due vettori numerici, lo scalare:
c = a * b = (c1 = a1 * b1, c2 = a2 * b2, …, cn = an * bn ) = (c1, c2, …, cn )
44
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Matrici
Definizione 8. Si definisce matrice una tabella di numeri detti coefficienti disposti secondo righe e
colonne.
Definizione 9. Si definisce ordine o dimensione di una matrice, la coppia ordinata (n, m) che
rappresentano rispettivamente il numero di righe ed il numero di colonne della matrice considerata.
Definizione 10. Si dice che una matrice A è quadrata, se presenta un numero delle righe uguale al
numero di colonne: A (m  m). In tal caso la matrice si dirà di ordine m. Un esempio di matrice di
ordine 3 (m = 3) è mostrata di seguito:
 a11

 a21
a
 31
a12
a22
a32
a13 

a23 
a33 
Definizione 10. Si dice che una matrice A è rettangolare, se presenta un numero delle righe diverso
dal numero di colonne: A (n  m) con n  m.
 4 14 1 3 6 


 6 2 1 74 3 
 67 32 1 3 99 


Definizione 11. Si definisce diagonale principale di una matrice A(m,m), l‟insieme dei coefficienti
con indice ( i, i ) con 1 ≤ i ≤ m.
45
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Definizione 12. Si definisce diagonale secondaria di una matrice A(m,m), l‟insieme dei coefficienti
con indice (i, m –i +1) con 1 ≤ i ≤ m.
Definizione 13. Si definiscono matrici diagonali quelle matrici che sono quadrate e cui coefficienti
NON diagonali sono uguali a 0.
1 0


0 2
Definizione 14. Si definiscono matrici scalari quelle matrici diagonali in cui tutti i coefficienti sono
tra loro uguali:
5

0
0
 0

0
5
0
0
0
0
5
0
46
0

0
0

5 
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Operazioni su Matrici
Date due matrici A e B, valgono le seguenti definizioni:
Definizione 15. Si definisce prodotto di uno scalare per una matrice, la matrice le cui componenti
sono uguali ai prodotti delle componenti della matrice data per lo scalare.
Dati:
 3
,
 2 4 2


A  2 6 5
8 4 8

 , risulta:
 2*3 4*3 2*3 
 A   2*3 6*3 5*3 
 8*3 4*3 8*3 


Definizione 16. Data una matrice A si definisce opposta di A la matrice –A, ottenuta moltiplicando
ogni elemento di A per lo scalare -1.
Definizione 17. Date due matrici A e B delle medesime dimensioni, si definisce somma di A e B, la
matrice A + B tale che:
+
=
Definizione 18. Date due matrici A e B delle medesime dimensioni, si definisce come loro prodotto
per componenti la matrice C tale che:
*
=
47
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Siano A e B due matrici tali che il numero di colonne di A sia uguale al numero di righe di B.
Definizione 19. Si definisce prodotto di A e B righe per colonne, la matrice C ottenuta eseguendo il
prodotto di vettore riga per vettore colonna tra tutte le righe di A e tutte le colonne di B. La matrice
C avrà lo stesso numero di righe di A e lo stesso numero di colonne di B.
48
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Introduzione alla Statistica
Definizione 20. Si definisce Statistica quella scienza che si occupa di raccogliere, analizzare e
interpretare i dati numerici raccolti da una o più osservazioni fatte su di un fenomeno.
Nell‟ambito della metodologia statistica si distinguono, due filoni fondamentali:
1. la Statistica descrittiva
2. la Statistica inferenziale.
La Statistica descrittiva è volta alla rappresentazione, attraverso mezzi matematici, di uno o più
fenomeni reali, conducendo lo studio sull‟intera popolazione in cui si manifesta il fenomeno o i
fenomeni oggetto di studio.
La Statistica inferenziale è volta all'induzione probabilistica circa la struttura incognita di una
popolazione. Questo filone della Statistica si occupa di risolvere il cosiddetto problema inverso,
ossia, sulla base di osservazioni su un campione (problema della scelta del campione) di unità
selezionate con date procedure dalla popolazione, perviene a soluzioni valide, entro dati livelli di
probabilità, anche per la popolazione stessa.
Definizione 21. Si definisce carattere o caratteristica, l‟elemento che consente di descrivere una
popolazione o un campione.
Definizione 22. Si definisce modalità i valori che può assumere un carattere su una unità statistica.
49
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Un carattere può essere:
1. Qualitativo
2.
Quantitativo
Un carattere qualitativo si manifesta nell‟unità statistica mediante modalità, dette attributi e può
essere indicato solo con espressioni verbali (aggettivi, sostantivi etc.).
Un carattere quantitativo o variabile è indicato mediante espressioni numeriche, in altre parole, per
esso è realizzabile una misurazione espressa in cifre, come il reddito delle persone, il loro peso, la
loro età, ecc.
Il carattere quantitativo può essere di due tipi:
1.
Continuo
2.
Discreto
1. Un carattere quantitativo è continuo, quando può assumere come modalità un numero reale
qualsiasi, come la temperatura, la statura, l‟età, il peso di un individuo ecc.;
2. Un carattere quantitativo è discreto, quando può assumere come modalità solo numeri interi,
come il numero dei componenti di una famiglia, il numero di studenti di un corso universitario, ecc.
Definizione 23. Si definisce frequenza assoluta di una data modalità i di un carattere, il numero di
volte che la modalità si presenta nel collettivo. Essa verrà indicata con fi
50
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Definizione 24. Si definisce frequenza relativa di una data modalità i di un carattere, e sarà indicata
con fi, il rapporto tra la frequenza assoluta della modalità i e il numero totale di unità statistiche del
collettivo.
Definizione 25. Si definisce frequenza percentuale di una data modalità i di un carattere e sarà
indica con f i, il prodotto della frequenza relativa per 100.
Definizione 26. Si definisce frequenza cumulata assoluta di una data modalità i di un carattere e
f Ci
a
sarà indica con
, la somma delle frequenze assolute delle prime i modalità, ordinate in senso non
decrescente.
Definizione 27. Si definisce frequenza cumulata relativa di una data modalità i di un carattere e
f Ci
r
sarà indica con
, la somma delle frequenze assolute delle prime i modalità, ordinate in senso non
decrescente diviso n, cioè il numero totale di unità statistiche del collettivo.
Definizione 28. Si definisce classe, o classe di modalità, ciascuno degli intervalli di prefissata
ampiezza in cui risulta suddiviso l‟insieme delle modalità di un carattere quantitativo X.
Definizione 29. Si definiscono limiti di una classe, gli estremi dell‟intervallo rappresentante la
classe.
Definizione 30. Si definisce valore centrale di una classe i, la semisomma dei limiti superiore e
inferiore della classe.
51
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Nel caso di caratteri qualitativi continui, invece di limiti di una classe si parla di confini della
classe, i quali rappresentano gli estremi “ reali ” della classe:
Definizione 31. Si definisce confine superiore di una classe, l‟estremo superiore della classe e si
ottiene dalla semisomma del limite superiore della classe data col limite inferiore della classe
immediatamente successiva;
Definizione 32. Si definisce confine inferiore di una classe l‟estremo inferiore di una classe che si
ottiene dalla semisomma del limite inferiore della classe data col limite superiore della classe
immediatamente precedente.
Definizione 33. Si definisce ampiezza di una classe [xi , xi+1], la differenza fra il suo confine
superiore ed il suo confine inferiore:
A (Ampiezza) = confine superiore – confine inferiore
52
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Organizzazione dei dati
I dati possono essere rappresentati in:
forma tabellare
forma grafica
La più importante rappresentazione statistica dei dati in forma tabellare è la distribuzione di
frequenza:
Definizione 34. Si definisce distribuzione di frequenza secondo il carattere di un campione di unità
statistiche, una tabella in cui sono rappresentate le frequenze con le rispettive classi o valori di
modalità di quel carattere.
Definizione 35. Si definiscono distribuzioni di frequenze relative (distribuzioni di frequenza
percentuali) secondo un carattere di un campione di unità statistiche, una tabella in cui sono
rappresentate le frequenze relative (percentuali) con le rispettive classi o valori di modalità di quel
carattere.
E‟ possibile convertire una distribuzione di frequenza semplice, in una distribuzione di frequenze
raggruppate riunendo le modalità di un carattere in gruppi o intervalli. In questo caso ogni gruppo
della distribuzione di frequenze raggruppate si chiama classe e il modo usato per rappresentare la
classe (esempio: 59-61) è detto intervallo della classe
53
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Organizzazione dei dati in forma grafica
Un grafico è un diagramma che visualizza le relazioni tra le variabili, mostrando come le variazione
di una variabile siano correlate a quelle di un‟altra, ossia il modo in cui una variabile (la variabile
dipendente) è funzione di un‟altra (la variabile indipendente).
Si useranno grafici di tre tipi:
1. grafici a barre,
2. grafici lineari,
3. grafici circolari.
Definizione 36. Si definisce grafico a barre un grafico costituito da un insieme di rettangoli o barre
che visualizzano la relazione tra le variabili. Esso si rappresenta in un sistema di assi cartesiani
ortogonali Oxy, dove per convenzione sull‟asse delle x viene rappresentata la variabile indipendente
e sull‟asse delle y, quella dipendente.
I grafici a barre che noi analizzeremo sono:
1. Diagrammi a barre
2. Istogrammi.
Definizione 37. Un diagramma a barre è un grafico a barre usato per dati numerici di tipo discreto
o per dati non numerici (mesi, colori, ecc) che mostra le frequenze assolute, le frequenze relative o
quelle percentuali, mediante l‟altezza dei rettangoli e non mediante le loro aree (come avviene per
54
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
gli istogrammi), ed evidenzia l‟indeterminatezza o la discontinuità delle misure separando i
rettangoli con degli spazi vuoti.
Definizione 38. Si definisce istogramma un grafico a barre per dati numerici continui.
Un istogramma è diverso da un diagramma a barre in quanto esso mostra le frequenze, le frequenze
relative o le percentuali, tramite l‟area dei rettangoli, la quale è proporzionale alle frequenze delle
classi
Definizione 39. Un grafico lineare mostra le relazioni tra le variabili per mezzo di punti uniti da
segmenti o da linee continue ed è rappresentato in un sistema di assi cartesiani ortogonali Oxy, dove
per convenzione sull‟asse delle x viene rappresentata la variabile indipendente e sull‟asse delle y,
quella dipendente.
I grafici lineari che noi analizzeremo sono:
1. Poligoni di frequenza
2. Ogive.
Definizione 40. Un poligono di frequenza è un grafico lineare di distribuzioni di frequenze
assolute, di frequenze relative o di frequenze percentuali delle classi, passante per i valori centrali
delle classi stesse.
55
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Definizione 41. Un‟ogiva è un grafico lineare, usato per la rappresentazione grafica di una
distribuzione di frequenze assolute cumulate, frequenze relative cumulate o di frequenze percentuali
cumulate.
I grafici circolari, mostrano la relazione tra variabili dividendo un cerchio in settori di dimensioni
appropriate. Diversamente dai grafici a barre e lineari, non si rappresentano in un sistema di
coordinate cartesiane ortogonali Oxy. Noi li useremo per mostrare le distribuzioni di frequenze
relative e percentuali.
Definizione 42. Si definiscono grafici circolari (o diagrammi circolari o diagrammi a torta) una
rappresentazione grafica delle distribuzioni di frequenza relative o percentuali, che avviene
utilizzando cerchi divisi in settori circolari le cui aree sono proporzionali ai valori delle frequenze
relative o a quelli delle frequenze percentuali. Se le categorie (o le classi) della distribuzione sono
disposte secondo un ordine, di solito l‟ordine si conserva procedendo in senso orario a partire dalle
ore 12.
56
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Indici Statistici
Gli indici statistici sono fondamentalmente di tre tipi:
1. Indici di tendenza centrale o di posizione
a) indici di posizione di tipo analitico:
media aritmetica
ecc.
b) indici di posizione di tipo posizionale:
moda
mediana
ecc.
2. Indici di dispersione o di variabilità
a) Campo di variazione
b) Scarto quadratico medio
c) ecc
3. Indici di forma (che non saranno trattati)
a) Simmetria
b) Curtosi
57
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Indici di tendenza centrale o di posizione
Definizione 43. Considerato un insieme di dati X, ordinato secondo l‟ordine di grandezza, si
definiscono indici di posizione o di tendenza centrale, quei valori che tendono a cadere
centralmente all‟interno dell‟insieme di dati X.
Definizione 44. Si definisce media aritmetica o media di un insieme di N numeri X1, X2, … XN e
X
viene indicata con
il valore definito dalla seguente relazione:
N
X
X 1  X 2  ...  X N

N
X
i 1
i
N
Più in generale se i numeri X1, X2, … XN, compaiono rispettivamente con frequenza f1, f2, … fN la
media aritmetica è data dalla relazione:
N
f X  f X  ...  f N X N 
X 1 1 2 2
 i 1N
f1  f 2  ...  f N
N
fi X i
f
i 1
58
i

fX
i 1
i
N
i
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Media aritmetica di dati raggruppati
Quando i dati vengono presentati in una distribuzione di frequenze raggruppate, è possibile
considerare come valore rappresentativo, di tutti i valori che cadono nella classe, il valore centrale
della classe stessa.
Definizione 45. Considerato un insieme di N dati X1 X1, X2, … XN ordinato secondo l‟ordine di
grandezza, si definisce mediana il valore corrispondente alla posizione centrale, se il numero N di
elementi è dispari, oppure la media aritmetica dei due valori corrispondenti alle due posizioni
centrali, se il numero N di elementi è pari. La relazione che individua la posizione della mediana in
un insieme di dati è data da:
mediana 
N 1
2
La mediana per dati raggruppati.
Per dati raggruppati la mediana è definita dalla relazione:
 fT
  fi

mediana  Li   2
 f mediana



c


In cui
Li
= confine inferiore della classe contenente la mediana (classe mediana),
fT
= frequenza totale,
59
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
 fi
= somma delle frequenze di tutte le classi precedenti alla classe mediana,
fmediana = frequenza della classe mediana,
c
= ampiezza della classe mediana
Definizione 46. Considerato un insieme di dati X, si definisce moda di X, quel dato di X con la
frequenza più alta, ovvero il valore che si ripete più volte in X.
La moda può non esistere e se anche esistesse può essere non unica. Chiameremo un insieme di dati
con due mode: bimodale, con tre mode: trimodale e con più di tre mode: plurimodale.
Per dati raggruppati la moda è definita dalla relazione:
 1 
moda  Li  
c
 1   2 
dove:
Li = confine inferiore della classe contenente la moda
(classe modale),
1 = eccesso della frequenza modale rispetto alla frequenza
della
classe
immediatamente
classe
immediatamente
precedente,
2 = eccesso della frequenza modale rispetto alla frequenza
successiva,
c = ampiezza della classe modale,
60
della
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Indici di dispersione o di variabilità
Gli indici di variabilità misurano la variabilità.
Definizione 47. Si definisce variabilità, l‟attitudine di un carattere quantitativo ad assumere diverse
modalità.
Definizione 48.
Si definisce campo di variazione un indice di variabilità definito come la
differenza fra il valore massimo ed il valore minimo delle modalità di un carattere:
campo di variazione  X MAX  X MIN
Definizione 49. Si definisce scarto quadratico medio o deviazione standard di un insieme di n
numeri X1, X2, …, Xn, un indice assoluto di variabilità definito come la radice quadrata della
n
varianza
s
 f X
i 1
i
i
n
61
X
2
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Cenni di probabilità
La Teoria della Probabilità ci permette di studiare e descrivere i fenomeni aleatori.
Definizione 50. Un fenomeno è aleatorio quando di esso non si può predire con certezza il risultato.
Definizione 51. Si definisce esperimento un qualsiasi processo di osservazione o misurazione.
Definizione 52. (Spazio campione). Si definisce spazio campione, e si indicherà col simbolo  (S),
l‟insieme dei possibili esiti di un esperimento.
Definizione 53. Si definisce evento, ogni sottoinsieme dello spazio campione .
Definizione 54. Si definisce evento elementare, l‟evento costituito da un singolo elemento dello
spazio campione .
Per la rappresentazione degli spazi campionari e dei loro elementi si utilizza la NOTAZIONE
INSIEMISTICA: Diagrammi di Venn o forma tabulare.
Definizione 55. Siano A e B due eventi associati ad un esperimento: l‟evento C è definito unione di
A e B se comprende tutti gli elementi di A e B presi una sola volta.
C=AB
62
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Definizione 56. Siano A e B due eventi associati ad un esperimento: l‟evento C è definito
intersezione di A e B se comprende tutti gli elementi che appartengono ad A e contemporaneamente
a B.
C=AB
Definizione 57. Dato un evento A, la sua negazione identifica un nuovo evento A* costituito da
tutti gli elementi di  non appartenenti ad A. A* è detto complemento di A in .
Definizione 58. Se due eventi A e B non hanno elementi in comune essi sono detti eventi disgiunti
o mutuamente esclusivi perché il verificarsi dell‟uno esclude il verificarsi dell‟altro.
Osservazione. Se A e B sono mutuamente esclusivi, allora: A  B = 
63
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La TEORIA DELLA PROBABILITA’ : tre modi di concepire la probabilità.
Concezione classica della probabilità
La probabilità di un evento A è il rapporto tra il numero di casi favorevoli al verificarsi di A (h ) e il
numero di casi possibili (N )
P  A 
h
N
Concezione frequentista della probabilità
La probabilità di un evento A è la frequenza relativa di successo (occorrenza di A) in una serie
tendente all’infinito di prove, ripetute sotto identiche condizioni:
h
N  N
P  A  lim
Concezione soggettivista della probabilità
Non tutti gli eventi, pur valutabili in termini di probabilità, possiedono il requisito della ripetitività
sotto le stesse condizioni. La probabilità di un evento A è la valutazione del grado di fiducia che un
individuo o un gruppo di individui può coerentemente formulare sull‟occorrenza di A, in base alle
proprie opinioni e informazioni. Su queste basi si fonda la TEORIA BAYESIANA
64
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Regole del calcolo della probabilità
Il calcolo della probabilità è estremamente utile per stabilire sia la probabilità associata ad un
evento, sia la probabilità associata ad un insieme di eventi.
REGOLA DELL‟ADDIZIONE: Se A e B sono due eventi in  tali che: A  B   allora:
P(A  B) = P(A) + P(B) – P(A  B)
Definizione 59. (definizione assiomatica di probabilità) Considerato uno spazio campione , A un
suo generico evento e P una funzione definita in  ed a valori reali, tale che: P : A    P (A) 
[0,1]  . Allora, il numero reale P(A) sarà detto probabilità dell‟evento A, se soddisfa i seguenti
assiomi:
1. 0  P(A)  1 , A  ,
2. P() = 1,
3. P(A  B) = P(A) + P(B) , se A  B =  (eventi incompatibili)
Probabilità condizionata, eventi dipendenti, indipendenti
Dati due eventi A e B, valgono le seguenti definizioni:
Definizione 60. Si dice che l‟evento B è condizionato dall‟evento A e si indica con B A, se il
verificarsi dell‟evento A influenza l‟evento B.
65
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Definizione 61. Si definisce probabilità condizionata, la probabilità dell‟evento B condizionato A o
viceversa, la probabilità dell‟evento A condizionato B.
Dunque, la probabilità di B A, che indicheremo con P(B A), rappresenta la probabilità che
presentatosi A, si presenti B.
P  A | B 
66
P  A  B
P  B
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Regola della moltiplicazione:
P  A  B  P  A | B P  B
P  A  B   P  B | A P  A
Se il verificarsi di B non condiziona la probabilità del verificarsi di A, segue che:
P  A | B   P  A
P  A  B   P  A | B  P  B   P  A P  B 
Definizione 62. Dati due eventi A e B, diremo che essi sono indipendenti se:
P(A  B) = P(A)P(B),
altrimenti si diranno dipendenti.
Teorema di Bayes:
Siano A1, A2, … ,An, n eventi escludentisi a vicenda (Ai  Aj = , per i  j) e sia B   Ai, i = 1…n.
Risulta:
Osservazione.
Nel teorema di Bayes, la probabilità P(Ai) è spesso definita probabilità a priori, mentre la P(Ai|B) è
definita probabilità a posteriori.
67
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
BIOINFORMATICA
68
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Bioinformatica
La Bioinformatica nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche
e si cominciò a sentiree l‟esigenza di avere a disposizione sistemi informatici per l‟archiviazione e
l‟analisi di dati di sequenza che sono state prodotte nel futuro in grande quantità. I compiti della
bioinformatica comprendono il mettere a punto dei sistemi idonei per collezionare ed interrogare
l‟enorme mole di dati biologici (le discipline omiche) e la progettazione, implementazione ed
applicazione di metodi matematico-statistici rivolti alla caratterizzazione funzionale delle sequenza
biologiche, a studi di evoluzione molecolare, a studi strutturali degli acidi nucleici e delle proteine.
La differenza tra i termini di Bioinformatica e Biologia Computazionale è la seguente:
La Bioinformatica è la disciplina che usa l‟informatica per analizzare i dati biologici al fine di
formulare ipotesi sui processi della vita
La Biologia Computazionale è la disciplina che sviluppa tecniche bioinformatiche per la raccolta e
la manipolazione di dati biologici e dell‟uso di tali dati per ottenere scoperte o predizioni
biologiche.
69
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Evoluzione Molecolare
Gli ERRORI nella trasmissione genetica sono alla base dei processi evolutivi. La trasmissione
dell‟informazione genetica si ottiene attraverso il processo della replicazione del DNA. Durante il
processo di replicazione possono avvenire due tipi di errori: 1)mutazioni della sequenza di DNA
(cioè sostituzione din un nucleotide con un altro) e 2) inserzioni e delezioni di tratti più o meno
lunghi di DNA.
Tutto ciò spiega perché gli organismi viventi pur discendendo da un unico progenitore comune,
posseggono genomi di dimensioni molto diversi tra loro. L‟evoluzione molecolare studia la velocità
ed i vari tipi di cambiamenti che hanno luogo nel materiale genetico o nei suoi prodotti.
Gli studi di evoluzione molecolare sono ormai diventati uno strumento per l‟interpretazione dei
processi che sono alla base dell‟evoluzione della materia vivente. Essi si basano essenzialmente su
analisi comparative e quindi presuppongono la conoscenza delle macromolecole biologiche almeno
a livello della struttura primaria.
Le variazioni genetiche, che sono il presupposto fondamentale per l‟evoluzione biologica, hanno
origine spontaneamente in seguito ad errori che hanno luogo nel processo della replicazione oppure
a mutazioni accidentali dovute a fattori ambientali, che alterano la sequenza del DNA. Una
mutazione viene fissata all‟interno di una popolazione attraverso due processi distinti: 1)selezione
Naturale, 2)la deriva genica casuale.
La selezione naturale è definita come la capacità differenziata di riproduzione di individui
geneticamente distinti all‟interno di una popolazione. La capacità di riproduzione di un individuo è
determinata dal proprio livello di adattamento all‟ambiente rispetto ad altri individui della stessa
specie. La selezione naturale contrasta la fissazione di mutazioni svantaggiose e favorisce la
fissazione di mutazioni vantaggiose.
La deriva genica può produrre la fissazione di mutazioni neutrali attraverso un processo casuale che
vede aumentare nel tempo la frequenza dell‟allele mutato fino alla sua fissazione nella popolazione
70
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La distanza genetica tra due sequenze omologhe (nucleotidiche o amminoacidiche) è determinata
dal numero di sostituzioni che hanno avuto luogo nel corso dell‟evoluzione nelle sequenze stesse.
Tale quantità viene solitamente normalizzata rispetto alla lunghezza delle sequenze analizzate,
opportunamente allineate, e pertanto l‟unità di misura generalmente utilizzata per la distanza
genetica è data dal numero di sostituzioni per sito.
A causa della possibilità di sostituzioni multiple sullo stesso sito (multiple hits), di sostituzioni
convergenti o di retromutazioni, il numero di sostituzioni che viene osservato tra una coppia di
sequenze è inferiore rispetto al numero di sostituzioni che effettivamente ha avuto luogo.
Nello studio dell‟evoluzione si possono considerare sia sequenze di acidi nucleici sia di proteine. Le
sequenze nucleotidiche sono più accurate sia per la possibilità di effettuare studi evolutivi anche su
regioni non codificanti del menoma sia per il fatto che si osservano cambiamenti a livello del DNA
anche quando non ci sono cambiamenti a livello della sequenza aminoacidica.
Per classificare i geni omologhi appartenenti ad una stessa famiglia è fondamentale la costruzione di
un albero filogenetico che ne descriva in modo accurato le relazioni evolutive.
Due geni (o proteine) si dicono omologhi se derivano da un progenitore comune. L‟omologia è un
carattere qualitativo a cui non può essere attribuito un valore percentuale che può essere riferito al
grado di similarità tra sequenze. Quindi non possiamo parlare di percentuale di omologia ma di
percentuale di identità (o similarità) di sequenza. E‟ bene comprendere che se due sequenze
mostrano un significativo livello di similarità lungo tutta la loro lunghezza possono quasi
certamente definirsi omologhe. Al contrario due geni o proteine possono non mostrare un
apprezzabile grado di similarità, pur essendo omologhi, a causa di una divergenza molto remota.
Due sequenze omologhe possono essere ortologhe o paraloghe. Due sequenze si definiscono
ortologhe se appartengono a due specie diverse ed il loro processo di divergenza ha avuto origine in
seguito al processo di speciazione da cui le due specie suddette hanno avuto origine. Due sequenze
71
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
omologhe si definiscono paraloghe se il loro processo di divergenza ha avuto origine in seguito ad
un processo di duplicazione genica.
Le relazioni evolutive tra gli organismi possono essere rappresentate attraverso alberi filogenetici.
Un albero filogenetico è costituito da nodi e da rami in cui ogni ramo mette in relazione due nodi. I
nodi rappresentano le unità tassonomiche mentre i rami definiscono le relazioni tra queste in termini
di ascendenza e discendenza. In un albero noi possiamo distinguere i nodi interni da quelli
terminali. I nodi terminali rappresentano le unità tassonomiche attuali mentre i nodi interni
rappresentano le unità tassonomiche ancestrali. Le unità tassonomiche attuali corrispondono alle
sequenze omologhe oggetto dell‟analisi e vengono comunemente definite unità tassonomiche
operative (OTUs).
Se un albero descrive esclusivamente le relazioni filogenetiche tra i vari nodi e la lunghezza dei
diversi rami non ha alcun significato: Cladogramma
Se in un albero la lunghezza dei rami è proporzionale alla distanza evolutiva tra i nodi, l‟albero è
definito Filogramma.
I metodi utilizzati per la costruzione di alberi filogenetici si suddividono in metodi che applicano
algoritmi di clustering o raggruppamento delle OTUs analizzate, generalmente basati su misure di
distanza genetiche ed in metodi che utilizzano algoritmi che massimizzano una funzione obiettiva di
qualità dell‟albero (criterio di ottimalità). Tra i metodi basati su algoritmi di clustering il più
semplice è noto come UPGMA che utilizza un algoritmo di clusterizzazione iterativo che procede
associando via via le sequenze o cluster di sequenze più simili tra loro.
72
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Banche dati molecolari e sistemi di interrogazione di banche dati mediante SRS ed ENTREZ
Le banche dati hanno lo scopo di consentire la consultazione e l‟analisi delle informazioni in esse
contenute e di ogni altra informazione ad esse correlate e memorizzate in altre banche dati. Le
banche dati si distinguono in primarie o derivate, curate e non curate e relazionali.
Le banche dati primarie contengono solo le informazioni minime necessarie da associare ai dati per
identificarli al meglio mentre quelle derivate comprendono insiemi di dati omogenei che possono
derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore
aggiunto alla banca dati stessa.
Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con
annotazioni da sistemi automatici. Le banche dati curate presentano informazioni che sono
verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con
segnalazione di possibili errori e conflitti con altri dati)
Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un
esempio di programma per creare database).
Una banca dati biologica raccoglie informazioni e dati derivanti dalla letteratura e da analisi
effettuate sia in laboratorio sia attraverso analisi bioinformatiche. Ogni banca dati biologica è
caratterizzata da un elemento biologico centrale che costituisce l‟oggetto principale intorno al quale
viene costruita la entry della banca dati. Esempi di elementi centrali sono le sequenze nucleotidiche
di DNA nelle banche dati di acidi nucleici.
Ciascuna entry raccoglie tutte le informazioni che caratterizzano l‟elemento centrale ed è spesso
organizzata come flat file. Un flat file è un file sequenziale nel quale ogni classe di informazione è
riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli
attributi annotati nella linea stessa.
73
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Molte sono le banche dati che sono state createcome supporto per la ricerca scientifica e di seguito
saranno riportati degli esempi. PUBMED è considerata la banca dati per eccellenza della letteratura
medica e biologica. Essa è consultabile in modo gratuito e permette il link diretto ai siti delle riviste
per visionare o scaricare l‟articolo. Le ricerche in PubMed possono essere effettuate tramite diverse
opzioni (ad es. autore, rivista e parole chiave).
Sono note tre banche dati di sequenze nucleotidiche: EMBL (Inghilterra), GenBank (America) e
DDBJ (Giappone). Per ogni sequenza le informazioni riportate sono identiche anche se la struttura
dei file è abbastanza diversa; infatti, solo l‟EMBL riporta le informazioni usando un file di tipo flat
file.
La UNIPROT è la banca dati di riferimento per le sequenze proteiche. Essa deriva da un consorzio
tra Swissprot, Trembl e Pir. In particolare, la SWISSPROT è una banca dati, sviluppata in Svizzera,
con un alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di
modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di
integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di
formato flat-file che si differenzia da quello di EMBL soprattutto per quanto riguarda le features che
descrivono nelle proteine la presenza degli ammioacidi modificati, regioni peptidiche
corrispondenti ad isoforme, domini strutturali e siti di polimorfismi. La TREMBL è una banca dati
di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL,
annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è
inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in
REMTREMBL. La PIR è un‟altra banca dati di sequenze proteiche sviluppata negli USA. Essa è
molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi
nel suo uso.
74
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
La banca dati di strutture proteiche tridimensionali è la PDB. Essa contiene le coordinate atomiche
di strutture proteiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre
tecniche (microscopia elettronica etc.).
Tre le altre banche dati che riguardano la struttura delle proteine bisogna ricordare DSSP per le
strutture secondarie; PDBsum che riassume per ogni proteina tutte le informazioni derivanti dalle
varie banche dati correlati; SCOP [Structural Classification of Proteins] che organizza le strutture
proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale; CATH che presenta
una classificazione strutturale simile a quella offerta da SCOP, basata su confronti di strutture;
InterPro che raccoglie varie informazioni strutturali e funzionali relative ad una proteina o ad una
famiglia di proteine; PROSITE che annota patterns amminoacidici individuati in un set di sequenze
proteiche attraverso analisi in silico e studi sperimentali; PRODOM che raccoglie dati relativi a
famiglie di proteine generate dall‟applicazione di PSI-BLAST, che partendo dal confronto di una
sequenza proteica contro un database di proteine, raccoglie in un multiallineamento tutte le
sequenze proteiche per le quali Blast ha determinato uno score più aòtro di un score indicato come
threshold; PFAM che è una banca dati di famiglie di proteine accomunate da elementi strutturali e
funzionali.
Esistono due sistemi di interrogazione utilizzabili su database ben diversi tra loro: Entrez ed SRS.
ENTREZ (Cross-database search engine) è un sistema disponibile sul sito dell‟NCBI per interrogare
ed estrarre dati dalle più varie banche dati esistenti. Non è commercialmente disponibile e quindi
non può essere scaricato ed installato localmente, né è possibile modificare le banche dati
implementate sul sistema. SRS (Sequence Retrieval System) è un sistema utilizzabile (e utilizzato)
su qualunque tipo di database. Esso è stato sviluppato inizialmente da ricercatori dell‟EMBL/EBI ed
è attualmente un prodotto distribuito da una società privata (Lion Bioscience) che, finora, continua
a offrirlo gratuitamente ad enti di ricerca accademici. Molti centri di ricerca hanno installato SRS
sul proprio web server utilizzandolo per offrire un servizio di consultazione di banche dati. Uno dei
75
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
sistemi SRS più curati è quello presente sul sito dell‟EBI (www.ebi.ac.uk). In pratica SRS ci
permette di 1) scegliere i database da utilizzare per la ricerca, 2) immettere una o più query
concatenate, 3) visualizzare i risultati in modo personalizzabile, 4) applicare i programmi di analisi
ai risultati ottenuti, 5) salvare nel server EBI i risultati di una ricerca e di richiamarli
successivamente.
Ricerca di similarità di sequenze nucleotidiche e proteiche ed Allineamenti di sequenze
Gli acidi nucleici e le proteine sono costituite da catene di quattro possibili residui nucleotidici e
venti possibili residui amminoacidici. La sequenza determina le proprietà di queste macromolecole
che sono rappresentate come semplici sequenze di lettere dove ogni lettera simboleggia un residuo
diverso. Queste stringhe possono essere analizzate con metodi informatici che consentono di
cercare pattern particolari o di effettuare allineamenti di sequenze.
L‟Allineamento di due sequenze ha lo scopo di confrontare tra loro due sequenze e rappresenta il
presupposto per analisi più complesse, come per esempio le ricerche di similarità nelle banche dati,
la costruzione di alberi filogenetici o l‟identificazione di domini funzionali. L‟allineamento
dovrebbe portare all‟appaiamento delle regioni simili condivise dalle due sequenze.
Vari sono i criteri che possono essere utilizzati per misurare la similarità tra due o più sequenze. Il
problema è che i concetti di similarità ed allineamento sono intimamente associati: infatti non si
possono allineare sequenze senza definire dei criteri di similarità ed allo stesso tempo per valutare
quanto due sequenze siano simili è necessario allinearle. Comunque per allineare varie sequenze è
necessario disporre anche di un metodo (che in informatica è definito algoritmo) che sulla base dei
criteri di similarità sia in grado di produrre un allineamento.
Se definissimo come criterio di similarità quello di valutare il numero di lettere che si appaiano
esattamente, si potrebbe implementare un semplice algoritmo che faccia virtualmente scorrere una
76
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
sequenza sull‟altra e che valuti ad ogni spostamento tutte le lettere abbinate per stabilire il numero
di appaiamenti esatti. L‟applicazione di questo algoritmo comporta che ad ogni avanzamento della
sequenza si dovranno confrontare tutte le lettere appaiate tra le due sequenze. In questo modo
potremo facilmente dimostrare che alla fine si dovranno effettuare un numero di confronti pari al
prodotto delle lunghezze delle due sequenze che si vogliono allineare. Infatti ogni lettera della
prima sequenza dovrà essere confrontata con ogni lettera dell‟altra.
L‟efficienza di un algoritmo dipenderà dal tempo impiegato per eseguire le varie operazioni. Questo
tempo viene spesso indicato come proporzionale alla lunghezza O(nm) dove n e m sono le
lunghezze delle due sequenze che stiamo andando a confrontare.
La crescita esponenziale delle banche dati ha portato allo sviluppo di programmi (FASTA e
BLAST) che sono in grado di effettuare velocemente delle ricerche di similarità, grazie a soluzioni
euristiche che sono basate su assunzioni non certe ma estremamente probabili.
La complessità del problema di allineare sequenze di acidi nucleici e di proteine deriva dal fatto che
deve essere considerata la possibilità che il migliore allineamento comporti l‟inserimento di gap.
Questa esigenza è necessaria dal momento che nel corso dell‟evoluzione si possono avere processi
di inserzione o delezione che comportano una diversa lunghezza di sequenze omologhe.
Però l‟inserimento dei gap produce due complicazioni :1) la necessità di definire dei criteri di
similarità; 2) la possibilità di disporre di adeguati algoritmi. Per risolvere il primo problema
possiamo attribuire un‟opportuna penalità ad ogni gap oppure attribuire penalità diverse per
l‟apertura di un gap e per il suo allungamento. Se la definizione di criteri per valutare gli
allineamenti con gap è semplice, molto più complesso è lo studio di un algoritmo che possa
implementare questi criteri. Infatti, un algoritmo di scorrimento di una sequenza sull‟altra non è
adatto a questo scopo poiché ci sarebbero troppi modi con cui inserire un gap nelle sequenze da
allineare.
77
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Infatti se noi considerassimo una sequenza di n caratteri è possibile inserire un singolo gap in n-1
posizioni generando n sequenze diverse (compresa quella originale). Consentendo un numero
maggiore di gap il numero di possibili sequenze aumenta in modo esponenziale, per cui sarebbe
improponibile analizzare ogni possibile sequenza con l‟algoritmo di scorrimento.
Per semplificare questo problema sono state sviluppate le DOT MATRIX che permettono di
individuare e localizzare similarità di sequenza anche in presenza di gap che graficamente appaiono
come salti in diagonale.
Inoltre, bisogna anche tenere in considerazione che amminoacidi diversi possono essere “più o
meno simili”. Nel corso degli anni sono stati sviluppati alcuni metodi statistici che valutano quanto
due amminoacidi sono simili tra loro ed assegnano a ciascuna coppia di amminoacidi un valore che
rispecchia quanto i due amminoacidi sono intercambiabili in famiglie di proteine omologhe. In
particolare sono state sviluppate due tipi di matrici di sostituzione (PAM e BLOSUM).
Le Matrici PAM sono state proposte da Margaret Dayhoff nel 1978 sulla base di studi di filogenesi
molecolare su 71 famiglie di proteine. Esse partono dall‟assunzione di base che analizzando
sequenze correlate filogeneticamente si può calcolare la probabilità con cui ogni amminoacido
subisce una mutazione, ovvero una PAM (Percent Accepted Mutation). Due sequenze sono ad 1
PAM di distanza se mediamente per convertirsi l‟una nell‟altra è tollerata 1 mutazione ogni 100
aminoacidi (tollerata sta ad intendere che la mutazione non altera la funzione della proteina). Per
sequenze filogeneticamente vicine, è meglio usare matrici PAM a basso indice (es. PAM 10),
mentre per sequenze lontane è meglio usare matrici PAM ad alto indice (es. PAM 250)
Le Matrici BLOSUM sono state introdotte da Henikoff e Henikoff nel 1992. Esse si basano sulla
banca dati BLOCKS, che contiene una collezione di allineamenti multipli di segmenti proteici senza
gap. Ciascun blocco ha sequenze con un numero di amminoacidi identici allineati superiore a un
valore P compreso in genere tra 30 e 95%. In questo modo si ricava la frequenza relativa di
sostituzione degli amminoacidi. Al contrario delle matrici PAM, non si fanno presupposti di
78
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
omologia tra le proteine allineate. Le matrici BLOSUM sono contrassegnate da un indice (il valore
P ) che rappresenta la percentuale di identità minima all‟interno del blocco.
Per evitare l‟eccessivo uso di gap, vengono usati dei punteggi di penalizzazione.
Alcune possibili combinazioni da BLAST su NCBI sono
Matrice: PAM30
Gap opening: -9
Gap extension: -1
Matrice: BLOSUM62 Gap opening: -11
Gap extension: -1
Matrice: BLOSUM45 Gap opening: -12
Gap extension: -2
79
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Ricerca per similarità di banche dati
Questi metodi sono stati sviluppati allo scopo di permettere una ricerca per similarità rapida tra le
migliaia di sequenze che sono depositate in banca dati. In questi casi è necessario effettuare migliaia
di allineamenti di sequenze e per questo motivo sono stati sviluppati dei metodi euristici, cioè basati
su assunzioni probabili. Questi metodi sono più veloci ma non danno la certezza assoluta di avere
trovato l‟allineamento migliore (FASTA e BLAST).
FASTA (FAST-All) è un programma sviluppato da Lipman&Pearson nel 1988. Questo algoritmo
considera ogni sequenza come formata da “parole” la cui lunghezza è detta ktup che è un parametro
variabile (di solito per le proteine si assume pari a 2). Questo tipo di programma procede in 4 step:
1) Identificazione delle regioni a più alta identità di parole sulla matrice di allineamento tra le
sequenze. In dettaglio, FASTA crea un indice in cui elenca, per la sequenza query e per il subject, le
regioni dove si hanno dei matches tra le varie “parole”. Successivamente, FASTA costruisce grazie
a questo indice una matrice di allineamento ed evidenzia su di essa le regioni in cui si ha un
maggiore numero di matches tra le varie parole, salvando le migliori regioni allineate, senza tenere
conto se si trovano o no sulla stessa diagonale.
2) Confronto di queste regioni con le matrici di score e salvataggio delle migliori regioni. Dopo
aver individuato le migliori regioni di allineamento delle “parole”, FASTA usa una matrice di
allineamento (in genere PAM250) per raffinare la ricerca di somiglianze solo all‟interno di quelle
regioni. In questo modo si ricavano le “best initial regions” identificate come Init1. Gli Init1 sono
usati da FASTA per compilare una graduatoria delle migliori similarità trovate in banca dati e per
selezionare le sequenze con cui continuare le fasi successive.
3) Congiungimento delle regioni ottimali con uno score superiore a una soglia prefissata. A questo
punto, FASTA cerca di congiungere le “best initial regions” per creare regioni il più possibile
80
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
estese, dette InitN; ove sia necessario introdurre dei gap, ne tiene conto con opportune
penalizzazioni dei punteggi.
4) Ricalcolo dell‟allineamento migliore ottimizzato sulle regioni selezionate. L‟ultima fase di
FASTA è quella di effettuare un allineamento molto accurato utilizzando una variante
dell‟algoritmo Smith&Waterman che è limitato però ai soli percorsi di allineamento che
fiancheggiano per una stretta banda le regioni già individuate. Il risultato di questo calcolo è il
punteggio ottimizzato di allineamento detto Opt, che viene utilizzato per creare l‟allineamento
definitivo. La soglia significativa di Opt è calcolata confrontando i punteggi ottenuti su una query
generata casualmente
BLAST – Basic Local Alignment Search Tool (BLAST) è un programma sviluppato da Altschul
e colleghi nel 1990. Questo programma si basa come FASTA sull‟indicizzazione di parole, ma usa
criteri diversi.
Gli step del programma sono tre. In dettaglio,
1) Creazione di un elenco di parole di W lettere dove il parametro W per le proteine è generalmente
pari a 3 (W-meri)
2) Analisi delle sequenze nelle banche dati e ricerca dei W-meri corrispondenti alle parole della
lista prodotta dall‟analisi della sequenza query.
3)Ogni volta che viene identificato un possibile appaiamento (“hit”) l‟algoritmo verifica se è
possibile estenderlo in entrambe le direzioni senza inserire gap. Si identifica un segmento di
allineamento locale non ulteriormente estendibile chiamato HSP.
BLAST è un insieme di più programmi, ognuno per le diverse forme di confronto che si possono
realizzare:
81
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Blastp: Confronta una sequenza di amminoacidi (query sequence) contro un database di sequenze
proteiche
Blastn: Confronta una sequenza di nucleotidi (query sequence) contro un database di sequenze
nucleotidiche
Blastx: Confronta una sequenza di nucleotidi (query sequence), tradotta in tutte le sei reading
frames, contro un database di sequenze proteiche
Tblastn: Confronta una sequenza di amminoacidi (query sequence) contro un database di sequenze
nucleotidiche traducendo “dinamicamente” ogni sequenza del database in tutte le reading frames
Tblastx: Confronta tutte le sei traduzioni (secondo le reading frames) di una sequenza di nucleotidi
(query sequence) contro tutte le sei traduzioni (secondo le reading frames) di un database di
sequenze nucleotidiche
Le Differenze tra BLAST e FASTA sono le seguenti:
a) lunghezze delle “parole usate”;
b) FASTA si limita ad un‟indicizzazione diretta della parola invece BLAST seleziona da ogni
parola diverse parole simili.
c) BLAST utilizza una matrice di sostituzione sin dalle prime fasi dell‟analisi
d) BLAST è ottimizzato per trovare segmenti di similarità locale privi di gap
82
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Allineamenti multipli
Un allineamento multiplo fornisce un‟informazione biologica maggiore rispetto a quella riportata
nell‟allineamento di due sole sequenze; infatti, i residui più importanti dal punto di vista strutturale
o funzionale saranno estremamente conservati tra tutte le sequenze dell‟allineamento.
Infatti in molti libri di testo è riportata la frase:
“Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe sussurrano; molte
sequenze allineate gridano”.
Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze
sia strettamente sia lontanamente correlate.
E‟ importante sottolineare che in un allineamento multiplo si prendono in considerazione le colonne
dei residui più che le proteine a cui appartengono. Ogni residuo incolonnato è da considerarsi in
modo implicito come evolutivamente correlato.
Per poter costruire allineamenti multipli sono stati sviluppati metodi per l‟allineamento progressivo
di coppie di sequenze. Questi metodi partono da un set di n sequenze disposte a caso e non allineate
e determinano tutti i possibili allineamenti a coppie. A questo punto determinano un albero
filogenetico in base ai punteggi di similarità ottenuti. A partire dalla coppia più simile vengono
determinate le colonne conservate e la coppia successiva viene allineata mantenendo queste colonne
e ricalcolando lo score complessivo.
CLUSTALW è il programma più utilizzato per gli allineamenti multipli. Esso è implementato sul
server EBI ed ha una interfaccia grafica. Inoltre, usa come input un file con le sequenze in formato
FASTA.
83
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Qual è l‟utilità di un allineamento multiplo? Da un allineamento multiplo possiamo riuscire ad
individuare i residui importanti per una famiglia di proteine e possiamo ottenere il profilo.
Un profilo esprime tutta l‟informazione contenuta in un multiallineamento. Infatti si attribuisce un
punteggio a ciascun amminoacido per ogni colonna dell‟allineamento (con le matrici di
sostituzione) e ciò permette di valutare la
sua conservazione. Analogamente, osservando la
frequenze dei gap, si attribuisce una penalità per il loro inserimento.
PROFILEMAKER è il programma più usato per generare profili. Il profilo di un allineamento
riporta sulla prima colonna la sequenza CONSENSO, cioè una sequenza derivante da tutti gli
allineamenti e contenente solo i residui più frequenti. Ogni colonna successiva descrive la
situazione di tutti gli amminoacidi in quella posizione.
84
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Analisi della struttura primaria delle proteine
Il sito Expasy è la principale fonte di programmi per poter studiare le proteine.
Esso prevede una serie di tool: DNA  Protein, Similarity searches, Predizione di topologia.
Traslate fa una traduzione da sequenze nucleotidiche a sequenze proteiche
Backtraslate: data una sequenza amminoacidica cerca di “indovinare” la sequenza nucleotidica
chiedendo in input il tipo di organismo, la tavola d‟uso dei codoni.
MultiIdent tool permette di individuare una proteina non dalla sequenza ma da dati sperimentali
(ad es. una serie di pesi molecolari, il punto isoelettrico, il peso molecolare, la composizione
percentuale dei suoi amminoacidi).
AACompIdent identifica una proteina dalla sola sequenza amminoacidica
Tra le Similarity searches possiamo elencare Blast, MPsrch, FASTA3, PropSearch e SAMBA.
BLAST è una serie di link alternativi per tutti i possibili Blast residenti su server diversi da quello
della NCBI.
MPsrch permette di fare una ricerca in banche dati modificate usando l‟algoritmo di Smith &
Waterman.
PropSearch permette di fare una ricerca in banca dati per proteine non usando la sequenza ma una
serie di dati che il programma ricava (ad esempio, composizione amminoacidica o idrofobicità).
Fasta3 permette di fare una ricerca in banca dati usando l‟algoritmo FASTA e tutte le sue varianti.
SAMBA usa l‟algoritmo di Smith & Waterman usando un array di 128 processori ed una
architettura completamente dedicata.
Tra i metodi dedicati alla predizione della topologia si devono considerare Psort e TargetP che
predicono il compartimento cellulare in vui una proteina potrebbe trovarsi (ad es. citoplasma,
membrana, nucleo).
85
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Tutti gli altri programmi elencati di seguito servono ad evidenziare e studiare le caratteristiche
chimicofisiche degli amminoacidi presenti in una sequenza proteica.
Colorseq
colora
gli
amminoacidi
(idrofili,
idrofobici,
carichi
positivamente
o
negativamente,aromatici)
ThreetoOne converte gli amminoacidi dalla nomenclatura tre lettere a quella ad una lettera
ProtScale calcola l‟idrofobicità degli amminoacidi in una sequenza
SYFPEITHI – predice i siti di binding di peptidi con MHC type I and II
Coils predice regioni random coil in proteine
Compute pI/MW valuta il punto isoelettrico (pH a cui la carica netta è 0) ed il peso molecolare
ProtParam che valuta il numero di amminoacidi, il punto isoelettrico, il peso molecolare, la
composizione amminoacidica, la composizione in atomi, la formula chimica.
86
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Ricerche di pattern in sequenze proteiche e nucleotidiche
Un motivo di interesse biologico (o definito pattern) è costituito da un insieme
di caratteri
(nucleotidi o amminoacidi) non necessariamente contigui nella sequenza ma che si trovano sempre
o sono spesso associati ad una precisa struttura e funzione biologica (ad esempio: promotori o
hanno la stessa capacità di legare nucleotidi).
La bioinformatica si occupa di sviluppare metodi per il riconoscimento di pattern di interesse
biologico e di curare banche dati in cui tali pattern siano organizzati e resi disponibili per l‟analisi
strutturale e funzionale di nuove sequenze.
Per calcolare l‟affidabilità di un motivo, si possono utilizzare dei parametri che si calcolano a
partire dal numero di veri positivi (VP), veri negativi (VN), falsi positivi (FP) e falsi negativi (FN)
che il motivo seleziona in una banca dati di controllo in cui sia nota da evidenze sperimentali
l‟identità dei VP e dei VN.
In particolare, la sensitività è una misura di quale sia la proporzione di sequenze della famiglia
selezionate dal motivo; la selettività misura la proporzione di sequenze della famiglia sul totale
delle sequenze selezionate dal motivo; la specificità misura la proporzione di sequenze che non
fanno parte della famiglia e che non vengono selezionate dal motivo.
Ricerca di pattern e di motivi funzionali in sequenze proteiche
Le proteine possono essere raggruppate in un numero limitato di famiglie sulla base della similarità
di sequenze. Le proteine ed i domini proteici appartenenti ad una stessa famiglia condividono
attributi funzionali e strutturali derivanti da un progenitore comune.
Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia è evidente che
alcune regioni sono più conservate di altre: queste regioni conservate sono in generale importanti
per la funzione e la struttura di una proteina.
87
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Analizzando le regioni costanti e variabili in un allineamento multiplo è possibile identificare un
motivo che possa servire alla classificazione funzionale delle proteine che lo contengono.
La banca dati PROSITE raccoglie più di 1600 motivi proteici associati ad una determinata struttura
e funzione. Ogni motivo è catalogato insieme con una approfondita documentazione di carattere
bibliografico.
Questa banca dati contiene motivi codificati in due modi diversi: i pattern e le matrici (o profili).
Le matrici sono definite facendo ricorso alle matrici posizionali di peso mentre i pattern sono motivi
definiti con una sintassi riconducibile ad espressioni regolari.
La sintassi di PROSITE:
- x indica la posizione in cui ciascun residuo viene accettato;
- tra le parentesi [ ] sono indicati i residui consentiti in una posizione;
- tra le parentesi { } sono indicati i residui NON consentiti in una posizione;
- la ripetizione di un elemento può essere indicata con un numero o con una coppia di numeri
indicante gli estremi in parentesi.
Quindi
x2 significa x-x
x(2,4) significa x-x oppure x-x-x oppure x-x-x-x
Per poter automatizzare le ricerche di pattern all‟interno delle banche dati sono stati sviluppati
alcuni metodi di apprendimento automatico. Questi metodi fanno predizioni estraendo informazioni
utili da un insieme di dati attraverso la costruzione di modelli probabilistici.
I metodi che sono più frequentemente utilizzati sono Reti Neurali, catene di Markov (HMM) ed
algoritmi genetici.
88
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Le reti neurali sono circuiti di informazioni con un numero fissato di nodi definiti STATI in cui
vengono immagazzinate le informazioni risultanti dalle varie interconnessioni. Questi nodi sono
organizzati secondo una precisa ARCHITETTURA che rappresenta l‟interconnessione tra i vari
nodi.
Se forniamo ad una rete neurale una informazione ed il suo risultato (training set), gli stati
memorizzano il modo di andare dall‟informazione al risultato sfruttando le varie interconnessioni.
Quindi se ripetiamo più volte la fase di training con set diversi, ma sempre veri, la rete sarà in grado
di arrivare da sola al risultato. Questa è quella che viene definita fase di apprendimento.
In questo modo se forniamo alla rete una informazione di cui non è noto il risultato, essa risponderà
fornendoci il risultato secondo lei più appropriato.
Una catena di Markov è una successione di numeri o di caratteri in cui ogni numero dipende solo
dai k numeri che lo precedono. k è definito come ordine della catena.
Questo tipo di modelli riesce a descriver le probabilità di trovare una data sequenza in un database
(per esempio contenente una serie di proteine multiallineate).
Gli algoritmi genetici sono metodi di ottimizzazione che utilizzano una strategia di esplorazione
delle possibili varianti simile a quella utilizzata dall‟evoluzione genetica.
Se consideriamo un problema che ha una soluzione dipendente da n parametri e da k valori,
un‟esplorazione completa richiederebbe kn operazioni.
Ma se noi sappiamo come si può evolvere il sistema (perché abbiamo un training set) per ricavare il
risultato, sappiamo che alcuni passaggi non sono possibili o non si sono mai verificati, e sappiamo
che ci sono percorsi che sono preferiti rispetto ad altri.
89
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Pertanto se viene sviluppato un algoritmo che rispetti gli schemi osservati e viene calcolato per ogni
passaggio un valore di attendibilità (definito fitness), potremo arrivare in un certo numero di cicli ad
avere un risultato che abbia un valore fitness ottimale.
Ricerca di pattern e di motivi funzionali in sequenze nucleotidiche
Non ci sono strumenti che possono essere utilizzati indifferentemente per l‟analisi di una qualsiasi
sequenza nucleotidica. Infatti alcuni programmi sono stati sviluppati per un organismo specifico o
per un numero limitato di organismi e ciò implica che non possono essere usati per analizzare ogni
tipo di sequenza ma solo sequenze specifiche
Inoltre, per tutte le sequenze è necessario un filtro che escluda dall‟analisi le sequenze ripetitive.
Grande parte del DNA è costituito da sequenze di DNA ripetute che non fanno parte di regioni
codificanti. Queste sequenze devono essere eliminate perché possono interferire con le misure di
similarità biologicamente significative nel corso delle ricerche in banche dati.
Per risolvere questo tipo di problema ci sono due programmi: CENSOR e RepeatMasker.
Questi due programmi accedono a raccolte di sequenze di DNA ripetute ed operano un confronto
con le sequenze sottomesse al programma riuscendo ad identificare le sequenze ripetute presenti e
le sottraggono dalla ricerca.
Molti altri programmi sono stati sviluppati per analizzare le sequenze nucleotidiche:
Promoter Scan ricercare i promotori eucaristici. Infatti, la predizione dei promotori è importante per
l‟identificazione di sequenze geniche codificanti e per la corretta assegnazione di esoni tra i geni
situati nella stessa porzione del cromosoma.
NetGene e GenScan permettono di ricercare i siti di giunzione tra introni ed esoni. Un gene è
costituito da una sequenza codificante interrotta da sequenze non codificanti (dette introni). I geni
sono combinazioni di corti esoni ed introni di lunghezza variabile. Il termine esoni si applica a tutte
90
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
le regioni che non sono eliminate nel corso di maturazione del RNA [cioè le regioni non tradotte al
5‟ dei geni, quelle codificanti vere e proprie (CDS) e le regioni non tradotte al 3‟]. Pertanto
identificare i siti di giunzione tra introni ed esoni è necessaria per una corretta predizione della
struttura di un gene.
GeneMark permette di identificare i siti di inizio della traduzione. Il codone di inizio è in generale
(anche se non sempre) il codone AUG che codifica per la Metionina.
GRAIL permette l‟identificazione dei segnali di poliadenilazione e di terminazione della traduzione.
La più nota sequenza segnale coinvolta nella poliadenilazione è AATAAA
SPIDEY ci permette di determinazione la struttura di un gene. Il risultato in SPIDEY mostrerà la
struttura del gene esaminato cioè il numero di esoni che lo costituiscono
91
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Necessità dei metodi di predizione di struttura delle proteine
L‟organizzazione strutturale delle proteine è generalmente rappresentata mediante una successione
di livelli organizzativi: la struttura primaria è determinata dalla sequenza di amminoacidi, la
struttura secondaria è caratterizzata da ripiegamenti locali della catena di amminoacidi con
caratteristiche di periodicità riconoscibili (quali alfa eliche e strutture beta), la struttura terziaria
descrive l‟avvolgimento complessivo della proteina nello spazio tridimensionale. Infine, la struttura
quaternaria descrive l‟associazione di più catene proteiche a formare proteine oligomeriche.
E‟ noto che le diverse strutture primarie determinano la formazione di strutture terziarie che
differiscono sia per le caratteristiche della superficie (ad esempio la presenza di cavità o di
sporgenze), sia per le caratteristiche chimiche degli atomi e dei gruppi funzionali esposti sulla
superficie (proprietà acide, basiche, polari, apolari etc.). Viene generalmente definita come
conformazione “attiva” o “nativa” di una proteina quella conformazione che consente alla proteina
di svolgere la sua funzione principale. Tuttavia anche altre conformazioni, non necessariamente
correlate ad una funzione, possono risultare stabili e predominanti in determinate condizioni
ambientali. La conformazione spaziale di una proteina è infatti il risultato di un delicato equilibrio
energetico, a cui contribuiscono le interazioni tra i gruppi funzionali della catena principale e delle
catene laterali, ma anche l‟interazione con altre molecole quali l‟acqua e ligandi in genere, e fattori
entropici. Tale equilibrio è sensibile alle condizioni ambientali quali temperatura, forza ionica,
acidità, polarità del solvente, e alla presenza di altre molecole, proteiche e non. Tutti questi fattori
possono quindi alterare o modulare la struttura della proteina, che è strettamente correlata alla sua
funzione. E‟ quindi fondamentale la conoscenza della struttura tridimensionale di una proteina ai
fini di una completa comprensione del meccanismo molecolare con cui essa agisce. La
comprensione di tale meccanismo è a sua volta essenziale per interpretare fenomeni quali patologie
dovuti al malfunzionamento della proteina, oppure per progettare modifiche strutturali che ne
92
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
migliorino le proprietà (ingegneria proteica) per eventuali applicazioni in processi biotecnologici, o
infine per progettare ligandi specifici che possano eventualmente agire come farmaci. Tuttavia,
mentre la struttura tridimensionale è stata determinata solo per poche decine di migliaia di proteine,
sono state determinate oltre due milioni di sequenze di amminoacidi, mediante il sequenziamento
diretto delle proteine oppure per traduzione delle sequenze di acidi nucleici (sequenziamento
indiretto). Il “principio di Anfinsen” suggerisce che la proteina, data la successione di amminoacidi
che la caratterizza, è in grado di assumere la struttura tridimensionale “nativa” da sola, guidata
evidentemente da precise regole, a noi non ancora del tutto note. L‟interpretazione più completa del
problema indica che la molecola proteica, sintetizzata dalla cellula come un sequenza lineare di
amminoacidi, si ripiega in modo da assumere la forma che è energeticamente favorita, ovvero la
conformazione a minore energia. Ma, in aggiunta a tali considerazioni, il cosiddetto “paradosso di
Levinthal” ci dice che se una proteina, al momento della sua sintesi, dovesse esplorare tutte le sue
possibili conformazioni per valutare quale corrisponde alla minima energia, impiegherebbe un
tempo enorme per “individuare” la forma da assumere, mentre nella realtà ciò avviene in tempi
brevissimi. Evidentemente, le regole che guidano il ripiegamento della proteina sono tali da riuscire
anche a individuare un percorso rapido che esclude la stragrande maggioranza delle conformazioni
della proteina teoricamente possibili. Gli studi sui meccanismi di ripiegamento delle proteine
mirano quindi a individuare tutte queste regole (o quanto meno il più possibile) così da poter predire
la struttura tridimensionale di una proteina applicando tali regole alla sequenza di amminoacidi che
la caratterizza.
93
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Predizione della struttura secondaria
Negli anni „70, le prime predizioni di struttura sono state rese possibili dalle analisi statistiche
realizzate sulle prime strutture di proteine risolte mediante cristallografia. Analizzando un piccolo
numero di strutture (poche decine), si osservò che la distribuzione dei diversi amminoacidi nelle
diverse strutture secondarie (alfa elica, struttura beta e altro) non è casuale: alcuni amminoacidi
ricorrono più frequentemente in alcune strutture secondarie e meno in altre. Sulla base di queste
valutazioni sono nati i primi metodi, basati sul calcolo della propensione media degli amminoacidi
che si susseguono nella struttura primaria, valutata per brevi segmenti lungo tutta la sequenza
(Metodo di Chou and Fasman e metodo di GOR). Questi metodi avevano una attendibilità di circa il
50%, il che vuol dire che per il 50% degli amminoacidi veniva correttamente predetta la struttura
secondaria, in uno schema che prevedeva generalmente tre stati (struttura alfa, struttura beta, altro)
o in alcuni casi quattro (struttura alfa, struttura beta, “turn”, altro).
Con il passare degli anni, è aumentato il numero di proteine la cui struttura era stata risolta
sperimentalmente e ciò ha permesso di avere valutazioni statistiche basate su campioni sempre più
ampi. Al tempo stesso si sono sviluppati altri metodi in cui la propensione degli amminoacidi per le
diverse organizzazioni di struttura secondaria veniva definita sulla base non solo di parametri
statistici ma anche di proprietà chimico-fisiche quali l'idrofobicità o il volume.
Mentre i diversi approcci predittivi venivano nel tempo migliorati, si osservava anche che
l'applicazione di più metodi e il confronto dei diversi risultati consentivano una predizione più
accurata di quella ottenibile con i singoli metodi. Tutto ciò portò, nella seconda metà degli anni '80,
a poter predire la struttura secondaria di una proteina con un‟attendibilità del 60-65 %.
La successiva evoluzione delle predizioni di struttura secondaria è dovuta alla sviluppo di metodi
computazionali più sofisticati, basati su sistemi di reti neurali che hanno consentito di realizzare
programmi capaci di “apprendere” dagli esempi noti di strutture proteiche e “applicare” le
94
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
conoscenze acquisite ai nuovi casi di studio. Tali metodi hanno consentito di arrivare a predire la
struttura secondaria con attendibilità superiore al 70%. Con alcune variazioni ed evoluzioni di
questi ultimi metodi, attualmente considerati i più affidabili, si arriva oggi ad una attendibilità
intorno all‟80%, con punte del 90%. Tra questi metodi ci sono PHD, PSIPRED e JPred.
95
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Predizione della struttura tridimensionale
La predizione della struttura secondaria non è sufficiente per capire in pieno la funzione della
proteina, correlata principalmente alla struttura terziaria. Tuttavia, con il progressivo aumento del
numero di proteine di cui è stata determinata sperimentalmente la struttura tridimensionale, è stato
possibile realizzare analisi strutturali e studi statistici da cui sono scaturite conoscenze e teorie alla
base di alcuni metodi di predizione della struttura terziaria. Ad esempio, si è osservato che proteine
aventi sequenze di amminoacidi simili hanno anche una organizzazione tridimensionale simile.
Anche somiglianze di tipo funzionale sono correlate a somiglianze strutturali.
L'architettura complessiva della proteina non dipende strettamente dalla precisa posizione ed
estensione dei singoli elementi di struttura secondaria, ma piuttosto dall'ordine con cui essi si
succedono lungo la sequenza. Su queste basi, si può considerare che due proteine possono avere
organizzazione tridimensionale sostanzialmente simile se hanno una identità di sequenza maggiore
del 40%, il che corrisponde generalmente anche ad una funzione simile.
Attualmente, la strategia di predizione che produce i migliori risultati utilizza come modello di
riferimento la struttura tridimensionale nota di una proteina avente una sequenza di amminoacidi
sufficientemente simile a quella della proteina a struttura ignota. Questo metodo, indicato come
“modellamento per omologia” o “modellamento comparativo”.
96
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Esistono
proteine con
sequenza simile
e struttura 3D
nota ?
NO
SI
Fold
recognition
La sequenza in
esame è
compatibile
con una
struttura 3D
nota?
Informazione
minima necessaria:
Sequenza della
proteina
Modellamento
per omologia
Allineamento sequenze
Costruzione del
modello sul riferimento
SI della struttura nota
Verifica
della
qualità
del
modello
NO
Modellamento
“ab initio”
Modellamento comparativo
Una volta identificato un modello tridimensionale valido come riferimento (detto “templato”),
questa strategia di modellamento prevede che si effettui l'allineamento delle due sequenze, la
creazione di un modello tridimensionale sulla base del templato, un‟ottimizzazione della sua
conformazione e controlli strutturali ed energetici per verificare la qualità del modello ottenuto. La
fase più delicata di questa strategia è l‟allineamento della sequenza della proteina da modellare con
la sequenza della proteina a struttura nota. Allineare le due sequenze è infatti un‟operazione
relativamente semplice quando le due proteine sono molto simili, mentre risulta un‟operazione
molto delicata quando la somiglianza è bassa perchè è necessario inserire delle interruzioni nelle
sequenze per ottenere il migliore allineamento possibile. Per ogni interruzione nell‟allineamento
delle due sequenze, nel costruire il modello ci sarà una regione da predire senza avere un
riferimento strutturale nel templato, oppure da eliminare rispetto al templato; in entrambi i casi, si
vengono a creare delle considerevoli alterazioni nel modello in costruzione rispetto a quello di
riferimento. Per questo motivo, nell‟allineamento delle sequenze va ben valutata la posizione in cui
si inseriscono delle interruzioni, tenendo conto ad esempio che queste inserzioni creano meno
problemi se avvengono in regioni a struttura secondaria non definita.
97
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Il modellamento prosegue poi costruendo la struttura della proteina sulla base dell‟avvolgimento
della catena principale della proteina di riferimento: esistono strategie e software specializzati che
permettono di creare la struttura tridimensionale e di ottimizzarla.
Ovviamente, il modello ottenuto avrà una struttura della catena principale molto simile a quella del
templato.
I programmi comunemente usati per il modellamento comparativo sono Modeller e SwissModel.
Il modellamento per omologia non è applicabile quando la proteina in esame non risulta
sufficientemente somigliante ad alcuna proteina di cui sia già nota la struttura tridimensionale. In tal
caso, è possibile utilizzare altre strategie (Fold recognition e Folding ab-initio).
Fold recognition o riconoscimento del ripegamento
Questo metodo verifica quanto una data sequenza di amminoacidi sia “adatta” ad un determinato
avvolgimento della catena principale, e se attribuendo una “forma” a quella sequenza, il modello
ottenuto è compatibile con dei requisiti di stabilità. La sequenza in esame viene confrontata con tutti
gli avvolgimenti noti e si ottiene una tabella di valori energetici e statistici da cui si può valutare
quale avvolgimento è “più adatto” ad essa. In questa valutazione, non basta semplicemente
osservare i parametri derivanti dalle procedure di calcolo e modellamento, ma bisogna anche tenere
conto di altri aspetti, sia di tipo strutturale (ad esempio il miglior avvolgimento trovato può
corrispondere ad una proteina con caratteristiche strutturali incompatibili con quelle
sperimentalmente note della nostra proteina) sia di tipo funzionale (l'avvolgimento più adatto
corrisponde ad una funzione non compatibile con le funzioni note della nostra proteina). Questo
ultimo aspetto può portare sia a cercare nuove funzioni nella proteina in esame, sia a cercare un
altro avvolgimento, forse meno adatto sul piano strutturale ma più compatibile su quello funzionale.
Una volta individuato l'avvolgimento più adatto alla sequenza in esame, e quindi un modello da
usare come riferimento, si procede come già visto per il modellamento per omologia: si allineano le
98
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
due sequenze, si sostituiscono nel modello di riferimento le catene laterali, si ottimizza la struttura
complessiva e si verifica la qualità del modello. Sono molto utili in questa fase i risultati delle
predizioni di struttura secondaria. Infatti, l'allineamento delle sequenze di amminoacidi può essere
ottimizzato in base all'allineamento degli elementi di struttura secondaria. Come già accennato
prima, l'architettura complessiva della proteina è determinata da come le strutture secondarie si
susseguono lungo la sequenza: il modello tridimensionale risulta perciò tanto più attendibile quanto
più metodi diversi vengono abbinati (allineamento di sequenze, predizioni di struttura secondaria,
modellamento molecolare) e quanto più i singoli metodi risultano attendibili.
I programmi più usati per il riconoscimento del fold sono: 3D-PSSM, FUGUE, SAMT02, FFAS03.
Metodi ab-initio
Quando il modellamento per omologia ed il riconoscimento del fold non sono applicabili è possibile
utilizzare i metodi “ab initio” che non si basano sull‟osservazione di proteine note ma ricercano le
conformazioni di minima energia. Questi metodi possono essere concettualmente considerati come
simulazioni virtuali del processo di ripiegamento, e sono attualmente in forte evoluzione. Essi in
genere prevedono alcuni passaggi obbligati, tra cui la scelta di una rappresentazione semplificata
della catena polipeptidica, la definizione di funzioni energetiche adatte per modellare le forze
chimico-fisiche che agiscono sulla proteina, e strategie per creare la catena polipeptidica con la più
bassa energia (quindi presumibilmente la più stabile). Allo stato attuale, si registrano alcuni
promettenti risultati nella predizione di strutture di piccole proteine (70-100 amminoacidi) [13].
D'altra parte, i risultati di una predizione “ab-initio” sono comunque affetti da un margine di
imprecisione tale da rendere preferibili, se possibile, strategie con cui, mediante approssimazioni
permesse da considerazioni basate sullo studio delle strutture tridimensionali note, sia possibile
99
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
semplificare la complessità dei calcoli e raggiungere al tempo stesso un modello tridimensionale
sufficientemente attendibile, sia pure non utilizzabile per studi che richiedano una definizione della
struttura a risoluzione elevata.
I metodi comunemente usati sono: Robetta server, HMMSTR.
Valutazioni sui modelli
La verifica del modello ottenuto per predizione costituisce una fase di enorme importanza dato che
fornisce una valutazione dell‟attendibilità del risultato ottenuto. E‟ indispensabile valutare diversi
elementi del modello, perciò sono state sviluppate nel tempo diverse metodiche, che sono
ovviamente applicabili anche a strutture determinate tramite metodi sperimentali. Tra queste,
spiccano per importanza i programmi che consentono la valutazione delle caratteristiche
stereochimiche della catena proteica, accertando che siano assenti, ad esempio, caratteristiche
strutturali non compatibili con gli angoli di torsione che una catena proteica può assumere
(Procheck). Altri metodi valutano i profili energetici dei modelli, che individuano zone in cui valori
particolarmente elevati indicano errori o bassa qualità nel modellamento (Errat, Prosa). Infine,
quando possibile, è utile paragonare il modello predetto per una proteina con qualsiasi dato
sperimentale relativo ad aspetti strutturali e funzionali, come spettri di dicroismo circolare, oppure
caratteristiche di esposizione al solvente per specifici amminoacidi, ed altro, così da ricavare
informazioni utili per confermare o rifiutare il modello ottenuto.
100
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
CASP
Una valutazione dell‟affidabilità di questi metodi (modellamento per omologia, metodo di
riconoscimento di fold, metodi ab-initio) viene fatta ogni due anni dalla comunità scientifica
internazionale che ha istituito nel 1994 un esperimento chiamato CASP (Critical Assessment of
Methods for Protein Structure Prediction). Questo esperimento valuta l‟efficacia di un metodo,
confrontando la predizione con un risultato sperimentale. In pratica, ogni due anni viene chiesto a
cristallografi ed a spettroscopisti NMR, che stanno per risolvere la struttura di una proteina, di
rendere disponibile la sua sequenza. Queste sequenze (target) vengono assegnate ad una serie di
predittori che devono depositare i loro modelli prima che la struttura sia resa pubblica. Un insieme
di valutatori (assessors) confronta i modelli e le strutture, appena queste ultime sono rese
disponibili, e cerca di valutare le predizioni e di trarre conclusioni generali. I risultati vengono, poi,
discussi in un convegno dove i valutatori ed i predittori si incontrano per discutere dei risultati.
Dai risultati del CASP5 si può avere una valutazione dell‟accuratezza raggiunta dai tre metodi. Il
modellamento comparativo è risultato ancora il metodo predittivo più affidabile. Ottimi risultati
sono stati ottenuti soprattutto per le zone strutturalmente conservate (definite come “core”) della
proteina target. I limiti maggiori restano sempre quelli del modellamento delle catene laterali e dei
loop; infatti, molti metodi sono stati sviluppati ma i risultati non sono ancora positivi. Sono stati
ottenuti buoni risultati, nel caso di bassa percentuale di identità di sequenza tra la proteina target e
quella/e template, migliorando l‟allineamento mediante i modelli di Markov ed i metodi basati sui
profili.
Gli esperimenti del CASP prevedono anche una sezione di valutazione di server automatici
(CAFASP). Molti sono stati i server automatici di modellamento per omologia, che hanno ottenuto
risultati migliori della media dei predittori ma è anche da sottolineare che per lo stesso target si sono
registrate sia predizioni di ottima qualità sia predizioni completamente improbabili. Lo stesso si può
101
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
dire per il metodo del riconoscimento di fold. Alcune volte i modelli ottenuti per riconoscimento di
fold sono risultati più simili alla struttura sperimentale di qualunque delle strutture presenti nella
banca dati.
Inoltre, i predittori, che hanno ottenuto i migliori risultati, hanno combinato i loro metodi ed hanno
organizzato un paio di convegni per poter discutere dei risultati ottenuti. Le proteine per cui si è
riusciti ad avere risultati migliori, sono state quelle su cui uno dei partecipanti lavorava
sperimentalmente. Ciò ha fatto dedurre che un qualsiasi metodo funziona meglio se è abbinato ad
una approfondita conoscenza delle caratteristiche biologiche delle proteine.
Per quanto riguarda i metodi ab-initio, dai risultati del CASP5 si è potuto dedurre che nessuno dei
metodi (minimizzazione, dinamica molecolare, Monte Carlo, algoritmi genetici) è in grado di
trovare la conformazione a minima energia di una proteina. Ma la combinazione di questi metodi
può dare buoni risultati per predire strutture di frammenti proteici. Il metodo di maggior successo
nella categoria dei metodi ab-initio sia nel CASP4 sia nel CASP5 è stato il metodo ROSETTA. In
questo metodo, la sequenza di una proteina target viene divisa in frammenti contigui di 3 e 9
amminoacidi. Tutti i frammenti di proteine di struttura nota che hanno sequenze uguali o simili a
queste regioni vengono combinati, utilizzando il Metodo di Monte Carlo, al fine di predire la
possibile conformazione della proteina target.
102
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
DOCKING
Quando è nota la struttura di due proteine e si sa che esse interagiscono, predire la loro orientazione
relativa nel complesso rappresenta un problema non facile da risolvere. La simulazione fatta in
silico della formazione del complesso molecolare a partire dalle strutture tridimensionali delle
proteine, che lo compongono, viene definita con il termine docking.
Il problema maggiore relativo alla predizione delle interazioni proteina-proteina è che la struttura
delle proteine in un complesso è abbastanza diversa da quella assunta dalle stesse proteine nella loro
forma libera soprattutto nelle regioni dell‟interazione. Ciò è certamente dovuto al fatto che le catene
laterali dei residui delle proteine sono relativamente mobili e talora seguono il formarsi del
complesso con movimenti che determinano una migliore complementarità tra i residui delle
proteine interagenti. Questi movimenti coinvolgono non solo le catene laterali dei residui ma
talvolta comportano anche spostamenti di interi segmenti di strutture secondarie.
Diversi metodi di docking sono stati sviluppati (DOCK, AUTODOCK, FlexX, ESCHER) sia per la
ricostruzione di complessi proteina-proteina sia per l‟analisi di complessi tra proteine e ligandi. Il
docking è molto utilizzato anche per la ricerca di nuovi inibitori di una proteina data mediante
l‟utilizzo di banche dati di possibili ligandi. I metodi, finora sviluppati, si basano o su criteri
geometrici o energetici. I metodi energetici sfruttano il fatto che le proteine formano complessi
poiché questi sono energeticamente favoriti mentre quelli geometrici si basano sulla considerazione
che le superfici di interazione delle due proteine, che formano il complesso, devono essere
complementari.
Una valutazione delle procedure di docking proteina-proteina, finora sviluppate, viene fatta
periodicamente mediante un esperimento, analogo a quello del CASP, denominato CAPRI (Critical
Assessment of PRedicted Interactions). Proprio come per il CASP, le predizioni vengono fatte e
confrontate con le strutture dei complessi, ottenute mediante diffrazione ai Raggi X, prima che
103
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
queste vengano rese pubbliche. Dall‟ultima edizione (CAPRI round 3) è emerso che molti metodi di
docking trattano i componenti molecolari come corpi rigidi, mentre altri fanno ciò solo nei primi
passaggi della simulazione, in modo da eliminare le soluzioni più improbabili, e poi modellano le
catene laterali e/o il backbone (catena principale). Il maggiore limite di questi metodi è nel fatto che
essi, quando tentano di predire strutture di complessi, raramente sono in grado di fornire una sola
soluzione. Infatti, la maggior parte delle volte forniscono una lista di possibili modi di interazioni e
scegliere la migliore tra queste non è facile. Recentemente, analizzando strutture di complessi note,
si è cercato di studiare quali possono essere i parametri legati all‟interfaccia proteina-proteina. Ma
eccetto l‟ampiezza dell‟interfaccia, che, in generale anche se non sempre, tende ad essere più larga
nei complessi biologicamente attivi, altri parametri, come il numero di legami ad idrogeno per unità
di superficie e le propensità di contatto tra residui, non sono risultati discriminatori.
Per la predizione dell‟interazione proteina-proteina sono stati ottenuti buoni risultati combinando i
metodi di docking con i due approcci classici, modellamento per omologia e threading, i quali
rappresentano una strategia integrata, capace di predire i siti di interazione, i contatti tra i residui e,
nei casi più fortunati, anche un modello dettagliato del complesso. Infatti, questi due metodi usano
la struttura di un complesso noto come riferimento (template) per costruire il modello del complesso
target. Però il limite di questo approccio è certamente legato alla percentuale di somiglianza, che c‟è
tra le proteine target e quelle template. Russell ed i suoi collaboratori hanno recentemente
dimostrato che proteine con una percentuale di omologia pari al 30-40% interagiscono allo stesso
modo mentre il modo di interagire è raramente conservato per proteine con percentuale di identità
di sequenza più bassa.
104
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
Lista di Link utili usati durante le Esercitazioni:
BLAST:
http://www.ncbi.nlm.nih.gov/blast/
BoxShade:
http://www.ch.embnet.org/software/BOX_form.html
CATH:
http://www.cathdb.info/latest/index.html
CSD:
http://www.ccdc.cam.ac.uk/products/csd/
CENSOR:
http://www.girinst.org/Censor_Server.html
CLUSTALW:http://www.ebi.ac.uk/clustalw/
DDBJ:
http://www.ddbj.nig.ac.jp/Welcome-e.html
DIALIGN:
http://bibiserv.techfak.uni-bielefeld.de/dialign/
DSSP:
http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html
http://swift.cmbi.ru.nl/gv/dssp/
EBI:
http://www.ebi.ac.uk
ELM:
http://elm.eu.org/
EMBL:
http://www.ebi.ac.uk/embl/
EMBnet:
http://www.embnet.org
EMBOSS:
http://emboss.sourceforge.net/
EMBOSS (Pairwise Alignment Algorithm): http://www.ebi.ac.uk/emboss/align/
ENSEMBL : http://www.ensembl.org/index.html
Entrez:
http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi
Expasy:
http://www.expasy.org
FASTA:
http://www.ebi.ac.uk/fasta33/
http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=select&pgm=fap
GenBank:
http://www.ncbi.nlm.nih.gov/Genbank/
105
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
GeneDoc:
http://www.psc.edu/biomed/genedoc/
GeneMark: http://exon.gatech.edu/GeneMark/genemark_prok_gms_plus.cgi
GenomeScan http://genes.mit.edu/genomescan.html
GenScan:
http://genes.mit.edu/GENSCAN.html
Gibbs Sampler:
GRAIL:
HMMER:
http://bayesweb.wadsworth.org/gibbs/gibbs.html
http://compbio.ornl.gov/Grail-1.3/
http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html
HSSP:
http://swift.cmbi.kun.nl/gv/hssp/
KALIGN
http://msa.cgb.ki.se/cgi-bin/msa.cgi
InterPro:
http://www.ebi.ac.uk/interpro/
ITERALIGN: http://giotto.stanford.edu/~luciano/iteralign.html
LALIGN:
http://www.ch.embnet.org/software/LALIGN_form.html
MMDB:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure
MEME:
http://meme.sdsc.edu/meme/website
Multalin
http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html
NCBI:
http://www.ncbi.nlm.nih.gov:8000
NDB:
http://ndbserver.rutgers.edu/
NetGene:
http://genome.cbs.dtu.dk/services/NetGene2/
PDB:
http://www.rcsb.org/pdb/home/home.do
PDBsum:
http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/
PIR:
http://pir.georgetown.edu
PrettyPlot:
http://www.ocgc.on.ca/programs/emboss/prettyplot.html
PRODOM: http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW
PromoterScan: http://www-bimas.cit.nih.gov/molbio/proscan/
PROSITE:
http://www.ebi.ac.uk/ppsearch/
106
POR Campania 2000-2006 Misura 3.22 Attuazione azione i
Corso di Bioinformatica Codice Corso 57-003
http ://www.expasy.org/prosite/
PSORT
http://psort.nibb.ac.jp/form2.html
PUBMED:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
RAGA
http://ugs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/raga_home_page.html
ReadSeq:
http://iubio.bio.indiana.edu/soft/molbio/readseq/java
RepeatMasker http://www.repeatmasker.org
SAGA
http://ugs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/saga_home_page.html
Sanger:
http://www.sanger.org
ScanProsite
http://www.expasy.org/tools/scanprosite/
SCOP:
http://scop.mrc-lmb.cam.ac.uk/scop/
SeaView:
http://pbil.univ-lyon1.fr/software/seaview.html
SIB
http://www.isb-sib.ch
SignalIP
http://www.cbs.dtu.dk/services/SignalIP
SPIDEY:
http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/
SRS:
http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession
SWISSPROT: http://www.ebi.ac.uk/swissprot/access.html
TCOFFEE
http://www.ch.embnet.org/software/TCoffee.html
TREMBL:
http://www.ebi.ac.uk/trembl/access.html
UNIPROT:
http://www.pir.uniprot.org
WebLogo:
http://www.bio.cam.ac.uk/cgi-bin/seqlogo/logo.cgi
107