POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 MATERIALE DIDATTICO 1 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Concetti di base di INFORMATICA 2 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Definizione di Informatica ed Informazioni La parola INFORMATICA indica l‟insieme delle discipline e delle tecniche che permettono la trattazione automatica delle informazioni che sono alla base delle nostre conoscenze e delle loro comunicazioni. Il termine INFORMATICA è nato nel 1966 in Francia dalla contrazione delle parole INFORmazione e autoMATICA Una Informazione è una “Sequenza (o stringa) di simboli associata a un significato”. I possibili supporti fisici per l‟informazione sono suono (conversazioni tra persone), onde radio (radio e televisione), correnti e tensioni elettriche (cavi telefonici), campi magnetici (audiocassette, floppy disk), segni su carta (libri, giornali). Sull‟informazione si possono effettuare numerose operazioni: creazione, trasmissione, immagazzinamento (archiviazione), recupero, copia, distruzione, elaborazione (trasformazione). I simboli che fanno parte della sequenza vengono scelti all‟interno di un insieme detto alfabeto. Esempi di alfabeti: - Alfabeto italiano, 21 simboli (lettere): {A, B, …., V, Z} - Alfabeto numerico decimale, 10 simboli (cifre): {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} - Alfabeto telegrafico Morse, 2 simboli: {., -} - Alfabeto del Totocalcio, 3 simboli: {1, X, 2} Da questi esempi risulta evidente la necessità di regole che associno un significato a queste stringhe di simboli. Un siffatto insieme di regole prende il nome di codice. Nei sistemi per l‟elaborazione dell‟informazione viene adottato un alfabeto composto da soli 2 simboli, rappresentati dalle cifre 0 e 1. Tale alfabeto è detto alfabeto binario. 3 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Una cifra binaria viene definita bit (da binary digit, “cifra binaria”). Una stringa di 8 bit è definita byte (28=256 valori diversi) Ci sono vari tipi di informazioni: 1. Informazione di tipo numerico è indicata da una quantità numerica. 2. Informazione di tipo alfanumerico è rappresentata da un carattere {A, …, Z, a, …, z, 0, …, 9, ;, :, ., @, $, ... } 3. Informazione di tipo logico è rappresentata da grandezze logiche, cioè grandezze che possono avere soltanto due valori: vero o falso. Questo tipo di informazione è associato al valore di verità di un determinato enunciato: vero se l‟enunciato è vero, falso se l‟enunciato è falso. Le informazioni di tipo logico si possono manipolare in maniera simile ai numeri; la differenza è che invece delle operazioni aritmetiche (+, -, etc) si utilizzano delle operazioni logiche (AND, OR, NOT). L‟operazione AND agisce su due operandi. Il valore dell‟AND di due operandi è vero soltanto quando entrambi gli operandi hanno valore vero. falso AND falso = falso falso AND vero = falso vero AND falso = falso vero AND vero = vero L‟operazione OR agisce su due operandi. Il valore dell‟OR è vero se almeno uno dei due operandi è vero. falso OR falso = falso falso OR vero = vero vero OR falso = vero vero OR vero = vero L‟operatore NOT agisce su un solo operando e ha come valore il contrario del valore dell‟operando. 4 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 NOT falso = vero NOT vero = falso 4. Informazione di tipo istruzione è un‟operazione da eseguire. Il codice che associa ad ogni stringa binaria l‟azione da eseguire viene detto linguaggio macchina, che è interpretabile dalla CPU. 5. Altri tipi di informazioni sono suoni, immagini, filmati, oggetti tridimensionali 5 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Caratteristiche generali di un Computer Il Computer è definito come il “sistema per l‟elaborazione dell‟informazione”. Questo sistema è costituito da due componenti: Hardware e Software. L‟hardware è l‟insieme di tutti i circuiti delle macchine e dei componenti elettronici, elettrici e meccanici di un sistema di elaborazione. Il software è l‟insieme dei programmi operanti su di esso. Un Computer è definito digitale poichè tutti i suoi principi di funzionamento sono fondati su basi logiche e matematiche; automatico dal momento che evolve da uno stato iniziale a uno stato finale eseguendo automaticamente, senza interventi esterni, un numero finito di operazioni; elettronico poiché sono elettronici i circuiti preposti all‟esecuzione delle istruzioni, così come gli elementi bistabili che costuiscono le memorie del sistema; a programma registrabile poiché la sequenza di istruzioni costituenti il programma è immagazzinata nella stessa memoria dell‟elaboratore. Ciò conferisce ampia flessibilità al sistema, poiché cambiando il programma registrato si può cambiare l‟elaborazione che viene compiuta. 6 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Le varie Componenti del computer Le unità che compongono un computer sono indicate nel Modello di Von Newman: Il Processore (CPU) comprende l‟unità di controllo, l‟unità aritmetico-logica ed i registri interni. L‟Unità di Controllo (CU, Control Unit) presiede a tutte le operazioni eseguite dall‟elaboratore, interpretando le istruzioni prelevate in sequenza dalla memoria centrale e inviando alle specifiche unità i segnali abilitanti. L‟Unità logico-aritmetica (ALU, Arithmetical Logical Unit) esegue le operazioni aritmetiche e logiche richieste dall‟unità di controllo. I registri interni servono per memorizzare i dati sui quali il processore sta operando, come ad esempio i risultati intermedi dei calcoli. La Memoria comprende la memoria centrale, la memoria ROM e le memorie ausiliarie. Le funzioni di memoria di un elaboratore sono distribuite in una gerarchia con il principio di allocare negli strati più bassi le informazioni che vengono richiamate più spesso e gestire il loro trasferimento fra i diversi strati. La Memoria centrale (RAM, Random Access Memory) è un insieme ordinato locazioni (anche dette celle) numerate in successione. Ogni locazione è identificata dal suo numero d‟ordine, che 7 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 prende il nome di indirizzo della locazione. LA RAM è una memoria ad accesso casuale. L‟operazione di scrittura in una locazione consiste nell‟alterare lo stato dei singoli bit che la costituiscono in modo da registrare la sequenza di 0 e 1 da memorizzare. Tale operazione è distruttiva. L‟operazione di lettura di una locazione consiste nel riprodurre (copiare) lo stato dei singoli bit che la costituiscono nei bit corrispondenti di un‟altra locazione o registro. Tale operazione è non distruttiva perché l‟informazione letta viene preservata e può essere letta di nuovo. La ROM (Read Only Memory) è elettronica e ad accesso casuale come la RAM. Inoltre, è permanente e a sola lettura: una volta che le informazioni vi sono state memorizzate non è più possibile modificarle. I chip di ROM vengono inizializzati in fabbrica all‟atto della produzione e contengono software specializzato (gestione di periferiche, set aggiuntivi di caratteri per stampanti, programma di avvio del sistema (boot loader)) Le memorie di massa sono dischi rigidi, floppy disk, CD-ROM, nastri ed etc. L‟Unità di Ingresso(Input devices) sono impiegate per immettere il programma in fase di caricamento e i dati in fase di esecuzione. Sono indicate come unità di ingresso: tastiera, mouse, penna ottica, floppy disk drive (unità a floppy), hard disk drive (unità a disco rigido), CD-ROM (lettore di CD-ROM), scanner, modem, telecamera, scheda per la connessione in rete locale (Ethernet), microfono. L‟Unità di Uscita (Output devices) sono impiegate per presentare i risultati dell‟elaborazione. Sono indicate come unità di uscita: monitor, stampante, plotter, floppy disk drive e hard disk drive, masterizzatore di CD-ROM, modem, interfacce varie, scheda per la connessione in rete locale, dispositivi audio. 8 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Hardware e Software Un sistema per l‟elaborazione dell‟informazione consiste di due componenti : l‟hardware ed il software Una macchina reale è costituita solo dall‟hardware mentre una macchina virtuale è costituita dalla macchina reale + software. La macchina reale esplica le funzioni fondamentali del sistema di elaborazione ed è in grado di effettuare un grande numero di operazioni elementari in tempi molto ridotti rispetto a quelli umani La macchina reale è programmabile esclusivamente in linguaggio macchina ed è, pertanto, molto scomoda da utilizzare direttamente: infatti, la programmazione in linguaggio macchina è ardua e poco efficace. E‟ difficile adattare la logica sintetica del pensiero umano a quella analitica ed elementare della macchina reale. Per superare queste difficoltà si realizzano degli strati di software che vanno a ricoprire la macchina reale. Si possono distinguere due tipi di software: software di base e software applicativi.: Il Software di base è l‟insieme di programmi necessari per lo stesso funzionamento del sistema che costituiscono macchine virtuali di basso livello. Il Software applicativo è costituito da tutti i programmi orientati alla risoluzione di problemi specifici utilizzati direttamente dall‟utente finale. 9 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Sistema operativo Il sistema operativo è una collezione di moduli software che gestiscono le risorse hardware e software e controllano lo svolgimento delle diverse procedure di elaborazione. Le macchine virtuali di livello più basso sono tutte realizzate da moduli di sistema operativo. Fra i vari moduli c‟è un supervisore o kernel che risiede stabilmente in memoria centrale,ossia viene caricato una tantum all‟atto dell‟accensione del sistema. Gli altri moduli, residenti in memoria di massa, vengono richiamati dal supervisore e caricati in memoria centrale quando devono svolgere i compiti specifici di loro competenza (ad esempio loader, shell, driver) Il sistema operativo gestisce le risorse disponibili e le periferiche, controlla l‟esecuzione dei programmi ed interagisce con l‟utente. In dettaglio, il sistema operativo deve fare in modo che le richieste per accedere a tali risorse vengano servite in maniera ottimale (come l‟esecuzione di vari programmi, le code di stampa, l‟accesso ai file su disco..). Per ogni periferica il sistema operativo ha un modulo chiamato driver. I driver di periferica sono programmi specializzati nel tradurre richieste formulate dall‟utente in una forma comprensibile dalla periferica (Es. Driver per una stampante). Quando si ci propone di eseguire un programma, che risiede in memoria di massa, il sistema operativo deve copiarlo in memoria centrale. In questo caso, viene avviato un modulo del sistema operativo chiamato loader, che si occupa di copiare il programma dalla memoria di massa nella RAM. Inoltre, un altro modulo all‟interno del sistema operativo è l‟interprete di comandi, anche detto shell. Esso è un interprete che risponde i comandi forniti dall‟utente tramite la tastiera o il mouse e 10 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 li traduce uno ad uno in comandi di livello più basso che portino a termine le azioni specificate dall‟utente. I sistemi operativi più diffusi sono MS-DOS, Windows e Unix/Linux. MS-DOS non risiede nella memoria ROM ma viene caricato da disco. Esso implementa la monoprogrammazione per singolo utente, con delle limitatissime capacità di multiprogrammazione. Windows non è nato come un sistema operativo ma come un programma applicativo che aggiungeva una interfaccia grafica al sistema operativo MS-DOS. Oggi è il più diffuso sistema operativo che implementa la multiprogrammazione in monoutenza e permette la condivisione di risorse fra elaboratori connessi in rete. Unix/Linux permettono la multiprogrammazione e multiutente; l‟accesso a questo sistema è possibile anche attraverso terminali remoti. 11 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Collegamenti fra sistemi elaborativi Un sistema per l‟elaborazione dei dati può essere dislocato in un impianto singolo o può essere distribuito su vari laboratori. In quest‟ultimo caso le varie unità sono interconnesse tramite una rete di trasmissione dati (rete). Possiamo distinguere 3 tipi di rete: LAN, MAN e WAN. Una Rete locale (LAN) è una rete di interconnessione di estensione limitata tipicamente all‟ambito di un solo edificio, e che non attraverso suolo pubblico. Una Rete geografica è una rete di interconnessione di estensione maggiore, che può coprire un‟area cittadina (MAN, Metropolitan Area Network) o anche un territorio più vasto (Widea Area Network) Reti locali I vari componenti sono connessi mediante un cavo coassiale. Sia i sistemi sia le periferiche possono essere di natura e marca diversa, creando una rete eterogenea (ethernet), in cui tutte le risorse presenti sono utilizzabili da ciascuno dei punti di accesso alla rete. Un apposito insieme di programmi (software di rete) implementa una serie di macchine virtuali, che si occupano di gestire lo scambio di informazioni secondo un preciso protocollo. Con il termine protocollo si intende un insieme di regole che governano i dettagli tecnici dello scambio di informazioni. Il software di rete risolve anche gli eventuali conflitti (collisioni) dovuti alla richiesta contemporanea di accesso alla stessa risorsa da parte di due o più utenti della rete. Reti geografiche Una rete geografica può essere privata (banca, industria) o pubblica (università , enti di ricerca). Più reti separate possono essere collegate mediante gateway. Poiché ciascuna delle reti collegate 12 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 può avere un protocollo diverso, il gateway provvede all‟opportuna conversione di protocollo al fine di garantire una corretta trasmissione delle informazioni. Tutte le reti create da organizzazioni tecnico-scientifiche sono collegate tra loro, pervenendo così alla costituzione di una rete unica internazionale che tocca quasi tutti i paesi del mondo: Internet, Inter-network, cioè “reti fra reti”. Ogni sistema connesso in rete è definito nodo. 13 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Servizi di rete I principali sono: 1) Posta elettronica o E-mail consente lo scambio di messaggi personali tra utenti dei nodi della rete. È possibile spedire messaggi a più persone contemporaneamente (mailing list). 2) FTP (File Transfer Protocol) èservizio di rete che consente di trasferire file da un nodo ad un altro. 3) Telnet (Teletype Network) è possibile effettuare procedure di elaborazione su un sistema remoto. 4) World Wide Web o WWW è definito ragnatela diffusa in tutto il mondo. In questa modalità di fruizione della rete, l‟utente sfoglia un ipertesto suddiviso in pagine. All‟interno di ciascuna pagina esistono degli oggetti chiamati link (parole o icone) che, se attivati, richiamano suoni, animazioni o altre pagine (scritte in HTML). Indirizzi Internet Possiamo distinguere due tipi di indirizzi internet (Domain name e IP). Domain name è una stringa di caratteri, intervallata da punti, che individua un nodo della rete Ad esempio l‟indirizzo: sirio.acme.it Indica che il nodo si trova in Italia (it) il nodo sta in un sub-network che si chiama „acme‟ (rete privata di un‟aziena o di un‟università) il nodo che ci interessa nel sub-network acme.it si chiama „sirio‟. 14 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Indirizzi IP è costituito da 4 numeri separati da punti. Esempio: 192.9.18.1 La traduzione da indirizzo IP a FQDN si chiama name serving e richiede la consultazione di un enorme database che, a causa delle proprie dimensioni, è distribuito su tutta Internet invece di risiedere su un solo elaboratore. Indirizzi di posta elettronica Questo tipo di indirizzo oltre a specificare un nodo, deve anche specificare un utente di quel nodo. Il formato è utente @ host, dove host è il domain name del sistema utilizzato dal destinatario, mentre utente è il nome con cui il destinatario è conosciuto presso il suo sistema remoto. Negli indirizzi di posta elettronica non si usano l‟ indirizzo IP al posto del FQDN. Indirizzi www Gli indirizzi www sono indirizzi di pagine Web e si dicono URL (Uniform Resource Locator). Il formato usato è prot://host/pathname dove -„prot‟ indica il protocollo da utilizzare (tipo http o ftp) -„host‟ è il domain name o l‟indirizzo IP su cui risiede la pagina (tipo www) -„pathname‟ è il pathname del file che contiene la pagina. 15 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Varie topologie di rete a c b e d Possiamo distinguere 5 tipologie di rete. Nella topologia di rete ad albero (a) il traffico va dai terminali dei livelli più bassi verso i sistemi intermedi o il sistema del livello più alto. Il sistema del livello più alto è il più potente dell‟intera struttura, infatti provvede alle richieste di tutta la rete. Tale livello è responsabile della gestione completa dell‟intera rete, ma può anche esistere una cooperazione, per la gestione il controllo della rete, fra il nodo principale ed alcuni o tutti i sistemi di livello inferiore (a cui vengono assegnati compiti gestionali specifici o limitati ad una specifica sottorete. In questo caso l‟inconveniente è che il sovraccarico del sistema principale provoca il rallentamento dei servizi per tutti gli utenti. 16 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La topologia di rete a stella (b) è simile alla rete ad albero, da cui differisce per il fatto che non c‟è alcuna distribuzione funzionale: tutte le funzioni riguardanti gli utenti periferici sono realizzate nel nodo centrale. La Topologia di rete a maglia (c) collega le varie stazioni con diversi circuiti. Ciò assicura buone prestazioni perché il traffico viene ripartito sui vari percorsi ed aumenta l‟affidabilità dell‟intera struttura, grazie ai percorsi multipli. Nella topologia di rete dorsale (d) un unico cavo collega tutte le stazioni: la trasmissione di una stazione viene ricevuta da tutte le altre. L‟inconveniente è che l‟eventuale interruzione del cavo mette fuori uso l‟intera rete e la mancanza di punti di concentrazione rende difficoltosa l‟individuazione di eventuali punti di malfunzionamento. Nella topologia di rete ad anello (e) la trasmissione è unidirezionale ma, essendo l‟anello un circuito chiuso su se stesso, è possibile inviare un messaggio da qualsiasi stazione verso qualsiasi altra anche trasmettendo sempre nello stesso senso. 17 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Concetti di base di BIOCHIMICA 18 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Concetti fondamentali riguardo le proteine Le proteine sono le macromolecole più abbondanti delle cellule e sono presenti in tutte le cellule ed in tutti i compartimenti cellulari. Una singola cellula può contenere migliaia di proteine diverse, con svariate funzioni diverse. Tutte le proteine sia che derivino dal batterio più vecchio che dalla forma di vita più complessa, sono costituite dallo stesso numero gruppo di 20 amminoacidi, legati tra loro in modo covalente in caratteristiche sequenze lineari. Poiché ognuno dei 20 amminoacidi ha una sua caratteristica catena laterale da cui dipendono le proprietà chimiche, questo gruppo di precursori chimici può essere considerato come l‟alfabeto con cui viene scritto il linguaggio delle proteine. Le proteine sono catene di amminoacidi, uniti tra loro da uno specifico legame covalente. È importante il fatto che le cellule possano produrre proteine con proprietà diverse solo legando tra loro gli stessi 20 amminoacidi, ma in combinazioni ed in sequenze diverse. Da questi blocchi di costruzione, organismi diversi ottengono una varietà di prodotti diversi, come enzimi, ormoni, anticorpi ed una miriade di altre sostanze con attività biologiche diverse. Gli amminoacidi Tutti i 20 amminoacidi presenti nelle proteine hanno un gruppo carbossilico ed un gruppo amminico legati allo stesso atomo di carbonio. Essi differiscono l‟uno dall‟altro per la catena laterale o gruppo R, che ha struttura, dimensioni e carica diversa ed influenza la solubilità dell‟amminoacido in acqua. Questa è la struttura generale di un amminoacido: 19 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Questa è la struttura dell‟amminoacido in acqua (zwitterione): Il carbonio in è asimmetrico, perché è legato a 4 sostituenti diversi: un gruppo carbossilico, un gruppo amminico, un idrogeno ed un gruppo R. Poiché la disposizione degli orbitali di legame intorno al carbonio a è di tipo tetraedrico, i quattro sostituenti possono disporsi nello spazio in due modi nello spazio, che sono immagini speculari non sovrapponibili l‟uno dell‟altro. Queste due forme sono dette enantiomeri o diastereoisomeri. I due diastereoisomeri dell‟alanina: L-alanina D-alanina 20 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Proprietà delle catene laterali degli ammino-acidi La catena laterale (gruppo R) degli amminoacidi gioca un ruolo importante per la determinazione delle proprietà delle proteine. Possiamo distinguere 6 tipi di catena laterale: Alifatica: Glicina, alanina, valina, leucina, isoleucina Contenente idrossile o solfuro: Serina, cisteina, treonina, metionina Aromatica: Fenilalanina, tiroxina, triptofano Basica: Istidina, lisina, arginina Acida e la forma ammidica: Acido aspartico,acido glutammico, asparagina, glutammica Ciclica: prolina (che ha proprietà in comune con i gruppi alifatici). Possibili reazioni delle catene laterali La cisteina ha un gruppo R (un gruppo tiolico) che si comporta come un acido, come l‟ossidrile della tirosina. La cisteina richiede una particolare attenzione in quanto è facilmente ossidabile trasformandosi mediante la formazione di un legame covalente con un‟altra molecola di cisteina, nel dimero cistina, in cui i due monomeri sono uniti da un ponte disolfuro. 21 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 I ponti disolfuro sono spesso presenti in proteine quali l‟insulina. Catene laterali e punto isoelettrico Di seguito sono riportati i valori di pka relativi alle catene laterali dei vari amminoacidi: Catena laterale -Carboxyl Asp, Glu His Cys (SH) Tyr (OH) -Amino Lys Arg Campo di pKa 1.8-2.6 4.0-4.8 6.5-7.4 8.5-9.0 9.5-10.5 8.0-9.0 9.8-10.4 12.0-12.5 Gli ammino-acidi aromatici (triptofano, tirosina e fenilalanina) assorbono luce nella regione ultravioletta dello spettro (250-300 nm). Il triptofano ha la più alta assorbanza molare, seguito dalla tirosina e dalla fenilalanina con un piccolo contributo. Alcune catene laterali degli amminoacidi nelle proteine sono modificate come le seguenti: 22 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 O-fosfoserina 4-Idrossiprolina Il legame Peptidico Nelle proteine gli amminoacidi sono legati insieme per mezzo del legame peptidico che si forma da una reazione del gruppo carbossilico di un amminoacido con il gruppo amminico di un altro amminoacido. Di seguito è riportato in celeste il legame peptidico che si forma tra una Glicina ed una Alanina. Se questo processo si ripete con più amminoacidi, si produce una lunga catena che prende il nome di peptide e polipeptide. 23 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La sequenza del polipeptide si scrive iniziando con il residuo che contiene il gruppo amminico libero (N- terminale) e finendo con il residuo che contiene il gruppo carbossilico terminale. I quattro atomi impegnati nel legame peptidico (O, C, N e H) si trovano quasi su uno stesso piano. Infatti, a causa del parziale carattere di doppio legame del legame peptidico non c‟è libera rotazione attorno al legame peptidico. Generalmente la configurazione del legame peptidico è di tipo trans per rendere minime le interazioni steriche. Cis Trans Esempi di reazioni chimiche degli Amminoacidi Tutti gli amminoacidi hanno almeno due gruppi reattivi, l‟ammino gruppo e il gruppo carbossilico, e possono reagire con una serie svariata di reagenti. 24 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Ecco due esempi: 25 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Struttura delle proteine La struttura di una proteina è formata da Struttura primaria, cioè la sequenza di amminoacidi delle sue catene peptidiche. Struttura secondaria, l‟arrangiamento spaziale dello scheletro peptidico. Struttura terziaria, la forma che l‟intero peptide assume nello spazio. Struttura quaternaria, la struttura nello spazio di proteine composte di due o più catene polipeptidiche denominate subunità. 26 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La struttura primaria delle proteine La composizione degli amminoacidi La composizione in amminoacidi è una caratteristica fondamentale di ogni proteina. Infatti, l‟idrolisi in ambiente acido libera gli amminoacidi che analizzati mediante cromatografia a scambio ionico in un analizzatore automatico. I picchi relativi agli amminoacidi sono determinati usando la Ninidrina che reagendo con i gruppi NH2 liberi produce un color porpora secondo la reazione che segue. La determinazione della sequenza degli amminoacidi viene fatta per deduzione usando il sequenziamento dei geni Si usano processi automatici basati sulla degradazione di Edman. Però anche se la reazione procede con rese del 90% dopo circa 25 cicli è difficile determinare il nuovo prodotto rilasciato. Perciò una degradazione di Edman singola non basta. Di seguito è riportato uno schema relativo alla degradazione di Edman: 27 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Precisamente la proteina viene degradata con un enzima, come la tripsina, che genera vari polipetidi che vengono separati e sequenziati. In particolare, la tripsina taglia il legame peptidico sui carbonili di Lys o Arg, come illustrato in seguito, mentre la chimotripsina sui carbonili della Phe, Trp o Tyr. Negli ultimi anni viene spesso utilizzata la spettrometria di massa associata a vari strumenti bioinformatici che permettono di verificare la somiglianza della sequenza caratterizzata con altre sequenze depositate nelle banche dati. 28 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Di seguito è riportato un esempio: #1 MKRTYQPNRRKRSKVHGFRARMSTKNGRKVLARRRRKGRKVLSA #2 MKRTWQPSKLKHARVHGFRARMATKNGRKVIKARRAKGRVRLSA #3 MKRTYQPSRVKRNRKFGFRARMKTKGGRLILSRRRAKGRMKLTV #4 MKRTFQPSILKRNRSHGFRTRMATKNGRYILSRRRAKLRTRLTV #5 MKRTYQPSKQKRNRTHGFRARMATKNGRQVLNRRRAKGRKRLTV #6 TKRTFQPNNRRRARKHGFRARMRTRAGRAILSARRGKNRAELSA #7 SKRTFQPNNRRRAKTHGFRLRMRTRAGRAILANRRAKGRASLSA #8 GKRTFQPNNRRRARVHGFRLRMRTRAGRSIVSDRRRKGRRTLTA Il grado di identità tra le sequenze può essere usato per costruire una matrice di distanza che ci indica la correlazione tra sequenze differenti. Basandosi su questa matrice si può costruire un albero filogenetico. Di seguito è riportato un esempio di matrice di distanze e di albero filogenetico. 29 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Esempio della sequenza (struttura primaria) di una proteina Questa è la struttura primaria dell‟insulina bovina, composta da due catene polipeptidiche (A e B). In verde è riportata la catena A ed in rosso la catena B. Le due catene sono unite da due ponti disolfuro. La catena A contiene a sua volta un ponte disolfuro interno. 30 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La struttura secondaria delle proteine Il legame peptidico ha un parziale carattere di doppio legame che induce gli atomi O-C-N-H dello scheletro peptidico a trovarsi su di un piano. Quindi gli unici gradi di libertà per la rotazione nello scheletro peptidico sono i legami attorno al C, phi () e psi (). Comunque ci sono significative limitazioni ai valori degli angoli e a causa degli ingombri sterici tra gli atomi. Di seguito è riportato un esempio del grafico di Ramachandran che mostra le zone permesse per gli angoli e 31 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Tipi struttura secondaria Le proteine hanno le catene laterali idrofobiche rivolte verso l‟interno e quelle idrofile sulla superficie. Si conoscono vari tipi di struttura secondaria (-elica, -foglietti e ripiegamenti). Conformazione -elica In questa conformazione lo scheletro del polipeptide è strettamente arrotolato intorno all‟asse longitudinale della molecola e le catene laterali dei residui sporgono verso l‟esterno dello scheletro. I residui amminoacidici in una a-elica hanno conformazioni con angoli psi variabili tra -45° e -50° e phi di circa -60°. Ogni giro dell‟elica contiene 3,6 residui amminoacidici ed è stabilizzata da legami ad idrogeno che si formano tra il gruppo CO di un residuo n ed il gruppo NH del residuo n+4. L‟-elica possiede un momento dipolare. Infatti, i legami ad idrogeno in una -elica sono orientati lungo l‟asse, tutte le unità del legame peptidico sono allineati nella stessa direzione. A causa del 32 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 dipolo presente nei legami NH e C=O, anche l‟elica avrà un suo momento di dipolo che attraversa l‟elica con una parziale carica positiva sul N terminale e parziale carica negativa sul C terminale. Conformazione Questa conformazione, al contrario dell‟-elica, che è costituita da un‟unica regione continua, risulta dalla combinazione di più regioni della catena polipeptidica. Queste regioni, dette filamenti beta, hanno lunghezza di 5-10 residui ed una conformazione quasi completamente distesa, con coppie di angoli phi e psi che ricadono nell‟ampia regione presente nel quadrante superiore sinistro del grafico di Ramachandran. Se i filamenti sono orientati in modo tale che l‟estremità N terminale e C terminale vanno nella stessa direzione, si parla di struttura a pieghe parallela. Nel disegno i C sono in rosso, in azzurro i legami ad idrogeno. 33 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Se i filamenti sono orientati nel senso che l‟estremità N terminale e C terminale si trovano in direzioni opposte, allora si parla di strutture a pieghe antiparallele. 34 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Loop e turn La maggior parte delle proteine contengono una combinazione delle due strutture interconnesse per mezzo di anse (loop). Queste strutture hanno lunghezza e forma irregolari e sono localizzate sulla superficie della proteina. Di solito i loop formano legami idrogeno con l‟acqua. Di seguito sono elencati vari motivi che si ripetono nelle proteine: Elica-loop-elica: motivo utile per legare il Calcio. Forcina (-turn): che sarebbe un beta-loop-beta. Esso consiste di due filamenti adiacenti uniti da una regione loop che può contenere da 2 a 5 residui. Questo motivo si ha quando i filamenti sono antiparalleli. Beta-elica-beta: motivo che si ha quando i filamenti sono paralleli. 35 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Struttura terziaria La maggior parte delle proteine hanno una forma globulare organizzandosi a formare una struttura terziaria compatta. È stata determinata mediante metodi sperimentali la struttura tridimensionale di molte proteine mediante Risonanza Magnetica Nucleare (NMR) e diffrazione ai raggi X (RX). La combinazione di elementi di sruttura secondaria porta alla definizione di motivi. Alcuni di questi motivi hanno un significato funzionale, come il motivo elica-loop-elica che lega il DNA o il Calcio, altri, invece, hanno solo un ruolo strutturale. Una catena con più di 200 amminoacidi si organizza in due o più gruppi compatti che possono essere definiti come domini. Ci sono tre tipi principali di domini: domini alfa, composti solo di alfa eliche (ad es. mioglobina). domini beta, con tutta struttura beta. (ad es. superossido dismutasi (SOD)) domini alfa beta, contenenti struttura beta e alfa-eliche. (ad es. ubiquitina). Domini adiacenti sono connessi da uno o due segmenti di catena peptidica. Ad esempio la proteina SEB (Enterotoxin type B) ha un dominio alpha-beta ed uno beta. Esaminando la struttura delle proteine, si sono raggiunte alcune considerazioni generali circa il ripiegamento della catena polipeptidica a raggiungere la struttura terziaria: 1. Tutte le proteine globulari hanno le catene idrofobiche rivolte verso l‟interno e quelle idrofile verso l‟Esterno. 2. Le proteine globulari sono compatte. 36 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 3. Loop e turn si trovano di solito all'esterno. 4. Mutazioni amminoacidiche delle sequenze che portano catene laterali idrofobicheverso l‟esterno (sulla superficie) causano cambiamenti significativi nel foding (ripiegamento) della proteina. La stabilizzazione della struttura terziaria Il modo per dimostrare l‟importanza di una specifica struttura di una proteina per la sua funzione biologica è quello di alterare la struttura e stabilirne l‟effetto sulla funzione. Un tipo di alterazione estrema è la perdita totale dell‟organizzazione tridimensionale, con l‟assunzione di strutture casuali; questo processo va sotto il nome di denaturazione. Le proteine possono denaturarsi non soltanto con il calore ma anche con pH estremi, con certe miscele di solventi organicicome l‟alcol e l‟acetone, con alcuni tipi di soluti come l‟urea oppure con determinati detergenti. Per esempio bollendo una proteina si rompono molte interazioni deboli. I solventi organici, l‟urea ed i detergenti agiscono disturbando le interazioni idrofobiche che rendono stabile il nucleo delle proteine; i pH estremi modificano la carica netta della proteina determinando repulsioni elettrostatiche e la rottura di legami idrogeno. In realtà, è bene ricordare che la struttura nativa di una proteina è solo marginalmente stabile; non è quindi necessario rompere tutte le interazioni deboli per ridurre la stabilità termodinamica ad un livello insufficiente per mantenere la conformazione proteica nativa. Comunque un processo di denaturazione di una proteina è un processo reversibile. Infatti, alcune proteine globulari denaturate con il calore o a pH estremi possono riacquistare la loro struttura 37 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 nativa e la loro attività biologica (rinaturazione) se vengono portate nelle condizioni in cui la conformazione nativa è stabile. 38 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La Struttura Quaternaria delle proteine Molte proteine contengono due o più catene polipeptidiche denominate Subunità. La disposizione delle proteine e delle subunità proteiche in complessi tridimensionali costituisce la struttura quaternaria della proteina. Le forze che tengono insieme le varie subunità sono le forze di Van der Waals, ponti salini e legami idrogeno. L‟esempio classico per questo tipo di struttura è l‟Emoglobina (Vedi capitolo sull‟Emoglobina). Il folding (ripiegamento) delle proteine La sequenza di amminoacidi di una proteina contiene tutte le informazioni necessarie alla proteina per ripiegare in una struttura tridimensionale corretta e biologicamente attiva. Uno degli importanti problemi insoluti in biochimica “il problema del folding” cioè “di come si ripiegano le proteine?” 39 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Il processo più probabile comincia con la formazione di elementi della struttura secondaria che servono come centri di enucleazione attorno ai quali la struttura nativa della proteina si può formare. Questi nuclei con appropriata struttura secondaria interagiscono tra loro finché non formano una superstruttura (dominio). Poi questi domini strutturali e secondari si avvicinano a formare una struttura secondaria estesa ma a struttura terziaria disordinata. Questo stadio è definito globulo fuso. Infine, un piccolo riordinamento del globulo fuso genera la conformazione nativa (come si vede dall‟animazione che segue). È una Cold Shock Protein (CspA) da Escherichia Coli e sono mostrati anche gli ipotetici stadi del processo. In realtà, è ormai chiaro che ci sono delle proteine accessorie che partecipano al processo del ripiegamento. Fra queste ci sono le Chaperones che, costituite da molte subunità, utilizzano ATP per "guidare" le proteine nel processo corretto di ripiegamento. 40 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La determinazione sperimentale della struttura delle proteine La struttura tridimensionale di una proteina può essere determinata sperimentalmente mediante due tecniche principali: la diffrattometria ai raggi X di cristalli proteici o la risonanza magnetica nucleare (NMR). L‟utilizzo di questi metodi richiede attrezzature molto sofisticate e costose ed inoltre la disponibilità della proteina in forma estremamente pura. Nel caso dell‟NMR la proteina viene analizzata in soluzione, ma si richiedono concentrazioni elevate, con il rischio che la proteina precipiti; nel caso della cristallografia è necessario disporre di un cristallo proteico di adeguata qualità, il che può richiedere tempi lunghi o addirittura non essere possibile. La complessità dell'interpretazione dei dati cresce con il numero di amminoacidi, soprattutto nel caso dell‟NMR, per cui questa tecnica è risultata finora applicabile solo per piccole proteine (non più di 250-300 amminoacidi), mentre nel caso della cristallografia a raggi X si possono ottenere risultati anche con proteine molto grandi, ma a risoluzioni relativamente basse (2-3 Å) che non consentono un‟interpretazione esatta delle posizioni degli atomi nello spazio. Tali difficoltà spiegano la differenza esistente tra il numero di strutture tridimensionali note (dell‟ordine di 104) e il numero di sequenze note (dell‟ordine di 106), recentemente incrementato esponenzialmente grazie anche ai progressi e all‟automazione dei metodi di sequenziamento. Perciò, in alternativa ai metodi sperimentali, ma anche sulla base dei loro risultati, si sono sviluppati dei metodi computazionali aventi come scopo la predizione della struttura secondaria e terziaria di una proteina, partendo dalla sola conoscenza della sua sequenza di amminoacidi. Anche se possono esserci difficoltà, che impediscono il raggiungimento di una predizione affidabile, questi metodi costituiscono un‟alternativa promettente alla cristallografia e all'NMR, ed inoltre, sono in continua evoluzione. I miglioramenti sono possibili grazie sia alle sempre maggiori conoscenze sulla struttura proteica, che consentono di sviluppare metodi più accurati, sia al potenziamento degli strumenti di calcolo, che permettono l‟utilizzo di algoritmi sempre più complessi. 41 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Concetti di base sull’algebra delle matrici e sull’analisi statistica 42 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Vettori Definizione 1. Si definisce vettore numerico di ordine n un insieme ordinato di n numeri che vengono detti scalari non necessariamente distinti. Definizione 2. Si definiscono componenti di un vettore v elementi del vettore. Definizione 3. Un vettore si dice di dimensione o di ordine n se è rappresentato da una n-pla ordinata di numeri. Esempio 1. Ad esempio un vettore v di dimensione 4 e di componenti a1, a2, a3 e a4 sarà rappresentato dalla seguente quaterna ordinata: v =( a2, a2, a3, a4 ) Operazioni sui vettori Dati due vettori: a = (a1, a2, …,an), b = (b1, b2, …,bn) dimensione n, valgono le seguenti definizioni: Definizione 4. Due vettori numerici si dicono uguali se hanno uguali le componenti omonime, distinti in caso contrario a = b a1 = b1, a2 = b2, …, an = bn Definizione 5. Si definisce somma di due o più vettori numerici dello stesso ordine il vettore numerico che ha come componenti le somme delle componenti omonime 43 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 c = a + b = (c1 = a1 + b1, c2 = a2 + b2, …, cn = an + bn ) = (c1, c2, …, cn ) Definizione 6. Si definisce prodotto di uno scalare per un vettore numerico, il vettore le cui componenti sono uguali ai prodotti delle componenti del vettore dato per lo scalare. c = a * b = (a1, a2, …,an) * b == (c1 = a1 * b, c2 = a2 * b, …, cn = an * b) = (c1, c2, …, cn ) Definizione 7. Si definisce prodotto scalare fra due vettori numerici, lo scalare: c = a * b = (c1 = a1 * b1, c2 = a2 * b2, …, cn = an * bn ) = (c1, c2, …, cn ) 44 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Matrici Definizione 8. Si definisce matrice una tabella di numeri detti coefficienti disposti secondo righe e colonne. Definizione 9. Si definisce ordine o dimensione di una matrice, la coppia ordinata (n, m) che rappresentano rispettivamente il numero di righe ed il numero di colonne della matrice considerata. Definizione 10. Si dice che una matrice A è quadrata, se presenta un numero delle righe uguale al numero di colonne: A (m m). In tal caso la matrice si dirà di ordine m. Un esempio di matrice di ordine 3 (m = 3) è mostrata di seguito: a11 a21 a 31 a12 a22 a32 a13 a23 a33 Definizione 10. Si dice che una matrice A è rettangolare, se presenta un numero delle righe diverso dal numero di colonne: A (n m) con n m. 4 14 1 3 6 6 2 1 74 3 67 32 1 3 99 Definizione 11. Si definisce diagonale principale di una matrice A(m,m), l‟insieme dei coefficienti con indice ( i, i ) con 1 ≤ i ≤ m. 45 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Definizione 12. Si definisce diagonale secondaria di una matrice A(m,m), l‟insieme dei coefficienti con indice (i, m –i +1) con 1 ≤ i ≤ m. Definizione 13. Si definiscono matrici diagonali quelle matrici che sono quadrate e cui coefficienti NON diagonali sono uguali a 0. 1 0 0 2 Definizione 14. Si definiscono matrici scalari quelle matrici diagonali in cui tutti i coefficienti sono tra loro uguali: 5 0 0 0 0 5 0 0 0 0 5 0 46 0 0 0 5 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Operazioni su Matrici Date due matrici A e B, valgono le seguenti definizioni: Definizione 15. Si definisce prodotto di uno scalare per una matrice, la matrice le cui componenti sono uguali ai prodotti delle componenti della matrice data per lo scalare. Dati: 3 , 2 4 2 A 2 6 5 8 4 8 , risulta: 2*3 4*3 2*3 A 2*3 6*3 5*3 8*3 4*3 8*3 Definizione 16. Data una matrice A si definisce opposta di A la matrice –A, ottenuta moltiplicando ogni elemento di A per lo scalare -1. Definizione 17. Date due matrici A e B delle medesime dimensioni, si definisce somma di A e B, la matrice A + B tale che: + = Definizione 18. Date due matrici A e B delle medesime dimensioni, si definisce come loro prodotto per componenti la matrice C tale che: * = 47 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Siano A e B due matrici tali che il numero di colonne di A sia uguale al numero di righe di B. Definizione 19. Si definisce prodotto di A e B righe per colonne, la matrice C ottenuta eseguendo il prodotto di vettore riga per vettore colonna tra tutte le righe di A e tutte le colonne di B. La matrice C avrà lo stesso numero di righe di A e lo stesso numero di colonne di B. 48 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Introduzione alla Statistica Definizione 20. Si definisce Statistica quella scienza che si occupa di raccogliere, analizzare e interpretare i dati numerici raccolti da una o più osservazioni fatte su di un fenomeno. Nell‟ambito della metodologia statistica si distinguono, due filoni fondamentali: 1. la Statistica descrittiva 2. la Statistica inferenziale. La Statistica descrittiva è volta alla rappresentazione, attraverso mezzi matematici, di uno o più fenomeni reali, conducendo lo studio sull‟intera popolazione in cui si manifesta il fenomeno o i fenomeni oggetto di studio. La Statistica inferenziale è volta all'induzione probabilistica circa la struttura incognita di una popolazione. Questo filone della Statistica si occupa di risolvere il cosiddetto problema inverso, ossia, sulla base di osservazioni su un campione (problema della scelta del campione) di unità selezionate con date procedure dalla popolazione, perviene a soluzioni valide, entro dati livelli di probabilità, anche per la popolazione stessa. Definizione 21. Si definisce carattere o caratteristica, l‟elemento che consente di descrivere una popolazione o un campione. Definizione 22. Si definisce modalità i valori che può assumere un carattere su una unità statistica. 49 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Un carattere può essere: 1. Qualitativo 2. Quantitativo Un carattere qualitativo si manifesta nell‟unità statistica mediante modalità, dette attributi e può essere indicato solo con espressioni verbali (aggettivi, sostantivi etc.). Un carattere quantitativo o variabile è indicato mediante espressioni numeriche, in altre parole, per esso è realizzabile una misurazione espressa in cifre, come il reddito delle persone, il loro peso, la loro età, ecc. Il carattere quantitativo può essere di due tipi: 1. Continuo 2. Discreto 1. Un carattere quantitativo è continuo, quando può assumere come modalità un numero reale qualsiasi, come la temperatura, la statura, l‟età, il peso di un individuo ecc.; 2. Un carattere quantitativo è discreto, quando può assumere come modalità solo numeri interi, come il numero dei componenti di una famiglia, il numero di studenti di un corso universitario, ecc. Definizione 23. Si definisce frequenza assoluta di una data modalità i di un carattere, il numero di volte che la modalità si presenta nel collettivo. Essa verrà indicata con fi 50 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Definizione 24. Si definisce frequenza relativa di una data modalità i di un carattere, e sarà indicata con fi, il rapporto tra la frequenza assoluta della modalità i e il numero totale di unità statistiche del collettivo. Definizione 25. Si definisce frequenza percentuale di una data modalità i di un carattere e sarà indica con f i, il prodotto della frequenza relativa per 100. Definizione 26. Si definisce frequenza cumulata assoluta di una data modalità i di un carattere e f Ci a sarà indica con , la somma delle frequenze assolute delle prime i modalità, ordinate in senso non decrescente. Definizione 27. Si definisce frequenza cumulata relativa di una data modalità i di un carattere e f Ci r sarà indica con , la somma delle frequenze assolute delle prime i modalità, ordinate in senso non decrescente diviso n, cioè il numero totale di unità statistiche del collettivo. Definizione 28. Si definisce classe, o classe di modalità, ciascuno degli intervalli di prefissata ampiezza in cui risulta suddiviso l‟insieme delle modalità di un carattere quantitativo X. Definizione 29. Si definiscono limiti di una classe, gli estremi dell‟intervallo rappresentante la classe. Definizione 30. Si definisce valore centrale di una classe i, la semisomma dei limiti superiore e inferiore della classe. 51 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Nel caso di caratteri qualitativi continui, invece di limiti di una classe si parla di confini della classe, i quali rappresentano gli estremi “ reali ” della classe: Definizione 31. Si definisce confine superiore di una classe, l‟estremo superiore della classe e si ottiene dalla semisomma del limite superiore della classe data col limite inferiore della classe immediatamente successiva; Definizione 32. Si definisce confine inferiore di una classe l‟estremo inferiore di una classe che si ottiene dalla semisomma del limite inferiore della classe data col limite superiore della classe immediatamente precedente. Definizione 33. Si definisce ampiezza di una classe [xi , xi+1], la differenza fra il suo confine superiore ed il suo confine inferiore: A (Ampiezza) = confine superiore – confine inferiore 52 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Organizzazione dei dati I dati possono essere rappresentati in: forma tabellare forma grafica La più importante rappresentazione statistica dei dati in forma tabellare è la distribuzione di frequenza: Definizione 34. Si definisce distribuzione di frequenza secondo il carattere di un campione di unità statistiche, una tabella in cui sono rappresentate le frequenze con le rispettive classi o valori di modalità di quel carattere. Definizione 35. Si definiscono distribuzioni di frequenze relative (distribuzioni di frequenza percentuali) secondo un carattere di un campione di unità statistiche, una tabella in cui sono rappresentate le frequenze relative (percentuali) con le rispettive classi o valori di modalità di quel carattere. E‟ possibile convertire una distribuzione di frequenza semplice, in una distribuzione di frequenze raggruppate riunendo le modalità di un carattere in gruppi o intervalli. In questo caso ogni gruppo della distribuzione di frequenze raggruppate si chiama classe e il modo usato per rappresentare la classe (esempio: 59-61) è detto intervallo della classe 53 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Organizzazione dei dati in forma grafica Un grafico è un diagramma che visualizza le relazioni tra le variabili, mostrando come le variazione di una variabile siano correlate a quelle di un‟altra, ossia il modo in cui una variabile (la variabile dipendente) è funzione di un‟altra (la variabile indipendente). Si useranno grafici di tre tipi: 1. grafici a barre, 2. grafici lineari, 3. grafici circolari. Definizione 36. Si definisce grafico a barre un grafico costituito da un insieme di rettangoli o barre che visualizzano la relazione tra le variabili. Esso si rappresenta in un sistema di assi cartesiani ortogonali Oxy, dove per convenzione sull‟asse delle x viene rappresentata la variabile indipendente e sull‟asse delle y, quella dipendente. I grafici a barre che noi analizzeremo sono: 1. Diagrammi a barre 2. Istogrammi. Definizione 37. Un diagramma a barre è un grafico a barre usato per dati numerici di tipo discreto o per dati non numerici (mesi, colori, ecc) che mostra le frequenze assolute, le frequenze relative o quelle percentuali, mediante l‟altezza dei rettangoli e non mediante le loro aree (come avviene per 54 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 gli istogrammi), ed evidenzia l‟indeterminatezza o la discontinuità delle misure separando i rettangoli con degli spazi vuoti. Definizione 38. Si definisce istogramma un grafico a barre per dati numerici continui. Un istogramma è diverso da un diagramma a barre in quanto esso mostra le frequenze, le frequenze relative o le percentuali, tramite l‟area dei rettangoli, la quale è proporzionale alle frequenze delle classi Definizione 39. Un grafico lineare mostra le relazioni tra le variabili per mezzo di punti uniti da segmenti o da linee continue ed è rappresentato in un sistema di assi cartesiani ortogonali Oxy, dove per convenzione sull‟asse delle x viene rappresentata la variabile indipendente e sull‟asse delle y, quella dipendente. I grafici lineari che noi analizzeremo sono: 1. Poligoni di frequenza 2. Ogive. Definizione 40. Un poligono di frequenza è un grafico lineare di distribuzioni di frequenze assolute, di frequenze relative o di frequenze percentuali delle classi, passante per i valori centrali delle classi stesse. 55 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Definizione 41. Un‟ogiva è un grafico lineare, usato per la rappresentazione grafica di una distribuzione di frequenze assolute cumulate, frequenze relative cumulate o di frequenze percentuali cumulate. I grafici circolari, mostrano la relazione tra variabili dividendo un cerchio in settori di dimensioni appropriate. Diversamente dai grafici a barre e lineari, non si rappresentano in un sistema di coordinate cartesiane ortogonali Oxy. Noi li useremo per mostrare le distribuzioni di frequenze relative e percentuali. Definizione 42. Si definiscono grafici circolari (o diagrammi circolari o diagrammi a torta) una rappresentazione grafica delle distribuzioni di frequenza relative o percentuali, che avviene utilizzando cerchi divisi in settori circolari le cui aree sono proporzionali ai valori delle frequenze relative o a quelli delle frequenze percentuali. Se le categorie (o le classi) della distribuzione sono disposte secondo un ordine, di solito l‟ordine si conserva procedendo in senso orario a partire dalle ore 12. 56 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Indici Statistici Gli indici statistici sono fondamentalmente di tre tipi: 1. Indici di tendenza centrale o di posizione a) indici di posizione di tipo analitico: media aritmetica ecc. b) indici di posizione di tipo posizionale: moda mediana ecc. 2. Indici di dispersione o di variabilità a) Campo di variazione b) Scarto quadratico medio c) ecc 3. Indici di forma (che non saranno trattati) a) Simmetria b) Curtosi 57 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Indici di tendenza centrale o di posizione Definizione 43. Considerato un insieme di dati X, ordinato secondo l‟ordine di grandezza, si definiscono indici di posizione o di tendenza centrale, quei valori che tendono a cadere centralmente all‟interno dell‟insieme di dati X. Definizione 44. Si definisce media aritmetica o media di un insieme di N numeri X1, X2, … XN e X viene indicata con il valore definito dalla seguente relazione: N X X 1 X 2 ... X N N X i 1 i N Più in generale se i numeri X1, X2, … XN, compaiono rispettivamente con frequenza f1, f2, … fN la media aritmetica è data dalla relazione: N f X f X ... f N X N X 1 1 2 2 i 1N f1 f 2 ... f N N fi X i f i 1 58 i fX i 1 i N i POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Media aritmetica di dati raggruppati Quando i dati vengono presentati in una distribuzione di frequenze raggruppate, è possibile considerare come valore rappresentativo, di tutti i valori che cadono nella classe, il valore centrale della classe stessa. Definizione 45. Considerato un insieme di N dati X1 X1, X2, … XN ordinato secondo l‟ordine di grandezza, si definisce mediana il valore corrispondente alla posizione centrale, se il numero N di elementi è dispari, oppure la media aritmetica dei due valori corrispondenti alle due posizioni centrali, se il numero N di elementi è pari. La relazione che individua la posizione della mediana in un insieme di dati è data da: mediana N 1 2 La mediana per dati raggruppati. Per dati raggruppati la mediana è definita dalla relazione: fT fi mediana Li 2 f mediana c In cui Li = confine inferiore della classe contenente la mediana (classe mediana), fT = frequenza totale, 59 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 fi = somma delle frequenze di tutte le classi precedenti alla classe mediana, fmediana = frequenza della classe mediana, c = ampiezza della classe mediana Definizione 46. Considerato un insieme di dati X, si definisce moda di X, quel dato di X con la frequenza più alta, ovvero il valore che si ripete più volte in X. La moda può non esistere e se anche esistesse può essere non unica. Chiameremo un insieme di dati con due mode: bimodale, con tre mode: trimodale e con più di tre mode: plurimodale. Per dati raggruppati la moda è definita dalla relazione: 1 moda Li c 1 2 dove: Li = confine inferiore della classe contenente la moda (classe modale), 1 = eccesso della frequenza modale rispetto alla frequenza della classe immediatamente classe immediatamente precedente, 2 = eccesso della frequenza modale rispetto alla frequenza successiva, c = ampiezza della classe modale, 60 della POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Indici di dispersione o di variabilità Gli indici di variabilità misurano la variabilità. Definizione 47. Si definisce variabilità, l‟attitudine di un carattere quantitativo ad assumere diverse modalità. Definizione 48. Si definisce campo di variazione un indice di variabilità definito come la differenza fra il valore massimo ed il valore minimo delle modalità di un carattere: campo di variazione X MAX X MIN Definizione 49. Si definisce scarto quadratico medio o deviazione standard di un insieme di n numeri X1, X2, …, Xn, un indice assoluto di variabilità definito come la radice quadrata della n varianza s f X i 1 i i n 61 X 2 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Cenni di probabilità La Teoria della Probabilità ci permette di studiare e descrivere i fenomeni aleatori. Definizione 50. Un fenomeno è aleatorio quando di esso non si può predire con certezza il risultato. Definizione 51. Si definisce esperimento un qualsiasi processo di osservazione o misurazione. Definizione 52. (Spazio campione). Si definisce spazio campione, e si indicherà col simbolo (S), l‟insieme dei possibili esiti di un esperimento. Definizione 53. Si definisce evento, ogni sottoinsieme dello spazio campione . Definizione 54. Si definisce evento elementare, l‟evento costituito da un singolo elemento dello spazio campione . Per la rappresentazione degli spazi campionari e dei loro elementi si utilizza la NOTAZIONE INSIEMISTICA: Diagrammi di Venn o forma tabulare. Definizione 55. Siano A e B due eventi associati ad un esperimento: l‟evento C è definito unione di A e B se comprende tutti gli elementi di A e B presi una sola volta. C=AB 62 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Definizione 56. Siano A e B due eventi associati ad un esperimento: l‟evento C è definito intersezione di A e B se comprende tutti gli elementi che appartengono ad A e contemporaneamente a B. C=AB Definizione 57. Dato un evento A, la sua negazione identifica un nuovo evento A* costituito da tutti gli elementi di non appartenenti ad A. A* è detto complemento di A in . Definizione 58. Se due eventi A e B non hanno elementi in comune essi sono detti eventi disgiunti o mutuamente esclusivi perché il verificarsi dell‟uno esclude il verificarsi dell‟altro. Osservazione. Se A e B sono mutuamente esclusivi, allora: A B = 63 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La TEORIA DELLA PROBABILITA’ : tre modi di concepire la probabilità. Concezione classica della probabilità La probabilità di un evento A è il rapporto tra il numero di casi favorevoli al verificarsi di A (h ) e il numero di casi possibili (N ) P A h N Concezione frequentista della probabilità La probabilità di un evento A è la frequenza relativa di successo (occorrenza di A) in una serie tendente all’infinito di prove, ripetute sotto identiche condizioni: h N N P A lim Concezione soggettivista della probabilità Non tutti gli eventi, pur valutabili in termini di probabilità, possiedono il requisito della ripetitività sotto le stesse condizioni. La probabilità di un evento A è la valutazione del grado di fiducia che un individuo o un gruppo di individui può coerentemente formulare sull‟occorrenza di A, in base alle proprie opinioni e informazioni. Su queste basi si fonda la TEORIA BAYESIANA 64 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Regole del calcolo della probabilità Il calcolo della probabilità è estremamente utile per stabilire sia la probabilità associata ad un evento, sia la probabilità associata ad un insieme di eventi. REGOLA DELL‟ADDIZIONE: Se A e B sono due eventi in tali che: A B allora: P(A B) = P(A) + P(B) – P(A B) Definizione 59. (definizione assiomatica di probabilità) Considerato uno spazio campione , A un suo generico evento e P una funzione definita in ed a valori reali, tale che: P : A P (A) [0,1] . Allora, il numero reale P(A) sarà detto probabilità dell‟evento A, se soddisfa i seguenti assiomi: 1. 0 P(A) 1 , A , 2. P() = 1, 3. P(A B) = P(A) + P(B) , se A B = (eventi incompatibili) Probabilità condizionata, eventi dipendenti, indipendenti Dati due eventi A e B, valgono le seguenti definizioni: Definizione 60. Si dice che l‟evento B è condizionato dall‟evento A e si indica con B A, se il verificarsi dell‟evento A influenza l‟evento B. 65 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Definizione 61. Si definisce probabilità condizionata, la probabilità dell‟evento B condizionato A o viceversa, la probabilità dell‟evento A condizionato B. Dunque, la probabilità di B A, che indicheremo con P(B A), rappresenta la probabilità che presentatosi A, si presenti B. P A | B 66 P A B P B POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Regola della moltiplicazione: P A B P A | B P B P A B P B | A P A Se il verificarsi di B non condiziona la probabilità del verificarsi di A, segue che: P A | B P A P A B P A | B P B P A P B Definizione 62. Dati due eventi A e B, diremo che essi sono indipendenti se: P(A B) = P(A)P(B), altrimenti si diranno dipendenti. Teorema di Bayes: Siano A1, A2, … ,An, n eventi escludentisi a vicenda (Ai Aj = , per i j) e sia B Ai, i = 1…n. Risulta: Osservazione. Nel teorema di Bayes, la probabilità P(Ai) è spesso definita probabilità a priori, mentre la P(Ai|B) è definita probabilità a posteriori. 67 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 BIOINFORMATICA 68 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Bioinformatica La Bioinformatica nasce negli anni 70 quando vennero pubblicate le prime sequenze nucleotidiche e si cominciò a sentiree l‟esigenza di avere a disposizione sistemi informatici per l‟archiviazione e l‟analisi di dati di sequenza che sono state prodotte nel futuro in grande quantità. I compiti della bioinformatica comprendono il mettere a punto dei sistemi idonei per collezionare ed interrogare l‟enorme mole di dati biologici (le discipline omiche) e la progettazione, implementazione ed applicazione di metodi matematico-statistici rivolti alla caratterizzazione funzionale delle sequenza biologiche, a studi di evoluzione molecolare, a studi strutturali degli acidi nucleici e delle proteine. La differenza tra i termini di Bioinformatica e Biologia Computazionale è la seguente: La Bioinformatica è la disciplina che usa l‟informatica per analizzare i dati biologici al fine di formulare ipotesi sui processi della vita La Biologia Computazionale è la disciplina che sviluppa tecniche bioinformatiche per la raccolta e la manipolazione di dati biologici e dell‟uso di tali dati per ottenere scoperte o predizioni biologiche. 69 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Evoluzione Molecolare Gli ERRORI nella trasmissione genetica sono alla base dei processi evolutivi. La trasmissione dell‟informazione genetica si ottiene attraverso il processo della replicazione del DNA. Durante il processo di replicazione possono avvenire due tipi di errori: 1)mutazioni della sequenza di DNA (cioè sostituzione din un nucleotide con un altro) e 2) inserzioni e delezioni di tratti più o meno lunghi di DNA. Tutto ciò spiega perché gli organismi viventi pur discendendo da un unico progenitore comune, posseggono genomi di dimensioni molto diversi tra loro. L‟evoluzione molecolare studia la velocità ed i vari tipi di cambiamenti che hanno luogo nel materiale genetico o nei suoi prodotti. Gli studi di evoluzione molecolare sono ormai diventati uno strumento per l‟interpretazione dei processi che sono alla base dell‟evoluzione della materia vivente. Essi si basano essenzialmente su analisi comparative e quindi presuppongono la conoscenza delle macromolecole biologiche almeno a livello della struttura primaria. Le variazioni genetiche, che sono il presupposto fondamentale per l‟evoluzione biologica, hanno origine spontaneamente in seguito ad errori che hanno luogo nel processo della replicazione oppure a mutazioni accidentali dovute a fattori ambientali, che alterano la sequenza del DNA. Una mutazione viene fissata all‟interno di una popolazione attraverso due processi distinti: 1)selezione Naturale, 2)la deriva genica casuale. La selezione naturale è definita come la capacità differenziata di riproduzione di individui geneticamente distinti all‟interno di una popolazione. La capacità di riproduzione di un individuo è determinata dal proprio livello di adattamento all‟ambiente rispetto ad altri individui della stessa specie. La selezione naturale contrasta la fissazione di mutazioni svantaggiose e favorisce la fissazione di mutazioni vantaggiose. La deriva genica può produrre la fissazione di mutazioni neutrali attraverso un processo casuale che vede aumentare nel tempo la frequenza dell‟allele mutato fino alla sua fissazione nella popolazione 70 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La distanza genetica tra due sequenze omologhe (nucleotidiche o amminoacidiche) è determinata dal numero di sostituzioni che hanno avuto luogo nel corso dell‟evoluzione nelle sequenze stesse. Tale quantità viene solitamente normalizzata rispetto alla lunghezza delle sequenze analizzate, opportunamente allineate, e pertanto l‟unità di misura generalmente utilizzata per la distanza genetica è data dal numero di sostituzioni per sito. A causa della possibilità di sostituzioni multiple sullo stesso sito (multiple hits), di sostituzioni convergenti o di retromutazioni, il numero di sostituzioni che viene osservato tra una coppia di sequenze è inferiore rispetto al numero di sostituzioni che effettivamente ha avuto luogo. Nello studio dell‟evoluzione si possono considerare sia sequenze di acidi nucleici sia di proteine. Le sequenze nucleotidiche sono più accurate sia per la possibilità di effettuare studi evolutivi anche su regioni non codificanti del menoma sia per il fatto che si osservano cambiamenti a livello del DNA anche quando non ci sono cambiamenti a livello della sequenza aminoacidica. Per classificare i geni omologhi appartenenti ad una stessa famiglia è fondamentale la costruzione di un albero filogenetico che ne descriva in modo accurato le relazioni evolutive. Due geni (o proteine) si dicono omologhi se derivano da un progenitore comune. L‟omologia è un carattere qualitativo a cui non può essere attribuito un valore percentuale che può essere riferito al grado di similarità tra sequenze. Quindi non possiamo parlare di percentuale di omologia ma di percentuale di identità (o similarità) di sequenza. E‟ bene comprendere che se due sequenze mostrano un significativo livello di similarità lungo tutta la loro lunghezza possono quasi certamente definirsi omologhe. Al contrario due geni o proteine possono non mostrare un apprezzabile grado di similarità, pur essendo omologhi, a causa di una divergenza molto remota. Due sequenze omologhe possono essere ortologhe o paraloghe. Due sequenze si definiscono ortologhe se appartengono a due specie diverse ed il loro processo di divergenza ha avuto origine in seguito al processo di speciazione da cui le due specie suddette hanno avuto origine. Due sequenze 71 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 omologhe si definiscono paraloghe se il loro processo di divergenza ha avuto origine in seguito ad un processo di duplicazione genica. Le relazioni evolutive tra gli organismi possono essere rappresentate attraverso alberi filogenetici. Un albero filogenetico è costituito da nodi e da rami in cui ogni ramo mette in relazione due nodi. I nodi rappresentano le unità tassonomiche mentre i rami definiscono le relazioni tra queste in termini di ascendenza e discendenza. In un albero noi possiamo distinguere i nodi interni da quelli terminali. I nodi terminali rappresentano le unità tassonomiche attuali mentre i nodi interni rappresentano le unità tassonomiche ancestrali. Le unità tassonomiche attuali corrispondono alle sequenze omologhe oggetto dell‟analisi e vengono comunemente definite unità tassonomiche operative (OTUs). Se un albero descrive esclusivamente le relazioni filogenetiche tra i vari nodi e la lunghezza dei diversi rami non ha alcun significato: Cladogramma Se in un albero la lunghezza dei rami è proporzionale alla distanza evolutiva tra i nodi, l‟albero è definito Filogramma. I metodi utilizzati per la costruzione di alberi filogenetici si suddividono in metodi che applicano algoritmi di clustering o raggruppamento delle OTUs analizzate, generalmente basati su misure di distanza genetiche ed in metodi che utilizzano algoritmi che massimizzano una funzione obiettiva di qualità dell‟albero (criterio di ottimalità). Tra i metodi basati su algoritmi di clustering il più semplice è noto come UPGMA che utilizza un algoritmo di clusterizzazione iterativo che procede associando via via le sequenze o cluster di sequenze più simili tra loro. 72 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Banche dati molecolari e sistemi di interrogazione di banche dati mediante SRS ed ENTREZ Le banche dati hanno lo scopo di consentire la consultazione e l‟analisi delle informazioni in esse contenute e di ogni altra informazione ad esse correlate e memorizzate in altre banche dati. Le banche dati si distinguono in primarie o derivate, curate e non curate e relazionali. Le banche dati primarie contengono solo le informazioni minime necessarie da associare ai dati per identificarli al meglio mentre quelle derivate comprendono insiemi di dati omogenei che possono derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che danno un valore aggiunto alla banca dati stessa. Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li ha ottenuti, o con annotazioni da sistemi automatici. Le banche dati curate presentano informazioni che sono verificate, confrontate con quelle di altre banche dati, opportunamente corrette (o per lo meno con segnalazione di possibili errori e conflitti con altri dati) Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra loro (ACCESS è un esempio di programma per creare database). Una banca dati biologica raccoglie informazioni e dati derivanti dalla letteratura e da analisi effettuate sia in laboratorio sia attraverso analisi bioinformatiche. Ogni banca dati biologica è caratterizzata da un elemento biologico centrale che costituisce l‟oggetto principale intorno al quale viene costruita la entry della banca dati. Esempi di elementi centrali sono le sequenze nucleotidiche di DNA nelle banche dati di acidi nucleici. Ciascuna entry raccoglie tutte le informazioni che caratterizzano l‟elemento centrale ed è spesso organizzata come flat file. Un flat file è un file sequenziale nel quale ogni classe di informazione è riportata su una o più linee consecutive identificate da un codice a sinistra caratterizzante gli attributi annotati nella linea stessa. 73 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Molte sono le banche dati che sono state createcome supporto per la ricerca scientifica e di seguito saranno riportati degli esempi. PUBMED è considerata la banca dati per eccellenza della letteratura medica e biologica. Essa è consultabile in modo gratuito e permette il link diretto ai siti delle riviste per visionare o scaricare l‟articolo. Le ricerche in PubMed possono essere effettuate tramite diverse opzioni (ad es. autore, rivista e parole chiave). Sono note tre banche dati di sequenze nucleotidiche: EMBL (Inghilterra), GenBank (America) e DDBJ (Giappone). Per ogni sequenza le informazioni riportate sono identiche anche se la struttura dei file è abbastanza diversa; infatti, solo l‟EMBL riporta le informazioni usando un file di tipo flat file. La UNIPROT è la banca dati di riferimento per le sequenze proteiche. Essa deriva da un consorzio tra Swissprot, Trembl e Pir. In particolare, la SWISSPROT è una banca dati, sviluppata in Svizzera, con un alto livello di annotazione (descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di formato flat-file che si differenzia da quello di EMBL soprattutto per quanto riguarda le features che descrivono nelle proteine la presenza degli ammioacidi modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi. La TREMBL è una banca dati di sequenze proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in EMBL, annotate automaticamente. Di queste sequenze annotate una parte che costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle proteine immunologiche è raccolta in REMTREMBL. La PIR è un‟altra banca dati di sequenze proteiche sviluppata negli USA. Essa è molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso. 74 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 La banca dati di strutture proteiche tridimensionali è la PDB. Essa contiene le coordinate atomiche di strutture proteiche determinate attraverso analisi cristallografiche ai raggi X, analisi NMR o altre tecniche (microscopia elettronica etc.). Tre le altre banche dati che riguardano la struttura delle proteine bisogna ricordare DSSP per le strutture secondarie; PDBsum che riassume per ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati; SCOP [Structural Classification of Proteins] che organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di similarità strutturale; CATH che presenta una classificazione strutturale simile a quella offerta da SCOP, basata su confronti di strutture; InterPro che raccoglie varie informazioni strutturali e funzionali relative ad una proteina o ad una famiglia di proteine; PROSITE che annota patterns amminoacidici individuati in un set di sequenze proteiche attraverso analisi in silico e studi sperimentali; PRODOM che raccoglie dati relativi a famiglie di proteine generate dall‟applicazione di PSI-BLAST, che partendo dal confronto di una sequenza proteica contro un database di proteine, raccoglie in un multiallineamento tutte le sequenze proteiche per le quali Blast ha determinato uno score più aòtro di un score indicato come threshold; PFAM che è una banca dati di famiglie di proteine accomunate da elementi strutturali e funzionali. Esistono due sistemi di interrogazione utilizzabili su database ben diversi tra loro: Entrez ed SRS. ENTREZ (Cross-database search engine) è un sistema disponibile sul sito dell‟NCBI per interrogare ed estrarre dati dalle più varie banche dati esistenti. Non è commercialmente disponibile e quindi non può essere scaricato ed installato localmente, né è possibile modificare le banche dati implementate sul sistema. SRS (Sequence Retrieval System) è un sistema utilizzabile (e utilizzato) su qualunque tipo di database. Esso è stato sviluppato inizialmente da ricercatori dell‟EMBL/EBI ed è attualmente un prodotto distribuito da una società privata (Lion Bioscience) che, finora, continua a offrirlo gratuitamente ad enti di ricerca accademici. Molti centri di ricerca hanno installato SRS sul proprio web server utilizzandolo per offrire un servizio di consultazione di banche dati. Uno dei 75 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 sistemi SRS più curati è quello presente sul sito dell‟EBI (www.ebi.ac.uk). In pratica SRS ci permette di 1) scegliere i database da utilizzare per la ricerca, 2) immettere una o più query concatenate, 3) visualizzare i risultati in modo personalizzabile, 4) applicare i programmi di analisi ai risultati ottenuti, 5) salvare nel server EBI i risultati di una ricerca e di richiamarli successivamente. Ricerca di similarità di sequenze nucleotidiche e proteiche ed Allineamenti di sequenze Gli acidi nucleici e le proteine sono costituite da catene di quattro possibili residui nucleotidici e venti possibili residui amminoacidici. La sequenza determina le proprietà di queste macromolecole che sono rappresentate come semplici sequenze di lettere dove ogni lettera simboleggia un residuo diverso. Queste stringhe possono essere analizzate con metodi informatici che consentono di cercare pattern particolari o di effettuare allineamenti di sequenze. L‟Allineamento di due sequenze ha lo scopo di confrontare tra loro due sequenze e rappresenta il presupposto per analisi più complesse, come per esempio le ricerche di similarità nelle banche dati, la costruzione di alberi filogenetici o l‟identificazione di domini funzionali. L‟allineamento dovrebbe portare all‟appaiamento delle regioni simili condivise dalle due sequenze. Vari sono i criteri che possono essere utilizzati per misurare la similarità tra due o più sequenze. Il problema è che i concetti di similarità ed allineamento sono intimamente associati: infatti non si possono allineare sequenze senza definire dei criteri di similarità ed allo stesso tempo per valutare quanto due sequenze siano simili è necessario allinearle. Comunque per allineare varie sequenze è necessario disporre anche di un metodo (che in informatica è definito algoritmo) che sulla base dei criteri di similarità sia in grado di produrre un allineamento. Se definissimo come criterio di similarità quello di valutare il numero di lettere che si appaiano esattamente, si potrebbe implementare un semplice algoritmo che faccia virtualmente scorrere una 76 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 sequenza sull‟altra e che valuti ad ogni spostamento tutte le lettere abbinate per stabilire il numero di appaiamenti esatti. L‟applicazione di questo algoritmo comporta che ad ogni avanzamento della sequenza si dovranno confrontare tutte le lettere appaiate tra le due sequenze. In questo modo potremo facilmente dimostrare che alla fine si dovranno effettuare un numero di confronti pari al prodotto delle lunghezze delle due sequenze che si vogliono allineare. Infatti ogni lettera della prima sequenza dovrà essere confrontata con ogni lettera dell‟altra. L‟efficienza di un algoritmo dipenderà dal tempo impiegato per eseguire le varie operazioni. Questo tempo viene spesso indicato come proporzionale alla lunghezza O(nm) dove n e m sono le lunghezze delle due sequenze che stiamo andando a confrontare. La crescita esponenziale delle banche dati ha portato allo sviluppo di programmi (FASTA e BLAST) che sono in grado di effettuare velocemente delle ricerche di similarità, grazie a soluzioni euristiche che sono basate su assunzioni non certe ma estremamente probabili. La complessità del problema di allineare sequenze di acidi nucleici e di proteine deriva dal fatto che deve essere considerata la possibilità che il migliore allineamento comporti l‟inserimento di gap. Questa esigenza è necessaria dal momento che nel corso dell‟evoluzione si possono avere processi di inserzione o delezione che comportano una diversa lunghezza di sequenze omologhe. Però l‟inserimento dei gap produce due complicazioni :1) la necessità di definire dei criteri di similarità; 2) la possibilità di disporre di adeguati algoritmi. Per risolvere il primo problema possiamo attribuire un‟opportuna penalità ad ogni gap oppure attribuire penalità diverse per l‟apertura di un gap e per il suo allungamento. Se la definizione di criteri per valutare gli allineamenti con gap è semplice, molto più complesso è lo studio di un algoritmo che possa implementare questi criteri. Infatti, un algoritmo di scorrimento di una sequenza sull‟altra non è adatto a questo scopo poiché ci sarebbero troppi modi con cui inserire un gap nelle sequenze da allineare. 77 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Infatti se noi considerassimo una sequenza di n caratteri è possibile inserire un singolo gap in n-1 posizioni generando n sequenze diverse (compresa quella originale). Consentendo un numero maggiore di gap il numero di possibili sequenze aumenta in modo esponenziale, per cui sarebbe improponibile analizzare ogni possibile sequenza con l‟algoritmo di scorrimento. Per semplificare questo problema sono state sviluppate le DOT MATRIX che permettono di individuare e localizzare similarità di sequenza anche in presenza di gap che graficamente appaiono come salti in diagonale. Inoltre, bisogna anche tenere in considerazione che amminoacidi diversi possono essere “più o meno simili”. Nel corso degli anni sono stati sviluppati alcuni metodi statistici che valutano quanto due amminoacidi sono simili tra loro ed assegnano a ciascuna coppia di amminoacidi un valore che rispecchia quanto i due amminoacidi sono intercambiabili in famiglie di proteine omologhe. In particolare sono state sviluppate due tipi di matrici di sostituzione (PAM e BLOSUM). Le Matrici PAM sono state proposte da Margaret Dayhoff nel 1978 sulla base di studi di filogenesi molecolare su 71 famiglie di proteine. Esse partono dall‟assunzione di base che analizzando sequenze correlate filogeneticamente si può calcolare la probabilità con cui ogni amminoacido subisce una mutazione, ovvero una PAM (Percent Accepted Mutation). Due sequenze sono ad 1 PAM di distanza se mediamente per convertirsi l‟una nell‟altra è tollerata 1 mutazione ogni 100 aminoacidi (tollerata sta ad intendere che la mutazione non altera la funzione della proteina). Per sequenze filogeneticamente vicine, è meglio usare matrici PAM a basso indice (es. PAM 10), mentre per sequenze lontane è meglio usare matrici PAM ad alto indice (es. PAM 250) Le Matrici BLOSUM sono state introdotte da Henikoff e Henikoff nel 1992. Esse si basano sulla banca dati BLOCKS, che contiene una collezione di allineamenti multipli di segmenti proteici senza gap. Ciascun blocco ha sequenze con un numero di amminoacidi identici allineati superiore a un valore P compreso in genere tra 30 e 95%. In questo modo si ricava la frequenza relativa di sostituzione degli amminoacidi. Al contrario delle matrici PAM, non si fanno presupposti di 78 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 omologia tra le proteine allineate. Le matrici BLOSUM sono contrassegnate da un indice (il valore P ) che rappresenta la percentuale di identità minima all‟interno del blocco. Per evitare l‟eccessivo uso di gap, vengono usati dei punteggi di penalizzazione. Alcune possibili combinazioni da BLAST su NCBI sono Matrice: PAM30 Gap opening: -9 Gap extension: -1 Matrice: BLOSUM62 Gap opening: -11 Gap extension: -1 Matrice: BLOSUM45 Gap opening: -12 Gap extension: -2 79 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Ricerca per similarità di banche dati Questi metodi sono stati sviluppati allo scopo di permettere una ricerca per similarità rapida tra le migliaia di sequenze che sono depositate in banca dati. In questi casi è necessario effettuare migliaia di allineamenti di sequenze e per questo motivo sono stati sviluppati dei metodi euristici, cioè basati su assunzioni probabili. Questi metodi sono più veloci ma non danno la certezza assoluta di avere trovato l‟allineamento migliore (FASTA e BLAST). FASTA (FAST-All) è un programma sviluppato da Lipman&Pearson nel 1988. Questo algoritmo considera ogni sequenza come formata da “parole” la cui lunghezza è detta ktup che è un parametro variabile (di solito per le proteine si assume pari a 2). Questo tipo di programma procede in 4 step: 1) Identificazione delle regioni a più alta identità di parole sulla matrice di allineamento tra le sequenze. In dettaglio, FASTA crea un indice in cui elenca, per la sequenza query e per il subject, le regioni dove si hanno dei matches tra le varie “parole”. Successivamente, FASTA costruisce grazie a questo indice una matrice di allineamento ed evidenzia su di essa le regioni in cui si ha un maggiore numero di matches tra le varie parole, salvando le migliori regioni allineate, senza tenere conto se si trovano o no sulla stessa diagonale. 2) Confronto di queste regioni con le matrici di score e salvataggio delle migliori regioni. Dopo aver individuato le migliori regioni di allineamento delle “parole”, FASTA usa una matrice di allineamento (in genere PAM250) per raffinare la ricerca di somiglianze solo all‟interno di quelle regioni. In questo modo si ricavano le “best initial regions” identificate come Init1. Gli Init1 sono usati da FASTA per compilare una graduatoria delle migliori similarità trovate in banca dati e per selezionare le sequenze con cui continuare le fasi successive. 3) Congiungimento delle regioni ottimali con uno score superiore a una soglia prefissata. A questo punto, FASTA cerca di congiungere le “best initial regions” per creare regioni il più possibile 80 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 estese, dette InitN; ove sia necessario introdurre dei gap, ne tiene conto con opportune penalizzazioni dei punteggi. 4) Ricalcolo dell‟allineamento migliore ottimizzato sulle regioni selezionate. L‟ultima fase di FASTA è quella di effettuare un allineamento molto accurato utilizzando una variante dell‟algoritmo Smith&Waterman che è limitato però ai soli percorsi di allineamento che fiancheggiano per una stretta banda le regioni già individuate. Il risultato di questo calcolo è il punteggio ottimizzato di allineamento detto Opt, che viene utilizzato per creare l‟allineamento definitivo. La soglia significativa di Opt è calcolata confrontando i punteggi ottenuti su una query generata casualmente BLAST – Basic Local Alignment Search Tool (BLAST) è un programma sviluppato da Altschul e colleghi nel 1990. Questo programma si basa come FASTA sull‟indicizzazione di parole, ma usa criteri diversi. Gli step del programma sono tre. In dettaglio, 1) Creazione di un elenco di parole di W lettere dove il parametro W per le proteine è generalmente pari a 3 (W-meri) 2) Analisi delle sequenze nelle banche dati e ricerca dei W-meri corrispondenti alle parole della lista prodotta dall‟analisi della sequenza query. 3)Ogni volta che viene identificato un possibile appaiamento (“hit”) l‟algoritmo verifica se è possibile estenderlo in entrambe le direzioni senza inserire gap. Si identifica un segmento di allineamento locale non ulteriormente estendibile chiamato HSP. BLAST è un insieme di più programmi, ognuno per le diverse forme di confronto che si possono realizzare: 81 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Blastp: Confronta una sequenza di amminoacidi (query sequence) contro un database di sequenze proteiche Blastn: Confronta una sequenza di nucleotidi (query sequence) contro un database di sequenze nucleotidiche Blastx: Confronta una sequenza di nucleotidi (query sequence), tradotta in tutte le sei reading frames, contro un database di sequenze proteiche Tblastn: Confronta una sequenza di amminoacidi (query sequence) contro un database di sequenze nucleotidiche traducendo “dinamicamente” ogni sequenza del database in tutte le reading frames Tblastx: Confronta tutte le sei traduzioni (secondo le reading frames) di una sequenza di nucleotidi (query sequence) contro tutte le sei traduzioni (secondo le reading frames) di un database di sequenze nucleotidiche Le Differenze tra BLAST e FASTA sono le seguenti: a) lunghezze delle “parole usate”; b) FASTA si limita ad un‟indicizzazione diretta della parola invece BLAST seleziona da ogni parola diverse parole simili. c) BLAST utilizza una matrice di sostituzione sin dalle prime fasi dell‟analisi d) BLAST è ottimizzato per trovare segmenti di similarità locale privi di gap 82 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Allineamenti multipli Un allineamento multiplo fornisce un‟informazione biologica maggiore rispetto a quella riportata nell‟allineamento di due sole sequenze; infatti, i residui più importanti dal punto di vista strutturale o funzionale saranno estremamente conservati tra tutte le sequenze dell‟allineamento. Infatti in molti libri di testo è riportata la frase: “Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe sussurrano; molte sequenze allineate gridano”. Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze sia strettamente sia lontanamente correlate. E‟ importante sottolineare che in un allineamento multiplo si prendono in considerazione le colonne dei residui più che le proteine a cui appartengono. Ogni residuo incolonnato è da considerarsi in modo implicito come evolutivamente correlato. Per poter costruire allineamenti multipli sono stati sviluppati metodi per l‟allineamento progressivo di coppie di sequenze. Questi metodi partono da un set di n sequenze disposte a caso e non allineate e determinano tutti i possibili allineamenti a coppie. A questo punto determinano un albero filogenetico in base ai punteggi di similarità ottenuti. A partire dalla coppia più simile vengono determinate le colonne conservate e la coppia successiva viene allineata mantenendo queste colonne e ricalcolando lo score complessivo. CLUSTALW è il programma più utilizzato per gli allineamenti multipli. Esso è implementato sul server EBI ed ha una interfaccia grafica. Inoltre, usa come input un file con le sequenze in formato FASTA. 83 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Qual è l‟utilità di un allineamento multiplo? Da un allineamento multiplo possiamo riuscire ad individuare i residui importanti per una famiglia di proteine e possiamo ottenere il profilo. Un profilo esprime tutta l‟informazione contenuta in un multiallineamento. Infatti si attribuisce un punteggio a ciascun amminoacido per ogni colonna dell‟allineamento (con le matrici di sostituzione) e ciò permette di valutare la sua conservazione. Analogamente, osservando la frequenze dei gap, si attribuisce una penalità per il loro inserimento. PROFILEMAKER è il programma più usato per generare profili. Il profilo di un allineamento riporta sulla prima colonna la sequenza CONSENSO, cioè una sequenza derivante da tutti gli allineamenti e contenente solo i residui più frequenti. Ogni colonna successiva descrive la situazione di tutti gli amminoacidi in quella posizione. 84 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Analisi della struttura primaria delle proteine Il sito Expasy è la principale fonte di programmi per poter studiare le proteine. Esso prevede una serie di tool: DNA Protein, Similarity searches, Predizione di topologia. Traslate fa una traduzione da sequenze nucleotidiche a sequenze proteiche Backtraslate: data una sequenza amminoacidica cerca di “indovinare” la sequenza nucleotidica chiedendo in input il tipo di organismo, la tavola d‟uso dei codoni. MultiIdent tool permette di individuare una proteina non dalla sequenza ma da dati sperimentali (ad es. una serie di pesi molecolari, il punto isoelettrico, il peso molecolare, la composizione percentuale dei suoi amminoacidi). AACompIdent identifica una proteina dalla sola sequenza amminoacidica Tra le Similarity searches possiamo elencare Blast, MPsrch, FASTA3, PropSearch e SAMBA. BLAST è una serie di link alternativi per tutti i possibili Blast residenti su server diversi da quello della NCBI. MPsrch permette di fare una ricerca in banche dati modificate usando l‟algoritmo di Smith & Waterman. PropSearch permette di fare una ricerca in banca dati per proteine non usando la sequenza ma una serie di dati che il programma ricava (ad esempio, composizione amminoacidica o idrofobicità). Fasta3 permette di fare una ricerca in banca dati usando l‟algoritmo FASTA e tutte le sue varianti. SAMBA usa l‟algoritmo di Smith & Waterman usando un array di 128 processori ed una architettura completamente dedicata. Tra i metodi dedicati alla predizione della topologia si devono considerare Psort e TargetP che predicono il compartimento cellulare in vui una proteina potrebbe trovarsi (ad es. citoplasma, membrana, nucleo). 85 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Tutti gli altri programmi elencati di seguito servono ad evidenziare e studiare le caratteristiche chimicofisiche degli amminoacidi presenti in una sequenza proteica. Colorseq colora gli amminoacidi (idrofili, idrofobici, carichi positivamente o negativamente,aromatici) ThreetoOne converte gli amminoacidi dalla nomenclatura tre lettere a quella ad una lettera ProtScale calcola l‟idrofobicità degli amminoacidi in una sequenza SYFPEITHI – predice i siti di binding di peptidi con MHC type I and II Coils predice regioni random coil in proteine Compute pI/MW valuta il punto isoelettrico (pH a cui la carica netta è 0) ed il peso molecolare ProtParam che valuta il numero di amminoacidi, il punto isoelettrico, il peso molecolare, la composizione amminoacidica, la composizione in atomi, la formula chimica. 86 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Ricerche di pattern in sequenze proteiche e nucleotidiche Un motivo di interesse biologico (o definito pattern) è costituito da un insieme di caratteri (nucleotidi o amminoacidi) non necessariamente contigui nella sequenza ma che si trovano sempre o sono spesso associati ad una precisa struttura e funzione biologica (ad esempio: promotori o hanno la stessa capacità di legare nucleotidi). La bioinformatica si occupa di sviluppare metodi per il riconoscimento di pattern di interesse biologico e di curare banche dati in cui tali pattern siano organizzati e resi disponibili per l‟analisi strutturale e funzionale di nuove sequenze. Per calcolare l‟affidabilità di un motivo, si possono utilizzare dei parametri che si calcolano a partire dal numero di veri positivi (VP), veri negativi (VN), falsi positivi (FP) e falsi negativi (FN) che il motivo seleziona in una banca dati di controllo in cui sia nota da evidenze sperimentali l‟identità dei VP e dei VN. In particolare, la sensitività è una misura di quale sia la proporzione di sequenze della famiglia selezionate dal motivo; la selettività misura la proporzione di sequenze della famiglia sul totale delle sequenze selezionate dal motivo; la specificità misura la proporzione di sequenze che non fanno parte della famiglia e che non vengono selezionate dal motivo. Ricerca di pattern e di motivi funzionali in sequenze proteiche Le proteine possono essere raggruppate in un numero limitato di famiglie sulla base della similarità di sequenze. Le proteine ed i domini proteici appartenenti ad una stessa famiglia condividono attributi funzionali e strutturali derivanti da un progenitore comune. Dallo studio di allineamenti multipli di sequenze appartenenti ad una stessa famiglia è evidente che alcune regioni sono più conservate di altre: queste regioni conservate sono in generale importanti per la funzione e la struttura di una proteina. 87 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Analizzando le regioni costanti e variabili in un allineamento multiplo è possibile identificare un motivo che possa servire alla classificazione funzionale delle proteine che lo contengono. La banca dati PROSITE raccoglie più di 1600 motivi proteici associati ad una determinata struttura e funzione. Ogni motivo è catalogato insieme con una approfondita documentazione di carattere bibliografico. Questa banca dati contiene motivi codificati in due modi diversi: i pattern e le matrici (o profili). Le matrici sono definite facendo ricorso alle matrici posizionali di peso mentre i pattern sono motivi definiti con una sintassi riconducibile ad espressioni regolari. La sintassi di PROSITE: - x indica la posizione in cui ciascun residuo viene accettato; - tra le parentesi [ ] sono indicati i residui consentiti in una posizione; - tra le parentesi { } sono indicati i residui NON consentiti in una posizione; - la ripetizione di un elemento può essere indicata con un numero o con una coppia di numeri indicante gli estremi in parentesi. Quindi x2 significa x-x x(2,4) significa x-x oppure x-x-x oppure x-x-x-x Per poter automatizzare le ricerche di pattern all‟interno delle banche dati sono stati sviluppati alcuni metodi di apprendimento automatico. Questi metodi fanno predizioni estraendo informazioni utili da un insieme di dati attraverso la costruzione di modelli probabilistici. I metodi che sono più frequentemente utilizzati sono Reti Neurali, catene di Markov (HMM) ed algoritmi genetici. 88 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Le reti neurali sono circuiti di informazioni con un numero fissato di nodi definiti STATI in cui vengono immagazzinate le informazioni risultanti dalle varie interconnessioni. Questi nodi sono organizzati secondo una precisa ARCHITETTURA che rappresenta l‟interconnessione tra i vari nodi. Se forniamo ad una rete neurale una informazione ed il suo risultato (training set), gli stati memorizzano il modo di andare dall‟informazione al risultato sfruttando le varie interconnessioni. Quindi se ripetiamo più volte la fase di training con set diversi, ma sempre veri, la rete sarà in grado di arrivare da sola al risultato. Questa è quella che viene definita fase di apprendimento. In questo modo se forniamo alla rete una informazione di cui non è noto il risultato, essa risponderà fornendoci il risultato secondo lei più appropriato. Una catena di Markov è una successione di numeri o di caratteri in cui ogni numero dipende solo dai k numeri che lo precedono. k è definito come ordine della catena. Questo tipo di modelli riesce a descriver le probabilità di trovare una data sequenza in un database (per esempio contenente una serie di proteine multiallineate). Gli algoritmi genetici sono metodi di ottimizzazione che utilizzano una strategia di esplorazione delle possibili varianti simile a quella utilizzata dall‟evoluzione genetica. Se consideriamo un problema che ha una soluzione dipendente da n parametri e da k valori, un‟esplorazione completa richiederebbe kn operazioni. Ma se noi sappiamo come si può evolvere il sistema (perché abbiamo un training set) per ricavare il risultato, sappiamo che alcuni passaggi non sono possibili o non si sono mai verificati, e sappiamo che ci sono percorsi che sono preferiti rispetto ad altri. 89 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Pertanto se viene sviluppato un algoritmo che rispetti gli schemi osservati e viene calcolato per ogni passaggio un valore di attendibilità (definito fitness), potremo arrivare in un certo numero di cicli ad avere un risultato che abbia un valore fitness ottimale. Ricerca di pattern e di motivi funzionali in sequenze nucleotidiche Non ci sono strumenti che possono essere utilizzati indifferentemente per l‟analisi di una qualsiasi sequenza nucleotidica. Infatti alcuni programmi sono stati sviluppati per un organismo specifico o per un numero limitato di organismi e ciò implica che non possono essere usati per analizzare ogni tipo di sequenza ma solo sequenze specifiche Inoltre, per tutte le sequenze è necessario un filtro che escluda dall‟analisi le sequenze ripetitive. Grande parte del DNA è costituito da sequenze di DNA ripetute che non fanno parte di regioni codificanti. Queste sequenze devono essere eliminate perché possono interferire con le misure di similarità biologicamente significative nel corso delle ricerche in banche dati. Per risolvere questo tipo di problema ci sono due programmi: CENSOR e RepeatMasker. Questi due programmi accedono a raccolte di sequenze di DNA ripetute ed operano un confronto con le sequenze sottomesse al programma riuscendo ad identificare le sequenze ripetute presenti e le sottraggono dalla ricerca. Molti altri programmi sono stati sviluppati per analizzare le sequenze nucleotidiche: Promoter Scan ricercare i promotori eucaristici. Infatti, la predizione dei promotori è importante per l‟identificazione di sequenze geniche codificanti e per la corretta assegnazione di esoni tra i geni situati nella stessa porzione del cromosoma. NetGene e GenScan permettono di ricercare i siti di giunzione tra introni ed esoni. Un gene è costituito da una sequenza codificante interrotta da sequenze non codificanti (dette introni). I geni sono combinazioni di corti esoni ed introni di lunghezza variabile. Il termine esoni si applica a tutte 90 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 le regioni che non sono eliminate nel corso di maturazione del RNA [cioè le regioni non tradotte al 5‟ dei geni, quelle codificanti vere e proprie (CDS) e le regioni non tradotte al 3‟]. Pertanto identificare i siti di giunzione tra introni ed esoni è necessaria per una corretta predizione della struttura di un gene. GeneMark permette di identificare i siti di inizio della traduzione. Il codone di inizio è in generale (anche se non sempre) il codone AUG che codifica per la Metionina. GRAIL permette l‟identificazione dei segnali di poliadenilazione e di terminazione della traduzione. La più nota sequenza segnale coinvolta nella poliadenilazione è AATAAA SPIDEY ci permette di determinazione la struttura di un gene. Il risultato in SPIDEY mostrerà la struttura del gene esaminato cioè il numero di esoni che lo costituiscono 91 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Necessità dei metodi di predizione di struttura delle proteine L‟organizzazione strutturale delle proteine è generalmente rappresentata mediante una successione di livelli organizzativi: la struttura primaria è determinata dalla sequenza di amminoacidi, la struttura secondaria è caratterizzata da ripiegamenti locali della catena di amminoacidi con caratteristiche di periodicità riconoscibili (quali alfa eliche e strutture beta), la struttura terziaria descrive l‟avvolgimento complessivo della proteina nello spazio tridimensionale. Infine, la struttura quaternaria descrive l‟associazione di più catene proteiche a formare proteine oligomeriche. E‟ noto che le diverse strutture primarie determinano la formazione di strutture terziarie che differiscono sia per le caratteristiche della superficie (ad esempio la presenza di cavità o di sporgenze), sia per le caratteristiche chimiche degli atomi e dei gruppi funzionali esposti sulla superficie (proprietà acide, basiche, polari, apolari etc.). Viene generalmente definita come conformazione “attiva” o “nativa” di una proteina quella conformazione che consente alla proteina di svolgere la sua funzione principale. Tuttavia anche altre conformazioni, non necessariamente correlate ad una funzione, possono risultare stabili e predominanti in determinate condizioni ambientali. La conformazione spaziale di una proteina è infatti il risultato di un delicato equilibrio energetico, a cui contribuiscono le interazioni tra i gruppi funzionali della catena principale e delle catene laterali, ma anche l‟interazione con altre molecole quali l‟acqua e ligandi in genere, e fattori entropici. Tale equilibrio è sensibile alle condizioni ambientali quali temperatura, forza ionica, acidità, polarità del solvente, e alla presenza di altre molecole, proteiche e non. Tutti questi fattori possono quindi alterare o modulare la struttura della proteina, che è strettamente correlata alla sua funzione. E‟ quindi fondamentale la conoscenza della struttura tridimensionale di una proteina ai fini di una completa comprensione del meccanismo molecolare con cui essa agisce. La comprensione di tale meccanismo è a sua volta essenziale per interpretare fenomeni quali patologie dovuti al malfunzionamento della proteina, oppure per progettare modifiche strutturali che ne 92 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 migliorino le proprietà (ingegneria proteica) per eventuali applicazioni in processi biotecnologici, o infine per progettare ligandi specifici che possano eventualmente agire come farmaci. Tuttavia, mentre la struttura tridimensionale è stata determinata solo per poche decine di migliaia di proteine, sono state determinate oltre due milioni di sequenze di amminoacidi, mediante il sequenziamento diretto delle proteine oppure per traduzione delle sequenze di acidi nucleici (sequenziamento indiretto). Il “principio di Anfinsen” suggerisce che la proteina, data la successione di amminoacidi che la caratterizza, è in grado di assumere la struttura tridimensionale “nativa” da sola, guidata evidentemente da precise regole, a noi non ancora del tutto note. L‟interpretazione più completa del problema indica che la molecola proteica, sintetizzata dalla cellula come un sequenza lineare di amminoacidi, si ripiega in modo da assumere la forma che è energeticamente favorita, ovvero la conformazione a minore energia. Ma, in aggiunta a tali considerazioni, il cosiddetto “paradosso di Levinthal” ci dice che se una proteina, al momento della sua sintesi, dovesse esplorare tutte le sue possibili conformazioni per valutare quale corrisponde alla minima energia, impiegherebbe un tempo enorme per “individuare” la forma da assumere, mentre nella realtà ciò avviene in tempi brevissimi. Evidentemente, le regole che guidano il ripiegamento della proteina sono tali da riuscire anche a individuare un percorso rapido che esclude la stragrande maggioranza delle conformazioni della proteina teoricamente possibili. Gli studi sui meccanismi di ripiegamento delle proteine mirano quindi a individuare tutte queste regole (o quanto meno il più possibile) così da poter predire la struttura tridimensionale di una proteina applicando tali regole alla sequenza di amminoacidi che la caratterizza. 93 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Predizione della struttura secondaria Negli anni „70, le prime predizioni di struttura sono state rese possibili dalle analisi statistiche realizzate sulle prime strutture di proteine risolte mediante cristallografia. Analizzando un piccolo numero di strutture (poche decine), si osservò che la distribuzione dei diversi amminoacidi nelle diverse strutture secondarie (alfa elica, struttura beta e altro) non è casuale: alcuni amminoacidi ricorrono più frequentemente in alcune strutture secondarie e meno in altre. Sulla base di queste valutazioni sono nati i primi metodi, basati sul calcolo della propensione media degli amminoacidi che si susseguono nella struttura primaria, valutata per brevi segmenti lungo tutta la sequenza (Metodo di Chou and Fasman e metodo di GOR). Questi metodi avevano una attendibilità di circa il 50%, il che vuol dire che per il 50% degli amminoacidi veniva correttamente predetta la struttura secondaria, in uno schema che prevedeva generalmente tre stati (struttura alfa, struttura beta, altro) o in alcuni casi quattro (struttura alfa, struttura beta, “turn”, altro). Con il passare degli anni, è aumentato il numero di proteine la cui struttura era stata risolta sperimentalmente e ciò ha permesso di avere valutazioni statistiche basate su campioni sempre più ampi. Al tempo stesso si sono sviluppati altri metodi in cui la propensione degli amminoacidi per le diverse organizzazioni di struttura secondaria veniva definita sulla base non solo di parametri statistici ma anche di proprietà chimico-fisiche quali l'idrofobicità o il volume. Mentre i diversi approcci predittivi venivano nel tempo migliorati, si osservava anche che l'applicazione di più metodi e il confronto dei diversi risultati consentivano una predizione più accurata di quella ottenibile con i singoli metodi. Tutto ciò portò, nella seconda metà degli anni '80, a poter predire la struttura secondaria di una proteina con un‟attendibilità del 60-65 %. La successiva evoluzione delle predizioni di struttura secondaria è dovuta alla sviluppo di metodi computazionali più sofisticati, basati su sistemi di reti neurali che hanno consentito di realizzare programmi capaci di “apprendere” dagli esempi noti di strutture proteiche e “applicare” le 94 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 conoscenze acquisite ai nuovi casi di studio. Tali metodi hanno consentito di arrivare a predire la struttura secondaria con attendibilità superiore al 70%. Con alcune variazioni ed evoluzioni di questi ultimi metodi, attualmente considerati i più affidabili, si arriva oggi ad una attendibilità intorno all‟80%, con punte del 90%. Tra questi metodi ci sono PHD, PSIPRED e JPred. 95 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Predizione della struttura tridimensionale La predizione della struttura secondaria non è sufficiente per capire in pieno la funzione della proteina, correlata principalmente alla struttura terziaria. Tuttavia, con il progressivo aumento del numero di proteine di cui è stata determinata sperimentalmente la struttura tridimensionale, è stato possibile realizzare analisi strutturali e studi statistici da cui sono scaturite conoscenze e teorie alla base di alcuni metodi di predizione della struttura terziaria. Ad esempio, si è osservato che proteine aventi sequenze di amminoacidi simili hanno anche una organizzazione tridimensionale simile. Anche somiglianze di tipo funzionale sono correlate a somiglianze strutturali. L'architettura complessiva della proteina non dipende strettamente dalla precisa posizione ed estensione dei singoli elementi di struttura secondaria, ma piuttosto dall'ordine con cui essi si succedono lungo la sequenza. Su queste basi, si può considerare che due proteine possono avere organizzazione tridimensionale sostanzialmente simile se hanno una identità di sequenza maggiore del 40%, il che corrisponde generalmente anche ad una funzione simile. Attualmente, la strategia di predizione che produce i migliori risultati utilizza come modello di riferimento la struttura tridimensionale nota di una proteina avente una sequenza di amminoacidi sufficientemente simile a quella della proteina a struttura ignota. Questo metodo, indicato come “modellamento per omologia” o “modellamento comparativo”. 96 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Esistono proteine con sequenza simile e struttura 3D nota ? NO SI Fold recognition La sequenza in esame è compatibile con una struttura 3D nota? Informazione minima necessaria: Sequenza della proteina Modellamento per omologia Allineamento sequenze Costruzione del modello sul riferimento SI della struttura nota Verifica della qualità del modello NO Modellamento “ab initio” Modellamento comparativo Una volta identificato un modello tridimensionale valido come riferimento (detto “templato”), questa strategia di modellamento prevede che si effettui l'allineamento delle due sequenze, la creazione di un modello tridimensionale sulla base del templato, un‟ottimizzazione della sua conformazione e controlli strutturali ed energetici per verificare la qualità del modello ottenuto. La fase più delicata di questa strategia è l‟allineamento della sequenza della proteina da modellare con la sequenza della proteina a struttura nota. Allineare le due sequenze è infatti un‟operazione relativamente semplice quando le due proteine sono molto simili, mentre risulta un‟operazione molto delicata quando la somiglianza è bassa perchè è necessario inserire delle interruzioni nelle sequenze per ottenere il migliore allineamento possibile. Per ogni interruzione nell‟allineamento delle due sequenze, nel costruire il modello ci sarà una regione da predire senza avere un riferimento strutturale nel templato, oppure da eliminare rispetto al templato; in entrambi i casi, si vengono a creare delle considerevoli alterazioni nel modello in costruzione rispetto a quello di riferimento. Per questo motivo, nell‟allineamento delle sequenze va ben valutata la posizione in cui si inseriscono delle interruzioni, tenendo conto ad esempio che queste inserzioni creano meno problemi se avvengono in regioni a struttura secondaria non definita. 97 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Il modellamento prosegue poi costruendo la struttura della proteina sulla base dell‟avvolgimento della catena principale della proteina di riferimento: esistono strategie e software specializzati che permettono di creare la struttura tridimensionale e di ottimizzarla. Ovviamente, il modello ottenuto avrà una struttura della catena principale molto simile a quella del templato. I programmi comunemente usati per il modellamento comparativo sono Modeller e SwissModel. Il modellamento per omologia non è applicabile quando la proteina in esame non risulta sufficientemente somigliante ad alcuna proteina di cui sia già nota la struttura tridimensionale. In tal caso, è possibile utilizzare altre strategie (Fold recognition e Folding ab-initio). Fold recognition o riconoscimento del ripegamento Questo metodo verifica quanto una data sequenza di amminoacidi sia “adatta” ad un determinato avvolgimento della catena principale, e se attribuendo una “forma” a quella sequenza, il modello ottenuto è compatibile con dei requisiti di stabilità. La sequenza in esame viene confrontata con tutti gli avvolgimenti noti e si ottiene una tabella di valori energetici e statistici da cui si può valutare quale avvolgimento è “più adatto” ad essa. In questa valutazione, non basta semplicemente osservare i parametri derivanti dalle procedure di calcolo e modellamento, ma bisogna anche tenere conto di altri aspetti, sia di tipo strutturale (ad esempio il miglior avvolgimento trovato può corrispondere ad una proteina con caratteristiche strutturali incompatibili con quelle sperimentalmente note della nostra proteina) sia di tipo funzionale (l'avvolgimento più adatto corrisponde ad una funzione non compatibile con le funzioni note della nostra proteina). Questo ultimo aspetto può portare sia a cercare nuove funzioni nella proteina in esame, sia a cercare un altro avvolgimento, forse meno adatto sul piano strutturale ma più compatibile su quello funzionale. Una volta individuato l'avvolgimento più adatto alla sequenza in esame, e quindi un modello da usare come riferimento, si procede come già visto per il modellamento per omologia: si allineano le 98 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 due sequenze, si sostituiscono nel modello di riferimento le catene laterali, si ottimizza la struttura complessiva e si verifica la qualità del modello. Sono molto utili in questa fase i risultati delle predizioni di struttura secondaria. Infatti, l'allineamento delle sequenze di amminoacidi può essere ottimizzato in base all'allineamento degli elementi di struttura secondaria. Come già accennato prima, l'architettura complessiva della proteina è determinata da come le strutture secondarie si susseguono lungo la sequenza: il modello tridimensionale risulta perciò tanto più attendibile quanto più metodi diversi vengono abbinati (allineamento di sequenze, predizioni di struttura secondaria, modellamento molecolare) e quanto più i singoli metodi risultano attendibili. I programmi più usati per il riconoscimento del fold sono: 3D-PSSM, FUGUE, SAMT02, FFAS03. Metodi ab-initio Quando il modellamento per omologia ed il riconoscimento del fold non sono applicabili è possibile utilizzare i metodi “ab initio” che non si basano sull‟osservazione di proteine note ma ricercano le conformazioni di minima energia. Questi metodi possono essere concettualmente considerati come simulazioni virtuali del processo di ripiegamento, e sono attualmente in forte evoluzione. Essi in genere prevedono alcuni passaggi obbligati, tra cui la scelta di una rappresentazione semplificata della catena polipeptidica, la definizione di funzioni energetiche adatte per modellare le forze chimico-fisiche che agiscono sulla proteina, e strategie per creare la catena polipeptidica con la più bassa energia (quindi presumibilmente la più stabile). Allo stato attuale, si registrano alcuni promettenti risultati nella predizione di strutture di piccole proteine (70-100 amminoacidi) [13]. D'altra parte, i risultati di una predizione “ab-initio” sono comunque affetti da un margine di imprecisione tale da rendere preferibili, se possibile, strategie con cui, mediante approssimazioni permesse da considerazioni basate sullo studio delle strutture tridimensionali note, sia possibile 99 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 semplificare la complessità dei calcoli e raggiungere al tempo stesso un modello tridimensionale sufficientemente attendibile, sia pure non utilizzabile per studi che richiedano una definizione della struttura a risoluzione elevata. I metodi comunemente usati sono: Robetta server, HMMSTR. Valutazioni sui modelli La verifica del modello ottenuto per predizione costituisce una fase di enorme importanza dato che fornisce una valutazione dell‟attendibilità del risultato ottenuto. E‟ indispensabile valutare diversi elementi del modello, perciò sono state sviluppate nel tempo diverse metodiche, che sono ovviamente applicabili anche a strutture determinate tramite metodi sperimentali. Tra queste, spiccano per importanza i programmi che consentono la valutazione delle caratteristiche stereochimiche della catena proteica, accertando che siano assenti, ad esempio, caratteristiche strutturali non compatibili con gli angoli di torsione che una catena proteica può assumere (Procheck). Altri metodi valutano i profili energetici dei modelli, che individuano zone in cui valori particolarmente elevati indicano errori o bassa qualità nel modellamento (Errat, Prosa). Infine, quando possibile, è utile paragonare il modello predetto per una proteina con qualsiasi dato sperimentale relativo ad aspetti strutturali e funzionali, come spettri di dicroismo circolare, oppure caratteristiche di esposizione al solvente per specifici amminoacidi, ed altro, così da ricavare informazioni utili per confermare o rifiutare il modello ottenuto. 100 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 CASP Una valutazione dell‟affidabilità di questi metodi (modellamento per omologia, metodo di riconoscimento di fold, metodi ab-initio) viene fatta ogni due anni dalla comunità scientifica internazionale che ha istituito nel 1994 un esperimento chiamato CASP (Critical Assessment of Methods for Protein Structure Prediction). Questo esperimento valuta l‟efficacia di un metodo, confrontando la predizione con un risultato sperimentale. In pratica, ogni due anni viene chiesto a cristallografi ed a spettroscopisti NMR, che stanno per risolvere la struttura di una proteina, di rendere disponibile la sua sequenza. Queste sequenze (target) vengono assegnate ad una serie di predittori che devono depositare i loro modelli prima che la struttura sia resa pubblica. Un insieme di valutatori (assessors) confronta i modelli e le strutture, appena queste ultime sono rese disponibili, e cerca di valutare le predizioni e di trarre conclusioni generali. I risultati vengono, poi, discussi in un convegno dove i valutatori ed i predittori si incontrano per discutere dei risultati. Dai risultati del CASP5 si può avere una valutazione dell‟accuratezza raggiunta dai tre metodi. Il modellamento comparativo è risultato ancora il metodo predittivo più affidabile. Ottimi risultati sono stati ottenuti soprattutto per le zone strutturalmente conservate (definite come “core”) della proteina target. I limiti maggiori restano sempre quelli del modellamento delle catene laterali e dei loop; infatti, molti metodi sono stati sviluppati ma i risultati non sono ancora positivi. Sono stati ottenuti buoni risultati, nel caso di bassa percentuale di identità di sequenza tra la proteina target e quella/e template, migliorando l‟allineamento mediante i modelli di Markov ed i metodi basati sui profili. Gli esperimenti del CASP prevedono anche una sezione di valutazione di server automatici (CAFASP). Molti sono stati i server automatici di modellamento per omologia, che hanno ottenuto risultati migliori della media dei predittori ma è anche da sottolineare che per lo stesso target si sono registrate sia predizioni di ottima qualità sia predizioni completamente improbabili. Lo stesso si può 101 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 dire per il metodo del riconoscimento di fold. Alcune volte i modelli ottenuti per riconoscimento di fold sono risultati più simili alla struttura sperimentale di qualunque delle strutture presenti nella banca dati. Inoltre, i predittori, che hanno ottenuto i migliori risultati, hanno combinato i loro metodi ed hanno organizzato un paio di convegni per poter discutere dei risultati ottenuti. Le proteine per cui si è riusciti ad avere risultati migliori, sono state quelle su cui uno dei partecipanti lavorava sperimentalmente. Ciò ha fatto dedurre che un qualsiasi metodo funziona meglio se è abbinato ad una approfondita conoscenza delle caratteristiche biologiche delle proteine. Per quanto riguarda i metodi ab-initio, dai risultati del CASP5 si è potuto dedurre che nessuno dei metodi (minimizzazione, dinamica molecolare, Monte Carlo, algoritmi genetici) è in grado di trovare la conformazione a minima energia di una proteina. Ma la combinazione di questi metodi può dare buoni risultati per predire strutture di frammenti proteici. Il metodo di maggior successo nella categoria dei metodi ab-initio sia nel CASP4 sia nel CASP5 è stato il metodo ROSETTA. In questo metodo, la sequenza di una proteina target viene divisa in frammenti contigui di 3 e 9 amminoacidi. Tutti i frammenti di proteine di struttura nota che hanno sequenze uguali o simili a queste regioni vengono combinati, utilizzando il Metodo di Monte Carlo, al fine di predire la possibile conformazione della proteina target. 102 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 DOCKING Quando è nota la struttura di due proteine e si sa che esse interagiscono, predire la loro orientazione relativa nel complesso rappresenta un problema non facile da risolvere. La simulazione fatta in silico della formazione del complesso molecolare a partire dalle strutture tridimensionali delle proteine, che lo compongono, viene definita con il termine docking. Il problema maggiore relativo alla predizione delle interazioni proteina-proteina è che la struttura delle proteine in un complesso è abbastanza diversa da quella assunta dalle stesse proteine nella loro forma libera soprattutto nelle regioni dell‟interazione. Ciò è certamente dovuto al fatto che le catene laterali dei residui delle proteine sono relativamente mobili e talora seguono il formarsi del complesso con movimenti che determinano una migliore complementarità tra i residui delle proteine interagenti. Questi movimenti coinvolgono non solo le catene laterali dei residui ma talvolta comportano anche spostamenti di interi segmenti di strutture secondarie. Diversi metodi di docking sono stati sviluppati (DOCK, AUTODOCK, FlexX, ESCHER) sia per la ricostruzione di complessi proteina-proteina sia per l‟analisi di complessi tra proteine e ligandi. Il docking è molto utilizzato anche per la ricerca di nuovi inibitori di una proteina data mediante l‟utilizzo di banche dati di possibili ligandi. I metodi, finora sviluppati, si basano o su criteri geometrici o energetici. I metodi energetici sfruttano il fatto che le proteine formano complessi poiché questi sono energeticamente favoriti mentre quelli geometrici si basano sulla considerazione che le superfici di interazione delle due proteine, che formano il complesso, devono essere complementari. Una valutazione delle procedure di docking proteina-proteina, finora sviluppate, viene fatta periodicamente mediante un esperimento, analogo a quello del CASP, denominato CAPRI (Critical Assessment of PRedicted Interactions). Proprio come per il CASP, le predizioni vengono fatte e confrontate con le strutture dei complessi, ottenute mediante diffrazione ai Raggi X, prima che 103 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 queste vengano rese pubbliche. Dall‟ultima edizione (CAPRI round 3) è emerso che molti metodi di docking trattano i componenti molecolari come corpi rigidi, mentre altri fanno ciò solo nei primi passaggi della simulazione, in modo da eliminare le soluzioni più improbabili, e poi modellano le catene laterali e/o il backbone (catena principale). Il maggiore limite di questi metodi è nel fatto che essi, quando tentano di predire strutture di complessi, raramente sono in grado di fornire una sola soluzione. Infatti, la maggior parte delle volte forniscono una lista di possibili modi di interazioni e scegliere la migliore tra queste non è facile. Recentemente, analizzando strutture di complessi note, si è cercato di studiare quali possono essere i parametri legati all‟interfaccia proteina-proteina. Ma eccetto l‟ampiezza dell‟interfaccia, che, in generale anche se non sempre, tende ad essere più larga nei complessi biologicamente attivi, altri parametri, come il numero di legami ad idrogeno per unità di superficie e le propensità di contatto tra residui, non sono risultati discriminatori. Per la predizione dell‟interazione proteina-proteina sono stati ottenuti buoni risultati combinando i metodi di docking con i due approcci classici, modellamento per omologia e threading, i quali rappresentano una strategia integrata, capace di predire i siti di interazione, i contatti tra i residui e, nei casi più fortunati, anche un modello dettagliato del complesso. Infatti, questi due metodi usano la struttura di un complesso noto come riferimento (template) per costruire il modello del complesso target. Però il limite di questo approccio è certamente legato alla percentuale di somiglianza, che c‟è tra le proteine target e quelle template. Russell ed i suoi collaboratori hanno recentemente dimostrato che proteine con una percentuale di omologia pari al 30-40% interagiscono allo stesso modo mentre il modo di interagire è raramente conservato per proteine con percentuale di identità di sequenza più bassa. 104 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 Lista di Link utili usati durante le Esercitazioni: BLAST: http://www.ncbi.nlm.nih.gov/blast/ BoxShade: http://www.ch.embnet.org/software/BOX_form.html CATH: http://www.cathdb.info/latest/index.html CSD: http://www.ccdc.cam.ac.uk/products/csd/ CENSOR: http://www.girinst.org/Censor_Server.html CLUSTALW:http://www.ebi.ac.uk/clustalw/ DDBJ: http://www.ddbj.nig.ac.jp/Welcome-e.html DIALIGN: http://bibiserv.techfak.uni-bielefeld.de/dialign/ DSSP: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html http://swift.cmbi.ru.nl/gv/dssp/ EBI: http://www.ebi.ac.uk ELM: http://elm.eu.org/ EMBL: http://www.ebi.ac.uk/embl/ EMBnet: http://www.embnet.org EMBOSS: http://emboss.sourceforge.net/ EMBOSS (Pairwise Alignment Algorithm): http://www.ebi.ac.uk/emboss/align/ ENSEMBL : http://www.ensembl.org/index.html Entrez: http://www.ncbi.nlm.nih.gov/gquery/gquery.fcgi Expasy: http://www.expasy.org FASTA: http://www.ebi.ac.uk/fasta33/ http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=select&pgm=fap GenBank: http://www.ncbi.nlm.nih.gov/Genbank/ 105 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 GeneDoc: http://www.psc.edu/biomed/genedoc/ GeneMark: http://exon.gatech.edu/GeneMark/genemark_prok_gms_plus.cgi GenomeScan http://genes.mit.edu/genomescan.html GenScan: http://genes.mit.edu/GENSCAN.html Gibbs Sampler: GRAIL: HMMER: http://bayesweb.wadsworth.org/gibbs/gibbs.html http://compbio.ornl.gov/Grail-1.3/ http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html HSSP: http://swift.cmbi.kun.nl/gv/hssp/ KALIGN http://msa.cgb.ki.se/cgi-bin/msa.cgi InterPro: http://www.ebi.ac.uk/interpro/ ITERALIGN: http://giotto.stanford.edu/~luciano/iteralign.html LALIGN: http://www.ch.embnet.org/software/LALIGN_form.html MMDB: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure MEME: http://meme.sdsc.edu/meme/website Multalin http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html NCBI: http://www.ncbi.nlm.nih.gov:8000 NDB: http://ndbserver.rutgers.edu/ NetGene: http://genome.cbs.dtu.dk/services/NetGene2/ PDB: http://www.rcsb.org/pdb/home/home.do PDBsum: http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/ PIR: http://pir.georgetown.edu PrettyPlot: http://www.ocgc.on.ca/programs/emboss/prettyplot.html PRODOM: http://prodom.prabi.fr/prodom/current/html/form.php?typeform=KW PromoterScan: http://www-bimas.cit.nih.gov/molbio/proscan/ PROSITE: http://www.ebi.ac.uk/ppsearch/ 106 POR Campania 2000-2006 Misura 3.22 Attuazione azione i Corso di Bioinformatica Codice Corso 57-003 http ://www.expasy.org/prosite/ PSORT http://psort.nibb.ac.jp/form2.html PUBMED: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed RAGA http://ugs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/raga_home_page.html ReadSeq: http://iubio.bio.indiana.edu/soft/molbio/readseq/java RepeatMasker http://www.repeatmasker.org SAGA http://ugs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/saga_home_page.html Sanger: http://www.sanger.org ScanProsite http://www.expasy.org/tools/scanprosite/ SCOP: http://scop.mrc-lmb.cam.ac.uk/scop/ SeaView: http://pbil.univ-lyon1.fr/software/seaview.html SIB http://www.isb-sib.ch SignalIP http://www.cbs.dtu.dk/services/SignalIP SPIDEY: http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/ SRS: http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession SWISSPROT: http://www.ebi.ac.uk/swissprot/access.html TCOFFEE http://www.ch.embnet.org/software/TCoffee.html TREMBL: http://www.ebi.ac.uk/trembl/access.html UNIPROT: http://www.pir.uniprot.org WebLogo: http://www.bio.cam.ac.uk/cgi-bin/seqlogo/logo.cgi 107