UNIVERSITÀ DEGLI STUDI DI CATANIA Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informatica Angelo Giaquinta Annotazione funzionale di dati di espressioni geniche Relatore: Prof.ssa Rosalba Giugno ANNO ACCADEMICO 2010/2011 1 Alla mia famiglia 2 Indice Capitolo 1 ............................................................................................................................ 5 Introduzione .................................................................................................................... 5 1.1 Riassunto dell’elaborato............................................................................................ 6 Capitolo 2 ............................................................................................................................ 7 Analisi sistematica di geni usando IPA........................................................................... 7 2.1 Introduzione .............................................................................................................. 7 2.2 Tabella illustrativa delle funzioni ............................................................................. 8 Capitolo 3 .......................................................................................................................... 11 Analisi sistematica e integrativa di geni usando DAVID ............................................. 11 3.1 Introduzione ............................................................................................................ 11 3.2 Accettazione degli ID gene dell'utente su DAVID ................................................. 12 3.3 DAVID gene name batch viewer ............................................................................ 12 3.4 DAVID gene functional classification .................................................................... 12 3.5 DAVID functional annotation chart ........................................................................ 13 3.6 DAVID functional annotation clustering ................................................................ 13 3.7 DAVID functional annotation table ........................................................................ 14 Capitolo 4 .......................................................................................................................... 15 Biolayout. Un sistema per l’analisi di geni secondo la network di interazione ............ 15 4.1 Introduzione ............................................................................................................ 15 4.2 BioLayout Express3D Data Input Formats ............................................................. 16 4.3 Creazione di classi .................................................................................................. 17 4.4 Metodo di normalizzazione e dipendenza della piattaforma ................................... 18 Capitolo 5 .......................................................................................................................... 19 Il Data Mining e l’annotazione funzionale per l’analisi di espressioni di geni e la caratterizzazione di biomarcatori. ................................................................................. 19 5.1 Descrizione del dataset ........................................................................................... 19 5.2 Annotazione con IPA .............................................................................................. 20 Capitolo 6 .......................................................................................................................... 26 Annotazione delle regole di associazione e definizione dei biomarcatori. ................... 26 6.1 Istogrammi biomarcatori ......................................................................................... 26 3 6.2 Istogrammi intersezioni e geni unici ....................................................................... 32 6.3 Istogramma biomarcatori specifici.......................................................................... 37 Capitolo 7 .......................................................................................................................... 38 Visualizzazione della rete con Biolayout ...................................................................... 38 Bibliografia e web reference ............................................................................................. 41 Appendice ......................................................................................................................... 43 Ringraziamenti .................................................................................................................. 44 4 Capitolo 1 Introduzione Da anni ormai scienziati e vari ricercatori si trovano d’accordo sulla teoria secondo la quale alcune malattie derivano da piccole alterazioni del nostro codice genetico. Quello che distingue un individuo sano da uno malato sono delle differenze nell’espressione dei geni, ossia nel modo con cui essi sono utilizzati e nelle proteine a cui danno origine. Il primo passo da compiere è quello che porta verso la diagnosi: il problema è quello di caratterizzare l’anomalia genetica della cellula malata, cioè quello che la differenzia rispetto ad una sana, in maniera tale che una volta conosciuto il profilo genetico di un paziente, risulta possibile classificarlo come sano o affetto da malattia. Il passo successivo sarà quello della cura di queste alterazioni mediante l’individuazione dei geni che in presenza di una determinata malattia risultano alterati con maggior frequenza. Recentemente la tecnologia dei microarray dei gene è diventata uno strumento fondamentale nella ricerca biomedica, che ci permette di osservare simultaneamente l'espressione di migliaia di geni a livello trascrizionale. Due problemi tipici che le ricerche vogliono risolvere utilizzando i dati di microarray sono: (1) scoprire i geni informativi per la classificazione sulla base di diversi tipi di cellule o malattie, (2) clustering dei geni e disposizione secondo la loro somiglianza in pattern di espressione. Un microarray di DNA è costituito da un insieme di microscopiche sonde di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio formanti un array. Tali array sono usati per esaminare il profilo d’espressione di un gene o per identificare la presenza di un gene o di una breve sequenza all'interno di una miscela di migliaia di geni. 5 Cinque sono i principali obiettivi biologici che motivano uno studio statistico nell’area dei microarray: (i) l’identificazione di geni differenzialmente espressi sotto diverse condizioni sperimentali o tra soggetti che presentano varie forme della stessa patologia; (ii) l’individuazione di gruppi di geni che con buona probabilità sono co-regolati; (iii) la classificazione di campioni biologici (soggetto sano / soggetto malato);(iv) l’identificazione di geni detti marcatori (biomarker) candidati come indicatori di un particolare un gruppo o fenotipo; (v) l’identificazione di nuove classi di una specifica patologia (es. il tumore). 1.1 Riassunto dell’elaborato Analizzare l’espressione genica vuol dire analizzare la quantità di mRNA o di proteine prodotte da una cellula in un particolare momento. Il principio alla base dell’analisi dell’espressione genica consiste nel confronto di campioni diversi, ad esempio tessuti sani o malati per studiare l’espressione genica in una determinata malattia. Scopo del mio elaborato è stato quello di analizzare e filtrare migliaia di geni presenti in un dataset di analisi di pazienti sottoposti ad una terapia contro il breast cancer (cancro al seno)[1]. Per l’annotazione mi sono servito di alcuni tools utili a tale scopo[2]. Nei vari capitoli della tesi illustrerò brevemente alcune delle funzioni di questi software e nel capitolo sugli esperimenti illustrerò come ridurre e filtrare la grande mole di geni presenti nei vari dataset. 6 Capitolo 2 Analisi sistematica di geni usando IPA 2.1 Introduzione IPA è un software web-based, sviluppato dalla Ingenuity Sistems[3], che aiuta i ricercatori a modellare, analizzare e comprendere i complessi sistemi biologici e chimici al centro della ricerca della scienza della vita. IPA fornisce la capacità di comprendere la biologia a più livelli, integrando dati provenienti da una varietà di piattaforme sperimentali e permette di approfondire le interazioni molecolari e chimiche, fenotipi cellulari e processi patologici del sistema. IPA è stato ampiamente adottata dalla comunità di ricerca in scienze biologiche e viene citato in migliaia di articoli di riviste[4]. Questo software ha la possibilità di essere utilizzato con o senza dati. Ad esempio è possibile scoprire nuove intuizioni dalle analisi dei dati derivati da espressioni e microarray SNP, esperimenti di proteomica e piccoli esperimenti che generano liste di gene. È anche possibile effettuare ricerche di informazioni mirate e pertinenti sui geni, proteine, sostanze chimiche e farmaci e utilizzare queste informazioni per i propri modelli biologici o iniziare a studiare in un settore di ricerca. Durante il mio lavoro ho avuto modo di usare parecchi tools utili per le analisi dei dati in mio possesso, ognuno con una propria funzionalità, analisi ontologica, annotazione genica, visualizzazione e analisi di reti biologiche ed altro. 7 Cito ad esempio alcuni plugins del software Cytoscape[5], quali Bingo[6] e Pingo[7], oppure i GENE ONTOLOGY (GO) Tools[8] del Lewis-Sigler Institute for Integrative Genomics dell’università di Princeton e anche DAVID (The Database for Annotation, Visualization and IntegratedDiscovery)[9] del LIB, Saic-Frederick. Ma IPA risulta il più completo sotto ogni punto di vista. Ma cosa lo rende differente dagli altri? IPA è distinto da altri strumenti, perché è un all-in-one che sfrutta l’ Ingenuity ® Knowledge Base, il più grande database di questo tipo che ospita le relazioni biologiche e chimiche estratte dalla letteratura scientifica. Nella tabella, nel paragrafo successivo, descriverò brevemente alcune delle funzioni di questo tools[10]. 2.2 Tabella illustrativa delle funzioni IPA Analysis Type Descrizione Core Analysis Permette di interpretare piccole e grandi serie di dati nel contesto dei processi biologici, delle pathways e delle networks molecolari. Core Comparison Analysis Consente di analizzare i cambiamenti negli stati biologici attraverso le condizioni sperimentali. Analizzare set di dati che rappresentano trattamenti multipli e capire quali processi biologici e / o malattie sono rilevanti per ogni condizione. IPA-Metabolomics® Analysis Fornisce un modo di analizzare i dati metabolita per saperne di più sulla 8 fisiologia e metabolismo cellulare. IPA-Metabolomics Comparison Consente di analizzare i cambiamenti Analysis negli stati biologici attraverso condizioni sperimentali. Analizzare gruppi di dati che rappresentano trattamenti metaboliti multipli e capire quali processi biologici e / o malattie sono rilevanti per ogni condizione IPA-Tox® Analysis Consente di valutare la tossicità e la sicurezza dei composti d'interesse nelle prime fasi del processo di sviluppo. L’ analisi di tossicità mostra rapidamente la tossicità nei fenotipi e la patologia clinica associata a un set di dati. IPA-Tox Comparison Analysis Consente di analizzare i cambiamenti nei fenotipi di tossicità attinenti e ed endpoints di patologia clinici attraverso tutte le osservazioni e capire che la tossicità funzioni e / o percorsi sono rilevanti per ciascun timepoint o dose IPA-Biomarker® Analysis Consente di identificare e dare priorità ai più rilevanti e promettenti candidati biomarker molecolari da una serie di dati proveniente da quasi tutte le fasi del processo farmacologico di scoperta o di ricerca della malattia. Priorità ai biomarker molecolari sulla base delle informazioni contestuali come la connessione meccanicistica di malattie o di rilevamento nei fluidi corporei. Identifica i candidati biomarker che sono comuni a uno stato di malattia e 9 / o alla risposta ai farmaci. IPA-Biomarker Comparison Analysis Identifica i candidati biomarker che sono comuni a una malattia e / o alla risposta ai farmaci. Priorità biomarker molecolari sulla base delle informazioni contestuali come la connessione meccanicistica malattie, il rilevamento di fluidi corporei. Identifica i candidati biomarker tra campioni multipli. 10 Capitolo 3 Analisi sistematica e integrativa di geni usando DAVID 3.1 Introduzione L’ High-throughput genomico, proteomico e bioinformatico, come expression microarray, promoter microarray, proteomic data and ChIP-on-CHIPs, prevede cospicui capacità di studiare una grande varietà di meccanismi biologici, comprese le associazioni con malattie. Queste tecnologie di solito risultano in una grande lista di geni (che variano nel formato da centinaia a migliaia di geni) coinvolti nelle condizioni biologiche studiate. L’analisi dei dati di insiemi di volumi molto complessi e di grandi dimensioni è una compito impegnativo, che richiede il supporto speciale di pacchetti software bioinformatici. Uno di questi è DAVID (Database Discovery)[11] in for Annotation, Visualization grado di estrarre and Integrated caratteristiche / significati biologici associati ad elenchi di geni di grandi dimensioni. DAVID è in grado di gestire qualsiasi tipo di elenco , indipendentemente dalla piattaforma genomiche del pacchetto software che simili, DAVID fornisce approccio un integrato lo ha alcune e generato. Rispetto ad caratteristiche e capacità ampliato back end annotation avanzato arricchimento di algoritmi uniche, modulari e potente capacità esplorativa in un integrato ambiente di data-mining. 11 altri servizi come un database, una 3.2 Accettazione degli ID gene dell'utente su DAVID ID Gene e annotazioni biologiche sono altamente ridondanti all'interno della vasta gamma di banche dati pubbliche. Il DAVID knowledgebase è stato progettato per raccogliere e integrare i differenti geni identificatori . La vasta gamma di annotazioni biologiche e la non ridondante integrazione dei gene ID nel DAVID knowlodgebase, consente agli ID gene dell’utente di essere mappato su tutto il database, fornendo così una completa dell’annotazione copertura del gene associato. Se una porzione significativa degli ID gene in input non è mappato ad un DAVID ID interno, un modulo appositamente progettato, il DAVID gene ID Conversion Tool[12], si avvierà per aiutarci a mappare questi ID. 3.3 DAVID gene name batch viewer Alcuni ID gene, di solito non comunicano un significato biologico in sé per sé. Il gene name batch viewer[13] è in grado di tradurre rapidamente una lista di geni nel loro nome significativo. Così, prima di procedere ad analisi più completa con altri strumenti, i ricercatori possono rapidamente dare uno sguardo al ai nomi dei geni per ottenere una visione completa per il loro studio e di rispondere a domande come: “La mia lista gene contiene importanti geni rilevanti per lo studio? “. Inoltre, sono visualizzati una serie di collegamenti ipertestuali per ogni voce gene, permettendo agli utenti di trovare altre informazioni funzionali su di essi. 3.4 DAVID gene functional classification La classificazione funzionale[14] dei geni fornisce distinte capacità per i ricercatori di esplorare e visualizzare funzionalmente i geni correlati, come un'unità, di concentrarsi sulla più grande rete biologica piuttosto che al livello di un singolo gene. Infatti, la maggior parete de co-funzionamento dei geni hanno diversificato i nomi in modo che i geni non possono essere semplicemente classificati in gruppi funzionali in base ai loro nomi. Tuttavia, la classificazione funzionale dei geni, realizzato con una serie di nuove tecniche di 12 clustering fuzzy, è in grado di classificare i geni di ingresso in gruppi di geni funzionalmente correlati (o classi) sulla base al loro termine di annotazione delle co occorrenze piuttosto che sul nome del gene. Nel loro insieme con la funzione “drill down” associata ad ogni modulo biologico e con grafici per visualizzare le relazioni tra i molti-geni-a-molti-termini di associazione, i ricercatori sono in grado di capire al meglio come i geni sono associati tra loro con l’annotazione funzionale. 3.5 DAVID functional annotation chart Lo schema di annotazione funzionale[15] fornisce l’analisi del rappresentativo gene term sovrarappresentato, che è anche fornito da altri strumenti simili, per identificare i più rilevanti (sovrarappresentati) termini biologici associati a un elenco di geni. Rispetto ad altri simili strumenti di analisi, la differenza notevole di questa funzione fornita da DAVID è il suo servizio di annotazione estesa, passando da solo GO nella versione originale di DAVID attualmente con oltre 40 categorie di annotazione, inclusi i termini GO, interazioni proteina-proteina, i domini delle proteine funzionali, le malattie e le associazioni, le bio-pathways, le caratteristiche di sequenza, omologia, espressione genica dei tessuti e la letteratura. Per sfruttare in pieno il noto KEGG e BioCarta pathways, DAVID pathway viewer, al quale si accede cliccando sui link all'interno dei chart report, è grado di visualizzare i geni da un lista degli utenti sulle pathway maps per facilitarne l’interpretazione biologica in una rete. 3.6 DAVID functional annotation clustering Questa funzione utilizza un nuovo algoritmo per misurare le relazioni tra i termini di annotazione in base ai gradi della loro coassociazione dei geni per raggruppare i contenuti di annotazione simili, ridondanti ed eterogenei delle risorse uguali o in diversi gruppi di annotazione. Ciò riduce il carico di associare termini simili ridondanti e rende l'interpretazione biologica più concentrata in un livello di gruppo. Lo strumento fornisce inoltre uno sguardo alle relazioni interne dei termini cluster e confrontarlo con il tipico lineare su 13 cui termini di annotazione simili possono essere distribuiti tra centinaia o migliaia di altri termini. 3.7 DAVID functional annotation table E’ un motore di query per il DAVID knowledgebase, senza calcoli statistici. Data una lista di geni, lo rapidamente interrogare l’annotazione corrispondente per strumento può ogni gene e presentarli in formato tabella. Così, gli utenti sono in grado di esplorare l’annotazione in maniera gene-by-gene. Si tratta di un utile modulo analitico in particolare quando gli utenti vogliono guardare da vicino la annotazione di geni molto interessanti. 14 Capitolo 4 Biolayout. Un sistema per l’analisi di geni secondo la network di interazione 4.1 Introduzione BioLayout express3D[16] è un potente strumento per la visualizzazione e l'analisi di reti molto grandi. Facilita la conversione di dati dimensionali in grafici 3D basati sulla correlazione, rendendo grandi insiemi di dati rapidi e facili da interpretare. I progressi nei metodi di high throughput alle biotecnologie nell'ultimo decennio hanno portato ad enormi quantità di dati che vengono generati da singoli esperimenti e l'analisi di questi dati ha presentato il serio ostacolo nella conversione a utili risultati. BioLayout express3D è stato appositamente studiato per la visualizzazione, il clustering, l'esplorazione e l'analisi dei grafici di network di grandi dimensioni a due e tre dimensioni derivati principalmente, ma non esclusivamente, da dati biologici. BioLayout express3D è compatibile con tutti i sistemi operativi più comuni, tra cui Windows, Linux e Mac. Include le seguenti caratteristiche: Parallelizzazione, consentendo l'utilizzo di tutti i core disponibili simultaneamente e accelerando così tempo di funzionamento Supporta l'inserimento di più tipi di dati (txt, SIF, matrix, expression, graphml) Permette il rendering interattivo dei grafici di grandi dimensioni (>50.000 nodi, milioni di archi) 15 Le sue potenziali applicazioni possono essere: visualizzazione, analisi e manipolazione di correlazione dei dati di grandi dimensioni tra cui microarrays, sequencing, protein interaction and metabolic pathways rendering e animazione dei pathways metaboliche e di segnalazione Le applicazioni che richiedono analisi di correlazione di grandi insiemi di dati o la visualizzazione della rete 4.2 BioLayout Express3D Data Input Formats BioLayout Express3D supporta l'input di dati[17] in un numero di formati diversi: Regular (.layout, .txt, .tgf) Cytoscape SIF format (.sif) Graphml (.graphml) Matrix (.matrix) Expression (.expression) Questi sono i formati di input di base per i grafi di BioLayout Express3D. Sul sito del produttore sono presenti parecchi file di esempio. I file di input sono molto flessibili e semplici. Inziamo introducendo il semplice formato multi colonna( .layout, .txt). Questo è forse il più semplice formato di input per la gestione dei tipi di dati eterogenei in BioLayout. Il formato consente una gamma completa di nodi, archi e classi per essere creati da un semplice formato colonna che può essere preparato in un foglio elettronico come Excel. Il formato di base per definire le regole può variare, può contenere solo i nomi dei due nodi, o altrimenti aggiungere anche il peso dell’arco o magari anche un annotazione. I file a matrice possono essere generati da un gruppo di numeri con qualsiasi misura di correlazione, ma devono avere l’estensione .matrix in modo che Biolayout li riconosca. All’apertura di un file .matrix, una finestra di dialogo “matrix CutOff” apparirà per richiedere all’utente di definire la soglia oltre la quale i rapporti saranno tracciati. 16 Il formato “.expression”, di base è una riga di intestazione, seguita da una singola riga per ciascuna sonda (set) / gene sulla matrice. Ogni riga deve iniziare con l'identificatore unico di quella riga (nodo). Colonne di annotazione possono seguire l'identificatore (questi sono opzionali, ma molto utili), seguito infine dalle colonne di dati grezzi, che sono solitamente di tipo numerico. Le colonne sono di solito dei tab separati e le voci di testo sono circondati da virgolette. GraphML è stato progettato per descrivere le proprietà strutturali e visive di un network grafico. Le sue caratteristiche principali includono il supporto diretto, grafi non orientati e misti, ipergrafi, grafici gerarchici, rappresentazioni grafiche, riferimenti a dati esterni, per applicazioni specifiche degli attributi dei dati e parser leggeri. A differenza di molti altri formati di file per i grafici, GraphML non usa una sintassi personalizzata. E’ basato, invece su XML, e quindi è adatto come denominatore comune per tutti tipi di servizi di generazione, l'archiviazione o l'elaborazione grafici di rete. Una volta creato, un file .GraphML, esso potrà essere aperto direttamente in Biolayout Express3D. 4.3 Creazione di classi I nodi possono essere assegnati a diverse classi in modo che più annotazioni possono essere sovrapposte sullo stesso grafico. Esempi di tali annotazioni possono essere termini Gene Ontology o numeri di classificazione di enzimi, assegnati ai nodi di un grafo di proteine. Classi di nodi si differenziano gli uni dagli altri principalmente per colore e, in alternativa, forma o dimensione del nodo. BioLayout Express3D opera su un sistema di insiemi di classe, che si riferiscono al tipo complessivo di classi che vengono assegnati (ad esempio, GO Term, Numero CE). Ogni nodo può avere una sola classi di annotazione all'interno di un set di classi. Non è necessario che tutti i nodi hanno un'annotazione in qualsiasi set di classi. Nodi senza una classe definita vengono aggiunti a una classe predefinita annotata. 17 4.4 Metodo di normalizzazione e dipendenza della piattaforma BioLayout Express3D non possiede la capacità di normalizzare i dati, né in linea di principio non importa se i dati di input sono stati normalizzati, log-trasformati o convertiti in rapporto con i dati metrici. Una matrice di correlazione sarà calcolata e sarà tracciato un grafico a prescindere. Tuttavia, la dimensione e la struttura del grafo sarà fortemente influenzata da questi fattori. BioLayout Express3D non è limitato ad analizzare i dati da qualsiasi piattaforma di microarray accademica o commerciale, il formato di input è lo stesso indipendentemente dalla piattaforma che ha generato i dati. 18 Capitolo 5 Il Data Mining e l’annotazione funzionale per l’analisi di espressioni di geni e la caratterizzazione di biomarcatori. 5.1 Descrizione del dataset Il set di dati con cui ho lavorato in partenza è stato estrapolato da una serie di analisi fatte su un campione di 99 pazienti che hanno ricevuto un trattamento contro il tumore al seno. I dati erano così distribuiti: nelle colonne gli identificativi dei pazienti e nelle righe migliaia di geni con i valori id log ratio per ogni paziente. Ogni paziente è stato diviso in due classi, zero ed uno. Un ulteriore classificazione è stata fatta a questo dataset applicando un algoritmo di data mining. Molti algoritmi di calcolo sono stati progettati e adattati per la classificazione di espressione genica. Si tratta di tecniche di clustering, reti neurali artificiali e di Support Vector Machine. Il metodo di classificazione usato è stato in grado di estrarre un insieme di regole di associazione utilizzati per classificare i profili genici non classificati. Questo metodo si basa su un algoritmo di estrapolazione dei dati per identificare massimi set di elementi frequenti[18]. Analogamente ad altri metodi, si riduce la quantità di dati provenienti da microarray. In generale, solo una piccola frazione dei valori di espressione genica sono veramente discriminatorie e per il restante non sono informativi. 19 L’algoritmo in questione si chiama MAFIA (MAximal Frequent Itemset Algorithm)[19]. L’algoritmo MAFIA è una implementazione efficiente per trovare itemsets frequenti massimali, soprattutto quando gli insiemi nel database sono molto lunghi. Il sistema di ricerca di MAFIA usa un attraversamento depthrst dell’insieme reticolo del gene con un meccanismo di pruning. Questo evita l’enumerazione esaustiva di tutti gli insiemi del gene candidato secondo il principio di monotonicità. Nel principio di monotonicità, si afferma che ogni sottoinsieme di un itemset frequente è esso stesso frequente. Questo scarta i candidati che hanno un sottoinsieme non frequente che usa questa proprietà. Il risultato di questa classificazione è stata la creazione di due dataset contenenti le regole di associazione per ogni classe. Dieci regole nella ‘relapse(classe 0)’ e nove nella ‘no relapse(classe 1)’. 5.2 Annotazione con IPA La versione di IPA con cui ho lavorato io è quella trial. A parte alcune limitazioni, per la maggior parte temporali, il tools ha lavorato perfettamente annotando molti geni utili nello studio di una terapia contro il breast cancer. In breve le attività da me svolte con IPA: Formattare i dati in un modo che IPA possono caricare. Impostare le opzioni di caricamento e identificare l’ID e le colonne di osservazione. L'analisi della Impostare i parametri: se gli insiemi di dati sono grandi, regolare i valori di cutoff di espressione (s) per limitare le loro dimensioni. Eseguire l'analisi. Filtrare i dati estrapolando i biomarcatori dalla lista. 1) Preparare i dati per il caricamento. 20 E’ preferibile caricare i dati in un foglio di calcolo excel, assicurarsi che ci sia una sola riga di intestazione. (IPA può essere impostato per ignorare la prima fila quando si fa i calcoli). Muovere gli ID molecolari alla prima colonna (IPA utilizza la prima riga per indovinare i tipi di identificatori che vengono utilizzati per le molecole). IPA consente un massimo di 20 osservazioni. Per questo motivo per analizzare il primo dataset con in 99 pazienti ho dovuto suddividere in dati in 5 parti per poi analizzarle. Per i campioni con le regole non ce n’è stato bisogno in quanto per ogni regola è stato visualizzato solo il suo IDgene e il suo valore di intensity. 2) Avviare IPA 21 3) Carica i dati in IPA. Dal menu file->Carica Dataset ho selezionato il mio set di dati excel. Successivamente ho impostato alcuni campi per la lettura dei nostri valori. E’ sempre consigliato di selezionare il “Formato flessibile”, selezionare “yes” se si dispone di una riga di intestazione nel set di dati. Selezionare il tipo di Identifier, nel nostro caso “Gene Symbol - human” ed infine selezionare la piattaforma del microarray da cui provengono i dati, se non si è sicuri è possibile selezionare “Non specificato/applicabile”. Infine bisogna selezionare la colonna ID del nostro file e le successive colonne che serviranno per le osservazioni, specificando se i valori sono ad esempio di log ratio, p-value, intesity e così via. Le colonne che non serviranno per le nostre analisi potranno essere ignorate IPA salva i dati nel database di Gestione Progetti nell'ambito dei progetti selezionati. 22 Il passo successivo all’upload dei nostri dataset è stato quello dell’annotazione, applicando una serie di filtri tramite la funzione “new filter dataset” che combina anche l’estrapolazione dei biomarcartori. Questa è la parte più importante delle analisi, perché è qui che ridurremo maggiormente i nostri geni per una più accurata annotazione. Accedendo al pannello di questa funzione ci troveremo a settare alcuni campi che interagiranno con il database di IPA dove sono conservati i nostri geni da annotare. Qui di seguito l’elenco dei possibili filtri da applicare, nelle mie analisi ho dato maggiore peso nella selezione della specie, delle linee cellulari, nel tipo di malattia e nel filtro biomarcatore. Species : Filtro per i geni che esistono in una particolare specie. Nel nostro caso Human. Tissues & Cell Lines : filtro per i geni espressi in un particolare tessuto o una linea cellulare. Essendo geni generati da una terapia contro il tumore al seno, sono andato a selezionare le ‘cellular line’ del breast cancer. Molecules Types : Filtro per le famiglie di molecole specifiche. Selezionando un qualsiasi elemento del filtro, si specifica che siete interessati alle molecole caratterizzate da una classe di una specifica sostanza chimica o di una famiglia di proteine. Nella mie analisi non ho selezionato alcuna di queste. Disease : Filtro per i geni associati a una particolare malattia. Nel nostro caso ‘cancer’. Biofluid : Filtro per le proteine rilevabili in un fluido particolare del corpo. Non avendo maggiori informazioni sulle nostre analisi ho lasciato anche questo campo deselezionato. 23 Biomarkers : filtro per le applicazioni di biomarcatori1 specifici, compresa la diagnosi, efficacia, prognosi, progressione della malattia, risposta alla terapia, o la sicurezza, nonché per malattie specifiche. Questa è forse la parte più importante per l’annotazione dei nostri geni, in quanto il software andrà a selezionare quei biomarcatori specifici per il breast cancer e propri per un applicazione di risposta ad una terapia. 1 In biologia cellulare un biomarcatore è una molecola che permette di individuare e isolare un particolare tipo di cellule, mentre in genetica un biomarcatore (marcatore genetico) è un frammento della sequenza di DNA causa di malattia o di una certa predisposizione patologica. 24 Dataset Filter Summary Consider only molecules where (species = Human) AND (cell lines = Other Breast Cancer Cell Lines OR BT-549 OR NCI-ADR-RES OR MCF7 OR MDA-N OR MDA-MB-435 OR Breast Cancer Cell Lines not otherwise specified OR HS 578T OR T47-D OR MDA-MB-231) AND (diseases = Cancer) AND (((biomarker applications = Response to Therapy) AND (biomarker diseases = breast cancer)) OR biomarkers = Not a known Biomarker) Il risultato di queste analisi sarà una riduzione drastica del nostro numero di geni, come ad esempio nelle varie regole avremo una lista di all’incirca 100 IDgene per ognuna di esse. Una volta creata la lista sarà possibile rivedere la tabella di annotazione con l’elenco dei geni e con una serie di informazioni utili per future analisi, come le applicazioni dei biomarcatori, i farmaci e i vari sinonimi al gene. 25 Capitolo 6 Annotazione delle regole di associazione e definizione dei biomarcatori. Un ulteriore analisi statistica è stata da me svolta sulle regole di associazione, create con l’algoritmo MAFIA. Le migliaia di geni presenti nelle nostre regole sono state poi ridotte annotandoli con il software dell’Ingenuity Software, IPA. Da qui ho eseguito due tipi di annotazione. Una che estrapolava solamente quei geni associati ad i biomarcatori riconosciuti per la cura del breast cancer, ed un'altra con i biomarcatori “non conosciuti” ma ugualmente relazionati con il tumore al seno. Per le prime associazioni il numero di geni è visibilmente basso in quanto vengono presi solamente i biomarcatori riconosciuti dalla Gene Ontology per la cure del breast cancer[20], vedi ad esempio il tp53 il MYC e JUMB che codificano il p53 o altri marcatori come ERBB2. Per le seconde invece il numero dei geni sale mediamente a 100, ma ugualmente utili perché biomarcatori in fase di studio da parte dei ricercatori. 6.1 Istogrammi biomarcatori Per semplificare la visualizzazione delle tabelle risultati dalle analisi ho creato degli istogrammi dove nell’asse delle ascisse sono presenti le regole e nell’asse delle ordinate il numero di geni presenti. Inziamo a rappresentare le regole annotate che contengono più geni, ovvero quelle comprensive dei biomarker ‘non conosciuti’. 26 Numero geni mappati Numero biomarker Regola_0 380 95 Regola_1 353 92 Regola_2 359 87 Regola_3 383 95 Regola_4 477 121 Regola_5 360 79 Regola_6 316 72 Regola_7 367 102 Regola_8 441 108 Regola_9 467 116 27 Numero geni mappati Numero biomarker Regola_0 1013 127 Regola_1 483 91 Regola_2 527 92 Regola_3 475 87 Regola_4 504 95 Regola_5 490 95 Regola_6 503 82 Regola_7 434 82 Regola_8 473 91 28 Numero geni mappati Numero biomarker Wilcoxon 50 16 Welch_TTest 50 16 TTest 50 16 SAM 50 15 Rank_Prod 50 15 LIMMA 50 15 29 Qui di seguito gli istogrammi per le regole filtrate ammettendo solamente in biomarcatori conosciuti Il numero dei geni mappati per entrambi i set è riportato nelle tabelle precedenti, cambia solamente il numero dei biomarcatori, visibilmente inferiore. 30 Per quanto riguarda l’analisi dei Top_50 includendo solamente i biomarcatori conosciuti non ha generato alcun valore. 31 6.2 Istogrammi intersezioni e geni unici Per una maggiore selezione dei geni per ogni regola ho proceduto con l’intersezione delle varie regole, suddivise per classi. Dalle intersezioni è possibile notare anche quei geni che sono unici per ogni regola, cioè che non si trovano in nessun altro elenco. Solitamente in bioinformatica le intersezioni tra le regole vengono visualizzate attraverso i diagrammi di eulero venn, ma data la mole di geni e di regole, il grafico risultante sarebbe stato solamente confusionario e illeggibile. Qui di seguito riporto un diagramma di venn creato con le prime cinque regole della Class_0: Nelle pagine che seguono rappresenterò con gli istogrammi le varie intersezioni e il numero di geni unique per ogni regola. 32 Tabella 1 - Class_0 not a known biomarker 33 Tabella 2 - Class_1 not a known biomarker 34 Tabella 3 - Top_50 not a known biomarker 35 Tabella 4 - Class_0 known biomarkers Tabella 5 - Class_1 known biomarkers 36 6.3 Istogramma biomarcatori specifici Qui di seguito riporto il grafico ottenuto dalla differenza delle tabelle unione (ovvero l’elenco di tutti i geni presi univocamente per ogni classe di regole). Il risultato di questa differenza darà i biomarcatori specifici per ogni classe. 37 Capitolo 7 Visualizzazione della rete con Biolayout In questo capitolo descriverò brevemente come illustrare una rete con BioLayout express3D[21]. Come ho descritto nel capitolo 4 BioLayout express3D è un potente strumento per la visualizzazione e l'analisi di reti molto grandi. Come esempio prenderò il nostro dataset originario da dove sono state costruite le varie regole, ampiamente analizzate e descritte precedentemente. Per prima cosa bisogna formattare il file di input in maniera tale da renderlo leggibile al programma. L’estensione da me utilizzata è stata la “.expression”. Una volta sistemato le tabelle del file di input diamo in pasto al software il tutto. Per aprire il file selezionate: File → Apri. La finestra di dialogo ‘Apri file’ apparirà, trovate e selezionate il file e fare clic su Apri. Apparirà la finestra “Load Expression Data” (Fig. 1), quindi fare clic su OK. In genere, non sarà necessario modificare le impostazioni all'interno di questa finestra. Dopo il caricamento dei dati in memoria il programma inizierà a calcolare una matrice di correlazione. Il numero di calcoli necessari aumenta esponenzialmente con il numero di righe del file di input. Un piccolo file di appena alcune migliaia di righe di dati saranno calcolati molto rapidamente. 38 Figura 1 - Load Expression Data Una volta che il file di matrice di correlazione è stato calcolato, apparirà la finestra “Expression Graph Settings”. Questo presenta due grafici derivati dai dati (Fig. 2). Sulla sinistra della finestra di dialogo è riportato un grafico della dimensione rete rispetto soglia di correlazione per i dati. Sull'asse x è riportato il numero di nodi e archi, sull'asse y nell'intervallo la soglia di correlazione dei valori memorizzati. Le due linee di punti rappresentano il numero di archi (arancione, superiore) che sarebbero inclusi nel nodi (rosa, inferiore) e grafico su tutta la gamma di soglie potenzialmente selezionabili. La linea rossa verticale indica il valore selezionato (predefinita r = 0,85. Più basso è il taglio, maggiore è il grafico. Sulla destra della finestra viene stampato un grafico della distribuzione del grado dei nodi, alla soglia selezionata. 39 Figura 2 - Expression Graph Settings Cliccando su OK, finalmente visualizzeremo il grafo della nostra rete: 40 Bibliografia e web reference 1. Xiaosheng Wang Richard Simon - Microarray-based Cancer Prediction Using Single Genes (2011). 2. Purvesh Khatri and Sorin Draghici - Ontological analysis of gene expression data: current tools, limitations, and open problems (2005). 3. http://www.ingenuity.com 4. http://www.ingenuity.com/science/science_spotlight.html 5. http://www.cytoscape.org/ 6. http://www.psb.ugent.be/cbd/papers/BiNGO/Home.html 7. http://www.psb.ugent.be/esb/PiNGO/ 8. http://go.princeton.edu/ 9. http://david.abcc.ncifcrf.gov/ 10. http://www.ingenuity.com/library/index.html 11. Glynn Dennis Jr, Brad T Sherman, Douglas A Hosack, Jun Yang, Wei Gao, H Clifford Lane and Richard A Lempicki - DAVID: Database for Annotation,Visualization, and Integrated Discovery (2003). 12. http://david.abcc.ncifcrf.gov/content.jsp?file=conversion.html 13. http://david.abcc.ncifcrf.gov/content.jsp?file=linear_search.html 14. http://david.abcc.ncifcrf.gov/content.jsp?file=functional_classification.htm 15. http://david.abcc.ncifcrf.gov/content.jsp?file=functional_annotation.html 16. Athanasios Theocharidis, Anton J. Enright, Stjin van Dongen2 and Tom C. Freeman - BioLayout Express3D Version 2.0 Reference Manual to Tools and Functions. 17. http://www.biolayout.org/support/ 18. A.Ferro , S. Forte , R. Giugno , G. Pigola , A. Pulvirenti - Automatic multiclass gene expression data classification. 41 19. Akdes Serin and Martin Vingron - Supplementary File for DeBi: Discovering Differentially Expressed Biclusters using a Frequent Itemset Approach.(2011). 20. Jeffrey S Ross, Gerald P Linette, James Stec, Edwin Clark, Mark Ayers, Nick Leschly, W Fraser Symmans, Gabriel N Hortobagyi and Lajos Pusztai – Breast cancer biomarkers and molecular medicine 21. Tom C. Freeman, Leon Goldovsky, Markus Brosch, Stijn van Dongen, Pierre Mazière, Russell J. Grocock, Shiri Freilich, Janet Thornton, Anton J. Enright - Construction, Visualisation, and Clustering of Transcription Networks from Microarray Expression Data (2007). 42 Appendice A causa delle grandi dimensioni delle tabelle create durante l'annotazione delle varie regole dei dataset, si è pensato di inserire i vari file di output nel server Galileo della facoltà. Le tabelle sono quindi reperibili al seguente indirizzo: http://galileo.dmi.unict.it/utenti/Angelo/annotazioni/index.html 43 Ringraziamenti Giunto al termine del mio corso di studi desidero esprimere la mia gratitudine a tutti coloro che mi hanno aiutato e sostenuto in questo lungo e duro percorso. Un grazie particolare va alla mia relatrice, Professoressa Rosalba Giugno, per la sua disponibilità, cortesia e soprattutto pazienza dimostratami durante la stesura della tesi. Ringrazio i miei genitori che in questi anni non hanno mancato di incoraggiarmi sostenermi e consigliarmi, oltre che di assumersi gli oneri della mia istruzione. Un grazie di cuore va ad Erika mi è sempre stata accanto, sopportando le mie crisi e miei continui cambiamenti di umore, ma incoraggiandomi sempre ad andare avanti. Ricordo infine con tanto affetto e gratitudine tutti i mie colleghi per avermi aiutato durante gli studi ed aver reso piacevole il lunghi anni passati a Catania. Angelo 44