Gestione ed analisi di dati microarray con software open

Gestione ed analisi di dati microarray con software open source
Antonio Oliverio, Pierangelo Veltri, Giuseppe Argirò, Giuseppe Tradigo, Mario Cannataro
Laboratorio di Bioinformatica, Università Magna Græcia di Catanzaro, 88100 Catanzaro, Italy
{cannataro}@unicz.it
Keywords: Microarray
Abstract
La tecnologia dei microarrays permette di esaminare contemporaneamente e velocemente l'espressione di migliaia di geni in un organismo. In tale settore, l’obiettivo primario è misurare quanto mRNA “gene­specifico” è presente in un campione biologico (es. cellula) per ogni gene di interesse. Si suppone, infatti, che la quantità di mRNA presente nella cellula sia associabile al numero di proteine sintetizzate. Gli esperimenti microarray consistono nel misurare i livelli di espressione genica di migliaia di geni in differenti soggetti (es. sani e malati) oppure nel medesimo soggetto al variare di alcune condizioni (es. in fasi diverse di una malattia o dopo la somministrazione di farmaci), quindi essi stanno diventando un importante strumento nella pratica clinica. Esistono diversi software open source sviluppati per l’analisi di dati di espressione genica, tra quelli utilizzati in letteratura, un ruolo determinante è svolto da TmeV, sviluppato al TIGR. Il programma è scritto in java ed è liberamente scaricabile dal sito del TIGR (www.tigr.org). Per essere utilizzato richiede la preinstallazione delle librerie java standard e di quelle 3D. Un altro software open source che consente di analizzare i dati di espressione genica è WEKA, sviluppato presso l’Università di Waikato in Nuova Zelanda. Anche tale ambiente software è interamente scritto in java ed è liberamente disponibile (http://www.cs.waikato.ac.nz/ml/weka/). Nelle applicazioni mediche e cliniche, per migliorare la conoscenza estraibile dai dati di espressione genica è necessario integrare questi con le informazioni cliniche disponibili, ad es. ottenute con indagini diagnostiche. A tal proposito, presso il Laboratorio di Bioinformatica dell’Università di Catanzaro, è stata definita una metodica per l’analisi combinata dei dati di espressione genica di differenti soggetti e delle relative informazioni cliniche. Tale metodica utilizza ed integra esclusicamente software open source, quali TmeV e WEKA, per realizzare le attività di integrazione, pulizia, selezione (feature selection) e analisi dei dati microarray e clinici, riducendo il più possibile l’uso di software proprietario quale Affymetrix (http://www.affymetrix.com).
La metodica è stata applicata ai dati genici e clinici descritti e resi disponibili in [1] con l’obiettivo di discriminare i soggetti studiati in termini di curve di sopravvivenza. Applicando le tecniche di feature selection e classificazione, a partire da 7129 geni iniziali, sono stati estratti 20 geni significativi in grado di discriminare tra due profili di pazienti. Combinando i risultati della classificazione con i dati clinici (stato vivo/morto, tempo trascorso tra la diagnosi della malattia e l’ultimo follow­up), sono state tracciate le curve di sopravvivenza. I risultati ottenuti sono due curve ben differenziate, una per ogni profilo di paziente, che indicano decorsi clinici nettamente distinti.
In conclusione, combinando dati di espressione genica e dati clinici, ed utilizzando ed integrando software open source è stato possibile ottenere un nuovo outcome clinico per la predizione della sopravvivenza in pazienti affetti da adenocarcinoma polmonare.
[1] Beer DG, Kardia SL, Huang CC, Giordano TJ, Levin AM, et al. (2002) Gene expression profiles predict survival of patients with lung adenocarcinoma. Nat Med 8: 816–824.