4.3 – Descrizione programma di ricerca Dedurre, o fare 'reverse-engineering', di reti di geni si riferisce al processo di identificazione delle interazioni tra geni a partire da dati sperimentali attraverso l’uso di analisi computazionali [Bansal et al 2007]. Dati di espressione genica provenienti da microarray sono tipicamente usati per questo scopo. Il risultato è una mappa delle interazioni che descrivono le regolazioni tra i geni. Noi, ed altri, abbiamo dimostrato che è possibile identificare reti di regolazione genica a partire da dati di espressione anche in cellule umane e murine (Basso et al., 2005; Della Gatta, 2008). Il nostro obiettivo è ora quello di passare da una mappa della rete di regolazione genica ad un modello di rete di regolazione, in grado di individuare percorsi alterati nella malattia, e di trovare possibili trattamenti farmacologici per ristabilirne il comportamento fisiologico. Le caratteristiche che tale modello della rete di regolazione genica dovrebbe presentare sono: • Il modello dovrebbe sfruttare insiemi molto grandi di dati ed essere in grado di trarre vantaggio dalla loro ricchezza di informazione. Deve essere applicabile anche su insiemi di dati non omogenei. Deve essere versatile, in modo da poter utilizzare dati incompleti. Deve essere flessibile per poter integrare nuovi tipi di dati (per esempio dati di ‘deep-seqeuncing’). Deve permettere l'inserimento di conoscenza ‘a priori’ su una serie di interazioni, tenendo conto del fatto che tali informazioni possono anche essere sbagliate. • Il modello di rete deve coprire tutti i geni noti (~ 40.000) e milioni di interazioni. Inoltre, essa deve essere molto specifico nella discriminazione tra interazioni vere e false, data l'enorme quantità di possibili interazioni. • Al fine di essere usato come uno strumento per la diagnosi e la prognosi e per la ricerca di possibili trattamenti, il modello deve fornire non solo una mappa delle interazioni, ma anche un modello probabilistico di ogni interazione. In tal modo il modello sarà in grado di interpretare un profilo di espressione da un tessuto di un singolo paziente e di evidenziare le interazioni che sono maggiormente alterate nella malattia. Tale modello sarà quindi in grado di trasformare il profilo di espressione in un profilo di 'interazioni'. • Dal momento che il modello sarà appreso da dati di espressione archiviati in database pubblici (GEO e ArrayExpress), il modello sarà una rete 'consenso' di tutte le possibili interazioni tra geni, in tutti i tipi di tessuti e cellule. Un’ulteriore caratteristica che dovrebbe avere il modello è quello di distinguere le interazioni tessuto-specifiche da quelle che sono ubiquitarie. Per dedurre il modello si esplorara’ una varietà di differenti strategie computazionali sulla base della nostra esperienza nella ricostruzione di reti geniche. Diversamente da altri studi, il nostro obiettivo è quello di imparare un modello di rete, piuttosto che una mappa della rete, analizzando enormi quantita’ di dati sperimentali. Dati Preliminari Gli approcci computazionali al problema della ricostruzione di reti geniche sono stati limitati all'utilizzo di un piccolo numero di profili di espressione genica (microarray) ottenuti da una singola linea cellulare (Basso et al., 2005; Della Gatta, 2008). Il motivo è sia computazionale (a causa della grande quantità di dati e di tempo di calcolo necessario), ma anche dovuto al fatto che includendo microarray da tipi di tessuti eterogenei si rischia di aumentare il rumore sperimentale rendendo cosi’ la conseguente rete di coepressione inesatta. Abbiamo effettuato studi preliminari per verificare se questo sia davvero il caso. A tale scopo abbiamo raccolto da database pubblici più di 20.000 Microarray Affymetrix misurati in una varietà di tessuti e linee cellulari umane. Questa raccolta di dati è divisa in ‘data-set’. Un data-set consiste in un esperimento composto da un più di un microarray misurato nello stesso esperimento. Abbiamo usato una semplice tecnica di reverse engineering: per ogni coppia di trascritti, abbiamo calcolato la mutua informazione (MI) (Bansal et al., 2007), che misura la dipendenza statistica tra i due trascritti. Abbiamo quindi determinato una soglia di significatività per ogni interazione. A causa delle dimensioni del problema (> 20.000 trascritti e > 20.000 microarray), abbiamo messo a punto un algoritmo di calcolo parallelo per l'attuazione di questa metodologia. La rete cosi’ ottenuta e’ una mappa delle interazioni tra geni, dove due geni sono connessi se hanno una MI maggiore della soglia di significativita’. Abbiamo dimostrato (dati non pubblicati) che le interazioni cosi dedotte, pur essendo apprese da una grande varietà di tessuti e tipi cellulari, sono notevolmente arricchite per interazioni sperimentalmente confermate. Il limite di questo approccio e’ sia l'impossibilità di inserire le informazioni preliminari sulle interazioni note, e, cosa ancora più importante, il fatto che la rete risultante è solo una mappa, e non un modello, e quindi non soddisfa le caratteristiche richieste che abbiamo elencato nella sezione precedente. Identificazione di un modello della rete di regolazione genica Per ottenere un modello della rete di regolazione genica a partire dai dati di espressione proponiamo di usare un approccio Bayesiano. Ogni interazione tra coppie di geni sarà modellata come una distribuzione di probabilità, i cui parametri saranno calcolati a partire dai dati di espressione. Un modo naturale per modellare una interazione tra due geni e’ quella di utilizzare un modello multinomiale uno con una distribuzione ‘a priori’ di Dirichlet. E’ possibile imparare i parametri della Dirichlet dal set di microarray con un approccio Monte-Carlo Markov Chain (MCMC), e quindi ottenere una descrizione probabilistica di ogni interazione. Identificazione di tessuto-specifiche interazioni Utilizzando il metodo di Bayes, sarà anche possibile 'specializzare' la rete in specifici tessuti utilizzando un insieme di profili di espressione genica provenienti dallo stesso tessuto, utilizzando la tecnica del "mixture-of-priors" (Leonard e Hsu, 2005) e quindi identificare le interazioni tessutospecifiche. Analisi dei profili di espressione genica utilizzando il modello di rete Una volta ottenuto il modello per ogni interazione, è possibile individuare i pathway, ossia le interazoni, alterate nella malattia a partire dai dati di espressione da pazienti. Questo sarà possibile, dal momento che il modello (M) sarà descritto da un insieme di distribuzioni di probabilità a posteriori per ogni interazione, e quindi, dato un nuovo profilo di espressione genica (D1), misurato a partire da un campione di tessuto del paziente, saremo in grado di calcolare P (D1 / M) per ogni interazione, vale a dire la probabilità che i dati D1 possano essere stati prodotti dal modello M. Se, per un dato di interazione, questa probabilità è bassa, allora significa che l’interazione si comporta diversamente dal modello M e, quindi, è probabile che questa interazione sia stata alterata dalla malattia. Si può procedere in modo analogo per capire il meccanismo di azione di un farmaco, e la sua potenzialita’ nel trattamento, analizzando un profilo di espressione genica a seguito di trattamento con farmaco. Convalida del modello Il modello sarà ampiamente convalidato in vivo da analisi sperimentale di un sottoinsieme delle interazioni predette, ed anche in silico, con tecniche di cross-validazione.. Identificaiton di " interazioni polimorfiche" Una volta ottenuto il modello di rete, dobbiamo fare in modo che esso davvero catturi lo stato fisiologico di una cellula o di un tessuto. A tal fine, si utilizzeranno dati di espressione già disponibili misurati in individui sani da un database pubblico (fibroblasti, tessuto adiposo e nel sangue), che ammontano a circa un migliaio di differenti individui (Emilsson et al, 2008). Idealmente vorremmo identificare polimorfismi di "interazione", vale a dire interazioni che sono variabili (cioe’ presenti in alcuni e non in altri), ma che non provocano alcun fenotipo deleterio. Questa sarà una sfida, ma fattibile, grazie alla quantita’ di dati di espressione già raccolti in individui sani Identificazione dei percorsi alterati in pazienti con malattie genetiche Al fine di valutare la fattibilità di utilizzare il modello di rete per la diagnosi e la prognosi, ci concentreremo su malattie genetiche. La diagnosi di malattia genetica può essere molto tardiva a causa della loro rarità. La loro prognosi può essere molto difficile, poiché i pazienti portatori della stessa mutazione possono avere fenotipi sorprendentemente differenti. Malattie genetiche ed, in particolare, quelle monogeniche, hanno una serie di caratteristiche che le rendono candidati ideali per applicare il nostro approccio: (1) per molte malattie monogeniche il gene responsabile è stato identificato e la sua funzione caratterizzata, questo rende più semplice verificare se il modello è in grado di determinare correttamente le interazioni ed i pathway in cui il gene responsabile è coinvolto, a partire dai profili di espressione genica di un campione di tessuto del paziente; (2) grazie alla collaborazione con il TIGEM - Fondazione Telethon, la cui missione è la ricerca su malattie genetiche, abbiamo accesso alla banca di cellule dell’ Ospedale Gaslini (http://www.gaslini.org/dppm/cellbank.htm) a Genova (Italia), che raccoglie (in forma anonima) cellule provenienti da pazienti. La banca copre circa 200 malattie genetiche; per ogni paziente un completo quadro clinico e’ disponibile (in forma anonima). Per un sottoinsieme di linee cellulari disponibili nella banca di cellule, misureremo profili di espressione mediante microarray Affymetrix (per un totale di ~ 30 microarray), con priorità sulla base del numero di pazienti a disposizione per ogni malattia, e scegliendo la malattia monogenica meglio caratterizzata a livello molecolare. Si dimostrera’ utillizzando tali dati se il modello di rete sara’ in grado di individuare correttamente le interazioni alterate nella malattia, vale a dire quelle che coinvolgono il gene mutato, e se le interazioni individuate possono essere utilizzate come marcatori per la prognosi del malattia, utilizzando delle cartelle cliniche dei pazienti.