4.3 – Descrizione programma di ricerca - Diego Di Bernardo.

4.3 – Descrizione programma di ricerca
Dedurre, o fare 'reverse-engineering', di reti di geni si riferisce al processo di identificazione delle
interazioni tra geni a partire da dati sperimentali attraverso l’uso di analisi computazionali [Bansal et al
2007]. Dati di espressione genica provenienti da microarray sono tipicamente usati per questo scopo. Il
risultato è una mappa delle interazioni che descrivono le regolazioni tra i geni.
Noi, ed altri, abbiamo dimostrato che è possibile identificare reti di regolazione genica a partire da dati
di espressione anche in cellule umane e murine (Basso et al., 2005; Della Gatta, 2008). Il nostro
obiettivo è ora quello di passare da una mappa della rete di regolazione genica ad un modello di rete di
regolazione, in grado di individuare percorsi alterati nella malattia, e di trovare possibili trattamenti
farmacologici per ristabilirne il comportamento fisiologico.
Le caratteristiche che tale modello della rete di regolazione genica dovrebbe presentare sono:
• Il modello dovrebbe sfruttare insiemi molto grandi di dati ed essere in grado di trarre vantaggio dalla
loro ricchezza di informazione. Deve essere applicabile anche su insiemi di dati non omogenei. Deve
essere versatile, in modo da poter utilizzare dati incompleti. Deve essere flessibile per poter integrare
nuovi tipi di dati (per esempio dati di ‘deep-seqeuncing’). Deve permettere l'inserimento di conoscenza
‘a priori’ su una serie di interazioni, tenendo conto del fatto che tali informazioni possono anche essere
sbagliate.
• Il modello di rete deve coprire tutti i geni noti (~ 40.000) e milioni di interazioni. Inoltre, essa deve
essere molto specifico nella discriminazione tra interazioni vere e false, data l'enorme quantità di
possibili interazioni.
• Al fine di essere usato come uno strumento per la diagnosi e la prognosi e per la ricerca di possibili
trattamenti, il modello deve fornire non solo una mappa delle interazioni, ma anche un modello
probabilistico di ogni interazione. In tal modo il modello sarà in grado di interpretare un profilo di
espressione da un tessuto di un singolo paziente e di evidenziare le interazioni che sono maggiormente
alterate nella malattia. Tale modello sarà quindi in grado di trasformare il profilo di espressione in un
profilo di 'interazioni'.
• Dal momento che il modello sarà appreso da dati di espressione archiviati in database pubblici (GEO
e ArrayExpress), il modello sarà una rete 'consenso' di tutte le possibili interazioni tra geni, in tutti i tipi
di tessuti e cellule. Un’ulteriore caratteristica che dovrebbe avere il modello è quello di distinguere le
interazioni tessuto-specifiche da quelle che sono ubiquitarie.
Per dedurre il modello si esplorara’ una varietà di differenti strategie computazionali sulla base della
nostra esperienza nella ricostruzione di reti geniche. Diversamente da altri studi, il nostro obiettivo è
quello di imparare un modello di rete, piuttosto che una mappa della rete, analizzando enormi quantita’
di dati sperimentali.
Dati Preliminari
Gli approcci computazionali al problema della ricostruzione di reti geniche sono stati limitati
all'utilizzo di un piccolo numero di profili di espressione genica (microarray) ottenuti da una singola
linea cellulare (Basso et al., 2005; Della Gatta, 2008). Il motivo è sia computazionale (a causa della
grande quantità di dati e di tempo di calcolo necessario), ma anche dovuto al fatto che includendo
microarray da tipi di tessuti eterogenei si rischia di aumentare il rumore sperimentale rendendo cosi’ la
conseguente rete di coepressione inesatta.
Abbiamo effettuato studi preliminari per verificare se questo sia davvero il caso. A tale scopo abbiamo
raccolto da database pubblici più di 20.000 Microarray Affymetrix misurati in una varietà di tessuti e
linee cellulari umane. Questa raccolta di dati è divisa in ‘data-set’. Un data-set consiste in un
esperimento composto da un più di un microarray misurato nello stesso esperimento. Abbiamo usato
una semplice tecnica di reverse engineering: per ogni coppia di trascritti, abbiamo calcolato la mutua
informazione (MI) (Bansal et al., 2007), che misura la dipendenza statistica tra i due trascritti. Abbiamo
quindi determinato una soglia di significatività per ogni interazione. A causa delle dimensioni del
problema (> 20.000 trascritti e > 20.000 microarray), abbiamo messo a punto un algoritmo di calcolo
parallelo per l'attuazione di questa metodologia. La rete cosi’ ottenuta e’ una mappa delle interazioni
tra geni, dove due geni sono connessi se hanno una MI maggiore della soglia di significativita’.
Abbiamo dimostrato (dati non pubblicati) che le interazioni cosi dedotte, pur essendo apprese da una
grande varietà di tessuti e tipi cellulari, sono notevolmente arricchite per interazioni sperimentalmente
confermate.
Il limite di questo approccio e’ sia l'impossibilità di inserire le informazioni preliminari sulle
interazioni note, e, cosa ancora più importante, il fatto che la rete risultante è solo una mappa, e non un
modello, e quindi non soddisfa le caratteristiche richieste che abbiamo elencato nella sezione
precedente.
Identificazione di un modello della rete di regolazione genica
Per ottenere un modello della rete di regolazione genica a partire dai dati di espressione proponiamo di
usare un approccio Bayesiano. Ogni interazione tra coppie di geni sarà modellata come una
distribuzione di probabilità, i cui parametri saranno calcolati a partire dai dati di espressione.
Un modo naturale per modellare una interazione tra due geni e’ quella di utilizzare un modello
multinomiale uno con una distribuzione ‘a priori’ di Dirichlet. E’ possibile imparare i parametri della
Dirichlet dal set di microarray con un approccio Monte-Carlo Markov Chain (MCMC), e quindi
ottenere una descrizione probabilistica di ogni interazione.
Identificazione di tessuto-specifiche interazioni
Utilizzando il metodo di Bayes, sarà anche possibile 'specializzare' la rete in specifici tessuti
utilizzando un insieme di profili di espressione genica provenienti dallo stesso tessuto, utilizzando la
tecnica del "mixture-of-priors" (Leonard e Hsu, 2005) e quindi identificare le interazioni tessutospecifiche.
Analisi dei profili di espressione genica utilizzando il modello di rete
Una volta ottenuto il modello per ogni interazione, è possibile individuare i pathway, ossia le
interazoni, alterate nella malattia a partire dai dati di espressione da pazienti. Questo sarà possibile, dal
momento che il modello (M) sarà descritto da un insieme di distribuzioni di probabilità a posteriori per
ogni interazione, e quindi, dato un nuovo profilo di espressione genica (D1), misurato a partire da un
campione di tessuto del paziente, saremo in grado di calcolare P (D1 / M) per ogni interazione, vale a
dire la probabilità che i dati D1 possano essere stati prodotti dal modello M. Se, per un dato di
interazione, questa probabilità è bassa, allora significa che l’interazione si comporta diversamente dal
modello M e, quindi, è probabile che questa interazione sia stata alterata dalla malattia. Si può
procedere in modo analogo per capire il meccanismo di azione di un farmaco, e la sua potenzialita’ nel
trattamento, analizzando un profilo di espressione genica a seguito di trattamento con farmaco.
Convalida del modello
Il modello sarà ampiamente convalidato in vivo da analisi sperimentale di un sottoinsieme delle
interazioni predette, ed anche in silico, con tecniche di cross-validazione..
Identificaiton di " interazioni polimorfiche"
Una volta ottenuto il modello di rete, dobbiamo fare in modo che esso davvero catturi lo stato
fisiologico di una cellula o di un tessuto. A tal fine, si utilizzeranno dati di espressione già disponibili
misurati in individui sani da un database pubblico (fibroblasti, tessuto adiposo e nel sangue), che
ammontano a circa un migliaio di differenti individui (Emilsson et al, 2008). Idealmente vorremmo
identificare polimorfismi di "interazione", vale a dire interazioni che sono variabili (cioe’ presenti in
alcuni e non in altri), ma che non provocano alcun fenotipo deleterio. Questa sarà una sfida, ma
fattibile, grazie alla quantita’ di dati di espressione già raccolti in individui sani
Identificazione dei percorsi alterati in pazienti con malattie genetiche
Al fine di valutare la fattibilità di utilizzare il modello di rete per la diagnosi e la prognosi, ci
concentreremo su malattie genetiche. La diagnosi di malattia genetica può essere molto tardiva a causa
della loro rarità. La loro prognosi può essere molto difficile, poiché i pazienti portatori della stessa
mutazione possono avere fenotipi sorprendentemente differenti. Malattie genetiche ed, in particolare,
quelle monogeniche, hanno una serie di caratteristiche che le rendono candidati ideali per applicare il
nostro approccio: (1) per molte malattie monogeniche il gene responsabile è stato identificato e la sua
funzione caratterizzata, questo rende più semplice verificare se il modello è in grado di determinare
correttamente le interazioni ed i pathway in cui il gene responsabile è coinvolto, a partire dai profili di
espressione genica di un campione di tessuto del paziente; (2) grazie alla collaborazione con il TIGEM
- Fondazione Telethon, la cui missione è la ricerca su malattie genetiche, abbiamo accesso alla banca di
cellule dell’ Ospedale Gaslini (http://www.gaslini.org/dppm/cellbank.htm) a Genova (Italia), che
raccoglie (in forma anonima) cellule provenienti da pazienti. La banca copre circa 200 malattie
genetiche; per ogni paziente un completo quadro clinico e’ disponibile (in forma anonima).
Per un sottoinsieme di linee cellulari disponibili nella banca di cellule, misureremo profili di
espressione mediante microarray Affymetrix (per un totale di ~ 30 microarray), con priorità sulla base
del numero di pazienti a disposizione per ogni malattia, e scegliendo la malattia monogenica meglio
caratterizzata a livello molecolare. Si dimostrera’ utillizzando tali dati se il modello di rete sara’ in
grado di individuare correttamente le interazioni alterate nella malattia, vale a dire quelle che
coinvolgono il gene mutato, e se le interazioni individuate possono essere utilizzate come marcatori per
la prognosi del malattia, utilizzando delle cartelle cliniche dei pazienti.