Tesi di Angelo Giaquinta 2010/2011 - Galileo

UNIVERSITÀ DEGLI STUDI DI CATANIA
Facoltà di Scienze Matematiche Fisiche e Naturali
Corso di Laurea in Informatica
Angelo Giaquinta
Annotazione funzionale di dati di
espressioni geniche
Relatore: Prof.ssa Rosalba Giugno
ANNO ACCADEMICO 2010/2011
1
Alla mia famiglia
2
Indice
Capitolo 1 ............................................................................................................................ 5
Introduzione .................................................................................................................... 5
1.1 Riassunto dell’elaborato............................................................................................ 6
Capitolo 2 ............................................................................................................................ 7
Analisi sistematica di geni usando IPA........................................................................... 7
2.1 Introduzione .............................................................................................................. 7
2.2 Tabella illustrativa delle funzioni ............................................................................. 8
Capitolo 3 .......................................................................................................................... 11
Analisi sistematica e integrativa di geni usando DAVID ............................................. 11
3.1 Introduzione ............................................................................................................ 11
3.2 Accettazione degli ID gene dell'utente su DAVID ................................................. 12
3.3 DAVID gene name batch viewer ............................................................................ 12
3.4 DAVID gene functional classification .................................................................... 12
3.5 DAVID functional annotation chart ........................................................................ 13
3.6 DAVID functional annotation clustering ................................................................ 13
3.7 DAVID functional annotation table ........................................................................ 14
Capitolo 4 .......................................................................................................................... 15
Biolayout. Un sistema per l’analisi di geni secondo la network di interazione ............ 15
4.1 Introduzione ............................................................................................................ 15
4.2 BioLayout Express3D Data Input Formats ............................................................. 16
4.3 Creazione di classi .................................................................................................. 17
4.4 Metodo di normalizzazione e dipendenza della piattaforma ................................... 18
Capitolo 5 .......................................................................................................................... 19
Il Data Mining e l’annotazione funzionale per l’analisi di espressioni di geni e la
caratterizzazione di biomarcatori. ................................................................................. 19
5.1 Descrizione del dataset ........................................................................................... 19
5.2 Annotazione con IPA .............................................................................................. 20
Capitolo 6 .......................................................................................................................... 26
Annotazione delle regole di associazione e definizione dei biomarcatori. ................... 26
6.1 Istogrammi biomarcatori ......................................................................................... 26
3
6.2 Istogrammi intersezioni e geni unici ....................................................................... 32
6.3 Istogramma biomarcatori specifici.......................................................................... 37
Capitolo 7 .......................................................................................................................... 38
Visualizzazione della rete con Biolayout ...................................................................... 38
Bibliografia e web reference ............................................................................................. 41
Appendice ......................................................................................................................... 43
Ringraziamenti .................................................................................................................. 44
4
Capitolo 1
Introduzione
Da anni ormai scienziati e vari ricercatori si trovano d’accordo sulla teoria
secondo la quale alcune malattie derivano da piccole alterazioni del nostro codice
genetico. Quello che distingue un individuo sano da uno malato sono delle
differenze nell’espressione dei geni, ossia nel modo con cui essi sono utilizzati e
nelle proteine a cui danno origine.
Il primo passo da compiere è quello che porta verso la diagnosi: il problema è
quello di caratterizzare l’anomalia genetica della cellula malata, cioè quello che la
differenzia rispetto ad una sana, in maniera tale che una volta conosciuto il profilo
genetico di un paziente, risulta possibile classificarlo come sano o affetto da
malattia. Il passo successivo sarà quello della cura di queste alterazioni mediante
l’individuazione dei geni che in presenza di una determinata malattia risultano
alterati con maggior frequenza.
Recentemente la tecnologia dei microarray dei gene è diventata uno strumento
fondamentale
nella
ricerca
biomedica,
che
ci
permette
di
osservare
simultaneamente l'espressione di migliaia di geni a livello trascrizionale. Due
problemi tipici che le ricerche vogliono risolvere utilizzando i dati di microarray
sono: (1) scoprire i geni informativi per la classificazione sulla base di diversi tipi
di cellule o malattie, (2) clustering dei geni e disposizione secondo la loro
somiglianza in pattern di espressione.
Un microarray di DNA è costituito da un insieme di microscopiche sonde
di DNA attaccate ad una superficie solida come vetro, plastica, o chip di silicio
formanti un array. Tali array sono usati per esaminare il profilo d’espressione di
un gene o per identificare la presenza di un gene o di una breve sequenza
all'interno di una miscela di migliaia di geni.
5
Cinque sono i principali obiettivi biologici che motivano uno studio statistico
nell’area dei microarray: (i) l’identificazione di geni differenzialmente espressi
sotto diverse condizioni sperimentali o tra soggetti che presentano varie forme
della stessa patologia; (ii) l’individuazione di gruppi di geni che con buona
probabilità sono co-regolati; (iii) la classificazione di campioni biologici (soggetto
sano / soggetto malato);(iv) l’identificazione di geni detti marcatori (biomarker)
candidati come indicatori di un particolare un gruppo o fenotipo; (v)
l’identificazione di nuove classi di una specifica patologia (es. il tumore).
1.1 Riassunto dell’elaborato
Analizzare l’espressione genica vuol dire analizzare la quantità di mRNA o di
proteine prodotte da una cellula in un particolare momento. Il principio alla base
dell’analisi dell’espressione genica consiste nel confronto di campioni diversi, ad
esempio tessuti sani o malati per studiare l’espressione genica in una determinata
malattia.
Scopo del mio elaborato è stato quello di analizzare e filtrare migliaia di geni
presenti in un dataset di analisi di pazienti sottoposti ad una terapia contro il breast
cancer (cancro al seno)[1].
Per l’annotazione mi sono servito di alcuni tools utili a tale scopo[2]. Nei vari
capitoli della tesi illustrerò brevemente alcune delle funzioni di questi software e
nel capitolo sugli esperimenti illustrerò come ridurre e filtrare la grande mole di
geni presenti nei vari dataset.
6
Capitolo 2
Analisi sistematica di geni usando IPA
2.1 Introduzione
IPA è un software web-based, sviluppato dalla Ingenuity Sistems[3], che aiuta i
ricercatori a modellare, analizzare e comprendere i complessi sistemi biologici e
chimici al centro della ricerca della scienza della vita. IPA fornisce la capacità di
comprendere la biologia a più livelli, integrando dati provenienti da una varietà di
piattaforme sperimentali e permette di approfondire le interazioni molecolari e
chimiche, fenotipi cellulari e processi patologici del sistema.
IPA è stato ampiamente adottata dalla comunità di ricerca in scienze biologiche e
viene citato in migliaia di articoli di riviste[4].
Questo software ha la possibilità di essere utilizzato con o senza dati. Ad esempio
è possibile scoprire nuove intuizioni dalle analisi dei dati derivati da espressioni e
microarray SNP, esperimenti di proteomica e piccoli esperimenti che generano
liste di gene. È anche possibile effettuare ricerche di informazioni mirate e
pertinenti sui geni, proteine, sostanze chimiche e farmaci e utilizzare queste
informazioni per i propri modelli biologici o iniziare a studiare in un settore di
ricerca.
Durante il mio lavoro ho avuto modo di usare parecchi tools utili per le analisi dei
dati in mio possesso, ognuno con una propria funzionalità, analisi ontologica,
annotazione genica, visualizzazione e analisi di reti biologiche ed altro.
7
Cito ad esempio alcuni plugins del software Cytoscape[5], quali Bingo[6] e
Pingo[7], oppure i GENE ONTOLOGY (GO) Tools[8] del Lewis-Sigler Institute
for Integrative Genomics dell’università di Princeton e anche DAVID
(The Database for Annotation, Visualization and IntegratedDiscovery)[9] del LIB,
Saic-Frederick.
Ma IPA risulta il più completo sotto ogni punto di vista. Ma cosa lo rende
differente dagli altri?
IPA è distinto da altri strumenti, perché è un all-in-one che sfrutta l’ Ingenuity ®
Knowledge Base, il più grande database di questo tipo che ospita le relazioni
biologiche e chimiche estratte dalla letteratura scientifica.
Nella tabella, nel paragrafo successivo, descriverò brevemente alcune delle
funzioni di questo tools[10].
2.2 Tabella illustrativa delle funzioni
IPA Analysis Type
Descrizione
Core Analysis
Permette di interpretare piccole e grandi
serie di dati nel contesto dei processi
biologici,
delle
pathways
e
delle
networks molecolari.
Core Comparison Analysis
Consente di analizzare i cambiamenti
negli
stati
biologici
attraverso
le
condizioni sperimentali. Analizzare set di
dati
che
rappresentano
trattamenti
multipli e capire quali processi biologici
e / o malattie sono rilevanti per ogni
condizione.
IPA-Metabolomics® Analysis
Fornisce un modo di analizzare i dati
metabolita per saperne di più sulla
8
fisiologia e metabolismo cellulare.
IPA-Metabolomics
Comparison Consente di analizzare i cambiamenti
Analysis
negli stati biologici attraverso condizioni
sperimentali. Analizzare gruppi di dati
che rappresentano trattamenti metaboliti
multipli e capire quali processi biologici
e / o malattie sono rilevanti per ogni
condizione
IPA-Tox® Analysis
Consente di valutare la tossicità e la
sicurezza dei composti d'interesse nelle
prime fasi del processo di sviluppo. L’
analisi di tossicità mostra rapidamente la
tossicità nei fenotipi e la patologia clinica
associata a un set di dati.
IPA-Tox Comparison Analysis
Consente di analizzare i cambiamenti nei
fenotipi di tossicità attinenti e ed
endpoints di patologia clinici attraverso
tutte le osservazioni e capire che la
tossicità funzioni e / o percorsi sono
rilevanti per ciascun timepoint o dose
IPA-Biomarker® Analysis
Consente di identificare e dare priorità ai
più rilevanti e promettenti candidati
biomarker molecolari da una serie di dati
proveniente da quasi tutte le fasi del
processo farmacologico di scoperta o di
ricerca
della
malattia. Priorità
ai
biomarker molecolari sulla base delle
informazioni
contestuali
come
la
connessione meccanicistica di malattie o
di
rilevamento
nei
fluidi
corporei. Identifica i candidati biomarker
che sono comuni a uno stato di malattia e
9
/ o alla risposta ai farmaci.
IPA-Biomarker Comparison Analysis Identifica i candidati biomarker che sono
comuni a una malattia e / o alla risposta
ai farmaci. Priorità biomarker molecolari
sulla base delle informazioni contestuali
come la connessione meccanicistica
malattie,
il
rilevamento
di
fluidi
corporei. Identifica i candidati biomarker
tra campioni multipli.
10
Capitolo 3
Analisi sistematica e integrativa di geni
usando DAVID
3.1 Introduzione
L’ High-throughput genomico, proteomico e bioinformatico, come expression
microarray, promoter microarray, proteomic data and ChIP-on-CHIPs, prevede
cospicui capacità di studiare una grande varietà di meccanismi biologici,
comprese le associazioni con malattie. Queste tecnologie di solito risultano in una
grande lista
di
geni (che
variano
nel formato
da
centinaia
a
migliaia
di geni) coinvolti nelle condizioni biologiche studiate. L’analisi dei dati di insiemi
di volumi molto complessi e di grandi dimensioni è una compito impegnativo, che
richiede il supporto speciale di pacchetti software bioinformatici. Uno di questi
è DAVID
(Database
Discovery)[11] in
for Annotation, Visualization
grado
di
estrarre
and Integrated
caratteristiche / significati
biologici
associati ad elenchi di geni di grandi dimensioni. DAVID è in grado di gestire
qualsiasi tipo di elenco , indipendentemente dalla piattaforma genomiche del
pacchetto
software che
simili, DAVID fornisce
approccio
un
integrato
lo
ha
alcune
e
generato.
Rispetto
ad
caratteristiche e
capacità
ampliato back
end annotation
avanzato arricchimento di
algoritmi
uniche,
modulari e
potente capacità esplorativa in un integrato ambiente di data-mining.
11
altri servizi
come un
database,
una
3.2 Accettazione degli ID gene dell'utente
su DAVID
ID Gene e annotazioni biologiche sono altamente ridondanti all'interno della vasta
gamma di banche dati pubbliche. Il DAVID knowledgebase è stato progettato
per raccogliere e integrare i differenti geni identificatori . La vasta gamma di
annotazioni biologiche e la non ridondante integrazione dei gene ID nel DAVID
knowlodgebase, consente agli ID gene dell’utente di essere mappato su tutto il
database,
fornendo
così una
completa dell’annotazione
copertura
del
gene associato. Se una porzione significativa degli ID gene in input non è
mappato ad un DAVID ID interno, un modulo appositamente progettato, il
DAVID gene ID Conversion Tool[12], si avvierà per aiutarci a mappare questi ID.
3.3 DAVID gene name batch viewer
Alcuni ID gene, di solito non comunicano un significato biologico in sé per sé. Il
gene name batch viewer[13] è in grado di tradurre rapidamente una lista di geni
nel loro nome significativo. Così, prima di procedere ad analisi più completa con
altri strumenti, i ricercatori possono rapidamente dare uno sguardo al ai nomi dei
geni per ottenere una visione completa per il loro studio e di rispondere a
domande come: “La mia lista gene contiene importanti geni rilevanti per lo
studio? “. Inoltre, sono visualizzati una serie di collegamenti ipertestuali per ogni
voce gene, permettendo agli utenti di trovare altre informazioni funzionali su di
essi.
3.4 DAVID gene functional classification
La classificazione funzionale[14] dei geni fornisce distinte capacità per i
ricercatori di
esplorare e
visualizzare funzionalmente
i
geni correlati, come
un'unità, di concentrarsi sulla più grande rete biologica piuttosto che al livello di
un singolo gene. Infatti, la maggior parete de co-funzionamento dei geni hanno
diversificato
i
nomi in
modo che
i
geni non
possono
essere
semplicemente classificati in gruppi funzionali in base ai loro nomi. Tuttavia, la
classificazione funzionale dei geni, realizzato con una serie di nuove tecniche di
12
clustering fuzzy, è in grado di classificare i geni di ingresso in gruppi di
geni funzionalmente correlati (o
classi) sulla
base
al
loro
termine
di annotazione delle co occorrenze piuttosto che sul nome del gene. Nel loro
insieme con la funzione “drill down” associata ad ogni modulo biologico e con
grafici per
visualizzare le
relazioni
tra
i molti-geni-a-molti-termini
di
associazione, i ricercatori sono in grado di capire al meglio come i geni sono
associati tra loro con l’annotazione funzionale.
3.5 DAVID functional annotation chart
Lo schema di annotazione funzionale[15] fornisce l’analisi del rappresentativo
gene term sovrarappresentato, che è anche fornito da altri strumenti simili, per
identificare i più rilevanti (sovrarappresentati) termini biologici associati a un
elenco di
geni.
Rispetto
ad
altri
simili strumenti
di
analisi, la
differenza notevole di questa funzione fornita da DAVID è il suo servizio
di annotazione estesa, passando da solo GO nella versione originale di DAVID
attualmente con oltre 40 categorie di annotazione, inclusi i termini GO, interazioni
proteina-proteina, i domini delle proteine funzionali, le malattie e le associazioni,
le bio-pathways, le caratteristiche di sequenza, omologia, espressione genica dei
tessuti e la letteratura.
Per sfruttare in pieno il noto KEGG e BioCarta pathways, DAVID pathway
viewer, al quale si accede cliccando sui link all'interno dei chart report, è grado di
visualizzare i geni da un lista degli utenti sulle pathway maps per facilitarne
l’interpretazione biologica in una rete.
3.6 DAVID functional annotation clustering
Questa funzione utilizza un nuovo algoritmo per misurare le relazioni tra i
termini di annotazione in base ai gradi della loro coassociazione dei geni per
raggruppare i
contenuti di
annotazione simili,
ridondanti ed
eterogenei delle risorse uguali o in diversi gruppi di annotazione. Ciò riduce il
carico di associare termini simili ridondanti e rende l'interpretazione biologica più
concentrata in un livello di gruppo. Lo strumento fornisce inoltre uno sguardo
alle relazioni interne dei termini cluster e confrontarlo con il tipico lineare su
13
cui termini di annotazione simili possono essere distribuiti tra centinaia o migliaia
di altri termini.
3.7 DAVID functional annotation table
E’ un motore di query per il DAVID knowledgebase, senza calcoli statistici. Data
una
lista
di
geni,
lo
rapidamente interrogare l’annotazione corrispondente per
strumento può
ogni
gene
e
presentarli in formato tabella. Così, gli utenti sono in grado di esplorare
l’annotazione in maniera gene-by-gene. Si tratta di un utile modulo analitico in
particolare quando gli utenti vogliono guardare da vicino la annotazione di
geni molto interessanti.
14
Capitolo 4
Biolayout. Un sistema per l’analisi di geni
secondo la network di interazione
4.1 Introduzione
BioLayout express3D[16] è un potente strumento per la visualizzazione e l'analisi
di reti molto grandi.
Facilita la conversione di dati dimensionali in grafici 3D basati sulla correlazione,
rendendo grandi insiemi di dati rapidi e facili da interpretare. I progressi
nei metodi di high throughput alle biotecnologie nell'ultimo decennio hanno
portato ad enormi quantità di dati che vengono generati da singoli esperimenti e
l'analisi di questi dati ha presentato il serio ostacolo nella conversione a utili
risultati. BioLayout express3D
è
stato
appositamente
studiato per
la
visualizzazione, il clustering, l'esplorazione e l'analisi dei grafici di network di
grandi dimensioni a due e tre dimensioni derivati principalmente, ma non
esclusivamente, da dati biologici.
BioLayout express3D è compatibile con tutti i sistemi operativi più comuni, tra
cui Windows, Linux e Mac.
Include le seguenti caratteristiche:
 Parallelizzazione, consentendo l'utilizzo di tutti i core disponibili
simultaneamente e accelerando così tempo di funzionamento
 Supporta l'inserimento di più tipi di dati (txt, SIF, matrix, expression, graphml)
 Permette il rendering interattivo dei grafici di grandi dimensioni (>50.000 nodi,
milioni di archi)
15
Le sue potenziali applicazioni possono essere:
 visualizzazione, analisi e manipolazione di correlazione dei dati di grandi
dimensioni tra cui microarrays, sequencing, protein interaction and metabolic
pathways
 rendering e animazione dei pathways metaboliche e di segnalazione
 Le applicazioni che richiedono analisi di correlazione di grandi insiemi di dati o
la visualizzazione della rete
4.2 BioLayout Express3D Data Input Formats
BioLayout Express3D supporta l'input di dati[17] in un numero di formati diversi:

Regular (.layout, .txt, .tgf)

Cytoscape SIF format (.sif)

Graphml (.graphml)

Matrix (.matrix)

Expression (.expression)
Questi sono i formati di input di base per i grafi di BioLayout Express3D. Sul sito
del produttore sono presenti parecchi file di esempio. I file di input sono molto
flessibili e semplici.
Inziamo introducendo il semplice formato multi colonna( .layout, .txt). Questo è
forse il più semplice formato di input per la gestione dei tipi di dati eterogenei in
BioLayout. Il formato consente una gamma completa di nodi, archi e classi per
essere creati da un semplice formato colonna che può essere preparato in un foglio
elettronico come Excel. Il formato di base per definire le regole può variare, può
contenere solo i nomi dei due nodi, o altrimenti aggiungere anche il peso dell’arco
o magari anche un annotazione.
I file a matrice possono essere generati da un gruppo di numeri con qualsiasi
misura di correlazione, ma devono avere l’estensione .matrix in modo che
Biolayout li riconosca. All’apertura di un file .matrix, una finestra di dialogo
“matrix CutOff” apparirà per richiedere all’utente di definire la soglia oltre la
quale i rapporti saranno tracciati.
16
Il formato “.expression”, di base è una riga di intestazione, seguita da una singola
riga per ciascuna sonda (set) / gene sulla matrice. Ogni riga deve iniziare con
l'identificatore unico di quella riga (nodo).
Colonne di annotazione possono seguire l'identificatore (questi sono opzionali,
ma molto utili), seguito infine dalle colonne di dati grezzi, che sono solitamente di
tipo numerico. Le colonne sono di solito dei tab separati e le voci di testo sono
circondati da virgolette.
GraphML è stato progettato per descrivere le proprietà strutturali e visive di un
network grafico. Le sue caratteristiche principali includono il supporto diretto,
grafi non orientati e misti, ipergrafi, grafici gerarchici, rappresentazioni grafiche,
riferimenti a dati esterni, per applicazioni specifiche degli attributi dei dati
e parser
leggeri. A
differenza
di
molti altri
formati
di
file
per
i
grafici, GraphML non usa una sintassi personalizzata. E’ basato, invece su XML,
e quindi è adatto come denominatore comune per tutti tipi di servizi di
generazione, l'archiviazione o l'elaborazione grafici di rete. Una volta creato,
un file .GraphML, esso potrà essere aperto direttamente in Biolayout Express3D.
4.3 Creazione di classi
I
nodi
possono essere
assegnati
a diverse
classi in
modo che più
annotazioni possono essere sovrapposte sullo stesso grafico. Esempi di tali
annotazioni possono essere termini Gene Ontology o numeri di classificazione di
enzimi, assegnati ai nodi di un grafo di proteine. Classi di nodi si differenziano gli
uni dagli altri principalmente per colore e, in alternativa, forma o dimensione
del nodo. BioLayout Express3D opera su un sistema di insiemi di classe, che si
riferiscono al
tipo complessivo
di classi
che
vengono assegnati (ad
esempio, GO Term, Numero CE). Ogni nodo può avere una sola classi di
annotazione
all'interno
di un
set
di classi. Non
è
necessario che tutti
i
nodi hanno un'annotazione in qualsiasi set di classi. Nodi senza una classe
definita vengono aggiunti a una classe predefinita annotata.
17
4.4 Metodo di normalizzazione e dipendenza della
piattaforma
BioLayout Express3D non possiede la capacità di normalizzare i dati, né in linea
di principio non importa se i dati di input sono stati normalizzati, log-trasformati
o convertiti
in rapporto con
i
dati metrici. Una matrice
di
correlazione sarà calcolata e sarà tracciato un grafico a prescindere. Tuttavia, la
dimensione e la struttura del grafo sarà fortemente influenzata da questi fattori.
BioLayout Express3D non
è
limitato ad
analizzare i
dati
da qualsiasi
piattaforma di microarray accademica o commerciale, il formato di input è lo
stesso indipendentemente dalla piattaforma che ha generato i dati.
18
Capitolo 5
Il Data Mining e l’annotazione funzionale per
l’analisi di espressioni di geni e la
caratterizzazione di biomarcatori.
5.1 Descrizione del dataset
Il set di dati con cui ho lavorato in partenza è stato estrapolato da una serie di
analisi fatte su un campione di 99 pazienti che hanno ricevuto un trattamento
contro il tumore al seno.
I dati erano così distribuiti: nelle colonne gli identificativi dei pazienti e nelle
righe migliaia di geni con i valori id log ratio per ogni paziente. Ogni paziente è
stato diviso in due classi, zero ed uno.
Un ulteriore classificazione è stata fatta a questo dataset applicando un algoritmo
di data mining.
Molti algoritmi di calcolo sono stati progettati e adattati per la classificazione di
espressione genica. Si tratta di tecniche di clustering, reti neurali artificiali e di
Support Vector Machine.
Il metodo di classificazione usato è stato in grado di estrarre un insieme di regole
di associazione utilizzati per classificare i profili genici non classificati. Questo
metodo si basa su un algoritmo di estrapolazione dei dati per identificare massimi
set di elementi frequenti[18]. Analogamente ad altri metodi, si riduce la quantità
di dati provenienti da microarray. In generale, solo una piccola frazione dei valori
di espressione genica sono veramente discriminatorie e per il restante non sono
informativi.
19
L’algoritmo in questione si chiama MAFIA (MAximal Frequent Itemset
Algorithm)[19]. L’algoritmo MAFIA è una implementazione efficiente per
trovare itemsets frequenti massimali, soprattutto quando gli insiemi nel database
sono molto lunghi. Il sistema di ricerca di MAFIA usa un attraversamento depthrst dell’insieme reticolo del gene con un meccanismo di pruning. Questo evita
l’enumerazione esaustiva di tutti gli insiemi del gene candidato secondo il
principio di monotonicità. Nel principio di monotonicità, si afferma che ogni
sottoinsieme di un itemset frequente è esso stesso frequente. Questo scarta i
candidati che hanno un sottoinsieme non frequente che usa questa proprietà.
Il risultato di questa classificazione è stata la creazione di due dataset contenenti le
regole di associazione per ogni classe. Dieci regole nella ‘relapse(classe 0)’ e nove
nella ‘no relapse(classe 1)’.
5.2 Annotazione con IPA
La versione di IPA con cui ho lavorato io è quella trial. A parte alcune limitazioni,
per la maggior parte temporali, il tools ha lavorato perfettamente annotando molti
geni utili nello studio di una terapia contro il breast cancer.
In breve le attività da me svolte con IPA:

Formattare i dati in un modo che IPA possono caricare.

Impostare le opzioni di caricamento e identificare l’ID e le colonne di
osservazione.

L'analisi della Impostare i parametri: se gli insiemi di dati sono grandi,
regolare i valori di cutoff di espressione (s) per limitare le loro
dimensioni.

Eseguire l'analisi.

Filtrare i dati estrapolando i biomarcatori dalla lista.
1) Preparare i dati per il caricamento.
20
E’ preferibile caricare i dati in un foglio di calcolo excel, assicurarsi che ci sia una
sola riga di intestazione. (IPA può essere impostato per ignorare la prima fila
quando si fa i calcoli). Muovere gli ID molecolari alla prima colonna (IPA utilizza
la prima riga per indovinare i tipi di identificatori che vengono utilizzati per le
molecole).
IPA consente un massimo di 20 osservazioni. Per questo motivo per analizzare il
primo dataset con in 99 pazienti ho dovuto suddividere in dati in 5 parti per poi
analizzarle.
Per i campioni con le regole non ce n’è stato bisogno in quanto per ogni regola è
stato visualizzato solo il suo IDgene e il suo valore di intensity.
2) Avviare IPA
21
3) Carica i dati in IPA.
Dal menu file->Carica Dataset ho selezionato il mio set di dati excel.
Successivamente ho impostato alcuni campi per la lettura dei nostri valori.
E’ sempre consigliato di selezionare il “Formato flessibile”, selezionare “yes” se
si dispone di una riga di intestazione nel set di dati. Selezionare il tipo di
Identifier, nel nostro caso “Gene Symbol - human” ed infine selezionare la
piattaforma del microarray da cui provengono i dati, se non si è sicuri è possibile
selezionare “Non specificato/applicabile”.
Infine bisogna selezionare la colonna ID del nostro file e le successive colonne
che serviranno per le osservazioni, specificando se i valori sono ad esempio di log
ratio, p-value, intesity e così via. Le colonne che non serviranno per le nostre
analisi potranno essere ignorate
IPA salva i dati nel database di Gestione Progetti nell'ambito dei progetti
selezionati.
22
Il passo successivo all’upload dei nostri dataset è stato quello dell’annotazione,
applicando una serie di filtri tramite la funzione “new filter dataset” che combina
anche l’estrapolazione dei biomarcartori.
Questa è la parte più importante delle analisi, perché è qui che ridurremo
maggiormente i nostri geni per una più accurata annotazione.
Accedendo al pannello di questa funzione ci troveremo a settare alcuni campi che
interagiranno con il database di IPA dove sono conservati i nostri geni da
annotare.
Qui di seguito l’elenco dei possibili filtri da applicare, nelle mie analisi ho dato
maggiore peso nella selezione della specie, delle linee cellulari, nel tipo di
malattia e nel filtro biomarcatore.
Species : Filtro per i geni che esistono in una particolare specie. Nel nostro caso
Human.
Tissues & Cell Lines : filtro per i geni espressi in un particolare tessuto o una
linea cellulare. Essendo geni generati da una terapia contro il tumore al seno, sono
andato a selezionare le ‘cellular line’ del breast cancer.
Molecules Types : Filtro per le famiglie di molecole specifiche. Selezionando un
qualsiasi elemento del filtro, si specifica che siete interessati alle molecole
caratterizzate da una classe di una specifica sostanza chimica o di una famiglia di
proteine. Nella mie analisi non ho selezionato alcuna di queste.
Disease : Filtro per i geni associati a una particolare malattia. Nel nostro caso
‘cancer’.
Biofluid : Filtro per le proteine rilevabili in un fluido particolare del corpo. Non
avendo maggiori informazioni sulle nostre analisi ho lasciato anche questo campo
deselezionato.
23
Biomarkers : filtro per le applicazioni di biomarcatori1 specifici, compresa la
diagnosi, efficacia, prognosi, progressione della malattia, risposta alla terapia, o la
sicurezza, nonché per malattie specifiche. Questa è forse la parte più importante
per l’annotazione dei nostri geni, in quanto il software andrà a selezionare quei
biomarcatori specifici per il breast cancer e propri per un applicazione di risposta
ad una terapia.
1
In biologia cellulare un biomarcatore è una molecola che permette di individuare e isolare un
particolare tipo di cellule, mentre in genetica un biomarcatore (marcatore genetico) è un
frammento della sequenza di DNA causa di malattia o di una certa predisposizione patologica.
24
Dataset Filter Summary
Consider only molecules where
(species = Human) AND
(cell lines = Other Breast Cancer Cell Lines OR BT-549 OR NCI-ADR-RES OR
MCF7 OR MDA-N OR MDA-MB-435 OR Breast Cancer Cell Lines not
otherwise specified OR HS 578T OR T47-D OR MDA-MB-231) AND
(diseases = Cancer) AND
(((biomarker applications = Response to Therapy) AND (biomarker diseases =
breast cancer)) OR biomarkers = Not a known Biomarker)
Il risultato di queste analisi sarà una riduzione drastica del nostro numero di geni,
come ad esempio nelle varie regole avremo una lista di all’incirca 100 IDgene per
ognuna di esse.
Una volta creata la lista sarà possibile rivedere la tabella di annotazione con
l’elenco dei geni e con una serie di informazioni utili per future analisi, come le
applicazioni dei biomarcatori, i farmaci e i vari sinonimi al gene.
25
Capitolo 6
Annotazione delle regole di associazione e
definizione dei biomarcatori.
Un ulteriore analisi statistica è stata da me svolta sulle regole di associazione,
create con l’algoritmo MAFIA.
Le migliaia di geni presenti nelle nostre regole sono state poi ridotte annotandoli
con il software dell’Ingenuity Software, IPA.
Da qui ho eseguito due tipi di annotazione. Una che estrapolava solamente quei
geni associati ad i biomarcatori riconosciuti per la cura del breast cancer, ed
un'altra con i biomarcatori “non conosciuti” ma ugualmente relazionati con il
tumore al seno.
Per le prime associazioni il numero di geni è visibilmente basso in quanto
vengono presi solamente i biomarcatori riconosciuti dalla Gene Ontology per la
cure del breast cancer[20], vedi ad esempio il tp53 il MYC e JUMB che
codificano il p53 o altri marcatori come ERBB2. Per le seconde invece il numero
dei geni sale mediamente a 100, ma ugualmente utili perché biomarcatori in fase
di studio da parte dei ricercatori.
6.1 Istogrammi biomarcatori
Per semplificare la visualizzazione delle tabelle risultati dalle analisi ho creato
degli istogrammi dove nell’asse delle ascisse sono presenti le regole e nell’asse
delle ordinate il numero di geni presenti.
Inziamo a rappresentare le regole annotate che contengono più geni, ovvero quelle
comprensive dei biomarker ‘non conosciuti’.
26
Numero geni mappati
Numero biomarker
Regola_0
380
95
Regola_1
353
92
Regola_2
359
87
Regola_3
383
95
Regola_4
477
121
Regola_5
360
79
Regola_6
316
72
Regola_7
367
102
Regola_8
441
108
Regola_9
467
116
27
Numero geni mappati
Numero biomarker
Regola_0
1013
127
Regola_1
483
91
Regola_2
527
92
Regola_3
475
87
Regola_4
504
95
Regola_5
490
95
Regola_6
503
82
Regola_7
434
82
Regola_8
473
91
28
Numero geni mappati
Numero biomarker
Wilcoxon
50
16
Welch_TTest
50
16
TTest
50
16
SAM
50
15
Rank_Prod
50
15
LIMMA
50
15
29
Qui di seguito gli istogrammi per le regole filtrate ammettendo solamente in
biomarcatori conosciuti
Il numero dei geni mappati per entrambi i set è riportato nelle tabelle precedenti,
cambia solamente il numero dei biomarcatori, visibilmente inferiore.
30
Per quanto riguarda l’analisi dei Top_50 includendo solamente i biomarcatori
conosciuti non ha generato alcun valore.
31
6.2 Istogrammi intersezioni e geni unici
Per una maggiore selezione dei geni per ogni regola ho proceduto con
l’intersezione delle varie regole, suddivise per classi.
Dalle intersezioni è possibile notare anche quei geni che sono unici per ogni
regola, cioè che non si trovano in nessun altro elenco.
Solitamente in bioinformatica le intersezioni tra le regole vengono visualizzate
attraverso i diagrammi di eulero venn, ma data la mole di geni e di regole, il
grafico risultante sarebbe stato solamente confusionario e illeggibile.
Qui di seguito riporto un diagramma di venn creato con le prime cinque regole
della Class_0:
Nelle pagine che seguono rappresenterò con gli istogrammi le varie intersezioni e
il numero di geni unique per ogni regola.
32
Tabella 1 - Class_0 not a known biomarker
33
Tabella 2 - Class_1 not a known biomarker
34
Tabella 3 - Top_50 not a known biomarker
35
Tabella 4 - Class_0 known biomarkers
Tabella 5 - Class_1 known biomarkers
36
6.3 Istogramma biomarcatori specifici
Qui di seguito riporto il grafico ottenuto dalla differenza delle tabelle unione
(ovvero l’elenco di tutti i geni presi univocamente per ogni classe di regole).
Il risultato di questa differenza darà i biomarcatori specifici per ogni classe.
37
Capitolo 7
Visualizzazione della rete con Biolayout
In questo capitolo descriverò brevemente come illustrare una rete con
BioLayout express3D[21].
Come ho descritto nel capitolo 4 BioLayout express3D è un potente strumento per
la visualizzazione e l'analisi di reti molto grandi.
Come esempio prenderò il nostro dataset originario da dove sono state costruite le
varie regole, ampiamente analizzate e descritte precedentemente.
Per prima cosa bisogna formattare il file di input in maniera tale da renderlo
leggibile al programma. L’estensione da me utilizzata è stata la “.expression”.
Una volta sistemato le tabelle del file di input diamo in pasto al software il tutto.
Per aprire il file selezionate: File → Apri. La finestra di dialogo ‘Apri
file’ apparirà, trovate e selezionate il file e fare clic su Apri.
Apparirà la finestra “Load Expression Data” (Fig. 1), quindi fare clic su OK. In
genere,
non sarà
necessario modificare
le
impostazioni all'interno
di
questa finestra. Dopo il caricamento dei dati in memoria il programma inizierà a
calcolare una matrice di correlazione.
Il numero di calcoli
necessari aumenta esponenzialmente con il numero di
righe del file di input. Un piccolo file di appena alcune migliaia di righe di
dati saranno calcolati molto rapidamente.
38
Figura 1 - Load Expression Data
Una volta che il file di matrice di correlazione è stato calcolato, apparirà la
finestra “Expression Graph Settings”. Questo presenta due grafici derivati
dai dati (Fig. 2). Sulla sinistra della finestra di dialogo è riportato un grafico
della dimensione rete rispetto soglia di correlazione per i dati.
Sull'asse x è riportato il numero di nodi e archi, sull'asse y nell'intervallo la soglia
di correlazione dei valori memorizzati.
Le due linee
di
punti rappresentano il numero di
archi (arancione, superiore) che sarebbero
inclusi nel
nodi (rosa, inferiore) e
grafico
su tutta
la
gamma di soglie potenzialmente selezionabili. La linea rossa verticale indica il
valore selezionato (predefinita r = 0,85. Più basso è il taglio, maggiore è
il grafico.
Sulla destra della finestra viene stampato un grafico della distribuzione del grado
dei nodi, alla soglia selezionata.
39
Figura 2 - Expression Graph Settings
Cliccando su OK, finalmente visualizzeremo il grafo della nostra rete:
40
Bibliografia e web reference
1. Xiaosheng Wang Richard Simon - Microarray-based Cancer Prediction
Using Single Genes (2011).
2. Purvesh Khatri and Sorin Draghici - Ontological analysis of gene
expression data: current tools, limitations, and open problems (2005).
3. http://www.ingenuity.com
4. http://www.ingenuity.com/science/science_spotlight.html
5. http://www.cytoscape.org/
6. http://www.psb.ugent.be/cbd/papers/BiNGO/Home.html
7. http://www.psb.ugent.be/esb/PiNGO/
8. http://go.princeton.edu/
9. http://david.abcc.ncifcrf.gov/
10. http://www.ingenuity.com/library/index.html
11. Glynn Dennis Jr, Brad T Sherman, Douglas A Hosack, Jun Yang, Wei
Gao, H Clifford Lane and Richard A Lempicki - DAVID: Database for
Annotation,Visualization, and Integrated Discovery (2003).
12. http://david.abcc.ncifcrf.gov/content.jsp?file=conversion.html
13. http://david.abcc.ncifcrf.gov/content.jsp?file=linear_search.html
14. http://david.abcc.ncifcrf.gov/content.jsp?file=functional_classification.htm
15. http://david.abcc.ncifcrf.gov/content.jsp?file=functional_annotation.html
16. Athanasios Theocharidis, Anton J. Enright, Stjin van Dongen2 and Tom C.
Freeman - BioLayout Express3D Version 2.0 Reference Manual to Tools
and Functions.
17. http://www.biolayout.org/support/
18. A.Ferro , S. Forte , R. Giugno , G. Pigola , A. Pulvirenti - Automatic
multiclass gene expression data classification.
41
19. Akdes Serin and Martin Vingron - Supplementary File for DeBi:
Discovering Differentially Expressed Biclusters using a Frequent Itemset
Approach.(2011).
20. Jeffrey S Ross, Gerald P Linette, James Stec, Edwin Clark, Mark Ayers,
Nick Leschly, W Fraser Symmans, Gabriel N Hortobagyi and Lajos
Pusztai – Breast cancer biomarkers and molecular medicine
21. Tom C. Freeman, Leon Goldovsky, Markus Brosch, Stijn van Dongen,
Pierre Mazière, Russell J. Grocock, Shiri Freilich, Janet Thornton, Anton
J. Enright - Construction, Visualisation, and Clustering of Transcription
Networks from Microarray Expression Data (2007).
42
Appendice
A causa delle grandi dimensioni delle tabelle create durante l'annotazione delle
varie regole dei dataset, si è pensato di inserire i vari file di output nel server
Galileo della facoltà.
Le tabelle sono quindi reperibili al seguente indirizzo:
http://galileo.dmi.unict.it/utenti/Angelo/annotazioni/index.html
43
Ringraziamenti
Giunto al termine del mio corso di studi desidero esprimere la mia gratitudine a
tutti coloro che mi hanno aiutato e sostenuto in questo lungo e duro percorso.
Un grazie particolare va alla mia relatrice, Professoressa Rosalba Giugno, per la
sua disponibilità, cortesia e soprattutto pazienza dimostratami durante la stesura
della tesi.
Ringrazio i miei genitori che in questi anni non hanno mancato di incoraggiarmi
sostenermi e consigliarmi, oltre che di assumersi gli oneri della mia istruzione.
Un grazie di cuore va ad Erika mi è sempre stata accanto, sopportando le mie crisi
e miei continui cambiamenti di umore, ma incoraggiandomi sempre ad andare
avanti.
Ricordo infine con tanto affetto e gratitudine tutti i mie colleghi per avermi aiutato
durante gli studi ed aver reso piacevole il lunghi anni passati a Catania.
Angelo
44