Algoritmi per l`analisi di dati di espressione genica in serie temporale.

Presentazione per l’esame del corso di “Algoritmi per la bioinformatica” di Stefano Colombo
Algoritmi per
l’analisi di dati
di espressione
genica in serie
temporale.
Giambattista Tiepolo, “Il tempo scopre la verità” (dettaglio).
Esperimenti con microarray:
approccio statico
campione 1
campione 2
• ibridazione
• Lettura dei valori di fluorescenza
•normalizzazione
• Analisi dei dati
Risultati:
Rappresentazione
dell’espressione genica nei due
campioni iniziali
• Le popolazioni sono considerate
indipendenti e aventi la stessa
distribuzione.
• Il risultato è la rappresentazione
dei pattern di espressione genica
nelle due popolazioni che possono
essere confrontati, ma che non
sono necessariamente correlati.
• Cambiando i punti temporali il
risultato è invariato
Esperimenti con microarray:
approccio “Time Series”
t0 =0
campione 1
campione 2
t2= t0 + ∆t
campione 3
t3= t2 + ∆t
campione 4
campione 5
t4= t3 + ∆t
t5= t4 + ∆t
Risultati:
misurazione dell’espressione
genica in una serie temporale
• I dati successivi di analisi “Time
Series” mostrano una forte
auto-correlazione.
• Non ho informazioni solo sullo
stato della popolazione iniziale
e finale, ma anche dati
riguardanti gli stati intermedi.
• Risultato: Misura di un processo
temporale.
• Il risultato dipende dalla
sequenza di punti temporali
adottata
Esempi di processi naturali in serie
temporali
• Ritmi Circadiani
• Infezioni Virali
• Ciclo Cellulare
•Sviluppo Embrionale
Problemi degli studi di espressione
“Time Series”
• Tradizionalmente gli algoritmi di
normalizzazione, analisi e
clustering dei dati sono
implementati per esperimenti
statici e non tengono conto della
correlazione temporale dei dati e
altre caratteristiche delle serie
temporali.
• Bisogna scegliere l’intervallo di
tempo e la durata dell’esperimento
spesso in modo arbitrario.
• È necessaria una sicronizzazione
dei dati.
Le serie temporali
campione 1
campione 2
t0 =0
Una serie temporale (time serie) è una serie
di valori o dati presi in periodi di tempo
successivi.
t2= t0 + ∆t
campione 3
t3= t2 + ∆t
campione 4
t4= t3 + ∆t
campione 5
t5= t4 + ∆t
I punti temporali (time points, tp) sono gli
istanti nel tempo in cui vengono prese le
misurazioni.
L’intervallo di campionamento (sampling
interval) è la distanza tra i punti temporali;
questa può essere costante o variabile.
I dati ottenuti nel contesto di una serie
temporale possono avere una struttura
interna che non si deve ignorare.
Analisi statistica di dati in serie
temporale
Obbiettivo: identificare le natura del fenomeno rappresentato dalla serie osservata
e predire i futuri valori delle variabili della serie temporale.
Le proprietà statistiche più importanti delle serie temporali sono:
Autocorrelazione: cioè la correlazione della serie temporale con i suoi stessi
valori passati e futuri.
Trend: cioè la componente lineare o non lineare che cambia nel tempo senza
ripetersi.
Seasonality (stagionalità): fluttuazioni periodiche mostrate da più serie
temporali.
Stazionarietà: è un’assunzione comune di molti metodi di analisi, conferisce
alla serie temporale la proprietà di non cambiare la media, la varianza e la struttura
dell’autocorrelazione nel tempo.
Strumenti statistici utilizzati nelle
analisi di serie temporali
Xt= time serie At= rumore
µ= media
p= ordine del modello
Molte tecniche di analisi sono basate sulla
regressione, come ad esempio il modello
auto-regressivo che è la regressione lineare di
un valore della serie contro uno o più valori
precedenti.
Moving average Smooting: metodo che
rimuove le variazioni casuali rimpiazzando
ogni elemento della serie con la media o la
media pesata degli n elementi circostanti in
base all’ampiezza finestra di smoothing.
In questo modo i valori estremi sono rimossi
Funzione sinusoidale su cui sono stati campionati errori
casuali (quadrati) sottoposta a smoothing (cerchi).
MA… spesso i dati biologici sono pochi e
campionati in modo irregolare questo rende il
calcolo statistico della autocorrelazione
impreciso.
Il Clustering
Il clustering è un tecnica che permette il “data mining”, cioè un estrazione non
traviante o implicita di informazioni sconosciute o potenzialmente utili dai dati,
sviluppano sottoinsiemi significativi di individui o oggetti.
Nel contesto dell’analisi dell’espressione genica viene usato per identificare
sottoinsiemi di geni che si comportano in modo simile al passare del tempo in
condizioni simili.
Il clustering di serie temporali si sviluppa in 4 step fondamentali:
• Rappresentazione e Modellamenento della serie temporale.
• Definizione della Misura di Similarità tra serie temporali con cui dare un
senso al modello/rappresentazione scelto.
• Definizione dell’Algoritmo di Clustering con il quale raggruppare i dati in
base alla definizione di similarità scelta.
• Validazione e Scoring dei risultati del clustering.
Rappresentazione e
Modellamenento
Il modello adottato incide in modo sostanziale sui successivi steps infatti da questo
dipende la misura di similarità da adottare e ha un notevole impatto sulla scelta
dell’algoritmo di clustering.
I tipi di rappresentazione di sequenze temporali possono essere divisi in 4 gruppi:
• Time-domain continuous representation:La serie è
rappresentata usando gli elementi originali ordinati in base al tempo di
occorrenza senza alcun processamento.
• Transformation based: Si basa sulla trasformazione della sequenza
iniziale in un altro dominio e l’uso dei punti del nuovo dominio per
rappresentare la serie originale.
• Discretisation based: converte la serie temporale iniziale di elementi
con valori reali in una serie discretizzata.
• Generative models: si basa sull’idea di ottenere il modello che ha
generato la serie osservata.
Similarità
La misura di similarità è necessaria per il confronto delle serie temporali e dovendo
trattare elementi quali punti “outlying”, rumore, scaling-traslazioni e altre distorsioni
dell’asse temporale è correlata al modello che li ha prodotti.
Tipi di similarità principali:
• Distanza Minkowski : ogni serie di lunghezza k
è vista come un punto nello spazio k-dimensionale
viene quindi calcolata la distanza tra i punti.
• Pearson: misura statistica della relazione lineare
tra due variabili
• Hamming Distance: si basa sul confronto diretto
dei simboli delle serie misura le coordinate per cui
questi differiscono.
• Likelihood: la similarità tra sequenze è ottenuta in
base a quanto strettamente i dati di queste si adattano
al modello scelto.
Clustering
I principali algoritmi di clustering possono essere divisi in 3 gruppi:
• Hierarchical: procedono in modo iterativo raggruppando
clusters piccoli in clusters più grandi (agglomerativi) oppure
dividendo clusters grandi in clusters più piccoli (divisivi).
• Partitioning-Optimisation: ammette la rilocazione degli
elementi, utilizza dei centroidi rappresentativi del cluster per
raccogliere gli elementi.
• Based on Maximum Likelihood: i dati vengono uniti
per clustering gerarchico o rilocazione basandosi sul criterio di
Massima Verosimiglianza. Ogni cluster è rappresentato da un
particolare modello adottato. Usato per metodi structure-based.
Similarità di serie temporali di
espressione genica.
Obbiettivo del clustering dell’espressione genica: identificare i geni co-espressi
cioè geni che hanno simili pattern di espressione. Pattern di espressione sono
considerati simili se aumentano o diminuiscono nel tempo in modo coordinato.
Trattando dati di espressione genica la misurare di similarità deve trattare con
problemi quali:
• Scaling e Shifting
• Punti di campionamento distribuiti in modo irregolare
• Forma (struttura interna) dei dati
Scaling e Shifting
Sono fenomeni dovuti alla natura biologica stessa dell’esperimento ma anche da
fattori sperimentali (come la risposta più o meno intensa del dye). Dal punto di
vista biologico due geni attivati nello stesso momento possono subire
un’espressione più o meno veloce piuttosto che abbondante a causa delle
caratteristiche del gene o del promotore.
Solo in parte scaling e shifting sono eliminati dalla normalizzazione.
Considerando la serie temporale x e la sua
linearizzazione (y) è y = mx+b in cui m è il fattore di
scaling mentre b è il fattore di shifting verticale.
tre serie temporali linearizzate in
cui B è A scalato di 2, C è A shift
di 2
A causa di questo fenomeno è possibile non
osservare, o osservare a tempi diversi
dall’attivazione, l’espressione genica rendendo
confuso lo studio dei geni co-regolati.
Tempi di campionamento distribuiti
in modo irregolare
Una frequenza di campionamento alta permette di avere più informazioni per
ricreare il processo studiato. I processi biologici sono generalmente di tempi
molto brevi ed inoltre utilizzando esperimenti come i microarray difficilmente si
raggiunge un campionamento esaustivo a causa del tempo e del costo.
L’intervallo e il tempo di campionamento sono
dati fortemente informativi di cui è necessario
tenere conto tra serie temporali.
tre diverse serie temporali (F, G, H)
con diverso grado di cambiamento
dell’espresione genica
Ad esempio le serie F e H rappresentano rispetto
la serie G lo stesso valore assoluto se si
considerano i 10 time points, ma valutando solo
gli intervalli 1-2 H risulta simile a G mentre
considerando gli intervalli 3-10 F risulta simile a
G. Nonostante questo se considero il grado di
divergenza rispetto al tempo la similitudine più
marcata è tra G e H.
Struttura Interna
La struttura interna è la principale differenza tra una serie temporale e un set di
misurazioni ed è il motivo per cui una serie temporale non può essere trattata come
una un set di dati indipendenti con la stessa distribuzione della serie.
Generalmente la struttura interna è legata alla forma della serie.
In un esperimento di microarray non è rilevante l’intensità dell’espressione
genica è invece informativa la variazione relativa di intensità che è caratterizzata
dalla forma dell’espressione genica.
Se considero l’intensità dell’espressione J e K
sono i più simili ma se considero il cambiamento
relativo di intensità J è simile a L.
La condizione necessaria per l’esistenza della
struttura interna è la misurazione in ordine
temporale.
Tre serie temporali (J, K, L)
Metodi di similarità di serie
temporali
Sono stati identificati in letteratura principalmente i seguenti approcci per
comparare serie temporali:
• Linear Transformation (trasformation based)
• Temporal Structure based
• Shape Based
Linear Transformation
(trasformation based) (Aach et al, 2001)
Una trasformazione T: Rn
Similarità basata sul grado con il quale una serie
temporale può essere espressa come la
trasformazione lineare y=mx+b di un’altra.
Rm è lineare se T(u+v)= T(u)+T(v) e T(cu)= cT(u)
La distanza Euclidea può essere usata
per studiare la forza di correlazione tra
due serie temporali, più questa è piccola
più la relazione lineare tra le funzioni è
forte.
Temporal Database Field: due serie temporali sono
simili se esiste una funzione lineare f che permetta di
mappare una sequenza X su una sequenza Y.
Dynamic Time Warping: si basa sull’allineamento di
due sequenze contro un pattern di riferimento che non
può essere fornito in un metodo non supervisionato.
Senza un pattern di riferimento i può calcolare la
distanza Euclidea ma questo implica una
standardizzazione delle funzioni.
Tratteggio: differenti trasformazioni lineari della
stessa funzione. Linea:dopo la normalizzazione
La similarità basata sulla trasformazione lineare non
considera la struttura interna dell’intervallo di sampling
Temporal structure based
Si tratta di modelli basati sull’assunzione di un modello statistico; considerano
la serie temporale caratterizzabile come un processo parametrico casuale i cui
parametri stocastici possono essere stimati in modo preciso. Il clustering dei
dati ottenuti con questi metodi avviene attraverso la likelihood.
I principali modelli utilizzati sono:
• Normal Mixture
• Autoregressive
• Hidden Markov
• Splines
Normal Mixture model-based
(MacLachlan et al, 2002)
Approccio che considera ogni gene derivante da un’insieme di densità
normali multivariate. Una “mistura” di distribuzioni è usata per descrivere
con formule matematiche il modello statistico di fenomeni casuali.
x1… xn : n osservazioni p-dimensionali
g :numero di densità normali multivariate iniziali
π1… πn : proporzioni di g ignote
Ф(x:µi,∑i): funzione di probabilità della densità
normale p-variata; µi media, ∑i matrice di
covarianza.
Ψ: vettore dei parametri ignoti
non considera la struttura temporale dei dati ne’ l’intervallo di
campionamento.
Autoregressive model (AR)
(Ramoni et al, 2002)
Nella sua forma più semplice è l’equazione della regressione lineare che collega i
valori delle variabili osservati a un certo tempo ai loro valori ai p tempi precedenti.
In questo caso il modello di struttura interna considerato è che ogni punto è la
combinazione lineare dei suoi valori passati e se stesso più un errore.
Xt= time serie At= rumore
µ= media
p= ordine del modello
L’errore incorpora nella serie temporle
ogni variazione avvenuta tra uno stato e
l’altro. I parametri sono stimati per ML o
minimi quadrati.
Questa tecnica richiede
però serie temporali
stazionarie non sempre
ottenibili.
La struttura temporale dei
dati è considerata mentre
non lo è l’intervallo di
campionamento.
modello di autoregressione, X e Y serie temporali
Modello Spline (Ziv Bar-Joseph et al, 2002)
Le serie temporali vengono rappresentate da un modello che definisce una curva
nel tempo. Gli splines sono funzioni polinomiali connesse tra loro in modo
omogeneo.
I principali elementi del modello B-spline sono:
• Il numero n di splines connessi.
•Il grado k degli n-splines (cioè il grado dei polinomiali)
pensate che questa spiegazione sia
sommaria? chiedete a loro
• il numero p di punti di connessione detti nodi (knots)
Ogni segmento è descritto da k+1 parametri ma, a causa della costrizione dovuta
all’omogeneità che impone continuità agli splines e alla loro derivata secondo
l’ordine dei nodi, ogni segmento ha un solo grado di libertà. Q-splines è un metodo
che sfrutta polinomiali cubici la cui derivata prima e seconda è continua nei nodi,
determinando statisticamente gli spline è possibile definire il profilo di espressione
della serie temporale.
Se i nodi sono definiti in modo corretto questa funzione considera il profilo e la
lunghezza dell’intervallo di campionamento. Non sempre è possibile definire
correttamente i nodi ed inoltre questo metodo un’alto grado di campionamento.
Shape Based (Moller-Levet et al, 2003)
Si tratta di un approccio rivolto all’interpretazione biologica, per calcolare la similarità
sfrutta i primi e gli ultimi pattern delle due serie da confrontare, ma allo stesso tempo
sfrutta i pattern intermedi per modellare la forma della funzione.
Uno degli elementi più importanti inclusi nell’analisi è lo slope, cioè la pendenza, dei
livelli di espressione a ogni time-point e in ogni intervallo.
Similitudine shape based con linearizzazione y=mx+b
Il modo più semplice è considerare
la serie temporale come una
funzione lineare e omogenea e
calcolare lo slope sulla reale
lunghezza della sequenza. In
questo caso l’ordine temporale non
è considerato e ci possono essere
errori legati alla diversa lunghezza.
Altri metodi usano la discretizzazione dei dati in base alla direzione del
cambiamento dell’espressione ma anche in questo caso si perdono informazioni
biologiche utili.
Hidden Markov Model
È un modello in cui profilo di espressione genica è assunto essere generato da un
processo di Markov (con una certa probabilità )caratterizzato da parametri ignoti
(hidden) che si provano a desumere da parametri osservabili.
La topologia base è un modello caratterizzato
colonne a cui, in questo caso, corrispondono 3
stati (cerchio, rombo quadrato). Gli stati vicini
sono connessi attraverso la probabilità di
transizione.
Dal punto di vista temporale, definito il cammino
di Markov, ottengo una serie di variabili casuali
X(t) che sono i valori della variabile nascosta al
tempo t. La variabile Y(t) è invece la variabile
osservata dipendente da t e X(t).
Procedimento HMM
1. Trasformo la serie temporale secondo un modello
alfabetico che associa a ogni stato un simbolo (es: upregolato=v2, down-regolato=v1, invariato=v3) in base
alla relazione (<,>,=) di ogni stato col precedente.
2. Chiamo gli stati S e la probabilità di transizione a.
3. Definisco la probabilità b di osservare un certo simbolo.
Trasformazione della serie
temporale
Probabilità di transizione di
stato A=aij
Osservazione probabilità di simboli
4. Fornisco il set di parametri N (numero di stati), M
(numero di simboli osservati differenti), A (probabilità di
transizione), B (probabilità di osservare un simbolo) e π
(distribuzione dello stato iniziale).
5. Continuo a stimare iterativamente parametri fino a
trovare il modello che meglio si adatta ai miei dati.
La struttura temporale definita con questo metodo è una
funzione probabilistica. Come nell’autoregressione la
lunghezza del campionamento non è incorporata nella
similarità.
Catene Markov e parametri nascosti
Se non conosco i parametri ek e ak (HMM) posso
provare a calcolarli con l’algoritmo Baum-Welch:
I valori Akl e Ekl sono stimati per ogni transizione
e utilizzati per costruire un nuovo modello
caratterizzato da ak e ek. La re-stima dei
parametri è iterata ciclicamente fino al
raggiungimento della massima likelihood definita
come:
Algoritmo che descrive una catena di
markov i parametri ek e ak sono noti
Clustering: Approccio 1
(Schliep et al,2003)
• L’algoritmo rappresenta in ogni cluster
rappresenta un HMM.
• I parametri sono aggiustati fino alla
massima likelihood con il procedimento
Baum-Welch.
• l’apprendimento usato è Parzialmente
Supervisionato, alcuni profili biologici noti
sono forniti durante l’inizializzazione e i loro
parametri possono essere usati nei cicli di
re-stima dei parametri senza che il modello
iniziale venga fortemente variato.
Algoritmo di addestramento Baum-Welch.
Questo algoritmo viene ripetuto più volte (50100) per poter evitare di cadere in un minimo
locale.
• Il numero di cluster è deciso
automaticamente eliminando i cluster senza
il numero minimo di profili e ri-assegnandoli
agli altri cluster.
Clustering: Approccio 2
•
(Ji et al,2003)
Le sequenze di espressione sono trasformate in sequenze di fluttuazione
usate come training set per generare gli HMM che descrivono i cluster. Le
sequenze di fluttuazione sono descritte dai valori 0,1, 2 definiti da:
L = lenght
a = valore soglia
•
•
•
•
Per w cluster sono inizializzate w HMM
ognuno dei quali addestrato
separatamente con l’algoritmo BaumWelch pesato sull’intero set di sequenze
di fluttuazione. Il fattore peso differisce
per ogni cluster e determina una stima
diversa dei parametri.
Viene calcolata la probabilità per ogni
sequenza per ogni HMM generato.
I risultati ottenuti vengono clusterizzati in
base alla likelihood rispetto al modello
con cui sono ottenuti.
Il metodo è non supervisionato.
Esempi sperimentali, HMM app.2:
differenziazione dei cheratinociti
(Lees et al, 2005)
Cluster 1: 2946 geni
Cluster 2: 666 geni
Dataset: Cookson Laboratory, dati affymetrix di 22283 geni a 5
time points; registrati i pattern di espressione durante la
differenziazione dei cheratinociti a 0, 1, 2, 3, 4 e 7 giorni, ogni
time point ripetuto 3 volte.
Normalizzazione: standard pre-processing affimetrix (Bolstad,
2004).
Training: Baum-Welch.
Clustering: Rand index, FOM, SOMe K-means.
Dati di Fattori di Trascrizione: sono stati incorporati nel modello
parametri per 5 fattori di trascrizione.
Parametri:
Baum-Welch parameters
Number of iterations = 200
Log change threshold = 0.0001
Number of repetitions = 100
Number of sequences, n = 20040
HMM parameters
Number of cluster paths, w = 2 to 25
Length of sequences, L = 5
Number of emissions per state, Z = 3
Emission symbol alphabet = {1,2,3} Number of hidden states =
wL
Esempi sperimentali, HMM app.2:
differenziazione dei cheratinociti
Cluster 3: 3757 geni
Cluster 4: 1365 geni
Cluster 6: 2710 geni
Cluster 7: 843 geni
Cluster 5: 541 geni
Cluster 8: 936 geni
Esempi sperimentali, HMM app.2:
differenziazione dei cheratinociti
Cluster 9: 4090 geni
Cluster 10: 1225 geni
Cluster 11: 961 geni
Risultati: i cambiamenti di espressione genica sono molto forti nell’intervaalo
compreso tra 1-4 probabilmente a causa del processo di specializzazione
cellulare. Oltre il punto 4 i livelli di trascrizione di alcuni geni rimangono alti ma i
cambiamenti nei pattern di espressione sono minori, segno che la specializzazione
e quasi completamente avvenuta.
Esempi sperimentali, HMMa1 Vs AR:
ciclo cellulare di S.cerevisiae
(Schliep et al,2003)
Dataset: da cellule di lievito
sincronizzate con α-factor sono stati
misurati i livelli di espressione di 6178
geni ogni 7 minuti per 140 minuti,
valutati un totale di 18 time points
normalizzati (Spellman et al, 1998).
Rimossi i geni che non mostravano
particolare over- o under- espressione è
stato valutato un set di 1044 geni.
Modelli: utilizzata una collezione di 9
modelli aventi ognuno 9 stati.
Training: Baum-Welch, con parametri di
rumori esclusi (de-noise)
Esempi sperimentali, HMMa1 Vs AR:
ciclo cellulare di S.cerevisiae
Risultato clustering con
metodo HMM (Schliep et
al,2003).
Identificati 10 cluster
significativi.
Risultato clustering con
metodo AutoRegressivo
CAGED (Ramoni et al., 2002)
con parametri di default.
Identificati 2 cluster.
bibliografia
•
•
•
•
•
•
•
•
•
•
•
Aach, J. (2001) Aligning gene expression time series with time warping algorithms, Bioinformatics 17(6),
459-508.
Bar-Joseph,Z., Gerber,G., Gifford,D.K. and Jaakkola,T.S. (2002) A new approach to analyzing gene
expression time series data. 6th Annual International Conference on Research in Computational Molecular
Biology.
Bar-Joseph, Z., Gerber, G., Gifford, D. K., Jaakkola, T. S. and Simon, I. (2002) A new approach to analyzing
gene expression time series data, Proceedings of RECOMB, Washington DC, USA, pp. 39–48.
Bolstad,B.M., Irizarry,R.A., A° strand,M., Speed,T.P. (2003) A comparison of normalization methods for high
density oligonucleotide array data based on variance and bias, Bioinformatics, vol.19(2), 185-193.
Ji, X., Li-Ling, J. and Sun, Z. (2003) Mining gene expression data using a novel approach based on hidden
Markov models, FEBS 542, 125–131.
Lees, K., Taylor, J., Luntr, G., Hein, J. (2005) Identifyng gene clusters and regulatory themes using time
course expression data, hidden markov models and trascription factor information. Oxford University
MacLachlan, G.J., Bean, RW, Peel, D., (2001) A mixture model based approach to the clustering
microarrays expression data, Bioinformatics, vol.18(3), 413-422.
Moller-Levet, C. S., Cho, K.-H. and Wolkenhauer, O. (2003) Microarray data clustering based on temporal
variation: FCV with TSD preclustering, Applied Bioinformatics 2(1), 35–45.
Ramoni,M.F., Sebastiani,P. and Kohane,I.S. (2002) Cluster analysis of gene expression dynamics. Proc.
Natl Acad. Sci. USA, 99, 9121–9126.
Schleip, A., Schonhuth, A. and Steinhoff, C. (2003) Using hidden markov models analyze gene expression
time course data, Bioinformatics 19(1), i255–i263.
Spellman,P.T., Sherlock,G., Zhang,M.Q., Iyer,V.R., Anders,K., Eisen,M.B., Brown,P.O., Botstein,D. and
Futcher,B. (1998) Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces
cerevisiae by microarray hybridization. Mol. Biol. Cell, 9, 3273–3797.
Tutti gli articoli (anche non citati) utilizzati sono raccolti nella cartella “biblioteca” del cd allegato.
Ringrazio chi ha seguito chi ha seguito la presentazione per la pazienza avuta oggi venerdì 27 luglio.