Title

Consorzio COMETA - Progetto PI2S2
FESR
Parallellizzazione del Multi Layer Model
P-MLM
Un nuovo metodo di “pattern discovering” basato su una analisi multistrato
Davide Corona°, V. Di Gesù*, Giosuè Lo Bosco*, Luca Pinello*,Guocheng Yuan§
*Dipartimento di Matematica e Applicazioni, Universita' degli Studi di Palermo
°Istituto Telethon Dulbecco c/o Universita' degli Studi di Palermo
§Harvard Medical School,Boston, USA
Grid Open Days all’Università di Palermo
Palermo, 6-7.12.2007
www.consorzio-cometa.it
Outline
• Definizione di MLM
• Possibile proposta di parallellizzazione
• Applicazione della metodologia a un
problema biologico
• Architettura e prestazioni stimate
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
2
Analisi Multilivello
• Il metodo proposto per il pattern discovery si basa su
un’analisi multilivello del dominio dei dati.
• L’idea che sta alla base di tale metodo e di tanti altri
metodi che utilizzano più viste degli stessi dati (a
diversa risoluzione o scala) è che tale strategia
permette un’analisi più approfondita.
• Infatti è possibile concentrarsi con una maggiore
precisione sulle aree che si ritiene di maggiore
interesse, aree che possono essere individuate a priori
con viste a più bassa risoluzione
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
3
Multi Layer Model (MLM)
• Il MLM è una tecnica di pattern discovery, basato su
una tecnica di sogliatura multilivello [1,2].
• Per sogliatura si intende una operazione che metta in
evidenza gli elementi del segnale di ingresso, f, per
cui:
 f  x  p  f  x    true
  x  
altrimenti
k
• Dove p è una condizione definita sugli elementi di f.
[1] Davide Corona, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo Cheng Yuan “A new Multi-Layers Method to Analyze Gene
Expression”, KES 2007, in vol.LNAI 4694, pp. 862-869, 2007.
[2] Davide Corona, Marianna Collesano, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo-Cheng Yuan, “A Multi-Layer Model to
study Genome-Scale Positions of Nucleosomes”, proceedings 6th IWDAA «Livio Scarsi» -Modelling and Simulation in Science,
EMFCSC-Series, World Scientific.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
4
L’idea alla base del MLM
• L’idea alla base dell’MLM è quella di esplorare il
segnale a diverse soglie, in modo da trovare possibili
regioni interessanti.
• In generale:
MLM  f  x    1  x  ,  2  x  ,
• Dove ogni
condizione .
 k  x
, k  x  ,
,  K  x 
è caratterizzata da una specifica
• Le regioni ritenute “interessanti” possono essere
utilizzate come input di un algoritmo di classificazione
“classico”.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
5
Più viste dello stesso input
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
6
Perché utilizzare il MLM
• L’approccio MLM è più accurato e robusto rispetto ad
un metodo naive, basato soltanto su una sogliatura
statica che fornisce risultati poco accurati soprattutto
in presenza di forte rumore nei dati.
• Accuratezza e robustezza derivano dal fatto che più
condizioni, p, consentono di validare la stessa ipotesi
su più viste del dato di ingresso.
• Per tale motivo questo approccio introduce una certa
“flessibilità” nel processo di riconoscimento.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
7
Schema Generale del MLM
Definizione di un modello
per i pattern
Segnale
di input
Preprocessing
del segnale
Stima del numero di soglie
da utilizzare
Stima del numero di soglie
da ritenere interessanti per
la scoperta di nuovi
pattern
Apprendimento dai dati di input
Segnale
di input
Preprocessing
del segnale
Analisi Multi
Soglia
Funzione
di score
Classificatore
Modello per i
pattern interessanti
Pattern Discovery
Classificazione
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
8
Estrazione delle regioni “interessanti
• Si considerano un numero di livelli o soglie pari a N e
si suddivide l’intervallo [SMIN,SMAX] in N livelli che
indicheremo con l1, l2, …, lN.
• Si considerano quindi i punti di intersezione tra le rette
constanti di valore l1, l2,..,lN e i vari segmenti del
segnale:
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
9
Funzione di score e identificazione dei pattern
• Ad ogni livello è possibile individuare degli intervalli
che indicheremo con
I1  l1  , I 2  l1  ,
, I M1  l1  , I1  l2  , I 2  l2  ,
, I M 2 l2  ,
, I 2  lN  ,
, I M N  lN 
• Inoltre indicheremo gli estremi del generico intervallo
con
bi  lk  , ei  lk  
Ii  lk 
• Dopodiché si preservano gli intervalli che rispettano
una specifica regola decisionale per un prefissato
numero di soglie
• L’identificazione dei pattern interessanti avviene
utilizzando la funzione di score che andrà ad attribuire
un valore di dissimilarità o distanza dal modello creato
nella fase di addestramento del MLM.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
10
I pattern e la loro rappresentazione
•
Un pattern sarà quindi una lista di intervalli:

 
Ps  I s1  l1  , , I sk lk  , I sk 1 lk 1  , , I st  lt   bs1 l1  , es1 l1  , , bsk lk  , esk lk  ,

bs  lk 1  , es  lk 1  , , bst  lt  , est  lt 
t
k 1
 t

 k 1

• I pattern interessanti devono rispettare una determinata
condizione alle varie soglie ad esempio un criterio di
permanenza:
t  N (N indica il numero totale di livelli)
t   ( indica il numero di livelli per considerare interessante un pattern)

! I s  l j  : I s  l j 1   I s  l j 
j
j 1
j

ovvero b l , e l   b l , e l 

 s j1  j 1  s j1  j 1   s j  j  s j  j 
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
11
I parametri del MLM
•
I parametri del metodo, qualunque siano il modello e
la funzione di score scelta sono quindi:
1. N: che specifica il numero di livelli considerati per
“tagliare” il segnale;
2.
 : la percentuale di permanenza degli intervalli su un
certo pattern rispetto al numero totale di livelli
considerati.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
12
Applicazione : individuazione dei nuclesomi da un segnale
proveniente da microarray
• Il problema biologico preso in esame
riguarda
il
posizionamento
dei
nucleosomi nel DNA.
• I
nucleosomi
sono
sottounità
fondamentali che si ripetono lungo il DNA
nella cromatina di tutti gli organismi
eucarioti, e costituiscono la sua unità di
strutturazione fondamentale.
• Il
loro
posizionamento
fornisce
informazioni utili circa la regolazione del
livello di espressione genico nelle cellule.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
13
Il segnale
• Per misurare la posizione dei nucleosomi su scala
genomica, è stato utilizzato un DNA microarray per
identificare le sequenze corrispondenti ai nucleosomi
• Si ottiene un segnale con un andamento che presenta
dei picchi in presenza di nucleosomi
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
14
Risultati ottenuti
• Si è validato il MLM con un segnale sintentico, ottenendo una
percentuale di riconoscimento delle regioni nucleosomiche pari
78%.
• Inoltre si è confrontato il MLM con una metodologia basata sugli
Hidden Markov Model sui dati reali ottenendo un accordo pari al
76%
Linker MLM
Nucleosoma MLM
Linker HMM
0.7880
0.2120
Nucleosoma HMM
0.2643
0.7357
Metodo
• Inoltre il MLM sembra più sensibile alle regioni corrispondenti a
segnali deboli, e permette di individuare un’ulteriore categoria di
nuclesomi.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
15
Esempio di discovery e classificazione
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
16
Problema biologico e sua dimensione
• Si intende realizzare un algoritmo parallelo efficiente per
l’individuazione delle posizioni dei nucleosomi nel DNA,
basandosi sul MLM, al fine di elaborare grandi quantità di dati
provenienti da microarray;
• La dimensione media dei dati provenienti da microarray che si
possono produrre al giorno si aggira intorno a 4x107 spots/day;
• Il file contenente il segnale da analizzare, considerando che il
segnale è rappresentato da double a 8 byte, si aggirerebbe intorno
a 300 MB;
• Utilizzando la versione seriale su un normale pc (Intel Xeon
2.8Ghz) ciò impiegherebbe circa 5 giorni.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
17
P-MLM
•
La parallellizzazione del MLM, (supponendo di avere a
disposizione n processori) si basa sulla suddivisione
del dominio dei dati secondo il paradigma SIMD
utilizzando due possibili strategie :
1. Suddivisione del segnale di ingresso in n
segmenti con overlap;
2. Suddivisione del segnale di ingresso in n
segmenti senza overlap.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
18
Segmenti con overlap
• Ogni processore utilizza una
regione del segnale che si
sovrappone
parzialmente
con le regioni dei processori
adiacenti;
•
L’overlap va scelto accuratamente per ridurre il più possibile i pattern
che cadono a cavallo tra due regioni e quindi le comunicazioni tra i
processori.
•
Un problema di tale approccio consiste nella determinazione della
regione di overlap e nella rimozione dei “duplicati”.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
19
Segmenti senza overlap
• Ogni processore elabora gli
intervalli
della
propria
regione e comunica al suo
successore
solo
gli
eventuali intervalli parziali
presenti nella sua regione;
• Il successore ricostruirà
quindi il pattern tenendo
conto di tali intervalli
parziali.
•
In questo modo si elimina il problema della rimozione dei pattern
duplicati che si presenta nel caso di segmenti con overlap,
mantenendo nello stesso tempo il livello di comunicazione intraprocessori ragionevolmente basso.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
20
Stima dell’overhead
dell’algoritmo parallelo è:
Ts
Tp 
 Overhead
Np
•
Una stima del costo
•
L’overhead nel caso di segmenti non
overlappati
risulta
costante
e
comporta soltanto lo spostamento di
pochi dati dal processore Pi al
processore Pi+1 ;
•
In particolare il paradigma SIMD assicura che il costo dell’overhead sia
costante ed indipendente dal numero dei processori;
•
Nel nostro caso l’overhead dipende soltanto dal numero di soglie
utilizzate dal MLM (solitamente da 20 a 40 soglie).
•
L’overhead quindi nel caso peggiore consiste nella trasmissione di un
vettore di 40 elementi ciascuno di 8 byte (double) dal processore Pi al
processore Pi+1.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
21
Architettura disponibile e stima dei tempi
• Utilizzando quindi come divisione del dominio dei dati la versione
senza overlap, che mantiene bassa la comunicazione tra i
processori, ci aspettiamo uno speed-up abbastanza vicino a
quello teorico e un algoritmo altamente scalabile;
• Infatti il tempo di comunicazione si può considerare in prima
analisi trascurabile rispetto al tempo di elaborazione di ogni
regione;
• Si intende implementare il software in C servendosi delle librerie
MPI;
• Si intendono utilizzare per testare l’algoritmo 32 macchine con
processori dual core AMD OPTERON (~1800 MHz clock)
aspettandoci una riduzione del tempo dell’analisi dai 5 giorni sulla
macchina seriale a poche ore.
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
22
Any Questions ?
Thank you very much for your kind attention!
Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007
23