Consorzio COMETA - Progetto PI2S2 FESR Parallellizzazione del Multi Layer Model P-MLM Un nuovo metodo di “pattern discovering” basato su una analisi multistrato Davide Corona°, V. Di Gesù*, Giosuè Lo Bosco*, Luca Pinello*,Guocheng Yuan§ *Dipartimento di Matematica e Applicazioni, Universita' degli Studi di Palermo °Istituto Telethon Dulbecco c/o Universita' degli Studi di Palermo §Harvard Medical School,Boston, USA Grid Open Days all’Università di Palermo Palermo, 6-7.12.2007 www.consorzio-cometa.it Outline • Definizione di MLM • Possibile proposta di parallellizzazione • Applicazione della metodologia a un problema biologico • Architettura e prestazioni stimate Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 2 Analisi Multilivello • Il metodo proposto per il pattern discovery si basa su un’analisi multilivello del dominio dei dati. • L’idea che sta alla base di tale metodo e di tanti altri metodi che utilizzano più viste degli stessi dati (a diversa risoluzione o scala) è che tale strategia permette un’analisi più approfondita. • Infatti è possibile concentrarsi con una maggiore precisione sulle aree che si ritiene di maggiore interesse, aree che possono essere individuate a priori con viste a più bassa risoluzione Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 3 Multi Layer Model (MLM) • Il MLM è una tecnica di pattern discovery, basato su una tecnica di sogliatura multilivello [1,2]. • Per sogliatura si intende una operazione che metta in evidenza gli elementi del segnale di ingresso, f, per cui: f x p f x true x altrimenti k • Dove p è una condizione definita sugli elementi di f. [1] Davide Corona, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo Cheng Yuan “A new Multi-Layers Method to Analyze Gene Expression”, KES 2007, in vol.LNAI 4694, pp. 862-869, 2007. [2] Davide Corona, Marianna Collesano, Vito Di Gesù, Giosuè Lo Bosco, Luca Pinello, Guo-Cheng Yuan, “A Multi-Layer Model to study Genome-Scale Positions of Nucleosomes”, proceedings 6th IWDAA «Livio Scarsi» -Modelling and Simulation in Science, EMFCSC-Series, World Scientific. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 4 L’idea alla base del MLM • L’idea alla base dell’MLM è quella di esplorare il segnale a diverse soglie, in modo da trovare possibili regioni interessanti. • In generale: MLM f x 1 x , 2 x , • Dove ogni condizione . k x , k x , , K x è caratterizzata da una specifica • Le regioni ritenute “interessanti” possono essere utilizzate come input di un algoritmo di classificazione “classico”. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 5 Più viste dello stesso input Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 6 Perché utilizzare il MLM • L’approccio MLM è più accurato e robusto rispetto ad un metodo naive, basato soltanto su una sogliatura statica che fornisce risultati poco accurati soprattutto in presenza di forte rumore nei dati. • Accuratezza e robustezza derivano dal fatto che più condizioni, p, consentono di validare la stessa ipotesi su più viste del dato di ingresso. • Per tale motivo questo approccio introduce una certa “flessibilità” nel processo di riconoscimento. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 7 Schema Generale del MLM Definizione di un modello per i pattern Segnale di input Preprocessing del segnale Stima del numero di soglie da utilizzare Stima del numero di soglie da ritenere interessanti per la scoperta di nuovi pattern Apprendimento dai dati di input Segnale di input Preprocessing del segnale Analisi Multi Soglia Funzione di score Classificatore Modello per i pattern interessanti Pattern Discovery Classificazione Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 8 Estrazione delle regioni “interessanti • Si considerano un numero di livelli o soglie pari a N e si suddivide l’intervallo [SMIN,SMAX] in N livelli che indicheremo con l1, l2, …, lN. • Si considerano quindi i punti di intersezione tra le rette constanti di valore l1, l2,..,lN e i vari segmenti del segnale: Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 9 Funzione di score e identificazione dei pattern • Ad ogni livello è possibile individuare degli intervalli che indicheremo con I1 l1 , I 2 l1 , , I M1 l1 , I1 l2 , I 2 l2 , , I M 2 l2 , , I 2 lN , , I M N lN • Inoltre indicheremo gli estremi del generico intervallo con bi lk , ei lk Ii lk • Dopodiché si preservano gli intervalli che rispettano una specifica regola decisionale per un prefissato numero di soglie • L’identificazione dei pattern interessanti avviene utilizzando la funzione di score che andrà ad attribuire un valore di dissimilarità o distanza dal modello creato nella fase di addestramento del MLM. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 10 I pattern e la loro rappresentazione • Un pattern sarà quindi una lista di intervalli: Ps I s1 l1 , , I sk lk , I sk 1 lk 1 , , I st lt bs1 l1 , es1 l1 , , bsk lk , esk lk , bs lk 1 , es lk 1 , , bst lt , est lt t k 1 t k 1 • I pattern interessanti devono rispettare una determinata condizione alle varie soglie ad esempio un criterio di permanenza: t N (N indica il numero totale di livelli) t ( indica il numero di livelli per considerare interessante un pattern) ! I s l j : I s l j 1 I s l j j j 1 j ovvero b l , e l b l , e l s j1 j 1 s j1 j 1 s j j s j j Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 11 I parametri del MLM • I parametri del metodo, qualunque siano il modello e la funzione di score scelta sono quindi: 1. N: che specifica il numero di livelli considerati per “tagliare” il segnale; 2. : la percentuale di permanenza degli intervalli su un certo pattern rispetto al numero totale di livelli considerati. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 12 Applicazione : individuazione dei nuclesomi da un segnale proveniente da microarray • Il problema biologico preso in esame riguarda il posizionamento dei nucleosomi nel DNA. • I nucleosomi sono sottounità fondamentali che si ripetono lungo il DNA nella cromatina di tutti gli organismi eucarioti, e costituiscono la sua unità di strutturazione fondamentale. • Il loro posizionamento fornisce informazioni utili circa la regolazione del livello di espressione genico nelle cellule. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 13 Il segnale • Per misurare la posizione dei nucleosomi su scala genomica, è stato utilizzato un DNA microarray per identificare le sequenze corrispondenti ai nucleosomi • Si ottiene un segnale con un andamento che presenta dei picchi in presenza di nucleosomi Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 14 Risultati ottenuti • Si è validato il MLM con un segnale sintentico, ottenendo una percentuale di riconoscimento delle regioni nucleosomiche pari 78%. • Inoltre si è confrontato il MLM con una metodologia basata sugli Hidden Markov Model sui dati reali ottenendo un accordo pari al 76% Linker MLM Nucleosoma MLM Linker HMM 0.7880 0.2120 Nucleosoma HMM 0.2643 0.7357 Metodo • Inoltre il MLM sembra più sensibile alle regioni corrispondenti a segnali deboli, e permette di individuare un’ulteriore categoria di nuclesomi. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 15 Esempio di discovery e classificazione Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 16 Problema biologico e sua dimensione • Si intende realizzare un algoritmo parallelo efficiente per l’individuazione delle posizioni dei nucleosomi nel DNA, basandosi sul MLM, al fine di elaborare grandi quantità di dati provenienti da microarray; • La dimensione media dei dati provenienti da microarray che si possono produrre al giorno si aggira intorno a 4x107 spots/day; • Il file contenente il segnale da analizzare, considerando che il segnale è rappresentato da double a 8 byte, si aggirerebbe intorno a 300 MB; • Utilizzando la versione seriale su un normale pc (Intel Xeon 2.8Ghz) ciò impiegherebbe circa 5 giorni. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 17 P-MLM • La parallellizzazione del MLM, (supponendo di avere a disposizione n processori) si basa sulla suddivisione del dominio dei dati secondo il paradigma SIMD utilizzando due possibili strategie : 1. Suddivisione del segnale di ingresso in n segmenti con overlap; 2. Suddivisione del segnale di ingresso in n segmenti senza overlap. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 18 Segmenti con overlap • Ogni processore utilizza una regione del segnale che si sovrappone parzialmente con le regioni dei processori adiacenti; • L’overlap va scelto accuratamente per ridurre il più possibile i pattern che cadono a cavallo tra due regioni e quindi le comunicazioni tra i processori. • Un problema di tale approccio consiste nella determinazione della regione di overlap e nella rimozione dei “duplicati”. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 19 Segmenti senza overlap • Ogni processore elabora gli intervalli della propria regione e comunica al suo successore solo gli eventuali intervalli parziali presenti nella sua regione; • Il successore ricostruirà quindi il pattern tenendo conto di tali intervalli parziali. • In questo modo si elimina il problema della rimozione dei pattern duplicati che si presenta nel caso di segmenti con overlap, mantenendo nello stesso tempo il livello di comunicazione intraprocessori ragionevolmente basso. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 20 Stima dell’overhead dell’algoritmo parallelo è: Ts Tp Overhead Np • Una stima del costo • L’overhead nel caso di segmenti non overlappati risulta costante e comporta soltanto lo spostamento di pochi dati dal processore Pi al processore Pi+1 ; • In particolare il paradigma SIMD assicura che il costo dell’overhead sia costante ed indipendente dal numero dei processori; • Nel nostro caso l’overhead dipende soltanto dal numero di soglie utilizzate dal MLM (solitamente da 20 a 40 soglie). • L’overhead quindi nel caso peggiore consiste nella trasmissione di un vettore di 40 elementi ciascuno di 8 byte (double) dal processore Pi al processore Pi+1. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 21 Architettura disponibile e stima dei tempi • Utilizzando quindi come divisione del dominio dei dati la versione senza overlap, che mantiene bassa la comunicazione tra i processori, ci aspettiamo uno speed-up abbastanza vicino a quello teorico e un algoritmo altamente scalabile; • Infatti il tempo di comunicazione si può considerare in prima analisi trascurabile rispetto al tempo di elaborazione di ogni regione; • Si intende implementare il software in C servendosi delle librerie MPI; • Si intendono utilizzare per testare l’algoritmo 32 macchine con processori dual core AMD OPTERON (~1800 MHz clock) aspettandoci una riduzione del tempo dell’analisi dai 5 giorni sulla macchina seriale a poche ore. Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 22 Any Questions ? Thank you very much for your kind attention! Palermo, Grid Open Days all’Università di Palermo, 6-7.12.2007 23