Nome e Cognome: Michelangelo Ceci Collaboratori: Corrado Loglisci, Gianvito Pio, Pasqua Fabiana Lanotte, Fabio Fumarola, Donato Malerba, Affiliazione: Dipartimento di Informatica, Università deglli Studi di Bari “A. Moro” Interessi di Ricerca (keywords): data mining, text mining, co-regulation networks, biclustering, hierarchical multi-label classification E-mail: [email protected] Website: http://www.di.uniba.it/~ceci/ Titolo e breve descrizione delle attività di ricerca personali e/o del gruppo e/o di sviluppo per le Imprese (Cosa) Tecniche di data mining per la caratterizzazione di entità biologiche Linea 1: Mining di letteratura biomedica per i) la scoperta di strutture sintattiche frequenti, ii) individuazione di link temporali e iii) la classificazione semantica di ruoli. Collaborazioni: Domenica D'Elia (ITB-CNR), Sabino Liuni (ITB-CNR), Flavio Licciulli (ITB-CNR). Linea 2: Applicazione di tecnolgie di data-mining per l’identificazione di moduli di co-regolazione miRNA:mRNA per lo studio dei meccanismi molecolari e della funzione dei miRNAs nella regolazione dell’espressione genica. Collaborazioni: Domenica D'Elia (ITB-CNR). Linea 3: Modelli predittivi multi-label gerarchici per la predizione della funzione dei geni. Collaborazioni: Saso Dzeroski (DKT – JSI, Slovenia) Linea 4: Interoperabilità tra sorgenti di dati biologici diverse ed eterogenee per il supporto all’estrazione, navigazione e visualizzazione dei dati. Collaborazioni: Mauro Coluccia (DIMO-UNIBA), Pietro Hiram Guzzi (DSMC-UNICZ), Federica Mandreoli (DII-UNIMO), Riccardo Martoglia (DII-UNIMO), Elio Masciari (ICAR-CNR), Massimo Mecella (DIS-UNIROMA1), Wilma Penzo (DEIS-UNIBO). Breve descrizione degli scopi scientifici della/e linea/e di ricerca descritta/e sopra (Perché) Linea 1: L’avvento delle nuove tecnologie di next generation sequencing (NGS) ha recentemente rivoluzionato le conoscenze in campo biologico relative al ruolo di un gran numero di categorie diverse di RNA non codificante (ncRNAs) nella regolazione genica di animale e piante. L’obiettivo di questa linea di ricerca è l’applicazione di tecniche di text mining ed information extraction per analizzare la letteratura scientifica disponibile in PubMed, al fine di estrarre informazioni utili per la classificazione e l’annotazione funzionale di ncRNAs da esperimenti di NGS. Linea 2: I microRNA (miRNAs) sono piccole molecole di RNA non-codificante che svolgono un ruolo importantissimo nella regolazione post-trascrizionale di geni coinvolti in diversi processi biologici come lo sviluppo, il differenziamento e l’apoptosi. Studi recenti ne hanno sottolineato l’importanza come target diagnostici e terapeutici in diversi tipi di tumori e nelle malattie neurodegenerative. Questa linea di ricerca è focalizzata sullo sviluppo di uno strumento di analisi bioinformatica per l’individuazione e l’analisi di networks di co-regolazione genica mediata dai miRNAs finalizzato a facilitare la gestione e l’interpretazione di dati di espressione genica indotti e mediati dai miRNAs in diverse condizioni fisiologiche e patologiche. Da un punto di vista metodologico, si propongono approcci di data mining progettati in modo specifico per raggruppare i miRNAs ed i loro RNAs messaggeri (mRNAs) target sulla base di insiemi di singole interazioni validate sperimentalmente e/o predette. Linea 3: Le ontologie relative alle funzioni dei geni, quali Gene Ontology e MIPS-FUN, assumono che le classi funzionali siano organizzate gerarchicamente, ossia che vi siano funzioni generali che includono funzioni più specifiche. Questo ha portato allo sviluppo di algoritmi di apprendimento per la predizione della funzione dei geni basati su tali assunzioni. In questo contesto (classificazione multi-label gerarchica) è stato sviluppato un algoritmo di predizione della funzione dei geni, basato su alberi di decisione. L’innovazione portata dall’approccio proposto consiste nel considerare le reti di interazione proteina-proteina (PPI networks) in fase di apprendimento, al fine di cogliere la possibile autocorrelazione tra le annotazioni funzionali, sulla base dell’assunzione che geni correlati tendano a condividere annotazioni funzionali simili. Linea 4: Gli avanzamenti nelle tecnologie high-throughput hanno consentito di investigare meglio le differenze tra cellule umane di individui sani e malati. Ciò ha portato alla produzione di grandi quantità di dati, distribuiti su numerosi database. In questo contesto, è stato proposto il framework IS-BioBank (Integrated Semantic Biological Data Bank) che permette l’interoperabilità tra diverse sorgenti di dati biologici, al fine di supportare gli esperti nei complessi processi di estrazione, navigazione e visualizzazione della conoscenza nascosta in grandi moli di dati di questo tipo. In questo framework, un ruolo centrale è svolto dalla Connectivity Map (CMap), un database che mette in correlazione malattie, processi fisiologici e l’azione di medicinali. Il sistema sarà usato in uno studio pilota sul Mieloma Multiplo (MM). Breve descrizione delle metodologie e approcci utilizzati (Come) Linea 1: Scoperta di strutture sintattiche frequenti. Si studia il problema dell’analisi di collezioni di documenti testuali (non strutturati) al fine di identificare strutture sintattiche che coinvolgono entità che appaiono frequentemente nei documenti ottenuti da repository specifici. Individuazione di link temporali. Si considera la dimensione temporale nell’analisi di letteratura biomedica, focalizzandosi nell’identificazione di relazioni nascoste (link) tra entità apparentemente non correlate, quando sono citate o riportate in articoli pubblicati in diversi periodi. Classificazione semantica di ruoli. Un evento bio-molecolare è un processo che coinvolge e trasforma entità molecolari. Il nostro interesse negli eventi bio-molecolari consiste nella definizione di un approccio capace di classificare i ruoli delle entità presenti nei documenti che descrivono gli eventi o, in altre parole, identificare quali entità sono associate a particolari ruoli negli eventi bio-molecolari. Linea 2: Estrazione di bi-cluster. E’ stato proposto un algoritmo per la scoperta efficiente di bi-cluster altamente coesi, sovrapposti ed organizzati gerarchicamente. L’estrazione può essere condotta da database di interazioni miRNA:mRNA verificate sperimentalmente (es. miRTarBase) o da database di predizioni (es. miRDip). In quest’ultimo caso, l’integrazione di diversi algoritmi di predizione, anche attraverso approcci di ensemble learning semi-supervisionati, ha consentito di ridurre l’impatto del rumore (falsi positivi) sulla significatività dei bi-cluster estratti. Linea 3: Uso delle reti PPI nella classificazione multi-label gerarchica per la predizione della funzione dei geni. Affrontiamo il problema di apprendere modelli di predizione (alberi di decisione basati su clustering – Predictive Clustering Trees) in grado di assegnare a ciascun gene etichette multiple relative alle sue funzioni, sfruttando le loro proprietà individuali e le loro interazioni (catturate dalle reti di interazione proteina-proteina). Rispetto alla maggioranza degli approcci esistenti, che usano solo una delle due sorgenti (proprietà o reti), nell’approccio proposto esse sono usate insieme. Inoltre, l’informazione proveniente dalle reti è utilizzata solo nella fase di apprendimento. Ciò consente di fare predizioni su geni/proteine la cui interazione deve ancora essere investigata. Linea 4: Il framework IS-BioBank. L’obiettivo consiste nell’introdurre un sistema che fornisca un supporto tecnologico per l’accesso alla CMap ed a sorgenti dati aggiuntive, per consentire ai ricercatori di studiare microambienti tumorali, per comprendere le loro specificità e l’effetto dei medicinali considerando la biodiversità dei pazienti. A questo scopo, i) si identificano repository correlate alla CMap; ii) si normalizzano e si integrano i repository identificati rispetto alla CMap; iii) si applicano tecniche di Data Mining per l’estrazione di conoscenza utile dai dati; iv) si usano tecniche per il tagging semantico della CMap; v) Si usano tecniche per interrogare la CMap estesa, i repository identificati e la conoscenza estratta come una sorgente dati unificata; vi) Si usano linguaggi di interrogazione visuali per interrogare la CMap e la conoscenza estratta. Acconsento alla pubblicazione sul sito del Congresso del contenuto della presente form: SI X NO