PDF - Istituto di Tecnologie Biomediche, Bari

annuncio pubblicitario
Nome e Cognome: Michelangelo Ceci
Collaboratori: Corrado Loglisci, Gianvito Pio, Pasqua Fabiana Lanotte, Fabio Fumarola, Donato Malerba,
Affiliazione: Dipartimento di Informatica, Università deglli Studi di Bari “A. Moro”
Interessi di Ricerca (keywords): data mining, text mining, co-regulation networks, biclustering, hierarchical multi-label classification
E-mail: [email protected]
Website: http://www.di.uniba.it/~ceci/
Titolo e breve descrizione delle attività di ricerca personali e/o del gruppo e/o di sviluppo per le Imprese (Cosa)
Tecniche di data mining per la caratterizzazione di entità biologiche
Linea 1: Mining di letteratura biomedica per i) la scoperta di strutture sintattiche frequenti, ii) individuazione di link temporali e iii) la
classificazione semantica di ruoli. Collaborazioni: Domenica D'Elia (ITB-CNR), Sabino Liuni (ITB-CNR), Flavio Licciulli (ITB-CNR).
Linea 2: Applicazione di tecnolgie di data-mining per l’identificazione di moduli di co-regolazione miRNA:mRNA per lo studio dei meccanismi
molecolari e della funzione dei miRNAs nella regolazione dell’espressione genica. Collaborazioni: Domenica D'Elia (ITB-CNR).
Linea 3: Modelli predittivi multi-label gerarchici per la predizione della funzione dei geni. Collaborazioni: Saso Dzeroski (DKT – JSI, Slovenia)
Linea 4: Interoperabilità tra sorgenti di dati biologici diverse ed eterogenee per il supporto all’estrazione, navigazione e visualizzazione dei dati.
Collaborazioni: Mauro Coluccia (DIMO-UNIBA), Pietro Hiram Guzzi (DSMC-UNICZ), Federica Mandreoli (DII-UNIMO), Riccardo Martoglia
(DII-UNIMO), Elio Masciari (ICAR-CNR), Massimo Mecella (DIS-UNIROMA1), Wilma Penzo (DEIS-UNIBO).
Breve descrizione degli scopi scientifici della/e linea/e di ricerca descritta/e sopra (Perché)
Linea 1: L’avvento delle nuove tecnologie di next generation sequencing (NGS) ha recentemente rivoluzionato le conoscenze in campo
biologico relative al ruolo di un gran numero di categorie diverse di RNA non codificante (ncRNAs) nella regolazione genica di animale e piante.
L’obiettivo di questa linea di ricerca è l’applicazione di tecniche di text mining ed information extraction per analizzare la letteratura scientifica
disponibile in PubMed, al fine di estrarre informazioni utili per la classificazione e l’annotazione funzionale di ncRNAs da esperimenti di NGS.
Linea 2: I microRNA (miRNAs) sono piccole molecole di RNA non-codificante che svolgono un ruolo importantissimo nella regolazione
post-trascrizionale di geni coinvolti in diversi processi biologici come lo sviluppo, il differenziamento e l’apoptosi. Studi recenti ne hanno
sottolineato l’importanza come target diagnostici e terapeutici in diversi tipi di tumori e nelle malattie neurodegenerative. Questa linea di ricerca
è focalizzata sullo sviluppo di uno strumento di analisi bioinformatica per l’individuazione e l’analisi di networks di co-regolazione genica
mediata dai miRNAs finalizzato a facilitare la gestione e l’interpretazione di dati di espressione genica indotti e mediati dai miRNAs in diverse
condizioni fisiologiche e patologiche. Da un punto di vista metodologico, si propongono approcci di data mining progettati in modo specifico per
raggruppare i miRNAs ed i loro RNAs messaggeri (mRNAs) target sulla base di insiemi di singole interazioni validate sperimentalmente e/o
predette.
Linea 3: Le ontologie relative alle funzioni dei geni, quali Gene Ontology e MIPS-FUN, assumono che le classi funzionali siano organizzate
gerarchicamente, ossia che vi siano funzioni generali che includono funzioni più specifiche. Questo ha portato allo sviluppo di algoritmi di
apprendimento per la predizione della funzione dei geni basati su tali assunzioni. In questo contesto (classificazione multi-label gerarchica) è
stato sviluppato un algoritmo di predizione della funzione dei geni, basato su alberi di decisione. L’innovazione portata dall’approccio proposto
consiste nel considerare le reti di interazione proteina-proteina (PPI networks) in fase di apprendimento, al fine di cogliere la possibile
autocorrelazione tra le annotazioni funzionali, sulla base dell’assunzione che geni correlati tendano a condividere annotazioni funzionali simili.
Linea 4: Gli avanzamenti nelle tecnologie high-throughput hanno consentito di investigare meglio le differenze tra cellule umane di individui
sani e malati. Ciò ha portato alla produzione di grandi quantità di dati, distribuiti su numerosi database. In questo contesto, è stato proposto il
framework IS-BioBank (Integrated Semantic Biological Data Bank) che permette l’interoperabilità tra diverse sorgenti di dati biologici, al fine di
supportare gli esperti nei complessi processi di estrazione, navigazione e visualizzazione della conoscenza nascosta in grandi moli di dati di
questo tipo. In questo framework, un ruolo centrale è svolto dalla Connectivity Map (CMap), un database che mette in correlazione malattie,
processi fisiologici e l’azione di medicinali. Il sistema sarà usato in uno studio pilota sul Mieloma Multiplo (MM).
Breve descrizione delle metodologie e approcci utilizzati (Come)
Linea 1: Scoperta di strutture sintattiche frequenti. Si studia il problema dell’analisi di collezioni di documenti testuali (non strutturati) al fine di
identificare strutture sintattiche che coinvolgono entità che appaiono frequentemente nei documenti ottenuti da repository specifici.
Individuazione di link temporali. Si considera la dimensione temporale nell’analisi di letteratura biomedica, focalizzandosi nell’identificazione di
relazioni nascoste (link) tra entità apparentemente non correlate, quando sono citate o riportate in articoli pubblicati in diversi periodi.
Classificazione semantica di ruoli. Un evento bio-molecolare è un processo che coinvolge e trasforma entità molecolari. Il nostro interesse negli
eventi bio-molecolari consiste nella definizione di un approccio capace di classificare i ruoli delle entità presenti nei documenti che descrivono
gli eventi o, in altre parole, identificare quali entità sono associate a particolari ruoli negli eventi bio-molecolari.
Linea 2: Estrazione di bi-cluster. E’ stato proposto un algoritmo per la scoperta efficiente di bi-cluster altamente coesi, sovrapposti ed organizzati
gerarchicamente. L’estrazione può essere condotta da database di interazioni miRNA:mRNA verificate sperimentalmente (es. miRTarBase) o da
database di predizioni (es. miRDip). In quest’ultimo caso, l’integrazione di diversi algoritmi di predizione, anche attraverso approcci di ensemble
learning semi-supervisionati, ha consentito di ridurre l’impatto del rumore (falsi positivi) sulla significatività dei bi-cluster estratti.
Linea 3: Uso delle reti PPI nella classificazione multi-label gerarchica per la predizione della funzione dei geni. Affrontiamo il problema di
apprendere modelli di predizione (alberi di decisione basati su clustering – Predictive Clustering Trees) in grado di assegnare a ciascun gene
etichette multiple relative alle sue funzioni, sfruttando le loro proprietà individuali e le loro interazioni (catturate dalle reti di interazione
proteina-proteina). Rispetto alla maggioranza degli approcci esistenti, che usano solo una delle due sorgenti (proprietà o reti), nell’approccio
proposto esse sono usate insieme. Inoltre, l’informazione proveniente dalle reti è utilizzata solo nella fase di apprendimento. Ciò consente di fare
predizioni su geni/proteine la cui interazione deve ancora essere investigata.
Linea 4: Il framework IS-BioBank. L’obiettivo consiste nell’introdurre un sistema che fornisca un supporto tecnologico per l’accesso alla CMap
ed a sorgenti dati aggiuntive, per consentire ai ricercatori di studiare microambienti tumorali, per comprendere le loro specificità e l’effetto dei
medicinali considerando la biodiversità dei pazienti. A questo scopo, i) si identificano repository correlate alla CMap; ii) si normalizzano e si
integrano i repository identificati rispetto alla CMap; iii) si applicano tecniche di Data Mining per l’estrazione di conoscenza utile dai dati; iv) si
usano tecniche per il tagging semantico della CMap; v) Si usano tecniche per interrogare la CMap estesa, i repository identificati e la conoscenza
estratta come una sorgente dati unificata; vi) Si usano linguaggi di interrogazione visuali per interrogare la CMap e la conoscenza estratta.
Acconsento alla pubblicazione sul sito del Congresso del contenuto della presente form:
SI
X
NO
Scarica