Proposte di Tesi Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli, Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero, Alberto Grand, Luigi Grimaudo Torino, Giugno 2011 Data Mining Algorithms Algoritmi di data mining disk-based (1) Estrazione di regole di associazione Estrazione itemset frequenti -> Complessità elevata Generazione delle regole Grandi quantità di memoria principale allocata per le strutture dati rendono gli algoritmi proposti poco scalabili Materializzazione di strutture dati su file per ottimizzare l’estrazione degli itemset frequenti e rendere scalabili gli algoritmi di estrazione DB MG Tania Cerquitelli 3 Algoritmi di data mining disk-based (2) Algoritmi di clustering Individuazione di gruppi di oggetti che condividono proprietà comuni Grandi quantità di memoria principale allocata per le strutture dati rendono gli algoritmi proposti poco scalabili Materializzazione di strutture dati su file per ottimizzare l’uso degli algoritmi di clustering su elevati volumi di dati, non gestibili dagli approcci esistenti in letteratura DB MG Tania Cerquitelli 4 Ottimizzatore orientato al Data Mining Estrazione di regole di associazione Estrazione itemset frequenti -> Complessità elevata Generazione delle regole Diversi algoritmi di estrazione sono stati proposti in letteratura Algoritmi diversi sono appropriati per diverse distribuzioni di dati Alcuni algoritmi sono stati integrati nei DBMS relazionali Alcuni algoritmi utilizzano strutture dati materializzati su fili binari Sviluppo di un modulo (i.e., ottimizzatore), eventualmente integrato in un DBMS Open Source (e.g., PostgreSQL), in grado di selezionare, per una determinata distribuzione di dati, l’algoritmo più efficiente per ottimizzare il processo di mining DB MG Tania Cerquitelli 5 Strutture dati disk-based per il Text Mining Grandi volumi di dati testuali Grandi quantità di memoria principale allocata per le strutture dati rendono gli algoritmi proposti poco scalabili ProposteTesi-Tania_11_01_10 Query Progettazione di nuove strutture dati disk-based per la rappresentazione efficiente di grandi volumi di dati testuali Text mining basato su diverse tecniche di analisi (e.g., clustering, estrazione delle regole di associazione) DB MG Tania Cerquitelli, Alessandro Fiori, Alberto Grand 6 Estrazione di regole generalizzate con vincoli Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità Utilizzo di tassonomie per l’aggregazione dei dati Numero elevato di regole estratte -> alta complessità I vincoli servono a limitare l’informazione estratta a un sottoinsieme d’interesse Studio e implementazione di algoritmi di estrazione di regole di associazione generalizzate con vincoli DB MG Luca Cagliero 7 Classificazione bayesiana mediante regole generalizzate Le regole generalizzate raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità Utilizzo di tassonomie per l’aggregazione dei dati La classificazione bayesiana utilizza un modello probabilistico per predire la classe di un dato di test Studio e implementazione di un algoritmo di classificazione bayesiano che utilizza regole di associazione generalizzate DB MG Luca Cagliero 8 Dynamic data mining Analisi e comparazione dell'informazione estratta durante diverse sessioni di data mining e knowlegde discovery schedulate nel tempo. I pattern generalizzati raccolgono informazioni di correlazione tra insiemi di dati di diversa granularità Utilizzo di tassonomie per l’aggregazione dei dati Estrazione e analisi di regole dinamiche generalizzate DB MG Luca Cagliero 9 Classificazione di serie temporali Serie temporale Serie temporale multivariata Sequenza (ordinata) di numeri reali Ogni dato è composto da coppie <attributo: serie temporale> Tipo di dato che si trova in molti domini applicativi (medicina, finanza, multimedia...) Sviluppo e implementazione di algoritmo per DB MG Selezione attributi che discriminano meglio le diverse classi Classificazione dei dati Tania Cerquitelli 10 Database systems Database distribuiti Challenge Scalabilità e affidabilità dei database di applicazioni (web) che permettono di interagire con reti di amici (social networks) interagire con luoghi fisici reali (check-in) condividere dati molto complessi e multimediali (like, comment, foto e video) Esempi: Facebook, Twitter e Foursquare sono cresciuti a ritmi del 1000% Solution Scalabilità orizzontale non è possibile aggiungere risorse ad un unico DB centrale aggiungere nuovi database “piccoli” creando una rete di DB distribuiti Database a documenti sfruttare la semplicità di database non-relazionali (es. a documenti) facile gestione della replicazione e ottime performance Studio delle potenzialità di DB distribuiti e DB non-relazionali Riferimenti: mongodb.org, http://goo.gl/6L2yC DB MG Daniele Apiletti 12 Modellazione concettuale di basi di dati Le basi di dati sono progettate mediante il modello Entity-Relationship Attualmenti sono disponibili pochi strumenti per la modellazione ER GNU Ferret (http://www.gnuferret.org/) offre poche funzionalità Sviluppo di un nuovo tool per la modellazione concettuale delle basi di dati DB MG Silvia Chiusano, Paolo Garza 13 Text Mining Summarization Riassunto di documenti Studi possibili identificazione di informazioni rilevanti da notizie, articoli scientifici, blogs clustering di sentenze contenenti informazioni simili e rilevanti estrazione di informazioni biologiche da testi validazione di risultati sperimentali a seconda del campo applicativo sviluppo di nuovi metodi di sommarizazione basati sull’informazione di interesse incremento della rappresentazione dei dati per velocizzare il processo di generazione del sommario rappresentazione dei risultati a seconda delle queries dell’utente integrazione di algoritmi di estrazione Information retrieval, text mining, summarization, clustering DB MG Alessandro Fiori 15 Inferenza di ontologie Ontologia Organizzazione rigorosa ed esaustiva di un dominio della conoscenza Struttura gerarchica rappresenta le entità rilevanti e le loro relazioni Text mining per l’inferenza di ontologie identificare i concetti mediante approcci di entity recognition Estrarre le relazioni tra le entità Esempi: DBPedia, YAGO Applicazioni Scoprire relazioni tra entità di dominio usando notizie, articoli scientifici, blogs, ecc. Validare le relazioni rappresentate in ontologie pre-calcolate Entity recognition, association rules, text mining DB MG Luca Cagliero, Alessandro Fiori, Alberto Grand 16 Social networks Inferenza di conoscenza dai dati degli utenti estrazione di informazioni rilevanti dai siti di social networking personalizzazione di web crawlers usando i profili utenti identificazione di notizie, locazioni geografiche, ecc. Studi possibili approcci di sommarizazione per identificare informazioni rilevanti classificazione di oggetti web usando i dati generati dagli utenti clustering di pagine web in base al topic Estrazione di regole di associazione per l’analisi dei comportamenti degli utenti sviluppo di recommendation systems usando il comportamento degli utenti nelle social networks Entity recognition, clustering, association rules, text mining DB MG Luca Cagliero, Alessandro Fiori 17 Mining in Specific Application Domains Modello previsionale di energia DB MG Analisi di dati di produzione/consumo di energia elettrica da fonti rinnovabili Correlazione con dati di contesto es. ambientali, meteo, ecc. Progettazione e sviluppo di un framework obiettivo: ottimizzazione della produzione e del consumo di energia metodo: modello previsionale dei consumi e della produzione Daniele Apiletti, Tania Cerquitelli 19 Interrogazioni di Reti di Sensori App “La rete di sensori è una base di dati” Interrogare la rete Query, Trigger Dati TinyDB Applicare le tecniche di Data mining per scoprire le correlazioni tra i diversi attributi Rete di Sensori DB MG Tania Cerquitelli Acquisizione (eventualmente aggregazione) delle misure che descrivono lo stato dell’ambiente monitorato Quali sensori/misure sono correlate? Qual è il grado di correlazione? (generalmente le misure acquisite dai sensori sono fortemente correlate) Quando i sensori/misure sono correlate? (e.g. dalle 8:00 a.m. alle 11:00 a.m.) 20 Analisi del Traffico di Rete Wireless Sicurezza Progettazione Tania Cerquitelli Dimensionare le proprie risorse di rete Analizzare il traffico di rete wireless mediante algoritmi di data mining DB MG Individuare e prevedere eventuali intrusioni Regole di Associazione Algoritmi di Clustering 21 Gestione dati geografici Necessità di uniformare i dati raccolti mediante osservazioni naturalistiche nella regione Alpi Marittime Mercantour Collaborazione con l’Istituto Superiore sui Sistemi Territoriali per l’Innovazione (SiTi) di Torino Tesi: implementazione di un database PostgreSQL per gestire dati naturalistici con coordinate geografiche, implementazione di interfacce di inserimento dati, sviluppo di query di ricerca mediante criteri geografici DB MG Giulia Bruno 22 Analisi di dati medici Analisi database contenenti lo storico degli esami effettuati dai pazienti Obiettivi estrarre le sequenze di esami eseguite più frequentemente ricavare i pattern relativi a specifici sintomi studiare una rappresentazione compatta delle sequenze per una successiva validazione medica Tesi: studio e implementazione di un algoritmo di estrazione di sequenze, in particolare per la gestione di sequenze con o senza gap, vincoli temporali sugli intervalli di tempo e tassonomie sulla tipologia di esami DB MG Giulia Bruno 23 Validazione algoritmi per clustering di geni Analizzando i dati di espressione genica (microarray) è possibile raggruppare geni in base al loro comportamento in diverse situazioni sperimentali attraverso l’utilizzo di algoritmi di clustering In questo contesto la validazione dei risultati è critica per mancanza di dataset di riferimento difficoltà di scelta di un indice di qualità adatto Tesi: studio e implementazione di algoritmi di clustering e valutazione di indici di validazione per l’analisi di dati di espressione genica DB MG Giulia Bruno, Alessandro Fiori 24 Integrazione dati clinici-molecolari Nell’ambito della medicina personalizzata, riveste particolare importanza l’integrazione di dati medici a diversi livelli (clinici e genetici) gestione di dati eterogenei visione globale di un sistema complesso quale il corpo umano identificazione di correlazioni tra differenti studi e/o esperimenti Tesi: studio e modellazione di un sistema (database/data warehouse) per l’integrazione di dati clinici e molecolari, valutazione di di sistemi esistenti (caBIG), studio di strutture fisiche accessorie per miglioramento delle performance, implementazione di interfacce grafiche di accesso ai dati DB MG Giulia Bruno, Alessandro Fiori 25 Analisi di dati sportivi Analisi di dati fisiologici • Misura dei progressi di un atleta • Misura indiretta di lattato e acido lattico • Migliorare l'efficacia dell'allenamento degli atleti Estrazione di conoscenza • Definizione di un profilo per ogni atleta (es. frequenza cardiaca allenante) • Classificazione degli atleti DB MG Tania Cerquitelli 26 Analisi delle notizie Studi tecniche di Query Expansion per allargare il dominio di ricerca mediante generazione di query alternative costruite a partire dalla query originale Collaborative filtering, basato sul paradigma che gruppi di utenti simili condividono contenuti simili Content-based filtering, basato sul paradigma che gruppi di contenuti simili sono condivisi dallo stesso utente Hybrid filtering, basato su combinazione degli approcci precedenti New story detection: dato un flusso continuo di notizie determina quando viene incontrata una nuova notizia (per servizi di breaking News) Topic detection and linking: dato un flusso di notizie determina l’insieme di notizie inerenti lo stesso topic, e le relazioni esistenti tra tali notizie Topic tracking: data una serie di eventi di interesse per l’utente, determina le notizie future correlate a tali eventi Rilevamento automatico degli highlights in eventi sportivi DB MG Alessandro Fiori 27 Analisi dei dati di trasporto pubblico Dati: Dati del sistema di Trasporto Pubblico Locale della città di Torino Obiettivi: Miglioramento dell’accuratezza della previsione dei tempi di percorrenza dei mezzi Ottimizzazione della stabilità della previsione Attività: Studio di metodi di previsione dei tempi di percorrenza dei mezzi pubblici Applicazioni pratiche: Previsioni d’arrivo in fermata Stima dell’headway istantaneo Calcolo percorsi in tempo reale DB MG 28 Analisi dati dei sensori di traffico Dati: Dati provenienti dai sensori di monitoraggio del traffico del Sistema 5T Obiettivi: Studiare la correlazione tra sensori (dati) Identificare i guasti impiantistici Attività: Studio di metodi di verifica della qualità dei dati Studio di algoritmi di clustering adattativi alle variazioni dei dati Principali applicazioni: Ottimizzazione dell’utilizzo dei sensori DB MG 29 Stage (tesi) in azienda www.ooros.com Applicazioni web e mobile per interagire con social networks (Facebook, Twitter, Foursquare, LinkedIn, ...) analisi delle interazioni tra gli utenti (sia di base, sia su concorsi, giochi, ecc.) tramite tecniche di data mining Applicazioni web e mobile che sfruttano la geo-localizzazione (es. check-in di Facebook Places, Foursquare, Gowalla, ...) analisi di dati geografici/spaziali (es. “il mio amico più vicino”) indici su database ottimizzati per dati geografici/spaziali Applicazioni mobile (Android, iPhone, etc.) con offline replication replicazione di dati tra database locale e database remoti per la gestione di perdite di connettività DB MG Elena Baralis, Daniele Apiletti 30 Stage (tesi) in azienda Core business: soluzioni ICT per la Pubblica Amministrazione Analisi di strumenti statistici e per la Business Intelligence (BI) per ilCentro di Competenza Specializzato sui Dati della Pubblica Amministrazione, nell’ambito della Fiscalità Analizzare sistemi di BI sviluppati dal CSI per la Città di Torino rispetto al profilo medio italiano Analizzare tecniche statistiche avanzate e tecniche di Data Mining (DM) Realizzare casi di studio utilizzando Sas Enterprise Miner Proporre l’applicazione di tecniche statistiche e di DM nell’ambito della Fiscalità DB MG Elena Baralis 31