Proposte di Tesi - DataBase and Data Mining Group

Proposte di Tesi
Elena Baralis, Silvia Chiusano, Paolo Garza, Tania Cerquitelli,
Giulia Bruno, Daniele Apiletti, Alessandro Fiori, Luca Cagliero,
Alberto Grand, Luigi Grimaudo
Torino, Giugno 2011
Data Mining Algorithms
Algoritmi di data mining disk-based (1)



Estrazione di regole di associazione

Estrazione itemset frequenti -> Complessità elevata

Generazione delle regole
Grandi quantità di memoria principale allocata per le
strutture dati rendono gli algoritmi proposti poco
scalabili
Materializzazione di strutture dati su file per ottimizzare
l’estrazione degli itemset frequenti e rendere scalabili gli
algoritmi di estrazione
DB
MG
Tania Cerquitelli
3
Algoritmi di data mining disk-based (2)

Algoritmi di clustering



Individuazione di gruppi di oggetti che condividono proprietà
comuni
Grandi quantità di memoria principale allocata per le
strutture dati rendono gli algoritmi proposti poco
scalabili
Materializzazione di strutture dati su file per ottimizzare
l’uso degli algoritmi di clustering su elevati volumi di
dati, non gestibili dagli approcci esistenti in letteratura
DB
MG
Tania Cerquitelli
4
Ottimizzatore orientato al Data Mining

Estrazione di regole di associazione

Estrazione itemset frequenti -> Complessità elevata

Generazione delle regole

Diversi algoritmi di estrazione sono stati proposti in letteratura

Algoritmi diversi sono appropriati per diverse distribuzioni di dati

Alcuni algoritmi sono stati integrati nei DBMS relazionali

Alcuni algoritmi utilizzano strutture dati materializzati su fili binari

Sviluppo di un modulo (i.e., ottimizzatore), eventualmente
integrato in un DBMS Open Source (e.g., PostgreSQL), in grado di
selezionare, per una determinata distribuzione di dati, l’algoritmo
più efficiente per ottimizzare il processo di mining
DB
MG
Tania Cerquitelli
5
Strutture dati disk-based per il Text Mining


Grandi volumi di dati testuali
Grandi quantità di memoria principale allocata per le
strutture dati rendono gli algoritmi proposti poco
scalabili
ProposteTesi-Tania_11_01_10
Query


Progettazione di nuove strutture dati disk-based per la
rappresentazione efficiente di grandi volumi di dati
testuali
Text mining basato su diverse tecniche di analisi (e.g.,
clustering, estrazione delle regole di associazione)
DB
MG
Tania Cerquitelli, Alessandro Fiori, Alberto Grand
6
Estrazione di regole generalizzate con vincoli




Le regole generalizzate raccolgono informazioni di
correlazione tra insiemi di dati di diversa granularità
 Utilizzo di tassonomie per l’aggregazione dei dati
Numero elevato di regole estratte -> alta complessità
I vincoli servono a limitare l’informazione estratta a un
sottoinsieme d’interesse
Studio e implementazione di algoritmi di estrazione
di regole di associazione generalizzate con vincoli
DB
MG
Luca Cagliero
7
Classificazione bayesiana mediante regole generalizzate



Le regole generalizzate raccolgono informazioni di
correlazione tra insiemi di dati di diversa granularità
 Utilizzo di tassonomie per l’aggregazione dei dati
La classificazione bayesiana utilizza un modello
probabilistico per predire la classe di un dato di test
Studio e implementazione di un algoritmo di
classificazione bayesiano che utilizza regole di
associazione generalizzate
DB
MG
Luca Cagliero
8
Dynamic data mining



Analisi e comparazione dell'informazione estratta durante
diverse sessioni di data mining e knowlegde discovery
schedulate nel tempo.
I pattern generalizzati raccolgono informazioni di correlazione
tra insiemi di dati di diversa granularità
 Utilizzo di tassonomie per l’aggregazione dei dati
Estrazione e analisi di regole dinamiche
generalizzate
DB
MG
Luca Cagliero
9
Classificazione di serie temporali

Serie temporale


Serie temporale multivariata



Sequenza (ordinata) di numeri reali
Ogni dato è composto da coppie
<attributo: serie temporale>
Tipo di dato che si trova in molti
domini applicativi (medicina,
finanza, multimedia...)
Sviluppo e implementazione di
algoritmo per


DB
MG
Selezione attributi che discriminano
meglio le diverse classi
Classificazione dei dati
Tania Cerquitelli
10
Database systems
Database distribuiti
Challenge

Scalabilità e affidabilità dei database di applicazioni (web) che permettono di
 interagire con reti di amici (social networks)
 interagire con luoghi fisici reali (check-in)
 condividere dati molto complessi e multimediali (like, comment, foto e video)

Esempi: Facebook, Twitter e Foursquare sono cresciuti a ritmi del 1000%
Solution

Scalabilità orizzontale
 non è possibile aggiungere risorse ad un unico DB centrale
 aggiungere nuovi database “piccoli” creando una rete di DB distribuiti

Database a documenti
 sfruttare la semplicità di database non-relazionali (es. a documenti)
 facile gestione della replicazione e ottime performance


Studio delle potenzialità di DB distribuiti e DB non-relazionali
Riferimenti: mongodb.org, http://goo.gl/6L2yC
DB
MG
Daniele Apiletti
12
Modellazione concettuale di basi di dati


Le basi di dati sono progettate mediante il
modello Entity-Relationship
Attualmenti sono disponibili pochi strumenti
per la modellazione ER


GNU Ferret (http://www.gnuferret.org/) offre poche
funzionalità
Sviluppo di un nuovo tool per la modellazione
concettuale delle basi di dati
DB
MG
Silvia Chiusano, Paolo Garza
13
Text Mining
Summarization

Riassunto di documenti





Studi possibili





identificazione di informazioni rilevanti da notizie, articoli scientifici,
blogs
clustering di sentenze contenenti informazioni simili e rilevanti
estrazione di informazioni biologiche da testi
validazione di risultati sperimentali a seconda del campo applicativo
sviluppo di nuovi metodi di sommarizazione basati sull’informazione di
interesse
incremento della rappresentazione dei dati per velocizzare il processo
di generazione del sommario
rappresentazione dei risultati a seconda delle queries dell’utente
integrazione di algoritmi di estrazione
Information retrieval, text mining, summarization, clustering
DB
MG
Alessandro Fiori
15
Inferenza di ontologie



Ontologia

Organizzazione rigorosa ed esaustiva di un dominio della conoscenza

Struttura gerarchica

rappresenta le entità rilevanti e le loro relazioni
Text mining per l’inferenza di ontologie

identificare i concetti mediante approcci di entity recognition

Estrarre le relazioni tra le entità

Esempi: DBPedia, YAGO
Applicazioni



Scoprire relazioni tra entità di dominio usando notizie, articoli
scientifici, blogs, ecc.
Validare le relazioni rappresentate in ontologie pre-calcolate
Entity recognition, association rules, text mining
DB
MG
Luca Cagliero, Alessandro Fiori, Alberto Grand
16
Social networks


Inferenza di conoscenza dai dati degli utenti

estrazione di informazioni rilevanti dai siti di social networking

personalizzazione di web crawlers usando i profili utenti

identificazione di notizie, locazioni geografiche, ecc.
Studi possibili


approcci di sommarizazione per identificare informazioni rilevanti

classificazione di oggetti web usando i dati generati dagli utenti

clustering di pagine web in base al topic


Estrazione di regole di associazione per l’analisi dei comportamenti
degli utenti
sviluppo di recommendation systems usando il comportamento degli
utenti nelle social networks
Entity recognition, clustering, association rules, text mining
DB
MG
Luca Cagliero, Alessandro Fiori
17
Mining in Specific Application Domains
Modello previsionale di energia



DB
MG
Analisi di dati di produzione/consumo di
energia elettrica da fonti rinnovabili
Correlazione con dati di contesto
 es. ambientali, meteo, ecc.
Progettazione e sviluppo di un framework
 obiettivo: ottimizzazione della
produzione e del consumo di energia
 metodo: modello previsionale dei
consumi e della produzione
Daniele Apiletti, Tania Cerquitelli
19
Interrogazioni di Reti di Sensori

App

“La rete di sensori è una base di dati”
Interrogare la rete

Query,
Trigger
Dati

TinyDB
Applicare le tecniche di Data mining
per scoprire le correlazioni tra i
diversi attributi

Rete di Sensori


DB
MG
Tania Cerquitelli
Acquisizione (eventualmente
aggregazione) delle misure che
descrivono lo stato dell’ambiente
monitorato
Quali sensori/misure sono correlate?
Qual è il grado di correlazione?
(generalmente le misure acquisite dai
sensori sono fortemente correlate)
Quando i sensori/misure sono
correlate? (e.g. dalle 8:00 a.m. alle
11:00 a.m.)
20
Analisi del Traffico di Rete Wireless

Sicurezza


Progettazione



Tania Cerquitelli
Dimensionare le proprie
risorse di rete
Analizzare il traffico di rete
wireless mediante algoritmi di
data mining

DB
MG
Individuare e prevedere
eventuali intrusioni
Regole di Associazione
Algoritmi di Clustering
21
Gestione dati geografici



Necessità di uniformare i dati raccolti
mediante osservazioni naturalistiche
nella regione Alpi Marittime Mercantour
Collaborazione con l’Istituto
Superiore sui Sistemi Territoriali per
l’Innovazione (SiTi) di Torino
Tesi: implementazione di un
database PostgreSQL per gestire dati
naturalistici con coordinate
geografiche, implementazione di
interfacce di inserimento dati,
sviluppo di query di ricerca mediante
criteri geografici
DB
MG
Giulia Bruno
22
Analisi di dati medici


Analisi database contenenti lo storico degli esami effettuati
dai pazienti
Obiettivi




estrarre le sequenze di esami eseguite più frequentemente
ricavare i pattern relativi a specifici sintomi
studiare una rappresentazione compatta delle sequenze per una
successiva validazione medica
Tesi: studio e implementazione di un algoritmo di estrazione
di sequenze, in particolare per la gestione di sequenze con o
senza gap, vincoli temporali sugli intervalli di tempo e
tassonomie sulla tipologia di esami
DB
MG
Giulia Bruno
23
Validazione algoritmi per clustering di geni



Analizzando i dati di espressione genica (microarray) è
possibile raggruppare geni in base al loro comportamento in
diverse situazioni sperimentali attraverso l’utilizzo di
algoritmi di clustering
In questo contesto la validazione dei risultati è critica per

mancanza di dataset di riferimento

difficoltà di scelta di un indice di qualità adatto
Tesi: studio e implementazione di algoritmi di clustering e
valutazione di indici di validazione per l’analisi di dati di
espressione genica
DB
MG
Giulia Bruno, Alessandro Fiori
24
Integrazione dati clinici-molecolari


Nell’ambito della medicina personalizzata, riveste particolare importanza
l’integrazione di dati medici a diversi livelli (clinici e genetici)

gestione di dati eterogenei

visione globale di un sistema complesso quale il corpo umano

identificazione di correlazioni tra differenti studi e/o esperimenti
Tesi: studio e modellazione di un sistema (database/data warehouse) per
l’integrazione di dati clinici e molecolari, valutazione di di sistemi esistenti
(caBIG), studio di strutture fisiche accessorie per miglioramento delle
performance, implementazione di interfacce grafiche di accesso ai dati
DB
MG
Giulia Bruno, Alessandro Fiori
25
Analisi di dati sportivi
Analisi di dati fisiologici
• Misura dei progressi di un atleta
• Misura indiretta di lattato e acido lattico
• Migliorare l'efficacia dell'allenamento
degli atleti
Estrazione di conoscenza
• Definizione di un profilo per ogni atleta
(es. frequenza cardiaca allenante)
• Classificazione degli atleti
DB
MG
Tania Cerquitelli
26
Analisi delle notizie

Studi








tecniche di Query Expansion per allargare il dominio di ricerca mediante
generazione di query alternative costruite a partire dalla query originale
Collaborative filtering, basato sul paradigma che gruppi di utenti simili
condividono contenuti simili
Content-based filtering, basato sul paradigma che gruppi di contenuti
simili sono condivisi dallo stesso utente
Hybrid filtering, basato su combinazione degli approcci precedenti
New story detection: dato un flusso continuo di notizie determina quando
viene incontrata una nuova notizia (per servizi di breaking News)
Topic detection and linking: dato un flusso di notizie determina l’insieme
di notizie inerenti lo stesso topic, e le relazioni esistenti tra tali notizie
Topic tracking: data una serie di eventi di interesse per l’utente,
determina le notizie future correlate a tali eventi
Rilevamento automatico degli highlights in eventi sportivi
DB
MG
Alessandro Fiori
27
Analisi dei dati di trasporto pubblico
 Dati:
 Dati del sistema di Trasporto
Pubblico Locale della città di
Torino
 Obiettivi:
 Miglioramento dell’accuratezza
della previsione dei tempi di
percorrenza dei mezzi
 Ottimizzazione della stabilità
della previsione
 Attività:
 Studio di metodi di previsione
dei tempi di percorrenza dei
mezzi pubblici
 Applicazioni pratiche:
 Previsioni d’arrivo in fermata
 Stima dell’headway istantaneo
 Calcolo percorsi in tempo reale
DB
MG
28
Analisi dati dei sensori di traffico
 Dati:
 Dati provenienti dai sensori di
monitoraggio del traffico del
Sistema 5T
 Obiettivi:
 Studiare la correlazione tra
sensori (dati)
 Identificare i guasti
impiantistici
 Attività:
 Studio di metodi di verifica
della qualità dei dati
 Studio di algoritmi di
clustering adattativi alle
variazioni dei dati
 Principali applicazioni:
 Ottimizzazione dell’utilizzo dei
sensori
DB
MG
29
Stage (tesi) in azienda
www.ooros.com



Applicazioni web e mobile per interagire con social networks
(Facebook, Twitter, Foursquare, LinkedIn, ...)
 analisi delle interazioni tra gli utenti (sia di base, sia su concorsi,
giochi, ecc.) tramite tecniche di data mining
Applicazioni web e mobile che sfruttano la geo-localizzazione
(es. check-in di Facebook Places, Foursquare, Gowalla, ...)
 analisi di dati geografici/spaziali (es. “il mio amico più vicino”)
 indici su database ottimizzati per dati geografici/spaziali
Applicazioni mobile (Android, iPhone, etc.) con offline replication
 replicazione di dati tra database locale e database remoti per la
gestione di perdite di connettività
DB
MG
Elena Baralis, Daniele Apiletti
30
Stage (tesi) in azienda

Core business: soluzioni ICT per
la Pubblica Amministrazione
Analisi di strumenti statistici e per la Business Intelligence
(BI) per ilCentro di Competenza Specializzato sui Dati della
Pubblica Amministrazione, nell’ambito della Fiscalità
 Analizzare sistemi di BI sviluppati dal CSI per la Città di
Torino rispetto al profilo medio italiano
 Analizzare tecniche statistiche avanzate e tecniche di
Data Mining (DM)
 Realizzare casi di studio utilizzando Sas Enterprise Miner
 Proporre l’applicazione di tecniche statistiche e di DM
nell’ambito della Fiscalità
DB
MG
Elena Baralis
31