Analisi dei dati con tecniche di data mining Teoria e applicazioni B D MG Data Base and Data Mining Group of Politecnico di Torino Elena Baralis Politecnico di Torino Torino, 9 dicembre 2009 Analisi dei dati La maggior parte degli enti e aziende dispone di enormi basi di dati contenenti dati di tipo operativo documenti testuali risultati di esperimenti Queste basi di dati costituiscono una potenziale miniera di informazioni utili DB MG 2 Analisi dei dati L’informazione è “nascosta” in grandi quantità di dati non è immediatamente evidente gli analisti umani possono aver bisogno di molto tempo per l’analisi la maggior parte dei dati non è analizzata affatto 4,000,000 The Data Gap 3,500,000 3,000,000 2,500,000 2,000,000 Spazio su disco (TB) dal 1995 1,500,000 1,000,000 Numero di analisti 500,000 DB MG 0 1995 1996 1997 1998 1999 Da R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” 3 Data mining Estrazione non banale di informazione dai dati disponibili L’estrazione è automatica implicita precedentemente ignota potenzialmente utile eseguita da algoritmi L’informazione estratta è rappresentata mediante modelli astratti DB MG denominati pattern 4 Esempio: dati biologici Microarray Cartelle cliniche dei pazienti livello di espressione dei geni di un tessuto cellulare varie tipologie di dati (mRNA, DNA) dati anagrafici e demografici risultati di esami CLID PATIENT shx013: shv060: shq077: shx009: shx014: shq082: ID 49A34 45A9 52A28 4A34 61A31 99A6 IMAGE:740ISG20 || int -1.02 IMAGE:767TNFSF13 | -0.52 IMAGE:366LOC93343 -0.25 IMAGE:235ITGA4 || int -1.375 -2.34 -4.06 -4.08 -1.605 1.44 -0.29 0.06 0.155 0.57 0.71 0.13 -0.015 -0.13 1.03 0.08 0.035 0.12 -0.67 0.06 -0.035 shq083: 46A15 shx008: 41A31 0.34 0.22 -0.08 0.505 -0.51 -0.09 -0.05 -0.865 Dati testuali in collezioni pubbliche DB MG formati eterogenei, obiettivi diversi letteratura scientifica (PUBMed) ontologie (Gene Ontology) 5 Obiettivi dell’analisi biologica Analisi clinica individuazione delle cause di una malattia monitoraggio degli effetti delle terapie ⇒ miglioramento delle diagnosi e definizione di nuove terapie specifiche Bio-discovery scoperta di reti di regolazione genica studio di patologie genetiche multifattoriali Farmacogenesi DB MG progettazione in laboratorio di nuovi medicinali per terapie geniche Come può contribuire il data mining? 6 Contributi del data mining Diagnosi di malattie Selezione dei geni coinvolti in una specifica patologia clustering Studio di patologie multifattoriali feature selection clustering Raggruppamento di geni con comportamento funzionale simile classificazione regole di associazione Individuazione di molecole adatte per specifiche terapie DB MG classificazione 7 Processo di Knowledge Discovery selezione preelaborazione trasformazione dati dati selezionati data mining dati preelaborati dati trasformati interpretazione pattern KDD = Knowledge Discovery from Data DB MG conoscenza 8 Preelaborazione data cleaning preelaborazione • riduce l’effetto del rumore • identifica o elimina outliers • risolve inconsistenze integrazione dei dati dati selezionati dati preelaborati • armonizza i dati estratti da sorgenti diverse • integra i metadati • individua e risolve conflitti sul valore dei dati • gestisce le ridondanze I dati del mondo reale sono “sporchi” Senza dati di buona qualità, non si possono estrarre pattern di buona qualità DB MG 9 Origini del data mining Raccoglie contributi da statistica, intelligenza artificiale (IA) pattern recognition, machine learning Statistica, basi di dati IA Le tecniche tradizionali sono inadatte a causa di volume dei dati elevata dimensionalità dei dati natura eterogenea e distribuita dei dati DB MG Machine Learning, Pattern Recognition Data Mining Basi di dati Da: P. Tan, M. Steinbach, V. Kumar, “Introduction to Data Mining” 10 Tipologie di analisi Metodi descrittivi Estraggono modelli interpretabili che descrivano i dati Esempio: segmentazione dei clienti Metodi predittivi DB MG Utilizzano alcune variabili note per predire valori ignoti o futuri di altre variabili Esempio: riconoscimento di posta elettronica “spam” 11 Classificazione Obiettivi predizione di un’etichetta di classe definizione di un modello interpretabile di un dato fenomeno dati di training modello modello dati non classificati DB MG dati classificati 12 Classificazione • Approcci – – – – – – dati di training alberi di decisione classificazione bayesiana regole di classificazione reti neurali k-nearest neighbours SVM modello modello dati non classificati DB MG dati classificati 13 Classificazione • Requisiti – – – – accuratezza interpretabilità scalabilità capacità di gestire rumore e outliers dati di training modello modello dati non classificati DB MG dati classificati 14 Classificazione Applicazioni riconoscimento della propensione all’abbandono (churn) individuazione di frodi classificazione di tipi diversi di una patologia … dati di training modello modello dati non classificati DB MG dati classificati 15 Clustering Obiettivi DB MG riconoscimento di gruppi di dati simili identificazione di eccezioni e outliers 16 Clustering • Approcci – partizionale (K-means) – gerarchico – density-based (DBSCAN) – SOM • Requisiti – scalabilità – capacità di gestire – rumore e outliers – elevata dimensionalità – interpretabilità DB MG 17 Clustering Applicazioni DB MG segmentazione della clientela raggruppamento di documenti con contenuto simile raggruppamento di geni con pattern di espressione simile … 18 Regole di associazione Obiettivo estrazione di correlazioni o pattern frequenti da basi di dati transazionali Scontrini di cassa di un supermercato TID Prodotti 1 Pane, CocaCola, Latte 2 Birra, Pane 3 Birra, CocaCola, Pannolini, Latte 4 Birra, Pane, Pannolini, Latte 5 CocaCola, Pannolini, Latte … DB MG … Regola di associazione pannolini ⇒ birra il 2% delle transazioni contiene entrambi gli elementi il 30% delle transazioni che contengono pannolini contiene anche birra 19 Regole di associazione Applicazioni market basket analysis cross-selling progettazione di layout di negozi o di cataloghi Scontrini di cassa di un supermercato TID Prodotti 1 Pane, CocaCola, Latte 2 Birra, Pane 3 Birra, CocaCola, Pannolini, Latte 4 Birra, Pane, Pannolini, Latte 5 CocaCola, Pannolini, Latte … DB MG … Regola di associazione pannolini ⇒ birra il 2% delle transazioni contiene entrambi gli elementi il 30% delle transazioni che contengono pannolini contiene anche birra 20 Altre tecniche di data mining Estrazione di sequenze Analisi di serie temporali e geospaziali si introducono criteri di ordinamento temporale e disposizione geografica esempio: dati raccolti da reti di sensori Regressione si considerano criteri di ordinamento nei dati da analizzare esempio: riconoscimento di motif nelle proteine Rete di Sensori predizione di un valore continuo esempio: predizione delle quotazioni azionarie Riconoscimento di eccezioni DB MG analisi del traffico di rete per riconoscere tentativi di intrusione 21 Problemi aperti Scalabilità Dimensionalità dei dati Dati con struttura complessa e formato eterogeneo Qualità dei dati Protezione della privacy Dati streaming (flussi continui) DB MG 22 Grazie! DB MG 23