“DATA E WEB MINING” Introduzione Salvatore Orlando Parte delle slide del corso sono state parzialmente riprese da tutorial e corsi disponibili su web. In particolare Vipin Kumar, corso su Data mining presso University of Minnesota Jiawei Han, slide distribuite con il libro Data mining: concepts and techniques Li Yang, corso su Data mining presso Western Michigan University Giannotti/Pedreschi, Corso di Dottorato su Data mining presso Università di Pisa Data e Web Mining - S. Orlando 1 Obiettivi del corso Il corso fornisce le motivazioni ed i fondamenti del Data Mining (DM) Analizza con un certo grado di dettaglio le principali tecniche di DM Usa come caso di studio il Web, e le opportunità di estrarre utili conoscenze dall'analisi di mining della struttura ad hyperlink del Web, dai contenuti e dai log di uso. Data e Web Mining - S. Orlando 2 Notizie generali sul corso Sito Web: – http://www.dsi.unive.it/~dm – Iscriversi alla lista di discussione Modalità di esame – Relazione di approfondimento e presentazione / Progetto – Scritto a domande aperte Testi – P.-N. Tan, M. Steinbach, V. Kumar. Introduction to Data Mining. Pearson Addison-Wesley. – J. Han, M. Kamber. Data mining: concepts and techniques. Morgan Kaufmann. – M. H. Dunham. Data Mining: Introductory and Advanced Topics. Prentice Hall. – Bing Liu. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Springer-Verlag, 2006. – Toby Segaran. Programming Collective Intelligence: Building Smart Data e Web Mining - S. Orlando Web 2.0 Applications. O'Reilly, 2007. 3 Contenuti del corso Data e Web Mining - S. Orlando 4 Ricchezza di dati Povertà di informazioni/conoscenze Le basi di dati elettroniche sono sempre più grandi – Terrorbytes! – Siamo sommersi di dati … una vera inondazione – Immaginiamo che essi contengano molte informazioni nascoste ⇒ nuove conoscenze Cosa ha portato a questo fenomeno? – Tecnologie per raccogliere dati • Lettori di codici a barre, scanner, macchine fotografiche, ecc. – Tecnologie per memorizzare dati • Basi di Dati, Data warehouses, altri tipi repository Un esempio per tutti: – il WEB !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! Data e Web Mining - S. Orlando 5 Mining Grandi Data Sets - Motivazioni I dati contengono informazioni/conoscenze “nascoste” Gli analisti “umani” possono impiegare settimane per scoprire queste informazioni La maggior parte dei dati finisce per non essere mai analizzata The Data Gap Total new disk (TB) since 1995 Number of analysts From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” Data e Web Mining - S. Orlando 6 Why Mine Data? Commercial Viewpoint Grandi quantità di dati vengono, in maniera routinaria, collezionati e immagazzinati – Web data, e-commerce – Acquisti presso supermercati – Transazioni Bancarie e di carte di Credito Dal punto di vista tecnologico, i computer sono diventati più potenti, capienti e meno cari, e abbiamo assistito ad un’evoluzione nelle reti La competizione commerciale è molto forte – Fornire servizi migliori e personalizzati per un segmento della clientela (e.g. in Customer Relationship Management) Data e Web Mining - S. Orlando 7 Data e Web Mining - S. Orlando 8 Why Mine Data? Scientific Viewpoint I dati sono collezionati e memorizzati con enormi velocità (GB/hour) – sensori remoti – telescopi e satelliti che sondano i cieli – microarray (applicazione di bioinformatica) – simulazioni scientifiche che generano terabyte di dati Tecniche tradizionali non applicabili sui dati grezzi (non elaborati) Il data mining può aiutare gli scienziati – in classificare e segmentare i dati – nella formulazione di nuove ipotesi Data e Web Mining - S. Orlando 9 Data Mining e definizioni alternative Data mining: – Estrazione di conoscenze non note e interessanti da grandi database, come ad esempio pattern ricorrenti nascosti Data mining: nome sbagliato o ambiguo? – Dovrebbe essere pattern mining in analogia con gold mining Nomi alternativi – – – – – – – knowledge discovery (mining) in databases (KDD) knowledge extraction data/pattern analysis data archeology data dredging (dragare) information harvesting (raccolta) business intelligence, ecc. Data e Web Mining - S. Orlando 10 Data Mining Query vs. Query tradizionali a DB Query tradizionali e Output – accesso al DB operazionale (OLTP) con query ben definite espresse in un linguaggio standard come SQL – output: sottoinsieme dei dati del DB, o specifiche aggregazioni semplici Data mining query – query non definite precisamente. Natura esplorativa del processo di mining, con impiego di strumenti e parametri differenti Data mining data – Dati spesso differenti da quelli operazionali. Fase di selezione, pulitura e trasformazione precede solitamente il mining Data mining output – L’output non è un sottoinsieme dei dati operazionali. Può ad esempio un modello di conoscenza, che l’analista può usare per scopi di predizione. Standard? – Non abbiamo ancora standard di Data Mining per quanto riguarda query language, modelli dei dati, strumenti di mining Data e Web Mining - S. Orlando 11 Data e Web Mining - S. Orlando 12 Esempio di analisi di data mining Supponiamo che una società di gestione di carte di credito debba decidere se autorizzare o meno un’emissione La società ha grandissime quantità di dati storici relativi a passate richieste di emissione Ciascuna richiesta passata di emissione è stata classificata 1. 2. 3. 4. autorizza chiedi ulteriori informazioni non autorizza non autorizza e informa le autorità per possibili truffe Si costruisce un modello dai dati storici (training) – Quali valori degli attributi hanno causato l’associazione di una delle4 classi alle varie richieste passate? Si usa il modello per classificare e prendere decisioni rispetto a nuove richieste (classificazione) – Qual è l’etichetta di classe più plausibile da associare al record associato con un nuovo cliente Data e Web Mining - S. Orlando 13 Knowledge Discovery in Database Data e Web Mining - S. Orlando 14 Cos’è quindi il KDD? E’ un processo iterativo !!! Consiste di passi sucessivi per la selezione e l’elaborazione di dati per: – – L’identificazione di nuovi, accurati, e utili pattern nei dati La modellizzazione di fenomeni reali Data mining (DM) è uno dei maggiori componenti del processo di KDD – scoperta automatica di pattern e sviluppo di modelli predittivi o esplicativi del fenomeno Data e Web Mining - S. Orlando 15 Processo di KDD Pattern Evaluation – Data mining: il cuore del processo di KDD Data Mining Task-relevant Data Data Warehouse Cleansing / Selection / Transformation Data Cleaning Data Integration Databases Data e Web Mining - S. Orlando 16 Passi di un processo di KDD Comprensione del campo applicativo – conoscenza rilevante già disponibile e scopi dell'applicazione. Creazione di un insieme di dati per l'analisi: selezione dei dati. Pulizia dei dati e pre-processing. – fino al 60% dello sforzo complessivo. Riduzione dei dati e trasformazione. – Questo passo ha a che fare con l'individuazione di caratteristiche utili, con la riduzione del numero di attributi o della dimensionalità degli stessi Individuazione delle funzioni di data mining: – classificazione, regressione, associazione, clustering. Scelta degli algoritmi di data mining. Data mining: Ricerca dei pattern di interesse tramite gli strumenti scelti. Valutazione dei pattern e presentazione della conoscenza – visualizzazione, trasformazione, rimozione dei pattern ridondanti, ecc. Uso della conoscenza acquisita. Data e Web Mining - S. Orlando 17 KDD come confluenza di molte discipline Data e Web Mining - S. Orlando 18 Analisi tradizionale dei dati Verification-driven – L’utente formula ipotesi – Verifica le ipotesi tramite query OLAP su dati consolidati multidimensionali Problemi: – L’utente spesso non sa dove cercare le ipotesi giuste – Gli strumenti verification-driven estraggono dati • L’utente deve generare informazione (conoscenza) sulla base della propria interpretazione Data e Web Mining - S. Orlando 19 Un nuovo processo di analisi permesso dal DM Discovery-driven – Il computer setaccia milioni di ipotesi e presenta solo le più interessanti/valide Esempio: – Da un campione di clienti che hanno trasferito il proprio conto su una banca concorrente – identifica le caratteristiche dei clienti che sono correlati strettamente. Usando questi attributi, classifica il resto dei clienti e valuta quanto fortemente sono correlati al gruppo campione. Data e Web Mining - S. Orlando 20 Data Mining versus Statistics Statistica: – Analisi primaria: i dati sono raccolti per rispondere a domande specifiche – piccole quantità di dati – significatività statistica Data mining: – Analisi secondaria: i dati sono raccolti per scopi diversi – Grandissime quantità di data – Altre misure di interesse (compreso il gusto dell’utente) Data e Web Mining - S. Orlando 21 Su che tipo di dati si effettua il DM? Flat Files Legacy databases Relational databases – e altri DB: Object-oriented and object-relational databases Transactional databases – Transaction(TID, Timestamp, UID, {item1, item2, …}) Data warehouses Multimedia databases Spatial Databases Time Series Data and Temporal Data Grafi Text Documents WWW – The content, The structure, The usage Data e Web Mining - S. Orlando 22 Data Warehouse Diverse definizioni, anche se non molto rigorose – Un database di supporto alle decisioni che è mantenuto separatamente dal database operazionale dell’azienda – Fornisce una solida piattaforma di dati consolidati e storici per l’analisi – “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decisionmaking process.”—W. H. Inmon OLTP (on-line transaction processing) – Operazioni tradizionali in DBMS relazionali OLAP (on-line analytical processing) OLAP – Operazioni tipiche dei data warehouse system – Analisi dei dati per il supporto alle decisioni Data e Web Mining - S. Orlando 23 Dati multidimensionali Un data warehouse è basato su un modello dei dati multi-dimensionale e multi-risoluzione – Dati visti in forma di data cube Esempio: i fatti del datawarehouse sono le vendite, che possiamo misurare in termini dei volumi di vendita – Volumi di vendite come una funzione di prodotti, mesi, e regioni Dimensions: Product, Location, Time + Hierarchical summarization paths Product Industry Region Year Category Country Quarter Product Month City Office Month Week Day Data e Web Mining - S. Orlando 24 Modellazione dimensionale Una dimensione è una collezione di attributi logicamente correlati di una tabella relazionale All’interno di ogni dimensione, gli attributi (entità) possono essere organizzati in gerarchie I livelli all’interno di ogni gerarchia possono essere parzialmente/ totalmente ordinati Quando esiste un ordine tra due livelli (es. City < Country), possiamo definire un tipo di aggregazione tra i fatti relativi – es. l’incasso per ogni Country è la somma dell’incasso ottenuto nelle varie City all’interno delle varie Country – in pratica, le gerarchie fissano i possibili group-by (aggregazioni) L’operazione di aggregazione non è sempre la somma – es. se volessimo informazioni sul costo di ogni articolo venduto, invece che sugli incassi totali, potremo essere interessati ad aggregare con operazioni di media, max, min Data e Web Mining - S. Orlando 25 Operazioni sui data cube Roll-up on location City⇒Country Drill-down on time Quarter ⇒ Month Data e Web Mining - S. Orlando 26 Come sono fatti i dati su cui effettuiamo il mining? Collezioni di oggetti e loro attributi Attributes Un attributo è una proprietà/ caratteristica di un oggetto – Esempi: colore degli occhi di una persona, temperatura in certo luogo e tempo, ecc. – Nomi alternativi: variabile, field, caratteristica, o feature Objects Una collezione di attributi descrive un oggetto – Nomi alternativi: record, punto, caso, campione, entità o istanza Data e Web Mining - S. Orlando 27 Valori degli attributi I valori degli attributi che caratterizzano un dato oggetto sono numeri o simboli Distinguiamo tra attributi e relativi valori – Stesso attributo può essere messo in relazione con differenti scale di misura e quindi con differenti valori • Es.: altezza misurata in piedi o metri – Le proprietà dell’attributo di un oggetto possono essere diverse dalle proprietà della misura, associata all’attributo in accordo ad una certa scala di misurazione • Es.: I valori degli attributi di ID e age sono interi • Ma le proprietà degli attributi sono diverse – ID non ha in generale un limite sup. o inf., mentre age ha un massimo ed un minimo – anche se possiamo calcolare la media di un insieme di interi, non ha senso la media degli ID Data e Web Mining - S. Orlando 28 Misura associata all’attributo Lunghezza Il modo in cui associamo valori agli attributi potrebbe non riflettere certe proprietà degli attributo stesso Cattura l’ordine Cattura l’ordine e la proprietà additiva della lunghezza Data e Web Mining - S. Orlando 29 Tipi di attributi Categorici – In numero finito e differenti in tipo Numerici – Valori ordinati, spesso con insiemi infiniti di valori assunti Più precisamente – Categorici (Qualitativi, tipicamente Discreti) • Nominali: Insiemi di valori distinti: es. Sesso, ecc. (=, ≠) • Ordinali: Valori discreti ordinati: es. Titolo di Studio (<, >) – Numerici (Quantitativi, spesso Continui) • Interval: Valori con una misura di distanza: es. Temperatura • Ratio: Valori con distanza e zero assoluto, dove il rapporto tra misure è significativo: es.: Età, Guadagno, Lunghezza Data e Web Mining - S. Orlando 30 Proprietà dei valori dei vari tipi di attributo Il tipo di un attributo dipende dalle seguenti proprietà: – – – – Distinctness: Order: Addition: Multiplication: = ≠ < > + */ – – – – Nominal: distinctness Categorical (Qualitative) Ordinal: distinctness & order Interval: distinctness, order & addition Numeric (Quantitative) Ratio: all 4 properties Data e Web Mining - S. Orlando 31 Attribute ßΩ Type Description Examples Operations Nominal The values of a nominal attribute are just different names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, ≠) zip codes, employee ID numbers, eye color, sex: {male, female} mode, entropy, contingency correlation, χ2 test Ordinal The values of an ordinal attribute provide enough information to order objects. (<, >) hardness of minerals, {good, better, best}, grades, street numbers median, percentiles, rank correlation, run tests, sign tests Interval For interval attributes, the differences between values are meaningful, i.e., a unit of measurement exists. The ratio of two measures is not meaningful (+, - ) calendar dates, temperature in Celsius or Fahrenheit mean, standard deviation, Pearson's correlation, t and F tests For ratio variables, both differences and ratios are meaningful. (*, /) temperature in Kelvin, monetary quantities, counts, age, mass, length, electrical current geometric mean, harmonic mean, percent variation Ratio I can say measure 500 is two times measure 250, since 500/250=2 Data e Web Mining - S. Orlando 32 Attribute Level Transformation Comments Nominal Any permutation of values If all employee ID numbers were reassigned, would it make any difference? Ordinal An order preserving change of values, i.e., new_value = f(old_value) where f is a monotonic function. An attribute encompassing the notion of good, better best can be represented equally well by the values {1, 2, 3} or by { 0.5, 1, 10}. Interval new_value =a * old_value + b where a and b are constants Thus, the Fahrenheit and Celsius temperature scales differ in terms of where their zero value is and the size of a unit (degree). new_value = a * old_value Length can be measured in meters or feet. Ratio Data e Web Mining - S. Orlando 33 Tipi di dataset su cui si effettua il mining Record – Data Matrix – Document Data – Transactional Data Graph – World Wide Web – Molecular Structures Ordered – – – – Spatial Data Temporal Data Sequential Data Genetic Sequence Data Data e Web Mining - S. Orlando 34 Record data Una tabella relazione, dove ogni record è associato con un numero fisso di attributi Data e Web Mining - S. Orlando 35 Transactional Data Un tipo speciale di record, dove – ogni record (transazione) coinvolge un insieme variabile di item. – Per esempio, consideriamo la visita ad un supermercato da parte di un cliente: • Transazione = Scontrino fiscale • Insieme di prodotti (item) acquistati Data e Web Mining - S. Orlando 36 Data Matrix Gli n attributi degli m oggetti sono tutti numerici – gli oggetti possono essere pensati come punti in uno spazio multidimensionale – ogni dimensione rappresenta un attributo distinto Data e Web Mining - S. Orlando 37 Document Data Ogni documento diventa un vettore dei termini – ogni termine = componente (attributo) di un vettore – valore di ogni componente = numero di volte il termine corrispondente occorre nel documento In generale, la matrice dei documenti è una matrice sparsa, dove i termini 0 sono meno importanti e sono preponderanti (significato asimmetrico dei valori degli attributi) – Anche la rappresentazione 0-1 di un database transazionale è una matrice sparsa Data e Web Mining - S. Orlando 38 Graph Data Esempi: Grafo Generico e link HTML – Le etichette degli archi possono riflettere il numero di visite da parte di una comunità di utenti Data e Web Mining - S. Orlando 39 Molecular Structures Benzene Molecule: C6H6 Data e Web Mining - S. Orlando 40 Ordered Data Sequential data = Sequenze di transazioni (ordinate temporalmente) – ogni riga/sequenza associata ad un unico soggetto (es. un cliente di un supermercato) Items Sequenza Un elemento della sequenza = Transazione/Evento Un timestamp esplicito t può essere associato con ogni elemento Data e Web Mining - S. Orlando 41 Ordered Data Genomic sequence data Data e Web Mining - S. Orlando 42 Ordered Data Spatio-Temporal Data Average Monthly Temperature of land and ocean Data e Web Mining - S. Orlando 43 Qualità dei dati Quali sono i problemi relativi alla qualità dei dati? Come possiamo fare per scoprire e risolvere questi problemi? Esempi: – Noise: Modifica dei valori originali – Missing: Mancanza dei valori – Duplicate data • Gestione: – Eliminazione di oggetti/record – Stima di valori missing – Ignorare i valori durante l’analisi – Outliers • Oggetti considerevolmente diversi rispetto alla maggioranza Data e Web Mining - S. Orlando 44 Data preprocessing Aggregation Sampling Dimensionality Reduction Feature subset selection Feature creation Discretization and Binarization Attribute Transformation Data e Web Mining - S. Orlando 45 Aggregation Combinare più attributi (o oggetti) in un singolo attributo (o oggetto) Scopo – Data reduction • Ridurre il numero di attributi o oggetti – Change of scale • Città aggregate in province, regioni, nazioni, ecc. – More “stable” data • Dati aggregati tendono ad avere meno variabilità Data e Web Mining - S. Orlando 46 Aggregation Variazione delle precipitazioni in Australia Standard Deviation of Average Monthly Precipitation Standard Deviation of Average Yearly Precipitation Data e Web Mining - S. Orlando 47 Sampling Il Sampling è spesso la principale tecnica impiegata per il Data Selection E’ spesso usata per effettuare analisi preliminari, ma per le analisi finali Statistica vs. Data Mining – Nel primo caso i dati sono campionati perché ottenere l’intero dataset è troppo costoso in termini di costo o tempo – Nel secondo caso, i dati sono campionati perché processare l’intero data set potrebbe essere troppo costoso in termini di tempo Un efficace sampling deve rispondere ai seguenti principi chiave: – Usando un sampled dataset rappresentativo, otteniamo risultati simili a quelli ottenuti processando l’intero dataset – Il campionamento è rappresentativo se ha approssimativamente le stesse proprietà del dataset originale Data e Web Mining - S. Orlando 48 Tipi di Sampling Simple Random Sampling – Uguale probabilità di selezionare ogni item/oggetto Simple Random Sampling without replacement – Una volta estratto, l’item è rimosso dal dataset e NON è rimpiazzato nel dataset (un item può essere scelto solo una volta) Simple Random Sampling with replacement – Una volta estratti, gli item sono rimessi nel dataset (lo stesso item può essere selezionato più volte) Stratified sampling – Spezza i dati in tanti partizioni disgiunte, e poi estrai campioni casuali da ogni partizione – Serve a ottenere campioni rappresentativi anche se i dati sono skewed (distribuzioni non simmetriche). – Ad esempio, se partizioniamo dati demografici rispetto all’età, riusciamo a campionare anche gruppi con bassa numerosità Data e Web Mining - S. Orlando 49 Sample Size 8000 points 2000 Points 500 Points Data e Web Mining - S. Orlando 50 Task di Data Mining DATA ID Home Owner Marital Status Annual Income Defaulted borrower 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 80K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Data e Web Mining - S. Orlando 51 Caratterizzazione dei Task di DM Metodi Predittivi – Usa alcune variabili per predire valori futuri o sconosciuti di altre variabili Metodi Descrittivi – Trova pattern interpretabili che descrivono caratteristiche dei dati Classification [Predittivo] Clustering [Descrittivo] Association Rule Discovery [Descrittivo] Sequential Pattern Discovery [Descrittivo] Regression [Predittivo] Deviation Detection [Predittivo] Data e Web Mining - S. Orlando 52 Task di DM Classificazione – Suddividi/Classifica un insieme di record in classi differenti • costruisci il dataset di training – Induci un modello a partire dal dataset di training – Il modello è usato per la predire la classe di nuovi record da classificare (supervised classification) – Esempi: • Classifica studenti, usando i voti come etichetta di classe • Classifica nazioni, usando il clima come etichetta di classe – Presentazione del modello: • Alberi di decisioni, regole di classificazione, reti neurali Predizione – Predici alcuni valori numerici sconosciuti o mancanti Data e Web Mining - S. Orlando 53 Task di Data Mining Classificazione Test Set Training Set Learn Classifier Model Data e Web Mining - S. Orlando 54 Task di DM Classificazione: Alberi di Decisione Splitting Attributes Refund Yes No NO MarSt Married Single, Divorced TaxInc < 80K NO NO > 80K YES L’attributo di splitting è scelto in base alla sua capacità di discriminare rispetto al database in input Data e Web Mining - S. Orlando 55 Task di DM Association rules (correlazione e causalità) – Dati • Collezione di articoli (item) • Insiemi di transazioni, ognuna contente un sottoinsieme di item trova affinità tra gli item – Esempi: • il 42% dei compratori che acquistano latte, comprano anche pane • age(X, “20..29”) ^ income(X, “20..29K”) buys(X, “PC”) [support = 2%, confidence = 60%] Data e Web Mining - S. Orlando 56 Task di DM Esempio di Regole Associative per il Market Basket Analysis (MBA) Market-Basket Transactional database Esempio di regola associativa: Supporto = 60% Confidenza = 75% Data e Web Mining - S. Orlando 57 Task di DM Pattern sequenziali frequenti: Trova sequenze di acquisti (item) che occorrono frequentemente nel tempo 10/01/2002 20/04/2002 16/05/2002 12/02/2002 10/11/2002 23/12/2002 Database delle sequenze 10/06/2002 Sequenza frequente estratta Data e Web Mining - S. Orlando 58 Task di DM Clustering – Segmenta un database in sottoinsiemi (i cluster) • L’etichetta delle classi associati ai record è sconosciuta • Unsupervised classification – Clustering basato sul principio seguente: • minimizza la similarità inter-classe e massimizza la similarità intra-class – Es.: raggruppa un insieme di individui in base ai dati demografici Data e Web Mining - S. Orlando 59 Task di DM Analisi degli outlier – Outlier: un oggetto/dato che non è conforme rispetto alle caratteristiche generali degli altri dati – Possono essere considerati come rumore o eccezioni, ma possono essere utili per individuare frodi, analisi di eventi rari, ecc. – Esistono algoritmi di clustering che come effetto collaterale riescono ad individuare gli outlier Similar Time Sequences – Trova tutte le occorrenze di sottosequenze simili a specifiche sequenze temporali Data e Web Mining - S. Orlando 60 I pattern estratti sono interessanti ? Un sistema di DM può generare migliaia di pattern, ma non tutte sono interessanti – I risultati possono essere così tanti che possiamo aver bisogno di strumenti di mining per estrarre i pattern più interessanti (MetaMining?) Come misuriamo se un pattern è interessante? – Se facilmente comprensibile dagli utenti, o è nuovo e potenzialmente utile – Se valida ipotesi che un utente cercava di confermare – Se testato su nuovi dati, è valido con un certo grado di certezza Misure di interesse oggettive vs. soggettive – Oggettive: basate su misure statistiche, es. supporto, confidenza, ecc. – Soggettive: basate sull’intuito/esperienza dell’utente, es. inaspettato, nuovo, ecc. Data e Web Mining - S. Orlando 61 Principali applicazioni del DM Financial Service – Combat attrition – Fraud detection – Loan default Telecommunications – Identify high value customers – Identify cross-sell opportunity Life Science – Find factors associated with healthy or unhealthy patients Retail and Marketing – – – – – Market Basket Analysis Loyalty program Cross-sell & Up-sell Fraud detection More targeted & successful campains Insurance & Government – Flag accountancy anomalies – Reduce cost of investigating suspicious activities or false claims Web and Electronic Commerce – Recommender Systems – Ranking of Search Results Data e Web Mining - S. Orlando 62 Caso d’uso: CRM Customer Relationship Management (CRM) – Suddivisione dei clienti in gruppi, sulla base di variabili che riassumono il valore di ciascun gruppo di clienti • profitto realizzabile, misure di fidelizzazione, misure di rischio Gruppo di clienti a basso rischio, alto profitto e che producono un alto valore del fatturato ⇒ Da mantenere (retention) – In molti tipi di business questo tipo di gruppo rappresenta dal 10 al 20% dei clienti, e crea dal 50% all'80%del profitto aziendale. – L'azienda non vuole perdere questi clienti. Iniziative promozionali per rafforzare il legame di fedeltà. Gruppo di clienti che dà luogo ad alti fatturati, ma a bassi profitti ⇒ Potrebbe contenere clienti che da mantenere e coltivare. – Incrementare il profitto per questo gruppo. – cross-selling (vendita di nuovi prodotti, ispirandosi al comportamento del gruppo più redditizio) – up-selling (vendere più prodotti di quanto i clienti comprano correntemente). Data e Web Mining - S. Orlando 63 Caso d’uso: CRM Clustering e Market Baset Analysis (MBA) applicata per identificare stragegie di marketing per il CRM (figura adattata dall' IBM Red Book dal titolo "Intelligent Miner for Data Applications Guide", March 1999) Data e Web Mining - S. Orlando 64 Caso d’uso: Web mining Il Web Mining consiste nell’applicazione di tecniche di DM al WWW www Knowledge Data Mining – DM applicato a database strutturati Web mining – applicato a dati meno strutturati, molto dinamici, e di enormi dimensioni – non solo contenuti, ma anche hyperlink, e log di accessi e uso Tre tipi di WM – Web Content Mining – Web Structure Mining – Web Usage Mining Data e Web Mining - S. Orlando 65 Web Mining Web: – A huge, widely-distributed, highly heterogeneous, semistructured,, interconnected, evolving, hypertext/hypermedia information repository Principali problemi – Abbondanza delle informazioni sul Web: • Il 99% delle informazioni sono di nessun interesse per il 99% delle persone – Copertura limilata delle informazioni disponibili: • La maggior parte delle risorse e delle informazioni sono nascoste nei DBMS. – Search Engine con interfacce limitate • Solo query con insiemi di keyword per esprimire i bisogni informativi degli utenti – Poca personalizzazione rispetto ai singoli individui • Navigazione e Search Data e Web Mining - S. Orlando 66 Trend e caratteristiche del Web Questi numeri presentano una stima della dimensione minima di Internet. I siti Web sono molti di più, mentre il numero di pagine è pressoché infinito Data e Web Mining - S. Orlando 67 Trend e caratteristiche del Web Google nel luglio del 2007 ha annunciato di aver individuato circa 1 trilione (1012) di pagine/URL uniche sul Web – Dopo aver rimosso i duplicati (stimati intorno al 30%-40%) !!! – Crescita stimata: diversi miliardi di pagine al giorno – Fonte: http://googleblog.blogspot.com/2008/07/we-knew-web-wasbig.html Nota che molte pagine sono create dinamicamente …. e questo complica le cose ai sistemi come Google – Pensiamo ad un calendario sul Web …. ed ad un link prossimo mese … potremmo seguirlo all’infinito e creare sempre nuove pagine Data e Web Mining - S. Orlando 68 Trend e caratteristiche del Web Ma quanti dischi mi servirebbero per contenere tutte le pagine Web? – Consideriamo solo il testo (HTML) – Una media di 10K Byte (≅ 104 caratteri) per pagina – Moltiplichiamo per un trilione di pagine !! !Abbiamo circa 1016 Byte – Se la taglia di un tipico Hard Disk permette la memorizzazione di circa 100 Gbyte (≅ 1011 caratteri) !! Abbiamo bisogno di circa 100.000 dischi Le cose peggiorano drammaticamente con i dati multimediali, come immagini e video Data e Web Mining - S. Orlando 69 Trend e caratteristiche del Web Oltre alla crescente creazione di nuove pagine, le pagine sono continuamente aggiornate o cancellate – Circa il 23% delle pagine viene modificato giornalmente – Nel dominio .com questa percentuale sale al 40% – In media, dopo circa 10 giorni, la metà delle pagine viene cancellata • Le loro URL non sono più valide A. Arasu et al., “Searching the Web”, ACM Transaction on Internet Technology, 1(1), 2001. Data e Web Mining - S. Orlando 70 Trend e caratteristiche del Web La struttura del grafo del Web (Bow-tie ) – 28% delle pagine • cuore della rete • pagine importanti … molto connesse tra loro – 22% delle pagine • raggiungibile a partire da pagine del cuore, ma non viceversa – 22% delle pagine • può raggiungere pagine del cuore, ma non viceversa – Il resto delle pagine sono disconnesse dal cuore della rete Andrei Broder, et al. “Graph structure in the web: experiments and models” 9th WWW, 2000. Data e Web Mining - S. Orlando 71 Trend e caratteristiche del Web Power law. Andrei Broder, et al. “Graph structure in the web: experiments and models” 9th WWW, 2000. Data e Web Mining - S. Orlando 72 La Power law (Long Tail) è onnipresente Contenuto – Parolenelle pagine Struttura – In-degrees / Out-degrees / Numbero di pagine per sito Usage patterns – Numbero di visitatori – Query/Termini sottomettesse dagli utenti di un motore di ricerca – Popolarità di prodotti, musica, film, … Data e Web Mining - S. Orlando 73 Ancora Long Tail (popolarità di prodotti - songs) Data e Web Mining - S. Orlando 74 Possibili sfide per il WM Trovare informazioni rilevanti – informazioni/risorse di qualità rispetto ad un determinato argomento/ problema/necessità Creare conoscenza dalle informazione disponibile Imparare dal comportamento di clienti/utenti – Imparare dai comportamenti di acquisto – Imparare dai comportamenti di navigazione – Imparare dai comportamenti di query issuing Personalizzazione del delivery della conoscenza Data e Web Mining - S. Orlando 75 Web mining taxonomy Data e Web Mining - S. Orlando 76