Perchè usare sturmenti di Data mining Data Mining - Analisi dei dati Gli algoritmi di data mining sono stati sviluppati per far fronte all'esigenza di sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati che abbiamo a disposizione. Avere dati non è infatti più un problema (basta pensare alla ricchezza delle sorgenti di dati accessibili su Web o attraverso Data Warehouse aziendali), il problema è cercare di utilizzarli, estrarne le informazioni. Spesso i dati, sia che si riferiscano all'attività giornaliera dell'azienda (o dell'ente), sia che si riferiscano alla clientela (o all'utenza), sia che si riferiscano al mercato o alla concorrenza, si presentano in forma eterogenea, ridondante, non strutturata. Tutto ciò fa sì che solo una piccola parte venga analizzata. D'altra parte la rapida evoluzione del mercato richiede rapidità di adattamento. In questo contesto riuscire a sfruttare la potenziale ricchezza di informazioni che abbiamo a disposizione costituisce un enorme vantaggio. Per fare ciò è necessario disporre di strumenti potenti e flessibili. La grande quantità di dati e la loro natura eterogenea rende infatti inadeguati gli strumenti tradizionali. Questi si dividono in due tipi: strumenti di analisi statistica e strumenti tipici di interrogazione di banche dati (data retrieval). Per quanto riguarda i primi, le difficoltà nascono dal fatto che: • Difficilmente operano su grandi quantità di dati (richiedono operazioni di campionamento con conseguente perdita di informazioni) • Spesso richiedono valori di tipo quantitativo (mentre i prodotti venduti, le caratteristiche della clientela, ecc..., sono dati di tipo qualitativo) • Non gestiscono i valori mancanti • Richiedono personale tecnico sia per il loro utilizzo che per l'interpretazione dei risultati Per quanto riguarda il data retrieval, le difficoltà • I tempi di risposta (aumentano all'aumentare della quantità di dati) • Inadeguatezza nell'individuare "associazioni nascoste" Il data retrieval è, infatti, uno strumento per interrogare banche dati che consiste nel formulare una query, o interrogazione. Il sistema cerca, all'interno della banca dati, tutti i casi che soddisfano le condizioni poste nella query (cioè tutti i dati che presentano le caratteristiche richieste) e fornisce la risposta. L'individuazione di "associazioni nascoste" può quindi solo procedere per tentativi. Gli esempi a fianco evidenziano il diverso approccio all'estrazione di informazioni da banche dati del data mining rispetto al data retrieval. Il primo esempio fa riferimento a una banca dati in cui i dati di vendita siano stati integrati con le caratteristiche della clientela (questo è reso possibile, anche nei settori in cui tradizionalmente l'atto di acquisto è "anonimo", dall'uso sempre più frequente di "fidelity cards"). Mentre l'uso di strumenti di data retrieval consente di avere risposte precise a qualsiasi domanda specifica, il data mining risponde a domande più generiche. Questo secondo approccio consente di far emergere dai dati le associazioni esistenti senza richiedere la formulazione di ipotesi a priori. Sarà l'algoritmo a mettere in evidenza le fasce d'età, l'insieme di prodotti acquistati, e le altre caratteristiche, che si presentano ripetutamente (cioè sono "associati") nei dati. Si tratta quindi di un approccio esplorativo e non, come nel data retrieval, verificativo. In questo modo possiamo scoprire relazioni che non solo erano nascoste e sconosciute, ma che non avremmo nemmeno mai ipotizzato potessero esistere. Questo approccio è utile anche nell'analisi di testi. Il secondo esempio fa riferimento a una banca dati di documenti testuali (per esempio agenzie stampa). La ricerca in base ad una parola specifica non sempre porta ad individuare i documenti relativi all'argomento che ci interessa (nell'esempio sarebbero selezionati anche documenti che citano il rione Sanità di Napoli), gli strumenti di data mining consentono di raggruppare i documenti per argomento sulla base di tutte le parole contenute nei documenti stessi, tramite l'individuazione di associazioni tra le parole. L'ultimo esempio fa riferimento a banche dati on-line di tipo tecnico-scientifico. Questo esempio è simile al precedente con la differenza che i documenti sono generalmente testi strutturati. (Questo tipo di applicazioneè descritto in Un esempio: applicazione di Data Mining a banche dati on-line). Gli strumenti di data mining nascono dall'integrazione di vari campi di ricerca: statistica, "pattern recognition", machine learning, e sono stati sviluppati indipendentemente dai database, per operare su dati "grezzi". Recenti sviluppi vedono una sempre maggiore integrazione tra strumenti di data mining (visto come una query avanzata) e databases.