Perchè usare sturmenti di Data mining

Perchè usare sturmenti di Data mining
Data Mining - Analisi dei dati
Gli algoritmi di data mining sono stati sviluppati per far fronte all'esigenza di sfruttare il patrimonio informativo
contenuto nelle grandi raccolte di dati che abbiamo a disposizione.
Avere dati non è infatti più un problema (basta pensare alla ricchezza delle sorgenti di dati accessibili su Web o
attraverso Data Warehouse aziendali), il problema è cercare di utilizzarli, estrarne le informazioni. Spesso i dati, sia che
si riferiscano all'attività giornaliera dell'azienda (o dell'ente), sia che si riferiscano alla clientela (o all'utenza), sia che si
riferiscano al mercato o alla concorrenza, si presentano in forma eterogenea, ridondante, non strutturata. Tutto ciò fa sì
che solo una piccola parte venga analizzata.
D'altra parte la rapida evoluzione del mercato richiede rapidità di adattamento. In questo contesto riuscire a sfruttare la
potenziale ricchezza di informazioni che abbiamo a disposizione costituisce un enorme vantaggio.
Per fare ciò è necessario disporre di strumenti potenti e flessibili. La grande quantità di dati e la loro natura eterogenea
rende infatti inadeguati gli strumenti tradizionali. Questi si dividono in due tipi: strumenti di analisi statistica e
strumenti tipici di interrogazione di banche dati (data retrieval). Per quanto riguarda i primi, le difficoltà nascono dal
fatto che:
• Difficilmente operano su grandi quantità di dati (richiedono operazioni di campionamento con conseguente
perdita di informazioni)
• Spesso richiedono valori di tipo quantitativo (mentre i prodotti venduti, le caratteristiche della clientela, ecc...,
sono dati di tipo qualitativo)
• Non gestiscono i valori mancanti
• Richiedono personale tecnico sia per il loro utilizzo che per l'interpretazione dei risultati
Per quanto riguarda il data retrieval, le difficoltà
• I tempi di risposta (aumentano all'aumentare della quantità di dati)
• Inadeguatezza nell'individuare "associazioni nascoste"
Il data retrieval è, infatti, uno strumento per interrogare banche dati che consiste nel formulare una query, o
interrogazione. Il sistema cerca, all'interno della banca dati, tutti i casi che soddisfano le condizioni poste nella query
(cioè tutti i dati che presentano le caratteristiche richieste) e fornisce la risposta. L'individuazione di "associazioni
nascoste" può quindi solo procedere per tentativi.
Gli esempi a fianco evidenziano il diverso approccio all'estrazione di informazioni da banche dati del data mining
rispetto al data retrieval.
Il primo esempio fa riferimento a una banca dati in cui i dati di vendita siano stati integrati con le caratteristiche della
clientela (questo è reso possibile, anche nei settori in cui tradizionalmente l'atto di acquisto è "anonimo", dall'uso
sempre più frequente di "fidelity cards"). Mentre l'uso di strumenti di data retrieval consente di avere risposte precise a
qualsiasi domanda specifica, il data mining risponde a domande più generiche. Questo secondo approccio consente di
far emergere dai dati le associazioni esistenti senza richiedere la formulazione di ipotesi a priori. Sarà l'algoritmo a
mettere in evidenza le fasce d'età, l'insieme di prodotti acquistati, e le altre caratteristiche, che si presentano
ripetutamente (cioè sono "associati") nei dati. Si tratta quindi di un approccio esplorativo e non, come nel data retrieval,
verificativo. In questo modo possiamo scoprire relazioni che non solo erano nascoste e sconosciute, ma che non
avremmo nemmeno mai ipotizzato potessero esistere.
Questo approccio è utile anche nell'analisi di testi. Il secondo esempio fa riferimento a una banca dati di documenti
testuali (per esempio agenzie stampa). La ricerca in base ad una parola specifica non sempre porta ad individuare i
documenti relativi all'argomento che ci interessa (nell'esempio sarebbero selezionati anche documenti che citano il rione
Sanità di Napoli), gli strumenti di data mining consentono di raggruppare i documenti per argomento sulla base di tutte
le parole contenute nei documenti stessi, tramite l'individuazione di associazioni tra le parole.
L'ultimo esempio fa riferimento a banche dati on-line di tipo tecnico-scientifico. Questo esempio è simile al precedente
con la differenza che i documenti sono generalmente testi strutturati. (Questo tipo di applicazioneè descritto in Un
esempio: applicazione di Data Mining a banche dati on-line).
Gli strumenti di data mining nascono dall'integrazione di vari campi di ricerca: statistica, "pattern recognition", machine
learning, e sono stati sviluppati indipendentemente dai database, per operare su dati "grezzi". Recenti sviluppi vedono
una sempre maggiore integrazione tra strumenti di data mining (visto come una query avanzata) e databases.