Data Mining : tecniche di trasformazione dei dati (Parte prima) Pagina 1 di 4 Martedì, 17 Maggio 2004 chi siamo | catalogo | contatti@ | rivendite | registrati | help HOME WEBZINE LIBRI UNIVERSITA' EBOOK BUSINESS Ok! ricerca: OPENPRESS Newsletter gratuite Resta aggiornato! Iscriviti alle Newsletter Apogeonline 20 Ottobre 2004 - Articoli Riceverai via email l'aggiornamento su tu novita' editoriali e gli articoli. [Inserisci il tuo email e clicca su O di Giuseppe Moschese NetNews di Davide Pellegrino Visto Mobile 5.0: e-mail push in tempo Nasce la Byte User Community Diritto e Tecnologia di Avv.Annarita Gil Accordo raggiunto tra Sun e Kodak ECommerceNews di Raffaella Scalisi Centre Pompidou: il biglietto si acquist online TechNews di Dario D'elia e Enrico Sola Con Windows XP Tablet PC Edition 200 arriva la lingua italiana Le news di Apogeonline sul tuo sito scoprire come clicca qui! Data Mining : tecniche di trasformazione dei dati (Parte prima) Lo scopo di questo articolo (il primo di una serie) è quello di dare indicazioni specifiche, utili alla costruzione di sistemi di Data Mining, in termini di metodologie di sviluppo e di analisi. L'articolo propone inoltre un'indagine sulle tecniche che soddisfano le esigenze di analisi, ne descrive la possibile applicabilit à e fornisce dei parametri di valutazione Del termine Data Mining sono state date ALTRI ARTICOLI diverse ed utili definizioni. Il termine "Data Dello stesso autore Mining" è basato sull'analogia delle operazioni Giuseppe Moschese dei minatori che "scavano" all'interno delle Di argomento simile miniere grandi quantità di materiale di poco Linguaggi e valore per trovare l'oro. Nel Data Mining, programmazione questo "oro" è l'informazione, precedentemente sconosciuta o indiscernibile, il materiale di poco valore sono i dati e le operazioni di scavo sono le tecniche di esplorazione dei dati. John Ladley del Meta Group ha affermato che: "Il Data Mining è un'estensione del Data Warehousing. È una sua evoluzione" quindi, il Data Mining, non deve essere visto come un'alternativa alle analisi OLAP ma piuttosto come una tecnologia complementare, da usare soprattutto per la previsione automatizzata di trend e comportamenti, e per la scoperta automatizzata di relazioni altrimenti non conosciute. Per il suo alto valore aggiunto il Data Mining si sta diffondendo con una certa rapidità in numerosi settori merceologici, per la valorizzazione delle informazioni aziendali residenti nei sistemi operazionali che nei Data Warehouse. Dove si "costruisce" il Data Mining? Lo sviluppo di un sistema di Data Mining dovrebbe avvenire partendo da un Data Mart o un Data Warehouse già implementati in azienda, o comunque da ambienti certificati dove i dati siano stati regolarizzati, in modo che l'analisi possa essere fatta su dati accurati, integri e omogenei, il più possibile "ripuliti" da incongruenze che potrebbero influenzare la precisione dei risultati. Partire da un Data Warehouse non è comunque indispensabile, perch é alcuni tool hanno comunque la possibilità di preelaborare i dati, in modo da Apogeonline News Novità editoriali SQL SQL è l'acronimo di Structured Query Language, ed è il linguaggio standard per l'interrogazione di database. Chiunque abbia a che fare con i database deve, prima o poi, "scontrarsi" con questo linguaggio. Ultimi articoli Data Mining : tecniche di trasformazion dati (Parte prima) di Giuseppe Moschese The Great Rock'n Roll Printer Swindle di Roberto Delpiano Tutti i colori del Web design di Gianpaolo Lorusso Speciali Brainstorm di Bernardo Parrella Dalle bufale ai super -blog agli osservat presidenziali USA viaggiano su Interne UnusualBiz di Roberto Venturini È in arrivo la mucca WiDoppioClick di Salvatore Romagnolo Google Desktop Search: ora Google ce anche nel tuo computer OpenPress di Bernardo Parrella Modelli aperti per la propriet domani eGovernment di Alessandro Minelli Nuove generazioni di chioschi digitali n sobborghi londinesi Archivi webzine file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005 Data Mining : tecniche di trasformazione dei dati (Parte prima) Pagina 2 di 4 rendere più sicuri i risultati dell'analisi; in ogni caso, per chi deve Gli articoli e le news archiviati per argomento: operare con questi strumenti non guasta avere un po' di familiarit à con Computer, formazione Marketing, aziende e e scuola nuove tecnologie le problematiche di pulizia dei dati. Culture digitali Mondo Mac La maggior parte dei tool di Data Mining lavorano in architettura Diritto e Internet Multimedia client/server, e l'ambiente client è in genere Windows 95 o Windows Diritto e nuove Net economy e e tecnologie business NT. Per molti, la piattaforma server ideale, dove far risiedere l'archivio, Diritto e nuove New economy e è un ambiente parallelo, high performance, dove vengono gestite teconologie trading online facilmente le notevoli quantit à di dati necessarie: numerose sono le Eventi Prodotti e mercati aziende che li offrono, con diverse configurazioni che riescono a coprire Giornalismo e Sistemi operativi giornalismi Tecnologia e societa tutte le esigenze e tutte le tasche. Hardware e software Telefonia Questi prodotti sono tutti in grado di lavorare con archivi dell'ordine di Internet Videogames centinaia di gigabyte o di qualche terabyte, e in ambienti dove sono Linguaggi e Wireless programmazione eGovernment presenti molti utenti: ci ò è reso possibile grazie alle versioni più Linguaggi e sistemi eLearning recenti, che hanno capacit à di elaborazione parallela, di scalabilit à operativi spinta, di particolari funzioni di indexing e ad altre feature strutturali, Linux e Open Source necessarie per poter avere buone performance anche nelle query più complesse. Nel Data Mining si mettono insieme sia tecniche esplorative sia confermative in una logica ciclica: innanzi tutto si sceglie cosa studiare, si costruisce un modello matematico che tenti di spiegare gli impatti del variare del campione di input sui risultati, si verifica la sua robustezza e la sua correttezza, se non è soddisfacente ad una prima analisi si raffina il modello e si procede nuovamente al suo test, e così via fino a quando si ottengono dei risultati soddisfacenti . Alla fine, quando il modello è sufficientemente accurato, si rende disponibile a tutti gli utenti interessati. Nella fase di Problem (problema di business) si passano in rivista le informazioni di business o gli indicatori chiave che identificano il problema che si vuole conoscere meglio. La fase di Model assolve al processo di comprensione delle relazioni tra i diversi fattori che influenzano il problema in esame per ottenere delle conoscenze approfondite. Infine, la fase di Plan comprende il processo d crescita della conoscenza ottenuta dall'analisi di fatti storici e dall'utilizzo del modello costruito nella fase di Model per formulare le linee guida che deve adottare l'azienda in riferimento al problema studiato. Tecniche di analisi Nel Data Mining, per scoprire le relazioni nascoste tra i dati e costruire di conseguenza dei modelli che le rappresentano, esistono due "famiglie" di tecniche di analisi o approcci: quelle di verifica e quelle di indagine o rispettivamente approccio top-down e approccio bottom -up. Spesso si riferisce a queste tecniche direttamente con il termine modelli, in tal caso si dir à rispettivamente modelli di verifica e modelli di scoperta. Nell'approccio top-down, chi effettua l'analisi dei dati utilizzando la teoria statistica cerca durante l'esplorazion di trovare conferme a fatti che ipotizza o che già conosce (ad esempio quali fattori hanno prodotto un risultato conosciuto), o di ampliare la sua conoscenza su nuovi aspetti di un fenomeno che già conosce in parte. A questo scopo si utilizzano le tecniche statistiche di clustering, l'analisi fattoriale, i metodi previsionali, per cu l'approccio risulta difficile da applicare se gli utenti non hanno buone conoscenze statistiche. Nell'approccio bottom -up l'utente si mette alla ricerca di informazioni utili che ignora "scavando" fra i dati e collegamenti tra loro in modo non aprioristico, per costruire ipotesi, ad esempio quali fattori sono le cause più probabili che producono un certo risultato. In questo caso è lo strumento (con la tecnologia delle reti neurali, degli alberi decisionali o altro) che deve essere in grado di guidare l'utente nel modo migliore nell'esplorazione dei dati alla ricerca di fatti utili. Spesso è proprio quando la ricerca viene affidata direttamente ai tool che si pu ò determinare la scoperta di nuove relazioni e segmentazioni fra i dati, altrimenti nemmeno immaginabili. Una volta individuato un fatto nuovo deve essere verificato con una tecnica di verifica precedente, dato che no è escluso che si possano fare scoperte non valide. Modello del business Lo scopo principale dell'attivit à di Data Mining è produrre un modello, secondo una particolare tecnica di analis che formalizzi le non ovvie e irresistibili conoscenze di business individuate nei dati. Un modello non è altro che la rappresentazione delle relazioni chiave che sono scoperte durante il processo di Data Mining. In pratica, è una topologia delle relazioni che mappa quali condizioni di input hanno influenza su specifiche condizioni di output e come alcune relazioni possono influenzare significativamente altre relazioni. In modo formale, un modello è una formula matematica che spiega l'effetto degli input sugli output. Come tal file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005 Data Mining : tecniche di trasformazione dei dati (Parte prima) Pagina 3 di 4 pu ò essere raffinato e messo a punto per una maggiore precisione attraverso un processo iterativo di comprensione dei dati che sono alla sua base. Una volta che il modello è stato creato e raffinato ad un accettabile grado di accuratezza, esso pu ò in due modi: 1. in modo descrittivo, permettendo agli utenti finali di studiare le relazioni scoperte tra i dati per migliorare la comprensione dei fattori chiave che influenzano il business; 2. in modo predittivo, determinando la pi ù probabile condizione di output associata agli input forniti. Il modello di data mining pu ò essere usato indipendentemente o in congiunzione con metodi di analisi dati tradizionali come query appoggiate a un data warehouse. Se il modello svela che i clienti di una certa area demografica sono molto propensi ad acquistare uno specifico prodotto, allora una query selettiva appoggiata ad un data warehouse di probabili compratori può per generare un elenco di indirizzi promozionali. Solitamente i modelli non svolgono egregiamente entrambi i ruoli, ma sono specializzati per l'una o per l'altra funzione. Modelli molto descrittivi e che svolgono sufficiente predizione sono ad esempio gli alberi decisionali, mentre le reti neurali forniscono predizioni altamente accurate con però scarse informazioni esplicative. I modelli descrittivi istruiscono sulle relazioni sottostanti ai dati e forniscono informazioni del tipo: "un cliente che compra tre volte i tovaglioli è probabile che compri anche la birra", "il peso e l'età, insieme, sono i pi importanti fattori per la predizione della presenza della malattia x", "famiglie con reddito tra 60,000 e 80,000 dollari e due o più automobili sono molto simili ad ogni altra famiglia senza figli e reddito tra 40,000 e 60,000 dollari" e così via. I modelli predittivi possono rispondere a domande del tipo: "questa è una transazione fraudolenta?", "quanto profitto fornir à questo cliente?", "quali dei miei clienti sono propensi a cambiare con i concorrenti?", "quale di queste famiglie risponder à alla diretta offerta per corrispondenza?", "in quale parte del corpo è localizzato la parte principale del tumore di questo paziente?" e così via. Modellistica e tecnologie Gli strumenti di Data Mining permettono analisi di tipo esplorativo o mediante modellistica avanzata. Le prime, danno una prima idea sulla struttura dei dati e dei possibili modelli (tecniche di analisi) che si possono applicare, e si basano su una visualizzazione multidimensionale, spesso in grado di far osservare tre più dimensioni o variabili alla volta, che consente di rappresentare i dati all'utente in modo che possa percepir relazioni nascoste al loro interno. La modellistica avanzata riguarda la forma funzionale che lega i dati, che permette di fare previsioni e simulazioni. Le tecnologie sulle quali si basano questi tool possono essere di diversi tipi: tra i più diffusi il clustering, gli alberi decisionali, le reti neurali, la fuzzy logic, gli algoritmi genetici. Ogni tecnologia è adatta per la risoluzione di alcuni problemi, ma non pu ò essere utilizzata per tutte le analisi, perch é talvolta può avere dei limiti; per questo diversi tool combinano tra loro diverse tecnologie, in modo che l'utente possa scegliere la più opportuna per il tipo di problema da analizzare, o possa poi comparare i risultat ottenuti usando tecnologie diverse. L'attivit à di Data Mining prevede le seguenti fasi: 1. Identificazione del problema di business; 2. Valutazione dell'ambiente di Information Tecnology (IT); 3. 4. Predisposizione dei dati in input; Preparazione dei dati; ? Campionamento, ? Esplorazione dei dati, ? Consolidamento e pulizia, ? Valutazione e selezione, ? Trasformazione, file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005 Data Mining : tecniche di trasformazione dei dati (Parte prima) 5. Pagina 4 di 4 Costruzione del modello; ? Scelta dell'approccio da utilizzare, ? Scelta della tecnologia, ? Implementazione in uno specifico algoritmo di uno specifico tool, ? Valutazione e interpretazione dei risultati, ? Raffinamento del/i modello/i, ? Scelta del modello finale, ? Validazione esterna, 6. Dispiegamento delle regole (modello) nei processi decisionali; 7. 8. Utilizzo delle nuove regole nelle business analysis (mining data); Monitoraggio del modello; 9. Revisioni (eventuali) del modello. Ad esempio i tool di SAS implementano la metodologia SEMMA (Sample, Explore, Modification, Model e Assess mentre i tool di SPSS implementavano in passato la metodologia delle 5 A (Assess, Access, Analyze, Act e Automate) che si vedranno in seguito nella parte dedicata ai prodotti. È da tenere presente che il più importante prerequisito per una scoperta della conoscenza con successo comprensione dei dati e del business. Senza questa comprensione, nessun algoritmo, sofisticato pi fornirà i risultati aspettati. Senza questo background non si è capaci di identificare il problema che si vuole risolvere, preparare i dati per il data mining o interpretare correttamente i risultati. file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005