Data Mining : tecniche di trasformazione dei dati (Parte terza) Pagina 1 di 5 Martedì, 17 Maggio 2004 chi siamo | catalogo | contatti@ | rivendite | registrati | help HOME WEBZINE LIBRI UNIVERSITA' EBOOK BUSINESS Ok! ricerca: OPENPRESS Newsletter gratuite Resta aggiornato! Iscriviti alle Newsletter Apogeonline 02 Novembre 2004 - Articoli Riceverai via email l'aggiornamento su tu novità editoriali e gli articoli. [Inserisci il tuo email e clicca su O di Giuseppe Moschese NetNews di Davide Pellegrino I motori di ricerca vanno sul cellulare Telefonare gratis con Internet grazie a Diritto e Tecnologia di Avv.Annarita Gil Nel mondo delle frodi online arriva il "d phishing" ECommerceNews di Raffaella Scalisi La nuova frontiera delle aste online TechNews di Dario D'elia e Enrico Sola "Green Button Award", a premiare il v sarà Bill Gates Le news di Apogeonline sul tuo sito scoprire come clicca qui! Data Mining : tecniche di trasformazione dei dati (Parte terza) Apogeonline News Lo scopo di questo articolo (il terzo di una serie) è quello di dare indicazioni specifiche, utili alla costruzione di sistemi di Data Mining, in termini di metodologie di sviluppo e di analisi L'articolo, come si diceva nelle parti precedenti, propone inoltre un'indagine sulle tecniche che soddisfano le esigenze di analisi, ne descrive la possibile applicabilit à e fornisce dei parametri di valutazione. Trasformazione dei dati ALTRI ARTICOLI Dello stesso autore Giuseppe Moschese Di argomento simile Linguaggi e programmazione Link di riferimento 1/200410260101... Dopo che i dati sono stati "puliti", trattati tutti i valori non validi e mancanti e valutata la consistenza dei dati si è pronti per effettuare le trasformazioni necessarie. Le trasformazioni potrebbero essere dettate da esigenze di migliore comprensione del fenomeno e dalla massimizzazione delle informazioni contenute nei dati: una combinazione di variabili pu ò portare alla creazione di una nuova dimensione maggiormente esplicativa. La trasformazione è dettata anche da esigenze di sintesi: l'applicazione del metodo delle componenti principali, ad esempio, riduce le dimensioni del problema individuando un limitato numero di variabilit à essenziale del fenomeno indagato. Sostanzialmente le trasformazioni possono essere di due tipi: 1. 2. Trasformazioni sulla distribuzione dei dati: modificazioni matematiche alla distribuzione delle variabili. Creazioni di dati: creazione di nuove variabili dalla combinazione di variabili esistenti per eseguire tassi, differenze e cos ì via. Per le analisi statistiche, la fase della trasformazione dei dati è critica poich é alcune metodologie statistiche richiedono che i dati siano linearmente collegate ad una variabile obiettivo, normalmente distribuiti e liberi dagli outliers. Mentre i metodi dell'intelligenza artificiale e del machine learning non richiedono rigorosamente che i dati siano normalmente distribuiti o lineari, e alcuni metodi - gli alberi decisionali, per esempio - non richiedono che gli outliers siano trattati preventivamente. Questa è la maggiore differenza tra le analisi statistiche e il data mining. Novità editoriali Comportamento organizzativo Il testo introduce ai temi della diversità, della cultura organizzativa, della socializzazione e del management interculturale, analizzando in maniera approfondita il comportamento individuale, i comportamenti di gruppo e i processi organizzativi. Ultimi articoli Data Mining : tecniche di trasformazion dati (Parte terza) di Giuseppe Moschese Smau: bilancio positivo per il 2004, nu formula per il 2005 di Dario D'Elia Data Mining : tecniche di trasformazion dati (Parte seconda) di Giuseppe Moschese Speciali OpenPress di Federica Masera Migrare al pinguino: passo audace ma positivo Valtellinux Free Software Meeting 2004 UnusualBiz di Roberto Venturini Spazio, ultima frontiera (del business) Brainstorm di Bernardo Parrella Come coniugare al meglio la radio e In eGovernment di Alessandro Minelli Il voto dei militari statunitensi in missi viaggia online Inizia bene la sperimentazione del call unico della Pubblica Amministrazione francese file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005 Data Mining : tecniche di trasformazione dei dati (Parte terza) Gli algoritmi del machine learning hanno la capacit à di trattare automaticamente con distribuzioni non lineari e non normali, anche se in molti casi gli algoritmi lavoreranno meglio se questi criteri sono verificati. Per i metodi del machine learning le ragioni per il cambiamento delle distribuzioni delle variabili (tipo 1. delle trasformazioni) possono essere: Eliminare gli effetti degli outliers . Se i valori degli outliers sono estremi possono seriamente alterare l'accuratezza del modello che sarà costruito. Qualche volta gli outliers sono utili e non devono essere rimossi. Questo accade quando si è interessati al fraud detection o al deviant detection, in questi casi gli outliers possono essere i record che si stanno cercando e non dovrebbero essere toccati. Pagina 2 di 5 Archivi webzine Gli articoli e le news archiviati per argomento: Computer, formazione e scuola Culture digitali Diritto e Internet Diritto e nuove tecnologie Diritto e nuove teconologie Eventi Giornalismo e giornalismi Hardware e software Internet Linguaggi e programmazione Linguaggi e sistemi operativi Linux e Open Source Marketing, aziende e nuove tecnologie Mondo Mac Multimedia Net economy e e business New economy e trading online Prodotti e mercati Sistemi operativi Tecnologia e societa Telefonia Videogames Wireless eGovernment eLearning Rendere i dati "facilmente" interpretabili . Molte variabili di transazioni, come reddito e il numero di transazioni, hanno una distribuzione asimmetrica. Utilizzando i dati in questo formato le loro visualizzazioni sono difficili da interpretare. Usando uno schema di discretizzazione o prendendo il logaritmo, s trasformano tali variabili in modo da distribuire normalmente i dati, in questo modo il risultato è facile da interpretare e qualche volta si migliora anche la qualit à dei risultati. Ci sono diverse trasformazioni di creazione di dati (tipo 2.) che sono molto utili e possono migliorare in modo impressionante i risultati di un progetto di data mining. Tra questi si hanno: Variabili di tasso. Si creano delle nuove variabili più rappresentative e si ridurre il numero di variabili totali migliorando le performance del modello. Per esempio si può scegliere di prevedere il rischio di credito dal rapporto debito/reddito piuttosto che debito e reddito come variabili indipendenti. Termini derivati dal tempo. La creazione di questi termini è importante nelle predizioni poich é la variazione dei dati nel tempo è fondamentale per questa attività. Discretizzazioni usando range. La discretizzazione dei dati numerici usando dei range (di tutti i possibili valori) è un buon modo per normalizzare i dati. La creazione di range discreti permette una facile comprension dei dati. Altre volte sono proprio i tool a dettare la rappresentazione dei dati. Per esempio, le reti neurali lavorano bene su variabili dicotomiche "1" o "0" e molti alberi decisionali usati per le classificazioni richiedono che valori continui, come il reddito, siano raggruppati in range come "Alto", "Medio" e "Basso". La trasformazione in range dei dati pu ò essere utile anche a rimuovere gli effetti degli outliers. Da notare che la codifica che si sceglie pu ò influenzare il risultato del modello che si sta generando. Trasformazioni matematiche . Le funzioni matematiche applicate per trasformare i dati sono utili per standardizzare distribuzioni anormali e quando si tenta di linearizzare una variabile. Alcune funzioni matematiche includono trasformazioni logaritmiche, trasformazioni ad hoc e trasformazioni polinomiali. Le trasformazioni logaritmiche sono usate per normalizzare una variabile che ha una distribuzione asimmetrica Queste tendono anche a ridurre gli effetti degli outliers. Le trasformazioni polinomiali sono utili quando si vogliono linearizzare i dati che sono distribuiti in modo continuo. Conversioni da testo a numerico. Alcuni strumenti di data mining possono lavorare solo su input numerici. In questi casi, ai discreti valori testuali occorre assegnare un codice. Ma è possibile fare questo soltanto quand un tool di data mining è abbastanza intelligente da trattare queste informazioni in modo corretto. Per esempio se vengono convertite i nomi delle citt à con i corrispondenti CAP, non ha alcun senso effettuare computazione su tali codici. file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005 Data Mining : tecniche di trasformazione dei dati (Parte terza) Pagina 3 di 5 Dopo che i dati sono stati preparati, selezionati e trasformati, si è pronti a far girare gli algoritmi di data mining. Costruzione del modello In questa fase il focus del processo riguarda la costruzione di regole generali a partire dai dati osservati. Da un punto di vista generale si possono distinguere tecniche per lo studio dell' interdipendenza da quelle utilizzate per lo studio della dipendenza. Una ulteriore distinzione riguarda il tipo di variabili utilizzate per descrivere il fenomeno oggetto di studio: variabili qualitative o variabili quantitative. Lo studio dell' interdipendenza per variabili di tipo qualitativo si avvale di tecniche quali l'analisi delle corrispondenze o i modelli log lineari; per variabili di tipo quantitativo si ricorda, a titolo esemplificativo, l'anal dei gruppi, l'analisi delle componenti principali. Tecniche di questo tipo vengono impiegate nei progetti di segmentazione comportamentale della clientela, definizione di nuovi prodotti, costruzione della scheda cliente della scheda agenzia. L'analisi di dipendenza riguarda lo studio di una variabile rispetto ad altre variabili considerate esplicative. Anche in questo caso i modelli possono essere impiegati a seconda della natura delle variabili considerate: nel caso di variabili categoriche, ad esempio, modelli logit; nel caso di variabili quantitative, modelli di regressione lineare o logistica, a seconda della natura della variabile dipendente. Tecniche di analisi delle dipendenze vengono impiegate nei progetti di costruzione di scoring system o di valutazione del potenziale a livello di singolo cliente o a livello di area territoriale. Questo tipo di modellistica è piuttosto tradizionale. In genere la possibilit à di capire a fondo i modelli e soprattutto la trasparenza degli stessi portano ad una preferenza nel loro utilizzo rispetto a metodi pi complessi e di più difficile analisi. In molti casi però considerazioni sullo spazio delle variabili, sulla dimensione del problema, sulla complessità del modello esplicativo sottostante portano alla necessit à di utilizzare altro tip di modellistica: reti neurali, alberi decisionali, algoritmi genetici. Si tratta di modelli che trattano diverse tipologie di variabili e che hanno il pregio di funzionare anche quando la dimensione del problema decisamente ampia. Sono proprio gli avanzamenti tecnologici recenti che hanno reso possibile l'impiego di queste tecniche, destinate a diventare una parte fondamentale del bagaglio degli attrezzi dell'analista. Alle nuove tecnologie è legato il concetto di training o learning che deriva direttamente dal campo dell'intelligenza artificiale del machine learning. Con esso si intende quella fase della costruzione del modello dove il modello stesso (tramite un algoritmo di apprendimento) apprende le informazioni contenute nel dataset - un particolare sottoinsieme dei dati preparati ai passi precedenti. Se si tratta della costruzione di un modello predittivo, il training dataset, conterr à tutte variabili necessarie per le predizioni, dette variabili indipendenti, e la variabile che contiene il risultato, detta variabile dipendente o target. L'apprendimento in cu si conosce anche il risultato viene detto supervised learning (apprendimento supervisionato), come il caso d fraud detection e del risk management. Mentre l'apprendimento in cui non è noto il risultato viene detto unsupervised learning (apprendimento non supervisionato), un esempio sono gli algoritmi di clustering dov il gruppo target non è noto a priori. Una volta che il modello è stato addestrato sul training dataset viene controllato su un altro insieme di dati (differente dal precedente e contenente ancora anche le risposte) che viene solitamente chiamato Mentre ci sono sempre almeno due dataset, training e testing, è possibile che ci siano tre o meglio quattro dataset usati per generare e validare un modello predittivo. Questi dataset chiamati solitamente training control , test e validation sono usati nel modo seguente: ? training : usato per la costruzione del modello, ? control: opzionale, usato per controllare l'overtraining del modello, la tendenza di apprendere file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005 Data Mining : tecniche di trasformazione dei dati (Parte terza) Pagina 4 di 5 l'istanza di addestramento piuttosto che generalizzare, ? ? test : usato dal tool di costruzione del modello per valutare l'accuratezza di un particolare modello, validation : spesso usato dall'esperto di metodi quantitativi per valutare l'accuratezza del modello finale dalla comparazione del valori predetti dal modello e le risposte note. La ragione della presenza di molti dataset è dovuta al fatto che il processo di data mining è un processo interattivo con diversi livelli di cicli annidati. Ad ogni livello è necessario un nuovo dataset indipendente che possa veramente testare o validare il modello prodotto al precedente livello di ciclo. Durante il processo di data mining non viene creato un unico modello, ma lo stesso tool che si utilizza mette a disposizione tecnologie diverse, per poter creare modelli diversi e valutare quale si comporta meglio sul problema in esame e sui dati disponibili. Scelta dell'approccio, della tecnologia e dell'algoritmo La costruzione pratica del modello inizia con la scelta dell'approccio con cui si vuole studiare il problema di business delineato nella prima fase del processo di sviluppo di un sistema di Data Mining. Per un determinato problema di business non esiste un'unica tecnica di analisi così come per una tecnica di analisi non esiste un'unica tecnologia che la supporta. Interpretiamo la cardinalit à ('1' o 'm') delle relazioni tra le fasi fondamentali di un processo di data mining mostrate in figura: ? ? ? Tra problema di business e approcci di data mining (m:m). Un problema di business pu ò essere studiato usando più di una classe di modelli, e naturalmente un approccio di modellazione pu applicato a molti problemi di business. Tra approcci di data mining e tecnologie (m:m). Più di una tecnologia pu ò essere usata per ogni classe di modelli, e ogni tecnologia pu ò essere usata per più classi di modelli. Tra tecnologie e algoritmi (1:m). Una tecnologia pu ò essere implementata in più modi. ? Tra tecnologie e prodotti (m:m). I tool di Data Mining possono supportare più di una tecnologia, e naturalmente una tecnologia è supportata da più fornitori di prodotti. ? Tra algoritmi e prodotti (1:1). Per ogni data tecnologia (dalla lieve diversit à d'interpretazione della notazione del modello), ogni particolare prodotto supporta una particolare implementazione del relativo algoritmo. Con maggiore precisione si può dire che esistono sei maggiori classi di approcci di data mining (o tecniche di analisi o classi di modelli), esse sono: le classificazioni, le regressioni, le serie storiche, il clustering, le associazioni e la scoperta delle sequenze. Si vedranno più in dettaglio nel prossimo capitolo. Per quanto riguarda le tecnologie esse sono la base dei sistemi di data mining, e agli iniziali metodi statistici s sono aggiunti col tempo nuove tecnologie per la scoperta di pattern nei dati. Tra esse si ricordano gli alberi decisionali, le reti neurali, i sistemi basati su logica fuzzy e così via come mostrato nei capitoli successivi. Sebbene ogni tecnologia rappresenta uno specifico tipo di analisi, i prodotti implementano più tecnologie, e il progetto di un algoritmo di data mining pu ò avere significative differenze dalle performance e dalla scalabilit del prodotto. Questo è cruciale quando al prodotto è richiesto di esplorare dei VLDB; non si fanno assunzioni sulla lineare scalabilit à di un tool di data mining quando il volume dei dati cresce. Col tempo sono stati sviluppati, e messi a disposizione dei tool di data mining, degli algoritmi sempre pi sofisticati. Ad esempio per l'implementazione (di metodi) degli alberi decisionali si ricordano: il CART (Classification and Regression Tree), il CHAID (CHi -squared Automatic Interaction Detection), l'Entropy Variance, l'ANOVA, il Gini Variance. Per l'implementazione delle varie architetture delle reti neurali si ricordano il MLP (Multi-Layer Perceptron), la PPN (Probabilistic Neural Network), le RBF (Radial Basic Functions), le map auto -organizzate di Kohonen, le MBR (Memory Based Reasoning) e così via, e per le cluster analysis il K file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005 Data Mining : tecniche di trasformazione dei dati (Parte terza) Pagina 5 di 5 Valutazione e interpretazione dei risultati Dopo che è stato costruito un modello, bisogna valutare i suoi risultati e interpretare il loro significato. Quand si conduce la validazione del modello, bisogna trovare un tasso di accuratezza. È importante ricordare che questo tasso di accuratezza è applicato solo ai dati sul quale il modello costruito. In pratica, l'accuratezza pu ò variare se i dati che si applicano al modello si differiscono significativamente dai dati originari. Per problemi di classificazione, una matrice di confusione è molto utile per comprendere i risultati. Una matric di confusione mostra il numero dei valori reali delle classificazioni e il numero dei valori previsti. Non solo mostra come il modello predice bene ma presenta anche i dettagli necessari per indicare con precisione dove cose vanno male. Di grande aiuto sulla valutazione dell'utilità di un modello sono i lift chart o gain chart . Esso mostra come le risposte (ad una mailing list o un trattamento chirurgico) sono cambiate con l'applicazione del modello. Si vede ad esempio che se si prende casualmente (random) il 10% del target, la risposta al trattamento 10%, mentre se si prende il 10% del target selezionato dal modello (target con punteggio - scored sono superiori al 30%. Questo miglioramento delle risposte è chiamato lift. Un altro importante componente di interpretazione è la valutazione del "valore" del modello. Il modello sicuramente interessante, ma le operazioni per costruirlo possono costare più dei ritorni o dei risparmi genera Un diagramma del ROI che fornisce i valori delle risposte e i costi per ottenerli d à un ulteriore aiuto per le decisioni di marketing. Da tenere sempre presente che i risultati di un modello sono solo profittevoli se si può agire con essi. Bisogna essere sicuri di avere un vantaggio pratico dalla conoscenza che si guadagna. file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005