Data Mining : tecniche di trasformazione dei dati (Parte prima)
Pagina 1 di 4
Martedì, 17 Maggio 2004
chi siamo | catalogo | contatti@ | rivendite | registrati | help
HOME
WEBZINE
LIBRI
UNIVERSITA'
EBOOK
BUSINESS
Ok!
ricerca:
OPENPRESS
Newsletter gratuite
Resta aggiornato!
Iscriviti alle Newsletter Apogeonline
20 Ottobre 2004 - Articoli
Riceverai via email l'aggiornamento su tu
novita' editoriali e gli articoli.
[Inserisci il tuo email e clicca su O
di Giuseppe Moschese
NetNews di Davide Pellegrino
Visto Mobile 5.0: e-mail push in tempo
Nasce la Byte User Community
Diritto e Tecnologia di Avv.Annarita Gil
Accordo raggiunto tra Sun e Kodak
ECommerceNews di Raffaella Scalisi
Centre Pompidou: il biglietto si acquist
online
TechNews di Dario D'elia e Enrico Sola
Con Windows XP Tablet PC Edition 200
arriva la lingua italiana
Le news di Apogeonline sul tuo sito
scoprire come clicca qui!
Data Mining : tecniche di
trasformazione dei dati
(Parte prima)
Lo scopo di questo articolo (il primo di
una serie) è quello di dare indicazioni
specifiche, utili alla costruzione di sistemi
di Data Mining, in termini di metodologie
di sviluppo e di analisi. L'articolo propone
inoltre un'indagine sulle tecniche che soddisfano le esigenze di analisi, ne
descrive la possibile applicabilit à e fornisce dei parametri di valutazione
Del termine Data Mining sono state date
ALTRI ARTICOLI
diverse ed utili definizioni. Il termine "Data
Dello stesso autore
Mining" è basato sull'analogia delle operazioni
Giuseppe Moschese
dei minatori che "scavano" all'interno delle
Di argomento simile
miniere grandi quantità di materiale di poco
Linguaggi e
valore per trovare l'oro. Nel Data Mining,
programmazione
questo "oro" è l'informazione,
precedentemente sconosciuta o indiscernibile,
il materiale di poco valore sono i dati e le
operazioni di scavo sono le tecniche di esplorazione dei dati.
John Ladley del Meta Group ha affermato che: "Il Data Mining è
un'estensione del Data Warehousing. È una sua evoluzione" quindi, il Data
Mining, non deve essere visto come un'alternativa alle analisi OLAP ma
piuttosto come una tecnologia complementare, da usare soprattutto per la
previsione automatizzata di trend e comportamenti, e per la scoperta
automatizzata di relazioni altrimenti non conosciute.
Per il suo alto valore aggiunto il Data Mining si sta diffondendo con una
certa rapidità in numerosi settori merceologici, per la valorizzazione delle
informazioni aziendali residenti nei sistemi operazionali che nei Data
Warehouse.
Dove si "costruisce" il Data Mining?
Lo sviluppo di un sistema di Data Mining dovrebbe avvenire partendo da
un Data Mart o un Data Warehouse già implementati in azienda, o
comunque da ambienti certificati dove i dati siano stati regolarizzati, in
modo che l'analisi possa essere fatta su dati accurati, integri e omogenei, il
più possibile "ripuliti" da incongruenze che potrebbero influenzare la
precisione dei risultati.
Partire da un Data Warehouse non è comunque indispensabile, perch é
alcuni tool hanno comunque la possibilità di preelaborare i dati, in modo da
Apogeonline News
Novità editoriali
SQL
SQL è l'acronimo di Structured
Query Language, ed è il linguaggio
standard per l'interrogazione di
database. Chiunque abbia a che
fare con i database deve, prima o
poi, "scontrarsi" con questo
linguaggio.
Ultimi articoli
Data Mining : tecniche di trasformazion
dati (Parte prima)
di Giuseppe Moschese
The Great Rock'n Roll Printer Swindle
di Roberto Delpiano
Tutti i colori del Web design
di Gianpaolo Lorusso
Speciali
Brainstorm di Bernardo Parrella
Dalle bufale ai super -blog agli osservat
presidenziali USA viaggiano su Interne
UnusualBiz di Roberto Venturini
È in arrivo la mucca WiDoppioClick di Salvatore Romagnolo
Google Desktop Search: ora Google ce
anche nel tuo computer
OpenPress di Bernardo Parrella
Modelli aperti per la propriet
domani
eGovernment di Alessandro Minelli
Nuove generazioni di chioschi digitali n
sobborghi londinesi
Archivi webzine
file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005
Data Mining : tecniche di trasformazione dei dati (Parte prima)
Pagina 2 di 4
rendere più sicuri i risultati dell'analisi; in ogni caso, per chi deve
Gli articoli e le news archiviati per argomento:
operare con questi strumenti non guasta avere un po' di familiarit à con
Computer, formazione Marketing, aziende e
e scuola
nuove tecnologie
le problematiche di pulizia dei dati.
Culture digitali
Mondo Mac
La maggior parte dei tool di Data Mining lavorano in architettura
Diritto e Internet
Multimedia
client/server, e l'ambiente client è in genere Windows 95 o Windows
Diritto e nuove
Net economy e e
tecnologie
business
NT. Per molti, la piattaforma server ideale, dove far risiedere l'archivio,
Diritto e nuove
New economy e
è un ambiente parallelo, high performance, dove vengono gestite
teconologie
trading online
facilmente le notevoli quantit à di dati necessarie: numerose sono le
Eventi
Prodotti e mercati
aziende che li offrono, con diverse configurazioni che riescono a coprire
Giornalismo e
Sistemi operativi
giornalismi
Tecnologia e societa
tutte le esigenze e tutte le tasche.
Hardware e software
Telefonia
Questi prodotti sono tutti in grado di lavorare con archivi dell'ordine di
Internet
Videogames
centinaia di gigabyte o di qualche terabyte, e in ambienti dove sono
Linguaggi e
Wireless
programmazione
eGovernment
presenti molti utenti: ci ò è reso possibile grazie alle versioni più
Linguaggi e sistemi
eLearning
recenti, che hanno capacit à di elaborazione parallela, di scalabilit à
operativi
spinta, di particolari funzioni di indexing e ad altre feature strutturali,
Linux e Open Source
necessarie per poter avere buone performance anche nelle query più
complesse.
Nel Data Mining si mettono insieme sia tecniche esplorative sia
confermative in una logica ciclica: innanzi tutto si sceglie cosa studiare, si costruisce un modello matematico
che tenti di spiegare gli impatti del variare del campione di input sui risultati, si verifica la sua robustezza e la
sua correttezza, se non è soddisfacente ad una prima analisi si raffina il modello e si procede nuovamente al
suo test, e così via fino a quando si ottengono dei risultati soddisfacenti .
Alla fine, quando il modello è sufficientemente accurato, si rende disponibile a tutti gli utenti interessati.
Nella fase di Problem (problema di business) si passano in rivista le informazioni di business o gli indicatori
chiave che identificano il problema che si vuole conoscere meglio.
La fase di Model assolve al processo di comprensione delle relazioni tra i diversi fattori che influenzano il
problema in esame per ottenere delle conoscenze approfondite. Infine, la fase di Plan comprende il processo d
crescita della conoscenza ottenuta dall'analisi di fatti storici e dall'utilizzo del modello costruito nella fase di
Model per formulare le linee guida che deve adottare l'azienda in riferimento al problema studiato.
Tecniche di analisi
Nel Data Mining, per scoprire le relazioni nascoste tra i dati e costruire di conseguenza dei modelli che le
rappresentano, esistono due "famiglie" di tecniche di analisi o approcci: quelle di verifica e quelle di indagine o
rispettivamente approccio top-down e approccio bottom -up. Spesso si riferisce a queste tecniche direttamente
con il termine modelli, in tal caso si dir à rispettivamente modelli di verifica e modelli di scoperta.
Nell'approccio top-down, chi effettua l'analisi dei dati utilizzando la teoria statistica cerca durante l'esplorazion
di trovare conferme a fatti che ipotizza o che già conosce (ad esempio quali fattori hanno prodotto un risultato
conosciuto), o di ampliare la sua conoscenza su nuovi aspetti di un fenomeno che già conosce in parte.
A questo scopo si utilizzano le tecniche statistiche di clustering, l'analisi fattoriale, i metodi previsionali, per cu
l'approccio risulta difficile da applicare se gli utenti non hanno buone conoscenze statistiche. Nell'approccio
bottom -up l'utente si mette alla ricerca di informazioni utili che ignora "scavando" fra i dati e collegamenti tra
loro in modo non aprioristico, per costruire ipotesi, ad esempio quali fattori sono le cause più probabili che
producono un certo risultato.
In questo caso è lo strumento (con la tecnologia delle reti neurali, degli alberi decisionali o altro) che deve
essere in grado di guidare l'utente nel modo migliore nell'esplorazione dei dati alla ricerca di fatti utili.
Spesso è proprio quando la ricerca viene affidata direttamente ai tool che si pu ò determinare la scoperta di
nuove relazioni e segmentazioni fra i dati, altrimenti nemmeno immaginabili.
Una volta individuato un fatto nuovo deve essere verificato con una tecnica di verifica precedente, dato che no
è escluso che si possano fare scoperte non valide.
Modello del business
Lo scopo principale dell'attivit à di Data Mining è produrre un modello, secondo una particolare tecnica di analis
che formalizzi le non ovvie e irresistibili conoscenze di business individuate nei dati.
Un modello non è altro che la rappresentazione delle relazioni chiave che sono scoperte durante il processo di
Data Mining. In pratica, è una topologia delle relazioni che mappa quali condizioni di input hanno influenza su
specifiche condizioni di output e come alcune relazioni possono influenzare significativamente altre relazioni.
In modo formale, un modello è una formula matematica che spiega l'effetto degli input sugli output. Come tal
file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005
Data Mining : tecniche di trasformazione dei dati (Parte prima)
Pagina 3 di 4
pu ò essere raffinato e messo a punto per una maggiore precisione attraverso un processo iterativo di
comprensione dei dati che sono alla sua base.
Una volta che il modello è stato creato e raffinato ad un accettabile grado di accuratezza, esso pu ò
in due modi:
1.
in modo descrittivo, permettendo agli utenti finali di studiare le relazioni scoperte tra i dati per
migliorare la comprensione dei fattori chiave che influenzano il business;
2.
in modo predittivo, determinando la pi ù probabile condizione di output associata agli input forniti.
Il modello di data mining pu ò essere usato indipendentemente o in congiunzione con metodi di analisi dati
tradizionali come query appoggiate a un data warehouse.
Se il modello svela che i clienti di una certa area demografica sono molto propensi ad acquistare uno specifico
prodotto, allora una query selettiva appoggiata ad un data warehouse di probabili compratori può
per generare un elenco di indirizzi promozionali.
Solitamente i modelli non svolgono egregiamente entrambi i ruoli, ma sono specializzati per l'una o per l'altra
funzione. Modelli molto descrittivi e che svolgono sufficiente predizione sono ad esempio gli alberi decisionali,
mentre le reti neurali forniscono predizioni altamente accurate con però scarse informazioni esplicative.
I modelli descrittivi istruiscono sulle relazioni sottostanti ai dati e forniscono informazioni del tipo: "un cliente
che compra tre volte i tovaglioli è probabile che compri anche la birra", "il peso e l'età, insieme, sono i pi
importanti fattori per la predizione della presenza della malattia x", "famiglie con reddito tra 60,000 e 80,000
dollari e due o più automobili sono molto simili ad ogni altra famiglia senza figli e reddito tra 40,000 e 60,000
dollari" e così via.
I modelli predittivi possono rispondere a domande del tipo: "questa è una transazione fraudolenta?", "quanto
profitto fornir à questo cliente?", "quali dei miei clienti sono propensi a cambiare con i concorrenti?", "quale di
queste famiglie risponder à alla diretta offerta per corrispondenza?", "in quale parte del corpo è localizzato la
parte principale del tumore di questo paziente?" e così via.
Modellistica e tecnologie
Gli strumenti di Data Mining permettono analisi di tipo esplorativo o mediante modellistica avanzata.
Le prime, danno una prima idea sulla struttura dei dati e dei possibili modelli (tecniche di analisi) che si
possono applicare, e si basano su una visualizzazione multidimensionale, spesso in grado di far osservare tre
più dimensioni o variabili alla volta, che consente di rappresentare i dati all'utente in modo che possa percepir
relazioni nascoste al loro interno.
La modellistica avanzata riguarda la forma funzionale che lega i dati, che permette di fare previsioni e
simulazioni. Le tecnologie sulle quali si basano questi tool possono essere di diversi tipi: tra i più diffusi il
clustering, gli alberi decisionali, le reti neurali, la fuzzy logic, gli algoritmi genetici.
Ogni tecnologia è adatta per la risoluzione di alcuni problemi, ma non pu ò essere utilizzata per tutte le analisi,
perch é talvolta può avere dei limiti; per questo diversi tool combinano tra loro diverse tecnologie, in modo che
l'utente possa scegliere la più opportuna per il tipo di problema da analizzare, o possa poi comparare i risultat
ottenuti usando tecnologie diverse.
L'attivit à di Data Mining prevede le seguenti fasi:
1.
Identificazione del problema di business;
2.
Valutazione dell'ambiente di Information Tecnology (IT);
3.
4.
Predisposizione dei dati in input;
Preparazione dei dati;
?
Campionamento,
?
Esplorazione dei dati,
?
Consolidamento e pulizia,
?
Valutazione e selezione,
?
Trasformazione,
file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005
Data Mining : tecniche di trasformazione dei dati (Parte prima)
5.
Pagina 4 di 4
Costruzione del modello;
?
Scelta dell'approccio da utilizzare,
?
Scelta della tecnologia,
?
Implementazione in uno specifico algoritmo di uno specifico tool,
?
Valutazione e interpretazione dei risultati,
?
Raffinamento del/i modello/i,
?
Scelta del modello finale,
?
Validazione esterna,
6.
Dispiegamento delle regole (modello) nei processi decisionali;
7.
8.
Utilizzo delle nuove regole nelle business analysis (mining data);
Monitoraggio del modello;
9.
Revisioni (eventuali) del modello.
Ad esempio i tool di SAS implementano la metodologia SEMMA (Sample, Explore, Modification, Model e Assess
mentre i tool di SPSS implementavano in passato la metodologia delle 5 A (Assess, Access, Analyze, Act e
Automate) che si vedranno in seguito nella parte dedicata ai prodotti.
È da tenere presente che il più importante prerequisito per una scoperta della conoscenza con successo
comprensione dei dati e del business. Senza questa comprensione, nessun algoritmo, sofisticato pi
fornirà i risultati aspettati. Senza questo background non si è capaci di identificare il problema che si vuole
risolvere, preparare i dati per il data mining o interpretare correttamente i risultati.
file://I:\mining-warehouse\Data%20Mining%20%20tecniche%20di%20trasformazion... 17/05/2005