Data mining
e rischi aziendali
Antonella Ferrari
Università
Università degli Studi di Verona
© A. Ferrari
La piramide delle componenti
di un ambiente di Bi
Decision maker
La decisione
migliore
Decisioni
Ottimizzazione
Scelta tra alternative
Modelli di apprendimento
Data Mining
Esplorazione dei dati
Analisi statistica e visualizzazione
Data warehouse e data mart
Analisi dei cubi multidimensionali
Analisi attive di Bi
Estrazione di informazioni e
conoscenze a partire dai dati
Analisi passive di Bi
Metodi statistici, sistemi di
interrogazioni e reporting
Fonti di dati
Dati operazionali, documenti e dati esterni
Fonte: Business Intelligence. Modelli matematici e sistemi per le decisioni
decisioni,, C. Vercellis, McGraw Hill,
Hill, 2006.
Università
Università degli Studi di Verona
2
© A. Ferrari
Il data mining è …
Il processo di esplorazione e analisi di grandi
quantità di dati avente lo scopo di scoprire
conoscenza, nuovi fatti, correlazioni,
regolarità utili nella presa di decisioni
3
Università
Università degli Studi di Verona
© A. Ferrari
Il data mining, la statistica
classica e gli strumenti Olap
Olap
Statistica
Data mining
Estrazione di dettagli e
totali aggregati dai dati
Verifica di ipotesi
formulate da analisti
Identificazione di
regolarità e ricorrenze
nei dati
Informazione
Validazione
Conoscenza
Distribuzione dei redditi
di chi richiede mutui
Analisi di varianza dei
redditi di chi richiede
mutui
Caratterizzazione di chi
richiede mutui e
predizione di chi li
richiederà in futuro
Fonte: Business Intelligence. Modelli matematici e sistemi per le decisioni
decisioni,, C. Vercellis, McGraw Hill,
Hill, 2006.
Università
Università degli Studi di Verona
4
© A. Ferrari
Il data mining, la statistica
classica e gli strumenti Olap
Analisi statistiche
Preventiva formulazione di un’ipotesi che in seguito si
cerca di confermare in base all’evidenza campionaria
Analisi Olap
Criteri di estrazione, reporting e visualizzazione basati su
ipotesi formulate
Entrambi forniscono elementi a conferma o
a smentita delle ipotesi formulate
Approccio di analisi di tipo top-down
5
Università
Università degli Studi di Verona
© A. Ferrari
Il data mining, la statistica
classica e gli strumenti Olap
Modelli di data mining
Predizioni e interpretazioni che costituiscono nuova
conoscenza
Approccio di analisi di tipo bottom-up
Apprendimento dai dati
6
Università
Università degli Studi di Verona
© A. Ferrari
Apprendimento dai dati
Gli algoritmi imparano dai dati, sono quindi adattabili,
cioè possono essere impiegati anche quando le condizioni
cambiano
Inoltre sono in grado di fornire buone risposte a fronte di
dati rumorosi (errori o anomalie per eventi straordinari, …)
7
Università
Università degli Studi di Verona
© A. Ferrari
Obiettivo del data mining
Capire il fenomeno
(Apprendere dall’esperienza passata)
Ieri
Oggi
Prevedere il fenomeno
(Ampliare l’orizzonte)
Domani
Un ponte tra il passato e il futuro
8
Università
Università degli Studi di Verona
© A. Ferrari
Dal dato alla conoscenza
Dati
Dati di target
Selezione
Dati trasformati
Preparazione
Patterns
Data mining
Interpretazione/
Valutazione
Università
Università degli Studi di Verona
Fonte: Advances in knowledge discovery and data mining,
mining, U. M.Fayyad,
M.Fayyad, G.PiatetskyG.Piatetsky-Shapiro,
Shapiro, P. Smyth,
Smyth, R.
R.Uthurusamy,
R.Uthurusamy, AAAAI Press / The MIT Press, 1996.
Conoscenza 9
© A. Ferrari
Dal dato alla conoscenza
Processo interattivo e iterativo, strutturato in diverse fasi:
1. Identificazione del problema, tenendo conto della
relativa conoscenza già acquisita in precedenza e
degli obiettivi che si vogliono perseguire
2. Selezione dell’insieme dei dati, oggetto del processo
di estrazione (scoperta) della conoscenza
3. “Pulizia” e normalizzazione dei dati attraverso, ad
esempio, l’eliminazione dei dati rumorosi (noise) e dei
valori estremi (outlier), la gestione dei campi vuoti
(missing values field) …
10
Università
Università degli Studi di Verona
© A. Ferrari
Dal dato alla conoscenza
Processo interattivo e iterativo, strutturato in diverse fasi:
4. Individuazione delle caratteristiche salienti per
rappresentare il fenomeno che si sta analizzando in
funzione dell’obiettivo definito
5. Scelta del cosiddetto “data mining task”, cioè il tipo
di analisi sui dati da effettuare (classificazione,
previsione, …)
6. Scelta delle tecniche di data mining da impiegare
per ricercare i pattern nei dati
11
Università
Università degli Studi di Verona
© A. Ferrari
Dal dato alla conoscenza
Processo interattivo e iterativo, strutturato in diverse fasi:
7. Svolgimento del data mining, cioè si compie la
ricerca dei pattern d’interesse
8. Interpretazione dei pattern “scoperti” con la
possibilità di ritornare alle fasi precedenti per ulteriori
iterazioni
9. Consolidamento e formalizzazione della conoscenza
acquisita (realizzazione/integrazione di un sistema
applicativo, redazione di documentazione,
presentazione alle parti interessate, …)
12
Università
Università degli Studi di Verona
© A. Ferrari
Tipologia di problemi
• Classificazione/Valutazione
• Paziente A
t0
• Paziente B
• Previsione
• Paziente A
t1
• Paziente B
• Segmentazione
• Cluster A
• Cluster B
• Cluster C
13
Università
Università degli Studi di Verona
© A. Ferrari
Tipologia di apprendimento
Apprendimento supervisionato
Input
Output
Info Cliente XXX
Cliente Classe A
Info Cliente YYY
Cliente Classe B
Apprendimento non supervisionato
Solo Input
Cluster A
Clienti
Cluster B
Cluster C
14
Università
Università degli Studi di Verona
© A. Ferrari
Alcune tecniche
Apprendimento supervisionato
• Alberi decisionali
• Reti neurali *
Apprendimento non supervisionato
• Regole associative
• Algoritmi di clustering
15
Università
Università degli Studi di Verona
© A. Ferrari
Reti neurali
Tecnica di apprendimento che vuole essere il
tentativo di imitare il cervello umano nella sua
struttura di miliardi di neuroni interconnessi
attraverso le sinapsi e nel suo funzionamento
Essa è impiegata per la risoluzione di problemi in
cui sono richieste capacità di riconoscimento, di
classificazione o di previsione
16
Università
Università degli Studi di Verona
© A. Ferrari
Alberi decisionali
Tecnica di apprendimento per la risoluzione di
problemi di classificazione e di previsione
Essa genera regole del tipo se … allora che
consentono di capire il processo che ha portato a
un certo risultato
17
Università
Università degli Studi di Verona
© A. Ferrari
Regole associative
Tecnica che consente di estrarre informazioni sulla
base della concomitanza del verificarsi di certi
eventi
Essa è spesso associata alla market basket
analysis, una tecnica impiegata per scoprire le
relazioni o le correlazioni tra un insieme di
prodotti (paniere o basket)
18
Università
Università degli Studi di Verona
© A. Ferrari
Algoritmi di clustering
Gli algoritmi di clustering esplorano i dati al fine di
individuare caratteristiche comuni che consentano
di suddividerli in gruppi omogenei (cluster)
I dati vengono raggruppati sulla base delle
somiglianze e affinità che presentano
19
Università
Università degli Studi di Verona
© A. Ferrari
Differenze nelle tecniche
Accuratezza versus comprensibilità
Alto
Alberi decisionali
Livello di facilità di
comprensione
Algoritmi di clustering
Regole associative
Reti neurali
Basso
20
Università
Università degli Studi di Verona
© A. Ferrari
Ambiti applicativi
• Rischio frodi perpetrate attraverso l’uso di carte di
credito o Sim telefoniche
• Rischio frodi assicurative
• Rischio di credito
• Rischio di abbandono
• Rischi legati alla diagnostica medica
• Rischi legati a processi produttivi di diversa natura
• Rischi legati all’It Governance (controllo, sicurezza,
integrità dei dati, …)
• …
Università
Università degli Studi di Verona
21
© A. Ferrari
Scelta
tecnica
Raccolta
Addestramento
Valutazione
modelli
Scelta miglior
modello
Altre variabili
derivate
Verifica,
analisi e
pulizia
Altri campioni (set)
Quali
Nuovi dati
Dati scorretti o
incongruenti
Dati
Preelaborazione
Università
Università degli Studi di Verona
Definizione
set/modelli
Altre tecniche
Se non disponibili
L’ambiente ad hoc
di data mining
22
© A. Ferrari
Flusso operativo
Codice CLIENTE
Database
X
Caratteristiche
individuate dal
modello
Cluster di
appartenenza
Database
X
Codice CLIENTE
Cluster di
appartenenza da
definire
Datamart
X
Datamart
X
Modello di
clustering
DWH
X
DWH
X
Tabella CLIENTI
Tabella CLIENTI
Report
…..
23
Università
Università degli Studi di Verona
© A. Ferrari
Data mining e Edp auditing
Il data mining come strumento a supporto
dell’attività di Edp Auditing
Il data mining come “sistema informativo” oggetto
di attività di Edp Auditing
24
Università
Università degli Studi di Verona
Grazie!
[email protected]
25
Università
Università degli Studi di Verona