Modelli di e-business e
business intelligence
Cdl Ingegneria Informatica
INTRODUZIONE AL WEKA
Umberto Panniello
DIMEG, Politecnico di Bari
KNOWLEDGE DISCOVERY IN DB
DAI DATI ALL’INFORMAZIONE

La società produce una grossa quantità di dati

fonti: business, science, medicina, economia,
geografia, ambiente, sports, …
Potenzialmente sono fonti di grande valore
 Servono tecniche per estrarre informazione
interessante automaticamente dai dati
 Cosa vuol dire interessante?

Nuova
 Implicita
 Potenzialmente utile
 Comprensibile

WEKA: THE BIRD
WEKA: IL SOFTWARE
E’ un software di Machine learning/data mining
scritto in Java
 Utilizzato nella ricerca, nella didattica, e nelle
applicazioni
 “Data Mining” by Witten & Frank
 Principali caratteristiche:

Set completo di strumenti per il pre-processing,
algoritmi di apprendimento e metodi di valutazione
 Graphical user interfaces (incl. data visualization)
 Ambiente per confrontare i risultati degli algoritmi

Graphical User Interface
EXPLORER

Comprende le seguenti funzioni






Pre-process
Classify
Cluster
Associate
Select attributes
Visualize
EXPLORER: PRE-PROCESSING
Possono essere importati dati in input di diversi
estensioni: ARFF, CSV, C4.5, binary
 I dati possono essere letti da un URL o da un
data base SQL
 Gli strumenti di pre processing sono chiamati
“filtri”
 WEKA contiene filtri per:


Discretization, normalization, resampling, attribute
selection, transforming and combining attributes
I FILTRI
 Servono a “trasformare” i dati. Si dividono
in:


Unsupervised (no conosco classe)
Supervised (conosco classe)
 Inoltre, si distingue tra:
 Attribute filters
 Instance filters
ESEMPIO DI INPUT Y=F(X)
Columns = Attributi
Raw
Istanze
Spectacle prescription
Astigmatism
Young
Young
Young
Young
Young
Young
Young
Young
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Pre-presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Presbyopic
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
Myope
Myope
Myope
Myope
Hypermetrope
Hypermetrope
Hypermetrope
Hypermetrope
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
No
No
Yes
Yes
Tear production
rate
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Reduced
Normal
Recommended
lenses
None
Soft
None
Hard
None
Soft
None
hard
None
Soft
None
Hard
None
Soft
None
None
None
None
None
Hard
None
Soft
None
None
Class
Age
EXPLORER: CLASSIFIERS
Classifiers: sono modelli per predire quantità
numeriche o nominali
 Algoritmi implementati sono:


Decision trees and rules, instance-based classifiers,
support vector machines, multi-layer perceptrons
(reti neurali), logistic regression,…
EXPLORER: CLUSTERING

I “clusterers” creano insieme di istanze tali che:
 le istanze dello stesso cluster sono simili tra
loro


le istanze di cluster diversi sono dissimili


alta somiglianza intra-classe
bassa somiglianza inter-classe
Alcuni algoritmi implementati sono:
 k-Means, EM, Cobweb, X-means,
FarthestFirst
EXPLORER: ASSOCIATIONS
 Permettono
di trovare associazioni di
dipendenza statistica fra attributi
Es: Sia data la regola:
compra(x,”pannolino”) => compra(x,”birra”)
Supporto: la percentuale di acquisti che comprendono
sia i pannolini che la birra.
 Confidenza: tra gli acquisti che includono i pannolini,
la percentuale di quelli che includono anche la birra.

EXPLORER: ATTRIBUTE SELECTION
Algoritmi che permettono di investigare quali
sottoinsiemi di attributi hanno maggiore capacità
predittiva
 Tali algoritmi constano di 2 parti:

Un metodo di valutazione: correlation-based,
wrapper, information gain, chi-squared, …
 Un metodo di ricerca: best-first, forward selection,
random, exhaustive, genetic algorithm, ranking

EXPLORER: DATA VISUALIZATION
WEKA permette di visualizzare singoli attributi
(1-d) e coppie di attributi (2-d)
 “Jitter” per aumentare il grado di dettaglio delle
rappresenazioni dei dati
 Funzioni di “Zoom-in” function
 Selezione dei dati da grafico

Graphical User Interface
THE KNOWLEDGE FLOW GUI
Permette di impostare un esperimento in
maniera grafica
 Permette di unire le diverse funzioni dell’explorer
graficamente



“data input” -> “filter” -> “classifier” -> “evaluator”
I Layout possono essere salvati e caricati
successivamente
Graphical User Interface
Graphical User Interface
CONFUSION MATRIX
Predicted class
yes
Actual
class
TP=
TP
TP + FN
FP=
FP
FP + TN
no
yes
true
positive
no
false
negative
false
positive
true
negative
OverallSuc cessRate=
TP + TN
TP + TN + FP + FN
TP + TN
ErrorRate= 1 TP + TN + FP + FN
PRECISION, RECALL AND F-MEASURE
number of documents retrieved that are relevant
Recall =
total number of documents that are relevant
number of documents retrieved that are relevant
Precision =
total number of documents that are retrieved
2 x Recall x Precision
F - Measure =
Recall + Precision