L`espressione Data Mining, che letteralmente

SEGMENTAZIONE INNOVATIVA VS TRADIZIONALE
Approccio Tradizionale
dei
dati
personali
tramite
Approccio Innovativo
Arricchimento dei dati del
Raccolta
contratto
sottoscrittore / user
(professione, dati sul nucleo familiare, livello di
Arricchimento del database user con fonti esterne
oggettive e misurabili in termini di:
•
reddito, ecc.)
Limiti:
•
cognome
I dati relativi a nome e cognome e alla
correttezza
dell’indirizzo
non
Spesso i campi non sono compilati o
compilati parzialmente
•
•
vengono
verificati o sono incompleti
•
Riconoscimento e validazione del nome e del
La raccolta dei dati personali è soggettiva e
poco misurabile perché lasciata alla rete di
Riconoscimento, validazione, capificazione e
normalizzazione dell’indirizzo
•
Attribuzione
delle
coordinate
X,Y
per
la
localizzazione del cliente
• Arricchimento delle informazioni sul cliente
relativamente a:
o
promotori / agenti
variabili socio demografiche (es. età del
cliente, reddito, cluster sociodemografico
Value
Lab,
scoring
finanziario,
livello
istruzione, valore immobili, beni posseduti,
tipologia prevalente professioni, ecc.)
o
variabili territoriali (caratteristiche della
microzona di residenza, distanza dalla
filiale / agenzia / consulente).
Costruzione del database/
datamart per il data-mining
Costruzione di un database contenente:
•
anagrafica promotori
Creazione di un database finalizzato all’analisi statistica
secondo modelli statistici (non pura estrazione/ reportistica)
La
•
anagrafica clienti
•
transazioni avvenute e relativi movimenti
•
albero decisionale (Chaid, C&RT, ecc.)
•
reportistiche standard attraverso l’incrocio
•
cluster analysis
delle diverse viste/dimensioni di analisi
•
reti neurali
costruzione
del
quali:
database
è
tipicamente
Le fasi di costruzione del datamart per il data mining
relazionale su cui si appoggiano cubi olap per la
differiscono dalla costruzione di un classico database e
parte di reportistica
prevedono una modellizzazione specifica per tool di analisi
Gli skill necessari allo sviluppo del db tradizionale
statistica muiltivariata (es. SPSS o Enterprise Miner di
sono di programmatori, sviluppatori di db, db
SAS). Le principali differenze si evincono nelle fasi di:
•
administrator, ecc.
integrazione delle fonti dati
Se i dati provengono da più fonti, vanno
Limiti:
•
consolidati in un singolo database
permettono estrazioni di liste di clienti in
–
riconoscimento cliente unico (doblonatura)
funzione di singole variabili secondo una
–
modifica
logica di query sul database
•
e
ridefinizione
campi
inconsistente
non permette di associare / aggregare
–
eliminazione differenti codifiche dei dati
comportamenti simili tra clienti / promotori
–
eliminazione valori inconsistenti per gli
perché
strutturato
secondo
logiche
reportistica e non secondo logiche di
“associazione per similarità”
stessi dati
di
•
creazione di nuovi campi derivati
–
Variazione di una grandezza fra due
periodi
–
Relativizzazione di una misura
–
Creazione di indici ad hoc per i modelli
statistici
(es.
standardizzazione
delle
variabili rispetto alla media e alla varianza)
•
identificazione ed eliminazione di outlier
–
valori massimi e minimi
–
verifica della distribuzione delle variabili
–
eventuale scelta di non considerare nelle
analisi variabili distorsive
•
eventuale selezione di un campione
–
per disporre di più basi di confronto per la
scelta dei modelli
–
per Testare i modelli su differenti subset di
dati
•
trasformazione variabili per specifici modelli
–
Discretizzazione di una variabile continua
(es. da fatturato in € a classi di fatturato)
–
Creazione di flag (es. da valore della
raccolta relativa a un prodotto a prodotto
trattato si/no)
–
Trasformazione di variabili qualitative in
quantitative
–
Omogeneizzazione
delle
variablili
qualitative e quantitative (per i modelli che
prevedono l’utilizzo di solo una delle due
tipologie)
La costruzione del db è effettuata da esperti di statistica
multivariata e non da sviluppatori o programmatori.
Segmentazione
La segmentazione avviene introducendo nel db dei
La segmentazione della base clienti è focalizzata sulla
filtri (simili ad excel) sulle diverse variabili ma non
ricerca di cluster di clienti con comportamenti simili tra loro.
permette di aggregare i record dei clienti per
Le tecniche (e i differenti algoritmi statistici) di cluster
“comportamenti simili”.
analysis o reti neurali consentono di individuare gruppi di
Di fatto non è possibile segmentare correttamente
clienti omogenei al loro interno e differenziati tra loro.
la base clienti.
Ciò che distingue questa attività da quella di “pura
estrazione” o applicazione di filtri (metodo tradizionale) è il
fatto che nel clustering le classi o i gruppi non sono definiti
a priori, ma attraverso un’opera di maieutica vengono
“riconosciuti” e descritti a posteriori dal modello e
interpretati dal manager.
Figura 1 – Segmentazione comportamentale
Cluster analysis
BANCA Z - Segmentazione comportamentale dei clienti
Deposito titoli
Mutu
i
Bancoma
100,t
0
Carte
revolving
50,
0
-
Libretto di
risparmio
Domiciliazione utenze
Gestione
patrimoniale
Bancomat
1
2
3
Carta di
credito
Prodotto assicurativo
Carta di cr edito
Fond
i
Carte r evolving
Domiciliaz. utenze
Home
banking
Credito
personale
Prod. assicur ativo
Home banking
Credito personale
Fondi comuni
Gest. patrimoniale
Cluster
Libretto risparmio
1
Mutui
2
Deposito titoli
3
0
10
20
30
40
50
60
70
80
90
100
Nella figura 1 il cluster 3 è rappresentato, in una
banca con prodotti assicurativi, dai cosiddetti
“correntisti tecnologici-propensi al rischio” che
fanno largo utilizzo di home banking, carta di
credito, prodotti assicurativi, domiciliazione utenze
e hanno un consistente deposito titoli.
Su tale cluster l’azienda può focalizzare l’offerta di
prodotti finanziari specifici per il target in oggetto
ottenendo
redemption
significativamente
più
elevate rispetto alle estrazioni classiche effettuate
tramite semplici query.