livelli di grigio

Metodologie per Sistemi
Intelligenti
Costruzione di
Modelli Previsionali
Ing. Igor Rossini
Laurea in Ingegneria Informatica
Politecnico di Milano
Polo Regionale di Como
Agenda
•
•
•
•
Knowledge discovery in database
Costruzione di modelli previsionali
Dati dipendenti dal tempo
Ciclo di vita del cliente
© Igor Rossini
Agenda
•
•
•
•
Knowledge discovery in database
Costruzione di modelli previsionali
Dati dipendenti dal tempo
Ciclo di vita del cliente
© Igor Rossini
Knowledge Discovery in
Databases (KDD)
• E’ il processo per identificare nei dati
pattern con caratteristiche di validità,
novità, utilità potenziale e facilità di
comprensione
(Frawley, Piatetsky, Shapiro, Mattheus, 1991)
© Igor Rossini
Dati
© Igor Rossini
Pattern o forme (1)
• Espressione (o regola) che descrive un fatto
• Esempio: “se il cliente auto ha un età
compresa tra i 18 e i 21 anni allora ha una
elevata probabilità di causare un sinistro”
© Igor Rossini
Pattern o forme (2)
Sinistro
Si
No
18-21
21-27
27-35
…..
Età
© Igor Rossini
Caratteristiche dei pattern
• Validità: il pattern individuato potrebbe essere valido
per i nuovi dati con lo stesso livello di certezza
• Novità: i pattern rappresentano delle novità che
possono essere valutate attraverso un confronto tra i
valori dei dati attuali e i valori dei dati passati
• Utilità Potenziale: i pattern individuati dovrebbero
potenzialmente condurre ad azioni utili
• Facilità di comprensione: i pattern devono essere
definiti allo scopo di migliorare e facilitare la
comprensibilità dei dati
© Igor Rossini
Il processo di KDD
Valutazione
Data Mining
Trasformazione
Preparazione
Conoscenza
Selezione
Risultati
Dati Preparati
Dati
Dati
Trasformati
Dati
Selezionati
© Igor Rossini
Le fasi principali (1)
Definizione
del problema
Selezione
dati
- Selezione dominio - Selezione delle fonti
dati da utilizzare
di applicazione
- Definizione degli
obiettivi aziendali
- Selezione del set di
variabili più adatte per
il processo di analisi
Pulizia
dati
- Pulizia e
normalizzazione dei
dati
- Eliminazione dei dati
rumorosi (noise) e dei
valori estremi
(outlier)
- Gestione dei campi
vuoti (missing value)
Caratteristiche
fenomeno
- Realizzazione di una
struttura dati più
adatta agli scopi e agli
obiettivi prefissati
- Applicazione di
tecniche di riduzione
dimensionale
- Applicazione di
metodi di
trasformazione
© Igor Rossini
Le fasi principali (2)
Scelta del task
- Definizione del
tipo di analisi da
effettuare
(classificazione,
previsione, ecc.)
Selezione
tecniche
Data Mining
- Selezione delle
tecniche di data
mining da utilizzare
per ricercare i pattern
nei dati
- Analisi esplorative
dei modelli e
definizione di
opportune ipotesi
Data Mining
- Ricerca dei pattern
di interersse
Analisi e
Validazione
risultati
- Interpretazione dei
pattern scoperti con
possibilità di reiterare
l’intero processo
- Consolidamento
della conoscenza
acquisita
© Igor Rossini
Esempio: Identificazioni Frodi (1)
• Definizione del problema: Ottenere un profilo
degli utenti che commettono delle frodi, allo
scopo di riuscire a capire se un nuovo contratto
può essere pericoloso per l’azienda
• Raccolta dati: i dati provengono da filiali differenti.
Sono omogenei? Sono nello stesso formato? Sono
memorizzati su supporti compatibili?
• Data “cleaning”: I dati contengono informazioni
che sono sicuramente inutili? Se si è utile
eliminarla.
© Igor Rossini
Esempio: Identificazioni Frodi (2)
• Conoscenza Implicita/Esplicita: “..le frodi
generalmente vengono effettuate da utenti che
chiamano numeri stranieri o service provider
(166/144)..”
• DATA MINING: dai dati forniti su casi utenti che
hanno commesso frodi e di utenti che non ne
hanno commesse, generare una serie di profili
che:
– caratterizzano gli utenti che devono essere considerati
rischiosi
– ma che non si applicano ad utenti sicuri!
© Igor Rossini
Esempio: Identificazioni Frodi (3)
• Validazione: il risultato ottenuto è quello che il
committente si aspettava? E’ ragionevole?
• Proposta di nuovi goal:
– “… I risultati sono interessanti…riuscireste ad…”
– “… automatizzare il processo in modo che sia
possibile aggiornare i profili ogni settimana o mese?”
– “… essere tanto accurati da scoprire con buona
certezza se c’è una possibile frode in atto nelle ultime
sei ore?”
© Igor Rossini
KDD
In generale il KDD è il processo di
trasformazione ….
• ….dei dati in informazione e
• dell’informazione in conoscenza
• allo scopo di migliorare…di capire….
© Igor Rossini
Dal Dato alla Conoscenza
Conoscenza
Processo
Decisionale
Informazione
Settore
Operativo
Dati
Richieste
© Igor Rossini
Catena del Valore
dell’Informazione
Decisioni
-Promuovere Il conto corrente on-line a clienti giova
-Offrire una polizza malattia a chi possiede già polizza
vita
-Effetuare campagne anti-attrition per i clienti di class
medio alta
Conoscenza
-Il conto corrente on-line è acquistato da clienti giovani
Informazioni
Dati
-Chi ha una polizza vita compra anche una polizza
malattia
-I clienti di classe medio-alta hanno una propensione
all’abbandono più alta
-Bianchi vive a Roma
-Rossi ha acquistato un palmare
-Verdi ha 32 anni
-Neri ha collezionato 3 sinistri auto
-Demografici
-Geografici
-Transazionali
-Customer base
© Igor Rossini
Conoscenza e Metaconoscenza
Conosciuto
Non
Conosciuto
Metaconoscenza
Conoscenza Vera
Conosciuto
Non Conosciuto
Si sa di Sapere
Si sa di non Sapere
Non si sa di Sapere Non si sa di non Sapere
© Igor Rossini
Data Mining (1)
• Il Data Mining consiste in una serie di
applicazioni di tecniche statistiche,
algoritmiche e di visualizzazione
finalizzate alla scoperta, quanto più
automatizzata, di fenomeni interessanti
(pattern, regolarità, outlier, ecc.) in grandi
volumi di dati
© Igor Rossini
Data Mining (2)
• “Il Data Mining si occupa della scoperta di pattern non prevedibili a
priori e nuove regole da grandi basi di dati”. [A. Zantiage, Data
Mining, Addison-Wesley, 1998]
•
“Il Data Mining è il processo di esplorazione e analisi, automatico o
semiautomatico, di un ampia mole di dati al fine di scoprire modelli e
regole
significative.
“
[M. J. A. Berry, G. S. Linoff, , Data Mining, Apogeo,2001]
• “Per Data Mining si intende il processo di selezione, esplorazione e
modellazione di grandi masse di dati al fine di scoprire regolarità o
relazioni non note a priori, e allo scopo di ottenere un risultato
chiaro
e
utile
al
proprietario
del
database.”
[P. Giudici, Data Mining, McGraw- Hill, 2001]
© Igor Rossini
Data Mining Predittivo (1)
• si usa quando si conosce cosa cercare e si
indirizzano gli sforzi d’analisi verso un
obiettivo specifico
• il modello predittivo è costruito secondo la
modalità top-down a partire da esempi già
noti e si applica poi a esempi non noti
© Igor Rossini
Data Mining Predittivo (2)
• Il modello predittivo è rappresentato da
una black box: a volte non interessa il
meccanismo di funzionamento ma interessa
la migliore previsione possibile
Input
Output
© Igor Rossini
Esempi
• Previsione della possibile risposta del consumatore ad una
certa campagna di mercato
• Previsione delle possibili perdite di consumatori nel
medio/lungo periodo
• Classificare le richieste di prestiti, mutui, applicazioni per
carte di credito in fasce di basso/medio/alto rischio
• Individuazione di richieste di rimborsi assicurativi
fraudolenti
• Stima della spesa media dei consumatori rispetto ad una
campagna pubblicitaria
• Stima delle quantità richieste o acquistate di certi beni
© Igor Rossini
Agenda
•
•
•
•
Knowledge discovery in database
Costruzione di modelli previsionali
Dati dipendenti dal tempo
Ciclo di vita del cliente
© Igor Rossini
Processo di costruzione dei modelli (1)
1-Set di addestramento
(Training set)
Il modello viene sperimentato utilizzando dati
preclassificati.
In questa fase gli algoritmi di data mining trovano
pattern di valore previsionale
2-Set di prova
(Test set)
Questo set di dati serve a garantire che il modello
non memorizzi il set di addestramento garantendo
che sia il più generale possibile e che funzioni meglio
con dai sconosciuti
3-Set di Valutazione
(Evaluation set)
Questo set di dati serve a verificare ulteriormente il
rendimento del modello
4-Set di calcolo
(Score set)
Questo set di dati è non preclassificato e genera la
previsione
© Igor Rossini
Processo di costruzione dei modelli(2)
1
Set di
Addestramento
2
Set di Prova
3
Set di
Valutazione
4
Modello
(grezzo)
Modello
(grezzo)
Modello
(grezzo)
Modello
(migliore)
Modello
(grezzo)
Previsione
Set di Calcolo
© Igor Rossini
Valutazione delle prestazioni
• Matrice di Confusione: matrice che
permette di individuare quali tra le
previsioni fornite dal modello previsionale
siano corrette e quali errate
• Curva Lift: grafico che raffigura le
prestazioni di un modello previsionale
come funzione della dimensione del
campione
© Igor Rossini
Matrice di Confusione (1)
• Hp: 3 classi C1, C2, C3.
C1
C2
C3
C1
C11
C12
C13
C2
C21
C22
C23
C3
C31
C32
C33
© Igor Rossini
Matrice di Confusione (2)
•
•
•
Regola 1
– I valori della diagonale principale rappresentano le classificazioni corrette
– Esempio: il valore C11 rappresenta il numero totale di casi della classe C1
correttamente classificati dal modello
Regola 2
– I valori nella riga Ci rappresentano quei casi che appartengono alla classi Ci.
– Esempio: se i=2 I casi associati alle celle C21 , C22 , C23 appartengono tutti alla
classe C2.
– Il numero totale di casi della classe C2 erroneamente classificati sono pari alla
somma di C21 e C23.
Regola 3
– I valori nella colonna Ci indicano i casi classificati come membri della classe Ci.
– Esempio: se i=2 I casi associati alle celle C12 , C22 , C32 sono classificati come
membri della C2.
– Il numero totale di casi erroneamente classificati come membri della classe C2
sono pari alla somma di C12 e C32.
© Igor Rossini
Esempio (1)
• Modello che accetta o rifiuta le richieste di
carta di credito
Richieste Accettate
Richieste Rifiutate
(calcolate)
(calcolate)
Accettate
Accettate correttamente
Rifiutate erroneamente
Rifiutate
Accettate erroneamente
Rifiutate correttamente
© Igor Rossini
Esempio (2)
Hp: Tasso di errore del 10%
MODELLO A
Richieste Accettate
Richieste Rifiutate
Accettate
600
75
Rifiutate
75
300
MODELLO A
Richieste Accettate
Richieste Rifiutate
Accettate
600
75
Rifiutate
25
300
Quale il modello migliore?
Occorre valutare il costo medio del mancato pagamento della
carta di credito con la perdita media di profitto che si ottiene
rifiutando i soggetti che sono buoni candidati
Nell‘esempio il modello B è il migliore perché la matrice indica
che ha meno probabilità di accordare erroneamente una carta di
credito a un soggetto che probabilmente sarà insolvente
© Igor Rossini
Curva Lift
100
% Risposte corrette
90
Lift=3,5 (70/20)
80
70
60
50
40
30
20
10
0
10
20
30
40
50
60
70
80
90
100
Dati suddivisi in Percentili
© Igor Rossini
Esempio di buon modello
100
90
% Frodi rilevate
80
70
60
50
40
Training Set
30
Test Set
20
Evaluation Set
10
0
Baseline
10
20
30
40
50
60
70
80
90
100
Richieste di risarcimento in %
© Igor Rossini
Incremento teorico massimo (1)
100
% Abbonati al servizio
90
80
70
60
50
40
30
Miglior Risultato Teorico
20
Curva di Modello
10
0
Baseline
10
20
30
40
50
60
70
80
90
100
Clienti in %
© Igor Rossini
Incremento teorico massimo (2)
• Il primo 10% dei clienti corrisponde ad appena il
16% dei clienti con avviso di chiamata
• In realtà il 55% dei clienti possiede l’avviso di
chiamata
• Quindi se tutti i clienti con il maggior punteggio
avessero l’avviso di chiamata essi inciderebbero
per il 18%
• L’averne trovati il 16% costituisce un buon
risultato
© Igor Rossini
Sovrapprendimento
100
% Abbonati al servizio
90
80
70
60
50
40
30
20
Curva di Modello
10
0
Baseline
10
20
30
40
50
60
70
80
90
100
Clienti in %
© Igor Rossini
Correlazione Input-Output
100
% Abbonati al servizio
90
80
70
60
50
40
30
20
Curva di Modello
10
0
Baseline
10
20
30
40
50
60
70
80
90
100
Clienti in %
© Igor Rossini
Promozioni Carte di Credito (1)
1000
900
Numero Risposte
800
700
600
500
Utilizzando il 20% della popolazione
possiamo aspettarci una risposta da 625
delle 20.000 persone campionate
400
300
200
Risultato del Modello
100
0
Baseline
10
20
30
40
50
60
70
80
90
100
% Campionata
© Igor Rossini
Promozioni Carte di Credito (2)
Nessun Modello: a tutti i clienti con saldo nullo é stata
inviato il rendiconto con l‘offerta promozionale
NESSUN
MODELLO
Offerte Accettate
(calcolate)
Offerte Rifiutate
(calcolate)
Accettate
1.000
0
Rifiutate
99.000
0
Il lift del modello é pari a 1 perchè il campione e la
popolazione sono uguali
MODELLO
IDEALE
Offerte Accettate
(calcolate)
Offerte Rifiutate
(calcolate)
Accettate
1.000
0
Rifiutate
0
99.000
© Igor Rossini
Promozioni Carte di Credito (3)
Due matrici di confusione per modelli alternativi con lift
pari a 2,25
MODELLO A
Offerte Accettate
(calcolate)
Offerte Rifiutate
(calcolate)
Accettate
540
460
Rifiutate
23.460
75.540
Lift (Modello A) = (540/24.000)/(1.000/100.000) = 2,25
MODELLO B
Offerte Accettate
(calcolate)
Offerte Rifiutate
(calcolate)
Accettate
450
550
Rifiutate
19.950
79.450
Lift (Modello B) = (450/20.000)/(1.000/100.000) = 2,25
© Igor Rossini
Promozioni Carte di Credito (4)
• Quale il modello migliore?
• Occorre considerare i costi delle scelte dei
falsi positivi e dei falsi negativi
• Il modello Y è la scelta migliore se la
riduzione delle spese delle spedizioni
postali (4.000 spedizioni in meno)
compensano la riduzione di profitto
derivante dalle minori vendite (90 vendite
in meno)
© Igor Rossini
Densità del Set di Costruzione
• Campionatura
– creazione di un insieme di dati che contiene
una quantità di record inferiore rispetto a
quella del set di dati originario
• Sovracampionatura
– creazione di un set di dati di costruzione con
una quantità maggiore di risultati rari e una
inferiore di quelli comuni per bilanciare il
rapporto fra il numero dei valori in output nel
set di costruzione
© Igor Rossini
Utilizzo della Sovracampionatura
• L'output può essere molto raro, come nel
caso dei guasti nei macchinari
• L'output può richiedere una convalida
prima di poter essere usato nella
modellazione, come nei casi di frode
• L'output può interessare un lasso di tempo
limitato, come gli abbandoni dei clienti o gli
storni dall'attivo di un singolo mese
© Igor Rossini
Esempio (1)
Set di dati iniziale con una densità del 10%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25 ` 26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Set di dati sovracampionati con una densità del 33,3%
2
9
10
12
19
20
25
`
29
30
31
39
40
35
49
50
© Igor Rossini
Esempio (2)
2
9
10
12
19
20
25
29
`
30
31
39
40
35
49
50
Un algoritmo di data mining assegna il suo punteggio
maggiore al 40% del set di costruzione
sovracampionato attribuendo un incremento (o lift)
di 2
Accuratezza previsionale pari al 66,7%
(4 record rossi nei 6 trovati)
Incremento pari a 2 essendo nel set di dati
sovracampionato il 33,3% dei record rossi
(2=66,7%/33,3%)
Dimensione del 40% (40%=6/15)
© Igor Rossini
Esempio (3)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25 ` 26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
I 10 risultati chiari del set
sovracampionato ne rappresentano
45 (2:9) nel set iniziale
I 5 risultati rossi del set
sovracampionato li rappresentano
tutti e 5 (1:1)
L'accuratezza previsionale sarebbe del 30,7% perché i 4 rossi e i 2 chiari
corrispondono ora ai 4 rossi e ai 9 chiari trovati dall'algoritmo
L‘incremento è del 3,07% perché i dati originali sono scuri al 10%
(3,07=30,7%/10%)
La dimensione equivale ora a 26%(=13/50)
Sui dati originali (senza sovracampionatura) il segmento con il maggior
punteggio di questo modello corrisponde al 26% dei dati e ad un incremento di
3 punti
© Igor Rossini
Effetti della Sovracampionatura
• Occorre sempre convertire il punteggio generato da un
modello costruito su un set sovracampionato in una
probabilità sui dati originali
Set di dati Sovracampionati
Lift di 2 sul 40% dei dati
Set di dati Originale
Lift di 3 sul 26% dei dati
• Analogamente occorre valutare l'impatto della
sovracampionatura sul numero dei record selezionati per
un'iniziativa di marketing con un punteggio assegnato dal
modello superiore ad certo valore soglia
Set di dati Sovracampionati
Valore soglia corrispondente
1% dei dati
Set di dati Originale
Valore soglia corrispondente
0,07% dei dati
© Igor Rossini
Agenda
•
•
•
•
Knowledge discovery in database
Costruzione di modelli previsionali
Dati dipendenti dal tempo
Ciclo di vita del cliente
© Igor Rossini
Dati dipendenti dal tempo
• Il timeframe (intervalli temporali) gioca un ruolo
fondamentale nella costruzione di modelli
previsionali
• Si divide in tre categorie temporali principali:
Passato
Presente
Futuro
Consiste in quello che si è già
verificato e nelle informazioni già
raccolte e processate. Contiene
le informazioni del passato
PASSATO REMOTO: utilizzato
per i dati di input
PASSATO RECENTE: determina
gli output
LATENZA: rappresenta il
presente
E' il periodo di tempo in cui il modello è costruito.
Le informazioni sul presente non sono disponibili perché ancora in
fase di elaborazione dei sistemi operazionali.
E' il periodo di tempo della previsione.
Costruisce il modello sui dati del passato con le informazioni del
passato e del presente.
© Igor Rossini
Dati dipendenti dal tempo
Il passato serve a prevedere il futuro
Passato
Presente
Futuro
Punto in cui finiscono i dati
Punto in cui iniziano le previsioni
Passato
Latenza
Output
Modello
Per costruire un modello efficace, i dati nel set di costruzione
devono imitare il timeframe in cui il modello verrà applicato
© Igor Rossini
Input e Output di un modello (1)
• La definizione degli output di un modello è
solitamente complessa
• Tutti i dati di input del modello devono
essere disponibili prima di qualsiasi
informazione utilizzata per determinare gli
output
• La violazione di questa regola determina la
creazione di modelli che non riescono a
prevedere correttamente il futuro
© Igor Rossini
Input e Output di un modello (2)
• Campagna di marketing dello scorso anno:
Passato Remoto
Consiste di tutti i dati a disposizione prima che venisse
lanciata la campagna
Passato Recente
Consiste nelle informazioni successive alla campagna
Presente
Futuro
Periodo in cui stiamo costruendo il modello per la
campagna di quest'anno
Risposte all‘ultima campagna che non si sono ancora avute
• Tutti i dati disponibili fino al passato
recente costituiscono gli input
© Igor Rossini
Caso Banca di Credito (1)
• Titolo: analisi dinamiche di acquisto
portafoglio clienti
• Obiettivo: costruzione di un modello
previsionale per prevedere i diversi
comportamenti dei clienti
• Dati: storico di 18 mesi
© Igor Rossini
Caso Banca di Credito (2)
Obiettivo: avere uno storico di 12 mesi per prevedere 6
mesi del futuro
Mesi del Passato
18
17
16
15
14
13
Input
12
11
10
9
8
7
MODELLO
6
5
4
3
2
1
Output
© Igor Rossini
Caso Banca di Credito (3)
L'utilizzo della variabile derivata Totale Saldi Scoperti
calcolata con informazioni relative ai 12 mesi precedenti
distorse i risultati
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
Totale saldi scoperti
Input
MODELLO
Output
© Igor Rossini
Caso Supermercati Alfa (1)
• Titolo: promozione clienti Platino mese di
agosto
• Obiettivo: proporre un'offerta speciale ai
clienti che presentano maggiori probabilità
di effettuare l‘acquisto nel mese di agosto
• Data Inizio Progetto: 1 giugno 2004
• Dati: dal 1 settembre 2003 al 31 maggio
2004
© Igor Rossini
Caso Supermercati Alfa (2)
Metodologia: sviluppo di un modello per prevedere chi ha
effettuato un'acquisto in maggio utilizzando i dati da
settembre ad aprile
Set
Ott
Nov
Dic
Gen
Input
Feb
Mar
MODELLO
Apr
Mag
Giu
Output
Cosa succede a Luglio?
© Igor Rossini
Caso Supermercati Alfa (3)
Occorrono i dati di luglio per calcolare il modello ed effettuare una
previsione ad Agosto
Set
Ott
Nov
Dic
Gen
Feb
Mar
Input
Apr
Mag
Giu
Lug
MODELLO
Ago
Output
1 Agosto: il modello è pronto in attesa dei dati di luglio richiesti come input
14 Agosto: i dati di luglio sono disponibili
16 Agosto: i dati sono stati puliti ed è stato assegnato loro un punteggio
20 Agosto: le previsioni del modello sono state preparate ed utilizzate
Le previsioni relative ad Agosto non sono disponibili alla fine dello
stesso mese!!
© Igor Rossini
Caso Supermercati Alfa (4)
Metodologia: i dati di aprile non vengono utilizzati come
input nel modello. In tal modo tutte le informazioni sono
disponibili quando il modello sarà calcolato
Set
Ott
Nov
Input
Dic
Gen
Feb
Mar
MODELLO
Apr
Mag
Giu
Output
Aprile è il mese di latenza usato per calcolare e per
preparare i risultati
© Igor Rossini
Caso Supermercati Alfa (5)
Metodologia: nessun problema per il calcolo del modello
perché gli input sono ora disponibili a metà luglio
Set
Ott
Nov
Dic
Gen
Feb
Input
Mar
Apr
Mag
Giu
MODELLO
Lug
Ago
Output
© Igor Rossini
Modelli che si adattano nel tempo (1)
Metodologia: il set di costruzione utilizza 10 mesi di storico
per ricavare gli input e 1 mese per gli output.
Le informazioni del mese di latenza non vengono usate.
1
2
3
4
5
6
Input
7
8
9
10
MODELLO
11
12
Output
L'utilizzo di tutto lo storico presenta lo svantaggio che il
modello può attingere a caratteristiche del passato che non si
applicano al futuro.
© Igor Rossini
Modelli che si adattano nel tempo (2)
Metodologia: utilizzo di dati storici per realizzare set di
costruzione con periodi di tempo che si sovrappongono
1
5
6
7
8
9
10
10
4
5
6
7
8
9
10
11
3
4
5
6
7
8
9
10
2
3
4
5
6
7
8
9
2
3
4
5
6
7
8
Input
MODELLO
11
Output
Gli algoritmi in tal modo conoscono strutture dati che non
sono fissate in un dato momento cronologico
© Igor Rossini
Combina
Modelli Multipli (1)
Modelli a combinazione di input
segmentati: utilizzano modelli diversi per
parti diverse dell'input. Un solo modello viene
impiegato per ogni record di input dato.
Modelli a combinazione di
segmantazioni modellate: utilizzano i
risultati di un modello per segmentare l'input e
poi impiegare un altro modello per
determinare l‘output.
© Igor Rossini
Modelli Multipli (2)
Se l‘affidabilità è alta, utilizza i risultati
del primo modello.
Altrimenti impiega i risultati di un
modello a bassa affidabilità.
Modelli a combinazione di correzione
degli errori: utilizzano i risultati ad alta
affidabilità da un modello e ne costruiscono
uno separato impiegando I risultati a bassa
affidabilità.
Modelli a combinazione di
perfezionamento dei dati: utilizzano i
risultati di un modello come input di un altro
modello.
© Igor Rossini
Agenda
•
•
•
•
Knowledge discovery in database
Costruzione di modelli previsionali
Dati dipendenti dal tempo
Ciclo di vita del cliente
© Igor Rossini
Ciclo di Vita del Cliente
Acquisizione
Attivazione
Prospect
Responder
Gestione del Rapporto e Retention
Cliente
Effettivo
Ex Cliente
Alto Valore
Mercato
Target
Nuovo
Cliente
Cliente
Iniziale
Abbandono
Volontario
Alto
Potenziale
Basso
Valore
Abbandono
Forzato
© Igor Rossini
Eventi Principali
Prospect
Responder
Cliente
Effettivo
Ex Cliente
Alto Valore
Mercato
Target
Nuovo
Cliente
Cliente
Iniziale
Abbandono
Volontario
Alto
Potenziale
Basso
Valore
Abbandono
Forzato
Campagne di Acquisizione
Utilizzo
Campagne Anti Attrition
Risposta alla campagna di acquisizione
Churn
Richiesta Informazioni
Campagne di Cross-Selling
Adesione Formale
Campagne di Up-Selling
© Igor Rossini
Dati ricavabili nelle varie fasi
Alto Valore
Mercato
Target
Nuovo
Cliente
Cliente
Iniziale
Alto
Potenziale
Basso
Valore
Cronologia Campagne
Dati demografici acquisiti
Altro
Abbandono
Volontario
Utilizzo del prodotto
Storico pagamenti
Risposta alle campagne
Abbandono
Forzato
Motivazioni
Abbandono
Preferenze di canale
Credit Report
Informazioni fornite spontaneamente
Altro
Altro
© Igor Rossini
Applicazioni di Data Mining
Alto Valore
Mercato
Target
Nuovo
Cliente
Cliente
Iniziale
Alto
Potenziale
Basso
Valore
Modello Predittivo per la
Vendita
Modello Predittivo per Risk
Analysis
Modelli Descrittivi su attributi
“Rilevanti”
Abbandono
Volontario
Modello Descrittivo sul
comportamento del cliente
Abbandono
Forzato
Modello Predittivo
per il Churn
Modello Predittivo per
campagne di Cross/Up-Selling
Modello Predittivo per
individuazione di frodi
© Igor Rossini
Caso Acme Corporation
• Profilo: società di vendite per
corrispondenza specializzata nella vendita di
equipaggiamenti per la caccia
• Campagna di Marketing: lancio del nuovo
prodotto esca per bip-bip pensato per I
clienti più fedeli
• Budget: 300.000$
• Obiettivo: ottimizzazione dei costi
© Igor Rossini
Lift del modello
Curva di guadagno percentuale utilizzata ottenuta con il modello di
risposta. Il 10% dei clienti con il punteggio più alto rappresenta il 30% dei
responder
100
90
% Responder
80
70
60
50
40
30
20
Modello di Risposta
10
0
Baseline
Clienti %
10
20
30
40
50
60
70
80
90
100
© Igor Rossini
Dati di Marketing
• Costo spedizione offerta: 1 $
• Previsione ordine cliente: 100 $
(di questi 55 $ coprono i costi del
prodotto, della spedizione e di gestione)
• Ricavo netto cliente: 44 $ (100 – 55 – 1)
• Spese fisse generali: 20.000 $
• Percentuale di Risposta: 1%
• Clienti: 1 milione
© Igor Rossini
Matrice di Ricavo
Previsti
Effettivi
Si
No
Si
44 $
-1$
No
0$
0$
© Igor Rossini
Foglio di Calcolo ricavi
Decile
Ricavi
Cum
Lift
Dim
Dim (SI) Dim (NO) Profitto $
0%
0,0 %
0%
0,000
0
0
0
(20.000)
10 %
30,0 %
30 %
3.000
100.000
3.000
97.000
15.000
20 %
20,0 %
50 %
2.500
200.000
5.000
195.000
5.000
30 %
15,0 %
65 %
2.167
300.000
6.500
293.500
(27.500)
40 %
13,0 %
78 %
1.950
400.000
7.800
392.200
(69.000)
50 %
7,0 %
85 %
1.700
500.000
8.500
491.500 (137.500)
60 %
5,0 %
90 %
1.500
600.000
9.000
591.000 (215.000)
70 %
4,0 %
94 %
1.343
700.000
9.400
690.600 (297.000)
80 %
4,0 %
98 %
1.225
800.000
9.800
790.200 (379.000)
90 %
2,0 %
100 %
1.111
900.000
10.000
890.000 (470.000)
100 %
0,0 %
100 %
1.000
1.000.000
10.000
990.200 (570.000)
© Igor Rossini
Curve di profitto
500.000 $
400.000 $
300.000 $
200.000 $
100.000 $
0
(100.000 $)
(200.000 $)
0
1
2
3
4
5
6
7
8
9
Si = 100 $; No = 1 $
Si = 44 $; No = 1 $
Si = 44 $; No = 2 $
© Igor Rossini
Ottimizzazione dei clienti (1)
• Profilo: ampliamento della gamma dei prodotti.
ACME è ha ora diversi reparti specializzati nella
disinfestazione di animali nocivi e parassiti
• Campagne di Marketing: gestite più campagne
contemporaneamente per promuovere tutta la
vasta gamma di prodotti
• Obiettivo: dato un certo numero di campagne, si
punta all'ottimizzazione della campagna successiva
per ogni cliente
© Igor Rossini
Ottimizzazione dei clienti (2)
Approccio basato
sull‘ottimizzazione del
profitto
Campagna 1
Valore Potenziale
Per quasi tutte le
campagne viene scelto lo
stesso segmento di clienti,
mentre altri vengono
completamente ignorati
Campagna 3
Campagna 2
Occorre evitare di sommergere i clienti di
messaggi diversi perchè potrebbero ignorare
il messaggio o peggio passare alla concorrenza
Campagne Successive
© Igor Rossini
Ottimizzazione dei clienti (3)
Approccio basato sulla
massimizzazione del
valore di ogni cliente
Campagna 1
Valore Potenziale
Sono presi in
considerazione tutti i
possibili canali e messaggi
che possono essere
diretti ad ogni tipologia di
clientela
Campagna 5
Campagna 2
Campagna 3
Campagna 4
Campagne Successive
Ottimizzare significa assegnare un preciso
messaggio al cliente giusto
© Igor Rossini