Metodologie per Sistemi Intelligenti Costruzione di Modelli Previsionali Ing. Igor Rossini Laurea in Ingegneria Informatica Politecnico di Milano Polo Regionale di Como Agenda • • • • Knowledge discovery in database Costruzione di modelli previsionali Dati dipendenti dal tempo Ciclo di vita del cliente © Igor Rossini Agenda • • • • Knowledge discovery in database Costruzione di modelli previsionali Dati dipendenti dal tempo Ciclo di vita del cliente © Igor Rossini Knowledge Discovery in Databases (KDD) • E’ il processo per identificare nei dati pattern con caratteristiche di validità, novità, utilità potenziale e facilità di comprensione (Frawley, Piatetsky, Shapiro, Mattheus, 1991) © Igor Rossini Dati © Igor Rossini Pattern o forme (1) • Espressione (o regola) che descrive un fatto • Esempio: “se il cliente auto ha un età compresa tra i 18 e i 21 anni allora ha una elevata probabilità di causare un sinistro” © Igor Rossini Pattern o forme (2) Sinistro Si No 18-21 21-27 27-35 ….. Età © Igor Rossini Caratteristiche dei pattern • Validità: il pattern individuato potrebbe essere valido per i nuovi dati con lo stesso livello di certezza • Novità: i pattern rappresentano delle novità che possono essere valutate attraverso un confronto tra i valori dei dati attuali e i valori dei dati passati • Utilità Potenziale: i pattern individuati dovrebbero potenzialmente condurre ad azioni utili • Facilità di comprensione: i pattern devono essere definiti allo scopo di migliorare e facilitare la comprensibilità dei dati © Igor Rossini Il processo di KDD Valutazione Data Mining Trasformazione Preparazione Conoscenza Selezione Risultati Dati Preparati Dati Dati Trasformati Dati Selezionati © Igor Rossini Le fasi principali (1) Definizione del problema Selezione dati - Selezione dominio - Selezione delle fonti dati da utilizzare di applicazione - Definizione degli obiettivi aziendali - Selezione del set di variabili più adatte per il processo di analisi Pulizia dati - Pulizia e normalizzazione dei dati - Eliminazione dei dati rumorosi (noise) e dei valori estremi (outlier) - Gestione dei campi vuoti (missing value) Caratteristiche fenomeno - Realizzazione di una struttura dati più adatta agli scopi e agli obiettivi prefissati - Applicazione di tecniche di riduzione dimensionale - Applicazione di metodi di trasformazione © Igor Rossini Le fasi principali (2) Scelta del task - Definizione del tipo di analisi da effettuare (classificazione, previsione, ecc.) Selezione tecniche Data Mining - Selezione delle tecniche di data mining da utilizzare per ricercare i pattern nei dati - Analisi esplorative dei modelli e definizione di opportune ipotesi Data Mining - Ricerca dei pattern di interersse Analisi e Validazione risultati - Interpretazione dei pattern scoperti con possibilità di reiterare l’intero processo - Consolidamento della conoscenza acquisita © Igor Rossini Esempio: Identificazioni Frodi (1) • Definizione del problema: Ottenere un profilo degli utenti che commettono delle frodi, allo scopo di riuscire a capire se un nuovo contratto può essere pericoloso per l’azienda • Raccolta dati: i dati provengono da filiali differenti. Sono omogenei? Sono nello stesso formato? Sono memorizzati su supporti compatibili? • Data “cleaning”: I dati contengono informazioni che sono sicuramente inutili? Se si è utile eliminarla. © Igor Rossini Esempio: Identificazioni Frodi (2) • Conoscenza Implicita/Esplicita: “..le frodi generalmente vengono effettuate da utenti che chiamano numeri stranieri o service provider (166/144)..” • DATA MINING: dai dati forniti su casi utenti che hanno commesso frodi e di utenti che non ne hanno commesse, generare una serie di profili che: – caratterizzano gli utenti che devono essere considerati rischiosi – ma che non si applicano ad utenti sicuri! © Igor Rossini Esempio: Identificazioni Frodi (3) • Validazione: il risultato ottenuto è quello che il committente si aspettava? E’ ragionevole? • Proposta di nuovi goal: – “… I risultati sono interessanti…riuscireste ad…” – “… automatizzare il processo in modo che sia possibile aggiornare i profili ogni settimana o mese?” – “… essere tanto accurati da scoprire con buona certezza se c’è una possibile frode in atto nelle ultime sei ore?” © Igor Rossini KDD In generale il KDD è il processo di trasformazione …. • ….dei dati in informazione e • dell’informazione in conoscenza • allo scopo di migliorare…di capire…. © Igor Rossini Dal Dato alla Conoscenza Conoscenza Processo Decisionale Informazione Settore Operativo Dati Richieste © Igor Rossini Catena del Valore dell’Informazione Decisioni -Promuovere Il conto corrente on-line a clienti giova -Offrire una polizza malattia a chi possiede già polizza vita -Effetuare campagne anti-attrition per i clienti di class medio alta Conoscenza -Il conto corrente on-line è acquistato da clienti giovani Informazioni Dati -Chi ha una polizza vita compra anche una polizza malattia -I clienti di classe medio-alta hanno una propensione all’abbandono più alta -Bianchi vive a Roma -Rossi ha acquistato un palmare -Verdi ha 32 anni -Neri ha collezionato 3 sinistri auto -Demografici -Geografici -Transazionali -Customer base © Igor Rossini Conoscenza e Metaconoscenza Conosciuto Non Conosciuto Metaconoscenza Conoscenza Vera Conosciuto Non Conosciuto Si sa di Sapere Si sa di non Sapere Non si sa di Sapere Non si sa di non Sapere © Igor Rossini Data Mining (1) • Il Data Mining consiste in una serie di applicazioni di tecniche statistiche, algoritmiche e di visualizzazione finalizzate alla scoperta, quanto più automatizzata, di fenomeni interessanti (pattern, regolarità, outlier, ecc.) in grandi volumi di dati © Igor Rossini Data Mining (2) • “Il Data Mining si occupa della scoperta di pattern non prevedibili a priori e nuove regole da grandi basi di dati”. [A. Zantiage, Data Mining, Addison-Wesley, 1998] • “Il Data Mining è il processo di esplorazione e analisi, automatico o semiautomatico, di un ampia mole di dati al fine di scoprire modelli e regole significative. “ [M. J. A. Berry, G. S. Linoff, , Data Mining, Apogeo,2001] • “Per Data Mining si intende il processo di selezione, esplorazione e modellazione di grandi masse di dati al fine di scoprire regolarità o relazioni non note a priori, e allo scopo di ottenere un risultato chiaro e utile al proprietario del database.” [P. Giudici, Data Mining, McGraw- Hill, 2001] © Igor Rossini Data Mining Predittivo (1) • si usa quando si conosce cosa cercare e si indirizzano gli sforzi d’analisi verso un obiettivo specifico • il modello predittivo è costruito secondo la modalità top-down a partire da esempi già noti e si applica poi a esempi non noti © Igor Rossini Data Mining Predittivo (2) • Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile Input Output © Igor Rossini Esempi • Previsione della possibile risposta del consumatore ad una certa campagna di mercato • Previsione delle possibili perdite di consumatori nel medio/lungo periodo • Classificare le richieste di prestiti, mutui, applicazioni per carte di credito in fasce di basso/medio/alto rischio • Individuazione di richieste di rimborsi assicurativi fraudolenti • Stima della spesa media dei consumatori rispetto ad una campagna pubblicitaria • Stima delle quantità richieste o acquistate di certi beni © Igor Rossini Agenda • • • • Knowledge discovery in database Costruzione di modelli previsionali Dati dipendenti dal tempo Ciclo di vita del cliente © Igor Rossini Processo di costruzione dei modelli (1) 1-Set di addestramento (Training set) Il modello viene sperimentato utilizzando dati preclassificati. In questa fase gli algoritmi di data mining trovano pattern di valore previsionale 2-Set di prova (Test set) Questo set di dati serve a garantire che il modello non memorizzi il set di addestramento garantendo che sia il più generale possibile e che funzioni meglio con dai sconosciuti 3-Set di Valutazione (Evaluation set) Questo set di dati serve a verificare ulteriormente il rendimento del modello 4-Set di calcolo (Score set) Questo set di dati è non preclassificato e genera la previsione © Igor Rossini Processo di costruzione dei modelli(2) 1 Set di Addestramento 2 Set di Prova 3 Set di Valutazione 4 Modello (grezzo) Modello (grezzo) Modello (grezzo) Modello (migliore) Modello (grezzo) Previsione Set di Calcolo © Igor Rossini Valutazione delle prestazioni • Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate • Curva Lift: grafico che raffigura le prestazioni di un modello previsionale come funzione della dimensione del campione © Igor Rossini Matrice di Confusione (1) • Hp: 3 classi C1, C2, C3. C1 C2 C3 C1 C11 C12 C13 C2 C21 C22 C23 C3 C31 C32 C33 © Igor Rossini Matrice di Confusione (2) • • • Regola 1 – I valori della diagonale principale rappresentano le classificazioni corrette – Esempio: il valore C11 rappresenta il numero totale di casi della classe C1 correttamente classificati dal modello Regola 2 – I valori nella riga Ci rappresentano quei casi che appartengono alla classi Ci. – Esempio: se i=2 I casi associati alle celle C21 , C22 , C23 appartengono tutti alla classe C2. – Il numero totale di casi della classe C2 erroneamente classificati sono pari alla somma di C21 e C23. Regola 3 – I valori nella colonna Ci indicano i casi classificati come membri della classe Ci. – Esempio: se i=2 I casi associati alle celle C12 , C22 , C32 sono classificati come membri della C2. – Il numero totale di casi erroneamente classificati come membri della classe C2 sono pari alla somma di C12 e C32. © Igor Rossini Esempio (1) • Modello che accetta o rifiuta le richieste di carta di credito Richieste Accettate Richieste Rifiutate (calcolate) (calcolate) Accettate Accettate correttamente Rifiutate erroneamente Rifiutate Accettate erroneamente Rifiutate correttamente © Igor Rossini Esempio (2) Hp: Tasso di errore del 10% MODELLO A Richieste Accettate Richieste Rifiutate Accettate 600 75 Rifiutate 75 300 MODELLO A Richieste Accettate Richieste Rifiutate Accettate 600 75 Rifiutate 25 300 Quale il modello migliore? Occorre valutare il costo medio del mancato pagamento della carta di credito con la perdita media di profitto che si ottiene rifiutando i soggetti che sono buoni candidati Nell‘esempio il modello B è il migliore perché la matrice indica che ha meno probabilità di accordare erroneamente una carta di credito a un soggetto che probabilmente sarà insolvente © Igor Rossini Curva Lift 100 % Risposte corrette 90 Lift=3,5 (70/20) 80 70 60 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90 100 Dati suddivisi in Percentili © Igor Rossini Esempio di buon modello 100 90 % Frodi rilevate 80 70 60 50 40 Training Set 30 Test Set 20 Evaluation Set 10 0 Baseline 10 20 30 40 50 60 70 80 90 100 Richieste di risarcimento in % © Igor Rossini Incremento teorico massimo (1) 100 % Abbonati al servizio 90 80 70 60 50 40 30 Miglior Risultato Teorico 20 Curva di Modello 10 0 Baseline 10 20 30 40 50 60 70 80 90 100 Clienti in % © Igor Rossini Incremento teorico massimo (2) • Il primo 10% dei clienti corrisponde ad appena il 16% dei clienti con avviso di chiamata • In realtà il 55% dei clienti possiede l’avviso di chiamata • Quindi se tutti i clienti con il maggior punteggio avessero l’avviso di chiamata essi inciderebbero per il 18% • L’averne trovati il 16% costituisce un buon risultato © Igor Rossini Sovrapprendimento 100 % Abbonati al servizio 90 80 70 60 50 40 30 20 Curva di Modello 10 0 Baseline 10 20 30 40 50 60 70 80 90 100 Clienti in % © Igor Rossini Correlazione Input-Output 100 % Abbonati al servizio 90 80 70 60 50 40 30 20 Curva di Modello 10 0 Baseline 10 20 30 40 50 60 70 80 90 100 Clienti in % © Igor Rossini Promozioni Carte di Credito (1) 1000 900 Numero Risposte 800 700 600 500 Utilizzando il 20% della popolazione possiamo aspettarci una risposta da 625 delle 20.000 persone campionate 400 300 200 Risultato del Modello 100 0 Baseline 10 20 30 40 50 60 70 80 90 100 % Campionata © Igor Rossini Promozioni Carte di Credito (2) Nessun Modello: a tutti i clienti con saldo nullo é stata inviato il rendiconto con l‘offerta promozionale NESSUN MODELLO Offerte Accettate (calcolate) Offerte Rifiutate (calcolate) Accettate 1.000 0 Rifiutate 99.000 0 Il lift del modello é pari a 1 perchè il campione e la popolazione sono uguali MODELLO IDEALE Offerte Accettate (calcolate) Offerte Rifiutate (calcolate) Accettate 1.000 0 Rifiutate 0 99.000 © Igor Rossini Promozioni Carte di Credito (3) Due matrici di confusione per modelli alternativi con lift pari a 2,25 MODELLO A Offerte Accettate (calcolate) Offerte Rifiutate (calcolate) Accettate 540 460 Rifiutate 23.460 75.540 Lift (Modello A) = (540/24.000)/(1.000/100.000) = 2,25 MODELLO B Offerte Accettate (calcolate) Offerte Rifiutate (calcolate) Accettate 450 550 Rifiutate 19.950 79.450 Lift (Modello B) = (450/20.000)/(1.000/100.000) = 2,25 © Igor Rossini Promozioni Carte di Credito (4) • Quale il modello migliore? • Occorre considerare i costi delle scelte dei falsi positivi e dei falsi negativi • Il modello Y è la scelta migliore se la riduzione delle spese delle spedizioni postali (4.000 spedizioni in meno) compensano la riduzione di profitto derivante dalle minori vendite (90 vendite in meno) © Igor Rossini Densità del Set di Costruzione • Campionatura – creazione di un insieme di dati che contiene una quantità di record inferiore rispetto a quella del set di dati originario • Sovracampionatura – creazione di un set di dati di costruzione con una quantità maggiore di risultati rari e una inferiore di quelli comuni per bilanciare il rapporto fra il numero dei valori in output nel set di costruzione © Igor Rossini Utilizzo della Sovracampionatura • L'output può essere molto raro, come nel caso dei guasti nei macchinari • L'output può richiedere una convalida prima di poter essere usato nella modellazione, come nei casi di frode • L'output può interessare un lasso di tempo limitato, come gli abbandoni dei clienti o gli storni dall'attivo di un singolo mese © Igor Rossini Esempio (1) Set di dati iniziale con una densità del 10% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ` 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Set di dati sovracampionati con una densità del 33,3% 2 9 10 12 19 20 25 ` 29 30 31 39 40 35 49 50 © Igor Rossini Esempio (2) 2 9 10 12 19 20 25 29 ` 30 31 39 40 35 49 50 Un algoritmo di data mining assegna il suo punteggio maggiore al 40% del set di costruzione sovracampionato attribuendo un incremento (o lift) di 2 Accuratezza previsionale pari al 66,7% (4 record rossi nei 6 trovati) Incremento pari a 2 essendo nel set di dati sovracampionato il 33,3% dei record rossi (2=66,7%/33,3%) Dimensione del 40% (40%=6/15) © Igor Rossini Esempio (3) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ` 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 I 10 risultati chiari del set sovracampionato ne rappresentano 45 (2:9) nel set iniziale I 5 risultati rossi del set sovracampionato li rappresentano tutti e 5 (1:1) L'accuratezza previsionale sarebbe del 30,7% perché i 4 rossi e i 2 chiari corrispondono ora ai 4 rossi e ai 9 chiari trovati dall'algoritmo L‘incremento è del 3,07% perché i dati originali sono scuri al 10% (3,07=30,7%/10%) La dimensione equivale ora a 26%(=13/50) Sui dati originali (senza sovracampionatura) il segmento con il maggior punteggio di questo modello corrisponde al 26% dei dati e ad un incremento di 3 punti © Igor Rossini Effetti della Sovracampionatura • Occorre sempre convertire il punteggio generato da un modello costruito su un set sovracampionato in una probabilità sui dati originali Set di dati Sovracampionati Lift di 2 sul 40% dei dati Set di dati Originale Lift di 3 sul 26% dei dati • Analogamente occorre valutare l'impatto della sovracampionatura sul numero dei record selezionati per un'iniziativa di marketing con un punteggio assegnato dal modello superiore ad certo valore soglia Set di dati Sovracampionati Valore soglia corrispondente 1% dei dati Set di dati Originale Valore soglia corrispondente 0,07% dei dati © Igor Rossini Agenda • • • • Knowledge discovery in database Costruzione di modelli previsionali Dati dipendenti dal tempo Ciclo di vita del cliente © Igor Rossini Dati dipendenti dal tempo • Il timeframe (intervalli temporali) gioca un ruolo fondamentale nella costruzione di modelli previsionali • Si divide in tre categorie temporali principali: Passato Presente Futuro Consiste in quello che si è già verificato e nelle informazioni già raccolte e processate. Contiene le informazioni del passato PASSATO REMOTO: utilizzato per i dati di input PASSATO RECENTE: determina gli output LATENZA: rappresenta il presente E' il periodo di tempo in cui il modello è costruito. Le informazioni sul presente non sono disponibili perché ancora in fase di elaborazione dei sistemi operazionali. E' il periodo di tempo della previsione. Costruisce il modello sui dati del passato con le informazioni del passato e del presente. © Igor Rossini Dati dipendenti dal tempo Il passato serve a prevedere il futuro Passato Presente Futuro Punto in cui finiscono i dati Punto in cui iniziano le previsioni Passato Latenza Output Modello Per costruire un modello efficace, i dati nel set di costruzione devono imitare il timeframe in cui il modello verrà applicato © Igor Rossini Input e Output di un modello (1) • La definizione degli output di un modello è solitamente complessa • Tutti i dati di input del modello devono essere disponibili prima di qualsiasi informazione utilizzata per determinare gli output • La violazione di questa regola determina la creazione di modelli che non riescono a prevedere correttamente il futuro © Igor Rossini Input e Output di un modello (2) • Campagna di marketing dello scorso anno: Passato Remoto Consiste di tutti i dati a disposizione prima che venisse lanciata la campagna Passato Recente Consiste nelle informazioni successive alla campagna Presente Futuro Periodo in cui stiamo costruendo il modello per la campagna di quest'anno Risposte all‘ultima campagna che non si sono ancora avute • Tutti i dati disponibili fino al passato recente costituiscono gli input © Igor Rossini Caso Banca di Credito (1) • Titolo: analisi dinamiche di acquisto portafoglio clienti • Obiettivo: costruzione di un modello previsionale per prevedere i diversi comportamenti dei clienti • Dati: storico di 18 mesi © Igor Rossini Caso Banca di Credito (2) Obiettivo: avere uno storico di 12 mesi per prevedere 6 mesi del futuro Mesi del Passato 18 17 16 15 14 13 Input 12 11 10 9 8 7 MODELLO 6 5 4 3 2 1 Output © Igor Rossini Caso Banca di Credito (3) L'utilizzo della variabile derivata Totale Saldi Scoperti calcolata con informazioni relative ai 12 mesi precedenti distorse i risultati 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Totale saldi scoperti Input MODELLO Output © Igor Rossini Caso Supermercati Alfa (1) • Titolo: promozione clienti Platino mese di agosto • Obiettivo: proporre un'offerta speciale ai clienti che presentano maggiori probabilità di effettuare l‘acquisto nel mese di agosto • Data Inizio Progetto: 1 giugno 2004 • Dati: dal 1 settembre 2003 al 31 maggio 2004 © Igor Rossini Caso Supermercati Alfa (2) Metodologia: sviluppo di un modello per prevedere chi ha effettuato un'acquisto in maggio utilizzando i dati da settembre ad aprile Set Ott Nov Dic Gen Input Feb Mar MODELLO Apr Mag Giu Output Cosa succede a Luglio? © Igor Rossini Caso Supermercati Alfa (3) Occorrono i dati di luglio per calcolare il modello ed effettuare una previsione ad Agosto Set Ott Nov Dic Gen Feb Mar Input Apr Mag Giu Lug MODELLO Ago Output 1 Agosto: il modello è pronto in attesa dei dati di luglio richiesti come input 14 Agosto: i dati di luglio sono disponibili 16 Agosto: i dati sono stati puliti ed è stato assegnato loro un punteggio 20 Agosto: le previsioni del modello sono state preparate ed utilizzate Le previsioni relative ad Agosto non sono disponibili alla fine dello stesso mese!! © Igor Rossini Caso Supermercati Alfa (4) Metodologia: i dati di aprile non vengono utilizzati come input nel modello. In tal modo tutte le informazioni sono disponibili quando il modello sarà calcolato Set Ott Nov Input Dic Gen Feb Mar MODELLO Apr Mag Giu Output Aprile è il mese di latenza usato per calcolare e per preparare i risultati © Igor Rossini Caso Supermercati Alfa (5) Metodologia: nessun problema per il calcolo del modello perché gli input sono ora disponibili a metà luglio Set Ott Nov Dic Gen Feb Input Mar Apr Mag Giu MODELLO Lug Ago Output © Igor Rossini Modelli che si adattano nel tempo (1) Metodologia: il set di costruzione utilizza 10 mesi di storico per ricavare gli input e 1 mese per gli output. Le informazioni del mese di latenza non vengono usate. 1 2 3 4 5 6 Input 7 8 9 10 MODELLO 11 12 Output L'utilizzo di tutto lo storico presenta lo svantaggio che il modello può attingere a caratteristiche del passato che non si applicano al futuro. © Igor Rossini Modelli che si adattano nel tempo (2) Metodologia: utilizzo di dati storici per realizzare set di costruzione con periodi di tempo che si sovrappongono 1 5 6 7 8 9 10 10 4 5 6 7 8 9 10 11 3 4 5 6 7 8 9 10 2 3 4 5 6 7 8 9 2 3 4 5 6 7 8 Input MODELLO 11 Output Gli algoritmi in tal modo conoscono strutture dati che non sono fissate in un dato momento cronologico © Igor Rossini Combina Modelli Multipli (1) Modelli a combinazione di input segmentati: utilizzano modelli diversi per parti diverse dell'input. Un solo modello viene impiegato per ogni record di input dato. Modelli a combinazione di segmantazioni modellate: utilizzano i risultati di un modello per segmentare l'input e poi impiegare un altro modello per determinare l‘output. © Igor Rossini Modelli Multipli (2) Se l‘affidabilità è alta, utilizza i risultati del primo modello. Altrimenti impiega i risultati di un modello a bassa affidabilità. Modelli a combinazione di correzione degli errori: utilizzano i risultati ad alta affidabilità da un modello e ne costruiscono uno separato impiegando I risultati a bassa affidabilità. Modelli a combinazione di perfezionamento dei dati: utilizzano i risultati di un modello come input di un altro modello. © Igor Rossini Agenda • • • • Knowledge discovery in database Costruzione di modelli previsionali Dati dipendenti dal tempo Ciclo di vita del cliente © Igor Rossini Ciclo di Vita del Cliente Acquisizione Attivazione Prospect Responder Gestione del Rapporto e Retention Cliente Effettivo Ex Cliente Alto Valore Mercato Target Nuovo Cliente Cliente Iniziale Abbandono Volontario Alto Potenziale Basso Valore Abbandono Forzato © Igor Rossini Eventi Principali Prospect Responder Cliente Effettivo Ex Cliente Alto Valore Mercato Target Nuovo Cliente Cliente Iniziale Abbandono Volontario Alto Potenziale Basso Valore Abbandono Forzato Campagne di Acquisizione Utilizzo Campagne Anti Attrition Risposta alla campagna di acquisizione Churn Richiesta Informazioni Campagne di Cross-Selling Adesione Formale Campagne di Up-Selling © Igor Rossini Dati ricavabili nelle varie fasi Alto Valore Mercato Target Nuovo Cliente Cliente Iniziale Alto Potenziale Basso Valore Cronologia Campagne Dati demografici acquisiti Altro Abbandono Volontario Utilizzo del prodotto Storico pagamenti Risposta alle campagne Abbandono Forzato Motivazioni Abbandono Preferenze di canale Credit Report Informazioni fornite spontaneamente Altro Altro © Igor Rossini Applicazioni di Data Mining Alto Valore Mercato Target Nuovo Cliente Cliente Iniziale Alto Potenziale Basso Valore Modello Predittivo per la Vendita Modello Predittivo per Risk Analysis Modelli Descrittivi su attributi “Rilevanti” Abbandono Volontario Modello Descrittivo sul comportamento del cliente Abbandono Forzato Modello Predittivo per il Churn Modello Predittivo per campagne di Cross/Up-Selling Modello Predittivo per individuazione di frodi © Igor Rossini Caso Acme Corporation • Profilo: società di vendite per corrispondenza specializzata nella vendita di equipaggiamenti per la caccia • Campagna di Marketing: lancio del nuovo prodotto esca per bip-bip pensato per I clienti più fedeli • Budget: 300.000$ • Obiettivo: ottimizzazione dei costi © Igor Rossini Lift del modello Curva di guadagno percentuale utilizzata ottenuta con il modello di risposta. Il 10% dei clienti con il punteggio più alto rappresenta il 30% dei responder 100 90 % Responder 80 70 60 50 40 30 20 Modello di Risposta 10 0 Baseline Clienti % 10 20 30 40 50 60 70 80 90 100 © Igor Rossini Dati di Marketing • Costo spedizione offerta: 1 $ • Previsione ordine cliente: 100 $ (di questi 55 $ coprono i costi del prodotto, della spedizione e di gestione) • Ricavo netto cliente: 44 $ (100 – 55 – 1) • Spese fisse generali: 20.000 $ • Percentuale di Risposta: 1% • Clienti: 1 milione © Igor Rossini Matrice di Ricavo Previsti Effettivi Si No Si 44 $ -1$ No 0$ 0$ © Igor Rossini Foglio di Calcolo ricavi Decile Ricavi Cum Lift Dim Dim (SI) Dim (NO) Profitto $ 0% 0,0 % 0% 0,000 0 0 0 (20.000) 10 % 30,0 % 30 % 3.000 100.000 3.000 97.000 15.000 20 % 20,0 % 50 % 2.500 200.000 5.000 195.000 5.000 30 % 15,0 % 65 % 2.167 300.000 6.500 293.500 (27.500) 40 % 13,0 % 78 % 1.950 400.000 7.800 392.200 (69.000) 50 % 7,0 % 85 % 1.700 500.000 8.500 491.500 (137.500) 60 % 5,0 % 90 % 1.500 600.000 9.000 591.000 (215.000) 70 % 4,0 % 94 % 1.343 700.000 9.400 690.600 (297.000) 80 % 4,0 % 98 % 1.225 800.000 9.800 790.200 (379.000) 90 % 2,0 % 100 % 1.111 900.000 10.000 890.000 (470.000) 100 % 0,0 % 100 % 1.000 1.000.000 10.000 990.200 (570.000) © Igor Rossini Curve di profitto 500.000 $ 400.000 $ 300.000 $ 200.000 $ 100.000 $ 0 (100.000 $) (200.000 $) 0 1 2 3 4 5 6 7 8 9 Si = 100 $; No = 1 $ Si = 44 $; No = 1 $ Si = 44 $; No = 2 $ © Igor Rossini Ottimizzazione dei clienti (1) • Profilo: ampliamento della gamma dei prodotti. ACME è ha ora diversi reparti specializzati nella disinfestazione di animali nocivi e parassiti • Campagne di Marketing: gestite più campagne contemporaneamente per promuovere tutta la vasta gamma di prodotti • Obiettivo: dato un certo numero di campagne, si punta all'ottimizzazione della campagna successiva per ogni cliente © Igor Rossini Ottimizzazione dei clienti (2) Approccio basato sull‘ottimizzazione del profitto Campagna 1 Valore Potenziale Per quasi tutte le campagne viene scelto lo stesso segmento di clienti, mentre altri vengono completamente ignorati Campagna 3 Campagna 2 Occorre evitare di sommergere i clienti di messaggi diversi perchè potrebbero ignorare il messaggio o peggio passare alla concorrenza Campagne Successive © Igor Rossini Ottimizzazione dei clienti (3) Approccio basato sulla massimizzazione del valore di ogni cliente Campagna 1 Valore Potenziale Sono presi in considerazione tutti i possibili canali e messaggi che possono essere diretti ad ogni tipologia di clientela Campagna 5 Campagna 2 Campagna 3 Campagna 4 Campagne Successive Ottimizzare significa assegnare un preciso messaggio al cliente giusto © Igor Rossini