Università degli Studi di Milano Dipartimento di Scienze

LA MARKET BASKET ANALYSIS
NELL’E-COMMERCE
M ARILENA TUCCI
Working Paper n. 2005-20
DICEMBRE 2005
Università degli Studi di Milano
Dipartimento di
Scienze Economiche, Aziendali e Statistiche
Via Conservatorio 7 -- 20122 Milano
tel. ++39 02 503 21501 (21522)
fax ++39 02 503 21450 (21505)
http://www.economia.unimi.it
E Mail: [email protected]
Pubblicazione depositata presso gli Uffici Stampa della Procura della Repubblica e della Prefettura di Milano
La Market Basket Analysis
nell’e-commerce
Marilena Tucci
Relatori: Dott. Silvia Salini e
Dott. Andrea Ganzaroli
Master in Business Intelligence and Data Analysis
Anno 2004–2005
La Market Basket Analysis nell’e-commerce
Indice
1 Le strategie di marketing nella Net-Economy
5
1.1
La nascita di Internet . . . . . . . . . . . . . . . . . . . . . . .
6
1.2
Il commercio nell’era di Internet . . . . . . . . . . . . . . . . .
7
1.3
Il modello B2C . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.4
Web Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5
a
Metodologie . . . . . . . . . . . . . . . . . . . . . . . . 12
b
Strumenti . . . . . . . . . . . . . . . . . . . . . . . . . 19
Marketing Relazionale e CRM . . . . . . . . . . . . . . . . . . 20
2 Market Basket Analysis e e-commerce
2.1
2.2
23
Market Basket Analysis . . . . . . . . . . . . . . . . . . . . . 23
a
Introduzione al problema . . . . . . . . . . . . . . . . . 23
b
Un esempio banale . . . . . . . . . . . . . . . . . . . . 24
c
Formalizzazione del problema . . . . . . . . . . . . . . 26
d
Algoritmo APRIORI . . . . . . . . . . . . . . . . . . . 29
e
Misure di valutazione . . . . . . . . . . . . . . . . . . . 31
Il caso Volendo.com . . . . . . . . . . . . . . . . . . . . . . . . 33
a
Descrizione dei dati . . . . . . . . . . . . . . . . . . . . 33
3
Marilena Tucci
b
Analisi esplorativa . . . . . . . . . . . . . . . . . . . . 35
c
Modelli . . . . . . . . . . . . . . . . . . . . . . . . . . 35
d
Analisi asimmetrica: il category management dinamico
4
39
La Market Basket Analysis nell’e-commerce
Capitolo 1
Le strategie di marketing nella
Net-Economy
La nascita di Internet e del commercio via web ha portato ad una trasformazione netta nelle metodologie di business. Le metodologie flessibili e in
continuo mutamento, lo scambio di beni e informazioni avvantaggiano non
solo il consumatore che ha, a portata di click, una varietà mai vista di opzioni
di acquisto, ma anche i produttori e i distributori che possono definire nuove
e più profittevoli strategie di mercato.
La novità principale rispetto al businness tradizionale consiste nel fatto che
l’attenzione si sposta dal prodotto fisico, punto focale del mercato tradizionale, alla capacità di scambiare conoscenze e creare relazioni: l’informazione
è la parola chiave della Net-Economy.
A fronte delle nuove caratteristiche dell’economia digitale si sono trasformate
anche le metodologie con cui si effettuano le indagini di mercato, si mettono a
punto le strategie di marketing e di analisi dei dati. Nuove figure professionali entrano in gioco, i web designer e gli analisti di mercato sono affiancati da
figure in grado di gestire e analizzare una quantità di dati sempre maggiore e
più facilmente reperibile. Le nuove tecnologie digitali, infatti, consentono alle
imprese di costruire un customer database contenente informazioni dei consumatori sempre più dettagliato. Tali database diventano la base dinamica per
le analisi di marketing e permettono quindi di affinare strategie di mercato
sempre più conformi alla tipologia dell’azienda e all’obiettivo prefissato.
5
Marilena Tucci
Nelle sezioni seguenti faremo una breve panoramica delle caratteristiche della Net-Economy, evidenziando le differenze principali rispetto al businness
tradizionale, come tali differenze influscano sulle strategie di mercato e quali
sono gli obiettivi che le aziende che operano su web devono perseguire tramite tecniche di marketing innovative e adeguate alla natura interattiva di
Internet.
1.1
La nascita di Internet
Le prime idee che hanno portato alla nascita di Internet nascono alla fine
degli anni ’50 per far fronte alla necessità di progettare una rete che fosse
robusta ad un attacco nucleare. Il progetto iniziale in effetti non venne mai
realizzato e si dovette aspettare una decina di anni prima che le idee in esso
contenute venissero riprese. Nell’ottobre del 1969 venne realizzato il primo
collegamento tra computer tramite una linea telefonica tradizionale facendo
nascere Internet: oggi la rete cresce al ritmo di milioni di pagine nuove al
giorno.
Vista la sua natura autoorganizzata e il fatto che è essenzialmente impossibile
impedire la nascita di nuovi siti web e di nuovi link, verrebbe da pensare che
la rete sia un meraviglioso mondo democratico dalle potenzialità infinite, in
cui ognuno ha le stesse possibilità dei concorrenti. In effetti gli studi sulle reti
effettuati negli ultimi anni hanno evidenziato che in realtà questo non è del
tutto vero: è stato mostrato che il web è una rete in cui solo pochi nodi (siti)
sono collegati (hanno un link in entrata) con la maggior parte degli altri
nodi e che la maggior parte dei siti possiede un numero molto limitato di
collegamenti. In linguaggio tecnico, la struttura della reta ha una topologia
a invarianza di scala la cui struttura è piuttosto frammentata.1
Questa difficoltà a farsi notare è resa ancora più problematica dal fatto che
1
Da uno studio condotto nel 1999 da Altavista in collaborazione con IBM e Compaq,
è emerso che vista da lontano Internet è rappresentabile come una mappa in continua
evoluzione caratterizzata dalla presenza di quattro continenti principali: il primo (corpo
centrale) ospita i siti più grandi ed è sempre possibile navigare da un sito all’altro. Il
secondo e il terzo, di dimensioni analoghe al primo, contengono i siti che hanno tantissimi
link in entrata e in uscita rispettivamente con il corpo centrale (si pensi ai portali e ai siti
aziendali). L’ultimo continente, costituito da circa un quarto della rete, è costituito da
gruppi di pagine tra loro connesse ma non raggiungibili dal corpo centrale.
6
La Market Basket Analysis nell’e-commerce
oggi Internet cresce ad un ritmo che i motori di ricerca non riescono a seguire2 .
Se è vero che ognuno può esprimere la propria idea liberamente (o aprire un
nuovo sito di shopping on-line), è anche vero che la probabilità che questo
venga notato è piuttosto bassa.
1.2
Il commercio nell’era di Internet
Nata per esigenze belliche, oggi Internet viene utilizzata per gli scopi più
svariati, dallo scambio di informazioni al commercio, dall’intrattenimento alla
gestione del proprio conto in banca. Noi ci concentreremo sulle caratteristiche
legate agli aspetti del commercio elettronico e su come le peculiarità della
rete abbiano trasformato in maniera netta le metodologie di business.
Una delle caratteristiche principali di Internet è la perdita dello spazio fisico:
la possibilità di navigare è slegata dalla necessità di muoversi o essere in
un luogo particolare. La medesima transazione, ricerca, acquisto può essere
effettuata da chiunque abbia accesso ad un computer connesso alla rete, in
qualsiasi momento e in qualsiasi luogo (le connessioni satellitari permettono,
volendo, di aquistare una pelliccia stando in mezzo ad un deserto).
Ciascun negozio on-line può essere raggiunto da ognuno con i medesimi strumenti ottenendo lo stesso grado di informazione: che il negozio sia sotto casa
o in un altro continente non fa più differenza. Questo allargamento di spettro dei possibili acquirenti non si traduce automaticamente in un vantaggio
per le aziende: se è vero che i possibili clienti aumentano, è anche vero che i
consumatori hanno a disposizione un’offerta sempre più ampia. Tale offerta
è inoltre supportata da strumenti di ricerca e confronto prima impensabili.
Oltre ai motori di ricerca, molti siti offrono il servizio di effettuare ricerche
comparative tra i vari e-retailer confrontando il prezzo di uno stesso prodotto: solo le aziende più competitive possono trarre vantaggio dal commercio
on-line.
Si assiste in effetti ad una trasformazione nella relazione Business to Costumer (B2C) che fa pendere il potere contrattuale dalla parte dei consumatori:
2
Uno studio del NEC stima che nel 1997 il motore di ricerca più completo fosse HotBot
con una copertura del 34% e che l’anno dopo, a fronte del raddoppiamento del numero di
pagine, il più completo fosse Northern Light con appena il 16%.
7
Marilena Tucci
l’accesso quasi illimitato alle informazioni da parte dei consumatori minimizza di fatto ogni forma di asimmetria informativa. Nella sezioni seguenti vedremo proprio come l’importanza assunta dal cliente dall’utilizzo della rete
influenzi le metodologie di marketing nell’era della Net-Economy.
Questa perdita di peso contrattuale da parte delle aziende, legata alla difficoltà di farsi notare nel mondo sovraffollato delle informazioni reperibili,
porta alla nascita di nuove forme di collaborazione e alleanze tra le aziende
(relazione Business to Business o B2B): la topologia stessa della rete favorisce le realtà più connesse e visibili. Il successo di Microsoft e del suo sistema
operativo è spiegato anche dalla capacità di stringere alleanze strategiche che
hanno portato alla realizzazione di una vincente rete di imprese. Si è arrivati
cosı̀ ad una diffusione veramente universale del sistema operativo Microsoft
e ad una predominanza difficilmente sradicabile del marchio.
I rapporti di collaborazione si stanno rafforzando grazie anche alla facilità con
cui si possono scambiare oggi le informazioni: in particolare, si sta sempre più
diffondendo tra le aziende l’utilizzo dell’EDI (Electronic Data Interchange)
per migliorare e velocizzare il flusso di informazioni e di beni da una parte
all’altra della catena di produzione.
Il ruolo centrale assunto dal consumatore è evidenziato dalla nascita di nuove
relazioni caratteristiche della Net-Economy: la prima viene definita relazione
Consumer to Consumer (C2C), la seconda Consumer to Business (C2B).
Nel primo caso rientrano, ad esempio, i siti di aste virtuali in cui gli utenti
sono sia i venditori che gli acquirenti: l’esempio più noto è probabilmente
eBay. Il secondo è rappresentato dai siti che effettuano aste rovesciate: è il
consumatore ad iniziare la transazione di acquisto, proponendo un prezzo. Si
veda ad esempio PriceLine. Nella stessa categoria rientrano anche i siti come
LetsBuyIt, in cui i produttori definiscono in anticipo quando avverrà l’asta
e il prezzo di partenza del prodotto. Il prezzo diminuisce all’aumentare del
numero di acquirenti, quindi gli utenti sono invitati a unirsi in gruppi sempre
più numerosi per rendere più conveniente la transazione d’acquisto.
Nel presente lavoro effettueremo l’analisi dei dati di un supermercato che
opera esclusivamente on-line, pertanto focalizzeremo l’attenzione sul modello B2C analizzando alcune delle problematiche legate a questo tipo di
commercio digitale.
8
La Market Basket Analysis nell’e-commerce
1.3
Il modello B2C
Nel modello B2C rientrano tutti i rapporti di commercio diretto tra azienda
e consumatore. Oltre ai prodotti tradizionali (libri, vestiti, grocery, pc,. . . ),
su Internet è possibile acquistare beni digitali e servizi di informazione, come
giornali, musica, giochi on-line, software.
Da una qualsiasi postazione Internet, un utente ha la possibilità di accedere alle informazioni relative al prodotto che desidera acquistare, effettuare
ricerce comparative su diversi provider, eseguire degli ordini e i relativi pagamenti. E se, nel caso dei beni tradizionali, il prodotto verrà consegnato
all’utente secondo le più svariate metodologie (via posta, tramite corriere,
presso un punto di rivendita. . . ), nel caso di prodotti digitali è addirittura
possibile fruire immediatente dell’acquisto tramite il download dalla rete al
client.
Questa metodologia di vendita comporta diversi vantaggi.
• In primo luogo, come accennato nella sezione precedente, le aziende
possono diporre di un ampio mercato: ciascun sito che effettua vendite
on-line ha come clientela potenziale l’intera comunità di Internet.
• In secondo luogo, i requisiti di infrastrutture sono molto più bassi rispetto alle metodologie di vendita tradizionali: non è necessario avere un
negozio fisico dove accogliere la clientela e, di conseguenza, il personale
che lo gestisca. Inoltre, di fronte ad una crescita della domanda e del
numero di clienti, il negozio virtuale è tecnicamente di facile ‘espansione’ ed è possibile in tempi molto ridotti garantire l’accesso ad un
elevato numero di utenti.
• Terzo, il negozio virtuale può rimanere aperto ventiquattro ore su ventiquattro senza costi aggiuntivi.
• Infine, è possibile disporre di una ampia selezione dei prodotti senza
incorrere necessariamente in problemi di magazzino: il problema di
stoccaggio è totalmente sganciato dalla presentazione dei prodotti. Nel
caso dei beni digitali questo va ancora oltre: il magazzino è addirittura
riconducibile alla dimensione degli Hard Disk a disposizione dell’applicazione web e pertanto la sua capacità si può considerare pressoché
illimitata.
Dal punto di vista dei venditori il nuovo mercato presenta però anche una
9
Marilena Tucci
serie di problemi.
• In primo luogo viene a mancare il contatto diretto tra venditore e cliente
e tra merce e cliente. Alcuni prodotti che tradizionalmente necessitano
di essere provati (vestiti) o visti personalmente poco si prestano ad un
commercio on-line. La perdita del contatto ‘fisico’ implica quindi la
necessità di rafforzare i rapporti di fiducia tra impresa e cliente.
• In secondo luogo abbiamo già citato la difficoltà di un’azienda on-line
di crearsi un ‘nome’, vista l’elevata concorrenza sul web e la sempre
maggiore esigenza dei consumatori a cui è immediatamente disponibile
un enorme grado di informazione: l’offerta si moltiplica ogni giorno
garantendo al cliente una scelta sempre maggiore. Oltre alle difficoltà
di attrarre nuovi clienti, i negozi on-line hanno il problema di mantenere
i clienti già acquisiti: diventa cruciale creare metodi per fidelizzare il
cliente.
• Infine bisogna considerare i problemi e i costi legati alla consegna e alla
eventuale resa dei prodotti.
Queste considerazioni portano alla conclusione che, soprattutto per alcune
categorie di prodotti (beni digitali, informazioni, biglietti aerei, spettacoli),
la vendita on-line presenta per lo più dei vantaggi, mentre per altre questo non sempre è evidente: in alcuni casi i prodotti venduti in rete possono
subire un rincaro dei prezzi dovuto ai costi di spedizione ed è pertanto necessario valutare attentamente se i vantaggi naturali di Internet siano maggiori
o minori degli svantaggi. In questo caso diventa fondamentale valutare se la
fascia di consumatori interessata al prodotto che si vuole vendere è disposta
eventualmente a pagare di più per i servizi aggiuntivi (ad esempio, nel caso di
un supermecato, un eventuale rincaro dei prezzi bilancia il tempo risparmiato?). Una volta definito il segmento, un’accurata analisi che ne evidenzi le
caratteristiche e le particolarità determinerà il design e lo spirito del negozio
on-line.
Nel seguito illustreremo come le caratteristiche proprie della Net-Economy
influenzano le strategie di marketing e come esse possano diventare determinanti per superare i problemi di un’azienda che opera sul web esaltandone le
proprietà.
10
La Market Basket Analysis nell’e-commerce
1.4
Web Marketing
Tradizionalmante, la ricerca di marketing è gerarchica di tipo push, cioè
guidata dal produttore o dal distributore, secondo uno schema predefinito,
riassumibile come segue:
ricerche
di
mercato
tecniche
previsione
⇒ delle
⇒ produzione ⇒ di
⇒ vendita
marketing
vendite
Nel mondo digitale tutto diviene più flessibile: il processo non è più consequenziale, ma è più assimilabile ad un grafo: ogni nodo del processo può
influenzare ed essere influenzato dagli altri. Risulta infatti possibile monitorare real-time l’andamento di una campagna pubblicitaria, contando per
esempio il numero di click effettuati su un banner, valutare la storia di navigazione di un utente, analizzando la sequenza di pagine visitate. L’avere
a disposizione queste informazioni precise e dettagliate permette altresı̀ di
modificare la strategia di marketing in qualsiasi momento, evitando sprechi
di investimento e facendo ripartire il processo di definizione della strategia
in maniera più efficace.
In questa fase di espansione del commercio elettronico si viene a creare un
legame virtuoso che lega ciclicamente l’affinarsi delle nuove tecnologie di
marketing, il numero di utenti che si collegano ad Internet e lo sviluppo
dell’e-commerce.
Fondamentale risulta, non solo l’originalità dell’offerta o il modello di business adottato, quanto l’attenzione rivolta al cliente, cliente che diventa
sempre più esigente, meno manipolabile e meno conforme a comportamenti di acquisto predefiniti. L’anonimato e la perdita del senso del fattore
spazio-temporale propri di Internet permettono al navigatore una libertà di
comportamento difficilmente raggiungibile nello shopping tradizionale: se il
navigatore è attratto da un link particolare, la ricerca per l’acquisto di un
prodotto può essere facilmente deviata su item completamente diversi, la rinuncia all’acquisto anche dopo che si sia riempito il virtuale carrello di spesa
non desta nessuna remora psicologica.
Le aziende devono costruire il loro valore attorno al cliente ed in funzione di
esso, non aspettare che il cliente si adegui alla struttura imposta dall’azien11
Marilena Tucci
da. Per essere efficace, tale strategia si deve basare su un’analisi accurata dei
dati dei clienti disponibili dall’azienda, in modo tale da evidenziarne comportamenti di acquisto, gusti, soddisfazione, tassi di fedeltà e di abbandono
cosı̀ da poter creare un’efficace segmentazione dei consumatori. Dai segmenti di massa, tipici della cultura televisiva, si passa a segmenti composti da
un unico cliente, cosı̀ che l’economia digitale è caratterizzata da una sempre più marcata tendenza alla strategia di marketing one-to-one: il cliente
non è solo colui che acquista ma soprattutto è un co-produttore, più o meno
consapevole, di valore per l’impresa.
a
Metodologie
Ora descriveremo alcune delle metodologie che, conformemente alla nuova
filosofia di mercato, consentono al marketing di perseguire i seguenti obiettivi
principali:
1. raccogliere informazioni per capire su che segmento di mercato si vuole
operare e di cosa hanno bisogno i vari attori che si vuole far interfacciare;
2. creare visibilità sul sito in modo da attrarre i clienti;
3. profilare i consumatori per comprendere analiticamente il comportamento di acquisto e di consumo, al fine di capirne i bisogni, accrescere
il raggio d’azione dell’impresa stessa e creare uno stretto legame di
fiducia con il cliente;
4. alimentare alleanze in modo tale da raggiungere posizioni di leadership
nel mercato nel più breve tempo possibile con caratteristiche dell’azienda meno imitabili possibile.
1. Analisi di segmentazione e di targeting
In primo luogo è necessario effettuare accurate analisi preliminari delle opportunità strategiche per definire e delineare a priori il tipo di ruolo e presenza
che si vuole coprire sulla rete.
12
La Market Basket Analysis nell’e-commerce
Tale analisi devono avere come oggetto di studio sia i consumatori che la
realtà concorrenziale già presente. Potendo suddividere il mondo dei consumatori in macrogruppi fortementi omogenei al loro interno e altamente
differenziati tra loro, quindi dopo dopo avere operato una segmentazione di
massa del mercato in base a vari criteri (socio-demografici, comportamentali,...), si può procedere alla definizione del target aziendale definendo su quale
segmento l’azienda decide di operare.
In base al segmento definito e dopo aver valutato i bisogni dei consumatori all’interno del gruppo, si procede allo studio delle realtà già esistenti,
finalizzato ad evidenziare quali sono le aree non ancora esplorate o carenti,
in cui, per esempio, esiste o potrebbe esistere una domanda d’acquisto non
soddisfatta.
2. Visibilità
Vista l’elevata numerosità dei siti web e la relativa facilità con cui un nuovo sito può nascere, è necessario trovare un metodo efficace per attrarre il
cliente. Non è semplice per una società di e-retailing imporsi sul mercato digitale: l’offerta su Internet è sempre più variegata e ampia da rendere difficile
l’acquisizione di un posizionamento privilegiato.
Pubblicità sul web Il ruolo della pubblicità on-line deve essere proprio
quello di attrarre il potenziale cliente con messaggi efficaci per stimolare l’interesse e spingere il navigatore a cliccare sul link. Ci sono a
disposizione banner creativi, pop-up, e-mail promozionali che arrivano
direttamente nella casella di posta elettronica del navigatore. Citiamo, a titolo esemplificativo, la cosiddetta pubblicità contestuale, che
presenta un messaggio promozionale in base al contesto della pagina
Internet su cui l’utente sta navigando, promuovendo, per esempio voli
low-cost per l’estero quando si naviga in siti inerenti il turismo.
Molto semplice è raggiungere un alto numero di navigatori anche a bassi costi, ma bisogna far molta attenzione a non sovraccaricare l’utente
con troppi invii pubblicitari. Quello che comunemente viene chiamato spamming non si rivela molto producente in termini di immagine
dell’azienda.
13
Marilena Tucci
Marketing Virale Una forma di promozioni che sfrutta il potere delle reti
ed è risultata in alcuni casi una strategia vincente è il marketing virale,
che deve il suo nome proprio alla sua caratteristica di espandersi come
un virus all’interno della rete. L’esempio più lampante di azienda che
ha attuato con estremo successo questa tecnica è Hotmail. Nata nel
1999, dopo un anno vantava 10 milioni di utenti, quando è stata rilevata
da Microsoft per 400 milioni di dollari, Già un anno dopo ne valeva
sei miliardi. Oggi un quarto dei navigatori su scala mondiale ha un
account Hotmail. La tecnica che ha portato a un simile successo è stata
quella di promuovere gratis l’apertura dell’account e di creare una rete
pubblicitaria su scala mondiale basata sul passaparola. In fondo ad
ogni email di un utente registrato su Hotmail c’è il link all’indirizzo
di Hotmail su cui è possibile effettuare gratuitamente l’iscrizione. In
questo modo ogni volta che un cliente utilizza il servizio promuove
gratuitamente l’azienda.
In effetti, in questo tipo di campagna, è importante che l’utente percepisca un alto livello di interesse personale all’interno del messaggio,
altrimenti la tecnica si può rivelare un vero flop.
Search Engine Marketing Poichè i motori di ricerca sono gli strumenti
principali per guidare la navigazione sul web, diviene molto importante essere visibili ai motori stessi. Per riuscire ad occupare i primi posti
tra i risultati di ricerca, è necessario implementare delle strategie che
favoriscano gli algoritmi di ricerca utilizzati dai motori, in modo tale
che i contenuti del sito risultino i più pertinenti e di qualità possibili.
Il Search Engine Marketing ha come scopo proprio il cosiddetto posizionamento organico: rendere il contenuto del sito rilevante e visibile,
cosı̀ da essere più facilmente rintracciabili dai motori di ricerca, tramite l’ottimizzazione dei testi, dei codici, dell’architettura del sito e della
distribuzione delle informazioni.
3. Fidelizzazione
Il problema di stringere legami di fiducia con il cliente e stabilire con esso
rapporti duraturi è senz’altro un punto cruciale del marketing. Da un lato
bisogna vincere la diffidenza dell’utente nel dare informazioni private al sito
(basti pensare che l’utente usualmente per diventare cliente di un sito web
14
La Market Basket Analysis nell’e-commerce
ed acquistare i prodotti deve registrarsi, fornendo i suoi dati anagrafici e,
aspetto più delicato, i dati della sua carta di credito) dall’altro è necessario
instaurare una relazione che vada al di là della singola transazione. Stabilire
un rapporto di fedeltà è più difficile ora che il cliente è sempre più aperto a
nuove idee e più facilmente deviabile su altri concorrenti.
Grafica e organizzazione del sito Un primo aspetto da curare è senz’altro la qualità del sito web: contenuto e organizzazione del sito sono due
aspetti cruciali. Le pagine web devono fornire informazioni precise e
dettagliate sui prodotti che offrono e le informazioni devono essere ben
organizzate e facilmente raggiungibili dall’utente, che non si deve mai
sentire spaesato o non in grado di ottenere ciò che sta cercando. La
filosofia del ‘tutto e subito’ è fondamentale negli acquisti via Internet:
il cliente con un obiettivo preciso non vuole perdere tempo in ricerche
fastidiose e non producenti. Il senso di frustrazione nato dall’incapacità
di raggiungere un link di interesse o di rispondere in tempi pressoché
immediati ad un proprio quesito portano spesso l’utente ad abbandonare il sito: la varietà è tanta, semplice sarà trovare un altro sito web
con caratteristiche analoghe ma in cui l’utente si senta più a suo agio.
Anche l’aspetto grafico non è da tralasciare: il sito web deve risultare
creativo, accattivante, evitando però di appesantire la navigazione e rimanendo coerente con le finalità del sito stesso. Si pensi ad esempio alla
semplicità estrema del motore di ricerca Google, la cui immediatezza è
uno dei punti di forza.
Il collaborative and community marketing Un metodo che si è rivelato
efficace per creare un legame ‘affettivo’ tra sito web e utente è la creazione di comunità virtuali in cui i vari utenti possono scambiarsi pareri
e opinioni. Il sentirsi parte di una comunità e il poter portare avanti un discorso comune con altre persone che hanno gli stessi interessi
facilita l’attaccamento del cliente al sito. Il collaborative and community marketing, che promuove la collaborazione attiva dei clienti, con
la creazione di comunità virtuali all’interno di un sito di e-commerce,
è risultata una strategia di mercato vincente. I consumatori ritrovano,
partecipando attivamente alla comunità, la possibilità di identificarsi in
un gruppo, di usufruire e di fornire informazioni e consigli in modo tale
da sentirsi non solo soddisfatti, ma anche utili e gratificati. Il contatto
umano che si viene a perdere nella realtà virtuale, viene cosı̀ riscoperto
15
Marilena Tucci
e l’utente rientra in una sfera emotiva istintivamente a lui più consona.
Inoltre, si genera un effetto a catena sull’iscrizione di nuovi clienti: un
membro inciterà altri compagni ad unirsi, la presenza di nuovi utenti e
l’espandersi del gruppo stimolerà nuove idee, producendo un senso di
freschezza e attivismo nel sito stesso. Tutti i nuovi utenti del gruppo
sono anche potenziali clienti: il sito viene cosı̀ alimentato dagli stessi utenti, che portano e generano sempre nuovo valore aggiunto e cosı̀
anche più profitti per il venditore.
Tale strategia porta anche un ulteriore vantaggio all’azienda: basandosi
sui feedback che gli utenti si passano attraverso i forum, l’azienda può
apprendere molto sulla qualità del suo servizio, quali sono gli aspetti
da migliorare e quali i punti di forza del sito.
Tra le varie tipologie di community on-line, citiamo Amazon, che ha
aperto vere e proprie chat-rooms per la recensione dei libri, CHL che
offre ai clienti la possibilità di lasciare commenti sui prodotti acquistati
e eDreams, società di viaggi on-line, che ha messo a disposizione degli
utenti una comunità di viaggiatori esperti.
Customizzazione Per attrarre e fidelizzare il cliente sono state pensate anche delle metodologie che sfruttano appieno la natura interattiva del
mezzo. Mentre è impossibile entrare in un negozio tradizionale e vederlo riorganizzarsi secondo i nostri gusti, sono frequenti i siti web che
cambiano aspetto, a seconda dell’utente, presentando alcune informazioni piuttosto che altre. Questo è possibile o perchè il sito riconosce
un certo utente, in quanto già registrato e di cui conosce preferenze
e gusti, oppure perchè il sito decide cosa presentare dipendentemente
dalle scelte di navigazione effettuate dall’utente. Dietro questi meccanismi ci sono sempre delle analisi, che partendo dai dati socio-anagrafici
dei clienti e dalle transazioni effettuate, riescono ad estrapolare sia le
caratteristiche e i gusti del singolo cliente che le correlazioni tra i vari
prodotti disponibili. Tali informazioni danno all’azienda l’opportunità
di plasmare il sito a misura di cliente, con interfacce personalizzate,
consigli su futuri acquisti da proporre, e-mail che informano di promozioni speciali, banner pubblicitari ad hoc, in modo tale da costruire
una relazione sempre più forte con il cliente, aumentando il livello di
valore percepito dal cliente e cosı̀ la sua soddisfazione all’acquisto, invogliandolo ad acquistare ancora. Cosı̀, un sito di spesa on-line può
16
La Market Basket Analysis nell’e-commerce
presentare solo i prodotti di una determinata categoria o soddisfacenti
specifiche caratteristiche nutrizionali, in base alla scelta del cliente che
può richiedere, per esempio, di visualizzare i prodotti in base al conteggio di calorie per porzione, o, una volta ’riconosciuto’ il cliente, il
sito si riconfigura con i principali item di acquisto del cliente specifico o ancora, potendo evidenziare le correlazioni esistenti tra i prodotti
con analisi sulle transazioni di spesa, suggerendo in real-time al cliente
ulteriori prodotti da acquistare direttamente in base alle sue scelte.
Permission Marketing Terminiamo questa panoramica sulle strategie del
marketing digitale mirate a creare un rapporto elitario tra consumatore
e venditore illustrando la strategia del cosiddetto permission marketing:
il consumatore decide, dando o meno il suo consenso, se essere destinatario di un’azione di marketing. Lo scopo è stabilire una relazione di
fiducia sempre più stretta con il consumatore, in modo tale che il cliente sia volontariamente portato a fornire notizie su se stesso via via più
approfondite. Un esempio è dato dal sito streamline, un’azienda americana che vende ed installa frigoriferi. Ma non solo, una volta entrata
in contatto con il cliente stabilice con esso un grado di collaborazione
progressivamente sempre più stretto: informazioni sul cliente in cambio
di servizi. Dall’analisi dei codici a barre dei prodotti presenti in casa
del cliente e dalle informazioni sulle tipologie di acquisto del cliente e
dei luoghi usuali di shopping, l’azienda passa dal fornire una lista dei
prodotti usualmente acquistati alla possibilità di ordinarli on-line, riceverli e averli sitemati nel frigorifero acquistato anche in assenza del
cliente, fino a servizi più raffinati come servizi di catering di chef di
prestigio, consegna e ritiro di videocassette, grazie ad un accordo con
Blockbuster.
4. Posizione nel mercato e leadership
Per consolidare la posizione di un’azienda nel web e sopravvivere alla giungla concorrenziale, fondamentale è per l’azienda avere una forte abilità ad
adeguarsi in un mondo in continua evoluzione, non solo inseguendo le nuove
tecnologie, ma soprattutto stando attenti ai repentini cambiamenti di gusti
e stili dei consumatori che, più di prima, sono portati a cambiare preferenze
in tempi molto ristretti.
17
Marilena Tucci
Ma avere un sito accattivante, veloce, innotativo è sufficiente per occupare
una porzione di mercato soddisfacente? La risposta è no se il navigatore
non riesce facilmente a sapere che il tuo sito esiste. In Internet, soprattutto
per le start-up, cioè i siti web di nuova formazione, una delle possibilità per
ottenere la visibilità è creare alleanze strategiche e accordi comerciali con
siti già consolidati, in modo da sfruttarne anche il parco clienti e la fiducia
che con essi hanno già instaurato. Uno degli introiti di Google è quello di
visualizzare dei link pubblicitari a fianco dei risultati di una ricerca. In tal
modo le società utilizzano la notorietà di Google per raggiungere un gran
numero di utenti. Questo tipo di pubblicità, oltre ad avere un ampio raggio
d’azione, è anche selettiva dato che il link comparirà solamente alle persone
interessate all’argomento.
Infine, bisogna considerare le conseguenze del cosiddetto effetto rete, cioè
l’auto-rinforzo positivo del tipo ’più si vende più si vende’, tipico della legge dei rendimenti crescenti, che trova un suo ambiente naturale in Internet.
Infatti, se alla base dell’economia tradizionale c’è la legge dei rendimenti
decrescenti, per cui un’impresa non può crescere all’infinito (la sua espansione si fermerà quando raggiungerà un punto di equilibrio tra costi e ricavi),
nella Net-Economy prevale la legge secondo la quale se un’impresa cresce
continuerà a crescere, autoalimentando il proprio successo e viceversa. E’ da
sottolineare che questo è principalmente vero per le imprese che si occupano
di prodotti digitali, in cui è molto alto il costo di avviamento dell’impresa,
ma minimo la riproduzione del bene una volta prodotto. L’esempio già citato nelle sezioni precedenti di Microsoft è un’ottima dimostrazione di questo
principio. Anche il successo planetario che la Apple ha ottenuto tramite l’iPOD e il suo mercato di vendita on-line di musica scaricabile a pagamento
è stato possibile solo grazie alla struttura di Internet. Le azzeccate scelte di
design del riproduttore, gli accordi con le major della musica, l’estrema cura
con cui sono disegnati i siti della Apple e le scelte strategiche di rendere scaricabile la musica in maniera molto customizzabile e a un costo estremamente
basso (l’utente può scegliere le singole canzoni a 99 centesimi l’una) ne hanno
un fatto in breve tempo un successo imitato oggi da tanti altri concorrenti.
18
La Market Basket Analysis nell’e-commerce
b
Strumenti
La forza trainante del marketing digitale è l’insieme dei dati che descrivono i clienti, il cosiddetto customer database. Tali dati contengono tutte le
informazioni dei clienti, dalle sue specificità socio-demografiche, allo stile di
vita, i gusti, i comportamenti di navigazione e di acquisto. Oltre alle informazioni fornite dal navigatore tramite la semplice registrazione o questionari
on-line, è possibile registrare clickstream, e-mail con richieste di informazioni,
lamentele, consigli, transazioni effettuate. Grazie ai file di log, informazioni
come indirizzo IP, data e ora di accesso, url del documento richiesto sono
gratuitamente nelle mani dei manager aziendali.
Oggi, grazie ai vari sistemi di business intelligence che si vanno via via
affinando, questa enorme quantità di informazioni ha tutte le potenzialità
per portare valore all’azienda e venire, per esempio, sfruttata dalle tecniche
di marketing, che, come abbiamo analizzato in precedenza, sono finalizzate a raggiungere in modo mirato l’utente. Per raggiungere tale obiettivo
è indispensabile conoscere l’utente in modo approfondito, cosı̀ da poterlo
coinvolgere sempre più facendolo diventare parte integrante del sistema.
I dati aziendali, puliti e raccolti in datawarehouse, possono essere ora più
facilmente letti e analizzati da sistemi di data mining e applicazioni statistiche
al fine di produrre informazioni sempre più dettagliate.
Solo dopo aver chiaramente definito gli obiettivi di business che si vogliono
perseguire, è possibile applicare le tecniche di data mining, o meglio web
mining, sui dati a disposizione, che verranno puliti, organizzati e trasformati
in base alle esigenze. I dati vengono successivamente elaborati tramite varie
tecniche e algoritmi, come la moderna clickstream analysis (l’analisi della sequenza di link visitati all’interno di una sessione di navigazione), le ricerche di
associazione (analisi svolte per evidenziare gruppi di prodotti che si presentano insieme in una transazione di acquisto, di cui vedremo un’applicazione nel
seguito del lavoro, o gruppi di pagine che il navigatore visita congiuntamente
in un sito), le tecniche di clustering (strumenti statistici che consentono di
suddividere i dati in gruppi fortemente caratterizzati), le analisi predittive,
come lo scoring system (analisi che si basa sull’assegnare al singolo cliente
un punteggio proporzionale alla probabilità di risposta positiva nei confronti
di una promozione/campagna di marketing). Fine ultimo del data mining
è fornire in output uno o più modelli in risposta all’obiettivo prefissato. La
19
Marilena Tucci
valutazione dei modelli generati e delle relazioni estrapolate, in parallelo agli
obiettivi e ai vincoli di business, siano essi di budget o di tempo, realizzerà
un ottimo supporto alle decisioni aziendali. Infatti, la profilazione e la segmentazione comportamentale dell’utenza costituisce un’ottima base per le
strategie che puntano alla fidelizzazione, all’influenzare i comportamenti di
acquisto, ad individuare i punti nevralgici (in positivo e in negativo) di un
sito, all’ideazione di mirate campagne pubblicitarie.
Figure professionali esperte di business, figure dall’alto profilo tecnico e informatico che si preoccupino della gestione delle informazioni a disposizione
e esperti statistici per l’analisi dei dati sono le tre figure professionali che
congiuntamente possono oggi creare valore in un’impresa.
1.5
Marketing Relazionale e CRM
Le considerazioni fin qui fatte ci portano a concludere che Internet è l’ambiente ideale per riprogettare le strategie e i modelli di interazione tra aziende
e consumatori. Con il venir meno dei vincoli fisici, grazie all’elevata potenzialità di customizzazione e alla facilità di reperire informazioni, Internet offre
la possibilità di creare un rapporto personalizzato con ciascun singolo cliente
e di sfruttare al meglio il dialogo tra i consumatori. Proprio le strategie one
to one e many to many sono alla base del marketing relazionale, che pone il
concetto di relazione come punto chiave del business. Scopo del marketing
relazionale è creare relazioni di fiducia con il cliente, personalizzate e durature, partendo dal principo di Pareto secondo il quale l’80% dei profitti di
una compagnia è generato dal 20% dei clienti e sul fatto comprovato che è
più costoso acquisire un nuovo cliente che realizzare nuove opportunità su
clienti già attivi. Dopo aver valutato quali sono i clienti sui quali è opportuno investire, l’azienda si pone come obiettivo quello di seguire e guidare
tali clienti in tutte le varie fasi: dalla ricerca del bisogno, all’acquisto, fino
all’assistenza tecnica, la risoluzione di problemi e tutto ciò che è collegato
alla soddisfazione del cliente stesso. La conoscenza del consumatore, intesa
come conoscenza delle caratteristiche più esplicite e classiche (dati sociodemografici, dati relativi alle transazioni di spesa, ...) sia come conoscenza
‘tacita’, cioè la conoscenza legata alle esperienze, idee, sentimenti del consumatore sono la base e la chiave per riuscire nella realizzazione di questo
nuovo concetto di ‘legame di fiducia’. Abbandonato il concetto di target di
20
La Market Basket Analysis nell’e-commerce
massa, si punta sempre più alla differenziazione della clientela in segmenti
praticamente unitari. Tale direzione può essere perseguita più semplicemente
e, in un certo senso, più naturalmente nel mondo digitale, un mondo che è
essenzialmente informazione.
Con una visione più globale, la strategia che applica questi principi è il CRM
(Customer Relationship Management): l’azienda definisce un nuovo modo
di essere, costruendosi sul cliente ed in funzione di esso. Fulcro tecnologico
del CRM è il Datawarehouse, il database centrale che integra tutte le informazioni sulla clientela provenienti dalle diverse fonti aziendali. Proprio
su di esso si concentra la prima fase del CRM: il CRM analitico, che ha il
compito di alimentare, coordinare, analizzare e comunicare i dati, tramite
i vari strumenti di Business Intelligence e Data Mining. Il CRM operativo
comprende invece tutte le soluzioni metodologiche e tecnologiche per automatizzare i processi che prevedono il contatto diretto con il cliente (customer
service, dipartimento di marketing, punti vendita, ...). Per un appropriato
funzionamento del processo è necessario innanzitutto riuscire a immagazzinare quanti più dati è possibile sulla clientela, cercando di integrare tutti i
canali a disposizione dell’azienda (siti web, e-mail, forum, ...) per ottenere
una profilazione unica, completa e up-to-date della clientela. Quindi, grazie
all’utilizzo di software specifici, si è in grado di analizzare e gestire tali dati
per estrarre tendenze, comportamenti di acquisto, previsioni di vendita, tassi di fedeltà e di abbandono. Le analisi possono essere effettuate real-time
cosı̀ da avere un monitoraggio constantemente aggiornato delle potenzialità
dell’azienda e dei risultati delle campagne di marketing. Non bisogna però
compiere l’errore di considerare il CRM una tecnologia. La tecnologia è ciò
che rende possibile l’attuarsi del CRM, inteso come una strategia finalizzata
a migliorare la redittività basandosi sulla customer satisfaction e sul concetto
di loyalty, trattenere i clienti e renderli fedeli nei confronti dei prodotti e del
marchio dell’azienda e lavorare fianco a fianco con essi nella costruzione di un
co-valore che non sia costituito solo dalla vendita del prodotto/bene di consumo. La cosiddetta Technology Integration, cioè l’applicazione e l’integrazione
in azienda di un applicativo di CRM, è solo il passo finale di una trasformazione aziendale a livello globale. Il primo passo per attuare una strategia
CRM, la Relationships Re-conceptualization, consiste invece nel chiedersi che
tipologia di rapporto si desidera instaurare con il cliente. Una volta definita
la filosofia di relazione che si vuole perseguire si passa ad una riorganizzazione dell’azienda customer-oriented (Business Migration), in modo tale che
21
Marilena Tucci
tutte le parti coinvolte nell’impresa (dipendenti, partners,...) siano coinvolti
e immersi in questa nuovo modo di pensare (Employees/Partners Commitment). Quindi il CRM deve divenire una filosofia aziendale, che coinvolge in
modo trasversale tutte le aree dell’impresa.
Nella realtà digitale, dove si affermano a velocità incredibile tecnologie sempre più complesse, competitors più numerosi e agguerriti, clienti più esigenti
e attenti, saper creare offerte strategiche, personalizzazioni e un servizio efficiente sono le caratteristiche determinanti per il successo di un sito che
commercia on line. Il CRM è il nuovo modo di concepire l’impresa, azienda
e cliente divengono uno stretto binomio: ricercare la personalità dell’azienda
nei propri utenti, per identificarsi e crescere con essi.
22
La Market Basket Analysis nell’e-commerce
Capitolo 2
Market Basket Analysis e
e-commerce
2.1
a
Market Basket Analysis
Introduzione al problema
Nell’e-commerce è molto semplice recuperare enormi quantità di informazioni relative ai clienti che accedono al sito e alle vendite effettuate. Oltre
ai dati socio-demografici che vengono richiesti dal sito al momento della registrazione, prima che l’utente possa procedere all’effettivo acquisto di un
prodotto, le società possono archiviare a prezzo praticamente nullo anche
tutte le informazioni relative ai prodotti acquisati: quantità, prezzo, marca.
Tali dati, se correttamente organizzati in opportuni database aziendali, possono divenire un potente strumento di studio di marketing, grazie al data
mining e alle tecniche di statistica applicata.
Una metodologia statistica utilizzata nel e-commerce è la cosiddetta Market
Basket Analysis, uno strumento di data mining basato sulle regole associative, che permette di studiare le abitudini di acquisto dei consumatori per
evidenziare affinità esistenti tra prodotti o gruppi di prodotti venduti.
Lo scopo è quello di inferire delle implicazioni, del tipo if condition then
result, che esprimano la probabilità di acquisto di prodotti differenti al fine
23
Marilena Tucci
di stabilire quanto l’acquisto di un prodotto influenzi l’acquisto di un altro.
L’analisi delle regole associative darà informazioni del tipo:
L’80% dei clienti che acquistano biscotti acquistano anche latte,
cosı̀ da poter affermare che biscotti e latte sono correlati, o altrimenti, che
esiste un implicazione del tipo
biscotti ⇒ latte.
Tale analisi costistuisce un forte strumento di marketing sfruttabile dalle
società di e-retail, ma anche dai supermercati tradizionali, per incrementare
i profitti con
• mirate strategie promozionali: non mettendo in promozione contemporaneamente item fortemente correlati. La promozione su uno dei
prodotti e quindi l’aumento delle vendite del prodotto in promozione
implicherà l’aumento delle vendite anche sugli item associati;
• il miglioramento della struttura logica del sito, creando iperlink o banner che colleghino i prodotti associati, nel caso dell’e-commerce; o trovando la posizione ottimale dei prodotti sugli scaffali, nel caso di un
supermercato tradizionale. Prodotti correlati potranno essere posizionati vicini o, al contrario, in diverse corsie, in modo tale da invogliare
e stimolare il cliente ad acquistare diversi prodotti.
La Market Basket Analysis è nata per capire e risolvere problemi di marketing, ma oggi trova anche altre applicazioni, come in medicina, per trovare
correlazioni tra sintomi diversi delle malattie o tra prodotti farmaceutici, e
in ambito finanziario e assicurativo per individuare, per esempio gli attributi
più ricorrenti che caratterizzano un cliente fraudolento.
b
Un esempio banale
Tipicamente i dati raccolti dalle società vengono immagazzinati e strutturati
in un database. Sarà compito poi degli strumenti informatici del data mining estrarne specifiche informazioni e conoscenze che siano di supporto alle
decisioni aziendali.
24
La Market Basket Analysis nell’e-commerce
Consideriamo a titolo di esempio il caso molto semplice di un database che
raccoglie i dati di vendita di un supermercato, costituito da un’unica tabella
che contiene sette transazioni relative all’acquisto di cinque item, indicati
con a, b, c, d, e.
id
a
b
c
d
e
1
2
3
4
5
6
7
1
1
1
1
0
0
0
1
0
0
0
0
0
0
1
1
1
1
1
1
0
1
1
1
1
1
0
0
0
0
0
1
0
1
1
Il valore 1 indica che il prodotto relativo alla colonna in esame è stato
acquistato nella transazione.
Un primo sguardo ai dati ci permette di fare alcune osservazioni.
1. Si può ragionevolmente affermare che l’acquisto di c implica l’acquisto
di d, infatti d è presente in tutte le transazioni in cui è presente c.
Quindi, un primo criterio di ricerca delle eventuali relazioni tra due
item è quello di contare il numero di occorrenze di uno, sapendo che
l’altro è presente.
2. D’altra parte esistono casi in cui questo criterio sembra poco significativo. Ad esempio, ogni volta che b è stato acquistato, sono stati
acquistati anche a, c, e d. Ma l’informazione non è particolarmente
affidabile dato che b compare in una unica transazione. Quindi per
rendere significativo tale criterio bisognerà imporre dei vincoli sulla
frequenza dei prodotti di cui vogliamo studiare le implicazioni.
3. Un pò meno intuitivo è trovare criteri per evidenziare quanto i prodotti sono effettivamente correlati, cioè una misura dell’intensità della
relazione.
Nel seguito formalizziamo tali osservazioni e fissiamo le notazioni che utilizzeremo per tutto il capitolo.
25
Marilena Tucci
c
Formalizzazione del problema
Denotiamo con I un insieme di oggetti. Sia D un insieme di transazioni,
dove ogni transazione T è un insieme di oggetti tali che T ⊆ I.
Un itemset X è un generico sottoinsieme di I. Si dirà che l’itemset X appartiene alla transazione T (o che la transazione contiene l’itemset X) se
X ⊆ T.
Siano X e Y due itemset tali che X ∩ Y = ∅. Indichiamo con
X⇒Y
(2.1)
una regola associativa, dove X è detto antecedente e Y conseguente della regola. L’antecedente è quindi l’itemset su cui si basa la regola e il conseguente
è il sottoinsieme di prodotti su cui si concentra l’analisi.
Definiamo supporto dell’antecedente la percentuale (moltiplicata per il fattore 100) di transazioni in D contenenti X e lo denotiamo supp(X). Il supporto
della regola è la percentuale (moltiplicata per il fattore 100) di transazioni
in D contenenti X ∪ Y . Nel seguito, quando parleremo di supporto intenderemo il supporto dell’antecedente, corentemente con quanto riportato nell’output di Clementine 8.1, il programma utilizzato per generare il modello
dell’esempio analizzato nel lavoro.
La confidenza è la frazione delle transazioni in D contenenti X, che contengono anche Y , cioè
supp(X ∪ Y )
.
(2.2)
conf =
supp(X)
Quindi, la confidenza misura quanto un item dipende da un’altro mentre
il supporto misura quanto spesso l’antecedente si trova in una transazione,
cioè l’applicabilità della regola. Osserviamo che la regola associativa non
è simmetrica: cambiando l’ordine di X e Y nella relazione, facendo quindi
divenire Y l’antecedente e X il conseguente, confidenza e supporto cambiano.
Queste due misure confermano quanto osservato nei punti 1 e 2 della sezione
precedente.
La terza osservazione verrà risolta tramite il lift. Definiamo questa misura
come il rapporto tra la confidenza di una regola e la probabilità a priori
del conseguente della regola, cioè la probabilità che Y sia presente in D, a
26
La Market Basket Analysis nell’e-commerce
prescindere dagli altri item, denotata con P (Y ). Questa misura definisce la
forza della relazione.
Riprendendo l’esempio della tabella 1, considerando come antecedente e come conseguente un singolo prodotto, otterremo le relazioni schematizzate
nell’output seguente:
Relazione
Supporto (%)
Confidenza
Lift
Conseguente
Antecedente 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
57,1
57,1
14,3
14,3
14,3
71,4
85,7
71,4
85,7
42,9
85,7
42,9
42,9
57,1
57,1
71,4
71,4
85,7
14,3
42,9
100,0
100,0
100,0
100,0
100,0
100,0
83,3
80,0
66,7
66,7
33,3
33,3
33,3
25,0
25,0
20,0
20,0
16,7
0,0
0,0
1,4
1,2
1,8
1,4
1,2
1,2
1,2
1,4
1,2
0,8
0,8
0,6
0,5
1,8
0,6
1,4
0,5
1,2
0,0
0,0
d
c
a
d
c
c
d
a
a
c
e
a
d
b
e
b
e
b
e
b
a
a
b
b
b
d
c
d
c
e
c
e
e
a
a
d
d
c
b
e
Possiamo cosı̀ leggere che la relazione 7, c ⇒ d, ha supporto pari a 85, 7 e
confidenza pari a 83, 3%, cioè c appare nell’85, 7% delle transazioni e l’83, 3%
delle volte in cui è stato acquistato c è stato acquistato anche d.
Osserviamo che la regola inversa, d ⇒ c, afferma che ogni volta in cui è stato
acquisato d (cioè il 71, 4% sul totale delle transazioni) è stato acquistato
anche c, infatti la confidenza è del 100%. Il lift chiaramente è invece uguale
nelle due relazioni e pari a 1, 67.
Per evidenziare come il lift sia una misura della forza di una relazione consideriamo la relazione
r1 : a ⇒ d.
La probabilità P (d) è pari al 71% mentre conf (r1 ) = 100%: il lift positivo
(pari a 1, 4) mostra che la probabilità di trovare il prodotto d sapendo che è
presente il prodotto a è superiore alla probabilità incondizionata di d.
27
Marilena Tucci
Relazioni con confidenza molto alta non è detto che siano effettivamente
interessanti, la confidenza va sempre letta insieme al valore di lift. Si supponga, ad esempio, che nell’insieme D si siano evidenziate due relazioni con
medesimo antecedente. Siano,
r1 : X ⇒ Y
r2 : X ⇒ Z,
dove X,Y e Z sono itemset di I tali che X ∩ Y = ∅ e X ∩ Z = ∅. Sia inoltre
conf (r1 ) = 70%,
conf (r2 ) = 50%,
P (Y ) = 60%,
P (Z) = 25%.
Quindi,
lif t(r1 ) = 1.16,
lif t(r2 ) = 2.
La seconda regola r2 è più significativa della prima, anche se ha confidenza
minore, avendo un lift superiore: se si selezionano delle transazioni in maniera
casuale da D, la probabilità di trovarvi Y è del 60%, probabilità che sale al
70% se si considerano solo le transazioni che contengono X; invece, se si
considera Z, il salto di probabilità è ben maggiore, passando dal 25% al
50%.
Una relazione X ⇒ Y con lift inferiore ad 1, indica invece che X e Y sono
correlati negativamente e si può interpretare dicendo che chi acquista l’item
X è meno propenso ad acquistare l’item Y , rispetto a coloro che non acquistano X. Nel nostro esempio si veda la relazione d ⇒ e. A livello di strategie
di marketing di un supermercato, evidenziare i prodotti correlati negativamente potrebbe essere un metodo per definire i prodotti da mettere su un
catalogo: inserire i prodotti con relazione minima, per dimostare la varietà
offerta.
Notiamo anche che gli item con percentuali molto alte di probabilità a priori,
quindi item presenti in quasi tutte le transazioni del data set, potrebbero
non essere sgnificativi e anzi, portare alla definizione di relazioni che non
portano informazioni interessanti, nascondendo magari altre relazioni che
verrebbero evidenziate escludendo gli item più comuni. Nel caso di relazioni
che coinvolgono item presenti in quasi tutte le transazioni il valore di lift è
molto prossimo a 1.
Solitamente, le relazioni più interessanti solo quelle con lift molto alto (o
molto basso) e con confidenza e supporto sopra un valore di soglia fissato.
28
La Market Basket Analysis nell’e-commerce
Più alto è il valore fissato come minimo per il supporto, maggiore sarà il livello
di applicabilità delle regole trovate. Regole con valore di lift molto alto, ma
supporto non significativo individuano associazioni molto forti, ma anche
eventi che raramente si verificano, cosı̀ da non rendere sempre significativo
l’attuare strategie di marketing.
Concludiamo notando che nell’output sopra riportato si considerano solo le
relazioni con 1 singolo prodotto sia come antecedente che come conseguente.
Chiaramente è possibile generalizzare e andare a considerare più prodotti sia
come antecedenti che come conseguenti della relazione, anche se Clementine,
il programma di elaborazioni statistiche in dotazione, prevede una gestione
multipla di item per gli antecedenti, ma non per i conseguenti. Cosı̀, la
relazione
c + d ⇒ a,
ha supporto pari a 71, 4%, poichè gli items c e d sono presenti contemporaneamente in 5 transazioni su 7. Inoltre l’acquisto di entrambi i prodotti c e
d influisce sull’acquisto di a nell’80% delle transazioni con lift di 1, 4.
Rimane cosı̀ da risolvere il problema di come trovare le regole di associazione, limitandone la numerosità ai soli casi interessanti. Nella letteratura, la
risoluzione di tale problema si divide in due parti:
• limitare l’universo delle possibili relazioni ricercando tutti gli itemset
con supporto maggiore di una soglia minima prefissata. Tali insiemi
vengono detti large itemset. A questo scopo mostreremo il funzionamento dell’algoritmo Apriori (Agrawal, Imielinski, Swami 1993) nella
sezione successiva.
• cercare le relazioni tra i large itemset che soddisfino ulteriori condizioni
cosı̀ da poter effettuare un’ulteriore selezione delle regole trovate che
ne limiti il numero. Si veda l’ultima sezione del capitolo per maggiori
dettagli.
d
Algoritmo APRIORI
L’algoritmo Apriori è sato il primo algoritmo implementato per individuare
le regole associative e si basa sull’ovvia considerazione che se Y ⊆ X allora
supp(X) ≤ supp(Y ).
29
Marilena Tucci
Fissata una soglia minima di supporto la procedura identifica tutti i large
itemset procedendo iterativamente sulla numerosità k degli insiemi ricercati.
Più precisamente, si supponga che gli itemset abbiano un ordinamento lessicografico e si indichi con Li il sottoinsieme costituito da tutti i sottoinsiemi
di i elementi in D aventi supporto maggiore di una soglia minima s0 .
1. Si parte da k = 1 e si considera l’insieme L1 , l’insieme dei large itemset
contenenti un unico elemento.
2. Si pone k = k + 1 e si costruisce l’insieme Ck dei candidati dei large
itemset di dimensione k unendo i large itemset di k − 1 elementi che
hanno i primi k − 2 elementi uguali. Tale step è detto di join.
3. Si procede quindi con il cosiddetto prune step: si eliminano da Ck gli
insiemi che hanno almeno un sottoinsieme di dimensione k − 1 non appartenente a Lk−1 . Si verifica quindi la condizione sul supporto minimo
per i candidati rimasti e si ottiene Lk .
4. L’algoritmo viene iterato fin tanto che Lk 6= ∅.
A titolo esemplificativo, vediamo come ricavare i large itemset nell’insieme
delle transazioni considerate nella tabella 1, fissata la soglia di supporto
minima s0 = 40.
L1 = {{a}, {c}, {d}, {e}},
poiché supp(b) = 14 < s0 . Quindi per il join step,
C2 = {{a, c}, {a, d}, {a, e}, {c, d}, {c, e}, {d, e}},
da cui dovremo eliminare {a, e} e {d, e} con supporto pari a 14 e {c, e} che
ha supporto pari a 28. Cosı̀ che il large itemset di 2 elementi risulta
L2 = {{a, c}, {a, d}, {c, d}}.
Il terzo e ultimo passo dell’algoritmo definisce
C3 = L3 = {{a, c, d}}.
30
La Market Basket Analysis nell’e-commerce
e
Misure di valutazione
Una volta identificati i large itemset, la selezione delle regole può avvenire sulla base di diversi indicatori. Citiamo nel seguito quelli proposti dall’algoritmo
Apriori in Clementine.
Detta c la confidenza della regola e P la probabilità a priori del conseguente,
come misure di valutazione si pussono considerare:
• la confidenza c della regola;
• la differenza di confidenza (rispetto alla probabilità a priori): |c − P |;
• il rapporto di confidenza, detto anche complemento a 1 del quoziente
di confidenza): 1 − min(c/P, P/c);
• la differenza di informazioni rispetto alla probabilità a priori;
• la misura del chi-quadrato normalizzato.
Fissata la soglia minima, verrano selezionate solo le regole di associazione
con misura scelta maggiore o uguale di tale soglia.
Optare per un indicatore rispetto ad un altro dipenderà dal tipo di analisi
che si sta effettuando e dalla distribuzioni dei dati nel dataset.
Nel caso in cui l’analisi sia focalizzata su un preciso conseguente, è consigliato
l’utilizzo della confidenza: a confidenza maggiore corrisponde un lift maggiore
essendo fissa la probabilità a priori del conseguente.
La differenza di confidenza evita che vengano mantenute regole ovvie, perchè
consente di escludere le regole il cui valore di confidenza non si discosta molto,
in valore assoluto, dalla probabilità a priori.
Il rapporto di confidenza è invece particolarmente idoneo per individuare
regole che definiscono eventi rari.
Le ultime due misure si basano, rispettivamente, sull’information gain criterion (una misura sul guadagno informativo) e sul valore della statistica del
chi-quadrato (che si basa sul concetto di indipendenza distributiva).
La selezione delle regole associative più interessanti favorirà cosı̀ anche la leggibilità dell’output, anche se bisogna sottolinare che l’analista deve aver ben
31
Marilena Tucci
chiaro quale è l’obiettivo di marketing da raggiungere. Solo un’analisi statistica mirata ad un preciso scopo permetterà di focalizzare l’attenzione sulle
regole che veramente danno informazioni scegliendo anche la metodologia di
studio più adatta al tipo di analisi proposta.
32
La Market Basket Analysis nell’e-commerce
2.2
Il caso Volendo.com
Applichiamo le tecniche della Market Basket Analysis per effettuare un’analisi delle associazioni nei comportamenti di acquisto dei consumatori di
Volendo.com, sito che permette di effettuare la spesa on-line.
Il programma di Data Mining utilizzato è Clementine 8.1.
a
Descrizione dei dati
Il data set oggetto di studio è un dataset campione contenente 1245 transazioni di clienti distinti e prende in considerazione 195 marche di prodotti.
Per ciascuna transazione è specificata la quantità di prodotti acquistati relativi alla singola marca. I clienti sono identificati da un codice numerico e
non viene fornita nessuna informazione socio-demografica.
In Clementine, per poter applicare un nodo Modello che evidenzi le regole di associazione, è necessario disporre di un dataset con le seguenti
caratteristiche:
• le colonne devono rappresentare i prodotti;
• le righe devono individuare le transazioni di spesa effettuate da un
determinato cliente;
• deve essere binario, ossia ogni cella deve assumere il valore 1 se il cliente
ha acquistato il prodotto, 0 altrimenti.
Quindi, è stato innanzitutto necessario creare tanti campi flag, uno per ogni
marca, che assumono il valore vero (= 1) se la quantità di prodotti acquistati
per marca è superiore allo zero. Abbiamo denotato tali campi specificando
il suffisso flag al nome della relativa marca.
Gli algoritmi sono quindi applicati ad una matrice di 1245 righe, una per
ciascun cliente, e 196 colonne, di cui la prima indica l’ID identificativo del
cliente e le rimanenti 195 le marche oggetto di studio binarizzate.
33
Marilena Tucci
USER ID
Boario
287
327
672
788
800
826
Bolton Manitoba
Bonduelle
1
1
18
1
Tabella 2.1: Struttura dati originale
USER ID
Boario flag
Bolton Manitoba flag
Bonduelle flag
287
327
672
788
800
826
0
1
0
0
0
0
0
0
0
1
0
0
0
0
0
1
0
1
Tabella 2.2: Struttura dati per applicazione modelli
Figura 2.1: Stream elaborato con Clementine
34
La Market Basket Analysis nell’e-commerce
b
Analisi esplorativa
Dal grafico di distribuzione, si nota che le marche più presenti nelle transazioni sono Pellicano (75%) e Barilla (62%), che sono anche le marche più
vendute. La media della distribuzione è pari a 8, 2%.
c
Modelli
Modello APRIORI
Il primo modello che abbiamo provato a generare è il modello Apriori con
suporto minimo pari a 10 e confidenza minima 80.
Tale modello individua 110 relazioni, tutte con conseguente Pellicano o Barilla, le marche più presenti nelle transazioni. I lift sono per tutte le relazioni molto bassi e omogenei tra loro, vanno dall’1, 06% all’1, 39%, come era
prevedibile vista l’alta probabilità a priori delle due marche.
35
Marilena Tucci
La relazione con confidenza maggiore (92, 5%) si registra per
RioM are + Barilla ⇒ P ellicano,
che ha supporto dell’11, 8%.
Il supporto massimo (61, 9%) si ha nella relazione
Barilla ⇒ P ellicano,
con confidenza del’82, 1%. Questa implicazione non porta però informazioni
significative, visto che mette in relazione le due marche più frequenti. Infatti
il lift è molto prossimo ad 1, cosı̀ da poter ritenere le due marche non correlate.
La regola associativa
Buitoni + P armalat + P ellicano ⇒ Barilla,
registra il lift massimo, con supporto dell’11, 3%.
Escludiamo le marche P ellicano e Barilla, abbassiamo la soglia minima
del supporto, ponendola uguale alla media delle distribuzioni (s0 = 8%) e
settiamo la confidenza minima a 50%.
Le regole con lift maggiore e con misure abbbastanza omogenee coinvolgono
la marca Buitoni, che ha una distribuzione del 25%.
Supporto
9,3
14,3
10,7
10
Confidenza
51,7
50,6
50,4
50
Lift
2,1
2,06
2,05
2,03
Conseguente
Buitoni
Buitoni
Buitoni
Buitoni
Antecedente 1
Ferrero
Findus
Galbani
Aia
Antecedente 2
Parmalat
Parmalat
Findus
Findus
Raddoppia la probabilità di acquistare Buitoni se si acquistano congiuntamente le coppie F errero e P armalat, F indus e P armalat, Galbani e
F indus, Aia e F indus, coppie presenti in circa il 10% degli acquisti in esame.
Altre relazioni che sembrano interessanti nella loro omogeneità per valori di
supporto, confidenza e lift, coinvolgono la marca Lever − F abergè (presente
nel 30% degli acquisti), sempre correlata con altri prodotti di pulizia della
casa, come mostrato nell’output che segue.
36
La Market Basket Analysis nell’e-commerce
Supporto
8,6
8,5
9,7
10
8
8,8
10,9
8,3
9,3
Confidenza
55,1
53,8
53,7
53,2
52
51,8
51,5
51,5
50,9
Lift
1,83
1,78
1,78
1,76
1,72
1,72
1,7
1,7
1,68
Conseguente
Lever-Fabergè
Lever-Fabergè
Lever-Fabergè
Lever-Fabergè
Lever-Fabergè
Lever-Fabergè
Lever-Fabergè
Lever-Fabergè
Lever-Fabergè
Antecedente 1
Viakal
Paglieri
Ace
Soflan
Dixan
Spontex
Bolton Manitoba
Kraft
Beiersdorf
Antecedente 2
Scottex
Pur essendo una multinazionale, la marca Lever − F abergè comprende diversi prodotti per l’igiene della casa e il personal care e tutte le relazioni
evidenziate lo legano ad altri marchi che operano nello stesso settore. Questo evidenzierebbe una tendenza del consumatore ad acquistare prodotti della
stessa categoria nel corso di un’unica transazione di spesa. Questo comportamento è noto in letteratura come horizontal variety seeking e conduce a
regole di associazione tra marche sostituibili tra loro o concorrenti. Probabilmente un’offerta promozionale su una di queste marche, non porterebbe ad
un aumento delle vendite anche per le marche correlate, in quanto i clienti
tenderebbero ad acquistare solo i prodotti in offerta, considerando le varie
marche analoghe.
Abbiamo quindi provato a mettere in relazione la CocaCola con la F anta,
la prima con supporto molto alto (30%) e la seconda molto basso (4%).
Supporto
4,2
28,9
Confidenza
75
10,8
Lift
2,59
2,59
Conseguente
Coca Cola
Fanta
Antecedente 1
Fanta
Coca Cola
Le relazioni elaborate sono quelle che intuitivamente uno poteva aspettarsi:
chi acquista F anta nel 75% dei casi acquista anche la CocaCola, il viceversa
invece non è vero: solo il 10% di chi acquista la CocaCola è interessato anche
all’aranciata.
Modello GRI
Il modello GRI utilizza, per estrarre le regole più interessanti, la J measure, una misura statistica basata sulla probabilità a priori e a posteriori del
37
Marilena Tucci
conseguente e sulla probabilità a priori dell’antecedente.1
Il modello GRI definisce 20 relazioni, con lift che varia da 1, 7% a 12, 14% e
confidenza da 50% a 85%, come riportato nella tabella seguente.
Istanze
Supporto
Confidenza
Lift
Cons.
Ant. 1
20
20
29
38
29
25
29
64
66
90
90
68
54
46
45
74
78
91
65
306
1,61
1,61
2,33
3,05
2,33
2,01
2,33
5,14
5,3
7,23
7,23
5,46
4,34
3,69
3,61
5,94
6,27
7,31
5,22
24,58
85
75
72
71
69
68
62
53
52
50
50
50
50
50
60
65
63
58
77
52
12,14
10,71
10,29
10,14
9,86
9,71
8,86
7,57
7,43
7,14
7,14
7,14
7,14
7,14
5
2,95
2,86
2,64
2,57
1,73
Plasmon
Mellin
Mellin
Mellin
Mellin
Mellin
Mellin
Mellin
Plasmon
Plasmon
Mellin
Mellin
Mellin
Mellin
Nestlè
Galbani
Galbani
Galbani
Findus
Findus
Hipp Biologico
Hipp Biologico
Barilla
Nestlè
Nestlè
Aia
Pampers
Barilla
Barilla
Mellin
Plasmon
Pellicano
Barilla
Parmalat
Mellin
Aia
Aia
Aia
Barilla
Buitoni
Ant. 2
Ant. 3
Nestlè
Plasmon
Pellicano
Plasmon
Plasmon
Plasmon
Mellin
Plasmon
Plasmon
Pellicano
Plasmon
Plasmon
Barilla
Kraft
Kraft
Buitoni
Plasmon
Plasmon
Kraft
Pellicano
Rana
Sia a livello di lift che di confidenza le relazioni più significative sono:
r1
r2
r3
r4
:
:
:
:
Hipp Biologico ⇒ P lasmon,
Hipp Biologico ⇒ M ellin,
Barilla + N estlè + P lasmon ⇒ M ellin,
N estlè + P lasmon ⇒ M ellin.
Quindi, i clienti che acquistano prodotti della Hipp Biologico acquisteranno
prodotti P lasmon il 12% delle volte in più di quelli che non sono interessati nella marca Hipp Biologico. In generale però il mercato di alimenti
per bambini, caratterizzato dalle marche in oggetto, è un mercato molto
residuale.
1
La J measure sulla regola X ⇒ Y è definita come segue:
h
i
|X)
1−p(Y |X)
J = p(X) p(Y |X)log p(Y
,,
p(Y ) + (1 − p(Y |X))log 1−p(Y )
dove p(X) e p(Y ) sono le probabilità a priori di X e Y , rispettivamente, nell’insieme delle
transazioni e p(Y |X) è la probabilità condizionata di Y conoscendo X.
38
La Market Basket Analysis nell’e-commerce
Notiamo che la relazione
r5 : Barilla + Buitoni + Rana ⇒ F indus,
pur avendo confidenza del 77%, quindi maggiore rispetto alle confidenze delle
relazioni r2 , r3 , r4 è molto meno significativa, avendo un lift pari solo al 2, 57%
contro il 10% delle altre.
Il supporto delle relazioni r1 , r2 , r3 , r4 è però molto basso, in quanto Hipp
Biologico compare solo l’1.6% delle volte nelle transazioni in esame, Barilla+
N estlè + P lasmon il 2, 3% e N estlè + P lasmon il 3%.
La regola con supporto maggiore è:
r6 : Buitoni ⇒ F indus,
dove Findus compare nell 24, 6% delle transazioni, di cui il 52% è accompagnato da Buitoni. Il lift della regola è solo dell’1, 7%.
d
Analisi asimmetrica: il category management dinamico
La Market Basket Analysis, come tutte le tecniche di Data Mining, si rivela
efficace se si ha ben presente l’obiettivo di business che si vuole perseguire:
promozione di un prodotto, analisi dell’andamento di vendite di un prodotto
o di una marca, comportamenti di acquisti relativi ad una classe di prodotti.
Il dataset a nostra disposizione consiste dei soli acquisti suddivisi per marche,
fra l’altro quasi tutte multinazionali, produttrici di un ventaglio vario di
tipologie di prodotti. Con una suddivisione, all’interno delle marche, per
tipologia di prodotto, sarebbe stato possibile analizzare i comportamenti di
acquisto su uno stesso prodotto per marche diverse o all’interno della stessa
marca per diversi prodotti, al fine di mostrare per esempio quanto la marca
risulti un fattore determinante negli acquisti e se è possibile registrare un
qualche tipo di fedeltà. L’acquisto di merendine Mulino Bianco implica anche
l’acquisto dei cracker della stessa marca? O, al fine di promuovere un item
di una marca, quali sono i prodotti che ad esso si associano? Per promuovere
la nuova linea di ammorbidenti, posso collegare, tramite banner pubblicitari,
la campagna dell’ammorbidente con i prodotti individuati come antecedenti
della categoria ammorbidenti.
39
Marilena Tucci
Avendo a disposizione i dati socio-demografici dei clienti, sarebbe stato interessante inoltre effettuare una segmentazione della clientela per comportamenti di acquisto. Individuando gruppi omogenei di clientela, in congiunzione con le regole associative, è possibile definire tecniche di pubblicità e di
promozione customizzate, cosı̀ da poter spingere, run-time, l’utente ad acquistare varie tipologie di prodotti in base agli acquisti che sta effettuando o alle
sua caratterizzazione all’interno dei gruppi di clientela individuati. Se è vero
che chi compra pannolini compra pizze surgelate, individuato il segmento di
clientela interessato ai pannolini, posso pensare a suggerimenti di acquisto
personalizzati al momento dell’identificazione dell’utente che si collega al sito
per effettuare una transazone di spesa.
A titolo esemplificativo, ci proponiamo ora di analizzare le relazioni nell’ottica della promozione di un prodotto, focalizzando l’attenzione su categorie di
marche specifiche. Quindi, seguendo l’approccio asimmetrico, raggruppiamo
alcune marche significative nelle categorie del Mangiar Sano, categoria che
comprende prodotti di natura biologica e dietetica e legati alla cura del sè, e
del Mangiar Veloce, che racchiude marche che confezionano prodotti surgelati
o precotti, comunque dall’immediata preparazione. Nello specifico, includiamo nella categoria Mangiar Sano le seguenti marche: Antica Erboristeria,
BioItalia, BiOrigin, Dietorelle, Gatorade, Hip Biologico, Illy, Mellin, Misura, Nipiol, Pellicano Bio, Rocchetta, Val Soia. La categoria Mangiar Veloce
comprende invece Findus, Finish, FinPesca, Gastronomia Masini, Orogel,
Rio Mare, Scotti, Simmenthal.
La domanda che ci poniamo è: quali sono, se esistono, gli antecedenti che
individuano le relazioni più forti al fine di promuovere un prodotto nella
categoria considerata?
Operativamente, è necessario creare innanzitutto due nuove variabili flag
M angiarSano e M angiarV eloce, che valgono 1 se il cliente ha acquistato
almeno un prodotto delle marche appartenenti alla categoria, 0 altrimenti
(vedi figura 2.2).
Le due nuove variabili ottenute sono cosı̀ distribuite: M angiarV eloce ha una
distribuzione del 53, 09% e M angiarSano del 42, 25%.
40
La Market Basket Analysis nell’e-commerce
Figura 2.2: Definizione della variabile M angiarV eloce
Per analizzare le regole più significative abbiamo generato sia il modello
Apriori che il modello GRI, settando le due variabili in output e tutte le altre
marche f lag, non incluse nelle categorie considerate, in input, ed escludendo,
ancora una volta, le marche Pellicano e Barilla affinchè non offuscassero
relazioni meno immediate e più interessanti.
Con entrambe le categorie, i modelli Apriori e GRI danno risultati analoghi
e non si registrano relazioni con lift veramente alti, le relazioni più significative hanno lift intorno all’1, 4. Ponendo M angiarSano come conseguente, le
marche coinvolte nelle associazioni più interessanti sono Parmalat acquistato
congiuntamente con Bonduelle, Galbani, Aia, Danone, Buitoni. Il supporto
è in media dell’11% e la confidenza del 61%. Relazioni interessanti con un
unico antecedente sono le seguenti:
Supporto
Confidenza
Lift
Conseguente
Antecedente
14,2
12,2
10,5
60,5
60,5
60,3
1,43
1,43
1,43
MangiarSano
MangiarSano
MangiarSano
Bonduelle
Nestlè
Lombardia Carni
41
Marilena Tucci
Quindi la categoria del Mangiar Sano sembra legata a marche che producono
prodotti alimentari di qualità. Non si registrano relazioni negative.
Ponendo invece M angiarV eloce come conseguente, le marche coinvolte nelle associazioni più interessanti sono Rana, Parmalat, Buitoni, Aia, Galbani, Kraft, marche che confezionano anche prodotti precotti e dalla semplice
preparazione. Si registrano relazioni negative con le marche che producono
bevande come Rocchetta, Vera, Coca Cola, San Pellegrino, stando ad indicare che chi acquista i prodotti da noi caratterizzati nella categoria Mangiar
Veloce sono meno interessati ad acquistare bevande e acque.
Un’analisi di questo tipo può trovare un’interessante applicazione in un’evoluzione del category management nel mercato on line. Tradizionalmente, il
category management è un processo di marketing integrato, che analizza il
modo migliore per organizzare il layout dispositivo in un punto vendita in
modo tale da aumentare il profitto e ottimizzare lo spazio a disposizione e
le politiche di approvigionamento e di gestione del magazzino. E’ necessario
creare delle aggregazioni di prodotti, che vanno dalle più immediate per categorie simili (come la categoria bevande calde, che include caffè, the, tisane,
miscele per cappuccini, ...), a categorie più trasversali che possono includere prodotti food e non food, si pensi per esempio alla categoria baby care
che comprene sia i cibi che i prodotti di pulizia, igiene, svago dei neonati.
Creando all’interno del punto vendita, una suddivisioni per scaffali o isole categoriali dei prodotti, è possibile condizionare il comportamento di acquisto
del consumatore orientandolo nel processo di acquisto, suggerendo acquisti
abbinati di prodotti e influenzando la sua percezione di necessità/bisogno di
acquisto. Studiare il modo migliore per abbinare prodotti merceologicamente
diversi, ma accomunati per funzioni d’uso o occasione di consumo, 2 migliora
la visibilità dei prodotti all’interno del punto vendita stimolando i cosiddetti
acquisti d’impulso del consumatore, cioè le decisioni di acquisto maturate all’interno del punto vendita. Se si riesce inoltre a soddisfare il fabbisogno del
cliente, facilitando e velocizzando il processo di acquisto, il conseguente valore
aggiunto creato nel consumatore si traduce, nel lungo termine, in fedeltà del
cliente al punto vendita. Chiaramente queste categorie non possono nascere
2
Per funzione d’uso si intende la modalità con cui è impiegato un dato prodotto in un
processo di consumo (la pasta in Italia è utilizzata come primo piatto). Per occasione di
consumo si intende il processo con cui il consumatore soddisfa bisogni elementari come
il nutrirsi, il bere, la pulizia della persona e della casa, l’ospitalità, la celebrazione delle
ricorrenze, .... [9]
42
La Market Basket Analysis nell’e-commerce
in maniera asettica, la loro definizione deve essere coerente alla tipologia di
consumatore registrata nel punto vendita. Solo ricerche mirate sul comportamento d’acquisto del consumatore possono indurre una categorizzazione dei
prodotti consona e adeguata al punto vendita specifico.
Sarebbe interessante cercare di implementare un processo di category management dinamico in un supermercato on line, capace di riconfigurare il layout
del sito in base alle specifiche caratteristiche del cliente, cosı̀ da massimizzare il valore generato ad ogni visita. Un cliente, caratterizzato come persona
attenta alla cura personale e alla dieta, può venire guidato all’acquisto di prodotti classificati nella categoria Mangiar Sano e invogliato a provare nuove
offerte commerciali che aderiscono a quel profilo o che sono strettamente legate alla categoria anche se non necessariamente ne fanno parte. Nel mondo
virtuale la customizzazione sarebbe più immediata e personalizzata e inoltre
verrebbero meno i vincoli fisici, eliminando alcuni ostacoli che si presentano
nei punti vendita tradizionali. Non esistendo più i vincoli della suddivisione
in reparti e della gestione dello spazio espositivo, verrebbe meno il problema
di definire un’unica categoria per prodotto: uno stesso item può essere categorizzato in più modi, come i corn flakes che possono appartenere alla categoria
Prima Colazione o Mangiar Sano. Anche il comportamento d’acquisto del
consumatore cambia nel mondo digitale perché totalmente svincolato dalla
dimensione fisica: l’analisi non dovrebbe essere più mirata alla definizione del
layout di un punto di vendita allo scopo di spingere l’utente a seguire certi
percorsi una volta entrato, bensı̀ a come stimolare l’utente a seguire percorsi
virtuali, come organizzare il layout di una pagina internet in modo tale da
risultare chiara e stimolante, come definire la gestione della suddivione delle
categorie nella pagina e in link per pagine a cascata, come gestire la personalizzazione e le promozioni commerciali. Studiare la riorganizzazione di
un supermercato on line affiancando un’analisi approfondita della clientela e
delle associazioni di prodotti può essere un ottimo strumento per dare spessore all’azienda e creare quel valore aggiunto che porta un utente Internet a
diventare cliente.
43
La Market Basket Analysis nell’e-commerce
Bibliografia
[1] Barabási A. (2004), Link La nuava scienza delle reti, Giulio Einaudi
editore, Torino.
[2] Brand E., Gerritsen R., Association and sequencing, DBMS Articles,
http://www.xore.com/dbms03.html.
[3] Camillo F., Tassinari G. (2002), Data Mining, Web Mining e CRM
metodologie, soluzioni e prospettive, FrancoAngeli, Milano.
[4] Colapinto C., Gestire il cliente con il CRM e la Business Intelligence:
tra storia e dati, Working Paper n.2005-13 - giugno, Dipartimento di
Scienza Economiche, Aziendali e Statistiche, Università degli Studi di
Milano, Milano.
[5] Del Ciello N., Dulli S., Saccardi A. (2000), Metodi di Data Mining per
il Customer Relationship Management, FrancoAngeli, Milano.
[6] Dematté C. (a cura di) (2001), e-business condizioni e strumenti per le
imprese che cambiano, Etas Libri, Milano.
[7] Giudici P.(2001), Data Mining metodi statistici per le applicazioni
aziendali, McGraw-Hill, Milano.
[8] Goetz
M.,
articoli
vari
di
http://www.webmarketingstrategico.com/.
marketing
dal
sito
[9] Lugli G., Pellegrini L. (2002), Marketing Distributivo, UTET, Torino.
[10] Perrini F. (2000), e-valuation valutare le imprese internet, McGraw-Hill,
Milano.
Marilena Tucci
[11] Lorenzon A., van Baalen P., Pilotti L., Marketing Knowledge Management in strategic adoption of a CRM solutions: global supports and
applications in Europe, Working Paper n.3 - gennaio 2005, Dipartimento di Economia Politica e Aziendale, Università degli Studi di Milano,
Milano.
[12] Lorenzon A., van Baalen P., Pilotti L., CRM Technologies as a leverage
of competitiveness and business value creation in european markets: a
compatison between Italy and the Netherlands, Working Paper n.4 - gennaio 2005, Dipartimento di Economia Politica e Aziendale, Università
degli Studi di Milano, Milano.
[13] Pilotti L. (a cura di) (2005), Le strategie dell’impresa, Carocci, Roma.
[14] Pilotti L., Righetto N., Ganzaroli A., Web strategy and intelligent software agents in decision process for networks knowledge based, Working Paper n.09.2003 - giugno, Dipartimento di Economia Politica e
Aziendale, Università degli Studi di Milano, Milano.
[15] Sartori C., Processi e tecniche di Data Mining,
db.deis.unibo.it/˜csartori/.
http://www-
[16] Wind J., Mahajan V. (a cura di) (2002), Digital Marketing, Etas Libri,
Milano.