A+FORUM 2015 Big data e predic,ve analy,cs: cosa sono, soluzioni e vantaggi, servono alle PMI ? Alessandro Rezzani Hotel Calzavecchio Casalecchio di Reno; 18/09/2015 Hotel Calzavecchio; Casalecchio di Reno; 18/09/2015 A+network -­‐ 55° meeFng 1 Chi sono?
Evoluzione delle tecniche di analisi dei da4
Sommario
•  Dalla Business Intelligence agli Advanced AnalyFcs: Evoluzione delle tecniche di analisi • 
• 
• 
• 
• 
• 
• 
Prima della BI… Il Data warehouse e la Business Intelligence OLAP Data Mining Cloud Big Data Advanced AnalyFcs •  Gli Advanced AnalyFcs • 
• 
• 
• 
• 
La predicFve analyFcs La prescripFve analyFcs Che problemi risolvono? Tipologie di algoritmi Le fasi del progeXo Evoluzione delle tecniche di analisi
Phase 1 OLTP –SQL StaFc Reports Phase 2 DWH –SQL StaFc Reports Phase 3 DWH –BI–OLAP Dynamic Reports Phase 4 DWH–OLAP–DM PredicFve AnalyFcs Phase 5 CollaboraFon–Cloud Advanced AnalyFcs Phase 6 Hadoop–Big Data PrescripFve AnalyFcs •  Negli anni ’60 i daF erano immagazzinaF su dischi e supporF magneFci. Si svolgevano analisi staFche e limitate (es. il numero di vendite dell’ulFmo semestre…) •  Negli anni ‘80 i database Relazionali e SQL (Structured Query Language) permeXono di realizzare analisi più dinamiche. •  Analisi svolte su DB operazionali, su cui è registrata ad esempio l’acvità giornaliera di un’azienda. www.dataskills.it Evoluzione delle tecniche di analisi
•  Problemi delle basi di daF operazionali •  Sono di Fpo OLTP (On Line TransacFon Processing), e presentano un modello daF fortemente normalizzato. •  Non sono adaXe alle leXure. •  DaF replicaF e manipolaF in sw differenF. •  Possibili differenze di formato. •  AggiornamenF dei daF non garanFF. www.dataskills.it Evoluzione delle tecniche di analisi
Phase 1 OLTP –SQL StaFc Reports Phase 2 DWH –SQL StaFc Reports Phase 3 DWH –BI–OLAP Dynamic Reports Phase 4 DWH–OLAP–DM PredicFve AnalyFcs Phase 5 CollaboraFon–Cloud Advanced AnalyFcs Phase 6 Hadoop–Big Data PrescripFve AnalyFcs •  A causa di quesF limiF a parFre dagli anni ’90 si inizia a parlare di data warehouse, cioè db che integrano daF provenienF da diversi sistemi operazionali. •  I daF sono integraF, cerFficaF e consistenF ossia il punto di partenza perfeXo per le acvità di analisi dei sistemi di Business intelligence. www.dataskills.it Evoluzione delle tecniche di analisi
•  La Business Intelligence è un insieme di modelli, metodi, strumenF e processi per: •  la raccolta sistemaBca del patrimonio di daF generato da un’azienda •  l’aggregazione e analisi dei daF aziendali •  la trasformazione di daF in informazioni •  la loro presentazione in forma semplice Extract Cleanse/Trasform Load (the dwh) Analyze/Disseminate www.dataskills.it Elemen4 di un sistema di BI
FonB operazionali Pulizia/Caricamento daB Data Warehouse Client Tools (business analyBcs) Data Marts
OLAP
Staging Area
ETL ETL CRM ERP Sistemi Legacy Client
Access
Master data management
Data quality
Evoluzione delle tecniche di analisi
Phase 1 OLTP –SQL StaFc Reports Phase 2 DWH –SQL StaFc Reports Phase 3 DWH –BI–OLAP Dynamic Reports Phase 4 DWH–OLAP–DM PredicFve AnalyFcs Phase 5 CollaboraFon–Cloud Advanced AnalyFcs Phase 6 Hadoop–Big Data PrescripFve AnalyFcs •  Evoluzione dei sistemi di BI •  Dalle query sul DWH a basi di daF mulBdimensionali. •  Si traXa di sistemi di Fpo OLAP (On Line AnalyFcal Processing). •  QuesF sistemi offrono ancora una visione storica: •  Valutazioni di ciò che è accaduto o che sta accadendo. •  Valutazione staFca. www.dataskills.it Evoluzione delle tecniche di analisi
www.dataskills.it Evoluzione delle tecniche di analisi
Phase 1 OLTP –SQL StaFc Reports Phase 2 DWH –SQL StaFc Reports Phase 3 DWH –BI–OLAP Dynamic Reports Phase 4 DWH–OLAP–DM PredicFve AnalyFcs Phase 5 CollaboraFon–Cloud Advanced AnalyFcs Phase 6 Hadoop–Big Data PrescripFve AnalyFcs •  Dai primi anni Duemila nasce la necessità di un’analisi dei daF in grado fare previsioni e dare suggerimenF per anBcipare gli evenB. •  Si inizia a parlare di data mining: “scavare ” nei daF per estrarre nuove informazioni e significaF, non evidenF immediatamente. •  Numerose applicazioni: •  la segmentazione della clientela, market basket analysis, campagne pubblicitarie mirate, previsioni etc. www.dataskills.it Evoluzione delle tecniche di analisi
Phase 1 Phase 2 OLTP –SQL StaFc Reports DWH –SQL StaFc Reports Phase 3 DWH –BI–OLAP Dynamic Reports Phase 4 DWH–OLAP–DM PredicFve AnalyFcs Phase 5 CollaboraFon–Cloud Advanced AnalyFcs Phase 6 Hadoop–Big Data PrescripFve AnalyFcs •  Dal 2010 le principali tendenze sono: •  Sviluppo di strumenF di Advanced AnalyBcs. •  modelli matemaFci e staFsFci per data analysis e data mining •  funzionalità avanzate di visualizzazione dei daF •  CollaboraBon e informaBon sharing. •  Cloud CompuBng •  Risorse disponibili come servizi su internet (IaaS, SaaS, DaaS). •  Nessun costo iniziale/ArchiteXura scalabile / GesFone e manutenzione a carico del provider •  Maggior aXenzione alla qualità dei daB www.dataskills.it Evoluzione delle tecniche di analisi
Phase 1 OLTP –SQL StaFc Reports Phase 2 DWH –SQL StaFc Reports Phase 3 DWH –BI–OLAP Dynamic Reports Phase 4 DWH–OLAP–DM PredicFve AnalyFcs Phase 5 CollaboraFon–Cloud Advanced AnalyFcs Phase 6 Hadoop–Big Data PrescripFve AnalyFcs •  A parFre dal 2012 si parla di Big Data (e Big Data analyFcs) •  Big Data: •  DaF che presentano le seguenF caraXerisFche •  Volume •  Velocity •  Variety •  DaF che non è possibile (o non è conveniente) analizzare con strumenF tradizionali www.dataskills.it Evoluzione delle tecniche di analisi
•  Nel 2015 i temi relaFve all'analisi dei daF sono sempre più: •  Big Data •  Evoluzioni nelle tecniche si analisi: •  Nuove versioni di Hadoop •  Spark •  PredicFve analyFcs •  estrazione della conoscenza da daF che in apparenza non contengono alcuna struXura. •  La conoscenza è uFlizzata per effeXuare "predicFons". •  Si afferma il conceXo di Prescrip(ve analy(cs •  Tecniche basate sulla predicFve analyFcs •  Abilitano i decision makers ad intraprendere azioni immediate. www.dataskills.it Modern Data Architecture
BI + Big data + Advanced analy4cs = modern data architecture
ArchiteAura tradizionale (BI)
Applicazioni GesBone daB FonB Business AnalyBcs ReporBng DWH Master data Data quality engine ETL process FonB daB tradizionali (CRM, ERP,…) www.dataskills.it Nuova architeAura da4
Analisi GesBone daB On premises o Cloud based ReporBng DWH RDBMS -­‐ MPP Business AnalyBcs Advanced AnalyBcs Master data Data lake Data quality engine ETL & Data IngesFon FonB FonB esistenB (CRM, ERP,…) FonB emergenB (sensori, web, geo, non stru]uraB,…) www.dataskills.it Advanced Analy4cs: predic've e prescrip've analy'cs
Predic4ve analy4cs
•  Si traXa di tecniche applicabili sia ai Big Data sia ai daF "tradizionali" •  Machine Learning algoritmi che consentono ai computer di imparare senza essere esplicitamente programmaF per un determinato compito. •  Data Mining estrazione della conoscenza da daF che in apparenza non contengono alcuna struXura. Il data mining uFlizza algoritmi di machine learning. www.dataskills.it Prescrip4ve analy4cs •  I sistemi di prescripFve analyFcs forniscono vere e proprie regole direXamente applicabili al business. •  Essi hanno una componente predi_va •  Sono in grado di abilitare i decision makers ad intraprendere azioni immediate, basate su: •  previsioni probabilisFche •  regole chiare e comprensibili che provengono dal modello stesso. •  Capacità di analizzare anche il feedback che proviene dall’uFlizzo delle regole, per tener conto delle azioni intraprese e dei loro effec sui risultaF. www.dataskills.it Cosa possiamo chiedere ai sistemi di predic4ve/prescrip4ve analy4cs?
•  Un dato evento/oggeXo è A o B? •  Un dato evento/oggeXo è anomalo? •  Quanto? •  Come sono organizzaF i daF? •  Quali sono gli evenF che hanno un certo grado di affinità (accadono insieme)? www.dataskills.it Un dato evento/oggeAo è A o B?
•  Si traXa di un problema di classificazione binaria (a due classi). •  Tipici problemi di classificazione sono: •  Churn analysis (Quali clienF ci abbandoneranno per la concorrenza?) •  Campagne di markeFng mirate (Quali sono i clienF che risponderanno posiFvamente ad una campagna?) •  Fraud detecFon (Quali transazioni rappresentano comportamenF fraudolenF?) www.dataskills.it Un dato evento/oggeAo è anomalo?
•  Si traXa di problema di anomaly detecBon. •  A volte possono essere ricondoc a problemi di classificazione binaria (è un'anomalia o no?). •  Essa è uFle nei casi in cui le anomalie siano rarissime. •  Esempi: •  Il valore di un certo sensore (pressione, temperature) è anomalo? •  La combinazione di acquisF effeXuata da un certo cliente è diversa da quelle del passato? www.dataskills.it Quanto?
•  La previsione di un numero anzichè di una classe dà luogo ad un problema di regressione. •  Esempi: •  Quale sarà il livello delle vendite nel prossimo weekend? •  Quale sarà l'ammontare dei prelievi da ogni singolo bancomat delle ns. Filiali? www.dataskills.it Come sono organizza4 i da4?
•  Una risposta a questa domanda la si trova con le tecniche di clustering •  Il clustering crea raggruppamenF omogenei di oggec, sulla base dei loro similarità. •  Esempi: •  Suddivisione della clientele in base ai comportamenF d'acquisto •  Separazione di documenF in gruppi omogenei www.dataskills.it Quali sono gli even4 che hanno un certo grado di affinità (accadono insieme)? •  Si traXa di problemi di market basket analysis, ovvero di analisi dei comportamenF di acquisto. •  La tecnica mira a trovare le associazioni tra I prodoc compraF •  Il processo è finalizzato all'adozione di strategie di markeFng ad hoc www.dataskills.it Tipologie di algoritmi
•  Suddivisione per compito svolto: •  ClassificaFon •  Regression •  Clustering •  AssociaFon www.dataskills.it Tipologie di algoritmi
•  Suddivisione in base alla metodologia di apprendimento: •  Supervised: si fornisce all'algoritmo un numero adeguato di esempi, che contengono anche l'output finale. L'algoritmo sarà in grado di trovare una funzione in grado di approssimare l'output •  Decision Trees, Neural Nets, SVM, Logic Learning Machines •  Unsupervised: L'algoritmo cerca di ricavare la conoscenza da un input generico, senza l'ausilio di un set di esempi già preclassificaF. •  Clustering, AssociaFon Rules www.dataskills.it Tipologie di algoritmi
•  Suddivisione in base all'output: •  Black box machines: Gli algoritmi di questa categoria forniscono una predicFon ma non presentano le modalità con cui sono arrivaF ad oXenerla •  Neural Nets •  SVM •  Random Forest •  Rule based algorithms: Gli algoritmi forniscono, oltre alla predicFon, anche un insieme di regole che rappresentano il processo decisionale •  Decision Trees •  Fuzzy Set Systems •  Logic Learning Machine www.dataskills.it Rule based algorithms
•  Forniscono regole che spiegano la predicFon •  Sono il presupposto per la "prescripFve analyFcs" Esempi di regole (da Decision Tree): IF X<25 AND X2<15 AND X1<10 THEN A IF X<25 AND X2<15 AND X1>=10 THEN B www.dataskills.it Rule based algorithms
•  Decision trees: •  Sistema semplice •  Poco performante in termini predicvi •  I modelli posso essere instabili (grandi variazioni causate da piccole modifiche nell'input) •  Fuzzy Set systems •  Sistemi più complessi •  Richiedono più risorse per il calcolo •  Performance predicve acceXabili Implementato in tuc i sozware di data mining / machine elarning Implementato in alcuni sozware www.dataskills.it Rule based algorithms
•  Logic Learning Machine: •  Sistema basato sulle switching Neural Network •  Elevate capacità predicve •  Velocità di training / forecasFng Implementato in Rulex www.dataskills.it Vantaggi dei sistemi di prescrip4ve analy4cs
•  Aumento della reddiFvità aziendale •  Risoluzione di problemi (frodi, abbandono clienF) •  Vantaggi compeFFvi •  PredicFon relaFve a grandezze di mercato •  Miglior allocazione delle risorse www.dataskills.it Comprensione della problemaFca di business Fasi di un progeAo di predic4ve /
prescrip4ve analy4cs
Feedback DWH Ricerca e Analisi FonB daB •  Data warehouse • 
•  Altre fonF (es: • 
big data) • 
• 
Preparazione daB Normalizzazioni DiscreFzzazioni Creazione aXribuF Selezione aXribuF Creazione del modello •  Scelta dell'algoritmo •  Parametrizzazione •  Training su un subset dei daF (training set) Valutazione e uBlizzo •  Test su un subset dei daF (test set) •  Valutazione della bontà del modello •  UFlizzo in produzione a fini predicvi