Data warehouse(B.2.8) Nei database ci sono molti dati di tipo diverso e ciascuna tipologia di dato può avere un formato diverso. Alcuni provengono da legacy system Altri da database di tipologie diverse. Alcuni dati sono duplicati anche se in formati diversi Adriana Fasulo 2 Legacy system un sistema legacy ( ereditato, che è un lascito del passato) è un'applicazione o un componente software obsoleti, che continuano ad essere usati poiché l'utente (tipicamente un'organizzazione) non vuole o non può rimpiazzarla. Adriana Fasulo 3 Legacy system utilizzano tecnologie meno recenti (tipicamente si tratta di sistemi informatici con architettura hardware centralizzata ovvero con un mainframe) e per questo motivo sono molto difficili da interfacciare con i sistemi più recenti. Adriana Fasulo 4 Legacy system Di solito sono scarsamente documentati e di difficile modifica (linguaggi obsoleti, procedure interne non conosciute). Non possono essere eliminati perchè di solito sono “mission critical” Adriana Fasulo 5 Dataware house e data mart Il Dataware house è il luogo di consolidamento dell'insieme dei dati aziendali. Il termine Data Mart (letteralmente deposito di dati) designa un sotto-insieme del data warehouse che contiene i data del data warehouse per un particolare settore aziendale (dipartimento, direzione, servizio,gamma prodotto, ecc.). Si parla quindi ad esempio di Data Mart Marketing, Data Mart Commerciale Un dw è disegnato per agevolare l’analisi di dati non volatili, provenienti da fonti diverse, trasformati logicamente e fisicamente e mantenuti per lunghi periodi di tempo per permettere di effettuare anche analisi di mercato. Non può gestire dati volatili Adriana Fasulo 6 ETL (extract, trasform, load) Extract, Transform, Load (ETL) si riferisce al processo estrazione, trasformazione e caricamento dei dati in un sistema di sintesi (Data warehouse, Data Mart). I dati vengono estratti da sistemi sorgenti quali database transazionali (OLTP), comuni file di testo o da altri sistemi informatici (ad esempio, sistemi ERP o CRM). Subiscono quindi un processo di trasformazione, che consiste nel: • • • • • Selezionare solo quelli che sono di interesse per il sistema Normalizzare i dati (per esempio eliminando i duplicati) Derivare nuovi dati calcolati Eseguire accoppiamenti (join) tra dati recuperati da differenti tabelle Raggruppare i dati che appartengono allo stesso oggetto Tale trasformazione ha lo scopo di consolidare i dati (cioè rendere omogenei dati provenienti da sorgenti diverse) in modo che siano aderenti alla logica di business del sistema di analisi per cui viene sviluppato. Vengono infine caricati nelle tabelle del sistema di sintesi (load). Adriana Fasulo 7 Data Mining Il Data Mining ha per oggetto l'estrazione di un sapere o di una conoscenza a partire da grandi quantità di dati e l'utilizzazione industriale o operativa di questo sapere. Oggi il Data Mining ha una duplice valenza: • Estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile • Esplorazione ed analisi, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi. Questo tipo di attività è cruciale in molti ambiti della ricerca scientifica, ma anche in altri settori. E’ utilizzata per risolvere problematiche diverse tra loro, che vanno dalla gestione delle relazioni con i clienti (CRM), all‘individuazione di comportamenti fraudolenti. Adriana Fasulo 8 Tecniche sw per analisi dati In generale le operazioni di estrazioni di dati, le operazioni di ricerca dai database si basano su tecniche per il sw per l’analisi dei dati chiamate OLTP e OLAP Adriana Fasulo 9 OLAP OLAP, acronimo che sta per l'espressione On-Line Analytical Processing, designa un insieme di tecniche software per l'analisi interattiva e veloce di grandi quantità di dati, che è possibile esaminare in modalità piuttosto complesse. Questa è la componente tecnologica base del dataware house , serve alle aziende per analizzare i risultati delle vendite, l'andamento dei costi di acquisto merci al marketing per misurare il successo di una campagna pubblici taria, ad una università i dati di un sondaggio ed altri casi simili. Gli strumenti OLAP si differenziano dagli OLTP per il fatto che i primi hanno come obiettivo la performance nella ricerca e il raggiungimento di un'ampiezza di interrogazione quanto più grande possibile; i secondi, invece, hanno come obiettivo la garanzia di integrità e sicurezza delle transazioni. Adriana Fasulo 10 Differenza fra OLAP e OLTP La tecnologia OLTP (On-Line Transaction Processing),non prevede la creazione di banche di dati separate come avviene per il sistema OLAP. Infatti le analisi vengono effettuate direttamente sui dati di esercizio. Lo scopo del sistema OLTP è quello di acquisire volumi elevati di transizioni di modifica e aggiunta dei dati per la loro gestione. Tra le altre caratteristiche del sistema vi è quella che di avere dati in continuo aggiornamento. (A differenza ad esempio del Datawarehouse dove gli aggiornamenti avvengono a date predefinite.)Infine un'ultima importante particolarità del sistema è quella di avere dati sempre normalizzati in moda da essere conformi alle esigenze che derivano dalle transizioni. Adriana Fasulo 11 Architettura Data warehouse Dati transazionali Data warehouse data mart Applicazioni di data mining Traformazioni ETL altri dati Adriana Fasulo 12