Cloud SIA V anno Processo operazionale e processo analitico Sviluppo Sistemi Informatici I Sistemi Informatici si sono trasformati nel tempo, passando da semplici strumenti di supporto a elementi centrali dell’organizzazione aziendale: Il valore delle informazioni In azienda sia ha la necessità di utilizzare piattaforme intelligenti (business intelligence, BI) che trasformino i dati aziendali in informazioni utilizzabili a diversi livelli di dettaglio. La business intelligence permette di studiare e comprendere i fattori chiave del business e di prendere decisioni coerenti con il momento. L’informazione è una risorsa che acquisisce sempre maggiore valore ed è necessaria per pianificare e controllare efficacemente e velocemente le attività aziendali. L’utilizzo delle tecniche di analisi dei dati aziendali ha reso il sistema informativo un elemento chiave per la realizzazione delle strategie di business. Decision Support System Il primo approccio alla strategia della conoscenza è avvenuto negli anni Ottanta. In quegli anni si sviluppano sistemi di supporto alle decisioni (Decision Support System, DSS) che permettono di estrapolare informazioni da dati memorizzati su supporti elettronici. I tre termini chiave di questa evoluzione sono proprio: - Decision attenzione alle attività decisionali e ai problemi direzionali - Support le tecnologie informatiche supportano il decisiore nel suo lavoro - System questi strumenti mirano all’integrazione tra utenti, macchine e metodi di analisi Risultati e attività: il processo di Simons Ogni attività produce risultati che alimentano le attività successive. Per gli studiosi di DDS il processo decisionale può essere rappresentato dal modello proposto da Simons negli anni Settanta. Il modello di Simons suddivide il processo in tre fasi principali: - Intelligence: raccolta informazioni per conoscere il problema - Design: comprendere il problema, generare soluzioni e analizzarle - Choise: valutazione e scelta delle alternative generate in fase di Design. Da ogni fase è possibile tornare alle precedenti. Questo modello è detto anche processo decisionale a razionalità limitata perché il decisore non ha interesse a raggiungere la soluzione ottimale ma una soluzione approssimata che rispetti determinati target. Modello di Anthony Il modello più utilizzato per descrivere i flussi informativi in azienda è il modello di Anthony (1965) che sfrutta una rappresentazione a piramide ed evidenzia la diversa strutturazione delle informazioni a seconda delle esigenze dei destinatari. Tale struttura è organizzata su tre livelli e due tipi di sistemi informativi: - sistemi operazionali, gestiscono la registrazione delle transazioni aziendali. Rappresentano il sistema informatico su cui si basa l’attività di supporto all’operatività aziendale. Costituiti da uno o più database su cui lavorano applicazioni per la gestione dei dati. Tali sistemi sono definiti On Line Transaction Processing (OLTP). - sistemi informazionali, rispondono alle esigenze dei soggetti che controllano le informazioni a livello aggregato. Sistemi legacy I sistemi legacy sono applicazioni software obsolete e difficilmente adattabili ai nuovi requisiti di business che spesso influiscono negativamente sulla competitività aziendale anche perché privi di progettazione e documentazione di supporto. Le motivazioni che portano le aziende a non abbandonarli sono: - compito consolidato - costo di riprogettazione proibitivo - il sistema informativo necessità della disponibilità del sistema legacy, che non può essere dismesso - solo chi li ha progettati ne comprende appieno la logica - sono strumenti funzionali utili all’azienda Nei sistemi legacy vi è una stretta dipendenza e, quindi un elevato grado di sovrapposizione tra Piattaforma tecnologica, Procedure gestionali e Organizzazione aziendale. Il sistema non è parametrizzabile ma molto personalizzabile. Best of Breed Con Best of Breed (BoB) si definisce un’applicazione software dedicata alle gestione di micro-aree in merito ai fabbisogni informativi aziendali. Sono applicazioni con un elevato tasso di specializzazione, ciò comporta: - vantaggio competitivo rispetto ad altri applicativi - difficile integrazione nel Sistema Informativo Aziendale In merito alle applicazioni specializzate è nato un filone di studi Enterprise Application Integration (EAI). La decisione di utilizzare BoB deve tenere conto dei costi di integrazione in relazione all’importanza delle esigenze aziendali. Sistemi gestionali Le caratteristiche dell’organizzazione influenzano la progettazione dei sistemi legacy. I software gestionali, al contrario, presentano una strutturazione modulare che permette di supportare lo svolgimento di attività aziendali tipiche. Software gestionali e sistemi legacy gestiscono database distinti. Ciò comporta problemi di integrazione. Con un sistema gestionale si può evidenziare una maggiore indipendenza fra le componenti rispetto ai sistemi legacy. Nonostante ciò esiste ancora una rigidità strutturale dovuta a: - assenza di un substrato software (middleware) che renda trasparenti le procedure gestionali rispetto alla piattaforma tecnologica - rigidità interna dell’organizzazione Confronto fra i sistemi Per operare un confronto fra i sistemi operazionali è necessario determinarne le caratteristiche tenendo conto delle sue componenti (piattaforma tecnologica, procedure gestionali, organizzazione aziendale, risorse disponibili) Una descrizione delle caratteristiche può essere ottenuta considerando chiavi trasversali alle componenti, tramite: - efficienza operativa - livello di copertura delle attività aziendali - livello di specializzazione dell’applicazione - integrabilità con gli applicativi esistenti. Integrabilità tra sistemi operazionali La seguente tabella evidenzia come vi sia, a seconda del sistema considerato, una valutazione bassa in termini di integrabilità. Per i sistemi BoB è importante sottolineare come questi vengano spesso utilizzati congiuntamente ai sistemi gestionali per contrastare il loro orientamento molto generale (bassa specializzazione). La svolta nelle ERP La necessità di ricorrere ai BoB è stata per lungo tempo una scelta obbligata anche per le organizzazioni che utilizzavano un sistema Enterprise Resource Planning (ERP). Nonostante questi sistemi offrano il miglior compromesso tra efficienza operativa, integrabilità e copertura delle attività, si è sempre riscontrata la mancanza di applicazioni che offrissero un supporto ai decisori. Negli ultimi anni questa situazione ha subìto una svolta grazie alla decisione aziendale di sviluppare specifiche applicazioni o di acquisire società operanti nella business intelligence. Ciò permette di includere nelle ERP funzionalità a carattere transizionale. I vantaggi dell’ERP Un sistema ERP è un’applicazione standard e personalizzabile che include soluzioni integrate di business per i processi chiave e le principali attività di carattere amministrativo in azienda. Il principale beneficio dell’implementazione di un ERP deriva dal cambiamento in termini di processi di business, struttura organizzativa, ruoli e professionalità dei membri dell’organizzazione e conoscenza della gestione delle attività. Alla base di questa implementazione sono i vantaggi in termini di: - miglioramento dell’efficienza - riduzione dei costi - aumento della flessibilità L’Information Tecnology (IT) assume così un ruolo decisivo. I vantaggi dell’ERP Un sistema ERP fornisce una visione unitaria della gestione aziendale e permette di controllarne l’evoluzione con informazioni integrate e aggiornate. Le ERP lavorano su una base di dati centralizzata su cui sono memorizzate tutte le transazioni effettuate. Il database centralizzato memorizza i dati provenienti dalle applicazioni dei moduli ERP dedicati alle diverse attività. L’architettura dei sistemi ERP è basata sulla tecnologia client-server, puntando sulla delocalizzazione dell’elaborazione delle informazioni. Strati logici dell’architettura ERP I tre strati logici di un’architettura ERP standard sono: - strato di presentazione: composta da una GUI o un browser, per l’inserimento dati e accesso alle funzioni del sistema - strato applicativo: riguarda le funzioni, le regole di business, le procedure, la logica e i programmi che operano sui dati ricevuti/trasferiti da/verso i database server - strato della base di dati: gestisce i dati operazionali attraverso gestori di basi di dati relazionali Caratteristiche ERP Le caratteristiche che differenziano gli ERP dagli altri applicativi per la gestione dell’informazione aziendale sono: - orientamento ai processi - procedure standard - modularità - integrabilità - parametrizzazione e personalizzazione La figura riporta le macro componenti di un ERP in cui si evidenzia il beneficio derivante dall’indipendenza delle logiche procedurali da piattaforma tecnologica e organizzazione aziendale. Moduli ERP I vari ERP integrano alcuni processi basilari messi rilievo dalle best practice, tra questi: - amministrazione - logistica - vendite - acquisti - produzione - pianificazione delle risorse - personale Sistemi informazionali I sistemi informazionali sfruttano il patrimonio dei dati per identificare le informazioni utili al processo decisionale seguendo la logica del decisore e fornendo la possibilità di visioni diversamente integrate dei dati. L’attività di Business Intelligence dei sistemi informazionali è volta a estrarre informazioni dai dati di business Le tecnologie a supporto delle attività di BI si sono sviluppate grazie al ricorso a sistemi di analisi interattivi come On Line Analytical Processing (OLAP) e di data mining, che operano sulla base di dati informazionale denominata Data Warehouse (DW) e orientati al cosiddetto knowledge discovery. Terminologia sistemi informazionali Nell’ambito dei sistemi informazionali sono d’uso corrente i seguenti termini: - Data Warehouse: base di dati informazionale che raccoglie in un unico “magazzino” (warehouse) tutti i dati di interesse per l’azienda - Data Warehousing: insieme di attività che porta alla definizione, costruzione e mantenimento della struttura delle informazioni del DW - Decision Support System (DSS): sistemi informatici che estraggono informazioni per il supporto al processo decisionale - Data mining: insieme di strumenti e tecniche per estrarre dai dati informazioni nascoste (spesso relazioni non immediate) - Knowledge management: insieme di competenze e conoscenze che una persona porta in azienda e dei dati reperibili online. È un fattore cruciale nell’utilizzo dei DW. Data Warehouse Il Data Warehouse descrive il processo di acquisizione, trasformazione e distribuzione di informazioni presenti all’interno o all’esterno delle aziende. Al contrario dei normali sistemi gestionali non automatizza le operazioni di routine. Introduce il concetto di TOTALE INDIFFERENZA rispetto alle caratteristiche architetturali dei sistemi transizionali e alla dislocazione fisica dei dati nei diversi database. Costituzione Data Warehouse Il DW può essere costruito secondo modalità differenti che influenzano l’architettura dei sistemi. I sistemi DW sono solitamente costituiti da: - data warehouse vero e proprio, il database che mantiene le informazioni; - procedure che utilizzano il DW, il risultato finale si ricava dai sistemi DW solitamente grazie a strumenti di data mining come gli analizzatori OLAP. Data mining I sistemi di data mining portano alla luce informazioni nascoste nei dati. Trattano un’enorme quantità di dati, svolgendo le seguenti elaborazioni: - ricerca degli schemi che si ripetono - associazione tra i dati - cluster, dati distribuiti attorno a particolari valori - singolarità, dati che si discostano dalla maggioranza - tendenze Il concetto di data mining è correlato alla solidità del sistema di DW, è pertanto INDISPENSABILE disporre e utilizzare tecniche di gestione di strutture DW per riuscire a sfruttare appieno la strategia di data mining. Sistemi operazionali e informazionali L’informazione analitica si differenzia in modo marcato dall’informazione operazionale. Sistemi operazionali Sistemi informazionali - Fine: esecuzione operazioni di routine - Fine: descrivere il passato, identificare i - Dati: articolati attorno a funzioni, procedure ed eventi problemi e le cause, suggerire cambiamenti per il futuro - Utenti: personale esecutivo - Dati: le informazioni riguardano il soggetto (individuali o collettivi) - Lavoro: aggiornamento/inserimento giornaliero dei dati - Utenti: livello decisionale. - Lavoro: cogliere le relazioni tra i dati Queste differenze tra i dati dei due sistemi rendono le basi di dati progettate per l’uno inservibili per l’altro. Evoluzione dell’ERP Oggi è sempre più importante far convergere le funzionalità dei sistemi operazionali e le funzionalità dei sistemi informazionali. Le aziende si sono accorte dell’importanza di trasferire la prospettiva aziendale dall’interno verso l’esterno; l’efficienza interna non è più l’unico fattore determinante. Risulta cruciale poter interagire con i propri partner condividendo i processi aziendali interni agli attori esterne. Da catena del valore si è giunti al sistema del valore, in cui l’azienda è una parte della catena composta da tutti i soggetti che aggiungono valore in diverse fasi del processo. ERP esteso Oggi si è di fronte a una configurazione complessa che all’importanza dell’organizzazione interna all’azienda affianca la necessità di dover gestire l’iterazione fra moduli ERP estesi appartenenti a suite ERP eterogenee dal punto di vista tecnologico. L’ERP esteso è molto complesso. Dallo schema si evince come i moduli ERP estesi fungano da anello di congiunzione tra le catene del valore dell’azienda e quelle dei soggetti che a essa si interfacciano. Customer Relationship Management Il modulo CRM (Customer Relationship Management) supporta lo schema ERP esteso rappresentando, come gli altri moduli delle schema, l’iterazione con i soggetti con cui l’azienda si interfaccia durante i processi di Business. Il CRM è dedicato a gestire i flussi informativi relativi alle attività commerciali, di marketing e post-vendita. Ha come elemento centrale il cliente e la sua fidelizzazione. Permette l’analisi dei processi di vendita per la consultazione di informazioni sui clienti attuali e potenziali. Il CRM è una strategia di business il cui scopo è la costruzione di relazioni personalizzate di lungo periodo con il cliente. Permette di capire e anticipare i bisogni dei clienti. Marketing e CRM Dal punto di vista tecnologico il CRM coinvolge: - individuazione e cattura dati clienti in tutta l’azienda - consolidamento di questi dati in un database centrale (Customer Database) - analisi dati per individuare informazioni - distribuzione dei risultati ottenuti a tutta l’organizzazione - utilizzo di queste informazioni nelle relazioni con il cliente. A differenza del marketing tradizionale, il CRM punta a preservare il cliente attraverso una strategia a medio-lungo termine. Componenti sistema CRM Nel CRM si possono individuare due macro aree funzionali: - CRM operativo: supporta le attività quotidiane di interazione con il mercato - CRM analitico: detto anche CRM intelligence, applica le nuove logiche e indicatori del marketing relazionale sui dati integrati dei clienti al fine di generare nuove azioni di contatto della clientela, personalizzate e tempestive. Le due aree devono essere integrate al meglio e creare un ciclo iterativo continuo tra loro. Il CRM analitico comprende: - strumenti di reporting - strumenti di analisi - strumenti di simulazione Restanti moduli di iterazione: SCM La Supply Chain (SC, catena di fornitura) è l’insieme di tutte le attività riguardanti la creazione di un bene, dalle materie prime al prodotto finale, nonché la gestione dei sistemi informativi per il controllo di tutte queste attività. Il SCM è una filosofia di gestione che coordina e integra tutte le attività della SC in un processo omogeneo. Unisce tutti i partner della filiera produttiva, sia interni sia esterni, focalizzandosi su come sfruttare al meglio la tecnologia e le competenze per aumentare il vantaggio competitivo. Restanti moduli di iterazione: PLM L’innovativo modulo PLM (Product Lifecycle Management), o gestione del ciclo di vita del prodotto, garantisce nuove forme di collaborazione interaziendale. Permette di seguire COLLABORATIVAMENTE il ciclo di vita del prodotto. Tutta la documentazione è condivisa, fornendo gli strumenti strategici e operativi volti a monitorare l’impatto di eventuali variazioni gamma o di produzione sui costi, le risorse coinvolte e le tempistiche di sviluppo. IL PLM rappresenta quindi un nuovo approccio integrato di business che realizza una gestione integrata, collaborativa e cooperativa delle informazioni del prodotto lungo le diverse fasi del suo ciclo di vita. Restanti moduli di iterazione: BI Il modulo di Business Intelligence (BI), che a differenza dei precedenti (CRM, SCM, PLM) non appartiene né al sistema ERP core né al sistema ERP esteso, supporta comunque il processo della definizione delle linee strategiche. La novità del BI risiede nella possibilità di supportare il processo decisionale tramite analisi multidimensionali dei dati. Queste analisi permettono di simulare scenari di business da condividere internamente ed esternamente all’azienda. Approccio al data warehousing Il data warehousing rappresenta l’insieme di metodi, tecnologie e strumenti per condurre analisi dei dati finalizzate all’attuazione di processi decisionali e al miglioramento del patrimonio informativo. Abbiamo visto che un DW è una collezione di dati statici integrati, organizzata per soggetti, che riguarda una serie di fatti accaduti nel tempo e finalizzata al recupero di informazioni a supporto di processi decisionali. I dati provengono da “sorgenti informative” differenti; il DW riconcilia questa eterogeneità rappresentando tutti i dati mediante un unico modello e portando a: - uniformità dei nomi utilizzati - codifica comune - rappresentazione conforme dei record per la rappresentazione dei dati Caratteristiche garantite dal DW Il processo di costruzione di un DW deve garantire le seguente caratteristiche: - accessibilità a utenti con poca dimestichezza con informatica e database - integrazione dei dati su modello standard dell’impresa - flessibilità di interrogazione per trarre il massimo vantaggio dal patrimonio informativo esistente - sintesi per permettere analisi mirate ed efficaci - rappresentazione multidimensionale per una visione intuitiva ed efficacemente manipolabile delle informazioni - correttezza e completezza dei dati integrati Cuore del processo è il data warehouse come contenitore di dati che si fa garante dei requisiti appena esposti. DW come supporto al processo decisionale La collezione di dati che il DW rappresenta diviene un supporto al processo decisionale, incentrato sui seguenti aspetti: - è orientato ai soggetti di interesse - è integrato e consistente - è rappresentativo dell’evoluzione temporale - è resiliente, cioè adattabile e flessibile ai nuovi comportamenti Compiti del DW Compito del DW è quindi consolidare i dati e metterli a disposizione. Per essere utilizzati senza conseguenze sulle performance del sistema gestionale e migliorare l’identificazione del target di utenza, i dati estratti dai vari processi devono essere: - sommarizzati (riepilogati) - omogeneizzati (resi consistenti) - trasferiti a un sistema progettato per il supporto decisionale Utenti del DW Chiunque si trovi in un’azienda o organizzazione che sia rivolta alla soddisfazione del cliente è un possibile utilizzatore di un sistema DW. Gli utilizzatori di un DW si distinguono in: - Utenti casuali (casual user), per cui sono sufficienti analisi predefinite - Analisti (business analyst), utilizzano le analisi per individuare i trend di mercato ma non possiedono conoscenze tecniche per costuire i propri record - Utenti esperti (power user), possiedono le conoscenze per costruirsi le proprie interrogazioni - Professional, costruiscono i report per casual user e analisti L’OLTP di Edgar Codd Negli anni ‘80 E. Codd coniò il termine OLTP (On-Line Transaction Processing). I sistemi operazionali costituiscono l’infrastruttura informatica su cui poggia l’attività esecutiva (progettazione, produzione, vendita di prodotti ed erogazione di servizi, ma anche attività di supporto come amministrazione, pianificazione e controllo operativo). Un sistema operazionale è una base di dati su cui agiscono procedure di aggiornamento, interrogazione ed elaborazione. L’OLTP si è rivelato carente da diversi punti di vista: - nella produzione di dati di sintesi - nella possibilità di interrogare facilmente il database - nella disponibilità di dati fondamentali per il processo decisionale - nella coerenza del sistema - nella velocità di risposta alle interrogazioni - nella copertura temporale La regola FASMI Nel 1993 Codd scrisse un articolo dal titolo Providing OLAP (On-Line Analytical Processing) to user analyst in cui proponeva le regole per definire una metodologia OLAP, tali regole NON vennero mai prese in considerazione. Nel 1995 l’OPAL Report propose nuove regole e una semplice formula per definire la cosiddetta regola FASMI: - Fast: tempi di risposta veloci - Analytical: deve elaborare analisi statistiche in maniera semplice per l’utente - Shared: deve fornire regole per la sicurezza, al fine di garantire la riservatezza dei dati - Multidimensional: è il requisito PIÙ IMPORTATE e permette la rappresentazione dei dati in multidimensione -Informational: deve contenere tutte le informazioni necessarie indipendentemente da dove esse siano immagazzinate Per ottenere le caratteristiche FASMI si usano varie tecnologie, per esempio architetture client-server o metodi di calcolo parallelo. OLTP e OLAP Le interrogazioni OLTP eseguono transazioni che leggono e scrivono un ridotto numero di record da diverse tabelle legate da semplici relazioni. Il nucleo sostanziale del carico di lavoro è concentrato all’interno dei programmi applicativi. Le interrogazioni OLAP, invece, effettuano un’analisi dinamica e multidimensionale che richiede la scansione di una vasta quantità di record per calcolare un insieme di dati numerici di sintesi che qualifichino le prestazioni dell’azienda. Le principali differenze tra i due sistemi sono: Requisiti del data warehousing La struttura di un DW deve garantire alcuni requisiti che, a loro volta, devono soddisfare le condizioni di utilizzo dello stesso database rispetto agli utenti interessati; fra queste evidenziamo le principali: - Separazione tra elaborazione analitica e elaborazione transazionale - Scalabilità dell’architettura hardware e software a fronte della crescita del tempo dei volumi di dati da gestire ed elaborare e del numero di utenti - Estendibilità del sistema con nuove applicazioni e tecnologie - Sicurezza degli accessi, fattore essenziale della natura dei dati - Agevolezza amministrativa L’operazione di raccolta e incasellamento di dati eterogenei in un unico modello è il passaggio cruciale su cui fondare la strategia architetturale di un DW. Data mart Il DW per completezza e profondità storica può raggiungere dimensioni elevate e spesso contenere dati che a qualcuno potrebbero NON servire. Al fine di ridurre la complessità viene utilizzato un data mart, una sorta di DW tematico che contiene solo i dati riguardanti una certa area di indagine. Un DW genera differenti data mart in relazione alle esigenze aziendali. Architettura a 1 livello L’architettura a 1 livello rappresenta l’approccio più semplice in cui, fra i dati operazionali (livello delle sorgenti) e gli strumenti del livello di analisi esiste uno strato intermedio (middleware) il cui compito è strettamente legato alla rappresentazione informazionale dei dati all’interno del DW vero e proprio. NON prevede data mart. Architettura a 2 livelli Nell’architettura a 2 livelli il DW viene alimentato attraverso processi di Extraction, Trasformation and Loading (ETL) dai dati provenienti da strutture eterogenee. I data mart generati a partire dal DW primario sono detti dipendenti. Tale soluzione si colloca in realtà aziendali medio-grandi in cui i data mart divengo utili: - come blocchi costruttivi durante la realizzazione incrementale del DW - in quanto delineano le informazioni necessarie a un particolare utente per le sue interrogazioni - poiché permetto prestazioni migliori In alcuni casi si preferisce adottare data mart indipendenti, alimentati direttamente dalle sorgenti. Tale soluzione porta all’assenza di un DW primario con fasi progettuali snelle ma complesso schema di accessi ai dati e rischio di inconsistenze tra i data mart. Architettura a 3 livelli Nell’architettura a 3 livelli, il livello di alimentazione passa attravero la riconciliazione dei dati; tale fase prevede un pulitura (inserimento dati mancanti, eliminazione di quelli duplicati, eliminazione valori errati o inconsistenti ecc.) dei dati da inserire nel DW. Il vantaggio principale del livello dei dati riconciliati è che esso crea un modello di dati comune e di riferimento per l’intera azienda, introducendo al contempo una separazione netta tra le problematiche legate all’estrazione e integrazione dei dati dalle sorgenti e quelle inerenti l’alimentazione del DW. D’altro canto, i dati riconcilianti introducono un’ulteriore ridondanza rispetto ai dati operazionali sorgente. Le fasi ETL Il ruolo degli strumenti ETL (Extraction, Transformation and Loading) è quello di alimentare una sorgente dati singola, esauriente, dettagliata e di alta qualità che possa a sua volta alimentare il DW. Durante il processo di alimentazione del DW, la riconciliazione avviene in due occasioni: - quando il DW viene riempito per la prima volta - periodicamente, quando il DW viene aggiornato Gli strumenti ETL sono riconducibili all’interno delle seguenti fasi: - estrazione - pulitura - trasformazione - caricamento Estrazione Nella fase di estrazione i dati rilevanti vengono estratti dalle sorgenti. L’estrazione statica viene effettuata quando il DW deve essere popolato per la prima volta. Consiste in una fotografia dei dati operazionali L’estrazione incrementale, invece, viene usata per l’aggiornamento periodico del DW. Cattura solo i cambiamenti avvenuti nelle sorgenti dall’ultima estrazione. Pulitura La pulitura rappresenta una fase delicata in quanto determina il miglioramento della qualità dei dati delle sorgenti. Le principali operazioni di pulitura interessano: - dati duplicati - inconsistenza tra valori logicamente associati - dati mancanti - uso non previsto in un campo - valori impossibili o errati - valori inconsistenti per la stessa entità, dovuti a differenti convenzioni - valori inconsistenti per la stessa entità, dovuti a errori di battitura Trasformazione La trasformazione converte i dati dal formato operazionale sorgente a quello del DW. La corrispondenza con il livello sorgente è complicata dalla presenza di fonti eterogenee. Per quanto riguarda l’alimentazione di dati riconciliati, i passi da tenere in considerazione sono: - conversione e normalizzazione - matching - selezione - aggregazione Caricamento L’ultimo compito spetta al caricamento dei dati nel DW che può avvenire attraverso due differenti modalità: - refresh i dati sono riscritti sostituendoli ai precedenti - update i soli cambiamenti occorsi nei dati sorgente vengono aggiunti nel DW. La fase di caricamento deve tenere conto di un aspetto FONDAMENTALE, quello legato alle dimensioni dei volumi e alla struttura fisica del DW. Il fatto nel modello multidimensionale L’accuratezza delle fasi ETL determina la qualità dei dati. I dati di un DW sono presentati all’utente finale attraverso una rappresentazione ad alto livello che organizza i dati per aree di interesse e memorizzati su uno schema basato sul modello concettuale noto come modello multidimensionale. Il modello multidimensionale è il fondamento per la rappresentazione e l’interrogazione dei dati nei DW. La prima nozione alla base del modello multidimensionale è il fatto il quale: Descrive un concetto del sistema informativo aziendale sul quale ha senso svolgere un processo di analisi orientato al supporto alle decisioni Rappresentazione grafica modello multidimensionale Nella rappresentazione grafica del modello multidimensionale i fatti sono rappresentati da cubi multidimensionali (data cube), costituiti da elementi atomici chiamati celle. Un cubo multidimensionale è incentrato su un fatto e al suo interno: - ogni cella contiene le misure che quantificano il fatto da differenti punti di vista, tipicamente è un attributo numerico - ogni asse rappresenta un dimensione di interesse per l’analisi, è quindi una particolare prospettiva lungo la quale l’analisi di un fatto può essere condotta. Analizziamo un esempio: Fatto: vendita di articoli di un’azienda commerciale che dispone di una catena di supermercati; si vogliono stabilire le misure in termini di quantità e costi di un articolo venduto in un certo periodo di tempo in un determinato supermercato ubicato in uno specifico luogo. Il fatto nella sua interezza L’esempio appena analizzato circoscrive specifici valori di misure, il fatto però è espressione di molteplici valori, pertanto: Il cubo visto nell’esempio è solo uno dei tanti cubi che costituiscono il fatto. Il fatto vendita sarà, infatti, così rappresentato: Cubi e ipercubi In realtà le dimensioni di analisi potrebbero essere più di tre, per esempio le vendite potrebbero essere analizzate considerando anche le tipologie dei clienti, in questo caso si viene a creare un ipercubo: Gerarchie delle dimesioni Il modello multidimensionale è simile a quello degli array multidimensionali con l’unica differenza che: se negli array l’accesso è garantito da indici con ordine lineare, nel modello multidimensionale sugli indici potrebbe non essere definito un ordine. È però possibile definire un ordine parziale attraverso le gerarchie delle dimensioni. La gerarchia di una dimensione dipende dal modo in cui la dimensione stessa è organizzata e da come si intende passare da una visione di dettaglio a una più generica e viceversa. L’esempio in figura mostra un eventuale gerarchia della dimensione prodotto in termini di categoria –> tipo –> prodotto.