Lezione 1 Introduzione al Data Warehousing Data Warehousing: Principi e Modelli 27/02/2010 1 Motivazioni I dati disponibili ad un’organizzazione sono spesso memorizzati su sorgenti informative pre-esistenti e differenziate Collezioni eterogenee di ambienti hardware e software 27/02/2010 Modelli logici differenti Linguaggi di definizione e di manipolazione dei dati differenti Meccanismi di gestione della concorrenza e delle transazioni eterogenei 2 Informazione Distribuita È necessario garantire la massima trasparenza per gli utenti finali È necessario garantire la massima autonomia alle basi di dati coinvolte Trasparenza ed autonomia sono molto spesso in conflitto Al fine di raggiungere una elevata efficienza è necessario minimizzare le interazioni tra i componenti Cooperazione: garantire la massima trasparenza, autonomia ed efficienza 27/02/2010 3 Informazione Distribuita: Problemi Gli schemi delle basi di dati da integrare possono essere differenti Automobili(numTelaio, modello, colore, cambioAutomatico, lettoreCD, …) Autovetture(nTelaio, modello, colore) Optional(nTelaio, optional) Nomi diversi possono essere utilizzati per rappresentare lo stesso concetto (sinonimie) Nomi uguali possono essere utilizzati per rappresentare concetti diversi (omonimie) 27/02/2010 4 Informazione Distribuita: Problemi Differenze nel tipo di dati Differenze nei valori Differenze nella semantica Valori mancanti 27/02/2010 5 Informazione Distribuita: Problemi La quantità di dati disponibili rende la loro interpretazione ai fini della gestione dei processi organizzativi spesso complessa, se non impossibile, con strumenti tradizionali Spesso i dati non vengono utilizzati Decisioni importanti vengono prese senza sfruttare tutte le informazioni disponibili È necessario cercare di colmare il gap tra dati e informazioni estraendo informazioni utili dai dati disponibili 27/02/2010 6 Informazione Distribuita: Soluzioni Database Distribuiti Sistemi Informativi Federati vi sono più sorgenti indipendenti; ciascuna può richiedere alle altre informazioni Sistemi Informativi Cooperativi vi è un unico DBMS ma i dati sono distribuiti su più siti le sorgenti sono indipendenti; al di sopra di esse vi è un componente software che supporta un database virtuale che l’utente può interrogare come se lo stesso fosse materializzato Data Warehousing 27/02/2010 le copie dei dati provenienti da sorgenti differenti sono memorizzate in un singolo database integrato, denominato Data Warehouse, dedicato al supporto delle decisioni 7 Database distribuiti Il DBMS è unico; i dati sono però memorizzati (ed, eventualmente, replicati) su più siti In questo modo si massimizza la trasparenza ma si annulla l’autonomia Possibili forme di distribuzione dei dati nei siti: 27/02/2010 Replicazione Frammentazione Replicazione e Frammentazione 8 Database distribuiti: Problemi L’integrazione completa dei sistemi esistenti in un database omogeneo è spesso difficile per: difficoltà tecniche: costo di conversione alto difficoltà organizzative: i DBMS esistenti appartengono a diversi dipartimenti o organizzazioni Generalmente, nell’effettuare l’informatizzazione di un’organizzazione complessa, emerge sempre la necessità di garantire un alto grado di autonomia ai singoli dipartimenti Negli ultimi anni questo trend si è via via sempre più consolidato 27/02/2010 9 Sistemi Federati Connessioni uno-ad-uno tra tutte le coppie di sorgenti informative IS-j può interrogare IS-i utilizzando il linguaggio e le modalità che quest’ultimo è in grado di comprendere Problema: con n sorgenti informative è necessario scrivere n(n-1) porzioni di codici di traduzione Tale architettura è adeguata quando le comunicazioni nel sistema avvengono prevalentemente tra singole coppie di sorgenti o quando il numero delle sorgenti coinvolte è piccolo 27/02/2010 10 Altre soluzioni Sistemi cooperativi: risolvono solo il problema dell’accesso trasparente all’informazione DWs 27/02/2010 danno valore aggiunto all’informazione disponibile, fornendo ulteriori servizi informativi che vanno al di là del mero accesso trasparente all’informazione 11 Introduzione al Data Warehousing Dati rappresentazione digitale di informazioni Informazione rappresentazione di porzioni di un dominio applicativo così come percepito dagli utenti finali “business contextualized data” 27/02/2010 12 Introduzione al Data Warehousing Problemi da affrontare / Requisiti: Accedere facilmente alle informazioni necessarie anche con conoscenze informatiche limitate: Accessibilità Estrarre l’informazione di interesse da basi di dati operazionali eterogenee a disposizione: Integrazione Decidere in qualunque momento quali analisi condurre: Flessibilità di interrogazione 27/02/2010 13 Introduzione al Data Warehousing Problemi da affrontare / Requisiti: Mostrare all’utente l’informazione al livello di dettaglio desiderato: Sintesi Fornire una visione intuitiva e manipolabile delle informazioni: Rappresentazione multidimensionale Correttezza e Completezza 27/02/2010 14 Introduzione al Data Warehousing Data Warehouse (magazzino di dati) Garante dei requisiti per un DSS Orientato ai soggetti Integrato e Consistente Rappresentante dell’evoluzione temporale (dati permanenti) Finalizzato ai processi decisionali 27/02/2010 15 Introduzione al Data Warehousing L’idea alla base dello sviluppo dei Data Warehouse consiste nell’osservazione che le esigenze di processi operativi processi decisionali sono profondamente diverse e che sia quindi sbagliato tentare di soddisfarle tutte con uno stesso ambiente operativo 27/02/2010 Master IFM 16 Introduzione al Data Warehousing Data Warehouse (caratteristiche) Nessun inserimento nuova informazione Riorganizzazione informazione esistente Analisi su archi temporali molto lunghi Aggiornamenti “a freddo” Gestione transizioni non richiesta 27/02/2010 17 Introduzione al Data Warehousing Processi Operativi Dati attuali Dati elementari Inserimento, cancellazione, lettura Spazi di occupazione contenuti Applicazioni precostituite Processi Decisionali Dati attuali e storici Dati elementari ed aggregati Aggregazioni, lettura Spazi di occupazione crescenti Report, analisi, navigazione 27/02/2010 18 Introduzione al Data Warehousing OLTP On-Line Transactional Processing Tipico dei DB-Operazionali Dati dettagliati, aggiornati e recenti Ridotto numero di record interessati Interrogazioni semplici Indispensabile sofisticata gestione transizioni 27/02/2010 19 Introduzione al Data Warehousing OLAP On-Line Analytical Processing Tipico dei Data Warehouse Dati storici e aggregati Basi di dati multiple ed eterogenee Grande quantità di record interessati Interrogazioni complesse ma non updates 27/02/2010 20 Introduzione al Data Warehousing Sistemi “Operazionali” orientati alle transazioni memorizzano dati “realtime” transazioni semplici ottimizzati su un insieme di transazioni predefinite sono utilizzati da personale che trattano dati “individuali” 27/02/2010 Sistemi “Informazionali” utilizzati per controllo di gestione dati storicizzati ottimizzati per le interrogazioni il loro utilizzo è largamente non prevedibile utilizzati dal management ed altri utenti finali per capire andamenti aziendali e poter decidere 21 Introduzione al Data Warehousing DB-Operazionali Data Warehouse Utenti Impiegati Dirigenti Accesso Pochi record (R/W) Molti record (R) Funzione Operatività gionaliera Supporto alle decisioni Qualità Integrità Consistenza Arco temporale Dati correnti Dati correnti e storici Aggiornamenti Continui Periodici Lavoro Transazione Breve Interrogazione Complessa Modello Normalizzato Denormalizzato Ottimizzazione Per accessi OLTP Per accessi OLAP 27/02/2010 22 Introduzione al Data Warehousing Riassumendo: Sistemi operazionali: Sistemi informazionali: 27/02/2010 Gestione real-time dei processi aziendali (produttivi e non) Gestiscono dati di tipo real-time Progettati per eseguire efficientemente centinaia di piccole transazioni predefinite di tipo read/write Supporto alla gestione (qui e di seguito inteso in senso lato) Basati sulla “registrazione” della storia della realtà aziendale Progettati per eseguire efficientemente interrogazioni complesse non necessariamente pre-definite 23 Introduzione al Data Warehousing Nel Data Warehouse il significato di un dato deve essere concorde a livello aziendale e definito con precisione in termini informatici. Sistemi Operazionali Data Warehouse Appl A – Descrizione 1 Appl B – Descrizione 2 Appl C – Descrizione 3 Appl A – m,f Appl B – 1,0 Appl C – x,y Appl A – Date(yymmdd) Appl B – Data(mmddaa) Descrizione Popolamento m,f Data(ddmmyy) Appl C – Data (assoluta) 27/02/2010 24 Introduzione al Data Warehousing Data Warehouse Ambiente Operativo 27/02/2010 Back end DBMS Front end utenti 25 Introduzione al Data Warehousing Sviluppo spinto da una doppia esigenza delle organizzazioni: Necessità di una visione complessiva delle informazioni Necessità di un abbattimento dei costi di gestione delle informazioni Considerate singolarmente le due esigenze non avrebbero determinato questa spinta 27/02/2010 26 Introduzione al Data Warehousing Determinato dalla disponibilità di strumenti che hanno abbattuto i costi di sviluppo Determinato dall’accettazione diffusa della centralità del bene informazione come vantaggio competitivo Difficoltà primaria / vantaggio primario: ottenimento di una visione univoca ed integrata dei dati 27/02/2010 27 Introduzione al Data Warehousing Esempio compagnia aerea che, incrociando dati relativi ai frequent flyers ed alla vendita di biglietti è in grado di ottenere migliori risultati dalle campagne promozionali I gestori percepiscono la necessità di accedere in maniera flessibile all’intero patrimonio informativo disponibile e la tecnologia è matura per fornire gli strumenti adatti a questo scopo Tuttavia i problemi di integrazione da soli non giustificano lo sviluppo di un DW Uno studio calcola nel 321% in ROI medio dei progetti di DW per organizzazioni medio-grandi, con un periodo medio di payback pari a 2.73 anni 27/02/2010 28 Introduzione al Data Warehousing Il principale vantaggio dei DW risiede nel fatto che essi consentono di utilizzare le informazioni disponibili in maniera innovativa e non completamente prefigurabile 27/02/2010 29 Introduzione al Data Warehousing In ogni caso, e com’è ovvio, un DW non rappresenta una panacea a tutti i problemi di trattamento dati di un’organizzazione 27/02/2010 30 Introduzione al Data Warehousing Le difficoltà tecniche dello sviluppo di DW “enterprise-wide” hanno relativamente frenato la diffusione dei DW Accelerazione significativa negli ultimi anni Forte spinta verso l’espansione dell’insieme dei soggetti fruitori di informazione 27/02/2010 31 Introduzione al Data Warehousing L’“Information-based management” si caratterizza oggi nei seguenti punti: Unica sorgente informativa: Distribuzione dell’informazione: 27/02/2010 esigenza di riconciliazione e ripulitura dei dati l’informazione deve poter essere utilizzata ai diversi livelli di responsabilità decisionale nel formato più appropriato 32 Introduzione al Data Warehousing Informazione adattata alle esigenze decisionali “Consegna” automatica di nuova informazione Qualità e protezione dell’informazione: l’informazione è bene primario dell’organizzazione la sua qualità deve essere garantita deve essere correttamente protetta 27/02/2010 33 Introduzione al Data Warehousing A questo livello vi sono le applicazioni per il supporto alle decisioni popolamento BIG DW catalog Enterprise model 27/02/2010 34 Introduzione al Data Warehousing tecnologie introdotte nelle organizzazioni “una per volta” naturale sedimentazione storica delle applicazioni possibilità un tempo limitata di condurre progetti di sviluppo altamente integrati Frammentazione ed inconsistenza tra dati utilizzati da applicazioni diverse NOTA: la frammentazione non è di per sé negativa, consentendo sviluppo veloce di applicazioni basate su funzioni 27/02/2010 35 Introduzione al Data Warehousing ambiente applicativo: forgiato sulla base delle “funzioni” da erogare (es. Vendita di un prodotto) e modellabile come un insieme di attività “semplici” definizione di domini di dati differenti, uno per ogni applicazione applicazione: 27/02/2010 insieme di funzioni che l’utente percepisce essere tra loro collegate (e forse sviluppate in maniera integrata) i relativi domini di dati sono consistentemente percepiti come insiemi integrati e tra loro disgiunti 36 Introduzione al Data Warehousing il problema principale resta quello delle inconsistenze di rappresentazione di uso risolvibile solo parzialmente nell’ambiente operazionale peggiorato dall’enorme diffusione dell’informatica personale 27/02/2010 37 Introduzione al Data Warehousing In realtà....... Le applicazioni operazionali sono per loro natura “basate su funzioni” e, perciò, il problema delle inconsistenze relative è di fatto intrinseco ad esse 27/02/2010 38