Anno Accademico 2010/2011 Sistemi Informativi Avanzati Corso di Laurea Magistrale in Ingegneria Gestionale Prof. Domenico Beneventano [email protected] Introduzione 1 Obiettivi Il corso si propone di fornire all'allievo le nozioni fondamentali riguardanti i sistemi informativi avanzati, con particolare riferimento alla progettazione ed implementazione di un Data Warehouse e di strumenti per l’analisi dei dati. Introduzione 2 Organizzazione dell’insegnamento 9 CFU = 81 ore 13 settimane di lezione 60 ore (circa 3/4 del corso) di lezioni ed esercitazioni in aula – 13 * 4 ore (lunedì e mercoledì) = 52 – 3 * 3/2 ore (venerdì delle prime tre settimane) = 8 21 ore (1/4 del corso) di lezioni ed esercitazioni in laboratorio – 7 * 3 ore (venerdì delle settimane successive alla terza) Le altre ore del venerdì verranno utilizzate per eventuali recuperi Introduzione 3 Modalità d’esame L’esame è costituito dalle seguenti prove 1. Prova scritta (obbligatoria) 2. Prova pratica di laboratorio (obbligatoria) 3. Prova orale (facoltativa) Nella valutazione finale la prova scritta avrà un peso pari a 2/3 e la prova pratica di laboratorio pari ad 1/3: voto finale = (2* voto prova scritta + voto prova laboratorio)/3 Prova scritta e Prova di laboratorio in giorni distinti Nessun ordine cronologico tra Prova scritta e Prova di laboratorio La prova orale si può sostenere alla fine della Prova di Laboratorio o in una data concordata con il docente Introduzione 4 Modalità d’esame Prova scritta, a fine corso (durata = 2 ore): Progettazione concettuale di un Data Warehouse Progettazione logica di un Data Warehouse Alimentazione di un Data Warehouse (SQL) Interrogazione di un Data Warehouse (SQL-OLAP) Domanda «teorica» Prova pratica di laboratorio, a fine corso (durata = 1 ora): Database multidimensionali (cubi OLAP) con Analysis Services Interrogazioni MDX per Database multidimensionali Prova orale facoltativa Tratta tutti gli argomenti del corso Influisce sul voto finale al massimo di ± 3 Introduzione 5 Materiale Didattico Dispense del docente sul sito del corso www.dbgroup.unimo.it/SIA/ (verranno rese disponibili anche in copisteria). Per la parte di Data Warehousing le dispense sono state ottenute da quelle del Prof. Stefano Rizzi (http://www-db.deis.unibo.it/~srizzi/) tratte dal libro Data Warehouse - teoria e pratica della Progettazione Autori: Matteo Golfarelli, Stefano Rizzi Editore: McGraw-Hill Introduzione 6 Materiale didattico DBMS Microsoft SQL-SERVER 2000 – È disponibile in laboratorio – Verrà distribuito agli studenti - durante i primi incontri in laboratorio oppure contattando il docente come macchina virtuale di VIRTUALBOX 1. Installare VIRTUALBOX ultima versione da http://www.virtualbox.org/ 2. Copiare la macchina virtuale sul proprio PC (è di circa 1.4 GB ) 3. Attivare da VIRTUALBOX la macchina virtuale Uso e scopo di SQL-SERVER 2000 – per provare le query SQL e SQL-OLAP della prova scritta per preparare la prova pratica di laboratorio che verrà fatta appunto su SQL-SERVER 2000 utilizzando Analysis Services e l’applicazione per interrogazioni MDX (si deve consegfnare un database OLAP e le interrogazioni MDX) Sistemi Informativi e Basi di Dati 7 L’informatica in azienda ... Dall’introduzione di Sistemi Informativi: Un sistema informativo è un componente di una organizzazione il cui scopo è gestire (acquisire, elaborare, memorizzare, produrre, distribuire) le informazioni utili per gli scopi dell’organizzazione stessa. La gestione delle informazioni con strumenti informatici avviene normalmente tramite una Base di Dati, che è una collezione di dati che rappresentano le informazioni di interesse per un’organizzazione. Introduzione 8 ... L’informatica in azienda La funzione svolta dai sistemi informativi (ed in particolare dalle basi di dati) in ambito aziendale è stata fino a qualche anno fa solo quella di memorizzare dati operazionali, ossia dati generati da operazioni svolte all’interno dei processi gestionali L’informatica è vista come una scienza di supporto che permette di rendere più rapide ed economiche le operazioni di gestione delle informazioni ma che non crea di per sé ricchezza Introduzione 9 L’evoluzione dei sistemi informativi Il ruolo dei Sistemi Informatici è radicalmente cambiato dai primi anni ’70 a oggi. I sistemi informatici si sono trasformati da semplici strumenti per migliorare l’efficienza dei processi a elementi centrali dell’organizzazione aziendale in grado di rivoluzionare la struttura dei processi aziendali. Il duplice ruolo dell’informatica Tecnologia di supporto alla gestione del Sistema Informativo Disciplina organizzativa che influenza i processi, servizi e struttura aziendale Introduzione 10 Il portafoglio applicativo Portafoglio direzionale ERP CRM Portafoglio istituzionale Portafoglio operativo Amministrazione Gestione risorse umane Altri processi di supporto CIM Introduzione 11 Il portafoglio istituzionale E’ l’insieme delle applicazioni informatiche per i processi di supporto, quali amministrazione, gestione delle risorse umane, contabilità A partire dagli anni Novanta il portafoglio istituzionale è generalmente compreso nell’ERP ERP (Enterprise Resource Planning) – gestione integrata della applicazioni a supporto della produzione, dei processi di vendita e distribuzione fisica – rappresentano una evoluzione dei pacchetti MRP (Manufacturing Resourse Planning) finalizzati generalmente alla sola produzione e gestione dei materiali Introduzione 12 Il portafoglio operativo Comprende le applicazioni informatiche utilizzate dai processi primari della catena del valore ed è specifico di ciascun settore industriale. Per le imprese manufatturiere in generale prevede: CIM (Computer Integrated Manufacturing) - dal 1980 circa – Integrazione tra informatica di processo e informatica gestionale CRM (Customer Relationship Management) - dal 1995 circa – Pacchetti integrati per l’intero ciclo sul cliente: vendite via agenti, Web e call Center, marketing, customer care, fatturazione e simili E-procurement - dal 1995 circa – Pacchetto per l’intero ciclo di acquisto: ricerca e catalogo, gestione del processo via workflow, asta, electronic market place Introduzione 13 Il portafoglio direzionale Insieme delle applicazioni informatiche a supporto dei cicli di pianificazione strategica e di pianificazione e controllo delle risorse aziendali Utilizzato dai manager aziendali per: – Analizzare lo stato dell’azienda – Prendere decisioni rapide – Prendere le decisioni migliori Si parla anche di piattaforma per la Business Intelligence, ossia… Disciplina che consente a chi deve decidere in azienda di capire, attraverso soluzioni software, i fattori chiave del business e conseguentemente di prendere le migliori decisioni in quel momento Introduzione 14 Business intelligence Si parla di piattaforma poiché per consentire ai manager analisi potenti e flessibili è necessario definire un’apposita infrastruttura hardware e software di supporto composta da: – – – – – Hardware dedicato Infrastrutture di rete DBMS Software di back-end Software di front-end Il ruolo chiave di una piattaforma di business intelligence è la trasformazione dei dati aziendali in informazioni fruibili a diversi livelli di dettaglio Introduzione 15 Dai dati alle informazioni L’informazione è un bene a valore crescente, necessario per pianificare e controllare le attività aziendali con efficacia Essa costituisce la materia prima che viene trasformata dai sistemi informativi, come i semilavorati vengono trasformati dai sistemi di produzione dati = informazione Spesso la disponibilità di troppi dati rende arduo, se non impossibile, estrapolare le informazioni veramente importanti Introduzione 16 Dai dati alle informazioni Per ogni azienda è fondamentale poter disporre in maniera rapida e completa delle informazioni necessarie al processo decisionale: le indicazioni strategiche sono estrapolate Valore! principalmente dalla mole dei dati operazionali contenuti nei database aziendali, attraverso un procedimento di selezione e sintesi progressiva. indicazioni strategiche" rapporti" informazioni selezionate" fonti informative primarie" Quantità! Introduzione 17 Il nuovo ruolo dell’informatica L’aumento esponenziale del volume dei dati ha reso il calcolatore l’unico supporto adatto al processo decisionale L’utilizzo massiccio di tecniche di analisi dei dati aziendali ha reso il sistema informativo un elemento strategico per la realizzazione del business Il ruolo dell’informatica è passato da passivo strumento per la registrazione delle operazioni a fattore decisivo per la individuazione di elementi critici dell’organizzazione e di potenziali aree di business Sistemi di supporto alle decisioni (Decision Support System): insieme delle tecniche e degli strumenti informatici atti a estrapolare informazioni da un insieme di dati memorizzati su supporti elettronici Introduzione 18 Data Warehousing Tra i sistemi di supporto alle decisioni, l’approccio attualmente più usato prevede il progetto e la costruzione di un data warehouse a partire dal quale si procede con opportune tecniche di analisi dei dati o di estrazione di utili correlazioni fra i dati con tecniche di data mining. Data Warehousing: Una collezione di metodi, tecnologie e strumenti di ausilio al knowledge worker (dirigente, amministratore, gestore, analista) per condurre analisi dei dati finalizzate all’attuazione di processi decisionali e al miglioramento del patrimonio informativo. Introduzione 19 Architetture per il Data Warehousing Sorgenti: Dati Operazionali sorgenti OLTP (On-Line Transactional Processing) Alimentazione Analisi: Dati Analitici warehouse Le interrogazioni eseguono transazioni che leggono e scrivono un ridotto numero di record da diverse tabelle Dati! operazionali! Dati esterni" Data Warehouse" OLAP (On-Line Analytical Processing) analisi Le interrogazioni effettuano un analisi multidimensionale su una enorme quantità di record per calcolare un insieme di dati numerici di sintesi Strumenti" di reportistica" Strumenti" OLAP" Data Warehousing : argomenti Progettazione concettuale di un Data Warehouse Il modello multidimensionale Il modello concettuale DFM (Dimensional Fact Model) Progettazione concettuale da schemi E/R Archi Multipli Gerarchie ricorsive Progettazione logica di un Data Warehouse Richiami: dipendenze funzionali e normalizzazione Star schema e snowflake schema Scenari temporali Introduzione 21 Data Warehousing : argomenti Alimentazione di un Data Warehouse (SQL) Richiami di SQL: join e raggruppamento Interrogazione di un Data Warehouse (SQL-OLAP) Interrogazioni OLAP in SQL : CUBE e ROLLUP Database multidimensionali (cubi OLAP) Il sistema OLAP : Analysis Services di SQL SERVER 2000 Progetto ed implementazione di cubi OLAP Interrogazioni MDX per Database multidimensionali Il linguaggio di interrogazione MDX (MultiDimensional eXpressions) Introduzione 22 Rete di aziende: Integrazione e condivisione dell’informazione Nelle moderne organizzazioni è sempre più frequente la costituzione di reti virtuali , in cui diverse organizzazioni indipendenti operano in associazione temporanea attraverso processi cooperativi inter-aziendali. Per poter effettivamente aggregare e gestire processi di diverse organizzazioni, aspetto fondamentale è la possibilità di mediare fra l'eterogeneità semantica dei diversi contesti informativi creando una base condivisa ed integrata di conoscenza. Le ontologie sono considerate componenti fondamentali per lo scambio di informazioni, fornendo un accesso unificato alle informazioni dentro e fra le organizzazioni in base al contenuto semantico. Introduzione 23 Eterogeneità Il processo di integrazione deve tenere in considerazione i problemi derivanti dall eterogeneità delle sorgenti dati: Eterogeneità delle piattaforme: coinvolge l hardware, i modello dati utilizzati, i DBMS. – Eterogeneità strutturale: – – Sono stati sviluppati diversi standard per superare il problema, tra i quali si ricordano SQL, ODBC, ODMG, CORBA e XML. Differenti modelli di dati Stesso modello dei dati ma diverse modalità con cui l’informazione viene rappresentata (ad esempio, due tabelle per rappresentare Studenti e Docenti oppure un’unica tabella con attributo selettore) Eterogeneità semantica: differente significato ed interpretazione – due schemi potrebbero usare uno stesso termine per riferirsi a concetti distinti (omonimi), oppure, potrebbero usare termini diversi per far riferimento ad uno stesso concetto (sinonimi). Introduzione 24 Integrazione Semantica: Mediatore L obiettivo delle architetture a Mediatore è quello di ottenere una Vista Globale Virtuale, in sola lettura, dei dati che risiedono in sorgenti diverse. Tale componente costruisce uno schema integrato delle sorgenti dati coinvolte e permette interrogazioni su quello schema, liberando l utente dalla necessità di conoscere gli schemi delle diverse sorgenti integrate. Global Virtual View (GVV) Query Mapping Local Schema Local Schema Local Schema DB DB Introduzione File 25