Redazione e Presentazione di Progetti Informatici Corso di Laurea in Informatica Massimo Ruffolo E-mail: [email protected] Web: http://www.icar.cnr.it/ruffolo Istituto di CAlcolo e Reti ad alte prestazioni del Consiglio Nazionale delle Ricerche (ICAR-CNR) Exeura s.r.l. – Spin-off dell’Università della Calabria Corso di RPPI - Massimo Ruffolo – Data Warehousing 1 Data Warehouse: Definizione Definizione Un DW è un struttura che memorizza una raccolta completa e consistente di dati ottenuti da sorgenti informative diverse e resi disponibili agli utenti finali utilizzando modi e formati che li renda immediatamente interpretabili ed utilizzabili agli scopi del “decision making” Corso di RPPI - Massimo Ruffolo – Data Warehousing 2 •1 Elementi di Data Warehousing Data Warehouse Ambiente Operativo Back end DBMS Front end utenti Corso di RPPI - Massimo Ruffolo – Data Warehousing 3 Elementi di Data Warehousing Ambiente Operativo Applicazione A Applicazione B Ambiente Decisionale Query Report Analisi Navigazione Applicazione C Corso di RPPI - Massimo Ruffolo – Data Warehousing 4 •2 Elementi di Data Warehousing Processi Operativi Dati attuali Dati elementari Inserimento, cancellazione, lettura Spazi di occupazione contenuti Applicazioni precostituite Processi Decisionali Dati attuali e storici Dati elementari ed aggregati Aggregazioni, lettura Spazi di occupazione crescenti Report, analisi, navigazione Corso di RPPI - Massimo Ruffolo – Data Warehousing 5 Elementi di Data Warehousing Proprietà di integrazione: Nel Data Warehouse il significato di un dato deve essere concorde a livello aziendale e definito con precisione in termini informatici. Sistemi Operazionali Data Warehouse Appl A – Descrizione 1 Appl B – Descrizione 2 Appl C – Descrizione 3 Appl A – m,f Appl B – 1,0 Appl C – x,y Appl A – Date(yymmdd) Appl B – Data(mmddaa) Descrizione Popolamento m,f Data(ddmmyy) Appl C – Data (assoluta) Corso di RPPI - Massimo Ruffolo – Data Warehousing 6 •3 Elementi di Data Warehousing: Caratteristiche Orientamento decisionale: cambiamento dalla prospettiva di dati per le applicazioni (dati per supportare il processo produttivo) a quella di dati per il management (dati per supportare il processo decisionale) Integrazione: il database consolida (come un bilancio consolidato) i dati dai differenti sistemi che utilizzano diversi metodi di codifica, unità di misura o altro, ed elimina le inconsistenze tra i dati Gestione storica dei dati: mentre i dati operazionali danno una visione sincronica (a un certo momento) e sono validi nel momento in cui si leggono, i dati in un datawarehouse tengono conto della variabile tempo e possono essere utilizzati per analizzare la "storia" degli eventi Non volatilità: i dati nuovi vengono aggiunti e non vanno a rimpiazzare quelli vecchi, preservando la temporalità ed accrescendo il contenuto informativo Corso di RPPI - Massimo Ruffolo – Data Warehousing 7 Classificazione dei dati nel DW Dati di business: dati di interesse dell’organizzazione utilizzati nei processi operazionali, gestionali e direzionali; sono modificati ed usati dai sistemi operazionali e dai DW Metadati: descrivono tutti gli aspetti dei dati contenuti nel DW, in modo che essi possano essere utilizzati in maniera consistente. Dunque si memorizzano informazioni sull’origine dei dati, sulle trasformazioni cui sono sottoposti e anche informazioni temporali relative alla creazione, all’ultima modifica o all’eliminazione dei dati. Corso di RPPI - Massimo Ruffolo – Data Warehousing 8 •4 Dati di business real-time: i dati correnti dell’azienda, essi sono manipolati esclusivamente dai processi operazionali e sono al massimo livello di dettaglio. Essi non vanno confusi con i dati attuali del DW, in quanto risiedono sulle sorgenti dati del DW e quindi sono nel formato nativo storici: molto dettagliati, hanno già subito la fase di integrazione e quindi fanno parte del DW. Essi risalgono a un periodo temporale non di interesse per le indagini attuali, perciò sono memorizzati su memorie di massa poco costose che sono accedute molto di rado riconciliati: sono il risultato della prima trasformazione che subiscono i dati real-time prima di essere caricati nel DW; sono il risultato dell’integrazione e della razionalizzazione dei dati real-time derivati: derivano dai dati riconciliati, se essi sono stati implementati, oppure dai dati real-time. Possono esistere a vario livello di dettaglio e sono proprio quelli usati dalle applicazioni DSS, sono acceduti solo in lettura Corso di RPPI - Massimo Ruffolo – Data Warehousing 9 Strumenti ETL Extraction o Capture (estrazione): ¾ ¾ statica: il DW viene popolato per la prima volta incrementale: il DW viene periodicamente aggiornato Cleaning o Scrubbing (pulitura): fase critica, deve migliorare la qualità dei dati provenienti dalle sorgenti informative, tipicamente sporchi a causa di errori e inconsistenze. Effettua ¾ la correzione e l’omogeneizzazione (riconoscimento di sinonimie, omonimie) ¾ la pulitura basata su regole (applicazione di regole proprie del dominio applicativo per l’individuazione delle corrette corrispondenze tra i valori) Transformation (trasformazione): fase di conversione dei dati dal formato delle sorgenti a quello del DW; è strettamente legata alla fase di pulitura Loading (caricamento): ¾ ¾ refresh: i dati del DW vengono riscritti integralmente (è usato in abbinamento all’estrazione statica) update: solo i cambiamenti occorsi nelle sorgenti informative vengono caricati nel DW (è usato in abbinamento all’estrazione incrementale). I dati preesistenti nel DW non vengono distrutti né alterati Corso di RPPI - Massimo Ruffolo – Data Warehousing 10 •5 Strumenti ETL: wrapper e mediator Wrapper: componente software che fa da interprete tra l’ambiente globale e la singola sorgente informativa Mediator: integra le informazioni estratte dai wrapper in un’unica sorgente informativa Corso di RPPI - Massimo Ruffolo – Data Warehousing 11 Elementi di Data Warehousing: Architettura A questo livello vi sono le applicazioni per il supporto alle decisioni BIG DW catalog popolamento Enterprise model Corso di RPPI - Massimo Ruffolo – Data Warehousing 12 •6 Elementi di Data Warehousing: Architettura Architettura Separazione: l’elaborazione analitica e quella transazionale devono essere mantenute il più possibile separate Scalabilità: l’architettura hardware e software deve poter essere facilmente ridimensionata a fronte della crescita nel tempo del volume di dati da gestire e da elaborare e del numero di utenti da soddisfare Estendibilità: deve essere possibile accogliere nuove applicazioni e tecnologie senza riprogettare integralmente il sistema Sicurezza: il controllo sugli accessi è essenziale a causa della natura strategica dei dati memorizzati Accessibilità: la complessità dell’attività di amministrazione non deve risultare eccessiva Corso di RPPI - Massimo Ruffolo – Data Warehousing 13 Il Data Warehousing del Bando Scopro Regione Regione APT APT Università Università Associazioni Associazioni Industriali Industriali UTENTI Oss. Oss. SE SE Oss. Oss. Turismo Turismo Oss. Oss. Univ. Univ. Oss. Oss. Imprese Imprese OSSERVATORI DW-PTC DW DW-PTC Oscar SORGENTI Erica Corso di RPPI - Massimo Ruffolo – Data Warehousing Turismo Segreteria Studenti 14 •7 Il Data Warehousing del Bando Scopro I dati, materia prima di un Data Warehouse, vengono modellati e trasformati al fine di supportare il processo decisionale. Il progetto DW-PTC mette a disposizione del management di Telcal, dei decisori istituzionali, dei cittadini e del mondo produttivo calabrese risorse informative della regione Calabria interne ed esterne al PTC. Le sorgenti informative del DW-PTC: OSCAR (Osservatorio Statistico Calabrese per l’Analisi e la Rilevazione) – Azione Progettuale Ricerca ERICA (Elenco Registro Imprese Calabrese) – Azione Progettuale Agricoltura e PMI Flussi Turistici – Azione Progettuale Turismo Segreteria Studenti – Università degli Studi della Calabria Corso di RPPI - Massimo Ruffolo – Data Warehousing 15 Il Data Warehousing del Bando Scopro OSCAR • E’ una Banca Dati relazionale che informazioni di tipo economico e sociale fornisce • Abbraccia un arco temporale che va dal 1991 al 1998 • Contiene 74000 record per un totale di circa 2 MB • E’ fornita dall’Azione Progettuale Ricerca Consente: • Analisi del tessuto economico e sociale • Elaborazioni statistiche sugli indicatori • Monitoraggio della diffusione delle ICT sul territorio Corso di RPPI - Massimo Ruffolo – Data Warehousing 16 •8 Il Data Warehousing del Bando Scopro OSCAR Popolazione Popolazione residente, residente, numero numero di di famiglie, famiglie, ecc. ecc. consumi consumi di di energia energia elettrica, elettrica, addetti addetti alle alle unità unità locali locali non non agricole, agricole, ecc. ecc. • Demografia • Struttura Produttiva • Territorio • Condizioni SocioEconomiche • Dotazioni di Servizi • Potenziali Fruitori della Domanda Telematica distanza distanza di di un un determinato determinato comune comune dall’aeroporto dall’aeroporto oo distanza distanza dal dal capoluogo, capoluogo, ecc. ecc. numero numero di di contribuenti contribuenti IRPEF, IRPEF, depositi depositi delle delle aziende aziende di di credito, credito, ecc. ecc. numero numero di di posti posti letto letto in in istituti istituti pubblici pubblici di di cura, cura, aule aule scuola scuola media media inferiore, inferiore, ecc. ecc. agenzie agenzie marittime, marittime, agenti agenti ed ed agenzie agenzie di di affari, affari, ecc. ecc. Corso di RPPI - Massimo Ruffolo – Data Warehousing 17 Il Data Warehousing del Bando Scopro ERICA • E’ una Banca Dati relazionale che offre informazioni anagrafiche relative alle imprese ubicate nel territorio calabrese • Abbraccia un arco temporale che va da novembre 1999 a maggio 2000 • Contiene 165000 imprese per un totale di circa 60 MB • E’ fornita dall’Azione Progettuale Agricoltura e PMI Consente analisi: • sulla composizione del tessuto produttivo • settoriali e per aree territoriali • sulla ricaduta di politiche di incentivazione e di sostegno all’imprenditoria. Corso di RPPI - Massimo Ruffolo – Data Warehousing 18 •9 Il Data Warehousing del Bando Scopro ERICA Attività Attività Economica Economica Natura Natura Giuridica Giuridica Capitale Capitale Sociale Sociale Le principali informazioni contenute in ERICA Stato Stato di di Attività Attività Localizzazione Localizzazione Variazione Variazione di di Stato Stato Corso di RPPI - Massimo Ruffolo – Data Warehousing 19 Il Data Warehousing del Bando Scopro Turismo • Proviene da informazioni cartacee fornite dall’Azione Progettuale Turismo • Non costituisce una vera e propria sorgente operazionale Consente: • Il monitoraggio dell’andamento del turismo nelle varie aree • Analisi sul grado di utilizzo delle struttura alberghiere ed extra alberghiere nei vari periodi dell’anno • Analisi sulla tipologia di offerta turistica Corso di RPPI - Massimo Ruffolo – Data Warehousing 20 •10 Il Data Warehousing del Bando Scopro Turismo Flussi Flussi di di turisti turisti italiani italiani Flussi Flussi di di turisti turisti stranieri stranieri Flussi Flussi di di turisti turisti in in strutture strutture alberghiere alberghiere Informazioni sui flussi turistici cha hanno interessato la Calabria negli anni dal 1990 al 1998 Flussi Flussi di di turisti turisti in in strutture strutture extra-alberghiere extra-alberghiere Presenze Presenze nelle nelle strutture strutture alberg. alberg. ed ed extra-alberg. extra-alberg. Corso di RPPI - Massimo Ruffolo – Data Warehousing 21 Il Data Warehousing del Bando Scopro Segreteria Studenti UNICAL • E’ fornita dall’Università della Calabria • Contiene 11000 iscritti, 126000 esami, 1490 lauree per la sola facoltà di ingegneria per un totale di circa 20 MB • Abbraccia un arco temporale che va dal 1994 al 2000 • E’ una Banca Dati relazionale che offre informazioni sul percorso di studio degli studenti dell’università della Calabria Consente: • Il monitoraggio del sistema universitario calabrese • Analisi sull’abbandono rendimento • Analisi sul all’università passaggio Corso di RPPI - Massimo Ruffolo – Data Warehousing universitario dalla scuola e sul superiore 22 •11 Il Data Warehousing del Bando Scopro Segreteria Studenti UNICAL Lauree Lauree Diplomi Diplomi Esami Esami Le principali informazioni Maturità Maturità Test Test di di Ammissione Ammissione Curricula Curricula Corso di RPPI - Massimo Ruffolo – Data Warehousing 23 Il Data Warehousing del Bando Scopro Erica Segr. Studenti Oscar Turismo Estrazione Trasformazione Schemi Intermedi Integrazione DW-PTC Olap Olap Corso di RPPI - Massimo Ruffolo – Data Warehousing Data-Mining Data-Mining 24 •12 Il Data Warehousing del Bando Scopro Segreteria Studenti UNICAL Materie Materie Università Università Facoltà Facoltà Lauree Lauree Esami Esami Analisi Revers Engineering Immatricolazioni Immatricolazioni Percorso Percorso accademico accademico Studente Studente Materie Materie Iscrizioni Iscrizioni Maturità Maturità Lauree Lauree Corso Corso di di laurea laurea Corso di RPPI - Massimo Ruffolo – Data Warehousing 25 Il Data Warehousing del Bando Scopro Livelli di Accesso Descrizione dei Report BIW Dimensional Fact Tree Metadati Metadati BIW BIW Struttura dei Data Mart Livelli di Accesso BDW Log Accessi Mapping Metadati Metadati BDW BDW Schema Integrato Sorgenti Procedure di ETL Schemi Intermedi Mapping Procedure ETL Metadati Metadati Sorgenti Sorgenti Struttura Sorgenti Operazionali Corso di RPPI - Massimo Ruffolo – Data Warehousing 26 •13