Data warehouse e business intelligence

Data Warehouse e Business Intelligence
Corso di laurea magistrale in Informatica F008
A.A. 2013/14
SCV0210
Docente: Pietro Luigi Gentini
CFU
SSD
LEZIONI
ANNO
LINGUA
6
INF/01
48
I o II
Italiano
Obiettivi dell’insegnamento e risultati di apprendimento attesi
Il corso si propone di fornire allo studente nozioni fondamentali e concrete sul processo di realizzazione di un sistema di Data Warehouse e Business Intelligence,
attraverso un percorso di natura prevalente pratica.
I risultati di apprendimento attesi sono i seguenti:
Saper definire il contesto e gli obiettivi di un sistema di analisi nonché vincoli e ipotesi da verificare
Sapere progettare un modello di data mart secondo la metodologia di Kimball partendo dalle sorgenti e analizzando dimensioni e fatti, gerarchie, regole di
business, etc.
Saper implementare il data mart tramite un RDBMS
Saper applicare tecniche di ottimizzazioni delle perfomance del data model tramite, ad esempio, l’utilizzo di indici bitmap, tecniche di partitioning, viste preaggregate sui dati (materializzate), etc.
Saper disegnare e realizzare le procedure di Estrazione, Trasformazione e Caricamento (ETL) dei dati dalla sorgente OLTP all’area di Staging del DWH e
infine al Data Mart
Sapere disegnare e realizzazione il modello semantico (business model) e di presentazione dei dati con regole di accesso profilato tramite l’utilizzo di uno o
più strumenti di front-end di Business Intelligence
Saper realizzare report e analisi sui dati e organizzarli in Dashboard interattivi
Prerequisiti
L’allievo che accede a questo insegnamento deve conoscere i fondamenti di teoria e pratica dei Database Relazionali e del linguaggio SQL.
È necessaria la comprensione della lingua inglese parlata e scritta a livello di leggere le diapositive che il docente utilizzerà a lezione (saranno frequentemente in
inglese) ed estratti da pubblicazioni, da testi scientifici e da manuali.
Contenuti e programma del corso
Concetti introduttivi su Data warehouse e terminologia (“If you know the enemy and know yourself, you need not fear the result of a hundred battles” SUN TZU
on The art of war, V° secolo a.c.)
Fondamenti di modellazione di un DWH: definizione del Modello di Business (Conceptual Model)
h. lezioni 4
Fondamenti di modellazione di un DWH: creazione del Modello Dimensionale (metodologia Kimbal) e del Modello Fisico dei dati. Esempio di realizzazione di
un data mart per un processo di analisi delle vendite.
h. lezioni 4
Fondamenti di modellazione di un DWH: creazione del Modello Fisico dei dati e tecniche di ottimizzazione delle performance.
Teoria e applicazione delle tecniche di indicizzazione.
Fondamenti di ETL: Concetti e terminologia dei sistemi e processi di Estrazione, Trasformazione e Caricamento dei dati.
h. lezioni 4
Applicazione di uno strumento open source (Talend OTS) per la creazione e gestione di processi ETL.
h. lezioni 4
Applicazione di uno strumento open source (Talend OTS) per la creazione e gestione di processi ETL. Esempio di creazione e gestione di un sistema di ETL
per il data mart di analisi delle vendite
h. lezioni 4
Esempio di creazione e gestione di un sistema di ETL per il data mart di analisi delle vendite
h. lezioni 4
Fondamenti di modellazione di un DWH: tecniche di ottimizzazione delle performance applicate ad hardware, software (di base), partitioning dei dati e viste
pre-aggregate.
Esempio di applicazione delle tecniche di ottimizzazione al data mart di analisi delle vendite
h. lezioni 4
Fondamenti di Business Intelligence: concetti e terminologia.
Esempio di applicazione di un sistema di Business Intelligence al data mart di analisi delle vendite
h. lezioni 4
Applicazione di un sistema di Business Intelligence al data mart di analisi delle vendite.
h. lezioni 4
Applicazione di tecniche avanzate di Business Intelligence per il data mart di analisi delle vendite. Realizzazione di un dashboard di analisi interattivo.
h. lezioni
Fondamenti di Visual Analytics: percezione umana e preocessi cognitivi, best practices di visualizzazione dei dati.
h. lezioni
Esemplificazione dell’ applicazione di un sistema di Data Visualization/Data Exploration sul data mart di analisi delle vendite per la realizzazione rapida di
viste sui dati e di un dashboard di analisi.
Best Practices di Visualizzazione dei dati.
h. lezioni 4
Tipologia delle attività didattiche
Le lezioni frontali sono caratterizzate da un elevato grado di praticità, consistendo in gran parte in esemplificazioni dell’utilizzo di strumenti comunemente usati
nelle attività che sono oggetto di insegnamento nel corso. Viene infatti utilizzato un mix di tecnologie open source (Talend Open Studio) e commerciali (Oracle
Database, Oracle Business Intelligence, Oracle SQL Developer, Tableau Professional). Il software è messo a disposizione, in modo che gli studenti possono
installarsi sul proprio notebook per completare e approfondire anche a casa quanto svolto a lezione.
Testi e materiale didattico
Slides delle lezioni e altro materiale di supporto (manuali, codice SQL, progetti demo) resi disponibile tramite il sito di e-learning.
Testi consigliati per l’approfondimento delle tematiche proposte:
Data Warehouse, La guida completa di Ralph Kimball e Margy Ross
2003, Hoepli Informatica
Information Dashboard Design: The Effective Visual Communication Of Data di Stephen Few, 2005, Oreilly & Associates Inc
Modalità di verifica dell’apprendimento
Agli studenti, singolarmente o organizzati in gruppi di max due persone è richiesta la preparazione di un progetto, finalizzato ad accertare l’acquisizione delle
conoscenze e delle abilità attese, basato su un contesto a scelta dello studente e su vincoli e requisiti progettuali.
Il documento di requisiti del progetto d’esame è reso disponibili agli studenti tramite sistema di e-learning prima della conclusione delle lezioni in aula.
Il progetto prevede la realizzazione, utilizzando la medesima infrastruttura informatica vista a lezione, di:
Un data mart implementato su tecnologia RDBMS
Un processo ETL di estrazione, trasformazione e caricamento dei dati dalla Staging Area allo Star Schema
Un repository di metadati di Business Intelligence che includa la mappatura fisica dei dati e il modello semantico e di presentazione dei dati (dimensioni,
misure, gerarchie, campi calcolati, etc.)
Una dashboard di analisi composta da viste sui dati e indicatori di performance (KPI)
Per la valutazione del progetto realizzato ai fini dell’esame è necessario fornire al docente una relazione su quanto realizzato, che dettagli il processo e le scelte
effettuate durante l’implementazione.
La relazione dovrà essere completa di screenshots che documentino la corretta impostazione logica e la quadratura dei risultati delle query implementate (anche
attraverso l’analisi dei file di log del sistema di BI) a fronte delle misure richieste nel progetto e dei dati sorgenti in ingresso.
La relazione sarà da considerarsi come linea guida, durante la prova d’esame, della dimostrazione pratica di quanto realizzato e documentato.
L’approfondimento orale con il docente della relazione sarà volto ad accertare le conoscenze acquisite mostrando la capacità di identificare autonomamente i
fondamenti teorici da utilizzare per la soluzione del problema trattato nel progetto e di elaborare una strategia di soluzione.
La prova d’esame ha una durata media di 1,5 hh.
L’esito dell’esame sarà in trentesimi: la prova si ritiene superata con una votazione di almeno 18/30.
Orario di ricevimento
Solo previo appuntamento.