Ce n n i s u l Da t a Wa r e h o u s e Ravenna Miriam Gotti [email protected] www. cineca.it 5 Novembre 2007 Agenda Fondamenti di Data Warehouse Modello Multidimensionale Analisi OLAP Introduzione a Statportal www.cineca.it 2 Agenda Fondamenti di Data Warehouse Modello Multidimensionale Analisi OLAP Introduzione a Statportal www.cineca.it 3 Fondamenti di Data Warehouse Contesto Miglioramento potenzialità supporti tecnologici e diminuzione costi Aumento operazioni automatizzate e intensificarsi operazioni su Web Quantità Dati Complessità del processo di estrazione dell informazione dai dati Complessità del processo decisionale www.cineca.it 4 Fondamenti di Data Warehouse Perché non usare un operazionale? Sistemi decisionali (DSS) Sistemi operazionali 100 50 0 1st 4th Qtr Qtr www.cineca.it 5 Fondamenti di Data Warehouse Limiti dei sistemi operazionali nei processi decisionali I dati nonsono integrati, risiedono su sistemi operazionali eterogenei o fisicamente separati (es. ARGO, SISSI, ecc.) Supportano operazioni predefinite e ripetitive, sono strutturati per l elaborazione in lettura e scrittura di un elevato numero di transazioni elementari e concomitanti I dati sono volatili e normalmente noncontengono dati storici, ma si limitano alla memorizzazioni on-line degli ultimi 12 mesi Linterfaccia utente di tali sistemi è normalmente troppo rigida e non fornisce le funzionalità necessarie per costituirsi come strumento di supporto all attività decisionale www.cineca.it 6 Fondamenti di Data Warehouse Che cosè Linsieme centralizzatodelle strutture dati e degli strumenti necessari per ottenere, a partire dai dati operazionali prodotti e gestiti da un sistema informativo aziendale, informazioni utili ai manager come supporto alle decisioni. Il data warehouse devessere orientato agli oggetti, integrato, non volatile e invariante nel tempo Che cosa non è Un programma Un prodotto da scaffale La soluzione ai problemi (del gestionale) www.cineca.it 7 Fondamenti di Data Warehouse Orientato al soggetto Nel DW i dati sono organizzati per soggetto danalisi, anziché per processo gestionale. Lorientamento influisce sulla struttura del sistema in termini di organizzazione dei dati e delle modalità di presentazione e dell interfaccia utente Sistemi Transazionali Iscrizioni Allievi Trasferimenti Scuole Esiti Classi Orientati all applicazione www.cineca.it Data Warehouse Orientati al soggetto d analisi 8 Fondam enti di Data W arehouse I nt egrato Sistemi transazionali Data Warehouse I dati, estratti da varie sorgenti, vengono ripuliti, trasformati e modellati in modo da consentirne una gestione coerente ed efficace, ad esempio implementando metodi di codifica uniformi, unità di misura omogenee, l omogeneità semantica delle variabili www.cineca.it 9 Fondamenti di Data Warehouse Non Volatile I dati, che periodicamente sono raccolti, trasformati e caricati nel DW, sono stabili persistenti Quando i dati sono caricati nel DW, non possono più essere modificati e ad essi si può accedere in sola lettura risultando così estremamente rapidi. I dati nel data warehouse coprono un orizzonte temporale molto ampio in modo da favorire le attività di analisi comparative su diversi periodi temporali www.cineca.it 10 Fondamenti di Data Warehouse I nvariante nel tempo Vengono memorizzate fotografie della stessa realtà in momenti successivi, mantenendo costante l organizzazione dei dati Questo consente di effettuare confronti, individuare tendenze e fare previsioni. I dati vengono aggiornati periodicamente (e non in tempo reale come nei sistemi gestionali). www.cineca.it 11 Fondamenti di Data Warehouse Operazionale vs Decisionali Sistemi transazionali Data Warehouse >1000 >100 Dimensioni DB 100MB-1GB 1GB-1TB Carico di lavoro Transazioni predefinite Interrogazioni ad hoc A centinaia di record in lettura e scrittura A milioni di record in lettura Supporto ai processi operativi Supporto alle decisioni Dettagliati Sia di dettaglio che di sintesi Solo dati correnti Dati correnti e storici Aggiornamenti Continui Periodici Ottimizzazione Per accessi OLTP su una frazione di dati Per accessi OLAP su gran parte del DB Unità di lavoro Transazione Interrogazione complessa Numero di transazioni Tempi di risposta Utenti Accesso Scopo Dati Copertura temporale Performance www.cineca.it 12 Fondamenti di Data Warehouse Concludendo perché un DW? Basare le decisioni su fatti, anzichè sensazioni quindi migliorare i processi decisionali Migliorare la qualità del dato operazionale Creare un repository unico dei dati aziendali, attendibile e facilmente usufruibile Analizzare l andamento del fenomeno analizzato sotto diversi punti di vista (analisi multidimensionale) www.cineca.it 13 Fondamenti di Data Warehouse Fonti Dati / Fornitore Informazione Allievi RA / Allievi RA / (Anag. Regionale (Anag. Regionale Studenti) Studenti) Report Tabellari DM Allievi StagingArea Area Staging Allievi extra-RA / Allievi extra-RA / (Anag. Regionale (Anag. Regionale Studenti) Studenti) Conoscenza Grafici Data Warehouse DM Autonomie Scolastiche Classificazione Classificazione Autonomie Autonomie Scolastiche e Scolastiche e Scuole (MIUR) Scuole (MIUR) Mappe Tematiche Metadati Classi Cruscotti ETL Backend www.cineca.it Frontend 14 Agenda Fondamenti di Data Warehouse Modello Multidimensionale Analisi OLAP Introduzione a Statportal www.cineca.it 15 Modello Multidimensionale Modello Dati Fatti d analisi Allievo Classe Età Nel modello multidimensionale le informazioni sono organizzate concettualmente in iper-cubi (fatti) composti da categorie descrittive, (dimensioni) e misure quantitative (celle). Nazionalità Tempo Dimensioni d analisi www.cineca.it 16 Modello Multidimensionale Un Esempio Nazionalità Allievo Tempo Classe Età Attributi Nazionalità Dimensioni Macro Area Classe Età Anno Formativo Età Stato Nascita Fatti www.cineca.it Gerarchia Allievo 17 Modello Multidimensionale Gli elementi Dimensioni: prospettive attraverso cui è possibile analizzare gli aspetti d interesse del business. Raggruppano attributi logicamente correlati rispetto all oggetto del business. Attributi: variabili di classificazione o elementi descrittivi. Sono tipicamente testuali e contengono valori discreti. Servono a definire il livello di aggregazione dei dati e impostare dei filtri sugli stessi. Gerarchie: relazioni logiche tra attributi che definiscono un percorso di navigazione dei dati all interno delle dimensioni, e quindi il livello di aggregazione dei dati. www.cineca.it 18 Modello Multidimensionale Gli elementi Fatti/Metriche: variabili d analisi, misure mediante le quali è possibile valutare il soggetto d analisi. Sono tipicamente numeriche. Sono classificati in due tipologie: fatti base, grandezze elementari che non possono essere derivate da altri fatti. I fatti base sono sempre fisicamente memorizzati nel database fatti calcolati, misure calcolate applicando funzioni matematiche ad uno o più fatti base. Normalmente non sono memorizzate nel database, ma sono calcolati on-the-fly Granularità: livello minimo di dettaglio di un fatto www.cineca.it 19 Modello Multidimensionale Fonti Dati / Fornitore Informazione Allievi RA / Allievi RA / (Anag. Regionale (Anag. Regionale Studenti) Studenti) Report Tabellari DM Allievi StagingArea Area Staging Allievi extra-RA / Allievi extra-RA / (Anag. Regionale (Anag. Regionale Studenti) Studenti) Conoscenza Grafici Data Warehouse DM Autonomie Scolastiche Classificazione Classificazione Autonomie Autonomie Scolastiche e Scolastiche e Scuole (MIUR) Scuole (MIUR) Mappe Tematiche Metadati Classi Cruscotti ETL Backend www.cineca.it Frontend 20 Modello Multidimensionale Strumento di Amministrazione di Statportal E un applicativo desktop che consente di: Definire i percorsi di navigazione dei dati Definire gli indicatori precalcolati Gestire gli utenti e i profili utenti Impostare i diritti di accesso Introdurre uno strato semantico per rendere i nomi degli oggetti più parlanti per l utente finale www.cineca.it 21 Agenda Fondamenti di Data Warehouse Modello Multidimensionale Analisi OLAP Introduzione a Statportal www.cineca.it 22 Analisi OLAP Tecniche di accesso alle informazioni Query & Reporting: orientato agli utenti che hanno necessità di accedere agli stessi prospetti informativi predefiniti, a intervalli di tempo prestabiliti Analisi What-if: insieme di tecniche di predizione guidate dall utente che permettono di creare previsioni ed eseguire simulazioni sulla base di scenari Data Mining: processo di estrazione di conoscenza da banche dati di grandi dimensioni tramite l applicazione di algoritmi statistici che individuano le relazioni nascoste e le rendono visibili Analisi OLAP (on line analytical processing): identifica un insieme di tecnologie e di strumenti predisposti per l analisi di tipo multidimensionale (pivoting, drilling, filtering) www.cineca.it 23 Analisi OLAP Pivoting Permette di variare la vista corrente dei dati ruotando gli assi del cubo www.cineca.it 24 Analisi OLAP Pivoting: esempio www.cineca.it 25 Analisi OLAP Drilling Permette di navigare una gerarchia, scendendo verso dati maggiormente dettagliati (Drill-Down) o salendo verso informazioni più aggregate (Roll-Up) Roll-Up Anno Mese Drill-Down www.cineca.it Giorno 26 Analisi OLAP Drilling: esempio Roll-Up Drill-Down www.cineca.it 27 Analisi OLAP Filtering Permette di visualizzare solo la porzione di dati desiderata Slicing consiste in una selezione con un vincolo di ugualianza e produce una fetta dell ipercubo Dicing consiste in una selezione con uno o più vincoli di ugualianza combinati tra loro con operatori di AND e/o OR. Produce un ipercubo più piccolo estratto da quello corrente www.cineca.it 28 Analisi OLAP Filtering: esempio Slice Dice www.cineca.it 29 Analisi OLAP Fonti Dati / Fornitore Informazione Allievi RA / Allievi RA / (Anag. Regionale (Anag. Regionale Studenti) Studenti) Report Tabellari DM Allievi StagingArea Area Staging Allievi extra-RA / Allievi extra-RA / (Anag. Regionale (Anag. Regionale Studenti) Studenti) Conoscenza Grafici Data Warehouse DM Autonomie Scolastiche Classificazione Classificazione Autonomie Autonomie Scolastiche e Scolastiche e Scuole (MIUR) Scuole (MIUR) Mappe Tematiche Metadati Classi Cruscotti ETL Backend www.cineca.it Frontend 30 Agenda Fondamenti di Data Warehouse Modello Multidimensionale Analisi OLAP Introduzione a Statportal www.cineca.it 31 I ntroduzione a Statportal Cos è Un portale Web, compatibile con i browser più diffusi ad interfaccia user-friendly utile per la: Consultazione Produzione Condivisione Analisi di informazione statistica e geostatistica su internet www.cineca.it 32 I ntroduzione a Statportal Cosa mi permette di fare Consultare un catalogo di schede metainformative che documentano i dati presenti nel sistema (Catalogo Dati) Visualizzare i dati presenti nel sistema tramite diverse modalità, ed in modo totalmente interattivo (Databrowsing) Salvare la struttura di un report, senza salvare i dati al suo interno e renderla disponibile agli altri utenti Produrre nuova informazione dai dati, tramite la creazione di nuovi indicatori, e renderli disponibili agli altri utenti www.cineca.it 33 I ntroduzione a Statportal Vantaggi Garantisce una completa integrazione tra la reportistica e le schede metainformative dando la possibilità di passare in modo lineare da una funzionalità all altra in maniera semplice ed intuitiva Non salvando i dati, ma solo la struttura del report è possibile visualizzare sempre l ultimo dato caricato nel datawarehouse www.cineca.it 34 I ntroduzione a Statportal A u t e n t i c a zi o n e www.cineca.it 35 I ntroduzione a Statportal M o d i f i c a Da t i Pe r s o n a l i www.cineca.it 36 I ntroduzione a Statportal H o m e Pa g e www.cineca.it 37 I ntroduzione a Statportal V i s u a l i zza zi o n e d e l l e N e w s www.cineca.it 38 I ntroduzione a Statportal Pr o g e t t i www.cineca.it 39 I ntroduzione a Statportal Pr o g e t t i www.cineca.it 40 I ntroduzione a Statportal Pr o g e t t i L i v e l l i d i I n t e r a zi o n e Passiva: l utente visualizza reportistica preimpostata condivisa da altri utenti, ma non può fare nessun tipo di modifica Mista: l utente visualizza reportistica preimpostata condivisa da altri utenti, non può scegliere le dimensioni o la modalità di visualizzazione, ma può fare filtri sui dati, scegliere il livello di dettaglio o invertire le righe con le colonne Attiva: l utente a partire da un set di dati condivisi da altri utenti può scegliere le dimensioni, il livello di dettaglio, il modo migliore per visualizzarle, può impostare filtri e il layout www.cineca.it 41 I ntroduzione a Statportal Cr e a zi o n e N u o v i Pr o g e t t i www.cineca.it 42 I ntroduzione a Statportal Cr e a zi o n e N u o v i Pr o g e t t i Il sistema permette, tramite un percorso guidato di: Selezionare i dati Aggregare, disaggregare, impostare i filtri sui dati selezionati Combinare i dati tramite espressioni Creare reportistica dai dati selezionati e dalle nuove espressioni calcolate Rendere disponibili come dati i nuovi Progetti creati agli altri utenti www.cineca.it 43 I ntroduzione a Statportal M o d a l i t à d i V i s u a l i zza zi o n e d e l Da t o Tabellare: standard, multidimensionale, comparativa, cruscotto Grafica: barre, colonne, torte, curve Geografica: permette una visualizzazione del dato tematizzando i valori su una mappa facilmente navigabile. Può comprendere diversi strati informativi per arricchire la comprensione della tematizzazione nel contesto territoriale www.cineca.it 44 I ntroduzione a Statportal T a b e l l e Pi a t t e www.cineca.it 45 I ntroduzione a Statportal Tabelle Mult idim ensionali www.cineca.it 46 I ntroduzione a Statportal T a b e l l e Co m p a r a t i v e www.cineca.it 47 I ntroduzione a Statportal Cr u s c o t t i www.cineca.it 48 I ntroduzione a Statportal Gr a f i c i www.cineca.it 49 I ntroduzione a Statportal Mappe www.cineca.it 50 I ntroduzione a Statportal Ca t a l o g o Da t i www.cineca.it 51 I ntroduzione a Statportal Ca t a l o g o Da t i Contiene un insieme di schede metainformative, che includono descrizioni utili per la compressione dei dati, il loro corretto utilizzo e la loro reperibilità Ogni dato o report può essere documentato tramite le schede metainformative presenti nel catalogo dati Fornisce un potente motore di ricerca per la ricerca delle schede dati secondo diversi criteri (tematici, di contenuto, di provenienza, ecc.) www.cineca.it 52 I ntroduzione a Statportal Ca t a l o g o Da t i Ha una struttura tipo Explorer che permette di accedere alle schede dei dati in modo agevole Permette la modifica e la gestione on-line dei metadati esistenti Permette di passare direttamente alla reportistica se il dato documentato è presente nel sistema www.cineca.it 53 Riferimenti Bibliografici The Data Warehouse Lifecycle Toolkit di Ralph Kimball, Laura Reeves, Margy Ross, Warren Thornthwaite ed. John Wiley & Sons, Inc., 1998 The Data Warehouse Toolkit, 2nd edition di Ralph Kimball, Margy Ross ed. John Wiley & Sons, Inc., 2002 Data Warehouse. Teoria e Pratica della Progettazione di Matteo Golfarelli, Stefano Rizzi ed. McGraw-Hill, 2002 www.cineca.it 54