Cloud SIA
V anno
Processo operazionale e processo analitico
Sviluppo Sistemi Informatici
I Sistemi Informatici si sono trasformati nel tempo, passando da semplici
strumenti di supporto a elementi centrali dell’organizzazione aziendale:
Il valore delle informazioni
In azienda sia ha la necessità di utilizzare piattaforme intelligenti (business
intelligence, BI) che trasformino i dati aziendali in informazioni utilizzabili a diversi
livelli di dettaglio.
La business intelligence permette di studiare e comprendere i fattori chiave del
business e di prendere decisioni coerenti con il momento.
L’informazione è una risorsa che
acquisisce sempre maggiore valore
ed è necessaria per pianificare e
controllare efficacemente e
velocemente le attività aziendali.
L’utilizzo delle tecniche di analisi
dei dati aziendali ha reso il sistema
informativo un elemento chiave per
la realizzazione delle strategie di
business.
Decision Support System
Il primo approccio alla strategia della conoscenza è avvenuto negli
anni Ottanta.
In quegli anni si sviluppano sistemi di supporto alle decisioni (Decision
Support System, DSS) che permettono di estrapolare informazioni da
dati memorizzati su supporti elettronici.
I tre termini chiave di questa evoluzione sono proprio:
- Decision attenzione alle attività decisionali e ai problemi direzionali
- Support le tecnologie informatiche supportano il decisiore nel suo
lavoro
- System questi strumenti mirano all’integrazione tra utenti, macchine e
metodi di analisi
Risultati e attività: il processo di Simons
Ogni attività produce risultati che alimentano le attività successive.
Per gli studiosi di DDS il processo decisionale può essere rappresentato
dal modello proposto da Simons negli anni Settanta.
Il modello di Simons suddivide il processo in tre fasi principali:
- Intelligence: raccolta informazioni per conoscere il problema
- Design: comprendere il problema, generare soluzioni e analizzarle
- Choise: valutazione e scelta delle alternative generate in fase di Design.
Da ogni fase è possibile tornare alle precedenti.
Questo modello è detto anche processo decisionale a razionalità limitata
perché il decisore non ha interesse a raggiungere la soluzione ottimale
ma una soluzione approssimata che rispetti determinati target.
Modello di Anthony
Il modello più utilizzato per descrivere i flussi informativi in azienda è il modello di
Anthony (1965) che sfrutta una rappresentazione a piramide ed evidenzia la diversa
strutturazione delle informazioni a seconda delle esigenze dei destinatari.
Tale struttura è organizzata su tre livelli e
due tipi di sistemi informativi:
- sistemi operazionali, gestiscono la
registrazione delle transazioni aziendali.
Rappresentano il sistema informatico su cui
si basa l’attività di supporto all’operatività
aziendale. Costituiti da uno o più database
su cui lavorano applicazioni per la gestione
dei dati. Tali sistemi sono definiti On Line
Transaction Processing (OLTP).
- sistemi informazionali, rispondono alle
esigenze dei soggetti che controllano le
informazioni a livello aggregato.
Sistemi legacy
I sistemi legacy sono applicazioni software obsolete e difficilmente adattabili ai nuovi
requisiti di business che spesso influiscono negativamente sulla competitività
aziendale anche perché privi di progettazione e documentazione di supporto.
Le motivazioni che portano le aziende a non abbandonarli sono:
- compito consolidato
- costo di riprogettazione proibitivo
- il sistema informativo necessità della disponibilità del sistema legacy, che non può
essere dismesso
- solo chi li ha progettati ne comprende appieno la logica
- sono strumenti funzionali utili all’azienda
Nei sistemi legacy vi è una stretta dipendenza e, quindi
un elevato grado di sovrapposizione tra Piattaforma
tecnologica, Procedure gestionali e Organizzazione
aziendale.
Il sistema non è parametrizzabile ma molto personalizzabile.
Best of Breed
Con Best of Breed (BoB) si definisce un’applicazione software dedicata
alle gestione di micro-aree in merito ai fabbisogni informativi aziendali.
Sono applicazioni con un elevato tasso di specializzazione, ciò
comporta:
- vantaggio competitivo rispetto ad altri applicativi
- difficile integrazione nel Sistema Informativo Aziendale
In merito alle applicazioni specializzate è nato un filone di studi
Enterprise Application Integration (EAI).
La decisione di utilizzare BoB deve tenere conto dei costi di
integrazione in relazione all’importanza delle esigenze aziendali.
Sistemi gestionali
Le caratteristiche dell’organizzazione influenzano la progettazione dei sistemi legacy.
I software gestionali, al contrario, presentano una strutturazione modulare che permette di
supportare lo svolgimento di attività aziendali tipiche.
Software gestionali e sistemi legacy gestiscono database distinti. Ciò comporta problemi
di integrazione.
Con un sistema gestionale si può
evidenziare una maggiore
indipendenza fra le componenti
rispetto ai sistemi legacy.
Nonostante ciò esiste ancora una
rigidità strutturale dovuta a:
- assenza di un substrato software
(middleware) che renda trasparenti
le procedure gestionali rispetto alla
piattaforma tecnologica
- rigidità interna dell’organizzazione
Confronto fra i sistemi
Per operare un confronto fra i sistemi operazionali è necessario
determinarne le caratteristiche tenendo conto delle sue componenti
(piattaforma tecnologica, procedure gestionali, organizzazione aziendale, risorse disponibili)
Una descrizione delle caratteristiche può essere ottenuta considerando
chiavi trasversali alle componenti, tramite:
- efficienza operativa
- livello di copertura delle attività aziendali
- livello di specializzazione dell’applicazione
- integrabilità con gli applicativi esistenti.
Integrabilità tra sistemi operazionali
La seguente tabella evidenzia come vi sia, a seconda del sistema
considerato, una valutazione bassa in termini di integrabilità.
Per i sistemi BoB è importante sottolineare come questi vengano spesso
utilizzati congiuntamente ai sistemi gestionali per contrastare il loro
orientamento molto generale (bassa specializzazione).
La svolta nelle ERP
La necessità di ricorrere ai BoB è stata per lungo tempo una scelta
obbligata anche per le organizzazioni che utilizzavano un sistema
Enterprise Resource Planning (ERP).
Nonostante questi sistemi offrano il miglior compromesso tra efficienza
operativa, integrabilità e copertura delle attività, si è sempre riscontrata
la mancanza di applicazioni che offrissero un supporto ai decisori.
Negli ultimi anni questa situazione ha subìto una svolta grazie alla
decisione aziendale di sviluppare specifiche applicazioni o di acquisire
società operanti nella business intelligence.
Ciò permette di includere nelle ERP funzionalità a carattere transizionale.
I vantaggi dell’ERP
Un sistema ERP è un’applicazione standard e personalizzabile che
include soluzioni integrate di business per i processi chiave e le principali
attività di carattere amministrativo in azienda.
Il principale beneficio dell’implementazione di un ERP deriva dal
cambiamento in termini di processi di business, struttura organizzativa, ruoli
e professionalità dei membri dell’organizzazione e conoscenza della
gestione delle attività.
Alla base di questa implementazione sono i vantaggi in termini di:
- miglioramento dell’efficienza
- riduzione dei costi
- aumento della flessibilità
L’Information Tecnology (IT) assume così un ruolo decisivo.
I vantaggi dell’ERP
Un sistema ERP fornisce una visione unitaria della gestione
aziendale e permette di controllarne l’evoluzione con informazioni
integrate e aggiornate.
Le ERP lavorano su una base di dati centralizzata su cui sono
memorizzate tutte le transazioni effettuate. Il database centralizzato
memorizza i dati provenienti dalle applicazioni dei moduli ERP dedicati
alle diverse attività.
L’architettura dei sistemi ERP è basata sulla tecnologia client-server,
puntando sulla delocalizzazione dell’elaborazione delle informazioni.
Strati logici dell’architettura ERP
I tre strati logici di un’architettura ERP standard sono:
- strato di presentazione: composta da una GUI o un browser, per
l’inserimento dati e accesso alle funzioni del sistema
- strato applicativo: riguarda le funzioni, le regole di business, le
procedure, la logica e i programmi che operano sui dati ricevuti/trasferiti
da/verso i database server
- strato della base di dati: gestisce i dati operazionali attraverso gestori
di basi di dati relazionali
Caratteristiche ERP
Le caratteristiche che differenziano gli ERP
dagli altri applicativi per la gestione
dell’informazione aziendale sono:
- orientamento ai processi
- procedure standard
- modularità
- integrabilità
- parametrizzazione e personalizzazione
La figura riporta le macro componenti di un
ERP in cui si evidenzia il beneficio derivante
dall’indipendenza delle logiche procedurali
da piattaforma tecnologica e
organizzazione aziendale.
Moduli ERP
I vari ERP integrano alcuni processi basilari messi rilievo dalle best practice,
tra questi:
- amministrazione
- logistica
- vendite
- acquisti
- produzione
- pianificazione delle risorse
- personale
Sistemi informazionali
I sistemi informazionali sfruttano il patrimonio dei dati per identificare le
informazioni utili al processo decisionale seguendo la logica del decisore
e fornendo la possibilità di visioni diversamente integrate dei dati.
L’attività di Business Intelligence dei sistemi informazionali è
volta a estrarre informazioni dai dati di business
Le tecnologie a supporto delle attività di BI si sono sviluppate grazie al ricorso a
sistemi di analisi interattivi come On Line Analytical Processing (OLAP) e di
data mining, che operano sulla base di dati informazionale denominata Data
Warehouse (DW) e orientati al cosiddetto knowledge discovery.
Terminologia sistemi informazionali
Nell’ambito dei sistemi informazionali sono d’uso corrente i seguenti
termini:
- Data Warehouse: base di dati informazionale che raccoglie in un unico
“magazzino” (warehouse) tutti i dati di interesse per l’azienda
- Data Warehousing: insieme di attività che porta alla definizione,
costruzione e mantenimento della struttura delle informazioni del DW
- Decision Support System (DSS): sistemi informatici che estraggono
informazioni per il supporto al processo decisionale
- Data mining: insieme di strumenti e tecniche per estrarre dai dati
informazioni nascoste (spesso relazioni non immediate)
- Knowledge management: insieme di competenze e conoscenze che
una persona porta in azienda e dei dati reperibili online. È un fattore
cruciale nell’utilizzo dei DW.
Data Warehouse
Il Data Warehouse descrive il processo di acquisizione, trasformazione
e distribuzione di informazioni presenti all’interno o all’esterno delle
aziende.
Al contrario dei normali sistemi gestionali non automatizza le
operazioni di routine.
Introduce il concetto di TOTALE INDIFFERENZA rispetto alle
caratteristiche architetturali dei sistemi transizionali e alla
dislocazione fisica dei dati nei diversi database.
Costituzione Data Warehouse
Il DW può essere costruito secondo modalità differenti che
influenzano l’architettura dei sistemi.
I sistemi DW sono solitamente costituiti da:
- data warehouse vero e proprio, il database che mantiene le informazioni;
- procedure che utilizzano il DW, il risultato finale si ricava dai sistemi DW
solitamente grazie a strumenti di data mining come gli analizzatori OLAP.
Data mining
I sistemi di data mining portano alla luce informazioni nascoste nei dati.
Trattano un’enorme quantità di dati, svolgendo le seguenti elaborazioni:
- ricerca degli schemi che si ripetono
- associazione tra i dati
- cluster, dati distribuiti attorno a particolari valori
- singolarità, dati che si discostano dalla maggioranza
- tendenze
Il concetto di data mining è
correlato alla solidità del
sistema di DW, è pertanto
INDISPENSABILE disporre
e utilizzare tecniche di
gestione di strutture DW per
riuscire a sfruttare appieno
la strategia di data mining.
Sistemi operazionali e informazionali
L’informazione analitica si differenzia in modo marcato dall’informazione operazionale.
Sistemi operazionali
Sistemi informazionali
- Fine: esecuzione operazioni di routine
- Fine: descrivere il passato, identificare i
- Dati: articolati attorno a funzioni,
procedure ed eventi
problemi e le cause, suggerire
cambiamenti per il futuro
- Utenti: personale esecutivo
- Dati: le informazioni riguardano il
soggetto (individuali o collettivi)
- Lavoro: aggiornamento/inserimento
giornaliero dei dati
- Utenti: livello decisionale.
- Lavoro: cogliere le relazioni tra i dati
Queste differenze tra i dati dei due sistemi rendono le basi di dati progettate per
l’uno inservibili per l’altro.
Evoluzione dell’ERP
Oggi è sempre più importante far convergere le funzionalità dei
sistemi operazionali e le funzionalità dei sistemi informazionali.
Le aziende si sono accorte dell’importanza di trasferire la prospettiva
aziendale dall’interno verso l’esterno; l’efficienza interna non è più
l’unico fattore determinante.
Risulta cruciale poter interagire con i propri partner condividendo i
processi aziendali interni agli attori esterne.
Da catena del valore si è giunti al sistema del valore, in cui l’azienda è
una parte della catena composta da tutti i soggetti che aggiungono
valore in diverse fasi del processo.
ERP esteso
Oggi si è di fronte a una
configurazione complessa che
all’importanza
dell’organizzazione interna
all’azienda affianca la necessità
di dover gestire l’iterazione fra
moduli ERP estesi appartenenti a
suite ERP eterogenee dal punto
di vista tecnologico.
L’ERP esteso è molto
complesso.
Dallo schema si evince come i
moduli ERP estesi fungano da
anello di congiunzione tra le
catene del valore dell’azienda e
quelle dei soggetti che a essa si
interfacciano.
Customer Relationship Management
Il modulo CRM (Customer Relationship Management) supporta lo schema ERP
esteso rappresentando, come gli altri moduli delle schema, l’iterazione con i
soggetti con cui l’azienda si interfaccia durante i processi di Business.
Il CRM è dedicato a gestire i flussi informativi relativi alle attività commerciali, di
marketing e post-vendita.
Ha come elemento centrale il cliente e la sua fidelizzazione.
Permette l’analisi dei processi di vendita per la consultazione di informazioni sui
clienti attuali e potenziali.
Il CRM è una strategia di business il cui scopo è la costruzione di relazioni
personalizzate di lungo periodo con il cliente.
Permette di capire e anticipare i bisogni dei clienti.
Marketing e CRM
Dal punto di vista tecnologico il CRM coinvolge:
- individuazione e cattura dati clienti in tutta l’azienda
- consolidamento di questi dati in un database centrale (Customer Database)
- analisi dati per individuare informazioni
- distribuzione dei risultati ottenuti a tutta l’organizzazione
- utilizzo di queste informazioni nelle relazioni con il cliente.
A differenza del marketing tradizionale, il CRM punta a preservare il cliente
attraverso una strategia a medio-lungo termine.
Componenti sistema CRM
Nel CRM si possono individuare due macro aree funzionali:
- CRM operativo: supporta le attività quotidiane di interazione con il mercato
- CRM analitico: detto anche CRM intelligence, applica le nuove logiche e
indicatori del marketing relazionale sui dati integrati dei clienti al fine di generare
nuove azioni di contatto della clientela, personalizzate e tempestive.
Le due aree devono essere
integrate al meglio e creare un
ciclo iterativo continuo tra loro.
Il CRM analitico comprende:
- strumenti di reporting
- strumenti di analisi
- strumenti di simulazione
Restanti moduli di iterazione: SCM
La Supply Chain (SC, catena di fornitura) è l’insieme di tutte le attività riguardanti la
creazione di un bene, dalle materie prime al prodotto finale, nonché la gestione dei
sistemi informativi per il controllo di tutte queste attività.
Il SCM è una filosofia di gestione che coordina e integra tutte le attività della SC in un
processo omogeneo. Unisce tutti i partner della filiera produttiva, sia interni sia esterni,
focalizzandosi su come sfruttare al meglio la tecnologia e le competenze per
aumentare il vantaggio competitivo.
Restanti moduli di iterazione: PLM
L’innovativo modulo PLM (Product Lifecycle Management), o gestione del ciclo di
vita del prodotto, garantisce nuove forme di collaborazione interaziendale.
Permette di seguire COLLABORATIVAMENTE il ciclo di vita del prodotto.
Tutta la documentazione è condivisa, fornendo gli strumenti strategici e operativi
volti a monitorare l’impatto di eventuali variazioni gamma o di produzione sui
costi, le risorse coinvolte e le tempistiche di sviluppo.
IL PLM rappresenta quindi un nuovo
approccio integrato di business che
realizza una gestione integrata,
collaborativa e cooperativa delle
informazioni del prodotto lungo le
diverse fasi del suo ciclo di vita.
Restanti moduli di iterazione: BI
Il modulo di Business Intelligence (BI), che a differenza dei precedenti
(CRM, SCM, PLM) non appartiene né al sistema ERP core né al sistema
ERP esteso, supporta comunque il processo della definizione delle linee
strategiche.
La novità del BI risiede nella possibilità di supportare il processo
decisionale tramite analisi multidimensionali dei dati.
Queste analisi permettono di simulare scenari di business da condividere
internamente ed esternamente all’azienda.
Approccio al data warehousing
Il data warehousing rappresenta l’insieme di metodi, tecnologie e
strumenti per condurre analisi dei dati finalizzate all’attuazione di
processi decisionali e al miglioramento del patrimonio informativo.
Abbiamo visto che un DW è una collezione di dati statici integrati,
organizzata per soggetti, che riguarda una serie di fatti accaduti nel tempo
e finalizzata al recupero di informazioni a supporto di processi decisionali.
I dati provengono da “sorgenti informative” differenti; il DW riconcilia
questa eterogeneità rappresentando tutti i dati mediante un unico
modello e portando a:
- uniformità dei nomi utilizzati
- codifica comune
- rappresentazione conforme dei record per la rappresentazione dei dati
Caratteristiche garantite dal DW
Il processo di costruzione di un DW deve garantire le seguente
caratteristiche:
- accessibilità a utenti con poca dimestichezza con informatica e database
- integrazione dei dati su modello standard dell’impresa
- flessibilità di interrogazione per trarre il massimo vantaggio dal patrimonio
informativo esistente
- sintesi per permettere analisi mirate ed efficaci
- rappresentazione multidimensionale per una visione intuitiva ed
efficacemente manipolabile delle informazioni
- correttezza e completezza dei dati integrati
Cuore del processo è il data warehouse come contenitore di dati che si fa
garante dei requisiti appena esposti.
DW come supporto al processo decisionale
La collezione di dati che il DW rappresenta diviene un supporto al processo
decisionale, incentrato sui seguenti aspetti:
- è orientato ai soggetti di interesse
- è integrato e consistente
- è rappresentativo dell’evoluzione temporale
- è resiliente, cioè adattabile e flessibile ai nuovi comportamenti
Compiti del DW
Compito del DW è quindi consolidare i dati e metterli a disposizione.
Per essere utilizzati senza conseguenze sulle performance del sistema
gestionale e migliorare l’identificazione del target di utenza, i dati estratti
dai vari processi devono essere:
- sommarizzati (riepilogati)
- omogeneizzati (resi consistenti)
- trasferiti a un sistema progettato per il supporto decisionale
Utenti del DW
Chiunque si trovi in un’azienda o organizzazione che sia rivolta alla
soddisfazione del cliente è un possibile utilizzatore di un sistema DW.
Gli utilizzatori di un DW si distinguono in:
- Utenti casuali (casual user), per cui sono sufficienti analisi predefinite
- Analisti (business analyst), utilizzano le analisi per individuare i trend di
mercato ma non possiedono conoscenze tecniche per costuire i propri
record
- Utenti esperti (power user), possiedono le conoscenze per costruirsi le
proprie interrogazioni
- Professional, costruiscono i report per casual user e analisti
L’OLTP di Edgar Codd
Negli anni ‘80 E. Codd coniò il termine OLTP (On-Line Transaction Processing).
I sistemi operazionali costituiscono l’infrastruttura informatica su cui poggia
l’attività esecutiva (progettazione, produzione, vendita di prodotti ed erogazione di
servizi, ma anche attività di supporto come amministrazione, pianificazione e
controllo operativo).
Un sistema operazionale è una base di dati su cui agiscono procedure di
aggiornamento, interrogazione ed elaborazione.
L’OLTP si è rivelato carente da diversi punti di vista:
- nella produzione di dati di sintesi
- nella possibilità di interrogare facilmente il database
- nella disponibilità di dati fondamentali per il processo decisionale
- nella coerenza del sistema
- nella velocità di risposta alle interrogazioni
- nella copertura temporale
La regola FASMI
Nel 1993 Codd scrisse un articolo dal titolo Providing OLAP (On-Line Analytical
Processing) to user analyst in cui proponeva le regole per definire una metodologia
OLAP, tali regole NON vennero mai prese in considerazione.
Nel 1995 l’OPAL Report propose nuove regole e una semplice formula per definire la
cosiddetta regola FASMI:
- Fast: tempi di risposta veloci
- Analytical: deve elaborare analisi statistiche in maniera semplice per l’utente
- Shared: deve fornire regole per la sicurezza, al fine di garantire la riservatezza dei
dati
- Multidimensional: è il requisito PIÙ IMPORTATE e permette la rappresentazione
dei dati in multidimensione
-Informational: deve contenere tutte le informazioni necessarie indipendentemente
da dove esse siano immagazzinate
Per ottenere le caratteristiche FASMI si usano varie tecnologie, per esempio
architetture client-server o metodi di calcolo parallelo.
OLTP e OLAP
Le interrogazioni OLTP eseguono transazioni che leggono e scrivono un ridotto numero di
record da diverse tabelle legate da semplici relazioni. Il nucleo sostanziale del carico di lavoro è
concentrato all’interno dei programmi applicativi.
Le interrogazioni OLAP, invece, effettuano un’analisi dinamica e multidimensionale che richiede
la scansione di una vasta quantità di record per calcolare un insieme di dati numerici di sintesi
che qualifichino le prestazioni dell’azienda.
Le principali differenze tra
i due sistemi sono:
Requisiti del data warehousing
La struttura di un DW deve garantire alcuni requisiti che, a loro volta, devono
soddisfare le condizioni di utilizzo dello stesso database rispetto agli utenti
interessati; fra queste evidenziamo le principali:
- Separazione tra elaborazione analitica e elaborazione transazionale
- Scalabilità dell’architettura hardware e software a fronte della crescita del tempo
dei volumi di dati da gestire ed elaborare e del numero di utenti
- Estendibilità del sistema con nuove applicazioni e tecnologie
- Sicurezza degli accessi, fattore essenziale della natura dei dati
- Agevolezza amministrativa
L’operazione di raccolta e incasellamento di dati eterogenei in un
unico modello è il passaggio cruciale su cui fondare la strategia
architetturale di un DW.
Data mart
Il DW per completezza e profondità storica può raggiungere dimensioni elevate e
spesso contenere dati che a qualcuno potrebbero NON servire.
Al fine di ridurre la complessità viene utilizzato un data mart, una sorta di
DW tematico che contiene solo i dati riguardanti una certa area di indagine.
Un DW genera differenti data mart in relazione alle esigenze aziendali.
Architettura a 1 livello
L’architettura a 1 livello
rappresenta l’approccio più
semplice in cui, fra i dati
operazionali (livello delle
sorgenti) e gli strumenti del
livello di analisi esiste uno
strato intermedio (middleware)
il cui compito è strettamente
legato alla rappresentazione
informazionale dei dati
all’interno del DW vero e
proprio.
NON prevede data mart.
Architettura a 2 livelli
Nell’architettura a 2 livelli il DW viene
alimentato attraverso processi di Extraction,
Trasformation and Loading (ETL) dai dati
provenienti da strutture eterogenee.
I data mart generati a partire dal DW primario
sono detti dipendenti. Tale soluzione si colloca
in realtà aziendali medio-grandi in cui i data
mart divengo utili:
- come blocchi costruttivi durante la
realizzazione incrementale del DW
- in quanto delineano le informazioni
necessarie a un particolare utente per le sue
interrogazioni
- poiché permetto prestazioni migliori
In alcuni casi si preferisce adottare data mart indipendenti, alimentati direttamente dalle
sorgenti.
Tale soluzione porta all’assenza di un DW primario con fasi progettuali snelle ma complesso
schema di accessi ai dati e rischio di inconsistenze tra i data mart.
Architettura a 3 livelli
Nell’architettura a 3 livelli, il livello di
alimentazione passa attravero la
riconciliazione dei dati; tale fase prevede un
pulitura (inserimento dati mancanti,
eliminazione di quelli duplicati, eliminazione
valori errati o inconsistenti ecc.) dei dati da
inserire nel DW.
Il vantaggio principale del livello dei dati
riconciliati è che esso crea un modello di
dati comune e di riferimento per l’intera
azienda, introducendo al contempo una
separazione netta tra le problematiche legate
all’estrazione e integrazione dei dati dalle
sorgenti e quelle inerenti l’alimentazione del
DW.
D’altro canto, i dati riconcilianti introducono
un’ulteriore ridondanza rispetto ai dati
operazionali sorgente.
Le fasi ETL
Il ruolo degli strumenti ETL (Extraction, Transformation and Loading) è quello
di alimentare una sorgente dati singola, esauriente, dettagliata e di alta qualità
che possa a sua volta alimentare il DW.
Durante il processo di alimentazione del DW, la riconciliazione avviene in due
occasioni:
- quando il DW viene riempito per la prima volta
- periodicamente, quando il DW viene aggiornato
Gli strumenti ETL sono riconducibili all’interno delle seguenti fasi:
- estrazione
- pulitura
- trasformazione
- caricamento
Estrazione
Nella fase di estrazione i dati rilevanti
vengono estratti dalle sorgenti.
L’estrazione statica viene effettuata
quando il DW deve essere popolato
per la prima volta. Consiste in una
fotografia dei dati operazionali
L’estrazione incrementale, invece,
viene usata per l’aggiornamento
periodico del DW. Cattura solo i
cambiamenti avvenuti nelle sorgenti
dall’ultima estrazione.
Pulitura
La pulitura rappresenta una fase delicata in quanto determina il miglioramento
della qualità dei dati delle sorgenti.
Le principali operazioni di
pulitura interessano:
- dati duplicati
- inconsistenza tra valori
logicamente associati
- dati mancanti
- uso non previsto in un campo
- valori impossibili o errati
- valori inconsistenti per la
stessa entità, dovuti a differenti
convenzioni
- valori inconsistenti per la
stessa entità, dovuti a errori di
battitura
Trasformazione
La trasformazione converte i dati
dal formato operazionale sorgente
a quello del DW.
La corrispondenza con il livello
sorgente è complicata dalla
presenza di fonti eterogenee.
Per quanto riguarda l’alimentazione
di dati riconciliati, i passi da tenere
in considerazione sono:
- conversione e normalizzazione
- matching
- selezione
- aggregazione
Caricamento
L’ultimo compito spetta al
caricamento dei dati nel DW che può
avvenire attraverso due differenti
modalità:
- refresh i dati sono riscritti
sostituendoli ai precedenti
- update i soli cambiamenti occorsi nei
dati sorgente vengono aggiunti nel
DW.
La fase di caricamento deve tenere
conto di un aspetto
FONDAMENTALE, quello legato alle
dimensioni dei volumi e alla
struttura fisica del DW.
Il fatto nel modello multidimensionale
L’accuratezza delle fasi ETL determina la qualità dei dati.
I dati di un DW sono presentati all’utente finale attraverso una rappresentazione ad
alto livello che organizza i dati per aree di interesse e memorizzati su uno
schema basato sul modello concettuale noto come modello multidimensionale.
Il modello multidimensionale è il fondamento per la rappresentazione e
l’interrogazione dei dati nei DW.
La prima nozione alla base del modello multidimensionale è il fatto il quale:
Descrive un concetto del sistema informativo aziendale sul quale ha senso
svolgere un processo di analisi orientato al supporto alle decisioni
Rappresentazione grafica modello multidimensionale
Nella rappresentazione grafica del modello multidimensionale i fatti sono rappresentati da
cubi multidimensionali (data cube), costituiti da elementi atomici chiamati celle.
Un cubo multidimensionale è incentrato su un fatto e al suo interno:
- ogni cella contiene le misure che quantificano il fatto da differenti punti di vista,
tipicamente è un attributo numerico
- ogni asse rappresenta un dimensione di interesse per l’analisi, è quindi una particolare
prospettiva lungo la quale l’analisi di un fatto può essere condotta.
Analizziamo un esempio:
Fatto: vendita di articoli di un’azienda commerciale
che dispone di una catena di supermercati; si
vogliono stabilire le misure in termini di quantità e
costi di un articolo venduto in un certo periodo di
tempo in un determinato supermercato ubicato in
uno specifico luogo.
Il fatto nella sua interezza
L’esempio appena analizzato circoscrive specifici valori di misure, il fatto però è
espressione di molteplici valori, pertanto:
Il cubo visto nell’esempio è solo uno dei tanti cubi che costituiscono il fatto.
Il fatto vendita sarà, infatti, così rappresentato:
Cubi e ipercubi
In realtà le dimensioni di analisi potrebbero essere più di tre, per esempio le
vendite potrebbero essere analizzate considerando anche le tipologie dei clienti,
in questo caso si viene a creare un ipercubo:
Gerarchie delle dimesioni
Il modello multidimensionale è simile a quello degli array multidimensionali con l’unica
differenza che: se negli array l’accesso è garantito da indici con ordine lineare, nel
modello multidimensionale sugli indici potrebbe non essere definito un ordine.
È però possibile definire un ordine parziale attraverso le gerarchie delle dimensioni.
La gerarchia di una dimensione
dipende dal modo in cui la
dimensione stessa è organizzata
e da come si intende passare da
una visione di dettaglio a una più
generica e viceversa.
L’esempio in figura mostra un
eventuale gerarchia della
dimensione prodotto in termini di
categoria –> tipo –> prodotto.