Il data warehouse statistico come fonte per la

V CONFERENZA NAZIONALE DI STATISTICA
Innovazione tecnologica e informazione statistica
Il datawarehouse statistico come fonte per la diffusione
dell’informazione e il controllo di qualità
Enrico Giovannini1, Alberto Sorce2
Istituto Nazionale di Statistica – ISTAT
1. Introduzione
L’organizzazione e le attività degli Istituti nazionali di statistica stanno cambiando rapidamente
per differenti fattori, quali l’adozione dei nuovi regolamenti europei nel campo delle statistiche, la
crescita e la diversificazione del fabbisogno informativo da parte degli utilizzatori, la necessità di
ridurre il carico statistico sui rispondenti e la continua innovazione nel campo delle tecnologie
informatiche. Ciò implica rilevanti modificazioni nell'organizzazione degli Istituti e nelle metodologie
adottate.
Non esistono soluzioni organizzative e metodologiche immediate atte a soddisfare tutte le
necessità. Gli sforzi volti a definire modelli organizzativi generali restano spesso esercizi teorici, di
difficile realizzazione pratica. D'altra parte, molti lavori affrontano la problematica esclusivamente dal
punto di vista dell'information technology, trascurando aspetti che rendono i sistemi informativi
statistici nettamente più complessi di altre tipologie di sistemi (ad esempio, la necessità di
compilazione dei metadati, al fine di consentire un’adeguata valutazione della qualità delle
informazioni statistiche).
Questo lavoro concentra la propria attenzione sullo sviluppo di SISSIEI, il Sistema Informativo
Statistico Sulle Imprese e le Istituzioni realizzato dal DIpartimento delle Statistiche Economiche (DISE)
dell'ISTAT, il quale rappresenta una struttura multidimensionale dedicata a ricondurre in un quadro
organico tutte le statistiche prodotte del Dipartimento con riferimento alle aziende agricole, alle
imprese ed alle istituzioni pubbliche e private. Il Sistema è stato disegnato come un elemento
unificante delle attività statistiche sulle imprese e le istituzioni, al fine di produrre in modo più efficiente
le informazioni statistiche, ad accrescerne le qualità ed a razionalizzare i flussi informativi raccolti
presso le unità statistiche. Esso implica un vero e proprio "cambiamento culturale" nella realizzazione
delle rilevazioni: infatti, come per il sistema dei conti nazionali, SISSIEI intende rappresentare la
struttura nella quale tutti i singoli processi statistici tendono ad essere inseriti, codificati ed integrati.
2. I regolamenti dell'Unione europea e l'organizzazione degli Istituti di statistica
I regolamenti comunitari emanati negli ultimi anni in campo statistico, in particolare nel campo
delle statistiche economiche, possono essere pensati come singoli "mattoni" volti alla costruzione di
un complesso sistema informativo statistico. I regolamenti che riguardano le unità statistiche, le
classificazioni delle attività economiche, i registri delle unità, le statistiche strutturali, le statistiche
congiunturali, i conti nazionali e specifici settori (il turismo, i trasporti, ecc.) sono stati basati su
1
2
Direttore del Dipartimento delle statistiche economiche dell'Istat ([email protected])
Responsabile del coordinamento del sistema informativo statistico su istituzioni e imprese dell'Istat ([email protected])
1
concetti, definizioni e classificazioni coerenti tra loro ed hanno via via imposto agli Stati membri
notevoli cambiamenti nelle organizzazioni e nelle metodologie adottate fino all'inizio degli anni
novanta. Allo stesso tempo, i sistemi statistici nazionali hanno dovuto perseguire un sempre più
elevato livello di efficienza, soprattutto in dipendenza della riduzione delle risorse loro assegnate in
termini reali, della necessità di accrescere la gamma delle informazioni fornite alla collettività e di
ridurre il carico statistico su rispondenti.
In Italia, l'introduzione dei regolamenti statistici è stata accolta come un'opportunità di sviluppo
del sistema delle statistiche economiche, attraverso la quale si è cercato di coniugare insieme aspetti
di carattere organizzativo, metodologico, istituzionale e tecnologico, quali:
• l’ampia utilizzazione di informazioni amministrative per scopi statistici, favorita dalla legislazione
nazionale che consente all'Istat l'accesso a tutti i dati di questa natura;
• lo sviluppo di sistemi di metadati coerenti;
• l'adozione coordinata di nuove metodologie statistiche in differenti fasi delle indagini;
• l'adozione di nuovi sistemi informatici, con il passaggio dal mainframe a sistemi distribuiti;
• il coinvolgimento degli utenti nella definizione di prodotti e dei rispondenti nella definizione di
strategie per la raccolta efficiente dei dati.
Lo sviluppo di un disegno sistemico ha condotto, nel 1997, ad una riorganizzazione del
Dipartimento delle statistiche economiche (all'epoca denominato "Direzione centrale per le statistiche
sulle imprese e le istituzioni") basata su una suddivisione degli uffici volta ad unificare processi
produttivi analoghi, indipendentemente dal settore di interesse delle rilevazioni. L'adozione di un
approccio per “processo" (e non per "settore"), completata con la recente creazione della Direzione
per le statistiche strutturali, la Direzione per le statistiche congiunturali, la Direzione per i censimenti e
gli archivi, ha favorito l’attenzione al miglioramento delle diverse fasi delle indagini, consentendo un
uso più efficace delle risorse umane ed un guadagno di efficienza e di qualità.
Questa modalità organizzativa si è andata affermando negli ultimi anni anche in altri Istituti di
statistica e all'interno dell'Eurostat stesso. Ciò ha favorito i rapporti internazionali e il coordinamento
tra strutture omogenee all'interno dei diversi Stati membri dell'Unione, tra le quali sono cresciuti
notevolmente i rapporti bilaterali e gli scambi di esperienze.
Naturalmente, un approccio organizzativo che privilegia i processi rischi di perdere coerenza in
termini di prodotti. Le statistiche su un settore (ad esempio l'industria) vengono infatti realizzate in
unità operative diverse e, così facendo, si corre il rischio di fornire informazioni incoerenti o
contraddittorie, perdendo altresì quelle importanti conoscenze tematiche che rappresentano un
fondamentale strumento di controllo della qualità dell'informazione. D'altra parte, gli utenti chiedono
sempre più frequentemente informazioni integrate (si pensi al caso del mercato del lavoro) e queste
ultime possono essere fornite solamente attraverso una lettura globale dei dati congiunturali e
strutturali. Di conseguenza, è indispensabile che i singoli processi produttivi siano inseriti in un quadro
più ampio, di carattere sistemico, nel quale ritrovare quelle coerenze di presentazione e di analisi
assolutamente indispensabili dal punto di vista dell'utente. Ciò implica che un'organizzazione basata
sui processi sia accompagnata dallo sviluppo di tools che permettano la lettura e la diffusione
integrata dei dati disponibili.
La costruzione di SISSIEI risponde esattamente a queste esigenze, assicurando
l'interdipendenza tra le strutture responsabili della produzione dei diversi dati, consentendo una piena
integrazione delle informazioni prodotte, addirittura a livello di microdato. Alla base di SISSIEI c'è una
particolare "visione" del processo produttivo, basata sul concetto di corporate datawarehouse, le cui
caratteristiche principali sono descritte nel successivo paragrafo.
3. Il sistema informativo statistico sulle imprese ed istituzioni (SISSIEI): un modello
basato sul corporate datawarehouse
Tradizionalmente, le attività di un istituto di statistica sono state orientate verso la conduzione
2
delle rilevazioni e la produzione dei relativi risultati. E' evidente che, con la crescita della domanda
d'informazione e soprattutto con la crescente esigenza dell'utenza di disporre di quadri informativi
complessi, diviene sempre più difficoltoso il controllo ed il coordinamento di indagini tra loro collegate.
Esiste quindi la necessità di costruire, nell’ambito di un’organizzazione statistica, una funzione
d’integrazione delle indagini che soddisfi le necessità degli utilizzatori e che accresca l'efficienza
dell'attività statistica complessivamente considerata, anche in termini di riduzione del carico statistico
sui rispondenti. La risposta a tale esigenza è stata trovata nello sviluppo di sistemi informativi statistici.
Un sistema informativo statistico è tipicamente composto di sottosistemi che permettono la
raccolta, il trattamento, la memorizzazione, l’analisi e la diffusione dei dati statistici (Egidi e Giovannini,
1999). I processi statistici usano e producono dati statistici, i cui componenti elementari sono i
microdati, i macrodati ed i metadati. Naturalmente, ogni particolare organizzazione statistica può dare
più enfasi a certi tipi di processi statistici e definire in modo differente i microdati o i macrodati: ad
esempio, i macrodati riferenti alla popolazione di persone ed imprese, registrati dagli uffici nazionali di
statistica, possono essere visti da organizzazioni internazionali come microdati di un sistema
informativo statistico sovranazionale.
Un sistema informativo statistico, oltre ad essere costruito per produrre prodotti statistici, può
avere scopi più generali, come ad esempio quello di fornire, attraverso la messa a disposizione di
database di riferimento, un servizio ad utenti interni ed esterni (ad esempio, per l'estrazione di
campioni da archivi delle unità statistiche). In questo senso, il sistema informativo diventa una
infrastruttura comune a più processi, nella quale differenti tipi di sottosistemi informativi svolgono uno
specifico compito e interagiscono tra di loro. Di conseguenza, il sistema informativo di
un’organizzazione deve essere coerente con l’architettura dell’organizzazione stessa, così da
identificare i compiti delle diverse strutture elementari e le loro responsabilità: l'aumento
dell'integrazione tra strutture, infatti, rende ciascuna di queste maggiormente dipendente dalle altre,
riducendo gli spazi di manovra dei singoli, ma aumentando l'efficienza complessiva
dell'organizzazione.
Grazie agli sviluppi tecnologici degli ultimi anni, è possibile sviluppare un unico ambiente di
integrazione, il quale colleghi processi e basi di dati sviluppati localmente, anche con architetture
diverse tra di loro. Di conseguenza, la funzione d’integrazione deve essere molto flessibile e poter
essere utilizzata direttamente da molti utenti, attraverso strumenti user friendly. D'altra parte, per
permettere agli utilizzatori di navigare nei dati provenienti da differenti indagini in modo pienamente
avveduto, la funzione di integrazione deve consentire di associare i valori assunti dalle diverse
variabili con le relative definizioni (metadati).
Una possibile "visione" di un sistema informativo integrato è quella contenuta nella figura 1,
tratta da ONU (1999), basata sullo sviluppo di un corporate datawarehouse, articolato in diverse aree,
con il quale le singole unità produttive (analytical processing systems) interagiscono mediante
software generalizzati per acquisire dati, elaborarli e restituirli al sistema, dal quale si estraggono poi
gli "ipercubi" che sono utilizzati per la definizione dei prodotti per l'utenza.
Benché, sempre più spesso, anche i singoli processi produttivi tendano a farsi più complessi,
operando integrazioni tra fonti diverse (ad esempio, tra dati statistici e dati amministrativi), in genere
esiste una funzione centralizzata di integrazione. Tale unicità si può ritrovare a livello dipartimentale
(come nel caso dell'Istat) o addirittura a livello d'Istituto (come nel caso dell'Istituto statistico olandese),
ma essa è sempre svolta separatamente dai singoli processi produttivi. Naturalmente, deve esistere
una buona collaborazione tra le strutture centralizzate e decentrate, nonché procedure di
comunicazione e responsabilità ben definite, in modo da evitare ridondanze e duplicazioni.
La struttura di integrazione in un’organizzazione statistica deve facilitare lo scambio dei dati (e
dei metadati) tra le strutture che sovrintendono alla creazione dei registri delle unità e quelle che
svolgono le rilevazioni, tra queste ultime e quelle che realizzano prodotti complessi, ecc. Il concetto di
"rete" è assolutamente cruciale in tale organizzazione ed è per questo che, in molti casi, la sua
concreta realizzazione impone un "salto culturale": passare da un'organizzazione frammentata, nella
quale però l'autonomia della singola unità è sostanzialmente salvaguardata, ad un'organizzazione
integrata, in cui ognuno dipende dagli altri, richiede ai singoli un’importante modificazione del proprio
3
Figura 1. Un'architettura di sistema informativo per organizzazioni statistiche
modo di operare ed al management dell'organizzazione un impegno continuo per assicurare
l'efficienza e la funzionalità di tutte le parti del Sistema.
Il Sistema Informativo Statistico sulle Imprese e le Istituzioni SISSIEI adotta pienamente la
visione ora descritta, tendendo ad integrare tutte le diverse operazioni svolte all'interno del DISE.
Rinviando ad altri lavori per la descrizione del Sistema (Giovannini e Sorce, 2000; Calzaroni,
Giovannini e Sorce, 2000), in questa sede è opportuno sottolineare come SISSIEI sia basato su
diversi navigatori per esplorare la basi di dati statistici e su un dizionario dei dati, il quale consente di
collegare tra di loro le variabili provenienti dalle diverse indagini. Il Sistema permette l'accesso on-line
a microdati e usa comandi SQL. Ad esempio, attraverso un processo OLAP (On-line Analitical
Process) è possibile ottenere, in una sola videata, tutti i microdati provenienti da diverse rilevazioni
riferiti ad un'unica impresa, perfettamente referenziata sul piano anagrafico (indirizzo, forma giuridica,
ecc.) e statistico (settore di attività, numero di addetti, ecc.).
Nella figura 2 sono riportate le aree principali in cui è articolato il Sistema. Esso è articolato in
due aree: la prima, relativa alle aziende agricole e alle imprese industriali e dei servizi; la seconda,
riferita alle istituzioni pubbliche e private. Ciascun sottosistema poggia sui relativi archivi delle unità
giuridico-economiche, secondo quanto previsto dal regolamento comunitario n. 2186/93. In
particolare, nel caso del sistema sulle imprese, si hanno l’Archivio statistico delle aziende e delle
imprese agricole (ASAIA, oltre 2.700.000 soggetti) e quello relativo alle unità operanti nei settori
industriali e del terziario (ASIA, circa 3.500.000 imprese); nel caso delle istituzioni, l’Archivio statistico
delle istituzioni pubbliche (ASIP1, circa 10.000 soggetti) è affiancato da quello riferito alle istituzioni
private (ASIP2, circa 300.000 unità).
Naturalmente, vista la dimensione di SISSIEI non esiste un'unica base di dati, ma una rete di
database integrati e navigabili con strumenti generalizzati. Inoltre, nel sistema sono disponibili alcuni
tools generalizzati per l'estrazione di liste, di campioni, ecc.
Quando sono disponibili i dati validati, SISSIEI serve come base per la costruzione di data
warehouse (DW) per la diffusione. In particolare, nel 1998 l’Istat ha prodotto ed esposto su Internet il
suo primo DW per la diffusione dei risultati del censimento intermedio sulle imprese industriali e dei
servizi riferito all’anno 1996. Il successo di questo nuovo strumento è stato estesamente riconosciuto
4
Figura 2: Struttura generale di SISSIEI
Sistema informativo statistico
sulle imprese e le istituzioni
SISSIEI
Sistema informativo statistico
sulle imprese
Sistema informativo statistico
sulle istituzioni
SISSI
SISSIS
Sottosistema
informativo
dell'agricoltura
Sottosistema
informativo
sulle imprese
industriali e dei servizi
Archivio statistico
delle aziende agricole
Sottosistema informativo
sulle istituzioni pubbliche
SISPA
Archivio statistico
delle imprese attive
Archivio statistico
delle istituzioni pubbliche
Sottosistema informativo
sulle istituzioni private
Archivio statistico
delle istituzioni private
ASAIA
ASIA
ASIP1
ASIP2
Database delle informazioni
tratte dalle rilevazioni
congiunturali e strutturali
sul settore agricolo
Database delle informazioni
tratte dalle rilevazioni
strutturali e congiunturali
sulle imprese
Database delle informazioni
tratte dalle rilevazioni
sulle istituzioni pubbliche
Database delle informazioni
tratte dalle rilevazioni
sulle istituzioni private
Database delle informazioni
tratte dalle rilevazioni strutturali
sulle imprese
Database delle informazioni
tratte dalle rilevazioni congiunturali
Database delle informazioni
tratte dalle rilevazioni sul commercio
estero
dagli utenti: il database è stato reso disponibile gratuitamente su Internet (http://cens.istat.it), e da
questo, nel corso del solo 1999, oltre 2.500 utenti hanno eseguito oltre 300.000 estrazioni di tavole
statistiche, a partire da circa un milione di possibili combinazioni. Inoltre, dallo stesso database sono
stati rapidamente prodotti dall'Istat oltre 20 cd-rom e 120 volumi cartacei, senza alcun intervento
supplementare di carattere editoriale.
Per la progettazione e la realizzazione della base dati sono stati necessari circa sei mesi di
attività ed i prodotti utilizzati sono stati: SAS/Warehouse Administrator, per la costruzione del Data
Warehouse, SAS/Desktop Application Builder, per la scelta delle aggregazioni e la costruzione
dell’applicazione per la navigazione. Lo spazio disco occupato del DW è complessivamente di circa 25
GB, in quanto esso contiene non solo i risultati del censimento intermedio del 1996, ma anche quelli
derivanti dai censimenti generali del 1971, 1981 e 1991. Sono stati realizzati oltre 100 programmi per
complessivi circa 14.000 righe di codice3.
3
Più in dettaglio, mentre i dati dei censimenti del 1971, 1981 e 1991 (relativo alle sole imprese) sono stati
memorizzati in tre file distinti, uno per ogni anno, per il 1996 i dati sono stati memorizzati in due file, uno per le
imprese e uno per le unità locali. Per operare l’omogeneizzazione dei dati sono state eseguite le seguenti
operazioni:
− la riclassificazione delle attività economiche rapportandole alla classificazione attuale;
− la riclassificazione territoriale:
o per i comuni variati nel corso del tempo (modifiche a livello di provincia e comune);
o per i comuni caratteristici (comune capoluogo, grande comune);
o per l'introduzione di nuove aggregazioni territoriali extra amministrative (sistema locale del
lavoro, distretto industriale);
− la riclassificazione della forma giuridica utilizzata nel passato rapportandola alla classificazione attuale;
− l’armonizzazione della codifica del carattere artigiano, la cui definizione e decodifica è variata da un
censimento all’altro;
− l’armonizzazione della codifica del campo diffusione (unità locale sede di impresa unilocalizzata o
plurilocalizzata o non sede);
attribuzione delle variabili “diffusione territoriale dell’impresa” (comunale, provinciale, regionale, nazionale),
“diffusione sede” (posizione territoriale delle unità locali di un’impresa rispetto alla sede) e “classe di addetti” per
il 1996, effettuata in base a regole predefinite.
5
Nel corso del 2000 sono stati poi sviluppati due nuovi DW, la cui esposizione su Internet è
prevista nelle prossime settimane: il primo è riferito ai risultati delle rilevazioni annuali di carattere
strutturale sulle imprese industriali e dei servizi; il secondo contiene i risultati delle rilevazioni sul
commercio estero.
Il DW sulle statistiche strutturali è destinato ad accogliere inizialmente i risultati delle rilevazioni
sui conti delle imprese di piccole, medie e grandi dimensioni, nonché i risultati della seconda fase del
censimento intermedio (long-form). Successivamente, esso ospiterà i dati provenienti dalle altre
rilevazioni annuali, quali quelle sulla struttura del costo del lavoro, sull'innovazione tecnologica, sulla
ricerca scientifica, ecc.. La complessità del progetto risiede nel fatto che le variabili da pubblicare sono
tratte da rilevazioni diverse, sono molto numerose ed utilizzano chiavi di aggregazione piuttosto
differenti, quali il territorio, la classe dimensionale, il settore di attività economica, ecc. Inoltre, questi
dati, a differenza di quelli relativi ai caratteri identificativi delle unità censite con riferimento al 1996,
sono soggetti alle norme sul segreto statistico, cosicché si sono dovuti adottare particolari
accorgimenti volti ad evitare la violazione della riservatezza.
Il DW realizzato dall’Istat con riferimento alle statistiche sul commercio con l’estero
rappresenta, al contrario di quelli visti in precedenza, un caso nel quale esso è pienamente inserito nel
processo produttivo dei dati statistici. In effetti, esso è stato inizialmente costruito per la realizzazione
di circa 1.000 tavole contenute nell'Annuario "commercio estero ed attività internazionali delle
imprese", realizzato per la prima volta nel luglio del 1999 dall’Istat e dall’Istituto del Commercio Estero
(ICE). Di conseguenza, ci si è inizialmente concentrati sulla progettazione e creazione dei data mart e
degli info mart necessari, nonché sulla realizzazione delle diverse tipologie di tipo inquiring e reporting
on-line tramite la tecnologia web.
Successivamente, il progetto è stato ampliato, da un lato, per integrare il data warehouse
all’interno del processo produttivo dei dati mensili del commercio con l’estero e, dall’altro, per offrire
all’utenza esterna una modalità rapida ed efficiente di accesso ai dati aggregati. In questo modo, a
partire dall'inizio del 2000, un utente abilitato, attraverso la rete intranet dell’istituto, può:
− accedere ad alcuni dati “statici” su Web Server, tra cui anche le tavole dell’Annuario on-line;
− accedere ai data mart SAS su Application Server per richieste di dati aggregati (secondo formati
predefiniti);
− accedere alle fact table ed ai microdati memorizzati nel dbms Oracle per richieste ancor più
dettagliate.
Attualmente, il data warehouse contiene microdati mensili riferiti al periodo 1991-2000, per
oltre 9.000 gruppi di prodotti, ciascuno dei quali classificato per 250 paesi, 103 province di origine o
destinazione dei beni. Il volume di dati è quantificabile in circa 80 Gb, il che caratterizza questo DW
come un VLDB. A partire da questo DW, un database più limitato sarà reso accessibile in Internet,
così da consentire agli utenti l'estrazione di tavole dettagliate per prodotto ed area geografica.
4. Strategie e accorgimenti per la costruzione di data warehouse a fini statistici
Come descritto precedentemente, lo sviluppo di un corporate data warehouse è un elemento
chiave della nuova ”visione" della produzione statistica. Il DW è un sistema informativo dove i dati
sono organizzati e strutturati per un facile accesso da parte dell'utente e per supportare i processi
della decisione. I seguenti sistemi sono abilitati dal DW:
• DSS (Decisional Support System)
• EIS (Executive/Enterprise Information System).
Il primo è usato per risolvere specifici problemi, mentre il secondo è utilizzato per soddisfare una
circolazione continua dei dati, indipendentemente da specifici problemi.
Il DW è un sistema OLAP che differisce dai sistemi OLTP (On Line Transaction Processing),
sebbene i dati provengano dal secondo. I sistemi OLAP sono sistemi subject-oriented , sono integrati,
6
storici e permanenti, non comprendono dati analitici e statici come i sistemi OLTP.
Un DW è sempre diviso dal suo ambiente operativo e può comprendere anche tutti i dati
dell'ambiente operativo. I dati nel DW non vengono mai cambiati; sono memorizzati all'inizio, messi a
disposizione e non sono aggiornati come nei sistemi OLTP. Prima che siano memorizzati nel DW, i
dati sono integrati seguendo differenti strategie, come ad esempio, per nome, per unità di misura delle
variabili, per attributi, ecc..
Due sono i principali approcci per sviluppare un ambiente di DW. Il primo è basato sulla
creazione di un DW centrale, usando dati dal sistema principale e da altre fonti. Questo DW centrale
può essere usato poi per creare/aggiornare DW dipartimentali o data mart locali. Il secondo approccio
è basato sulla creazione di data mart indipendenti, ognuno dei quali è memorizzato direttamente dal
sistema centrale o da altre fonti di dati. L'approccio teso a sviluppare un DW centrale può iniziare da
un semplice DW, crescere nel tempo per soddisfare utenti caratterizzati da richieste diversificate e
diventare un ambiente che contiene sistemi di DW fra loro collegati.
In un semplice ambiente di DW, tre sono le aree che hanno necessità di essere monitorate:
• l'estrazione e la trasformazione dei dati dai sistemi centralizzati;
• la base dei dati del DW;
• i tools per l’esplorazione dei dati.
Di solito, esistono tre luoghi dove depositare i dati (repository):
• uno per descrivere la struttura dei dati, per la loro trasformazione e per la loro estrazione;
• uno per il database del DW;
• uno per gli strumenti di navigazione.
Questi repository, ovviamente, hanno bisogno di continua manutenzione, così come i dati residenti nel
database. La complessità della manutenzione dipende molto dal database scelto e comprende copie
di backup, recovery, riorganizzazioni, archiviazioni, operazioni di monitoraggio e tuning. Per migliorare
la performance delle consultazioni da parte dell’utente, è possibile creare subset di dati a livello
dipartimentale o locale riducendo così la dipendenza del DW centrale. Questo livello supplementare di
frammentazione dei dati aumenta la complessità della gestione, aggiunge un altro livello di metadati e
potenzialmente un altro repository, richiedendo un controllo ed una gestione della distribuzione dei
dati dei data mart. A meno che l’amministrazione dei data mart sia completamente demandata a livello
locale, esso richiede anche la gestione di dati del database dei data mart. La situazione diventa
ancora più difficile se l'ambiente evolve ulteriormente con la creazione di DW multipli di grande
dimensione.
Nell’approccio di data mart indipendenti, la creazione di un solo data mart orientato a risolvere
un particolare problema rappresenta una semplice soluzione. L'amministrazione di tale ambiente è
relativamente facile. Le tre aree da amministrare sono:
• l'estrazione dei dati dalle fonti e la trasformazione nelle strutture dei dati per il database del data
mart;
• il database del data mart stesso;
• i tools di sfruttamento dei dati.
Questo tipo di DW è maneggevole in quanto, di solito, non contiene grandi volumi di dati. Nel caso si
adotti una tale soluzione, il compito dell'amministratore del DW sarebbe relativamente facile. D’altra
parte, l’attività di successiva riconduzione di un elevato numero di data mart separati a un solo
ambiente di DW è molto difficile. In questo caso, infatti, ogni data mart è sviluppato individualmente e
ciò può porre il problema di avere discordanze nella definizione dei dati.
Può accadere poi che il DW contenga volumi molto grandi di dati, non sempre di natura
omogenea. Lavorare con questi volumi di dati non correlati può portare alla costruzione di un sistema
poco efficiente e richiedere molto tempo per la fase di elaborazione dei dati. Se ciò dovesse accadere,
è più conveniente suddividere il DW in aree specifiche.
Inoltre molti tools creati per lo sfruttamento dei dati utilizzano ambienti proprietari, ognuno dei
quali ha il proprio repository. Tale repository contiene le informazioni necessarie all’esplorazione dei
dati. Se il DW è amministrato centralmente, tutti gli ambienti che lo compongono devono essere gestiti
centralmente, ma anche dove la responsabilità dell’amministrazione dei tools di sfruttamento dei dati è
7
distribuito a livello dell'utente locale, è richiesto un collegamento tra il sistema di amministrazione
centrale del DW e gli ambienti distribuiti.
Senza i metadati è naturalmente impossibile un uso corretto del DW, specialmente quando
l’ammontare di informazioni contenuto nel sistema è di grandi dimensioni. La gestione
dell'interscambio di informazioni tra i repository di metadati in un ambiente di DW non è solo un
requisito, ma impone anche una gestione del metadato come parte del DW. Tipicamente il DW può
contenere dati che hanno vecchie strutture e che hanno probabilmente subito dei cambiamenti nel
tempo. Inevitabilmente, quando un utente accede alle informazioni, incorre nelle seguenti domande:
• che informazioni sono disponibili nel DW ?
• qual è il significato della definizione di quella variabile ?
• sono aggiornati ed affidabili i dati ?
Se mancano le risposte a tali domande, l’utente tenderà ad utilizzare strumenti diversi per
acquisire le informazioni e l’intera impalcatura sistemica perde il suo significato. Peraltro, il ruolo del
metadato diventa sempre più importante con la crescita delle informazioni e della diversificazione
delle richieste degli utenti, ambedue tendenze ormai chiaramente in fase di accelerazione.
Bibliografia
Calzaroni M., Giovannini E., Sorce A. (2000) “Il Sistema Informativo Statistico Sulle Imprese dell’Istat:
problematiche e potenzialità”, lavoro presentato alla XL Conferenza della Società Italiana di
Statistica, Firenze, 26-28 Aprile 2000.
Giovannini E. e Egidi V. (1999) “Sistemi informativi integrati per l’analisi di fenomeni complessi e
multidimensionali”, Atti della Quarta conferenza nazionale di statistica, Istat, Roma.
Giovannini E. e Sorce A. (2000) “The Statistical Information System on Enterprises and Institutions of
Italian Statistical Institute: a Datawarehouse Approach”, lavoro presentato al 9th CEIES Seminar
on “Innovations in Provision and Production of Statistics: the Importance of New Technologies”,
Helsinki, 20-21 January 2000.
ONU (1999)
8