V CONFERENZA NAZIONALE DI STATISTICA Innovazione tecnologica e informazione statistica Il datawarehouse statistico come fonte per la diffusione dell’informazione e il controllo di qualità Enrico Giovannini1, Alberto Sorce2 Istituto Nazionale di Statistica – ISTAT 1. Introduzione L’organizzazione e le attività degli Istituti nazionali di statistica stanno cambiando rapidamente per differenti fattori, quali l’adozione dei nuovi regolamenti europei nel campo delle statistiche, la crescita e la diversificazione del fabbisogno informativo da parte degli utilizzatori, la necessità di ridurre il carico statistico sui rispondenti e la continua innovazione nel campo delle tecnologie informatiche. Ciò implica rilevanti modificazioni nell'organizzazione degli Istituti e nelle metodologie adottate. Non esistono soluzioni organizzative e metodologiche immediate atte a soddisfare tutte le necessità. Gli sforzi volti a definire modelli organizzativi generali restano spesso esercizi teorici, di difficile realizzazione pratica. D'altra parte, molti lavori affrontano la problematica esclusivamente dal punto di vista dell'information technology, trascurando aspetti che rendono i sistemi informativi statistici nettamente più complessi di altre tipologie di sistemi (ad esempio, la necessità di compilazione dei metadati, al fine di consentire un’adeguata valutazione della qualità delle informazioni statistiche). Questo lavoro concentra la propria attenzione sullo sviluppo di SISSIEI, il Sistema Informativo Statistico Sulle Imprese e le Istituzioni realizzato dal DIpartimento delle Statistiche Economiche (DISE) dell'ISTAT, il quale rappresenta una struttura multidimensionale dedicata a ricondurre in un quadro organico tutte le statistiche prodotte del Dipartimento con riferimento alle aziende agricole, alle imprese ed alle istituzioni pubbliche e private. Il Sistema è stato disegnato come un elemento unificante delle attività statistiche sulle imprese e le istituzioni, al fine di produrre in modo più efficiente le informazioni statistiche, ad accrescerne le qualità ed a razionalizzare i flussi informativi raccolti presso le unità statistiche. Esso implica un vero e proprio "cambiamento culturale" nella realizzazione delle rilevazioni: infatti, come per il sistema dei conti nazionali, SISSIEI intende rappresentare la struttura nella quale tutti i singoli processi statistici tendono ad essere inseriti, codificati ed integrati. 2. I regolamenti dell'Unione europea e l'organizzazione degli Istituti di statistica I regolamenti comunitari emanati negli ultimi anni in campo statistico, in particolare nel campo delle statistiche economiche, possono essere pensati come singoli "mattoni" volti alla costruzione di un complesso sistema informativo statistico. I regolamenti che riguardano le unità statistiche, le classificazioni delle attività economiche, i registri delle unità, le statistiche strutturali, le statistiche congiunturali, i conti nazionali e specifici settori (il turismo, i trasporti, ecc.) sono stati basati su 1 2 Direttore del Dipartimento delle statistiche economiche dell'Istat ([email protected]) Responsabile del coordinamento del sistema informativo statistico su istituzioni e imprese dell'Istat ([email protected]) 1 concetti, definizioni e classificazioni coerenti tra loro ed hanno via via imposto agli Stati membri notevoli cambiamenti nelle organizzazioni e nelle metodologie adottate fino all'inizio degli anni novanta. Allo stesso tempo, i sistemi statistici nazionali hanno dovuto perseguire un sempre più elevato livello di efficienza, soprattutto in dipendenza della riduzione delle risorse loro assegnate in termini reali, della necessità di accrescere la gamma delle informazioni fornite alla collettività e di ridurre il carico statistico su rispondenti. In Italia, l'introduzione dei regolamenti statistici è stata accolta come un'opportunità di sviluppo del sistema delle statistiche economiche, attraverso la quale si è cercato di coniugare insieme aspetti di carattere organizzativo, metodologico, istituzionale e tecnologico, quali: • l’ampia utilizzazione di informazioni amministrative per scopi statistici, favorita dalla legislazione nazionale che consente all'Istat l'accesso a tutti i dati di questa natura; • lo sviluppo di sistemi di metadati coerenti; • l'adozione coordinata di nuove metodologie statistiche in differenti fasi delle indagini; • l'adozione di nuovi sistemi informatici, con il passaggio dal mainframe a sistemi distribuiti; • il coinvolgimento degli utenti nella definizione di prodotti e dei rispondenti nella definizione di strategie per la raccolta efficiente dei dati. Lo sviluppo di un disegno sistemico ha condotto, nel 1997, ad una riorganizzazione del Dipartimento delle statistiche economiche (all'epoca denominato "Direzione centrale per le statistiche sulle imprese e le istituzioni") basata su una suddivisione degli uffici volta ad unificare processi produttivi analoghi, indipendentemente dal settore di interesse delle rilevazioni. L'adozione di un approccio per “processo" (e non per "settore"), completata con la recente creazione della Direzione per le statistiche strutturali, la Direzione per le statistiche congiunturali, la Direzione per i censimenti e gli archivi, ha favorito l’attenzione al miglioramento delle diverse fasi delle indagini, consentendo un uso più efficace delle risorse umane ed un guadagno di efficienza e di qualità. Questa modalità organizzativa si è andata affermando negli ultimi anni anche in altri Istituti di statistica e all'interno dell'Eurostat stesso. Ciò ha favorito i rapporti internazionali e il coordinamento tra strutture omogenee all'interno dei diversi Stati membri dell'Unione, tra le quali sono cresciuti notevolmente i rapporti bilaterali e gli scambi di esperienze. Naturalmente, un approccio organizzativo che privilegia i processi rischi di perdere coerenza in termini di prodotti. Le statistiche su un settore (ad esempio l'industria) vengono infatti realizzate in unità operative diverse e, così facendo, si corre il rischio di fornire informazioni incoerenti o contraddittorie, perdendo altresì quelle importanti conoscenze tematiche che rappresentano un fondamentale strumento di controllo della qualità dell'informazione. D'altra parte, gli utenti chiedono sempre più frequentemente informazioni integrate (si pensi al caso del mercato del lavoro) e queste ultime possono essere fornite solamente attraverso una lettura globale dei dati congiunturali e strutturali. Di conseguenza, è indispensabile che i singoli processi produttivi siano inseriti in un quadro più ampio, di carattere sistemico, nel quale ritrovare quelle coerenze di presentazione e di analisi assolutamente indispensabili dal punto di vista dell'utente. Ciò implica che un'organizzazione basata sui processi sia accompagnata dallo sviluppo di tools che permettano la lettura e la diffusione integrata dei dati disponibili. La costruzione di SISSIEI risponde esattamente a queste esigenze, assicurando l'interdipendenza tra le strutture responsabili della produzione dei diversi dati, consentendo una piena integrazione delle informazioni prodotte, addirittura a livello di microdato. Alla base di SISSIEI c'è una particolare "visione" del processo produttivo, basata sul concetto di corporate datawarehouse, le cui caratteristiche principali sono descritte nel successivo paragrafo. 3. Il sistema informativo statistico sulle imprese ed istituzioni (SISSIEI): un modello basato sul corporate datawarehouse Tradizionalmente, le attività di un istituto di statistica sono state orientate verso la conduzione 2 delle rilevazioni e la produzione dei relativi risultati. E' evidente che, con la crescita della domanda d'informazione e soprattutto con la crescente esigenza dell'utenza di disporre di quadri informativi complessi, diviene sempre più difficoltoso il controllo ed il coordinamento di indagini tra loro collegate. Esiste quindi la necessità di costruire, nell’ambito di un’organizzazione statistica, una funzione d’integrazione delle indagini che soddisfi le necessità degli utilizzatori e che accresca l'efficienza dell'attività statistica complessivamente considerata, anche in termini di riduzione del carico statistico sui rispondenti. La risposta a tale esigenza è stata trovata nello sviluppo di sistemi informativi statistici. Un sistema informativo statistico è tipicamente composto di sottosistemi che permettono la raccolta, il trattamento, la memorizzazione, l’analisi e la diffusione dei dati statistici (Egidi e Giovannini, 1999). I processi statistici usano e producono dati statistici, i cui componenti elementari sono i microdati, i macrodati ed i metadati. Naturalmente, ogni particolare organizzazione statistica può dare più enfasi a certi tipi di processi statistici e definire in modo differente i microdati o i macrodati: ad esempio, i macrodati riferenti alla popolazione di persone ed imprese, registrati dagli uffici nazionali di statistica, possono essere visti da organizzazioni internazionali come microdati di un sistema informativo statistico sovranazionale. Un sistema informativo statistico, oltre ad essere costruito per produrre prodotti statistici, può avere scopi più generali, come ad esempio quello di fornire, attraverso la messa a disposizione di database di riferimento, un servizio ad utenti interni ed esterni (ad esempio, per l'estrazione di campioni da archivi delle unità statistiche). In questo senso, il sistema informativo diventa una infrastruttura comune a più processi, nella quale differenti tipi di sottosistemi informativi svolgono uno specifico compito e interagiscono tra di loro. Di conseguenza, il sistema informativo di un’organizzazione deve essere coerente con l’architettura dell’organizzazione stessa, così da identificare i compiti delle diverse strutture elementari e le loro responsabilità: l'aumento dell'integrazione tra strutture, infatti, rende ciascuna di queste maggiormente dipendente dalle altre, riducendo gli spazi di manovra dei singoli, ma aumentando l'efficienza complessiva dell'organizzazione. Grazie agli sviluppi tecnologici degli ultimi anni, è possibile sviluppare un unico ambiente di integrazione, il quale colleghi processi e basi di dati sviluppati localmente, anche con architetture diverse tra di loro. Di conseguenza, la funzione d’integrazione deve essere molto flessibile e poter essere utilizzata direttamente da molti utenti, attraverso strumenti user friendly. D'altra parte, per permettere agli utilizzatori di navigare nei dati provenienti da differenti indagini in modo pienamente avveduto, la funzione di integrazione deve consentire di associare i valori assunti dalle diverse variabili con le relative definizioni (metadati). Una possibile "visione" di un sistema informativo integrato è quella contenuta nella figura 1, tratta da ONU (1999), basata sullo sviluppo di un corporate datawarehouse, articolato in diverse aree, con il quale le singole unità produttive (analytical processing systems) interagiscono mediante software generalizzati per acquisire dati, elaborarli e restituirli al sistema, dal quale si estraggono poi gli "ipercubi" che sono utilizzati per la definizione dei prodotti per l'utenza. Benché, sempre più spesso, anche i singoli processi produttivi tendano a farsi più complessi, operando integrazioni tra fonti diverse (ad esempio, tra dati statistici e dati amministrativi), in genere esiste una funzione centralizzata di integrazione. Tale unicità si può ritrovare a livello dipartimentale (come nel caso dell'Istat) o addirittura a livello d'Istituto (come nel caso dell'Istituto statistico olandese), ma essa è sempre svolta separatamente dai singoli processi produttivi. Naturalmente, deve esistere una buona collaborazione tra le strutture centralizzate e decentrate, nonché procedure di comunicazione e responsabilità ben definite, in modo da evitare ridondanze e duplicazioni. La struttura di integrazione in un’organizzazione statistica deve facilitare lo scambio dei dati (e dei metadati) tra le strutture che sovrintendono alla creazione dei registri delle unità e quelle che svolgono le rilevazioni, tra queste ultime e quelle che realizzano prodotti complessi, ecc. Il concetto di "rete" è assolutamente cruciale in tale organizzazione ed è per questo che, in molti casi, la sua concreta realizzazione impone un "salto culturale": passare da un'organizzazione frammentata, nella quale però l'autonomia della singola unità è sostanzialmente salvaguardata, ad un'organizzazione integrata, in cui ognuno dipende dagli altri, richiede ai singoli un’importante modificazione del proprio 3 Figura 1. Un'architettura di sistema informativo per organizzazioni statistiche modo di operare ed al management dell'organizzazione un impegno continuo per assicurare l'efficienza e la funzionalità di tutte le parti del Sistema. Il Sistema Informativo Statistico sulle Imprese e le Istituzioni SISSIEI adotta pienamente la visione ora descritta, tendendo ad integrare tutte le diverse operazioni svolte all'interno del DISE. Rinviando ad altri lavori per la descrizione del Sistema (Giovannini e Sorce, 2000; Calzaroni, Giovannini e Sorce, 2000), in questa sede è opportuno sottolineare come SISSIEI sia basato su diversi navigatori per esplorare la basi di dati statistici e su un dizionario dei dati, il quale consente di collegare tra di loro le variabili provenienti dalle diverse indagini. Il Sistema permette l'accesso on-line a microdati e usa comandi SQL. Ad esempio, attraverso un processo OLAP (On-line Analitical Process) è possibile ottenere, in una sola videata, tutti i microdati provenienti da diverse rilevazioni riferiti ad un'unica impresa, perfettamente referenziata sul piano anagrafico (indirizzo, forma giuridica, ecc.) e statistico (settore di attività, numero di addetti, ecc.). Nella figura 2 sono riportate le aree principali in cui è articolato il Sistema. Esso è articolato in due aree: la prima, relativa alle aziende agricole e alle imprese industriali e dei servizi; la seconda, riferita alle istituzioni pubbliche e private. Ciascun sottosistema poggia sui relativi archivi delle unità giuridico-economiche, secondo quanto previsto dal regolamento comunitario n. 2186/93. In particolare, nel caso del sistema sulle imprese, si hanno l’Archivio statistico delle aziende e delle imprese agricole (ASAIA, oltre 2.700.000 soggetti) e quello relativo alle unità operanti nei settori industriali e del terziario (ASIA, circa 3.500.000 imprese); nel caso delle istituzioni, l’Archivio statistico delle istituzioni pubbliche (ASIP1, circa 10.000 soggetti) è affiancato da quello riferito alle istituzioni private (ASIP2, circa 300.000 unità). Naturalmente, vista la dimensione di SISSIEI non esiste un'unica base di dati, ma una rete di database integrati e navigabili con strumenti generalizzati. Inoltre, nel sistema sono disponibili alcuni tools generalizzati per l'estrazione di liste, di campioni, ecc. Quando sono disponibili i dati validati, SISSIEI serve come base per la costruzione di data warehouse (DW) per la diffusione. In particolare, nel 1998 l’Istat ha prodotto ed esposto su Internet il suo primo DW per la diffusione dei risultati del censimento intermedio sulle imprese industriali e dei servizi riferito all’anno 1996. Il successo di questo nuovo strumento è stato estesamente riconosciuto 4 Figura 2: Struttura generale di SISSIEI Sistema informativo statistico sulle imprese e le istituzioni SISSIEI Sistema informativo statistico sulle imprese Sistema informativo statistico sulle istituzioni SISSI SISSIS Sottosistema informativo dell'agricoltura Sottosistema informativo sulle imprese industriali e dei servizi Archivio statistico delle aziende agricole Sottosistema informativo sulle istituzioni pubbliche SISPA Archivio statistico delle imprese attive Archivio statistico delle istituzioni pubbliche Sottosistema informativo sulle istituzioni private Archivio statistico delle istituzioni private ASAIA ASIA ASIP1 ASIP2 Database delle informazioni tratte dalle rilevazioni congiunturali e strutturali sul settore agricolo Database delle informazioni tratte dalle rilevazioni strutturali e congiunturali sulle imprese Database delle informazioni tratte dalle rilevazioni sulle istituzioni pubbliche Database delle informazioni tratte dalle rilevazioni sulle istituzioni private Database delle informazioni tratte dalle rilevazioni strutturali sulle imprese Database delle informazioni tratte dalle rilevazioni congiunturali Database delle informazioni tratte dalle rilevazioni sul commercio estero dagli utenti: il database è stato reso disponibile gratuitamente su Internet (http://cens.istat.it), e da questo, nel corso del solo 1999, oltre 2.500 utenti hanno eseguito oltre 300.000 estrazioni di tavole statistiche, a partire da circa un milione di possibili combinazioni. Inoltre, dallo stesso database sono stati rapidamente prodotti dall'Istat oltre 20 cd-rom e 120 volumi cartacei, senza alcun intervento supplementare di carattere editoriale. Per la progettazione e la realizzazione della base dati sono stati necessari circa sei mesi di attività ed i prodotti utilizzati sono stati: SAS/Warehouse Administrator, per la costruzione del Data Warehouse, SAS/Desktop Application Builder, per la scelta delle aggregazioni e la costruzione dell’applicazione per la navigazione. Lo spazio disco occupato del DW è complessivamente di circa 25 GB, in quanto esso contiene non solo i risultati del censimento intermedio del 1996, ma anche quelli derivanti dai censimenti generali del 1971, 1981 e 1991. Sono stati realizzati oltre 100 programmi per complessivi circa 14.000 righe di codice3. 3 Più in dettaglio, mentre i dati dei censimenti del 1971, 1981 e 1991 (relativo alle sole imprese) sono stati memorizzati in tre file distinti, uno per ogni anno, per il 1996 i dati sono stati memorizzati in due file, uno per le imprese e uno per le unità locali. Per operare l’omogeneizzazione dei dati sono state eseguite le seguenti operazioni: − la riclassificazione delle attività economiche rapportandole alla classificazione attuale; − la riclassificazione territoriale: o per i comuni variati nel corso del tempo (modifiche a livello di provincia e comune); o per i comuni caratteristici (comune capoluogo, grande comune); o per l'introduzione di nuove aggregazioni territoriali extra amministrative (sistema locale del lavoro, distretto industriale); − la riclassificazione della forma giuridica utilizzata nel passato rapportandola alla classificazione attuale; − l’armonizzazione della codifica del carattere artigiano, la cui definizione e decodifica è variata da un censimento all’altro; − l’armonizzazione della codifica del campo diffusione (unità locale sede di impresa unilocalizzata o plurilocalizzata o non sede); attribuzione delle variabili “diffusione territoriale dell’impresa” (comunale, provinciale, regionale, nazionale), “diffusione sede” (posizione territoriale delle unità locali di un’impresa rispetto alla sede) e “classe di addetti” per il 1996, effettuata in base a regole predefinite. 5 Nel corso del 2000 sono stati poi sviluppati due nuovi DW, la cui esposizione su Internet è prevista nelle prossime settimane: il primo è riferito ai risultati delle rilevazioni annuali di carattere strutturale sulle imprese industriali e dei servizi; il secondo contiene i risultati delle rilevazioni sul commercio estero. Il DW sulle statistiche strutturali è destinato ad accogliere inizialmente i risultati delle rilevazioni sui conti delle imprese di piccole, medie e grandi dimensioni, nonché i risultati della seconda fase del censimento intermedio (long-form). Successivamente, esso ospiterà i dati provenienti dalle altre rilevazioni annuali, quali quelle sulla struttura del costo del lavoro, sull'innovazione tecnologica, sulla ricerca scientifica, ecc.. La complessità del progetto risiede nel fatto che le variabili da pubblicare sono tratte da rilevazioni diverse, sono molto numerose ed utilizzano chiavi di aggregazione piuttosto differenti, quali il territorio, la classe dimensionale, il settore di attività economica, ecc. Inoltre, questi dati, a differenza di quelli relativi ai caratteri identificativi delle unità censite con riferimento al 1996, sono soggetti alle norme sul segreto statistico, cosicché si sono dovuti adottare particolari accorgimenti volti ad evitare la violazione della riservatezza. Il DW realizzato dall’Istat con riferimento alle statistiche sul commercio con l’estero rappresenta, al contrario di quelli visti in precedenza, un caso nel quale esso è pienamente inserito nel processo produttivo dei dati statistici. In effetti, esso è stato inizialmente costruito per la realizzazione di circa 1.000 tavole contenute nell'Annuario "commercio estero ed attività internazionali delle imprese", realizzato per la prima volta nel luglio del 1999 dall’Istat e dall’Istituto del Commercio Estero (ICE). Di conseguenza, ci si è inizialmente concentrati sulla progettazione e creazione dei data mart e degli info mart necessari, nonché sulla realizzazione delle diverse tipologie di tipo inquiring e reporting on-line tramite la tecnologia web. Successivamente, il progetto è stato ampliato, da un lato, per integrare il data warehouse all’interno del processo produttivo dei dati mensili del commercio con l’estero e, dall’altro, per offrire all’utenza esterna una modalità rapida ed efficiente di accesso ai dati aggregati. In questo modo, a partire dall'inizio del 2000, un utente abilitato, attraverso la rete intranet dell’istituto, può: − accedere ad alcuni dati “statici” su Web Server, tra cui anche le tavole dell’Annuario on-line; − accedere ai data mart SAS su Application Server per richieste di dati aggregati (secondo formati predefiniti); − accedere alle fact table ed ai microdati memorizzati nel dbms Oracle per richieste ancor più dettagliate. Attualmente, il data warehouse contiene microdati mensili riferiti al periodo 1991-2000, per oltre 9.000 gruppi di prodotti, ciascuno dei quali classificato per 250 paesi, 103 province di origine o destinazione dei beni. Il volume di dati è quantificabile in circa 80 Gb, il che caratterizza questo DW come un VLDB. A partire da questo DW, un database più limitato sarà reso accessibile in Internet, così da consentire agli utenti l'estrazione di tavole dettagliate per prodotto ed area geografica. 4. Strategie e accorgimenti per la costruzione di data warehouse a fini statistici Come descritto precedentemente, lo sviluppo di un corporate data warehouse è un elemento chiave della nuova ”visione" della produzione statistica. Il DW è un sistema informativo dove i dati sono organizzati e strutturati per un facile accesso da parte dell'utente e per supportare i processi della decisione. I seguenti sistemi sono abilitati dal DW: • DSS (Decisional Support System) • EIS (Executive/Enterprise Information System). Il primo è usato per risolvere specifici problemi, mentre il secondo è utilizzato per soddisfare una circolazione continua dei dati, indipendentemente da specifici problemi. Il DW è un sistema OLAP che differisce dai sistemi OLTP (On Line Transaction Processing), sebbene i dati provengano dal secondo. I sistemi OLAP sono sistemi subject-oriented , sono integrati, 6 storici e permanenti, non comprendono dati analitici e statici come i sistemi OLTP. Un DW è sempre diviso dal suo ambiente operativo e può comprendere anche tutti i dati dell'ambiente operativo. I dati nel DW non vengono mai cambiati; sono memorizzati all'inizio, messi a disposizione e non sono aggiornati come nei sistemi OLTP. Prima che siano memorizzati nel DW, i dati sono integrati seguendo differenti strategie, come ad esempio, per nome, per unità di misura delle variabili, per attributi, ecc.. Due sono i principali approcci per sviluppare un ambiente di DW. Il primo è basato sulla creazione di un DW centrale, usando dati dal sistema principale e da altre fonti. Questo DW centrale può essere usato poi per creare/aggiornare DW dipartimentali o data mart locali. Il secondo approccio è basato sulla creazione di data mart indipendenti, ognuno dei quali è memorizzato direttamente dal sistema centrale o da altre fonti di dati. L'approccio teso a sviluppare un DW centrale può iniziare da un semplice DW, crescere nel tempo per soddisfare utenti caratterizzati da richieste diversificate e diventare un ambiente che contiene sistemi di DW fra loro collegati. In un semplice ambiente di DW, tre sono le aree che hanno necessità di essere monitorate: • l'estrazione e la trasformazione dei dati dai sistemi centralizzati; • la base dei dati del DW; • i tools per l’esplorazione dei dati. Di solito, esistono tre luoghi dove depositare i dati (repository): • uno per descrivere la struttura dei dati, per la loro trasformazione e per la loro estrazione; • uno per il database del DW; • uno per gli strumenti di navigazione. Questi repository, ovviamente, hanno bisogno di continua manutenzione, così come i dati residenti nel database. La complessità della manutenzione dipende molto dal database scelto e comprende copie di backup, recovery, riorganizzazioni, archiviazioni, operazioni di monitoraggio e tuning. Per migliorare la performance delle consultazioni da parte dell’utente, è possibile creare subset di dati a livello dipartimentale o locale riducendo così la dipendenza del DW centrale. Questo livello supplementare di frammentazione dei dati aumenta la complessità della gestione, aggiunge un altro livello di metadati e potenzialmente un altro repository, richiedendo un controllo ed una gestione della distribuzione dei dati dei data mart. A meno che l’amministrazione dei data mart sia completamente demandata a livello locale, esso richiede anche la gestione di dati del database dei data mart. La situazione diventa ancora più difficile se l'ambiente evolve ulteriormente con la creazione di DW multipli di grande dimensione. Nell’approccio di data mart indipendenti, la creazione di un solo data mart orientato a risolvere un particolare problema rappresenta una semplice soluzione. L'amministrazione di tale ambiente è relativamente facile. Le tre aree da amministrare sono: • l'estrazione dei dati dalle fonti e la trasformazione nelle strutture dei dati per il database del data mart; • il database del data mart stesso; • i tools di sfruttamento dei dati. Questo tipo di DW è maneggevole in quanto, di solito, non contiene grandi volumi di dati. Nel caso si adotti una tale soluzione, il compito dell'amministratore del DW sarebbe relativamente facile. D’altra parte, l’attività di successiva riconduzione di un elevato numero di data mart separati a un solo ambiente di DW è molto difficile. In questo caso, infatti, ogni data mart è sviluppato individualmente e ciò può porre il problema di avere discordanze nella definizione dei dati. Può accadere poi che il DW contenga volumi molto grandi di dati, non sempre di natura omogenea. Lavorare con questi volumi di dati non correlati può portare alla costruzione di un sistema poco efficiente e richiedere molto tempo per la fase di elaborazione dei dati. Se ciò dovesse accadere, è più conveniente suddividere il DW in aree specifiche. Inoltre molti tools creati per lo sfruttamento dei dati utilizzano ambienti proprietari, ognuno dei quali ha il proprio repository. Tale repository contiene le informazioni necessarie all’esplorazione dei dati. Se il DW è amministrato centralmente, tutti gli ambienti che lo compongono devono essere gestiti centralmente, ma anche dove la responsabilità dell’amministrazione dei tools di sfruttamento dei dati è 7 distribuito a livello dell'utente locale, è richiesto un collegamento tra il sistema di amministrazione centrale del DW e gli ambienti distribuiti. Senza i metadati è naturalmente impossibile un uso corretto del DW, specialmente quando l’ammontare di informazioni contenuto nel sistema è di grandi dimensioni. La gestione dell'interscambio di informazioni tra i repository di metadati in un ambiente di DW non è solo un requisito, ma impone anche una gestione del metadato come parte del DW. Tipicamente il DW può contenere dati che hanno vecchie strutture e che hanno probabilmente subito dei cambiamenti nel tempo. Inevitabilmente, quando un utente accede alle informazioni, incorre nelle seguenti domande: • che informazioni sono disponibili nel DW ? • qual è il significato della definizione di quella variabile ? • sono aggiornati ed affidabili i dati ? Se mancano le risposte a tali domande, l’utente tenderà ad utilizzare strumenti diversi per acquisire le informazioni e l’intera impalcatura sistemica perde il suo significato. Peraltro, il ruolo del metadato diventa sempre più importante con la crescita delle informazioni e della diversificazione delle richieste degli utenti, ambedue tendenze ormai chiaramente in fase di accelerazione. Bibliografia Calzaroni M., Giovannini E., Sorce A. (2000) “Il Sistema Informativo Statistico Sulle Imprese dell’Istat: problematiche e potenzialità”, lavoro presentato alla XL Conferenza della Società Italiana di Statistica, Firenze, 26-28 Aprile 2000. Giovannini E. e Egidi V. (1999) “Sistemi informativi integrati per l’analisi di fenomeni complessi e multidimensionali”, Atti della Quarta conferenza nazionale di statistica, Istat, Roma. Giovannini E. e Sorce A. (2000) “The Statistical Information System on Enterprises and Institutions of Italian Statistical Institute: a Datawarehouse Approach”, lavoro presentato al 9th CEIES Seminar on “Innovations in Provision and Production of Statistics: the Importance of New Technologies”, Helsinki, 20-21 January 2000. ONU (1999) 8