REGIONE LAZIO Assessorato Personale, Demanio Patrimonio ed Informatica Studio di fattibilità per la realizzazione del sistema informativo-statistico della regione lazio Rapporto finale Schede di informazione statistica luglio 2002 SISTEMA STATISTICO REGIONALE Regione Lazio Direttore del progetto: Roberto De Vecchis Sistema Statistico Regionale Archivio banche dati: Laura Baldini Sistema Statistico Regionale Paolo Risso e-Government Ruggero Trenna Dip.to Interventi socio-sanitari, educativi e per la qualita’della vita Università di Roma “La Sapienza” Prof. Alberto Marchetti-Spaccamela, Prof. Silvio Salza, Prof. Giuseppe Santucci Dip.to di Informatica e Sistemistica Paolo Giulio Franciosa Dip.to di Statistica, Probabilità e Statistiche Applicate Introduzione L’organizzazione di un moderno sistema informativo ha come presupposto una struttura organizzativa scientifica con l’obiettivo di sistematizzare la conoscenza depositata nei diversi uffici che attuano i processi operativi sia della regione che degli altri enti pubblici e privati che svolgono attività a favore del cittadino. Questa informazione, preziosa per un governo che sia caratterizzato da massima “efficienza, efficacia, ed economicità”, è infatti diluito in molti e diffusi ambiti che spesso risultano di difficile reperimento e comunque tra loro scoordinati. Spesso questo clima di separazione comporta di fatto l’impossibilità di usufruire di preziose informazioni da parte degli operatori. Così allo stesso modo risulta difficoltoso, in mancanza di cruscotti informativi, orientare i “decisori pubblici” verso forme di valutazione delle decisioni di investimento e nella verifica degli effetti da queste ottenute. La direzione della Giunta regionale ne risulta spesso menomata, cosicché diviene necessario ricorrere a faticose e anche costose ricerche, per ottenere le necessarie conoscenze. Il progetto di studiare un moderno strumento che offra un “cruscotto informativo” diviene una necessità, nella misura in cui si voglia consentire un governo che utilizzi le stesse metodologie che da anni ormai adottano gli imprenditori nel governo delle loro imprese. La stessa regione si è dotata di strumenti di controllo strategico e di controllo gestionale, per la verifica degli interventi operativi, strumenti che si ritrovano e sono mutuati nelle conduzioni aziendali private. Ciò consentirebbe di conoscere la “soddisfazione degli utenti”, come ulteriore verifica della bontà delle azioni intraprese dalle diverse aree di intervento pubblico, al pari del controllo che effettuano gli imprenditori sulla soddisfazione riscontrata nei loro prodotti. Queste esigenze, di cui la Regione Lazio si rende interprete, devono essere estese anche a tutti gli altri enti pubblici che operano a favore del cittadino, su risorse pubbliche. Per divenire concrete devono basarsi su due paradigmi: da un lato una moderna struttura di rete informatica e dall’altro una corretta struttura “informativo-statistica”. La rete di e-government, attualmente in fase organizzativa, si estende in ambito comunale, provinciale, regionale, nazionale. Questa deve assicurare concretezza operativa alla necessità del riordino della enorme mole di archivi esistenti, giacenti in modo spesso disordinato nelle diverse strutture pubbliche regionali e/o degli altri enti locali e nazionali. iv Questa “ricchezza” informativa deve quindi trovare un “contenitore” unico in grado di offrire un valore aggiunto alla attività faticosa di chi desidera governare avendo in mente i comportamenti virtuosi degli investitori privati. L’obiettivo di questo studio condotto dall’Assessorato Personale, Informatica e Statistica, attraverso il Sistema Statistico Regionale, si inquadra quindi nell’ottica di recupero e valorizzazione delle diverse fonti informative esistenti per creare un pannello di governo che possa facilitare scelte strategiche e consentire gestioni oculate e moderne delle risorse disponibili a favore, sia dei cittadini, che dello sviluppo economico. Rilevo che una Pubblica Amministrazione moderna costituisce un anello fondamentale dell’intero sviluppo socio-economico del territorio. Una struttura pubblica all’altezza delle aspettative quale fornitore di servizio nel moderno processo produttivo, diviene punto di forza essenziale per lo sviluppo e l’elevazione del benessere generale. Questo non solo dà certezza di aver bene operato, ma costituisce di per sé l’orgoglio civico di chi come noi sente tutta intera la responsabilità di dover contribuire al bene delle popolazioni amministrate. On. Francesco Storace v Presentazione Il presente studio è realizzato nel piano operativo di ammodernamento dell’attività amministrativa della Regione Lazio attraverso una duplice strategia: prendere atto dello stato di arretratezza in cui versava il sistema informativo, ed operare con rapidità a colmare un gap ormai sempre più profondo tra la società amministrata e l’arretratezza degli strumenti pubblici per rispondere alle sfide dello sviluppo. Sul versante della costruzione di una rete di e-government l’obiettivo è legare in un unico e solidale schema di trasmissione informativa tutti gli enti pubblici della Regione Lazio così da migliorare attraverso lo strumento informatico la potenzialità operativa e aumentando in tale modo la produttività pubblica, non solo regionale, ma dell’intero sistema delle autonomie locali. Infatti il piano di”e-government”, oggi in fase di avanzata realizzazione, può costituire una valida risposta al ritardo accumulato in questi anni di mancata introduzione delle tecnologie informatiche nella Pubblica Amministrazione. Questi strumenti devono essere anche al servizio del sistema statistico regionale per la diffusione dell’informazione. Il piano di lavoro nella costruzione di sistemi informativi si identifica in due diverse fasi: 1. la prima fase della realizzazione di rete di e-government, consente di offrire all’utente cittadino fin da subito, di accedere a servizi (on line) in modo da facilitare il suo rapporto con la P.A. in termini di certificazione, ecc.; 2. la seconda, di medio periodo, permette l’interconnessione tra tutte le amministrazioni e la condivisione informativa anche con altri soggetti quali famiglie ed imprese, attraverso la realizzazione di un portale unico (one-stop shops). Questa seconda fase coincide con la “rivoluzione culturale” che dovrà investire l’operatività pubblica attraverso una struttura organizzativa che ne migliori l’efficacia nell’intervento pubblico a favore del miglioramento della vita del cittadino e dell’aumento di competitività del “sistema Paese” . Sotto questo profilo la “statistica”rappresenta una funzione strategica, per lo sviluppo della seconda fase di e-government, attraverso la possibilità dello scambio delle “informazioni” tra i diversi soggetti coinvolti e non di semplici scambi di dati. Le “informazioni” infatti provengono da una corretta organizzazione dei dati e metadati. La statistica che per definizione costituisce la “scienza dello Stato” consente attraverso gli strumenti metodologici che le sono propri, di avere attraverso una base di flussi informativi, realizzata secondo un criterio organizzativo a rete nei “sistemi statistici” nazionali e locali, la conoscenza dei fenomeni socio-economici. Inoltre una buona organizzazione statistica consente vi l’adozione di linguaggi standard per lo scambio tra tutti i soggetti interessati di “polis di governo”, effettuate su dati (e metadati), così da assicurare l’adozione di politiche più adeguate in termini di efficacia, efficienza ed economicità, e la loro verifica, attraverso la misura della soddisfazione dell’utente (customer). La Regione Lazio ha quindi attraverso il SISTAR-Lazio attuato la funzione operativa del “Federalismo Statistico”così da consentire la partecipazione delle strutture statistiche provinciali e comunali, identificando attraverso il “Piano Statistico Regionale” gli strumenti più adeguati per l’uso di indicatori appropriati e condivisi da applicare alle metodologie di programmazione pubblica. Allo stato si osserva che nel quadro dell’organizzazione statistica esistente si evidenziano due grandi aggregati informativi: le informazioni derivanti da indagini campionarie o dai censimenti e quelle derivanti dall’attività amministrativa (giacimenti informativi amministrativi). Questi giacimenti costituiscono un grande serbatoio di dati che possono soddisfare esigenze informative a più basso costo rispetto ai primi, solo se questi sono organizzati con criteri metodologici adeguati. Legare le informazione dei censimenti con gli archivi amministrativi consente di abbassare i costi di produzione informativa, di ottenere informazioni dinamiche territorializzate (Geographich Information System - G.I.S.) consente inoltre di aggiornare e verificare lo stato degli archivi esistenti. Sul versante della organizzazione statistica per l’e-government si è preso atto che a fronte di giacimenti informativi di grande consistenza distribuiti in ogni “ufficio”operativo pubblico l’informazione statistica ricavabile è a causa di una generale disattenzione “ di politica dell’informazione” pressoché nulla; essa cioè, non fornisce alcun contributo alle esigenze conoscitive per le scelte dell’intera pubblica amministrazione. Ciò induce spesso a ricorrere a commissionare ricerche esterne, facendo lievitare i costi di produzione informativa, per colmare i deficit informativi, che si generano a causa di questo non intervento organizzativo nella struttura archivistica degli uffici operativi. Una ricerca condotta dal Sistema Statistico Regionale aveva evidenziato già all’inizio del 2001 che giacimenti informativi esistenti in soli quattro assessorati della Regione Lazio erano risultati oltre 400. Questi sono mal organizzati e le informazioni da essi ricavabili sono pressoché nulle, né queste possono essere confrontabili e/o integrabili con quelle esistenti in campo nazionale individuate nel Piano Statistico Nazionale. Preso atto che questa realtà produce di fatto la perdita assoluta delle informazioni necessarie, per consentire un miglioramento operativo, già all’inizio del 2001 si è avviata una riflessione approfondita al fine di realizzare un nuovo modello operativo nella organizzazione statistica della Regione. vii A questo scopo con l’ausilio del dipartimento informatica e sistemistica e del dipartimento di statistica, dell’università “la Sapienza” il SISTAR-Lazio ha avviato lo studio sperimentale per organizzare le potenzialità informative esprimibili attraverso gli archivi interni e il loro collegamento con le altre strutture informative giacenti nel più generale sistema statistico nazionale. Il risultato dello studio che offriamo alla conoscenza di quanti sono interessati alla nostra produzione statistica costituisce un patrimonio scientifico di altissimo interesse poiché per la prima volta si è posto in modo concreto l’avvio di un vero processo di costruzione di quelle banche dati (data warehouse) che pur espresse come obiettivi operativi in numerose leggi di produzione nazionale e regionale rimanevano solo desideri comportamentali senza alcun contributo che consentisse di tradurre quelle normative in azioni concrete. La presente pubblicazione ha il pregio di segnalare i criteri che si dovranno adottare per gestire dati di”business”e dei relativi livelli architetturali di Datawarehouse (DW). E’ questo lo stadio necessario per affrontare con minori spese possibili l’introduzione di un moderno sistema operativo che correlato al programma di e-government potrà realizzare quella “rivoluzione” copernicana tanto attesa da una società civile che vive una realtà tecnologica in forte evoluzione innovativa. Il progetto di DW applicato ad un solo settore operativo quello del settore sociale, che realizzeremo nell’attuazione del piano statistico regionale sarà la sfida verso il completamento del più generale disegno di una moderna amministrazione che vuole porsi alla guida dello sviluppo e del benessere della popolazione amministrata. Ing. Giulio Gargano Assessore al Personale, Informatica e Statistica. viii Sommario Introduzione dell’On.Francesco Storace Prefazione dell’Assessore Ing.Giulio Gargano 1 2 Sintesi.....................................................................................................................................ix 1.1 Introduzione.....................................................................................................................x 1.2 Descrizione del progetto..................................................................................................xi 1.3 Il Data warehouse .........................................................................................................xiii 1.4 Metadati........................................................................................................................xiii 1.5 Il cruscotto informativo.................................................................................................xiv 1.6 Data mining ..................................................................................................................xiv 1.7 Il piano di lavoro............................................................................................................xv 1.8 La struttura organizzativa e di supporto decisionale........................................................xv Introduzione ............................................................................................................................1 2.1 Motivazioni e finalità .......................................................................................................1 2.2 Organizzazione in fasi dello studio...................................................................................2 2.2.1 Lo studio di fattibilità ...............................................................................................2 2.2.2 La realizzazione pilota..............................................................................................2 2.2.3 Progetto e realizzazione del sistema..........................................................................3 2.3 3 Contenuti della relazione..................................................................................................3 Il Data Warehouse ...................................................................................................................5 3.1 Problematiche generali .....................................................................................................5 3.2 Dati gestiti da un data warehouse .....................................................................................5 3.2.1 Dati di Business .......................................................................................................6 3.2.2 Metadati ...................................................................................................................7 3.3 Livelli architetturali di un DW .........................................................................................8 3.3.1 Architettura ad un livello ..........................................................................................9 3.3.2 Architettura a due livelli. ..........................................................................................9 3.3.3 Architettura a tre livelli. .........................................................................................11 3.4 Accesso ai dati di un DW ...............................................................................................12 3.4.1 Interfaccia utente....................................................................................................13 3.4.2 Funzionalità di navigazione e metadati ...................................................................14 4 5 6 7 Il sistema informativo statistico della Regione Lazio .............................................................18 4.1 Architettura generale proposta per il sistema ..................................................................18 4.2 Utenti e livelli di accesso ...............................................................................................20 4.3 Dati e metadati ...............................................................................................................21 4.4 Gli studi pilota e la loro attuazione .................................................................................22 Lo studio pilota......................................................................................................................23 5.1 L'assessorato delle politiche sociali ................................................................................23 5.2 Tipologia delle fonti informative....................................................................................24 5.3 L'analisi delle fonti informative......................................................................................25 Classificazione delle fonti ......................................................................................................26 6.1 Organizzazione dello schema dei metadati .....................................................................26 6.2 Criteri di classificazione delle fonti ................................................................................31 6.3 Tabelle descrittive delle Entità e delle Relazioni ............................................................32 6.3.1 Descrizione delle Entità..........................................................................................32 6.3.2 Descrizione delle Relazioni ....................................................................................35 Il prototipo.............................................................................................................................37 7.1 7.1.1 Ristrutturazione dello schema E-R..........................................................................38 7.1.2 Schema relazionale.................................................................................................39 7.2 8 Descrizione del prototipo ...............................................................................................37 Manuale utente ..............................................................................................................40 7.2.1 Prerequisiti per l’utilizzo dell’applicazione.............................................................40 7.2.2 Avvio, navigazione, gestione dei dati e ricerche .....................................................41 7.2.3 Sezione “Catalogo Sorgenti”..................................................................................42 7.2.4 Sezione “Gestione del Thesaurus”..........................................................................64 7.2.5 Sezione “Ricerche” ................................................................................................65 Proposta operativa .................................................................................................................73 8.1 Fase 1: Realizzazione del data warehouse di primo livello .............................................73 8.1.1 Attività 1.1 - Analisi ...............................................................................................73 8.1.2 Attività 1.2 - Progettazione (dati e metadati)...........................................................73 8.1.3 Attività 1.3 Realizzazione (metadati)......................................................................74 8.1.4 Attività 1.4 Realizzazione (dati) .............................................................................74 8.1.5 Attività 1.5 Sperimentazione ..................................................................................74 8.2 Fase 2: Realizzazione del data warehouse di secondo livello ..........................................74 8.2.1 Attività 2.1 Estensione dei requisiti ........................................................................74 8.2.2 Attività 2.2 Individuazione delle nuove tematiche di interesse ................................74 ii 8.2.3 Attività 2.3 Progettazione .......................................................................................75 8.2.4 Attività 2.4 Realizzazione (dati, metadati e data mart) ............................................75 8.3 Fase 3: Estensione del data warehouse di secondo livello ...............................................75 8.4 Riepilogo delle attività ...................................................................................................75 8.5 Gantt..............................................................................................................................79 8.6 Elenco dei deliverable ....................................................................................................80 8.7 Gruppo di lavoro............................................................................................................81 9 10 Appendice A: Elenco delle fonti informative analizzate .........................................................82 Allegato A : Il prototipo "Catalogo Sorgenti"...................................................................117 iii 2 Introduzione Il presente documento costituisce la relazione finale dell'attività svolta dal Dipartimento di Informatica e Sistemistica dell'Università di Roma "La Sapienza" (DIS nel seguito) nell'ambito dello Studio di fattibilità commissionato dalla Regione Lazio. 2.1 Motivazioni e finalità La L.R n.14/99 sul decentramento amministrativo nel Lazio all’art.32 promuove l’attivazione del Sistema Informativo-Statistico sia regionale che delle Amministrazioni locali in essa operanti (SIARL). In particolare la L.R. n.14/99 afferma che la Regione Lazio dovrà utilizzare tale sistema al fine di verificare e misurare l’efficacia delle proprie attività. Tale sistema dovrà da un lato essere integrato con sorgenti informative preesistenti, dall’altro servire da supporto per l’attività di enti esterni autorizzati ad accedere alle informazioni raccolte. Il Sistema Informativo-Statistico Regionale si profila, quindi, come un vero e proprio data warehouse, in cui dovranno confluire informazioni che rappresentano le grandezze di interesse per le attività dei vari uffici della regione Lazio legate al territorio amministrato. Si può realisticamente assumere che una grossa quantità di informazioni utili al conseguimento degli obbietivi imposti dalla L.R. 14/99 siano detenute, sotto varie forme, nei sistemi informativi di numerosi soggetti, sia pubblici che privati, distribuiti sul territorio regionale. Il progetto è molto ambizioso e di notevole complessità, e presenta caratteristiche fortemente innovative a livello nazionale. In tal senso si osserva che non si hanno attualmente nella Pubblica Amministrazione esempi significativi di integrazione di sorgenti di dati così numerose ed eterogenee. Inoltre, si profilano una serie di problemi per quanto riguarda la proprietà dei dati, essendo le singole amministrazioni tipicamente riluttanti a cederli e a condividerne l’uso. Questo tipo di difficoltà potrebbe tuttavia essere risolto in un contesto di reciprocità, cioè concedendo a tali amministrazioni la possibilità di accedere al Sistema Informativo-Statistico Regionale, ed anche a prelevare da esso dati integrati. Tutti questi motivi suggeriscono una strategia di realizzazione graduale nel tempo del progetto. Ciò consentirà di valutare in modo appropriato le scelte tecniche e i vantaggi per l’amministrazione e per ridurre i costi complessivi di realizzazione, e di raffinare le strategie e le tecniche in sede di realizzazione definitiva. Più precisamente si propone un’articolazione in tre fasi, descritte in dettaglio nella prossima sezione: ? ? studio di fattibilità, ? ? realizzazione pilota, ? ? progettazione e realizzazione del sistema. 2.2 Organizzazione in fasi dello studio 2.2.1 Lo studio di fattibilità Questa fase ha come obbiettivi l’analisi del problema, l'analisi dello stato dell'arte, la determinazione della strategia complessiva e la definizione dettagliata delle specifiche della seconda fase. In particolare si intende individuare un settore delimitato su cui avviare, nella seconda fase, una realizzazione pilota. Gli ostacoli più rilevanti alla fruizione di informazioni distribuite in archivi di diversi enti risiedono, oltre che nella semplice conoscenza dell’esistenza delle varie sorgenti informative, nella accuratezza della descrizione del contenuto informativo delle sorgenti, sia dal punto di vista semantico che dal punto di vista più strettamente tecnico. Queste difficoltà possono essere superate solo attraverso la messa a punto di una metodologia per la descrizione formale delle sorgenti informative, metodologia che, unitamente alla individuazione di un' architettura di riferimento, costituisce l'obbiettivo principale dello studio di fattibilità. Per raggiungere tale risultato sarà necessario procedere ad un censimento delle sorgenti informative, censimento che evidenzierà le inevitabili differenze nelle caratteristiche delle varie fonti. Tali differenze riguardano sia le tipologie di sorgenti, sia le caratteristiche dei dati contenuti. La metodologia così individuata permetterà di raccogliere le caratteristiche delle sorgenti informative necessarie per una loro classificazione. Tali caratteristiche saranno memorizzate in una base di metadati, sulla quale verranno definite opportune interfacce di interrogazione e navigazione. I risultati di questa prima fase rappresentano il primo passo per la definizione dell’input da fornire alle procedure automatiche di popolamento del data warehouse, da realizzare nella terza fase del progetto. Le metodologie descritte e le specifiche dell’interfaccia di navigazione verranno sperimentate sul settore pilota durante la seconda fase. 2.2.2 La realizzazione pilota Come specificato sopra, lo studio di fattibilità non prevede al suo interno un’attività di prototipazione, ma piuttosto la sua specifica. Il prototipo sarà invece realizzato nella seconda fase. La realizzazione pilota ha dunque come obbiettivo la convalida delle metodologie definite nella prima fase e del corretto soddisfacimento dei requisiti utente. A tal fine, sarà necessario individuare uno specifico settore di interesse. Tale settore deve godere di due caratteristiche: 2 significatività e rappresentatività. Con la prima intendiamo che in tale settore ricadano meccanismi decisionali ed ambiti di azione politica che siano percepiti come significativi per l’Amministrazione Regionale. La realizzazione pilota in tale settore deve pertanto poter consentire una piena valutazione dell’efficacia, in termini di benefici pere l’Amministrazione, dell’azione proposta. Con rappresentatività intendiamo invece la garanzia che nel processo di realizzazione pilota siano effettivamente toccate tutte le problematiche che lo studio di fattibilità ha individuato come centrali e critiche per la realizzazione definitiva del sistema, quali ad esempio la varietà nella tipologia delle sorgenti informative e la ricchezza nella struttura dei metadati. 2.2.3 Progetto e realizzazione del sistema Questa terza ed ultima fase è ovviamente anche la più cospicua ed impegnativa, ed è articolata su tre interventi: ? ? ingegnerizzazione del sistema pilota (interrogazione e navigazione nella base dei metadati); ? ? popolamento della base dei metadati su tutti i settori di interesse per la Regione Lazio; ? ? costruzione del data warehouse, con la realizzazione degli opportuni moduli di raccolta e riconciliazione dei dati dalle sorgenti informative di interesse. La realizzazione di questi tre interventi dovrà essere demandata a soggetti industriali, i quali agiranno nell’ambito delle metodologie individuate e definite con dettaglio a livello di studio di fattibilità. Grazie ai risultati delle due fasi precedenti, ed all’esperienza in esse maturata, dovrebbero esistere tutti i presupposti per una stima dei relativi costi e per una pianificazione e programmazione di massima. 2.3 Contenuti della relazione L'attività di ricerca condotta dal DIS ha portato al completamento delle due prime fasi, ovvero lo studio di fattibilità e la implementazione del caso di studio pilota relativo alle politiche per il Sociale. Inoltre, è stata effettuata una stima dei tempi e dei costi necessari alla realizzazione del sistema informativo statistico relativo al settore Sociale. La presente relazione descrive i risultati ottenuti, così esposti nel seguito: ? ? la sezione 2 contiene una introduzione alle problematiche relative ai Data Warehouse ed alle relative possibili scelte architetturali; 3 ? ? la sezione 3 descrive la proposta metologica per la realizzazione del Sistema Informativo Statistico della regione Lazio, descrivendo l'architettura prescelta per la sua attuazione, la pianificazione delle attività previste e le specifiche per lo studio pilota; ? ? la sezione 4 descrive lo studio pilota, mostrando le problematiche del settore Sociale e la tipologia delle fonti informative coinvolte; l'elenco puntuale delle fonti informativecensite è mostrato, invece, in appendice A; ? ? la sezione 5 mostra la struttura utilizzata per la classificazione delle fonti, descrivendo nel dettaglio lo schema di una base di metadati, contenente tutte le informazioni necessarie alla individuazione ed al reperimento dei dati di interesse; ? ? la sezione 6 descrive il prototipo realizzato per il caso pilota, fornendo un manuale di utilizzo dello stesso; ? ? la sezione 7 mostra la stima dei tempi e dei costi previsti per la realizzazione del Sistema Informativo Statistico relativo al settore Sociale. 4 3 Il Data Warehouse 3.1 Problematiche generali Il data warehouse è la risposta più efficace all’esigenza di comprendere ed analizzare i fattori chiave delle proprie attività produttive, siano esse di tipo imprenditoriale o di tipo amministrativo. L’obbiettivo ultimo del data warehouse è, difatti, quello di ricavare un vantaggio strategico dalle proprie informazioni, per poter valutare le scelte fatte in passato e pianificare quelle future. Il data warehouse è quindi orientato al supporto alle decisioni, ed è basato sul principio che i dati presenti nei sistemi informativi di supporto alle attività di base della organizzazione debbono essere profondamente trasformati per essere efficacemente utilizzati. Come si vede, quindi l’idea di base di un data warehouse è molto semplice, e consiste sostanzialmente nell’osservare come le esigenze dei processi decisionali siano profondamente diverse dal semplice processo di gestione dei dati, e che sia quindi sbagliato tentare di soddisfarle tutte con un unico ambiente. I processi legati alla semplice gestione dei dati sono tipicamente transazionali e richiedono lettura e/o modifica di pochi dati alla volta con tempi di risposta strettissimi. I processi decisionali invece richiedono l’accesso a quantità di dati anche molto grandi per produrre risultati sintetici e possono accettare tempi di risposta meno stretti (purchè ragionevoli). Inoltre, mentre le attività legate alla gestione dei dati sono altamente ripetibili, le richieste dei processi decisionali variano di volta in volta in funzione delle esigenze. Una soluzione basata sul concetto di data warehouse affronta il problema in maniera radicale: visto che i due tipi di processi hanno esigenze così diverse, conviene separare gli ambienti che li supportano. Un data warehouse è, quindi, un ambiente separato in cui far convergere (prelevandoli dagli ambienti di produzione) tutte le informazioni utili ai processi decisionali e su cui costruire tutte le funzioni a supporto di tali processi. 3.2 Dati gestiti da un data warehouse Per comprendere le possibili architetture concettuali utilizzate nella progettazione di un data warehouse; risulta necessario premettere un'analisi delle tipologie di dati gestiti da un DW. Ci sono molti tipi di dati memorizzati nei sistemi informatici. Alcuni sono particolarmente appropriati per essere gestiti in un data warehouse, altri no. In questa sezione, dopo una generale caratterizzazione dei dati, verrà identificato il tipico campo di azione di un DW. 5 Le coordinate utili per la classificazione dei dati sono tre: 1. Significato. I dati possono avere significato intrinseco o possono rappresentare qualche altra cosa che, a sua volta, ha un suo proprio significato. Un esempio della prima tipologia può essere un libro in formato elettronico, un esempio della seconda può essere una tabella contenente, provincia per provincia, l'investimento complessivo effettuato in un certo anno per il settore Sociale. I dati presenti nei sistemi informativi di una impresa o di un ente amministrativo (business data) cadono quasi sempre nella seconda categoria. Un caso particolare della prima categoria sono i metadati, che rappresentano il significato dei dati stessi. Per la valenza particolare che quest'ultimo tipo di dati riveste, tratteremo questo caso particolare come una terza tipologia di dati. 2. Struttura. I dati possono essere strutturati, essendo definiti in termini di campi collegati o record e/o aggregati, oppure non strutturati, quando la struttura interna non è ben definita. 3. Campo di Azione. I dati possono essere personali, o pubblici. Un corretto campo di azione di un data warehouse dovrebbe comprendere allora dati di business e metadati nella maggior parte pubblici, sia strutturati che non come mostrato in Figura 1. Figura 1 Dati gestiti da un data warehouse 3.2.1 Dati di Business I dati di business sono necessari alla gestione dell'organizzazione stessa. Essi rappresentano sia le attività che sono svolte dall’organizzazione sia gli oggetti del mondo reale con i quali l’organizzazione è solita trattare. È possibile classificare i dati di business in tre distinte categorie: 6 1. Real-Time Data. Rappresentano lo stato corrente delle attività svolte dall'organizzazione, e ne consentono lo svolgimento. Sono i dati al più basso livello di dettaglio nell’organizzazione e sono creati, manipolati e acceduti quasi esclusivamente da sistemi operazionali o personali. Tali dati vengono gestiti tramite Data Base Management System (DBMS), e sono oggetto delle usuali operazioni di inserimento, ricerca, modifica e/o cancellazione. 2. Dati Derivati (Derived Data). Sono dati ottenuti dai dati real-time tramite un processo di trasformazione. Possono esistere sia ad un elevato livello di dettaglio sia in forma aggregata e, per la loro natura, rappresentano o informazioni puntuali raccolte in un certo istante temporale o di tipo periodico, fornendo una visione storica dell' attività di interesse. I dati derivati vengono acceduti esclusivamente in lettura da applicazioni di supporto alle decisioni (DSS). 3. Dati Riconciliati (Reconcilied Data). Sono dati generati da un processo di razionalizzazione ed integrazione dei dati real-time provenienti da molteplici sorgenti dati. Sono, di fatto, un particolare caso di dati derivati, dove il processo di manipolazione è più di tipo sintattico (risoluzione di omonimie, sinonimie, formato di memorizzazione, ecc.) che di tipo semantico anche se la loro produzione, ha come effetto collaterale la creazione ed il mantenimento di un insieme di dati storici. Nei sistemi di supporto alle decisioni raramente i dati riconciliati sono esplicitamente definiti, e dove esistono raramente sono fisicamente memorizzati. Il più delle volte, infatti, sono soltanto il risultato logico di operazioni eseguite sui dati real-time. Come si vedrà in seguito la costruzione di un livello di riconciliazione dei dati è il passo fondamentale nella costruzione di un data warehouse proprio perchè l’importanza di tali dati è stata per lungo tempo trascurata dalle imprese portando alla proliferazione di inconsistenze tra dati operativi. Relativamente alla struttura, appare evidente che la maggior parte dei dati di business è di tipo strutturato; eventuali eccezioni, tipo diagrammi, documenti strategici, ecc., meritano di essere considerati all'interno di un data warehose, ma solo a valle di una completa gestione dei dati strutturati. 3.2.2 Metadati Con l’aumentare della varietà dei dati usati e memorizzati in una impresa, e con l’aumentare dei diversi usi che di tali dati è possibile fare, nasce la necessità di formalizzarne la descrizione e l’uso, per assicurare che vengano utilizzati in maniera completa e consistente. I metadati , ovvero dati sui dati, soddisfano questa esigenza. 7 Come si può facilmente immaginare, i metadati giocano un ruolo fondamentale anche nel campo del data warehousing. Infatti, affinchè un data warehouse sia acceduto e mantenuto in maniera efficiente è necessario conoscere quali dati sono disponibili dove sono collocati, quali procedure di trasformazione sono state effettuate, etc. Una classificazione porta ad individuare tre tipologie di metadati: 1. Metadati di servizio, per la costruzione del sistema informativo, ovvero metadati utilizzati per la creazione e gestione dei dati operazionali. L'origine di questi metadati è antecedente alla creazione del data warehouse ma il loro ruolo in tale contesto è essenziale in quanto contengono tutte le informazioni necessarie per l'integrazione e riconciliazione dei dati; 2. Metadati di controllo, utilizzati dal DW per gestire il funzionamento del data warehouse stesso. Questa tipologia di metadati realizza il collegamento tra i dati operazionali e la struttura del DW; 3. Metadati per l'utente finale, pensati per aiutare l'utente del DW nella ricerca delle informazioni di interesse attraverso l’enorme mole di dati disponibili. Alcuni di questi metadati sono derivabili dai metadati di cui al punto 1 e 2, altri devono essere raccolti ad-hoc. Da un punto di vista utente i metadati dovrebbero contenere: a. l’origine dei dati (ricavabili dai metadati di servizio), in quanto l’utente del data warehouse ha necessità di conoscere da quale sistema provengano i dati da lui richiesti; b. le sequenze di trasformazioni, poichè è fondamentale per un utente conoscere quale trasformazione è stata applicata ai dati nel passaggio dall’ambiente operativo al data warehouse; c. i livelli di accesso, contenenti informazioni relative ai permessi di accesso disponibili all’utente e a come sia possibile ottenere informazioni al momento non disponibili; d. informazioni temporali, che forniscono la data e l’ora dell’ultimo aggiornamento effettuato e/o del periodo temporale coperto dai dati stessi; Appare quindi evidente che i metadati rivestono un ruolo fondamentale nel successo di un progetto di data warehouse. 3.3 Livelli architetturali di un DW Le architetture concettuali di un DW si possono classificare in base al grado di disaccoppiamento tra ambiente operazionale ed ambiente decisionale e, di conseguenza, in base al livello di duplicazione dei dati. 8 3.3.1 Architettura ad un livello In questo caso non è prevista alcuna ridondanza dei dati. I sistemi decisionali accedono all’unica copia dei dati in concorrenza con i sistemi operazionali, con conseguente degradazione delle prestazioni di entrambi (vedi Figura 2). Il vantaggio è dato dalla minimizzazione del volume dei dati e dall’eliminazione dei problemi di consistenza causati dalla duplicazione. L’assenza di qualsiasi trasformazione dei dati operazionali ed in particolare l’assenza di aggregazioni precalcolate contrasta in modo evidente con le esigenze dell’analisi decisionale. Operational systems Informational systems Dati Operazionali Figura 2 Architettura concettuale ad un livello I DW con architettura ad un livello sono anche detti data warehouse virtuali, poichè il disaccoppiamento dall’ambiente operazionale è gestito direttamente dalle applicazioni decisionali senza il supporto di dati fisicamente organizzati secondo le esigenze dell’ambiente informativo. I DW virtuali hanno avuto un iniziale successo dovuto alla rapidità dei tempi di sviluppo. Allo stato attuale vengono però privilegiate architetture più complesse che forniscono una risposta più adeguata ai problemi dell’analisi decisionale. L'unico contesto in cui tale approccio ha ancora una notevole validità è quello in cui la mole dei dati operazionali sia tale da scoraggiare qualunque forma di duplicazione. 3.3.2 Architettura a due livelli. In questo caso il disaccoppiamento del DW dai sistemi operazionali è realizzato tramite l’aggiunta di un livello intermedio di dati replicati (vedi Figura 3). L'architettura prevede quindi due livelli separati: 1. un livello di dati real-time, cui accedono i sistemi operazionali in lettura e scrittura; 9 2. un livello di dati derivati, cui accedono i sistemi decisionali tipicamente in lettura; in tale livello sono presenti sia dati di dettaglio che dati aggregati, relativi a finestre temporali di differenti dimensioni. I dati derivati sono periodicamente arricchiti tramite processi di estrazione dai dati real-time. L’integrazione di questi dati avviene contestualmente all’estrazione. La replicazione dei dati elimina il problema della concorrenza tra sistemi decisionali e sistemi operazionali; il prezzo pagato è il notevole aumento dello spazio di memorizzazione necessario. Informational systems Operational systems Derived Data Real-time data Figura 3 Architettura concettuale a due livelli Il buon grado di separazione tra ambiente decisionale e ambiente operazionale, uniti alla semplicità architetturale, hanno determinato un’ampia diffusione di questa soluzione, soprattutto nei casi in cui il processo di derivazione e di integrazione è meno complesso, cioè in quelle organizzazioni caratterizzate dall’omogeneità dei sistemi operazionali e da un numero limitato di piattaforme hardware e software. Una grossa controindicazione a tale approccio è legata al fatto, non sempre compreso, che il legame esistente tra dati real-time e dati derivati non è affatto lineare: ognuno dei due livelli è, difatti, composto dall'unione di differenti insiemi di dati parzialmente sovrapposti e, tipicamente, gli insiemi di dati presenti nei dati derivati provengono da più d'uno degli insiemi presenti nei dati real-time (vedi Figura 4). Tutto questo produce una notevole complicazione nel livello di gestione ed aggiornamento dei dati derivati, rendendone difficile la manutenzione. 10 Operational systems Informational systems Derived Data Real-time data Figura 4 Relazioni tra dati real-time e dati derivati È in tale contesto che nasce il concetto di data mart: un approccio in cui differenti dipartimenti aziendali realizzano separatamente differenti sistemi per gestire le informazioni, realizzando, di fatto, un'architettura a due livelli. In sintesi, un'architettura a due livelli produce risultati utili per attività a breve termine ma non affronta in modo rigoroso il problema della consistenza e dell'integrità dei dati ed è strategicamente inefficiente per attività decisionali a medio e lungo termine. 3.3.3 Architettura a tre livelli. L’architettura a tre livelli nasce dall’osservare che la trasformazione dei dati real-time in dati derivati non richiede un solo passo come avviene nell’architettura a due livelli ma bensì due passi che sono : 1. Riconciliazione dei dati provenienti dai diverse sorgenti dati 2. Derivazione dei dati richiesti dall’utente non dai dati real-time, ma dai dati riconciliati. Questo porta all’architettura di Figura 5. Il livello di riconciliazione richiede la comprensione di come le differenti sorgenti dati siano tra loro correlate e quale sia il loro ruolo nell’organizzazione. 11 Informational systems Operational systems Derived Data Reconcilied data Real-time Data Figura 5 Architettura a tre livelli Lo scopo del livello di riconciliazione è dunque quello di creare un modello dati che sia comune a tutta l’organizzazione e che contenga tutte le possibili informazioni di possibile interesse per gli utenti finali, oggi come nel futuro. Il processo di caricamento dei dati provenienti dal livello operativo (real-time data) permetterà di eliminare da essi inconsistenze e irregolarità e di integrarli tra loro in maniera razionale. Nessun nuovo data sarà creato a questo livello, il valore aggiunto di tale processo sta nella riconciliazione stessa. Il passo successivo sarà il popolamento del livello dei dati derivati, attraverso un processo di trasformazione, combinazione ed aggregazione applicato non più ai dati operativi come avveniva nell’architettura a due livelli, ma direttamente ai dati riconciliati. Tale processo sarà ovviamente basato sulle esigenze degli utenti finali. 3.4 Accesso ai dati di un DW Il processo che permette ad un utente di visualizzare e comprendere i dati conservati nel data warehouse deve: ? ? Avere una interfaccia utente intuitiva e facile da usare; ? ? Avere la capacità di associare ai dati (collegati ad una definita espressione in ingresso) un insieme di regole formali da utilizzare per selezionarli, manipolarli e trasformarli; ? ? Avere la capacità di conservare tali regole per ogni riutilizzo nel futuro; ? ? Provvedere un accesso a tali regole per usarle o modificarle; 12 ? ? Provvedere a identificare un collegamento alle locazioni dei dati per il loro recupero; ? ? Avere la capacità di collegare ai dati prodotti il loro significato, definizione e utilizzo (metadati); ? ? Avere l’abilità di rappresentare le informazioni richieste in vari modi da quelli testuali a quelli grafici; ? ? Avere la capacità di passare le informazioni ad altri processi come posta elettronica, programmi di grafica, etc; ? ? Avere la capacità di costruire e conservare delle procedure che usano varie funzionalità offerte dal processo. 3.4.1 Interfaccia utente L’insieme delle applicazioni che realizzano le funzionalità descritte precedentemente sono raccolte dal punto di vista logico nella business information interface (BII). Nella struttura logica del BII si distingue l’interfaccia utente, grazie alla quale vengono manipolate le funzionalità offerte dal BII: ? ? Funzioni di associazione e definizione. Una varietà di tecniche basate sulla grafica, sul in linguaggio naturale che traducono gli input costituiti da termini orientati alle funzionalità della organizzazione in termini orientati ai dati e permettono di costruire su questi delle interrogazioni e trasformazioni con degli strumenti amichevoli. Lo scopo è di isolare il più possibile l’utente “dal punto di vista informatico” e permettergli di usare quanto più possibile la terminologia a lui nota. Queste funzioni permettono anche l’associazione tra dati restituiti e il loro significato. ? ? Funzioni di selezione e manipolazione. Generano comandi SQL o in altri linguaggi di manipolazione sui dati che utilizzano condizioni di tipo WHERE e di ordinamento sui dati. Vengono usate dalle funzioni di definizione e associazione. ? ? Funzioni di data management. Sono responsabili degli accessi ai dati che possono risiedere nel data warehouse ma anche in data store personali. Per gestire tale responsabilità il data management fornisce informazioni sulle versioni e le validità correnti dei dati. Inoltre i dati vengono “preparati” per essere esportati verso altri strumenti esterni. Il data management si basa sulle componenti dell’accesso ai dati per cui i dati possono essere recuperati da ogni locazione fisica sotto ogni formato. ? ? Funzioni di struttura e presentazione. Trasformano i dati estratti in un formato richiesto per l’uso. Tale formato varia da un semplice report testuale da stampare a complessi grafici da vedere e manipolare direttamente. 13 ? ? Funzioni di procedure management. Sono procedure che utilizzano le funzionalità precedenti e che, una volta create, risiedono in una libreria per essere eventualmente riutilizzate. Il contenuto di una procedura può essere una interrogazione su di una singola base di dati o una complessa interrogazione distribuita, con relative analisi dei dati di output e complesse formattazioni dei risultati. Certe procedure possono essere dei trigger che scattano in determinate circostanze di natura eccezionale o periodicamente ricorrenti. Ad esempio queste procedure-trigger possono distribuire dei report agli utenti per avvisarli di situazioni anomale riscontrate nei dati oppure possono invocare l’aggiornamento periodico dei dati di un utente. Ovviamente, l’uso di tali procedure viene documentato nei metadati. 3.4.2 Funzionalità di navigazione e metadati Abbiamo visto che il processo di trasformare i dati contenuti nel data warehouse in informazione da visualizzare è compito del BII; per far ciò, ha bisogno di un secondo componente, il business information guide (BIG), per accedere ed usare i metadati che descrivono i dati nel contesto delle attività svolte dalla organizzazione. Il BIG permette agli utenti di esplorare il significato dei dati, comprendere come sono usati o come potrebbero essere usati ed, eventualmente, rilevare errori e discordanze da sottoporre all’attenzione di coloro che li amministrano. Vale la pena ricordare che molti degli insuccessi legati all’utilizzazione del data warehouse sono dovuti alla mancanza di comprensione dei dati in esso contenuti. I problemi fondamentali per comprendere l’importanza del BIG sono: ? ? più dati sono disponibili, più occorre tempo per trovare qualcosa di utile; ? ? più dati sono disponibili, meno, in percentuale, sono quelli che un qualsiasi utente può comprendere. Il BIG dovrebbe essere in grado di risolvere i seguenti quattro punti chiave per l’utilizzo di un data warehouse: 1) cosa c’è nel data warehouse 2) come si usa quel che c’è 3) dov’è quel che c’è 4) come ottenere quello che c’è. Possiamo suddividere l’uso del BIG in quattro aree: Attività di business Metadati richiesti: 14 1) Definizioni dei termini delle attività svolte dalla organizzazione e dei dati e funzioni coinvolte. La terminologia, a volte, è composta da un gran numero di sinonimi e omonimi. Questi metadati aiutano a chiarire come un termine può assumere diversi significati nelle varie parti di una organizzazione oppure come diversi termini attraverso la compagnia vogliano esprimere lo stesso concetto. 2) Definizioni dei processi, sotto-processi e loro relazioni. 3) Relazioni tra processi, termini delle attività svolte dalla organizzazione e termini appartenenti ad altre aree. È ovvio che le aree principali di interrogazione del BIG non sono nettamente separate, ad esempio una attività può essere capita non solo attraverso i processi svolti ma anche con la comprensione dei dati prodotti per la quale può essere necessario sapere a quale parte dell’organizzazione sono destinati quei dati prodotti, ecc. I “cammini” tra due aree generalmente sono “percorribili” in entrambi i versi. Uso: 1) Indagare sul significato dei termini delle attività svolte dalla organizzazione, task e processi; 2) Indagare su applicazioni e dati usati; 3) Indagare sul contesto in cui agiscono applicazioni o dati; 4) Aggiornare la terminologia. Organizzazione Descrive la struttura dell’organizzazione. Metadati richiesti: 1) Definizioni sulle strutture dell’organizzazione e ruoli individuali. 2) Responsabilità all’interno dell’organizzazione per applicazioni e dati. Ad esempio responsabilità per la distribuzione, la qualità e accesso ai dati. Uso: 1) Inviare richieste a un responsabile. Ad esempio per richiedere il permesso di accesso a dei dati o per avvisare di aver riscontrato incongruenze nei dati; 2) Indagare sulle responsabilità di applicazioni o qualità dei dati; 3) Aggiornare le responsabilità individuali. Applicazioni Documenta come il sistema informativo ha implementato nel corso degli anni le procedure usate dalla organizzazione. Metadati richiesti: 1) Definizioni delle applicazioni e procedure; 15 2) Definizioni di interrogazioni e report, e loro relazioni con applicazioni e processi; 3) Descrizioni del codice di interrogazioni e report. Per utenti più abili che vogliono modificare o sfruttare queries o reports già esistenti; 4) Definizioni di interrogazioni, parametri e valori permessi. Descrive una specifica area di funzioni che modificano interrogazioni parametriche. Il BIG dà la lista dei parametri e valori permessi per la personalizzazione delle interrogazioni e dei report; 5) Descrizione dei dati prodotti o usati in interrogazioni e report. Uso: 1) Ricerca di applicazioni esistenti. Per evitare di riscrivere applicazioni, o procedure già esistenti. L’approccio a tali metadati è analogo a quello ai metadati dei termini ed attività tipiche dalla organizzazione; 2) Scoprire che dati ed applicazioni sono collegati. Una completa comprensione delle applicazioni è favorita dalla conoscenza dei dati che esse usano; 3) Usare le interrogazioni ed i report disponibili; 4) Supportare la personalizzazione di interrogazioni e report. Dati La parte dati include sia la descrizione ed il significato dei dati dal punto di vista del loro significato all'interno della organizzazione sia dal punto di vista della loro struttura, ovvero il tipo, il livello di aggregazione,ecc. Metadati richiesti: 1) Descrizione delle entità principali, classificazione dei dati entro le aree delle attività svolte dalla organizzazione; 2) Descrizione tecnica dei dati. Le entità astratte individuate nella fase precedente si traducono in file, tabelle, viste ed altre strutture fisiche. Le informazioni reperibili includono nomi e sinonimi, locazioni, modalità di accesso e dimensioni. Gli attributi trovano la loro corrispondenza fisica in colonne di tabelle o campi di record con relative tipologie, lunghezze dei campi e valori permessi; 3) Traduzioni di campi codificati. Sono le classiche tabelle di conversione o che contengono la descrizione estesa corrispondente a codici e acronimi. Possono essere considerati anche dei veri e propri dati del business in quanto possono essere implementati fisicamente nei database e possono cambiare; 4) Regole di derivazione. Durante il popolamento del data warehouse subiscono una serie di trasformazioni di cui si deve essere a conoscenza se si vogliono interpretare correttamente i dati: ad esempio bisogna conoscere qual è il livello di aggregazione a cui si riferiscono i dati, cioè se una vendita si riferisce alla somma delle vendite 16 giornaliere o settimanali o mensili ecc. Le regole di trasformazione possono essere descritte testualmente o con l’esposizione più dettagliata di algoritmi e codici; 5) Stato di aggiornamento dei dati e scheduling. Le informazioni di scheduling descrivono quanto spesso o quando vengono aggiornati i dati. Lo stato di aggiornamento dei dati viene qui spesso rappresentato al livello di gruppi di dati, mentre per una informazione più dettagliata a livello di record e campi bisogna far uso dei timestamp presenti nel data warehouse; 6) Statistiche sulla utilizzazione dei dati. Utili soprattutto per l’amministratore che vede come e quando sono usate le informazioni, può essere utile anche all’utente finale occasionalmente quando definisce la scelta dei dati da visualizzare con nuove interrogazioni . 7) Informazioni sulla attendibilità e/o qualità dei dati. Uso: 1) Conoscere il significato dei dati. Si permette anche alle persone appartenenti ad diverse aree di una organizzazione di attribuire un significato unico ai dati e usarli in maniera non conflittuale, il che permette una migliore comunicazione fra diverse parti della organizzazione; 2) Localizzazione dei dati. Si permette di rintracciare con facilità i dati ricercati e di ridurre i costi associati alla generazione di dati cercando di vedere se questi sono già stati estratti; 3) Decidere un appropriato uso dei dati; 4) Supportare lo sviluppo di nuove interrogazioni; 5) Dare un significato a campi codificati; 6) Supportare l’amministrazione del data warehouse. L’amministrazione potrebbe rendersi conto che è inutile mantenere dati che non vengono più utilizzati; 7) Ottenere informazioni sulla qualità dei dati. 17 4 Il sistema informativo statistico della Regione Lazio Come detto precedentemente, si prevede di utilizzare un approccio di tipo data warehouse, cioè basato sulla acquisizione dei dati dalle diverse sorgenti informative, e sulla loro importazione ed integrazione in un’unica base di dati. Questa via risulta più praticabile rispetto ad una federazione di basi di dati eterogenee, di fatto preclusa dalle problematiche di accesso in tempo reale a dati detenuti e gestiti da molteplici amministrazioni, che potrebbero essere riluttanti a concedere l’accesso diretto ai proprio archivi. Tuttavia, rispetto all’approccio tradizionale di data warehousing, ipotizzando che i dati disponibili possano essere già aggregati a diversi livelli, si introducono nel processo di integrazione e riconciliazione anche aspetti relativi alla omogeneizzazione dei differenti livelli di aggregazione rispetto ad attributi temporali e/o spaziali, nonché un'analisi della loro qualità. L’architettura data warehouse, rispetto ad una federazione di basi di dati, consente di ottenere una elevata affidabilità del sistema, ed una maggiore efficienza nella risposta ad interrogazioni. Inoltre, a partire da un data warehouse, risultano semplificate le procedure necessarie ad estrarre data mart, ad esempio sotto forma di viste materializzate, per particolari tipologie di utenza. Naturalmente, dovendo gestire informazioni storicizzate e soggette ad evoluzione temporale, sarà necessario predisporre opportuni moduli di importazione di dati che permettano in maniera semi-automatica l’aggiornamento periodico del data warehouse e la sua “storicizzazione”, arrivando a quella che viene tecnicamente definita una “base di dati persistente”, in cui cioè è possibile risalire sia alle informazioni correnti, sia ai valori relativi ad istanti precedenti. 4.1 Architettura generale proposta per il sistema In figura 1 possiamo vedere una rappresentazione schematica dell’intero sistema con le sottoparti che lo compongono. Le sorgenti dati possono essere sia esterne che interne, provenienti da attori diversi e caratterizzate da diversa natura. L'architettura prevista corrisponde a quella di una data warehouse a tre livelli e permette di distinguere quattro componenti essenziali: 1. Acquisizione dati: raggruppa tutte le funzioni di acquisizione delle informazioni, in cui eventuali discrepanze tra le varie sorgenti informative (dati operazionali) vengono risolte con il fine ultimo di alimentare la base di dati principale con dati omogeneizzati, sia rispetto al tipo che al livello di aggregazione; 18 2. Gestione dei dati: nel data warehouse vengono gestiti sia i dati (dati riconciliati) veri e propri che la loro descrizione (metadati). I dati sono proprio le informazioni sul sociale di cui .la regione ha bisogno: il numero di anziani per singola provincia o il reddito medio dei pensionati, ecc. I metadati sono informazioni relative alla struttura dei dati stessi, al sito di provenienza, alla loro organizzazione originaria, alla data dell' ultimo aggiornamento, ecc. 3. Interrogazione da parte degli utenti: questo livello prevede una molteplicità di meccanismi di interrogazione, meccanismi che tengono conto delle differenti necessità e conoscenze degli utenti. In particolare si prevede la possibilità di: a. effettuare interrogazioni dirette sui dati riconciliati (analisti del sistema statistico); b. interrogazioni su viste (utenti esterni); c. creazione di dati derivati, a partire dai dati riconciliati (data mart) utilizzabili da strumenti evoluti per effettuare l'analisi dei dati (utenti esperti). ACCESSO INTERNET / INTRANET INTERROGAZIONE MODULO DI INTERROGAZIO NE INTERROGAZIONE MODULO DI INTERROGAZIONE MODULO DI INTERROGAZIONE VISTA UTENTE DATA MART TEMATICO GESTIONE DATI METADATI SCHEMA CONTROLLO ACCESSI E RISERVATEZZA DATI METADATI DI SERVIZIO ACQUISIZIONE MODULO MOD ULO DI ESTRAZIONE E AGGREGAZIONE SORGENTE INFORMATIVA MODULO DI ESTRAZIONE E AGGREGAZIONE SORGENTE INFORMATIVA MODULO DI ESTRAZIONE E AGGREGAZIONE SORGENTE INFORMATIVA Figura 1 - Architettura di riferimento 19 4. Accesso al sistema: l'accesso al sistema avviene tramite rete, basata su una connessione di tipo Internet/Intranet. L'accesso può essere quindi garantito tramite un semplice browser web (e.g., Internet Explorer o Netscape), evitando così tutte le problematiche di distribuzione del software di accesso, ed ampliando così il potenziale bacino di utenza del servizio Integrati a vari livelli nell'architettura sono gli aspetti riguardanti il controllo degli accessi e le garanzie di riservatezza dei dati, che rivestono un'importanza cruciale data la natura particolare dell'applicazione, la molteplicità dei dati coinvolti, e l'accessibilità tramite rete da parte di un'utenza eterogenea. 4.2 Utenti e livelli di accesso Un'analisi dell'utenza porta alla individuazione di tre figure distinte: 1. Utenti esterni: utenti del territorio (in particolare gli enti locali, le società e le associazioni operanti nel campo) possono essere particolarmente interessati ad una efficace e tempestiva informazione sull’andamento dei bisogni di assistenza sociale, sia per programmare interventi specifici sia per partecipare alla fornitura di servizi. Per la stessa natura distribuita degli utenti la soluzione obbligata è quella di analisi pubblicate su Internet o di semplici applicativi web che consentano analisi più mirate. 2. Decisori interni: coloro che all’interno della Regione devono prendere decisioni che coinvolgono il fenomeno dell’assistenza sociale hanno necessità di ottenere rapidamente informazioni sul fenomeno stesso e quindi richiedono dati aggiornati e strumenti semplici che diano in modo chiaro e sintetico l’andamento del fenomeno negli specifici settori di competenza. Essi hanno quindi bisogno di uno strumento che con semplicità consenta la navigazione dei dati o la visualizzazione di indicatori significativi. Anche tale dispositivo può essere basato su applicativi internet. 3. Analisti del Settore Statistico: i semplici strumenti di analisi e navigazione affidati ai decisori interni rispondono a molte ma non a tutte le necessità informative. Risultano quindi necessarie analisi più sofisticate, basate su modelli statistici complessi e che coinvolgono in maniera non elementare molte variabili. Tali utenti devono quindi disporre di applicativi statistici di elevata potenza che permettano le analisi necessarie. Coerentemente, gli strumenti di distribuzione dei dati e delle informazioni saranno almeno tre: uno per gli utenti esterni, di tipo molto semplice ed immediato, basato sul web, uno per la consultazione e l’analisi dei dati da parte dei decisori interni, in grado di permettere semplici 20 analisi e navigazioni dei dati, anch’esso basato su servizi web, ed infine uno strumento di analisi statistica avanzato a disposizione degli analisi del Sistema Statistico. 4.3 Dati e metadati Come esposto precedentemente, per realizzare un data warehouse, in particolare se vogliamo che esso possa essere arricchito da nuove sorgenti informative e ripopolato periodicamente, è necessario produrre una descrizione formale della struttura e della semantica degli archivi di riferimento. Queste informazioni prendono il nome di metadati. I metadati descrivono, quindi, sia lo schema dei dati (metadati propriamente detti), sia altre informazioni necessarie per realizzare le procedure d’integrazione e riconciliazione (metadati di servizio). È opportuno notare che già la sola raccolta e organizzazione dei metadati renderebbe agevoli attività che attualmente vengono condotte con grande difficoltà. Infatti, osservando i metadati, sarebbe possibile per un utente conoscere quali sono le sorgenti che contengono informazioni attinenti l’argomento di studio, e, osservando i metadati ausiliari, valutare la potenziale utilità di tali sorgenti. La natura dei metadati è in parte dipendente dalla specifica sorgente informativa, in parte dipende, invece, da quali sono le caratteristiche rilevanti per determinare l’utilità di una sorgente. La struttura stessa dei metadati non è quindi determinabile a priori, ma solo dopo un’attenta analisi delle tipologie di sorgenti informative da integrare. In sintesi possiamo distinguere le seguenti tipologie di metadati: ? ? metadati statistici: l’insieme di regole e definizioni che descrivono il processo di acquisizione e convalida al fine di rendere statisticamente significativi i dati, nonché le informazioni che descrivono le caratteristiche organizzative della sorgente informativa; ? ? metadati semantici: l’insieme di informazioni atte a descrivere il significato delle variabili statistiche anche a chi non ha conoscenze specifiche del fenomeno di interesse; ? ? metadati tecnici: le informazioni tecniche relative alla organizzazione e memorizzazione fisica delle variabili e dei processi elaborativi associati. Tali metadati saranno opportunamente organizzati e memorizzati nella base di dati e agli utenti autorizzati ne sarà consentita l’interrogazione e la navigazione, al fine di acquisire conoscenza diretta non solo sul contenuto del data warehouse, ma sulla struttura stessa delle sorgenti informative. La navigazione avverrà attraverso un opportuno strumento di interfaccia, basato sui protocolli web, che permetterà di interrogare la base dei metadati. Oltre alla ricerca diretta tramite la combinazione di parole chiave e, ad esempio, alla definizione di periodi temporali di interesse o di specifiche aggregazioni geografiche il sistema 21 dovrà prevedere un semplice thesaurus, utile per ricercare argomenti collegati (e.g., sinonimi). Una proposta pratica per arricchire i metadati con questa struttura aggiuntiva è mostrata in sezione 5. Da notare che la realizzazione di questo strumento di ricerca basato sui metadati potrà avvenire semplicemente a valle dell’attività di censimento delle sorgenti informative, ancor prima della definizione dello schema del data warehouse e dell’inizio del suo popolamento, che si presume sensibilmente più impegnativo e costoso. 4.4 Gli studi pilota e la loro attuazione Una volta individuata un'architettura di riferimento, l'attività è proseguita individuando un settore di interesse che potesse servire come studio pilota per le successive attività. Il settore prescelto doveva essere, da un lato, sufficientemente articolato (i.e., ricchezza di tipologie di fonti informative, di utenti, di meccanismi di accesso, ecc.) da portare alla corretta individuazione delle problematiche generali da affrontare e, dall'altro, sufficientemente circoscritto da essere dominabile nel contesto di uno studio di fattibilità. Un'analisi preliminare ha portato alla individuazione di un insieme di possibili settori: 1) Turismo (Cultura/Sport/Spettacolo) 2) Agricoltura 3) Formazione professionale e scuola 4) Servizi sociali Tra di essi, sulla base delle indicazioni fornite dalla Regione Lazio, è stato scelto il settore dei servizi sociali. Una ricognizione, non esaustiva, delle sorgenti informative afferenti a tale settore, ha permesso di individuare una classificazione delle tipologie di fonti disponibili, delle problematiche connesse alla estrazione e riconciliazione dei dati e delle metodologie da utilizzare. Sulla base dei risultati ottenuti, è stata dettagliata e modificata l''ipotesi architetturale discussa nella sezione 3.1, arricchendo in particolare la parte relativa ai metadati (vedi sezione 5). Si è proceduto, poi, alla realizzazione di una base di dati dimostrativa, popolandola con i dati estratti dal settore pilota (sezione 6). 22 5 Lo studio pilota 5.1 L'assessorato delle politiche sociali La programmazione e gestione del sistema sociale è un’attività impegnativa e costosa, di grande rilevanza e che richiede scelte coordinate fra i diversi livelli di intervento. Una quantità ingente di risorse nazionali e locali viene destinata al supporto diretto e indiretto delle fasce della popolazione più deboli dal punto di vista economico e sociale. Alla base dell’elaborazione di tali politiche deve essere posto un sistema di conoscenze del settore che abbia le caratteristiche della completezza, dell’attualità, della flessibilità e della coerenza con gli obiettivi fissati. Dal punto di vista del fabbisogno informativo, la programmazione delle politiche di intervento sociale è, innanzitutto, conoscenza dei problemi: conoscenza che deve essere sia di tipo quantitativo che qualitativo dei singoli fenomeni che delle correlazioni fra loro esistenti. Il fenomeno sociale, per quanto “visibile” e discusso nelle sedi più disparate, si caratterizza per la perdurante carenza di sistematiche informazioni qualitative/quantitative. Le statistiche disponibili si riferiscono quasi esclusivamente a poche variabili legate a singoli aspetti dell’assistenza sociale che, spesso, riescono a descrivere solo una parte del fenomeno complessivo. Inoltre, la programmazione degli interventi nel territorio effettuata dalla regione e dagli enti locali non risulta sempre coordinata e questo penalizza l'efficacia delle politiche di intervento stesse. Infine, gli interventi programmati all’interno della regione devono tenere conto della variabilità, all’interno del territorio regionale, della percentuale di incidenza di specifiche categorie di popolazione e dei bisogni sociali connessi. L’importanza di un sistema informativo sui bisogni sociali è quindi legato alla razionalizzazione e all’ottimizzazione delle forme di intervento: l’ampliamento del campo di osservazione del fenomeno a una molteplicità di forme di assistenza sociale (assistenza agli anziani, alle famiglie, alle persone malate bisognose di assistenza domiciliare, ecc.) pone problemi di coordinamento fra le diverse politiche di intervento per evitare il rischio di non considerare o sottovalutare interventi a favore di specifiche problematiche di intervento. Di non minore importanza è l’aspetto relativo alla progettazione di nuovi strumenti di assistenza: la conoscenza quantitativa e qualitativa della realtà sociale permette di meglio realizzare nuovi progetti di intervento sociale, indirizzati verso categorie della popolazione che siano bisognose ma non beneficiarie degli attuali interventi. Il problema di un’approfondita conoscenza del fenomeno sociale è inoltre importante nella programmazione di interventi di tipo nuovo che non si limitano all’assistenza sociosanitaria e/o all’erogazione di contributi 23 economici diretti o indiretti. Infatti, esperienze significative ma ancora poco diffuse mostrano che forme nuove di intervento possono avere notevoli benefici sia dal punto di vista sociale che da quello sanitario con un costo economico ridotto; si fa riferimento, ad esempio, a forme di assistenza domiciliare per persone anziane che vivono sole basata sull’utilizzo di comunicazioni telefoniche e strumenti per il monitoraggio a distanza. In conclusione l’approfondita conoscenza “qualitativa” e “quantitativa” del fenomeno sociale è essenziale per orientare lo sviluppo in direzioni “sostenibili” in cui sia massimo il beneficio ottenuto senza ulteriori discriminazioni dovute agli aspetti legati al territorio o ai diversi bisogni. Infatti, conoscere il fenomeno dell’assistenza e misurare gli effetti delle azioni di intervento, significa “avere in mente” il complesso schema di interazioni esistenti tra chi ha bisogno e chi si attiva per offrire i beni e servizi necessari a soddisfare tale domanda. 5.2 Tipologia delle fonti informative Dati utili alla analisi ed al supporto alle decisioni sono presenti, anche se non sempre immediatamente fruibili, presso molti enti, fra cui la stessa Regione Lazio. Un elenco non esaustivo delle possibili fonti comprende dati provenienti da: ? ? indagini sui bisogni sociali e sanitari che determinano le categorie della popolazione bisognosa di aiuto condotte da enti e ministeri (Istat, Ministeri della Sanità , del Lavoro, della Pubblica Istruzione, Inail, ecc.); ? ? elaborazioni sui bisogni finalizzate alla produzione di statistiche ufficiali, tipicamente dell’Istat; ? ? monitoraggio degli interventi operati dai comuni e dalle province; ? ? monitoraggio di alcuni indicatori connessi alle problematiche del sociale: livello medio del reddito, dell’età, ecc.. Alcune di questi flussi di dati nascono già come flussi statistici e sono di norma già aggregati su periodi temporali più o meno lunghi, altri sono invece nati per altri scopi, e sono quindi dati di dettaglio da cui bisogna estrarre mediante apposite procedure dati utilizzabili a fini statistici. Rientrano in questo caso, per esempio, i dati prodotti dall’Amministrazione Regionale che detiene informazioni sugli interventi finanziati, dati presenti in formato cartaceo perché provenienti dal processo di autorizzazione e classificazione che la Regione deve svolgere. Il processo di acquisizione ed integrazione di questi dati può risultare anche notevolmente complesso, in particolare per i flussi di informazioni che non risiedono (in tutto o in parte) su supporti elettronici. Pertanto, ogni flusso dati deve essere analizzato separatamente e generare una specifica applicazione per il suo trattamento. Per maggiore complicazione bisogna dire che alcuni flussi dati, proprio perché non direttamente prodotti dall’Ente, possono risulatare 24 estremamente volatili, potendo modificarsi senza preavviso in maniera anche sostanziale oppure interrompendosi del tutto. Questo significa che la base dati atta ad accogliere questi dati deve essere progettata con estrema attenzione e comunque sarà soggetta a frequenti progetti di adeguamento. 5.3 L'analisi delle fonti informative Sulla base di indicazioni fornite da dipendenti della Regione Lazio operanti nel settore Sociale sono state analizzate e classificate le fonti informative più significative, privilegiando sia l'interesse che tali fonti rivestivano per il settore in questione sia le caratteristiche di generalità che tali fonti possedevano, al fine di rendere i risultati ottenuti fruibili in altri contesti. A tal scopo, sono state incluse nell'analisi sorgenti informative appartenenti ad altri settori (e.g., Cultura); si è potuto così validare la correttezza dell'approccio seguito. In particolare, sono state considerate le “Sorgenti SISTAN” e le “Sorgenti Amministrative”1. Per quel che riguarda il primo tipo i metadati sono stati presi dal “Piano Statistico Nazionale 1998-2000”, dal “Piano Statistico Nazionale 2001-2003” e dai Cataloghi del SISTAN dell’anno 2000 e precedenti. Per quel che riguarda il secondo tipo, i metadati sono stati prelevati dal censimento delle sorgenti informative della Regione Lazio (IRELA). L'analisi delle fonti in questione ha portato alla definizione di uno schema per la gestione dei metadati, descritto in sezione 5. In appendice A si riporta l'elenco, corredato dalle caratteristiche essenziali (dati e metadati) di tutte le fonti analizzate. 1 Per “Sorgente Amministrativa” si intende una sorgente di informazione appartenente alla pubblica amministrazione della Regione Lazio che può essere disponibile in formato cartaceo o digitale all’interno di un determinato Ufficio. 25 6 Classificazione delle fonti Come già detto, le sorgenti informative presentano delle inevitabili differenze, differenze che riguardano sia le tipologie di sorgenti, sia le caratteristiche dei dati in esse contenuti. Gli aspetti rispetto ai quali le sorgenti possono mostrare caratteristiche differenti riguardano, non esaustivamente, i seguenti aspetti: ? ? tecnologie utilizzate nella realizzazione del sistema informativo, ? ? sicurezza/robustezza dei sistemi di archiviazione, ? ? modalità di reperimento dei dati durante il popolamento della sorgente, ? ? periodicità di aggiornamento dei dati, ? ? qualità/attendibilità dei dati, ? ? disponibilità alla diffusione dei dati, ? ? modalità di diffusione dei dati. Dal punto di vista dei dati contenuti, potrebbero invece essere rilevate differenze rispetto a: ? ? unità di misura, ? ? livello di aggregazione temporale, ? ? livello di aggregazione spaziale, ? ? numerosità degli archivi, percentuale di valori non specificati o inattendibili, relazione tra denominazione e semantica dei dati. Le problematiche da affrontare e risolvere sono quelle enunciate in sezione 2, quando si è evidenziato il ruolo cruciale che i metadati hanno nella struttura di un Data Warehouse. La soluzione proposta, coerente con l'attuale stato dell'arte e con l'architettura mostrata in sezione 3.1, si basa sull'idea di una gestione del sistema incentrata sui metadati. La struttura i tali metadati è descritta nella sezione seguente, tramite uno schema Entità Relazione (ER nel seguito). 6.1 Organizzazione dello schema dei metadati La sintesi dello schema ER parte dalla considerazione che per un utente finale una sorgente informativa: ? ? appartiene ad una certa tipologia (Sorgenti SISTAN, Sorgenti Amministrative) ? ? è corredata di una serie di informazioni che aiutano a capire gli argomenti trattati, il periodo di riferimento, gli eventuali vincoli sull’accesso, etc. 26 ? ? contiene informazioni attinte da una serie di entità che nel seguito saranno chiamate “Unità di rilevazione” ? ? è disponibile su uno o più tipi di supporto (es.: cartaceo, digitale, etc.) ? ? contiene una serie di “Rappresentazioni” (ovvero di tavole, grafici etc.) che sintetizzano le informazioni in essa contenute. Per quello che riguarda le “Rappresentazioni” si può dire che: ? ? possono essere disponibili su file ? ? possono riportare “Attributi” (ovvero caratteristiche) riferiti ad entità che nel seguito chiameremo “Unità di Analisi” ? ? le informazioni possono essere riportate in forma di “statistiche” (tassi, percentuali, etc.) Per facilitare le ricerche per chiave risulta utile definire un elenco di argomenti (thesaurus) che possono essere associati alle rappresentazioni. Si può inoltre aggiungere che: ? ? una sorgente può attingere informazioni da zero o più “Unità di rilevazione” mentre una “Unità di rilevazione” può fornire informazioni per zero o più sorgenti; ? ? una sorgente può essere disponibile su uno o più supporti mentre un supporto può essere associato a zero o più sorgenti; ? ? una sorgente può contenere zero o più rappresentazioni mentre una rappresentazione è contenuta in una ed una sola sorgente; ? ? una rappresentazione può riportare zero o più statistiche mentre una statistica può essere riportata in zero o più rappresentazioni; ? ? ad una rappresentazione possono essere associati zero o più attributi mentre un attributo è associato ad una ed una sola rappresentazione ? ? una rappresentazione può essere associata ad una o più “Unità di analisi” mentre una “Unità di analisi” può essere contemplata in zero o più rappresentazioni. ? ? Una rappresentazione può avere attinenza con zero o più voci del thesaurus mentre una voce del thesaurus può essere associata a zero o più rappresentazioni ? ? Una rappresentazione può essere memorizzata in zero o più file mentre in un file sono memorizzate una o più rappresentazioni. Nella pagina successiva è riportato lo schema ER che descrive questa realtà. Per renderlo più leggibile sono stati riportati solo gli attributi identificatori delle Entità. Per un elenco più dettagliato degli attributi si rimanda alle tabelle descrittive di Entità e Relazioni . 27 Unità di Nome Denominazione rilevazione Argomento Statistica (0,N) (0,N) Nome (0,N) Appartenenza Origine Dati(1,N) Attinenza (0,N) (0,N) (1,N) Note ID (0,N) (0,N) Struttura Sorgente (1,1) (1,N) Rappresentazione Memorizzazione Nome Sorgente Sorgente Ammin. SISTAN URL (1,N) Files Riferimento (0,N) (1,N) Unità di Analisi (0,N) Supporto Disponibilità Nome Tipo supporto Nome (0,N) (1,1) Attributo Composizi one. 28 L’Entità principale dello schema è la “Sorgente”, intesa come sorgente di informazioni. Ad ogni “sorgente” è associato un codice identificativo univoco (ID) e una serie di attributi quali la classe di appartenenza, il titolo, l’oggetto dell’analisi, il detentore, le coordinate del responsabile, i vincoli sull’accessibilità, il minimo livello di aggregazione temporale, il minimo livello di aggregazione geografico (sia per i dati divulgati che per quelli divulgabili), il periodo di riferimento, la frequenza di acquisizione dei dati, la profondità dello storico ed il livello qualitativo. Per poter rappresentare opportunamente la distinzione tra Sorgenti Amministrative e Sorgenti SISTAN è stata introdotta una generalizzazione totale ed esclusiva2 dove le Entità “Sorgente SISTAN” e “Sorgente Amministrativa” sono figlie dell’Entità “Sorgente”. Ad ognuna di esse è associata una serie di attributi propri della particolare classe di sorgenti. In particolare per le sorgenti SISTAN sono riportati il Piano Statistico Nazionale o il Catalogo SISTAN di riferimento, il codice assegnato all’opera, l’area ed il settore d’interesse, il tipo di copertura (totale, parziale o campionaria) e il tipo di sorgente (rilevazione, elaborazione o studio progettuale). Per le sorgenti amministrative sono invece specificati il dipartimento, il settore, l’ufficio e la norma di riferimento. L’Entità “Unità di rilevazione” rappresenta l’insieme degli elementi da cui si acquisiscono le informazioni riportate nelle sorgenti. “Unità di Rilevazione” è univocamente identificata tramite l’attributo “Nome” ed è legata all’Entità “Sorgente” tramite la Relazione “Origine dati”. Tale Relazione è dotata degli attributi “Numero di unità rilevate” e “Descrizione”. Una “sorgente” è in relazione con zero o N “unità di rilevazione” mentre una “unità di rilevazione” è in relazione con zero o più “sorgenti”. L’Entità “Supporto” rappresenta invece i supporti di memorizzazione dei dati contenuti nelle sorgenti. Essa è collegata a “Sorgente” tramite la Relazione “Disponibilità”, che ha come unico attributo “Tipo di disponibilità” (“totale” o “parziale”). Una “sorgente” è disponibile su uno o più “supporti” mentre un “supporto” (o meglio un tipo di supporto) può essere utilizzato per memorizzare una o più “sorgenti”. L’Entità “Rappresentazione” comprende tutti gli elementi di presentazione dell’informazione contenuti nelle sorgenti (tabelle, tavole, grafici, etc.). Per ogni “rappresentazione”, identificata dal proprio nome ed, esternamente, dall’identificatore della “sorgente” cui appartiene, sono indicati una serie di attributi quali il tipo di rappresentazione (tabella, istogramma… ), una breve descrizione, la presenza di testo a corredo della descrizione stessa, il tipo di supporto sul quale è disponibile ed il livello di tale disponibilità (parziale o totale). L’Entità “Rappresentazione” è 2 Per generalizzazione totale ed esclusiva si intende una generalizzazione in cui ogni membro dell’Entità padre è membro di una ed una sola Entità figlia. 29 collegata a “Sorgente” tramite la Relazione “Struttura”. Una “rappresentazione” è contenuta in una ed una sola “sorgente” mentre una “sorgente” contiene zero o più “rappresentazioni”. L’Entità “Unità di Analisi” rappresenta l’insieme degli elementi da cui derivano le informazioni riportate nelle “rappresentazioni”. Tale Entità è identificata dall’attributo “Nome” e legata a “Rappresentazione” tramite la Relazione “Riferimento”. Su tale Relazione è indicato l’attributo “Specificazione” che consente di descrivere meglio le “unità di analisi” collegate ad una determinata “rappresentazione”. Per ognuna delle “rappresentazioni” sono specificati gli “attributi” considerati (ovvero le caratteristiche delle “unità di analisi”), rappresentati nello schema ER dall’Entità “Attributo”. Tale Entità è legata a “Rappresentazione” attraverso la Relazione “Composizione”. Un “attributo” appartiene ad una sola “rappresentazione” mentre una “rappresentazione” può riportare zero o più “attributi”. Per ognuno degli “attributi” è indicato il nome, che funge da identificatore, il tipo (qualitativo sconnesso, qualitativo ordinabile, quantitativo), il dominio (numerico, stringa, etc.), l’unità di misura ed un commento usato per fornire eventuali informazioni aggiuntive sull’“attributo” stesso. L’Entità “Statistica” rappresenta l’insieme degli elementi informativi che possono essere presenti nelle “rappresentazioni”. “Statistica” è univocamente identificata dall’attributo “Nome” che rappresenta la denominazione della “statistica” in oggetto (“Tasso”, “Percentuale”, “Frequenza relativa”, etc.). “Statistica” è legata a “Rappresentazione” tramite la Relazione molti-a-molti “Appartenenza”. L’Entità "Files" rappresenta l’insieme dei file che contengono le “rappresentazioni” in formato digitale. Un “file” è univocamente identificato dall’attributo “URL” (che specifica il nome e il percorso completo da seguire per rintracciare il “file” su Internet). “Files” è legato a “Rappresentazione” dalla relazione molti-a-molti “Memorizzazione” alla quale è associato l’attributo “Note”. Tale attributo serve a fornire istruzioni per la consultazione della “rappresentazione” all’interno del “file”. Ciò può tornare utile, ad esempio, nel caso in cui un “file” contenga più “rappresentazioni” e non sia immediato trovare quella che interessa. Infine l’Entità “Argomento” rappresenta l’insieme delle voci del Thesaurus utilizzate per facilitare le ricerche sulla base di dati. Tale Entità è univocamente identificata dall’attributo “Denominazione” ed è legata a “Rappresentazione” dalla relazione molti-a-molti “Attinenza”. Su tale relazione è definito l’attributo “Livello”, che specifica se un particolare argomento sia riferito all’intera “rappresentazione” o solo ad alcuni suoi “attributi”. 30 6.2 Criteri di classificazione delle fonti La scelta di classificare le sorgenti informative tramite un argomento, come descritto nella sezione precedente, rappresenta un valido ausilio per ricercare in modo agevole le sorgenti di interesse. Volendo arricchire le potenzialità di tale scelta è possibile definire una relazione riflessiva Associato_a per l’entità Argomento con un attributo tipo. Denominazione Argomento figlio Associato_a Tipo padre I rami di tale relazione sono etichettati “padre” e “figlio”. Ciò vuole indicare che un argomento padre può “racchiudere” in sé un argomento figlio, che corrisponde ad un livello di astrazione più basso. Tramite l'attributo tipo è possibile classificare il tipo di corrispondenza (e.g., più generale/meno generale, contenimento geografico, contenimento amministrativo/procedurale, ecc.) Si è scelto di rappresentare solo questo tipo di relazione tra argomenti perché di natura abbastanza generale e di facile applicazione. Tramite tale classificazione è possibile, inoltre, gestire omonimi, sinonimi e termini corrispondenti in altre lingue 3. Si realizza in questo modo un semplice thesaurus, utile per espandere/restringere le interrogazioni sui metadati. 3 In tale contesto i ruoli padre e figlio perdono il loro significato strettamente gerarchico e possono essere utilizzati per meglio classificare la relazione in oggetto; ad esempio, in un caso di sinonimia il ruolo padre può essere attribuito al termine più frequentemente usato. 31 6.3 Tabelle descrittive delle Entità e delle Relazioni 6.3.1 Descrizione delle Entità Entità: “Sorgente” Attributo Descrizione ID Identificativo univoco della “sorgente” CLASSE Classe di appartenenza della “sorgente” (SISTAN, Amministrativa Regione Lazio) TITOLO Titolo della “sorgente” di informazioni OGGETTO Argomento trattato nella “sorgente” DETENTORE Ente o persona in possesso dei dati RESPONSABILE Persona di riferimento per la consultazione dei dati TELEFONO RESPONSABILE Numero telefonico del Responsabile E-MAIL RESPONSABILE Indirizzo E-mail del responsabile ACCESSO AI DATI Tipo di accesso ai dati (libero, condizionato… ) VINCOLI SULL’ACCESSO Breve testo descrittivo delle eventuali restrizioni o modalità per l'accesso ai dati NUMERO DI UNITÀ DI Numero di unità di misura temporali. Usato per indicare la MISURA TEMPORALI PER frequenza di acquisizione dei dati LA FREQUENZA DI ACQUISIZIONE UNITÀ DI MISURA Unità di misura usata per indicare la frequenza di acquisizione TEMPORALI PER LA dei dati FREQUENZA DI ACQUISIZIONE INIZIO PERIODO DI Data di inizio del periodo cui si riferiscono i dati RIFERIMENTO FINE PERIODO DI Data di fine del periodo cui si riferiscono i dati RIFERIMENTO PROFONDITÀ DELLO Data a partire dalla quale si è iniziato ad effettuare il tipo di STORICO studio riportato nella “sorgente” MINIMO LIVELLO DI Minimo livello di aggregazione geografica per i dati divulgati AGGREGAZIONE GEOGRAFICA DATI 32 DIVULGATI MINIMO LIVELLO DI Minimo livello di aggregazione geografica per i dati divulgabili AGGREGAZIONE GEOGRAFICA DATI DIVULGABILI QUALITÀ Indice di qualità della “sorgente” definito dal gestore del catalogo. NUMERO DI UNITÀ DI Numero di unità di misura temporali. Usato per indicare il MISURA TEMPORALE PER minimo livello di aggregazione temporale. IL MINIMO LIVELLO DI AGGREGAZIONE TEMPORALE UNITÀ DI MISURA Unità di misura usata per designare il minimo livello di TEMPORALE PER IL aggregazione temporale MINIMO LIVELLO DI AGGREGAZIONE TEMPORALE Entità: “Sorgente Amministrativa” Attributo Descrizione DIPARTIMENTO Dipartimento di appartenenza SETTORE Settore di appartenenza UFFICIO Ufficio di appartenenza NORMA Norma regolante la procedura cui si riferisce la “sorgente amministrativa” in questione Entità: “Sorgente SISTAN” Attributo Descrizione PROVENIENZA Piano Statistico Nazionale o Catalogo SISTAN di riferimento CODICE Codice alfanumerico assegnato agli studi dal SISTAN AREA Area statistica di interesse secondo la classificazione SISTAN SETTORE Particolare settore dell’area di interesse secondo la classificazione SISTAN TIPO DI SORGENTE Tipologia della sorgente informativa (Rilevazione, Elaborazione, 33 Studio Progettuale) COPERTURA Tipo di rilevazione (totale, parziale, campionaria) INIZIO PERIODO Data di inizio del periodo di effettuazione dello studio EFFETTUAZIONE FINE PERIODO Data di fine del periodo di effettuazione dello studio EFFETTUAZIONE Entità: “Unità di rilevazione” Attributo Descrizione NOME Nome dell’unità di rilevazione Entità: “Rappresentazione” Attributo Descrizione NOME Nome o titolo della “rappresentazione” TIPO Tipo di “rappresentazione” (tabella, grafico, tavola demografica, testo… .) DESCRIZIONE Descrizione della “rappresentazione” Entità: “Attributo” Attributo Descrizione NOME Nome dell’“attributo” TIPO Tipo di dato (quantitativo, qualitativo ordinabile, qualitativo sconnesso) DOMINIO Dominio di appartenenza dell’“attributo” (es.: numeri reali, numeri interi, etc.) UNITÀ DI MISURA Eventuale unità di misura dell’“attributo” COMMENTO Eventuali informazioni aggiuntive sull' “attributo” Entità: “Files” Attributo Descrizione FILE URL del file 34 Entità: “Argomento” Attributo Descrizione DENOMINAZIONE Denominazione dell’“argomento” (es.: sociale, sanità) Entità: “Supporto” Attributo Descrizione TIPO SUPPORTO Definizione del tipo di “supporto” (cartaceo, digitale etc.) Entità: “Unità di analisi” Attributo Descrizione NOME Nome dell’“unità di analisi” Entità: “Statistica” Attributo Descrizione NOME Nome della “statistica” riportata nella rappresentazione 6.3.2 Descrizione delle Relazioni Relazione: “Attinenza” Attributo Descrizione LIVELLO Indica se l’“argomento” in questione ha attinenza con l’intera “rappresentazione” (attinenza “generale”) o solo con alcuni “attributi” (attinenza “parziale”) Relazione: “Origine dati” Attributo Descrizione NUMERO UNITÀ RILEVATE Numero di “unità di analisi” sulle quali sono stati acquisiti i dati tramite le “unità di rilevazione” COMMENTO Testo descrittivo 35 Relazione: “Riferimento” Attributo Descrizione COMMENTO Caratteristiche dell'“unità di analisi” con riferimento alla particolare “rappresentazione” Relazione: “Appartenenza” Attributo Descrizione DESCRIZIONE Eventuali informazioni aggiuntive sulla “statistica” con riferimento alla particolare “rappresentazione” (es.: procedura utilizzata per ottenerla) Relazione: “Disponibilità” Attributo Descrizione TIPO DI DISPONIBILITÀ Grado di disponibilità delle informazioni su un determinato tipo di “supporto” (Totale o parziale). Relazione: “Disponibilità Rappresentazione” Attributo Descrizione TIPO DI DISPONIBILITÀ Grado di disponibilità della “rappresentazione” su un determinato tipo di “supporto” (Totale o parziale). Relazione: “Memorizzazione” Attributo Descrizione NOTE Istruzioni per la consultazione della “rappresentazione” all’interno del “file” 36 7 Il prototipo 7.1 Descrizione del prototipo Nell’ambito dello studio di fattibilità oggetto di questo documento, è stata disegnata ed implementata l’applicazione “Catalogo Sorgenti” descritta nel seguito. Tale applicazione si basa sull’uso di una base di dati relazionale per la memorizzazione delle informazioni e su di un’interfaccia grafica amichevole per l’accesso e la gestione dei metadati. Nella fase preliminare della progettazione è stata effettuata un’accurata analisi di detti metadati e di alcune delle sorgenti informative allo scopo di comprenderne meglio la natura e l’organizzazione e per individuare un sotto-insieme rappresentativo da utilizzare per il popolamento della base di dati. Tale popolamento ha consentito di verificare l’adeguatezza dello schema della base di dati e la rispondenza dell’applicazione ai requisiti esplicitati dal committente. Si ricorda che, come sotto-insieme di prova, sono state considerate le “Sorgenti SISTAN” e le “Sorgenti Amministrative”4. Per quel che riguarda il primo tipo i metadati sono stati presi dal “Piano Statistico Nazionale 1998-2000”, dal “Piano Statistico Nazionale 2001-2003” e dai Cataloghi del SISTAN dell’anno 2000 e precedenti. Per quel che riguarda il secondo tipo, i metadati sono stati prelevati dal censimento delle sorgenti informative della Regione Lazio (IRELA). Come settori di test sono stati scelti “Sociale” e “Cultura, Turismo e Spettacolo”. Il prototipo è stato disegnato in modo da permettere, ove possibile, di accedere tramite link ipertestuali ai dati contenuti nelle suddette sorgenti. Nella progettazione dello schema della base di dati si è cercato di trattare in modo uniforme tutti i tipi di sorgente. Per questo motivo è stata definita un’astrazione quanto più generale possibile del concetto di “Sorgente” individuando quegli attributi (metadati) applicabili a tutte le tipologie di sorgenti. Sono stati poi individuati i metadati specifici per ogni tipo di sorgente. Ciò ha permesso di sintetizzare uno strumento che da un lato fornisce un accesso uniforme ai metadati (almeno ad un primo livello di astrazione) e dall’altro consente di gestire in modo diversificato informazioni non applicabili a tutti i tipi di sorgente. La sintesi del prototipo è partita dalla definizione di uno schema Entità Relazione, presentato in sezione 5, che descrive il punto di vista del fruitore delle informazioni contenute nelle sorgenti. Questo schema è stato poi modificato in modo che fosse direttamente traducibile in uno schema 4 Per “Sorgente Amministrativa” si intende una sorgente di informazione appartenente alla pubblica amministrazione della Regione Lazio che può essere disponibile in formato cartaceo o digitale all’interno di un determinato Ufficio. 37 relazionale da utilizzare come punto di partenza per la definizione delle tabelle della base di dati. Per l’accesso ai dati è stata progettata e realizzata un’interfaccia grafica che permette di sfogliare i dati ed effettuare ricerche in modo intuitivo. L’ultima sezione della presente sezione descrive l’utilizzo dell’applicazione. 7.1.1 Ristrutturazione dello schema E-R Lo schema ER descritto in sezione 5 non è direttamente traducibile in uno schema relazionale a causa della presenza della generalizzazione che distingue le “sorgenti” in “sorgenti SISTAN” e “sorgenti Amministrative”. Si è scelto di tradurre la generalizzazione in due Relazioni (“Specificazione Sorgente SISTAN” e “Specificazione Sorgente Amministrativa”) che legano le entità figlie “Sorgente SISTAN” e “Sorgente amministrativa” all’entità padre “Sorgente”. Le “sorgenti SISTAN” e le “sorgenti amministrative” sono identificate esternamente tramite l’ID della “sorgente” cui sono collegate. Per ogni istanza di “Sorgente SISTAN” vi sarà una ed una sola istanza di “Sorgente” e per ogni istanza di “Sorgente” vi saranno zero o una istanze di “Sorgente SISTAN”. Un discorso analogo può essere fatto per “Sorgente amministrativa”. Nella seguente illustrazione è riportata la trasformazione della parte di schema E-R interessata. ID ID Sorgente Sorgente (0,1) Specificazione Sorgente Amm. Sorgente Ammin. Sorgente SISTAN (1,1) Sorgente Ammin. (0,1) Specificazione Sorgente SISTAN (1,1) Sorgente SISTAN Un’ ulteriore modifica allo schema E-R è stata apportata in seguito al riscontro di una non uniformità nella rappresentazione delle informazioni relative ai tipi di supporto. Nel caso delle “sorgenti SISTAN”, infatti, tale informazione è fornita a livello di “sorgente” o di “rappresentazione” mentre per le “sorgenti amministrative” il dato è riportato solo a livello di singola “rappresentazione”. Per questo motivo è stata introdotta un’ulteriore Relazione tra “Rappresentazione” e “Supporto” chiamata “Disponibilità rappresentazione”. L’illustrazione che segue raffigura questa nuova relazione. 38 (1,N) Disponibilità rappresentazione Rappresentazione (0,N) Supporto 7.1.2 Schema relazionale Una descrizione dettagliata della traduzione dello schema ER ristrutturato nel modello relazionale va oltre gli scopi del presente documento; si presenta, quindi, una sintetica descrizione grafica delle tabelle relazionali utilizzate dal prototipo. Sintesi dello Schema Relazionale Per problemi di spazio non è riportata la tabella che rappresenta la Relazione tra “Rappresentazione” e “Supporto”. Tale Relazione è rappresentata mediante la tabella “DISPONIBILITÀ RAPPRESENTAZIONE” che presenta i medesimi attributi della tabella “DISPONIBILITÀ” più l’attributo “Nome Rappresentazione”. Le tabelle “Classe Sorgente” e “Unità di misura temporale” rappresentano delle liste di valori predefinite ed estensibili, utilizzate per rendere univoco l’inserimento di dati rispettivamente 39 nel campo Classe della tabella Sorgente e nei campi relativi ad unità di misura temporali della tabella Sorgente SISTAN. Si noti che la Relazione “Memorizzazione” è stata rappresentata tramite la tabella “Files” mentre l’Entità “Files” non ha un corrispettivo nello schema relazionale in quanto la sua traduzione in una tabella con il solo attributo “URL” comporta solo aggravi nella gestione del db senza fornire alcun vantaggio. Nel caso in cui si volessero associare altri attributi all’Entità “Files” si potrà prendere in considerazione l’implementazione di una tabella a parte che rappresenti l’Entità “Files”. Una descrizione dettagliata degli attributi delle tabelle con i relativi tipi può essere reperita lanciando l’applicazione “Catalogo Sorgenti” descritta nel successivo capitolo ed aprendo le tabelle stesse in modalità “Visualizzazione Struttura”. 7.2 Manuale utente “Catalogo Sorgenti” si propone come prototipo di uno strumento di consultazione di metadati relativi a sorgenti di informazione accessibili alla Pubblica Amministrazione della Regione Lazio. L’applicazione permette inoltre di accedere, ove possibile, direttamente ai dati tramite collegamenti di tipo URL (Uniform Resource Locator). La tecnologia scelta per l’implementazione del prototipo è quella fornita da Microsoft Access. Tale scelta non è in alcun modo vincolante per la realizzazione dell’applicazione che andrà in esercizio in quanto operata unicamente per motivi di rapidità di prototipazione. La soluzione più appropriata per un servizio di questo tipo è l’utilizzo di base di dati professionali (Oracle, Informix, Sybase, etc.) in grado di gestire grandi moli di dati, elevati numeri di transazioni per secondo e che permettono al contempo di realizzare servizi ad alta disponibilità (24 ore su 24, 365 giorni all’anno) con basse probabilità di arresto totale del servizio. Per quel che riguarda le interfacce di accesso sembra invece appropriata l’adozione di soluzioni basate sull’uso del Web. Tutti gli elementi contenuti nel presente prototipo possono essere realizzati con le tecnologie sopra descritte. 7.2.1 Prerequisiti per l’utilizzo dell’applicazione “Catalogo Sorgenti” è stato realizzato con Microsoft Access 2000. Per poterlo utilizzare è pertanto necessario disporre di tale programma. Si consiglia di utilizzare l’impostazione “Caratteri Piccoli” nelle proprietà del desktop. Per cambiare tale impostazione è sufficiente cliccare col pulsante destro in una zona vuota del desktop e selezionare “Proprietà” nel menu a comparsa. Selezionare poi nella finestra “Proprietà – Schermo” il tab “Impostazioni” e cliccare 40 sul pulsante “Avanzate” in basso sulla destra. Scegliere nella combo-box “Dimensione Caratteri” la voce “Caratteri Piccoli” e premere il pulsante “Ok”. Premere infine il pulsante “Ok” nella finestra “Proprietà – Schermo”. 7.2.2 Avvio, navigazione, gestione dei dati e ricerche “Catalogo Sorgenti” è fornito sotto forma di file “.mdb” (il formato standard di Microsoft Access). Il nome di tale file è CatalogoSorgenti.mdb. Per aprire il database è sufficiente cliccare due volte sull’icona del file. In Figura 6 è riportata la prima schermata che si presenta all’utente quando avvia l’applicazione. Figura 6 Menu principale Come si può vedere dall’illustrazione, l’applicazione è organizzata in tre sezioni: ? ? Catalogo Sorgenti: questa sezione permette di “sfogliare” il catalogo e di visualizzare le informazioni di dettaglio relative a ciascuna sorgente. ? ? Gestione Thesaurus: questa sezione permette al gestore del catalogo di definire un thesaurus, ovvero un elenco di parole chiave o concetti che possono essere associati alle “rappresentazioni” contenute nelle diverse sorgenti (si ricorda che per “rappresentazione” si intende un qualunque oggetto che contenga informazioni sotto forma di grafico, tabella, etc.). ? ? Ricerche: questa sezione permette all’utente di effettuare ricerche sul catalogo sorgenti in base a differenti criteri. 41 Il pulsante “Chiudi” permette di uscire dall’applicazione. Nel seguito è descritto il dettaglio delle sezioni sopra elencate. 7.2.3 Sezione “Catalogo Sorgenti” Cliccando sul pulsante “Catalogo Sorgenti” del menu principale si accede ad una schermata simile a quella riportata in Figura 7. Figura 7 Schermata principale della sezione "Catalogo Sorgenti" È opportuno illustrare la struttura di questa schermata perché tutte le finestre del prototipo qui descritto sono basate sul medesimo schema. Nella parte in alto è possibile vedere l’intestazione della finestra, che in questo caso riporta la scritta “Catalogo Sorgenti”. Nella regione che si trova immediatamente sotto l’intestazione sono riportati i dati (o più precisamente i metadati). Si ricorda che le finestre utilizzate in questa applicazione consentono di visualizzare il 42 contenuto delle tabelle di un database relazionale un record alla volta. A piè di pagina sono collocati due gruppi di pulsanti: “Funzioni di Navigazione ed Aggiornamento” e “Informazioni Correlate”. Il primo gruppo contiene le funzionalità che permettono di “sfogliare” il catalogo delle sorgenti e di inserire nuove voci nel catalogo stesso. Il secondo consente di accedere ad informazioni di dettaglio associate alla sorgente correntemente visualizzata. Il gruppo “Funzioni di Navigazione ed Aggiornamento” è presente in quasi tutte le finestre dell’applicazione mentre il gruppo “Informazioni Correlate” è presente solo nei casi in cui esistano informazioni correlate cui accedere. Il pulsante , presente in tutte le maschere dell’applicazione, permette di chiudere la finestra. La seguente tabella illustra il significato dei campi riportati nella schermata di Figura 7. 43 Campo Tipo di dato Descrizione ID Numerico Identificativo numerico univoco assegnato dall’applicazione ad una sorgente al momento della creazione del relativo record. Classe di appartenenza Testo Indica la tipologia di sorgente (SISTAN, Amministrativa Reg. Lazio). La lista delle tipologie può essere estesa in una futura implementazione. Titolo Testo Titolo della sorgente Oggetto Testo Testo illustrativo degli argomenti trattati nella sorgente Detentore Testo Ente o persona cui appartiene la sorgente Responsabile Testo Nome della persona responsabile della sorgente in questione (es.: la persona alla quale ci si può rivolgere per accedere alla sorgente) Telefono Responsabile Testo Recapito telefonico del responsabile E-mail Responsabile Testo Indirizzo di posta elettronica del responsabile Vincoli sull’accesso ai Testo dati Dati acquisiti ogni Testo illustrativo delle eventuali restrizioni sull’accesso ai dati. Attributo composto da Serve per indicare la frequenza di due campi: uno acquisizione dei dati. Ad es. se i dati numerico e uno di tipo vengono acquisiti ogni anno il campo “Lista di valori” che numerico avrà valore “1” e il campo indica l’unità di misura testuale sarà impostato ad “anno”. temporale. Periodo di riferimento: data Inizio del periodo cui si riferiscono le dal informazioni contenute nella sorgente. Periodo di riferimento: al data Fine del periodo cui si riferiscono le informazioni contenute nella sorgente. Profondità dello storico data Data a partire dalla quale si è cominciato 44 ad effettuare la raccolta di informazioni del tipo riportato nella sorgente in oggetto. Minimo livello di {circoscrizione, Indica , a livello geografico, la granularità aggregazione geografica municipio, comune, più fine di presentazione delle per i dati divulgabili area metropolitana, informazioni per quel che riguarda i dati distretto, provincia, divulgabili. regione, nazione} Minimo livello di {circoscrizione, Indica , a livello geografico, la granularità aggregazione geografica municipio, comune, più fine di presentazione delle per i dati divulgati area metropolitana, informazioni per quel che riguarda i dati distretto, provincia, divulgati. regione, nazione} Minimo livello di Attributo composto da Indica , a livello temporale, la granularità aggregazione temporale due campi: uno più fine di presentazione delle numerico e uno di tipo informazioni. “Lista di valori” che indica l’unità di misura temporale. Qualità {alta, media, bassa} Indice di qualità della sorgente. Rappresenta il giudizio del gestore del “Catalogo Sorgenti” sulla attendibilità della sorgente in oggetto. Di seguito è riportata la descrizione dettagliata delle funzionalità contenute nei due gruppi di pulsanti. Funzioni di Navigazione ed Aggiornamento ? ? Primo Record: va al primo record della tabella; ? ? Record Precedente: va al record precedente rispetto a quello correntemente visualizzato; ? ? Record Successivo: va al record successivo rispetto a quello correntemente visualizzato; ? ? Ultimo record: va all’ultimo record della tabella; ? ? Nuovo Record: crea un nuovo record vuoto nella tabella; 45 ? ? Salva Record: salva le modifiche apportate ad un record; ? ? Elimina Record: elimina il record correntemente visualizzato. Informazioni Correlate ? ? Tavole, Grafici, etc.: metadati relativi a rappresentazioni contenute nella sorgente correntemente visualizzata; ? ? Supporti: informazioni relative ai tipi di supporto su cui è disponibile la sorgente correntemente visualizzata; ? ? Unità di Rilevazione: entità che hanno fornito le informazioni contenute nella sorgente correntemente visualizzata; ? ? Metadati Specifici: informazioni sulla sorgente correntemente visualizzata applicabili solo alla tipologia cui essa appartiene (SISTAN, Amm. Regione Lazio) Per quel che riguarda i Metadati Specifici è opportuno precisare che, se da un lato esistono metadati applicabili in linea di principio a qualunque tipo di sorgente, ve ne sono degli altri che hanno senso solo per una determinata categoria di sorgenti. Da ciò nasce l’esigenza di avere una finestra comune a tutti i tipi di sorgenti (Catalogo Sorgenti) e finestre differenziate per visualizzare i metadati specifici. Ciascuno dei pulsanti del gruppo “Informazioni Correlate” apre una finestra contenente ulteriori informazioni sulla sorgente correntemente visualizzata. Di seguito è riportata la descrizione di tali finestre. 7.2.3.1 Tavole, Grafici, etc. Cliccando sul pulsante “Tavole, Grafici, etc.” della finestra “Catalogo Sorgenti” si accede alla finestra riportata in Figura 8. 46 Figura 8: Sottosezione “Rappresentazioni: Tavole, Grafici, etc” Per “rappresentazione” si intende un qualunque modo di schematizzare e presentare delle informazioni, sia esso una tavola, un grafico o altro. La finestra sopra riportata permette di accedere alle informazioni relative alle rappresentazioni contenute nella sorgente correntemente visualizzata nella finestra “Catalogo Sorgenti” 5. All’inizio dell’area di visualizzazione dei dati sono riportati per comodità l’ID della sorgente e il titolo. Lo sfondo grigio di questi due campi indica che non possono essere modificati all’interno di questa finestra. Nella seguente tabella 5 Per quel che riguarda il popolamento del db con i dati di test, il criterio utilizzato per le Sorgenti Amministrative è stato quello di considerare come “rappresentazioni” ciò che nelle schede IRELA è riportato sotto la voce “Unità di analisi”. Di fatto si ha una rappresentazione per ogni unità di analisi. Quindi, nel caso delle Sorgenti Amministrative, ogni rappresentazione ha lo stesso nome dell’unità di analisi cui si riferiscono le informazioni in essa riportate ed è dotata degli attributi elencati nelle schede IRELA per quella unità di analisi. Si noti che nelle schede IRELA gli attributi delle unità di analisi sono indicati con il nome di “Variabili”. 47 sono riportate le descrizioni dei campi contenuti nella finestra “Rappresentazioni: Tavole, Grafici, etc.” di Figura 8. Nome Tipo di dato Descrizione Nome Testo Nome della rappresentazione Tipo {Tabella, Grafico, Tavola Tipo di rappresentazione. Elenca i vari tipi Demografica, Tavola, etc.} di rappresentazione che possono essere riscontrati nelle sorgenti informative. Note Testo Campo descrittivo della rappresentazione. Può essere usato per meglio descrivere la rappresentazione stessa. Nota: è importante ribadire che per “Rappresentazioni” non si devono intendere solo tabelle del tipo utilizzato nei database relazionali ma anche appartenenti ad altre tipologie (come ad esempio le tabelle a doppia entrata) utilizzate in statistica o in altri campi. Tralasciamo la descrizione del gruppo di pulsanti “Funzioni di navigazione ed aggiornamento” in quanto identico a quello della finestra “Catalogo Sorgenti”. Di seguito è riportata la descrizione dei pulsanti del gruppo “Informazioni Correlate”. ? ? Files: permette di accedere ad uno o più file contenenti la rappresentazione in oggetto. Cliccando su questo pulsante si accede ad una finestra come quella riportata nella Figura 9. 48 Figura 9: Finestra “Files” In essa sono riportati per comodità l’ID e il titolo della sorgente cui appartiene la rappresentazione e il nome della rappresentazione stessa. Tali campi non sono editabili in questa finestra. La tabella che segue illustra il significato degli altri campi. Nome Tipo Descrizione URL URL Link al file stesso. Cliccando su di esso si accede al file vero e proprio, che può risiedere sulla macchina locale o su una qualunque altra macchina collegata tramite web. Istruzioni per la consultazione Memo Istruzioni aggiuntive per la consultazione del file Cliccando sul contenuto del campo “File” si accede direttamente alle informazioni, cioè a dati contenuti nella sorgente. Nel caso della schermata riportata in Figura 9 viene 49 aperto il file xls riportato in Figura 10. Figura 10: Contenuto di una rappresentazione memorizzata in un file xls ? ? Voci Thesaurus: permette di aprire la finestra riportata in Figura 11. Questa maschera permette di visualizzare le voci del thesaurus associate alla rappresentazione correntemente visualizzata in “Rappresentazioni: Tavole, Grafici, etc.”. All’inizio dell’area di visualizzazione dei dati sono riportati per comodità i campi “ID Sorgente”, “Titolo” e “Rappresentazione”. Nella tabella che segue sono descritti i rimanenti campi. Nome Tipo Argomento Lista di valori testuali. L’elenco di tali Concetti che possono essere Livello di attinenza Descrizione valori è memorizzato in una tabella il associati ad una cui contenuto è accessibile e rappresentazione per modificabile all’interno della sezione facilitare le ricerche tramite “Gestione Thesaurus”. parola-chiave. {Attributo, Rappresentazione} Specifica se la voce del thesaurus può essere associata 50 ad un singolo attributo riportato nella rappresentazione oppure all’intera rappresentazione. Figura 11: Voci Thesaurus associate ? ? Statistiche riportate: permette di visualizzare i tipi di statistiche riportate nella rappresentazione. Cliccando su questo pulsante si apre la finestra di Figura 126. 6 Nel caso di sorgenti amministrative in genere non sono riportate statistiche. Per quel che riguarda le sorgenti SISTAN sono state indicate le tipologie di statistiche riportate nella rappresentazione. Ad esempio, nel caso di una distribuzione percentuale nel campo “Oggetto” della maschera “Statistica” è stata inserita la voce “Percentuale” 51 Figura 12: Statistiche riportate All’inizio dell’area di visualizzazione dei dati sono riportati per comodità “ID Sorgente”, “Titolo Sorgente” e “Nome Rappresentazione”. Nella tabella che segue sono riportati i significati degli Nome Tipo di Dato Oggetto {Frequenza altri due Descrizione assoluta, Indica il tipo di statistica Frequenza Relativa, Indice, riportato Numerosità, campi. nella Percentuale, rappresentazione Probabilità, Rapporto, Tasso, etc.} Commento Testo Eventuale testo esplicativo. 52 Attributi: permette di visualizzare gli attributi della rappresentazione. Cliccando su questo pulsante si apre la finestra di Figura 137. Figura 13: Attributi All’inizio dell’area di visualizzazione dei dati sono riportati per comodità “ID Sorgente”, “Titolo Sorgente” e “Nome Rappresentazione”. Nella tabella che segue sono riportati i significati degli altri campi. Nome Tipo di Dato Descrizione Nome Attributo Testo Nome dell’attributo così come riportato nella rappresentazione Tipo Dominio {Qualitativo sconnesso, Qualitativo Indica la tipologia alla quale ordinabile, Quantitativo} appartiene l’attributo. Testo Denominazione dell’insieme di 7 Per quel che riguarda il data entry, nel caso di Sorgenti SISTAN sono stai inseriti gli attributi riferiti alle unità di analisi (ad esempio per una distribuzione dei residenti per età e sesso sono state immesse le voci “età” e “sesso”) mentre nel caso di Sorgenti Amministrative sono state inserite, per ognuna delle unità di analisi, le voci riportate sotto la dicitura “Variabili”. 53 valori che può assumere l’attributo (es.: numeri interi, numeri reali, etc.). Unità di misura Testo Utilizzato solo nei casi in cui l’attributo sia quantitativo ed misura di di tipo esprima una la qualche grandezza. Commento Testo Eventuali informazioni aggiuntive sull’attributo. ? ? Unità di Analisi: permette di accedere all’elenco delle entità cui si riferiscono le informazioni riportate nella rappresentazione in questione. Si faccia attenzione che in questo caso si deve intendere “entità” in senso generico e non nel contesto degli schemi Entità Relazione. Cliccando su questo tasto si accede alla finestra riportata in Figura 148. 8 Per fare un esempio di come è stato effettuato il data entry in questa maschera, per una Sorgente SISTAN contenente una rappresentazione che riporta la distribuzione delle persone residenti per sesso ed età, nel campo “Unità di analisi” è stata inserita la voce “persona residente”. Nel caso delle Sorgenti Amministrative nel campo “Unità di analisi” è stato ripetuto il nome usato per la rappresentazione cui l’unità di analisi è associata. 54 ?? Figura 14: Unità di analisi All’inizio dell’area di visualizzazione dei dati sono riportati per comodità “ID Sorgente”, “Titolo Sorgente” e “Nome Rappresentazione”. Nella tabella che segue sono riportati i significati degli altri campi. 55 Nome Tipo di Dato Descrizione Unità di analisi Lista di valori. Se l’unità di analisi Denominazione dell’unità di che si intende indicare non compare analisi nella lista, è possibile aggiungerla cliccando sul tasto “Aggiungi unità di analisi”. Descrizione Testo Testo esplicativo utilizzato nel caso in cui sia necessario fornire informazioni aggiuntive oltre il nome dell’unità di analisi. Cliccando sul pulsante “Aggiungi unità di analisi” si apre una finestra come quella di fig. 11 Figura 15: Finestra per l'inserimento di nuove unità di analisi Tale finestra permette di aggiungere una nuova unità di analisi alla lista cliccando sul pulsante “Nuovo Record”, scrivendo il nome nel campo “Nome Unità di analisi” e salvando poi il record mediante pressione del pulsante “Salva Record”. 56 ? ? Dettaglio supporti: permette di accedere alla finestra di Figura 16 Figura 16: dettaglio dei supporti relativi ad una rappresentazione In questa schermata è possibile visualizzare le informazioni di dettaglio relative ai supporti sui quali sono disponibili le rappresentazioni9. All’inizio dell’area di visualizzazione dei dati sono riportati per comodità “ID Sorgente” e “Nome Rappresentazione”. Nella tabella che segue sono riportati i significati degli altri campi. 9 Il data-entry in questa maschera è stato effettuato secondo i seguenti criteri: nel caso delle “Sorgenti Amministrative” è stata indicata la tipologia di supporto riportata nella schede IRELA in corrispondenza della fase amministrativa cui la rappresentazione appartiene (si ricordi che quello che nelle schede IRELA è chiamato “Unità di analisi” è stato considerato nel data entry come corrispondente ad una rappresentazione con un’unica unità di analisi); nel caso delle “Sorgenti SISTAN” il dato relativo ai supporti è disponibile solo a livello di “Sorgente”, per cui non sono stati inseriti dati in questa maschera. 57 Nome Tipo di Dato Descrizione Tipo Supporto {digitale, cartaceo} Indica il tipo di supporto sul quale è disponibile la rappresentazione. Tipo Disponibilità {totale, parziale} Indica se la rappresentazione è totalmente o parzialmente disponibile su un certo tipo di supporto. 7.2.3.2 Supporti Ritornando alla finestra “Catalogo sorgenti” continuiamo la descrizione della sezione “Informazioni correlate” descrivendo le funzionalità accessibili tramite il pulsante “Supporti”. Cliccando su tale pulsante si accede alla finestra riportata in Figura 17. Figura 17: Supporti di memorizzazione delle sorgenti Come già detto sopra, nel caso delle sorgenti amministrative ( e talvolta anche per le sorgenti SISTAN) le informazioni di dettaglio relative ai supporti sono disponibili a livello di singola rappresentazione ed accessibili dalla finestra “Rappresentazioni: Tavole, Grafici, etc.”. Per quel 58 che riguarda la maschera di Figura 17, all’inizio dell’area di visualizzazione dei dati sono riportati per comodità “ID Sorgente”, “Titolo Sorgente”. Nella tabella che segue sono riportati i significati degli altri campi. Nome Tipo di Dato Descrizione Tipo Supporto {digitale, cartaceo, etc.} Indica il tipo di supporto sul quale è disponibile la sorgente. Tipo Disponibilità {totale, parziale} Indica se totalmente la sorgente è o parzialmente disponibile su un certo tipo di supporto. 7.2.3.3 Unità di Rilevazione Per “Unità di rilevazione” si intendono le entità che forniscono le informazioni sulle unità di analisi. Ad esempio un comune può fornire informazioni sulle biblioteche che si trovano sul suo territorio. In questo caso il comune funge da unità di rilevazione. Cliccando sul pulsante “Unità di Rilevazione” della maschera “Catalogo Sorgenti” si apre la finestra riportata in Figura 1810 10 Sia nelle schede IRELA che nelle schede del Piano Statistico Nazionale le unità di rilevazione sono esplicitamente indicate. 59 Figura 18: Unità di rilevazione All’inizio dell’area di visualizzazione dei dati sono riportati per comodità “ID Sorgente”, “Titolo Sorgente”. Nella tabella che segue sono riportati i significati degli altri campi. Nome Tipo di Dato Descrizione Unità di Rilevazione Lista di valori. Se l’unità di Denominazione dell’unità di rilevazione che si intende indicare rilevazione non compare nella lista, è possibile aggiungerla cliccando sul tasto “Aggiungi unità di rilevazione”. Note Testo Informazioni sull’unità di aggiuntive rilevazione in questione Numero unità rilevate Numerico Numero di unità di rilevazione dalle quali sono stati attinti i dati 60 Cliccando sul pulsante “Aggiungi Unità di Rilevazione” si apre la finestra riportata in Figura 19. Figura 19: Finestra per l'inserimento di nuove unità di rilevazione Tale finestra permette di aggiungere una nuova unità di rilevazione alla lista cliccando sul pulsante “Nuovo Record”, scrivendo il nome nel campo “Nome” e salvando poi il record mediante pressione del pulsante “Salva Record”. 7.2.3.4 Metadati Specifici Per “Metadati Specifici” si intendono quei metadati applicabili ad un certo tipo di sorgente (SISTAN, Amm. Regione Lazio, etc.) ma non ad altri. Premendo questo pulsante della finestra “Catalogo Sorgenti” compare una finestra il cui contenuto dipende dal tipo di sorgente in questione. Nel caso di sorgenti SISTAN si apre la finestra di Figura 20 mentre nel caso di sorgenti Amministrative della Regione Lazio compare la finestra di Figura 21. All’inizio delle aree di visualizzazione dei dati sono riportati, in entrambe le finestre, “ID Sorgente” e “Titolo Sorgente”. Nota: le sorgenti amministrative della Regione Lazio fanno riferimento a procedure interne della Pubblica Amministrazione e per questo sono associate ad un dipartimento, ad un settore e ad un ufficio. Tra i metadati specifici delle sorgenti amministrative della Regione Lazio sono riportate anche i riferimenti alle norme che regolano tali procedure. Nella tabella che segue sono riportati i significati degli altri campi. 61 Metadati Specifici Sorgenti SISTAN Nome Tipo di Dato Descrizione Provenienza Testo Piano Statistico Nazionale o Catalogo SISTAN appartiene la cui sorgente in questione Codice Testo Identificativo alfanumerico univoco della sorgente Tipo Sorgente {Rilevazione, Elaborazione, Studio Indica se i dati contenuti nella Progettuale} sorgente sono frutto di una rilevazione sul campo, di una elaborazione di dati contenuti in altre sorgenti o di uno studio progettuale Area Testo Area di appartenenza della sorgente SISTAN Settore Testo Settore di appartenenza della sorgente SISTAN Copertura {Totale, Campionaria, Parziale} Specifica il l’universo rapporto dell’unità compongono il tra che fenomeno oggetto di studio e l’insieme delle unità effettivamente rilevate. Periodo di effettuazione dal Data Inizio del periodo di periodo di effettuazione Periodo di effettuazione al Data Fine del effettuazione Nota: in alcuni casi sono state riscontrate delle difformità tra le denominazioni dei settori e delle aree usate nel PSN e quelle usate nel catalogo SISTAN. 62 Metadati Specifici Sorgenti Amministrative della Regione Lazio Nome Tipo di Dato Descrizione Dipartimento Testo Dipartimento di appartenenza della sorgente amministrativa Settore Testo Settore di appartenenza della sorgente amministrativa Ufficio Testo Ufficio di appartenenza della sorgente amministrativa Norma Testo Norma che regola la procedura cui si riferisce la sorgente in questione. Figura 20 Metadati specifici delle Sorgenti SISTAN 63 Figura 21: Metadati Specifici Sorgenti Amministrative 7.2.4 Sezione “Gestione del Thesaurus” Questa sezione è stata semplicemente abbozzata nel presente prototipo. In pratica è stato fornito uno strumento per gestire un elenco di voci (o argomenti) che possono essere associate alle rappresentazioni e che possono poi essere utilizzate come chiavi di ricerca (vedi sezione “Ricerche”). In una futura implementazione sarebbe utile poter definire anche delle relazioni tra gli argomenti dell’elenco. Ad esempio si potrebbe fornire la possibilità di indicare che un certo concetto include un altro concetto. Si potrebbe poi fare in modo che quando un utente ricerca tutte le sorgenti che contengono rappresentazioni collegate ad un certo argomento (ad esempio “edilizia”) nella lista dei risultati fossero riportate anche tutte le sorgenti che contengono rappresentazioni collegate ad argomenti inclusi in “edilizia” (es.: edilizia scolastica, edilizia ospedaliera etc.). Cliccando sul pulsante “Gestione Thesaurus” del Menu Principale sia accede alla finestra riportata in Figura 22. 64 Figura 22: Gestione Thesaurus Tramite i pulsanti collocati in basso nella finestra è possibile scorrere l’elenco degli argomenti e aggiungere od eliminare elementi dalla lista. 7.2.5 Sezione “Ricerche” Cliccando sul pulsante “Ricerche” del Menu Principale si accede alla sezione “Ricerche”. Tale sezione presenta inizialmente un menu come quello riportato in Figura 23. I pulsanti di questo menu permettono di accedere alle seguenti funzionalità: ? ? Search Engine Generale: permette di effettuare una ricerca in base al contenuto di uno più campi della maschera Catalogo Sorgenti. ? ? Ricerca per Argomento: permette di effettuare ricerche in base a voci contenute nel thesaurus e al periodo di riferimento della sorgente. ? ? Torna a menu principale: permette di tornare al Menu Principale. 65 Figura 23: Menu “Ricerche” Esaminiamo ora una per una le funzionalità. 7.2.5.1 Search Engine Generale Cliccando sul pulsante “Search Engine Generale” del menu “Ricerche” si accede alla finestra riportata in Figura 24. 66 Figura 24: Search Engine Come si può osservare tale maschera è molto simile alla maschera “Catalogo Sorgenti” eccetto che per i bottoni in basso. Per default i campi sono impostati in modo tale che premendo il pulsante “Cerca” si ottenga la lista completa delle sorgenti contenute nel catalogo. Per i campi testuali il carattere jolly è “*” mentre per il campi numerici è “0”. Il comportamento della Search Engine è il seguente: ? ? Campi di testo: cerca tutte le sorgenti per le quali il testo immesso in un determinato campo della maschera “Search Engine” è contenuto come sottostringa nel corrispondente campo della maschera “Catalogo Sorgenti”. ? ? Combo box (campi a scelta multipla all’interno di un insieme predeterminato di valori): cerca tutte le sorgenti per le quali il testo immesso in un determinato campo della maschera “Search Engine” è esattamente uguale al corrispondente campo della maschera “Catalogo Sorgenti”. ? ? Campi numerici: cerca tutte le sorgenti per le quali il testo immesso in un determinato campo della maschera “Search Engine” è esattamente uguale al corrispondente campo della maschera “Catalogo Sorgenti”. 67 ? ? Campi data: in questo caso il comportamento cambia a seconda del significato del campo. Nel caso di “Periodo di riferimento dal” e “Periodo di riferimento al” vengono selezionate tutte le sorgenti il cui periodo di riferimento presenta un overlapping (sovrapposizione) anche di un solo giorno con quello indicato nella maschera “Search Engine”. Per quel che riguarda la “Profondità dello storico” vengono selezionate tutte le sorgenti che hanno una profondità dello storico almeno uguale a quella indicata nella maschera di Search. Nota: cliccando su un campo, questo viene resettato al valore di default. Cliccando sul pulsante “Cerca” si ottengono i risultati della ricerca sotto forma di lista. La corrispondente schermata è mostrata in Figura 25. Come si può vedere, per ciascuno dei risultati sono riportati i campi ID, Classe, Titolo e Oggetto. La lista dei risultati può essere scorsa usando la scroll bar sulla destra. Per visualizzare tutte le informazioni disponibili su una determinata sorgente è sufficiente selezionarla nella finestra dei risultati (cliccando su di essa) e premere il pulsante “Dettagli Sorgente”. In questo modo si aprirà la finestra “Catalogo Sorgenti” che mostrerà i metadati associati alla sorgente selezionata (Figura 26). 7.2.5.2 Ricerche per Argomento Cliccando sul pulsante “Ricerche per Argomento” del menu “Ricerche” si apre la finestra di Figura 27. In tale finestra è possibile selezionare un argomento da una lista (ovvero una voce del Thesaurus) ed un intervallo indicante il periodo di riferimento. Per quel che riguarda il “Periodo di riferimento” il comportamento è identico a quello della Search Engine Generale, ovvero vengono selezionate tutte le sorgenti il cui periodo di riferimento presenta un overlapping (sovrapposizione) anche di un solo giorno con quello indicato nella maschera “Ricerche per argomento”. Anche in questo caso i risultati sono presentati in forma di lista riassuntiva (Figura 28) ed i dettagli relativi a ciascun risultato possono essere visualizzati cliccando sul pulsante “Dettagli Sorgente”. Nel caso del risultato selezionato in Figura 28 il dettaglio dei metadati ad esso relativi è visualizzato in Figura 29. 68 Figura 25: Risultati di una ricerca 69 Figura 26: Dettagli relativi ad un risultato della ricerca 70 Figura 27: Ricerche per argomento Figura 28: Risultati ricerche per argomento 71 Figura 29: Dettagli relativi ad un risultato di una ricerca per argomento 72 8 Proposta operativa L'ultima attività svolta nell'ambito dello studio di fattibilità è relativa alla individuazione di piano di lavoro per la realizzazione di un sistema completo nonchè ad una stima dei tempi e dei costi. Si presenta, nel seguito, l'articolazione in fasi del piano di lavoro, articolazione che prevede tre fasi, della durata complessiva di 30 mesi. Le seguenti sezioni fanno riferimento alla terminologia introdotta nella sezione 2 ed alla architettura individuata in sezione 3 8.1 Fase 1: Realizzazione del data warehouse di primo livello La fase 1, della durata di 12 mesi, ha come obbietivo la progettazione e la realizzazione della base dei metadati e del data warehouse di primo livello. Il data warehouse di primo livello sarà popolato prevalentemente da dati estratti da fonti disponibili su supporti informatici. 8.1.1 Attività 1.1 - Analisi La formalizzazione delle specifiche utente dovrà produrre, attraverso una stretta interazione con il committente, una specifica formale delle indicazioni di massima presenti nella prima parte di questo documento. Obbietivi dell’analisi delle fonti informative sono: ? ? censire le sorgenti informative indicate dal committente; ? ? individuare le tipologie delle varie sorgenti informative che andranno ad alimentare il data warehouse e, per ciascuna di queste, determinare quali sono le grandezze utili a descriverle. 8.1.2 Attività 1.2 - Progettazione (dati e metadati) La base dei metadati è la parte del sistema che contiene la descrizione delle sorgenti informative presenti nel data warehouse, e permette l’interrogazione delle stesse L’utente dovrà avere la possibilità di interrogare l’archivio dei metadati specificando criteri di selezione anche basati su un thesaurus di argomenti. Parallelamente alla progettazione della base di dati relativa ai metadati, si procederà alla progettazione del data warehouse di primo livello ed alla progettazione delle procedure di caricamento dei dati per le fonti individuate. 73 8.1.3 Attività 1.3 Realizzazione (metadati) Prevede la realizzazione delle procedure per il caricamento nel data warehouse dei metadati che descrivono le tipologie di sorgenti individuate nella attività 1.1, e l’effettivo popolamento della base di dati relativa ai metadati, principalmente a partire da fonti disponibili su supporti informatici. Contestualmente, gli argomenti coperti dalle fonti censite dovranno essere organizzati in un thesaurus (come descritto nell'allegato B). 8.1.4 Attività 1.4 Realizzazione (dati) Prevede la realizzazione delle procedure per il caricamento nel data warehouse dei dati estratti dalle sorgenti individuate, e il popolamento del data warehouse di primo livello. Le fonti selezionate saranno disponibili prevalentemente su supporti informatici. 8.1.5 Attività 1.5 Sperimentazione Questa attività coinvolge direttamente le figure interne al committente. I sistemi realizzati verranno sperimentati e collaudati congiuntamente dal realizzatore e dal committente. A valle del collaudo verranno evidenziate eventuali inadeguatezze delle specifiche utente e dei requisiti del sistema. 8.2 Fase 2: Realizzazione del data warehouse di secondo livello La fase 2, della durata di 10 mesi, prevede il consolidamento delle specifiche del sistema ed il completamento del data warehouse di primo livello. Verranno, quindi ripercorse le fasi di analisi, progettazione e realizzazione, al fine di estendere le funzionalità del sistema. 8.2.1 Attività 2.1 Estensione dei requisiti Alla luce delle considerazioni scaturite a valle della attività di sperimentazione e collaudo, verranno riesaminate le specifiche del sistema realizzato nella fase 1, e saranno apportate le conseguenti modifiche sia al sistema di gestione dei metadati, sia alle procedure relative al data warehouse di primo livello. Tali modifiche saranno opportunamente integrate con quanto già realizzato. 8.2.2 Attività 2.2 Individuazione delle nuove tematiche di interesse Alla luce dei suggerimenti forniti dal committente, verranno individuate ulteriori aree tematiche di interesse del committente, e le relative fonti informative. Si assume che una parte considerevole delle fonti considerate nella seconda fase non sia disponibile su supporti informatici. 74 Il censimento di tali fonti porterà naturalmente ad una estensione dei contenuti della base dei metadati, nonché ad un eventuale arricchimento delle funzionalità di interrogazione previste. 8.2.3 Attività 2.3 Progettazione Per le fonti individuate nell'attività 2.2 verranno progettate le procedure di caricamento del data warehouse di primo livello, e in base alle tematiche definite nell'attività 2.2 saranno progettati i data warehouse di secondo livello (data mart) e le relative interfacce, sia verso strumenti di analisi, sia verso utenti finali. 8.2.4 Attività 2.4 Realizzazione (dati, metadati e data mart) Prevede il caricamento di metadati e dati relativi alle fonti individuate nell'attività 2.2. Come già indicato nell'attività 2.2, si assume che una parte considerevole di tali fonti possano non essere disponibile su supporti informatici. Verranno inoltre realizzate le interfacce previste verso i data mart. 8.3 Fase 3: Estensione del data warehouse di secondo livello La fase 3 ricalca le attività 2.2, 2.3, e 2.4, portando ad un ulteriore arricchimento delle basi dei dati e dei metadati a fronte della indicazione di ulteriori tematiche di interesse da parte del committente. 8.4 Riepilogo delle attività Si mostra, nel seguito, il riepilogo delle attività relativi alle tre fasi descritte nelle sezioni precedenti, indicando una stima dell'impegno necessario per la loro attuazione (espressa in giorni uomo) nonché una ipotesi di durata temporale delle stesse. 75 Riferimento Attività Impegno Durata (giorni*persona) (mesi) Fase 1: Realizzazione del data warehouse di primo livello 1.1 Formalizzazione delle specifiche utente 30 Analisi delle fonti informative 30 Progettazione della base di dati dei metadati e relativa 1.2 interfaccia utente 1.3 25 Progettazione delle procedure di caricamento dei dati 20 dei metadati Caricamento dei metadati 1.5 30 2 2 20 Realizzazione dei moduli di caricamento e consultazione 1.4 15 Progettazione del data warehouse di primo livello Realizzazione dei moduli di caricamento e consultazione 3 dei dati 20 2 Caricamento dei dati 100 Sperimentazione, messa a punto e collaudo 15 3 305 12 Totale fase 1 76 Fase 2: Realizzazione del data warehouse di secondo livello Estensione dei requisiti e formalizzazione delle nuove 2.1 specifiche utente Integrazione delle nuove specifiche nei sistemi realizzati durante la fase 1. Definizione delle ulteriori aree tematiche di interesse 2.2 Analisi delle ulteriori fonti informative per le aree tematiche di interesse Progettazione delle procedure di caricamento delle nuove 2.3 fonti 2 20 15 15 50 Progettazione delle interfacce verso i data mart 20 Caricamento dei metadati delle nuove fonti 10 nuove fonti 20 Caricamento dei dati delle nuove fonti 100 Realizzazione delle interfacce verso i data mart 10 Totale fase 2 2 10 Progettazione dei data mart Realizzazione delle procedure di caricamento dei dati delle 2.4 5 275 2 4 10 77 Fase 3: Estensione del data warehouse di secondo livello Definizione delle ulteriori aree tematiche di interesse 3.1 Analisi delle ulteriori fonti informative per le aree tematiche di interesse Progettazione delle procedure di caricamento delle nuove 3.2 fonti 2 15 10 Progettazione dei data mart 50 Progettazione delle interfacce verso i data mart 20 Caricamento dei metadati delle nuove fonti 10 Realizzazione delle procedure di caricamento dei dati delle 3.3 15 nuove fonti 20 Caricamento dei dati delle nuove fonti 100 Realizzazione delle interfacce verso i data mart 10 255 Totale fase 3 2 4 8 78 8.5 Gantt Si mostra, nel seguito, il Gantt del progetto con la relativa indicazione dei vari deliverable, dettagliati nel seguto. Per comodità espositiva si è assunto che il progetto inizi il 1/1/2002. 2002 ID Task Name Start End Jan 1 1.1.a Formalizzazione delle specifiche utente 2 11.b Analisi delle fonti informative 3 4 D1 Specifiche utente e descrizione delle sorgenti informative selezionate. 1.2.a Progettazione del data base dei metadati e relativa interfaccia utente 1/1/ 2002 1/1/ 2002 3/31/ 2002 4/1/ 2002 4/1/ 2002 4/1/ 2002 3/31/ 2002 3/31/ 2002 3/31/ 2002 5/31/ 2002 5/31/ 2002 5/31/ 2002 90d 90d 0d 61d 5 1.2.b Progettazione del data warehouse di primo livello 6 1.2.c Progettazione delle procedure di caricamento dei dati 7 D2 Architettura del sistema (gestione dei metadati e data warehouse)Descrizione delle procedure di caricamento dei dati per le fon 5/31/ 2002 5/31/ 2002 0d 8 1.3.a Realizzazione dei moduli di caricamento e consultazione dei metadati 6/1/ 2002 7/31/ 2002 61d 6/1/ 2002 7/31/ 2002 8/1/ 2002 8/1/ 2002 7/31/ 2002 7/31/ 2002 9/30/ 2002 9/30/ 2002 9 1.3.b Caricamento dei metadati 10 D3 Moduli di caricamento e interrogazione della base dei metadati.Documentazione del popolamento della base dei metadati. 11 1.4.a Realizzazione dei moduli di caricamento e consultazione dei dati 12 1.4.b Caricamento dei dati 13 14 15 16 17 18 19 20 21 22 23 24 25 26 D4 Moduli di caricamento e interrogazione del data warehouse di primo 10/1/ livello per le fonti selezionate. Documentazione del popolamento del 2002 data base. 10/1/ 1.5 Sperimentazione, messa a punto e collaudo 2002 2.1.a Estensione dei requisiti e formalizzazione delle nuove specifiche 1/1/ utente 2003 2.1.b Estensione dei requisiti e formalizzazione delle nuove specifiche 1/1/ utente 2003 3/1/ 2.2a Definizione delle ulteriori aree tematiche di interesse 2003 2.2b Analisi delle ulteriori fonti informative per le aree tematiche di 3/1/ interesse 2003 5/1/ 2.3a Progettazione delle procedure di caricamento delle nuove fonti 2003 5/1/ 2.3b Progettazione dei data mart 2003 5/1/ 2.3c Progettazione delle interfacce verso i data mart 2003 D6 Descrizione delle procedure di caricamento dei dati per le ulteriori 6/30/ fonti. Descrizione dei data mart e delle relative interfacce. 2003 7/1/ 2.4a Caricamento dei metadati delle nuove fonti 2003 2.4b Realizzazione delle procedure di caricamento dei dati delle nuove 7/1/ fonti 2003 7/1/ 2.4c Caricamento dei dati delle nuove fonti 2003 7/1/ 2.4d Realizzazione delle interfacce verso i data mart 2003 27 D7 Moduli di caricamento e interrogazione del data warehouse di primo livello per le ulteriori fonti.Documentazione del popolamento della base 11/1/ dei metadati.Documentazione del popolamento del data base.Moduli di 2003 interfaccia per i data mar 28 3.1a Definizione delle ulteriori aree tematiche di interesse 29 3.1b Analisi delle ulteriori fonti informative per le aree tematiche di interesse 30 3.2a Progettazione delle procedure di caricamento delle nuove fonti 31 3.2b Progettazione dei data mart 32 3.2c Progettazione delle interfacce verso i data mart 33 D8 Descrizione delle procedure di caricamento dei dati per le ulteriori fonti. Descrizione dei data mart e delle relative inter 34 3.3a Caricamento dei metadati delle nuove fonti 35 3.3b Realizzazione delle procedure di caricamento dei dati delle nuove fonti 36 3.3c Caricamento dei dati delle nuove fonti 37 3.3d Realizzazione delle interfacce verso i data mart 38 D9 Moduli di caricamento e interrogazione del data warehouse di primo livello per le ulteriori fonti.Documentazione del popolamento della base 6/30/ dei metadati.Documentazione del popolamento del data base.Moduli di 2004 interfaccia per i data mart 10/1/ 2002 12/31/ 2002 2/28/ 2003 2/28/ 2003 4/30/ 2003 4/30/ 2003 6/30/ 2003 6/30/ 2003 6/30/ 2003 6/30/ 2003 10/31/ 2003 10/31/ 2003 10/31/ 2003 10/31/ 2003 11/1/ 2003 11/1/ 12/31/ 2003 2003 11/1/ 12/31/ 2003 2003 1/1/ 2/28/ 2004 2004 1/1/ 2/28/ 2004 2004 1/1/ 2/28/ 2004 2004 2/28/ 2/28/ 2004 2004 2/29/ 6/30/ 2004 2004 2/29/ 6/30/ 2004 2004 2/29/ 6/30/ 2004 2004 2/29/ 6/30/ 2004 2004 6/30/ 2004 2003 2004 Duration 61d 61d 61d 0d 61d 61d 0d 92d 59d 59d 61d 61d 61d 61d 61d 0d 123d 123d 123d 123d 0d 61d 61d 59d 59d 59d 0d 123d 123d 123d 123d 0d Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Jan Feb Mar Apr May Jun 8.6 Elenco dei deliverable Deliv Tipo D1 Rapporto Descrizione Specifiche utente e descrizione delle sorgenti informative selezionate. Attività 1.1 Architettura del sistema (gestione dei metadati e data warehouse) D2 Rapporto Descrizione delle procedure di caricamento dei dati per le fonti 1.2 selezionate. D3 D4 D5 Software e Moduli di caricamento e interrogazione della base dei metadati. documentazione Documentazione del popolamento della base dei metadati. Software e documentazione Software e 1.3 Moduli di caricamento e interrogazione del data warehouse di primo livello per le fonti selezionate. Documentazione del 1.4 popolamento della base di dati. Integrazione nei sistemi realizzati nella fase 1 delle ulteriori documentazione specifiche scaturite dalla attività di sperimentazione e collaudo 2.1 Descrizione delle procedure di caricamento dei dati per le D6 Rapporto ulteriori fonti. Descrizione dei data mart e delle relative 2.3 interfacce. Moduli di caricamento e interrogazione del data warehouse di D7 Software e documentazione primo livello per le ulteriori fonti. Documentazione del popolamento della base dei metadati. 2.4 Documentazione del popolamento della base di dati. Moduli di interfaccia per i data mart Descrizione delle procedure di caricamento dei dati per le D8 Rapporto ulteriori fonti. 3.2 Descrizione dei data mart e delle relative interfacce. Moduli di caricamento e interrogazione del data warehouse di D9 Software e documentazione primo livello per le ulteriori fonti. Documentazione del popolamento della base dei metadati. 3.3 Documentazione del popolamento della base di dati. Moduli di interfaccia per i data mart 80 8.7 Gruppo di lavoro Progetti di tale complessità necessitano di gruppi di lavoro ampi e strutturati ma soprattutto un pesante coinvolgimento delle strutture decisionali della Regione coinvolte nel processo. Si ha così bisogno delle seguenti figure: ? ? Responsabile di progetto ? ? Progettista delle basi dati e del data warehouse ? ? Progettista Statistico per la modellizzazione ? ? Le persone dell’Area Statistica nonché quelle del Settore Sociale coinvolte nell’automazione nel ruolo di utenti; all’interno di esse si identifica il coordinatore degli utenti ? ? Responsabile informatico della Regione Lazio ? ? Analisti e programmatori con competenze ed in numero variabile a seconda della fase di progetto Alcune di queste figure possono essere eventualmente riunite in un’unica persona, l’importante è che i soggetti interessati della Regione Lazio siano coinvolti in maniera fattiva e rimangano protagonisti della realizzazione dell’intero sistema. 81 9 Appendice A: Elenco delle fonti informative analizzate Si riporta, nel seguito, l'elenco delle sorgenti informative analizzate. Il significato dei campi è descritto nella sezione 5.1 e sintetizzato nella tabella mostrata in sezione 5.3.1 relativa agli attributi dell'entità Sorgente. ID 53 Classe Amm. Regione Lazio Titolo Erogazione contributi per il restauro e la disinfestazione dei beni librari di pregio Oggetto Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del responsabile Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico 01/01/1997 Minimo comune livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 82 ID 56 Classe SISTAN Titolo La presenza straniera in Italia:caratteristiche demografiche Oggetto Permessi di soggiorno all'1.1.1999 Residenti stranieri all'1.1.1999 Nascite e matrimoni nel 1996 Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1996 Profondità dello storico 01/01/1985 Minimo provincia livello di aggregazione - 01/01/2000 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 83 ID 57 Classe SISTAN Titolo Indagine statistico-epidemiologica sull'uso di sostanze stupefacenti e psicotrope tra i giovani che sostengono la visita di leva Oggetto Indagine campionaria anonima su 34933 soggetti maschi all'atto della prevalenza associato sotto visita sul ad consumo un'analisi l'aspetto di leva di della per uno sostanze studio di stupefacenti condizione giovanile sociale-economico,demografico e comportamentale. Detentore Ministero della Difesa Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/1993 Profondità dello storico 01/01/1993 Minimo comune livello di aggregazione - 31/12/1994 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 84 ID 58 Classe SISTAN Titolo Attività delle strutture socio-riabilitative nel settore tossicodipendenza Oggetto Caratteristiche riabilitative e attività che riabilitazione dei tossicodipendenza, si delle strutture occupano soggetti struttura della con del sociocura problemi e di personale, caratteristiche dell'utenza Detentore Ministero della Sanità Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1997 Profondità dello storico 01/01/1994 Minimo regione livello di aggregazione - 31/12/1999 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 85 ID 59 Classe SISTAN Titolo Utenza e attività delle strutture pubbliche e private nel settore alcooldipendenza Oggetto Caratteristiche e attività delle strutture pubbliche e private che si occupano del soggetti con personale, problemi di caratteristiche trattamento e recupero dei alcoolismo, struttura dell'utenza, del trattamenti erogati Detentore Ministero della Sanità Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1997 Profondità dello storico 01/01/1997 Minimo regione livello di aggregazione - 31/12/1999 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 86 ID 60 Classe SISTAN Titolo Trattamenti pensionistici Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1997 Profondità dello storico 01/01/1974 Minimo provincia livello di aggregazione - 31/12/1998 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 87 ID 61 Classe SISTAN Titolo Le iniziative in campo socio-assistenziale dei Comuni Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni occasionale Periodo di riferimento Profondità dello storico Minimo livello di 01/01/1997 aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 88 ID 62 Classe Amm. Regione Lazio Titolo Gestione anagrafe catalogatori di fondi librari Oggetto Cultura, biblioteche, catalogatori Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 89 ID 64 Classe Amm. Regione Lazio Titolo Gestione dell'anagrafe delle bibliotec Oggetto Biblioteche, cultura, anagrafe Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 90 ID 65 Classe Amm. Regione Lazio Titolo Iscrizione all'albo degli istituti culturali di interesse regionale Oggetto Istituti culturali, cultura Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulga bili Minimo livello di aggregazione temporale Qualità alta 91 ID 66 Classe Amm. Regione Lazio Titolo Valorizzazione dei beni storici e naturalistici della Tuscia Oggetto Cultura Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazi one geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 92 ID 67 Classe Amm. Regione Lazio Titolo Gestione dell'albo regionale delle bande musicali Oggetto Cultura, bande musicali Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati div ulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 93 ID 70 Classe SISTAN Titolo Sistema di indicatori socio-sanitari Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1999 Profondità dello storico 01/01/1996 Minimo regione livello di aggregazione - 31/12/2002 geografica dei dati divulga ti Minimo livello di aggregazione regione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 94 ID 71 Classe SISTAN Titolo Indicatori di integrazione sociale dei disabili Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/1999 Profondità dello storico 01/01/1999 Minimo regione livello di aggregazione - 31/12/2001 geografica dei dati div ulgati Minimo livello di aggregazione Azienda sanitaria locale geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 95 ID 72 Classe SISTAN Titolo Sistema informativo sull'handicap Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/1999 Profondità dello storico 01/01/1999 Minimo regione livello di aggregazione - 31/12/2001 geografica dei dati divulgati Minimo livello di aggregazione Azienda sanitaria locale geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 96 ID 74 Classe SISTAN Titolo Presidi residenziali socio-assistenziali Oggetto Assistenza sociale prestata da istituzioni pubbliche e private mediante l'erogazione di servizi residenziali socio-assistenziali Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1950 Minimo regione livello di aggregazione - 31/12/2002 geografica dei dati divulgati Minimo livello di aggregazione comune geografica dei dati divulgabili Minimo livello di aggrega zione temporale Qualità alta 97 ID 75 Classe SISTAN Titolo Interventi in campo socio-assistenziale dei comuni Oggetto Analisi delle caratteristiche dei beneficiari di servizi e caratteristiche dei servizi erogati Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1999 Minimo regione livello di aggregazione - 31/12/2002 geografica dei dati divulgati Minimo livello di aggregazione regione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 98 ID 78 Classe SISTAN Titolo Utenza e attività dei servizi pubblici per la tossicodipendenza (SERT) Oggetto Numero e caratteristiche tossicodipendenti trattamenti,struttura utenti e attività dei dei del soggetti SERT, personale preposto Detentore Ministero della Sanità Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1990 Minimo regione livello di aggregazione - 31/12/2002 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 99 ID 79 Classe SISTAN Titolo Attività delle strutture socio-riabilitative nel settore della tossicodipendenza Oggetto Caratteristiche strutture organizzative ed socio-riabilitative, attività delle struttura del personale, caratteristiche dell'utenza Detentore Ministero della Sanità Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1994 Minimo livello di - 31/12/2002 aggregazione geografica dei dati divulgati Minimo livello di aggregazione Azienda sanitaria locale geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 100 ID 80 Classe SISTAN Titolo Utenze e attività delle strutture pubbliche e private nel settore alcoldipendenza Oggetto Caratt.strutt. e attività delle strutt. pubbliche e private, caratteristiche dell'utenza e trattamento Detentore Ministero della Sanità Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/2000 Profondità dello storico Minimo livello di - 31/12/2002 01/01/1997 aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 101 ID 81 Classe SISTAN Titolo Indagine multiscopo sulle famiglie: i cittadini e l'ambiente nelle grandi città Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1993 Minimo regione livello di aggregazione - 31/12/2000 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 102 ID 82 Classe SISTAN Titolo Popolazione e movimento anagrafico dei comuni Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1999 Profondità dello storico 01/01/1990 Minimo comune livello di aggregazione - 31/12/1999 geografica dei dati di vulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 103 ID 83 Classe SISTAN Titolo La situazione economica e finanziaria delle famiglie in Europa Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1994 Profondità dello storico 01/01/1992 Minimo nazione livello di aggregazione - 31/12/1996 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 104 ID 84 Classe Amm. Regione Lazio Titolo Promozione del turismo sociale nel Lazio Oggetto Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 105 ID 85 Classe Amm. Regione Lazio Titolo Vigilanza sulle importazioni temporanee di fondi librari antichi e moderni Oggetto Cultura Libri Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 106 ID 86 Classe Amm. Regione Lazio Titolo Vigilanza sulle esportazioni di fondi librari antichi e moderni Oggetto Cultura Libri Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 107 ID 87 Classe SISTAN Titolo Censimento delle strutture socio-riabilitative Oggetto Strutture socio-riabilitative (residenziali, semiresidenziali, ambulatoriali) Detentore Ministero dell'interno Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1985 Minimo provincia livello di aggregazione - 31/12/2002 geografica dei dati divulgati Minimo livello di aggregazione provincia geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 108 ID 89 Classe SISTAN Titolo Compendio delle statistiche ufficiali dell'amministrazione dell'interno Oggetto Detentore Ministero dell'Interno Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 31/12/1996 - 31/12/1996 Profondità dello storico Minimo livello di aggregazione regione geografica dei dati divulgati Minimo livello di aggregazione comune geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 109 ID 91 Classe SISTAN Titolo Annuario statistico Oggetto Indicatori comparativi tra i comuni dei Castelli Romani nel contesto nazionale. Detentore Comune di Albano Laziale Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1997 - 31/12/1997 Profondità dello storico Minimo livello di aggregazione comune geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 110 ID 92 Classe SISTAN Titolo Roma e provincia attraverso la statistica Oggetto Detentore Camera di Commercio Industria Artigianato ed agr Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1997 - 31/12/1998 Profondità dello storico Minimo livello di aggreg azione comune geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 111 ID 93 Classe SISTAN Titolo I consumi delle famiglie Oggetto Condizioni di vita delle famiglie italiane in termini di spesa, condizione abitativa, possesso dei beni durevoli etc. Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/1997 - 31/12/1998 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità 112 ID 94 Classe SISTAN Titolo Famiglie, abitazioni e sicurezza dei cittadini Oggetto Detentore ISTAT Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 113 ID 96 Classe Amm. Regione Lazio Titolo Gestione anagrafe catalogatori di fondi librari Oggetto Detentore Regione Lazio Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Consenso del detentore Dati acquisiti ogni Periodo di riferimento 01/01/1999 - 31/12/1999 Profondità dello storico Minimo livello di aggregazione geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 114 ID 97 Classe SISTAN Titolo Problematiche ed iniziative inerenti la popolazione anziana in Italia Oggetto Strutture residenziali e non;Centri studio e/o università; iniziative a favore degli anziani Detentore Ministero dell'Interno Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni occasionale Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1992 Minimo comune livello di aggregazione - 31/12/2002 geografica dei dati divulgati Minimo livello di aggregazion e geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 115 ID 98 Classe SISTAN Titolo Censimento delle strutture di accoglienza per extracomunitari Oggetto Strutture di accoglienza per extracomunitari Detentore Ministero dell'Interno Responsabile Telefono responsabile E-mail responsabile Vincoli sull'accesso ai dati Dati acquisiti ogni 1 anno Periodo di riferimento 01/01/2000 Profondità dello storico 01/01/1995 Minimo comune livello di aggregazione - 31/12/2002 geografica dei dati divulgati Minimo livello di aggregazione geografica dei dati divulgabili Minimo livello di aggregazione temporale Qualità alta 116 10 Allegato A : Il prototipo "Catalogo Sorgenti" Parte integrante di questo documento è il software denominato "Catalogo Sorgenti" descritto nella sezione 6. Tale software è incluso nel CD-Rom allegato. 117 118