Concetti e tecnologie nei Sistemi Informativi Statistici: l'esperienza SIU Concepts and Technologies for SIS: the SIU Experience Giovanna D’Angiolini, Aurea Micali Istituto Nazionale di Statistica, V C.Balbo 16, Roma -ITALY Abstract: The paper concerns the design and implementation of the multi-source statistical information system SIU, aimed at monitoring and analysing the italian education system. Moreover, it presents general remarks about the nature of statistical information systems (SIS), and the adaptability of the existing information management technologies to SIS user requirements. Parole chiave: education, statistical information system, database, OLAP 1. Introduzione. Le prime tecnologie informatiche potevano considerarsi meri strumenti di manipolazione fisica dei dati, finalizzati alla sostituzione di lavoro umano o di tecnologie meno efficienti. Dallo sviluppo delle tecnologie database in poi si afferma la tendenza al diffondersi di nuovi approcci concettuali e organizzativi strettamente connessi alle nuove tecniche via via proposte per il trattamento dell'informazione, e di conseguenza la necessità che l'adozione di una nuova tecnica sia accompagnata e assecondata da modifiche culturali e organizzative nel contesto d'uso. Una conferma viene dalla recente larga diffusione dei concetti OLAP e Data Warehousing, indispensabile per veicolare l'inserimento nei contesti produttivi di strumenti che ad essi si ispirano. Per le organizzazioni produttrici di informazione statistica, in quanto utenti di tecnologie informatiche, è allora sempre più importante esplicitare una visione articolata delle proprie attività ed esigenze, in modo da valutare l'adattabilità delle soluzioni proposte al contesto della produzione ed uso di dati statistici. Al tempo stesso, tali organizzazioni assistono ad una ridefinizione del ruolo ad esse assegnato. Man mano che si diffonde l'esigenza di tenere sotto controllo vasti ambiti di fenomeni socio-economici ai fini della valutazione dell'azione di governo, cresce la richiesta di costituzione e manutenzione di SIS pubblici: estese collezioni di dati relativi all'ambito di fenomeni sotto osservazione, provenienti da varie fonti e suscettibili di usi diversi e non prevedibili, da parte di un'utenza diversificata. Questo implica un crescente impegno nella ricerca e applicazione di metodologie specifiche, e rafforza l'esigenza di un'aumentata consapevolezza delle possibilità e dei limiti delle tecnologie esistenti. Nel presente lavoro viene descritta un'esperienza particolarmente significativa in questo quadro, la progettazione e realizzazione del Sistema Informativo Universitario (SIU), e del suo database, SIU-DATA. Vengono sviluppate alcune considerazioni volte a generalizzare il contenuto di tale esperienza, segnalando i principali problemi metodologici ancora aperti, con particolare attenzione al ruolo degli approcci concettuali e metodologici di provenienza informatica. 2. L'esperienza SIU. Nel corso degli ultimi anni, le indagini Istat sulla istruzione/formazione sono state sottoposte ad un profondo processo di ristrutturazione. Per quanto riguarda l’istruzione superiore, uno stimolo particolare è venuto all’Istat dalla stipula di una convenzione con il Ministero dell’università e della ricerca scientifica. La convenzione, ormai conclusa, prevedeva la messa a punto di un “Sistema Informativo Universitario orientato alla valutazione” (SIU), che potesse consentire al MURST un monitoraggio attento del settore, in un momento in cui l’autonomia didattica e finanziaria degli atenei costituisce una spinta forte al frastagliamento del sistema, tanto in termini organizzativi che informativi. Il piano operativo che accompagnava la convenzione MURST-Istat può essere riassunto in tre macrofasi: 1. individuazione del fabbisogno informativo; 2. reperimento dei dati non disponibili; 3. sviluppo degli indicatori derivabili. Al momento della stipula della convenzione non tutto il fabbisogno informativo individuato nella prima fase risultava soddisfatto, l’Istat ha quindi rivisitato il patrimonio di dati a disposizione, preoccupandosi di integrarlo, là dove necessario, allo scopo di offrire informazioni cogenti ed integrate. Il processo ha portato ad un migliore sfruttamento degli archivi gestionali già disponibili presso il MURST, alla ristrutturazione di alcune indagini, al varo di nuove e alla soppressione di altre. Tra le scelte di fondo che hanno guidato lo sviluppo del sistema vale la pena di menzionarne due. La prima riguarda il suo livello di fruibilità. Si è tentato di rendere il SIU il più possibile utile per i diversi livelli decisionali cosicché il sistema - seppure prevalentemente orientato ai decisori a livello centrale (Istat, MURST, CRUI, Osservatorio per la valutazione dell'università) - risulta fruibile anche a diversi livelli territoriali o istituzionali, non ultimi i singoli Atenei. La seconda è relativa al livello di elaborazione delle informazioni. Il sistema assicura dati elementari e un primo set di indicatori descrittivi. La terza delle macrofasi in cui più sopra è stata sintetizzata la convenzione prevedeva che fosse la stessa Istat ad individuare gli indicatori idonei al monitoraggio del settore; alcune novità istituzionali hanno però sconsigliato di procedere in questa direzione: la forte dinamicità normativa del sistema universitario, insieme all’insediamento di un organismo preposto alla valutazione del settore (l’Osservatorio per la valutazione del sistema universitario) hanno fatto sì che l’Istat, anziché individuare esso stesso gli indicatori utili per tenere sotto controllo lo stato e l’evoluzione dell’università, optasse piuttosto per la messa a punto di un sistema sufficientemente flessibile di distribuzione dei dati, sotto forma di database, in modo da consentire al Ministero stesso di ottenere gli indicatori che di volta in volta si rivelassero utili per una corretta comprensione dello sviluppo del sistema. Nella progettazione del sistema, quindi, l’attenzione si è sempre più spostata verso i problemi di integrazione dei diversi sottoinsiemi di informazioni, perché fosse garantita la possibilità di “interrogare” il SIU in modo da far fronte ad esigenze in divenire, non sempre precisabili a priori. 2.1 Il database SIU: contenuto e requisiti. L’ampiezza degli obiettivi e quindi delle fonti e delle variabili necessarie al sistema informativo ha consigliato di organizzare il lavoro per temi. Sono stati definiti sei sottosistemi: Studenti Personale Finanze Ricerca Edilizia Contesto. Il campo di osservazione del SIU si estende quindi oltre i confini del sistema universitario stesso. Ciascuno dei sei sottosistemi viene infatti alimentato tanto da dati provenienti dagli Atenei, quanto da dati provenienti da indagini ad hoc sugli individui (l’indagine sugli sbocchi professionali dei laureati, le spese sostenute dalle famiglie per la formazione, etc.). I dati di fonte amministrativa, che erano di più immediato interesse per l’attività di indirizzo e di coordinamento che il ministero svolge nei confronti delle diverse unità organizzative (Atenei, Dipartimenti, etc.) sono confluiti quasi interamente nel database che l’Istat ha messo a punto, così come i dati di “Contesto”1; mentre ci si è riservati di inserire i dati derivanti dalle indagini sugli individui in un secondo momento. Il SIU è un sistema multifonte, così come il database che lo accompagna (SIU-DATA). Questo è stato concepito come uno strumento per consentire al MURST di ricavare facilmente dati e indicatori che di volta in volta si rivelino utili per una corretta comprensione dello sviluppo del sistema. SIU-DATA attualmente gestisce: La serie storica relativa agli ultimi dieci anni dei dati provenienti dall’indagine sui corsi di diploma La serie storica relativa agli ultimi dieci anni dei dati provenienti dall’indagine sui corsi di laurea La serie storica relativa agli ultimi dieci anni di dati sul personale di fonte CINECA I dati sui docenti a contratto (indagine MURST) I dati demografici relativi alla popolazione residente I dati provenienti dall’indagine sulle scuole superiori I dati provenienti dall’indagine sulle Forze di Lavoro I dati provenienti dall'indagine sui bilanci universitari I dati provenienti dall'indagine sugli enti per il diritto allo studio. Grazie alle caratteristiche di flessibilità con cui è stato progettato, il database può essere agevolmente esteso con l’aggiunta di nuove indagini o altre fonti di dati, man mano che se ne ravvisi l'opportunità. Obiettivo della progettazione del database SIU è stato rendere disponibili un insieme di funzionalità di supporto alle attività di ricerca, accesso ed elaborazione dell’informazione d’interesse effettivamente adeguato alle esigenze di un'utenza 1 Del sottosistema “Contesto” fa parte una notevole massa di dati di cui l’Istituto dispone, non specificatamente mirate all’istruzione superiore, ma che pure necessitano per chiarire il quadro dei vincoli e delle opportunità esterne in cui questa si situa: i dati sulla struttura della popolazione per titolo di studio, sull’occupazione per zona geografica e settore, i tassi di disoccupazione per classe di età, sui maturi per provincia, sulla popolazione per età, etc. statistica. Lo strumento informatico con il quale si offre l'accesso ai dati gestiti nei SIS pubblici deve garantire agli utilizzatori la massima flessibilità d'uso, senza compromettere l'estendibilità dei giacimenti informativi gestiti, e la loro integrabilità con altri giacimenti informativi. Infatti i SIS pubblici tendono ad essere estesi nel tempo, con l'aggiunta di nuovi dati e nuove fonti o attraverso l'integrazione con sistemi informativi complementari, per soddisfare esigenze informative sempre più articolate e spesso non prevedibili. Sono queste le principali considerazioni che hanno guidato la progettazione di SIU-DATA. SIU-DATA offre diverse funzioni di manipolazione dei dati, che consentono agli utenti l'estrazione in tempo reale della propria informazione d'interesse dall'insieme dei dati gestiti nel database, analogamente alle funzionalità offerte dai sistemi OLAP/Datawarehousing oggi sul mercato. A differenza di tali sistemi, SIU-DATA guida l'utente alla specifica delle proprie elaborazioni attraverso un'interfaccia la quale presenta descrizioni dei dati manipolabili e delle loro relazioni modellate utilizzando concetti statistici quali variabile, classificazione, unità di analisi. L'eterogeneità delle fonti di informazione implica poi due esigenze specifiche. Anzitutto, è necessario porre a disposizione dell'utente la necessaria documentazione del contenuto informativo del sistema, sotto forma di metadati2, in modo da consentire una corretta interpretazione dei dati estratti. Il database SIU attualmente offre, a corredo dei dati, note e definizioni delle loro componenti, ma soprattutto è stato progettato in modo da consentire la futura integrazione con i sistemi di documentazione che gestiranno i metadati descrittivi delle indagini e dei SIS prodotti dall'Istituto. Tali sistemi offriranno anche funzionalità di supporto all'integrazione tra indagini e tra SIS, ciò che renderà più agevole l'estensione del SIU con nuove fonti di dati, anche attraverso l'integrazione con altri sistemi informativi. La seconda esigenza riguarda la necessità di guidare utenti non esperti del contenuto del database nell'accesso al database e nella selezione dei dati d'interesse. Ciò si ottiene dotando il sistema di funzioni per l'accesso ai dati attraverso i metadati, le quali consentono all'utente di accedere in modo mirato alle fonti e ai dati gestiti, descrivendo al sistema i propri dati d'interesse in termini di metadati. SIU-DATA incorpora attualmente una prima funzionalità di questo tipo. SIU-DATA è organizzato attorno ad una base di metadati, nella quale sono rappresentate opportune definizioni dei dati in termini delle loro componenti (Unità d'analisi osservata, Variabili, Classificazioni) e delle loro relazioni con gli altri dati. In questo modo si garantisce l'estendibilità del database: nuovi dati possono essere acceduti e manipolati attraverso le funzionalità esistenti, purché adeguatamente descritti nella base di metadati. L'utente vede e manipola i nuovi dati appena essi sono inseriti nel sistema. Inoltre, la struttura dei metadati del database SIU obbliga ad una rappresentazione standardizzata del contenuto informativo delle diverse fonti, analogamente ai sistemi Nelle “Guidelines for the Modeling of Statistical Data and Metadata “ (diffuse a cura della Conference of European Statisticians, 1995) è fornita la seguente definizione dei metadati: “I metadati statistici sono dati necessari per la produzione e l’utilizzo appropriati dei dati statistici. Essi descrivono i dati statistici e -in una certa misura- i processi e gli strumenti coinvolti nella produzione e nell’utilizzo dei dati statistici. In breve, i metadati statistici sono dati sui dati statistici.”. Rientrano tra i metadati statistici tutte le informazioni relative al contenuto informativo delle indagini e alle caratteristiche dell’indagine come processo di osservazione. Analoghe classi di metadati possono essere individuate per descrivere le fonti d’informazione diverse dalle indagini. 2 dedicati alla documentazione. In essa, i dati sono descritti in termini di insiemi di componenti elementari condivise da fonti e da dati di base diversi: la specifica delle variabili associate ad un dato di base, ad esempio, si ottiene connettendo la descrizione del dato di base a una o più descrizioni di variabili elencate in un apposito repertorio standardizzato. Questa caratteristica, oltre a garantire la futura integrazione con i sistemi di documentazione, ha permesso di realizzare la funzionalità di accesso ai dati attraverso i metadati. Infine va osservato che le tipologie di dati rappresentate, o che dovranno essere rappresentate, nel database di SIU-DATA sono molteplici: si va dai dati individuali provenienti da indagini campionarie come quella sui laureati, ad archivi come l'archivio dei corsi di laurea, a dati a livelli intermedi di aggregazione, perlopiù ottenuti dalle indagini amministrative, come "studenti dei corsi di laurea per sesso e anno", a macrodati e indicatori ottenuti da elaborazioni sui dati di base delle diverse fonti. Di conseguenza, la progettazione della base di metadati ha richiesto la definizione di uno specifico modello concettuale per la descrizione delle diverse tipologie di dati in termini dei concetti primitivi utilizzati dagli statistici: unità d'analisi, variabili, classificazioni. 2.2 Il database SIU: gli ambienti. Il database prevede accessi separati per due grandi classi di dati: dati di base, provenienti da ciascuna delle fonti elencate, e indicatori, ottenuti attraverso elaborazioni su uno o più dati di base. Sono state implementate tre modalità di accesso al sistema: l'accesso diretto ai dati di base, l'accesso ai dati di base attraverso i metadati, l'accesso agli indicatori. Accesso diretto ai dati di base. Un'apposita maschera guida l’utente alla selezione del dato di base attraverso la scelta di una fonte. Effettuata la scelta di un dato di base, il sistema mette a disposizione dell’utente, in un’unica maschera, le funzionalità offerte dalla componente principale del sistema, il Navigatore dei dati. Queste consentono di scegliere un insieme di variabili di disaggregazione d’interesse, e/o di estrarre il dato di dettaglio relativo a specifiche modalità di opportune variabili, o a specifici elementi di un universo osservato. Il Navigatore guida l’utente alla specifica delle proprie manipolazioni presentando liste di variabili e classificazioni associate al dato prescelto, corredate di note e definizioni. Il Navigatore presenta all'utente, per ogni dato di base, non solo le variabili ad esso direttamente collegate, ma anche quelle ad esso riferibili, in quanto appartenenti a dati di base direttamente o indirettamente connessi al dato di base in considerazione. Per fare ciò, sfrutta le relazioni tra dati rappresentate nella base di metadati. Ad esempio, un utente può essere interessato a disaggregare il dato relativo agli studenti iscritti ai corsi di laurea, distinguendo tra atenei pubblici e privati. La variabile relativa allo stato giuridico degli atenei non è direttamente connessa al dato relativo agli studenti iscritti, in quanto riguarda gli atenei. Il Navigatore la rende ugualmente disponibile per la manipolazione del dato relativo agli studenti iscritti, sfruttando i legami esistenti tra i diversi dati di base, documentati a livello di metadati (Studenti iscritti ai corsi di Laurea – Corsi di Laurea – Facoltà – Atenei). Il Navigatore permette quindi all’utente di costruire online le proprie interrogazioni mediante la navigazione guidata tra i dati, partendo da qualsiasi dato di base. I dati risultato delle elaborazioni possono poi essere visualizzati, stampati, o esportati per successive elaborazioni, in file a formato fisso, oppure in formato Excel o Access. Accesso ai dati di base attraverso i metadati. La maschera di accesso ai dati attraverso i metadati guida l'utente alla scelta di unità d'analisi e variabili di proprio interesse, tra quelle gestite nel database, permettendo poi la selezione di un dato di base tra quelli riferiti all'unità d'analisi e alle variabili specificate. All'utente che sceglie questa modalità di accesso al sistema, il sistema presenta liste delle unità di analisi e delle variabili associate ai dati gestiti. Le unità d'analisi sono presentate all'utente tenendo conto delle gerarchie di sottoinsieme che le legano: scegliendo ad esempio "persona", si può poi scegliere tra i sottoinsiemi di "persona", quali "studente" o "docente". Se l'utente ha scelto un'unità d'analisi, gli è offerta la scelta tra le sole variabili associate alla data unità d'analisi, ad esempio, con riferimento a "studente", "sesso" o "iscrizione in corso/fuori corso". L'utente può effettuare la scelta di un'unità d'analisi e/o di una o più variabili di proprio interesse, ottenendo in risposta la lista dei dati di base riferiti alle componenti selezionate. Scegliendo, ad esempio, la variabile "Sesso", il sistema presenta l'elenco di tutti i dati di base associati a tale variabile, tali cioè da poter essere disaggregati o selezionati per sesso. Scegliendo poi un dato di base tra quelli proposti, l'utente ha infine accesso al Navigatore, che gli consente la manipolazione e la successiva visualizzazione del dato prescelto. Non si tratta quindi di una semplice interrogazione per parole-chiave, ma di una navigazione guidata attraverso legami concettuali tra i concetti componenti i dati di base, che sfrutta la rappresentazione di tali legami nella base dei metadati. L'accesso agli indicatori. L'utente è guidato alla scelta di un indicatore d'interesse attraverso la scelta di un argomento. Una volta scelto un indicatore, ha disponibili le funzionalità offerte dal Navigatore: può disaggregare gli indicatori per specifiche variabili, o osservare gli indicatori su un dettaglio specifico, ad es. su una specifica università invece che sull’intero universo osservato. 3. Alla base dell'esperienza SIU: paradigmi, considerazioni di metodo, valutazione delle tecnologie. Lo sviluppo di metodologie per la progettazione di SIS pubblici è necessariamente fondato su un'attenta esplicazione ed analisi dei contenuti del concetto di SIS, condotta dal punto di vista degli statistici, che consenta di enucleare i paradigmi impliciti in tale punto di vista. Tale analisi fornisce anche il quadro concettuale di riferimento per valutare l'effettiva adattabilità di metodi e tecniche di provenienza informatica al contesto dei SIS. 3.1 I sistemi informativi statistici dal punto di vista dello statistico. Per gli statistici un sistema informativo statistico (SIS) è un insieme coerente e integrato di fonti d’informazione, indagini o archivi amministrativi, costituito ai fini dello studio di una particolare classe di fenomeni. Quella di SIS non è quindi una nozione tecnologica, ma un concetto che generalizza il concetto di indagine o in generale di fonte d'informazione: una fonte può essere descritta come una raccolta di informazioni ottenute attraverso specifiche procedure di osservazione e misura, un SIS è una base di conoscenza costituita di un insieme coerente e integrato di fonti così intese. Coerenza, completezza e integrazione costituiscono la differenza tra un SIS e una raccolta qualsiasi di fonti. L'integrazione è talvolta riduttivamente intesa come un requisito di manipolabilità fisica, ciò come possibilità di elaborare aggregati o indicatori sfruttando più fonti: la possibilità di utilizzo congiunto dei dati dipende però dal loro significato, e perciò presuppone l'integrazione concettuale3 tra le fonti. Un SIS non si ottiene semplicemente riunendo dati di fonte diversa in un'unica base di dati, ma come risultato di una specifica attività di progettazione, la quale include la progettazione e riprogettazione delle singole indagini componenti in un'ottica di sistema, attraverso la definizione, o ridefinizione del loro contenuto informativo (aspetti del mondo reale osservati, dati di base, aggregati e indicatori prodotti) e delle modalità di osservazione, ed include un'attività di integrazione concettuale tra le fonti, e, quando significativo, di integrazione fisica attraverso la riprogettazione delle singole fonti o l'uso di tecniche di linkage. È con l'attività di progettazione, in particolare di integrazione, che viene definita la componente che caratterizza un SIS rispetto ad una collezione qualsiasi di fonti, e cioè la struttura dei metadati. Un SIS è una base di conoscenza composta di dati descritti da metadati. A questo concetto di SIS come base di conoscenza, che è proprio degli statistici, si affianca nell'uso corrente una nozione organizzativo-tecnologica di SIS, utilizzata per descrivere qualsiasi sistema concreto di trattamento e gestione di dati statistici, generalmente, anche se non necessariamente, realizzato con tecnologie informatiche: da un punto di vista organizzativo e tecnologico, l'insieme delle pubblicazioni Istat è un sistema informativo statistico, così come l'insieme delle basi dati di diffusione. È perciò necessario distinguere tra sistemi informativi statistici visti come organizzazione di conoscenze e sistemi informativi statistici visti come organizzazione di risorse. Esiste una relazione precisa tra le due nozioni: ogni sistema informativo statistico è prima di tutto concepito come base di conoscenza, ma è in pratica realizzato attraverso sistemi che organizzano risorse concrete, in particolare informatiche, per rendere possibili le attività di manutenzione e sfruttamento della base di conoscenza. Ne consegue che la progettazione di un sistema informativo statistico va vista come un'attività concettualmente articolata in due fasi: la progettazione del sistema come sistema coerente e integrato di fonti, e la progettazione dei sistemi di supporto alla gestione e all'uso dei dati che concretamente lo realizzano. Ne deriva anche la priorità concettuale della progettazione del sistema informativo come sistema di fonti: è in questa fase della progettazione che si determina la conformità dell'informazione che si prevede di offrire alle esigenze degli analisti del fenomeno, e quindi il livello del servizio informativo offerto all'utenza. La progettazione del SIU ha tenuto conto di tale priorità concettuale. Il progetto infatti prevedeva espressamente che l’Istat: “individuasse il fabbisogno informativo” necessario al monitoraggio del settore e mettesse a punto le strategie di rilevazione idonee per i diversi segmenti informativi, in modo che ne fosse sempre garantita la coerenza e la sufficienza. In questo senso, la macrofase della convenzione che prevedeva “lo sviluppo degli indicatori derivabili” dai dati raccolti ha costituito una guida efficace. La necessità di prevedere già in fase di progettazione gli indicatori che avrebbero potuto essere utili per il monitoraggio del settore ha fatto sì che l’integrazione delle diverse fonti non fosse mai persa di vista, enfatizzando la caratteristica del SIS come sistema per il raccordo L’integrazione concettuale dei concetti descrittivi dei dati (unità d’analisi, variabili e classificazioni) si ottiene attraverso il confronto sistematico delle loro definizioni, volto a determinare se tali concetti coincidono o divergono e, se divergono, quali sono le loro relazioni implicite. Le relazioni tra concetti enucleate sono poi documentate come metadati. 3 delle conoscenze su un fenomeno, piuttosto che come un bacino in cui convogliare informazioni diverse, seppure riconducibili ad uno stesso fenomeno. Il fatto che lo sviluppo di un database non facesse parte degli obiettivi del progetto SIU ha ulteriormente facilitato questa distinzione impedendo che ci si orientasse direttamente verso la progettazione di un contenitore unico dei dati, piuttosto che verso la messa a punto di un insieme integrato di conoscenze. Lo specifico mandato del progetto ha quindi condotto verso la realizzazione di un SIS pubblico effettivamente modellato sulle esigenze dell'utenza, anziché, come in molti casi, verso una razionalizzazione o riorganizzazione a posteriori di dati già esistenti. E' stata proprio l'originalità dell'esperienza SIU a far emergere come la progettazione dei sistemi informativi, in particolare nella fase di individuazione dei contenuti informativi, possa contare su un supporto metodologico ancora molto povero, soprattutto se confrontato con quello messo a disposizione per lo sviluppo di database intesi come "contenitori” dei dati. Al momento dell’impianto di un sistema informativo mirato all’analisi di realtà complesse nascono in particolare due tipi di problemi: il primo è quello di descrivere il contenuto del sistema stesso, in termini di definizione e rappresentazione delle interrelazioni tra aspetti del mondo reale d’interesse, il secondo è quello della scelta delle variabili con cui “alimentare” il sistema. Per il primo aspetto, si fa sempre più spesso ricorso a strumenti, come la progettazione concettuale, mutuati dalla pratica e dalla ricerca in ambito informatico. Un obiettivo fondamentale della ricerca sui SIS è infatti già oggi l'adattamento di tali strumenti metodologici al contesto dei SIS. Per quanto riguarda invece il secondo, e più rilevante aspetto, del “che cosa” deve entrare a far parte di uno specifico SIS quella stessa ”contaminazione” che è avvenuta tra progettazione dei SIS e metodologie informatiche non si è invece verificata tra progettazione dei SIS e metodologie statistiche, in particolare metodi per la modellizzazione del legame tra variabili. La misura statisticamente fondata della forza del legame tra le diverse variabili potrebbe invece diventare uno strumento fondamentale per guidare tanto nella scelta delle variabili con cui costituire i diversi segmenti del SIS, quanto nel definire i confini stessi del sistema. 3.2 La realizzazione dei sistemi informativi statistici e l'offerta di metodi e tecnologie informatiche. È evidente come la riformulazione del prodotto degli Istituti nazionali di statistica in termini di SIS imponga anche mutamenti nell'organizzazione della produzione di dati. L'output delle attività produttive confluisce in basi di dati multifonte organizzate attorno a basi di metadati, accedute e manipolate da un'utenza diversificata, di conseguenza i processi produttivi associati alle singole fonti sono visti come processi di alimentazione di tali basi di dati, mentre l'organizzazione tradizionale si articolava in linee produttive distinte, associate a singole indagini, o gruppi di indagini. Si aprono problemi nuovi, attualmente oggetto di riflessione, riconducibili a tre grandi filoni interconnessi: il ruolo e la rappresentazione dei metadati, le relazioni tra sistemi diversi e l'articolazione metodologica e pratica delle attività di integrazione tra fonti, l'accesso attivo ai dati assistito dai metadati. Diversi concetti alla base dell'offerta di mercato di strumenti informatici appaiono naturalmente orientati alla soluzione dei problemi elencati, si pensi in particolare all'approccio OLAP. Compito della ricerca sui SIS è anche valutare l'effettiva adattabilità di tali strumenti alle esigenze illustrate. E' importante segnalare anzitutto un primo elemento di divergenza tra il paradigma alla base del concetto di SIS e quello implicitamente assunto dagli strumenti di mercato. Questi ultimi trattano l'informazione come risorsa di un'organizzazione specifica, spesso, più specificamente, di un'impresa: obiettivo della gestione di informazione, come componente dei processi produttivi o in funzione di supporto alle decisioni, è comunque il funzionamento dell'organizzazione. Il punto di vista implicito nei SIS è più generale e astratto: l'informazione è un potenziale per l'analisi di fenomeni del mondo reale, ottenuto da processi di osservazione diretta di tali fenomeni. Nel caso dei sistemi informativi statistici pubblici, il rapporto con l'organizzazione è capovolto: le organizzazioni produttrici sono anzitutto strumenti per costituire basi di conoscenza di uso pubblico, sfruttando risorse diverse, tra le quali l'informazione stessa, che è quindi per esse al tempo stesso risorsa produttiva e prodotto. Per valutare come questa differenza di paradigma influenzi le possibili scelte tecnologiche, conviene esaminare le modalità di utilizzo delle tecnologie informatiche nei processi di produzione e sfruttamento dell'informazione statistica, distinguendo essenzialmente due momenti: il periodo dello sviluppo della ricerca in ambito database e della correlata diffusione di queste tecnologie, e i più recenti sviluppi basati sul paradigma OLAP. È con lo sviluppo delle tecnologie database che si afferma per la prima volta l'esigenza di analizzare e modellare il contesto d'uso della tecnologia informatica. La diffusione dei sistemi di gestione di database è accompagnata da una forte enfasi sulla razionalizzazione dei flussi informativi all'interno di un'organizzazione, razionalizzazione resa possibile dalla gestione integrata dell'informazione che tali tecnologie consentono e al tempo stesso condizione per la loro efficace applicazione. Per consentire una progettazione ottimale delle applicazioni database si introduce il passo di progettazione concettuale, nel quale i flussi informativi che si intende gestire vengono descritti utilizzando concetti propri dell'organizzazione. Per produrre tale rappresentazione standardizzata dei concetti rilevanti per l'organizzazione, sulla quale si basa la progettazione della struttura e delle funzioni del database, vengono proposti dalla ricerca specifici metodologie e modelli, dei quali il più largamente utilizzato è il modello Entità-Relazione. In quest'ambito vengono per la prima volta prese in considerazione alcune caratteristiche peculiari delle applicazioni statistiche: cresce un'area di ricerca specifica, quella sui database statistici, nella quale si affrontano problemi diversi, dalla corretta modellazione della semantica dei dati aggregati alle tecniche di compressione fisica dei dati. In particolare, si individua come specifica delle applicazioni statistiche la manipolazione di una particolare tipologia di dati, i dati aggregati o di sommario, si riconoscono a questi dati semantica e modalità di elaborazione distinte rispetto ai dati costituiti da collezioni di istanze individuali, per i quali sono stati primariamente sviluppati i modelli di rappresentazione concettuale e logica dei dati più largamente diffusi. Fino agli inizi degli anni '90 la ricerca e le applicazioni in ambito database sono orientate a garantire la gestione ottimale dell'informazione direttamente impiegata dalle organizzazioni come risorsa nell'ambito delle procedure produttive. Un rilevante mutamento di prospettiva si ha con l'emergere di approcci basati su concetti OLAP e Data Warehousing. L'articolo di Codd (Codd, 1990) afferma per primo l'esigenza di fornire adeguato supporto all'utilizzo dell'informazione prodotta all'interno di un'organizzazione per scopi di analisi dell'organizzazione stessa e della sua realtà d'interesse, in funzione di supporto alle decisioni. Con il termine OLAP (On Line Analytical Processing) si indica tale utilizzo analitico dell'informazione, denotando come OLTP (On Line Transaction Processing) le tradizionali attività di utilizzo dell'informazione in funzione direttamente produttiva. È evidente la possibilità di convergenza, nelle tematiche e negli strumenti, tra questo nuovo approccio e il punto di vista proprio degli statistici. Come è noto, si riconnette a questo filone lo studio delle tecniche di data mining. Preoccupazioni tradizionali degli statistici, riguardanti ad esempio la qualità dell'informazione gestita, vengono riscoperte nell'area di ricerca OLAP/Data Warehousing, sia pure con diversa impostazione. Eppure c'è un limite alla sfruttabilità, per la realizzazione di SIS, degli approcci proposti dalla ricerca in ambito OLAP/Data Warehousing, così come degli strumenti diffusi sul mercato che a quest'approccio si richiamano, limite dovuto alla diversità di molti dei paradigmi fondamentali. Si pensi per prima cosa al significato statistico del concetto di fonte d'informazione. Per lo statistico ogni processo di osservazione, quindi ogni attività di produzione di informazione, è affetto da errore, ogni informazione su caratteristiche quantitative e qualitative di oggetti del mondo reale ha associato un grado di affidabilità dipendente dal processo d'osservazione, che può essere limitato ma non eliminato. Una fonte è tale in quanto corrisponde ad uno specifico processo di osservazione, e comporta quindi uno specifico grado di affidabilità associato alle informazioni fornite. Quanto detto è valido anche per le fonti amministrative gestite nei SIS, ed in generale per le basi informative acquisite da particolari organizzazioni, anche se la metodologia statistica oggi non offre ancora criteri di caratterizzazione dei processi di osservazione e delle componenti di errore associati a tali fonti comparabili a quelli con i quali si caratterizzano le indagini. Alla base della ricerca in ambito database c'è invece una nozione "ingenua" di informazione ed una definizione della qualità dell'informazione largamente ispirata a criteri operativi, perlopiù espressi in termini di violazione di constraints. Il paradigma alla base delle metodologie statistiche è evidentemente meglio fondato dal punto di vista dell'utilizzo dell'informazione per scopi analitici, e dovrebbe essere tenuto in considerazione nel contesto dell'approccio OLAP. Ci sono rilevanti conseguenze pratiche di questo stato delle cose. Anzitutto, se in generale ogni dato è qualificato dalla sua provenienza da una specifica fonte, la metainformazione descrittiva di ogni specifica fonte è essenziale per fare un uso corretto del dato. Inoltre, l'integrazione fisica dei dati di fonte diversa corrispondenti ad uno stesso concetto, soluzione che viene spesso praticata nei sistemi di data warehouse, è in generale sbagliata per lo statistico, quando non sia ottenuta attraverso l'applicazione di specifiche tecniche di linkage, le quali producono informazioni diversamente caratterizzate rispetto a quelle di partenza, e associabili ad una nuova fonte sui generis. Un altro punto di divergenza riguarda il carattere multifonte e l'elevata dinamicità dei SIS. Questa deriva dal carattere esplorativo dell'attività di analisi di fenomeni del mondo reale, alla quale è connaturata una sottoattività consistente nella ricerca dell'informazione più adeguata tra quelle fornite da più fonti, e l'esigenza di utilizzo congiunto di fonti diverse. Se una base di dati a supporto dell'analisi è quindi tipicamente costituita di più fonti eterogenee, si deve assumere in generale che l'utente non padroneggi il contenuto della base di dati stessa. Ne deriva la necessità che la formulazione delle query da parte dell'utente sia accompagnata e guidata da una rilevante attività di trasferimento di conoscenza dalla base di metadati del sistema all'utente: l'interrogazione si comporrà di passi di interrogazione dei metadati e di passi di interrogazione dei dati. Occorrerebbe perciò chiarire e formalizzare le implicazioni di un procedimento incrementale di formulazione della query, basato sull'interazione utente-sistema. Gran parte della ricerca accademica in ambito OLAP/Data Warehousing appare invece orientata verso lo sviluppo di linguaggi utente dichiarativi, e verso l'incorporazione nei sistemi OLAP di meccanismi inferenziali, finalizzati all'ottimizzazione di query e aggiornamenti, orientamenti che sembrano basati su una visione più tradizionale delle procedure di formulazione delle query. In realtà, l'approccio OLAP/Data Warehousing, particolarmente nella versione alla base della maggior parte dei prodotti di mercato, assume implicitamente un contesto analitico molto specifico e delimitato, nel quale l'utenza è interna ad una particolare organizzazione, formula le proprie query sulla base della propria conoscenza dell'organizzazione in cui opera ed ha esigenze analitiche delimitabili a priori. In questo caso non si evidenziano in pratica le esigenze cui si è accennato: si tratta però di un caso limite, in cui l'uso analitico dell'informazione poco si discosta dal suo utilizzo direttamente produttivo, e probabilmente anche di un caso relativamente infrequente; è difficile pensare infatti che, ad esempio, una multinazionale non costituisca, a supporto delle proprie decisioni strategiche, un pool di analisti "di mestiere", utenti di SIS di complessità paragonabile a quella dei SIS pubblici. Di questa sovrasemplificazione del contesto d'uso delle tecnologie OLAP risente anche il modello utilizzato per la rappresentazione dei dati e la comunicazione utente-sistema, basato sui concetti di "tabella dei fatti" e "dimensione", inadeguato a convogliare all'utente descrizioni dei dati dell'accuratezza necessaria a impostare manipolazioni significative. Alla luce delle precedenti considerazioni, i principali vantaggi attualmente offerti dai sistemi OLAP sul mercato sembrano puramente tecnologici e analoghi a quelli di molti query tools: consentire la rapida produzione di reports dinamici e con caratteristiche di attraente presentazione dei dati. 4. Considerazioni critiche e sviluppi futuri. L'esperienza SIU e le riflessioni ad essa connesse suggeriscono considerazioni critiche relative sia alle tecnologie da sviluppare per la realizzazione di SIS sia alle metodologie per la progettazione di SIS intesi come basi di conoscenza, idealmente indirizzabili alle due diverse comunità degli informatici e degli statistici. Per ciò che riguarda il primo aspetto, lo sviluppo di sistemi informativi autenticamente capaci di fornire strumenti per l'estrazione di informazione da usare a scopo di analisi di fenomeni del mondo reale sembra un obiettivo non solo ancora lontano, ma anche tuttora non ben indagato nelle sue implicazioni. Appare importante che la ricerca informatica si interroghi sui fondamenti dell'attività di analisi dei fenomeni, assumendo i paradigmi alla base delle metodologie statistiche e analizzando accuratamente le effettive esigenze degli analisti. D'altra parte, va segnalata un'altra esigenza fondamentale, e cioè l'urgenza di adattare le metodologie statistiche, tradizionalmente orientate alla progettazione di indagini, alle esigenze di realizzazione di SIS. Mentre per le metodologie di analisi concettuale e descrizione degli oggetti del mondo reale osservati e delle loro relazioni molto lavoro è stato fatto, anche nell'ambito della statistica ufficiale, per adattare ed estendere metodologie e modelli di provenienza informatica, non si hanno metodologie consolidate a supporto della decisione circa gli aspetti da osservare e la struttura delle fonti, che è l'aspetto centrale dell'attività di progettazione dei SIS come basi di conoscenza. Va osservato come lo sforzo di riadattamento perché l’apparato statistico-metodologico utilizzabile nella progettazione di indagini possa risultare utile nella fase di progettazione di un SIS sia ben maggiore di quello richiesto dalla definizione di metodologie descrittive di concetti. La qualità di un sistema informativo e il giudizio sulla sua “bontà di adattamento” agli obiettivi dipende quindi tuttora fortemente dalla sensibilità dei ricercatori e degli esperti del settore e, in assenza di opportune metodologie statistiche a supporto, la progettazione dei SIS rimane ancora oggi un prodotto artigianale, fortemente dipendente dalla qualità della ricerca e dell'esperienza acquisita nei singoli settori. Presso l'ISTAT è in corso da tempo tanto una riflessione sull'adattabilità degli approcci metodologici e degli strumenti offerti dalla ricerca informatica alla realizzazione di SIS, quanto un'attività di valutazione delle tecnologie, attualmente in particolare degli strumenti OLAP offerti dal mercato. In crescita sono anche le esperienze di realizzazione di SIS. Per ciò che riguarda in particolare gli sviluppi dell'esperienza SIUDATA, è attualmente in fase di progettazione una nuova versione del sistema di accesso ai dati guidato dai metadati, arricchita nelle funzionalità e migliorata nelle interfacce, e basata su un'analisi e una concettualizzazione più rigorosa degli oggetti trattati e delle loro modalità di manipolazione. L’obiettivo è sviluppare un sistema di navigazione guidata dai metadati per SIS multifonte, utilizzabile per l’accesso ad un'ampia classe di SIS. L'attenzione alle tematiche più prettamente statistiche connesse alla progettazione di SIS è relativamente più recente e riguarda per ora la formalizzazione delle tecniche di linkage e lo studio di approcci all'analisi dei fenomeni basati sull'uso congiunto di fonti diverse. Lo studio di metodologie a supporto della progettazione di SIS costituisce un ambito di ricerca ancora relativamente indefinito. Una accresciuta consapevolezza della centralità di quest'ambito di ricerca e la collaborazione tra ricercatori di diversa provenienza appaiono indispensabili per garantire un impegno effettivo in questo campo. Riferimenti bibliografici Codd, E. F. (1990) Providing OLAP to user-analysts: an IT mandate, Technical Report, Codd and Associates ONU-ECE (1995)- Guidelines for the modelling of Statistical Data and Metadata Kimball, R. (1996) The data warehouse toolkit, J. Wiley&Sons M. Jarke, M. Lenzerini, V. Vassiliou, P. Vassiliadis (2000), Fundamentals of Data Warehouses, Springer A. Shoshani, (1996) Statistical databases and OLAP: similarities and differences, Proc. International Conference on on Information ad Knowledge Management B. Sundgren, (1991) Some properties of statistical information: Pragmatic, Semantic and Syntactis”, Statistics Sweden