L`esperienza SIU - UniFI

Concetti e tecnologie nei Sistemi Informativi
Statistici: l'esperienza SIU
Concepts and Technologies for SIS: the SIU Experience
Giovanna D’Angiolini, Aurea Micali
Istituto Nazionale di Statistica, V C.Balbo 16, Roma -ITALY
Abstract: The paper concerns the design and implementation of the multi-source
statistical information system SIU, aimed at monitoring and analysing the italian
education system. Moreover, it presents general remarks about the nature of statistical
information systems (SIS), and the adaptability of the existing information management
technologies to SIS user requirements.
Parole chiave: education, statistical information system, database, OLAP
1. Introduzione.
Le prime tecnologie informatiche potevano considerarsi meri strumenti di
manipolazione fisica dei dati, finalizzati alla sostituzione di lavoro umano o di
tecnologie meno efficienti. Dallo sviluppo delle tecnologie database in poi si afferma la
tendenza al diffondersi di nuovi approcci concettuali e organizzativi strettamente
connessi alle nuove tecniche via via proposte per il trattamento dell'informazione, e di
conseguenza la necessità che l'adozione di una nuova tecnica sia accompagnata e
assecondata da modifiche culturali e organizzative nel contesto d'uso. Una conferma
viene dalla recente larga diffusione dei concetti OLAP e Data Warehousing,
indispensabile per veicolare l'inserimento nei contesti produttivi di strumenti che ad essi
si ispirano. Per le organizzazioni produttrici di informazione statistica, in quanto utenti
di tecnologie informatiche, è allora sempre più importante esplicitare una visione
articolata delle proprie attività ed esigenze, in modo da valutare l'adattabilità delle
soluzioni proposte al contesto della produzione ed uso di dati statistici.
Al tempo stesso, tali organizzazioni assistono ad una ridefinizione del ruolo ad esse
assegnato. Man mano che si diffonde l'esigenza di tenere sotto controllo vasti ambiti di
fenomeni socio-economici ai fini della valutazione dell'azione di governo, cresce la
richiesta di costituzione e manutenzione di SIS pubblici: estese collezioni di dati relativi
all'ambito di fenomeni sotto osservazione, provenienti da varie fonti e suscettibili di usi
diversi e non prevedibili, da parte di un'utenza diversificata. Questo implica un
crescente impegno nella ricerca e applicazione di metodologie specifiche, e rafforza
l'esigenza di un'aumentata consapevolezza delle possibilità e dei limiti delle tecnologie
esistenti.
Nel presente lavoro viene descritta un'esperienza particolarmente significativa in questo
quadro, la progettazione e realizzazione del Sistema Informativo Universitario (SIU), e
del suo database, SIU-DATA. Vengono sviluppate alcune considerazioni volte a
generalizzare il contenuto di tale esperienza, segnalando i principali problemi
metodologici ancora aperti, con particolare attenzione al ruolo degli approcci
concettuali e metodologici di provenienza informatica.
2. L'esperienza SIU.
Nel corso degli ultimi anni, le indagini Istat sulla istruzione/formazione sono state
sottoposte ad un profondo processo di ristrutturazione.
Per quanto riguarda l’istruzione superiore, uno stimolo particolare è venuto all’Istat
dalla stipula di una convenzione con il Ministero dell’università e della ricerca
scientifica. La convenzione, ormai conclusa, prevedeva la messa a punto di un “Sistema
Informativo Universitario orientato alla valutazione” (SIU), che potesse consentire al
MURST un monitoraggio attento del settore, in un momento in cui l’autonomia
didattica e finanziaria degli atenei costituisce una spinta forte al frastagliamento del
sistema, tanto in termini organizzativi che informativi.
Il piano operativo che accompagnava la convenzione MURST-Istat può essere riassunto
in tre macrofasi:
1. individuazione del fabbisogno informativo;
2. reperimento dei dati non disponibili;
3. sviluppo degli indicatori derivabili.
Al momento della stipula della convenzione non tutto il fabbisogno informativo
individuato nella prima fase risultava soddisfatto, l’Istat ha quindi rivisitato il
patrimonio di dati a disposizione, preoccupandosi di integrarlo, là dove necessario, allo
scopo di offrire informazioni cogenti ed integrate. Il processo ha portato ad un migliore
sfruttamento degli archivi gestionali già disponibili presso il MURST, alla
ristrutturazione di alcune indagini, al varo di nuove e alla soppressione di altre.
Tra le scelte di fondo che hanno guidato lo sviluppo del sistema vale la pena di
menzionarne due. La prima riguarda il suo livello di fruibilità. Si è tentato di rendere il
SIU il più possibile utile per i diversi livelli decisionali cosicché il sistema - seppure
prevalentemente orientato ai decisori a livello centrale (Istat, MURST, CRUI,
Osservatorio per la valutazione dell'università) - risulta fruibile anche a diversi livelli
territoriali o istituzionali, non ultimi i singoli Atenei. La seconda è relativa al livello di
elaborazione delle informazioni. Il sistema assicura dati elementari e un primo set di
indicatori descrittivi.
La terza delle macrofasi in cui più sopra è stata sintetizzata la convenzione prevedeva
che fosse la stessa Istat ad individuare gli indicatori idonei al monitoraggio del settore;
alcune novità istituzionali hanno però sconsigliato di procedere in questa direzione: la
forte dinamicità normativa del sistema universitario, insieme all’insediamento di un
organismo preposto alla valutazione del settore (l’Osservatorio per la valutazione del
sistema universitario) hanno fatto sì che l’Istat, anziché individuare esso stesso gli
indicatori utili per tenere sotto controllo lo stato e l’evoluzione dell’università, optasse
piuttosto per la messa a punto di un sistema sufficientemente flessibile di distribuzione
dei dati, sotto forma di database, in modo da consentire al Ministero stesso di ottenere
gli indicatori che di volta in volta si rivelassero utili per una corretta comprensione dello
sviluppo del sistema.
Nella progettazione del sistema, quindi, l’attenzione si è sempre più spostata verso i
problemi di integrazione dei diversi sottoinsiemi di informazioni, perché fosse garantita
la possibilità di “interrogare” il SIU in modo da far fronte ad esigenze in divenire, non
sempre precisabili a priori.
2.1 Il database SIU: contenuto e requisiti.
L’ampiezza degli obiettivi e quindi delle fonti e delle variabili necessarie al sistema
informativo ha consigliato di organizzare il lavoro per temi. Sono stati definiti sei
sottosistemi:
 Studenti
 Personale
 Finanze
 Ricerca
 Edilizia
 Contesto.
Il campo di osservazione del SIU si estende quindi oltre i confini del sistema
universitario stesso. Ciascuno dei sei sottosistemi viene infatti alimentato tanto da dati
provenienti dagli Atenei, quanto da dati provenienti da indagini ad hoc sugli individui
(l’indagine sugli sbocchi professionali dei laureati, le spese sostenute dalle famiglie per
la formazione, etc.).
I dati di fonte amministrativa, che erano di più immediato interesse per l’attività di
indirizzo e di coordinamento che il ministero svolge nei confronti delle diverse unità
organizzative (Atenei, Dipartimenti, etc.) sono confluiti quasi interamente nel database
che l’Istat ha messo a punto, così come i dati di “Contesto”1; mentre ci si è riservati di
inserire i dati derivanti dalle indagini sugli individui in un secondo momento.
Il SIU è un sistema multifonte, così come il database che lo accompagna (SIU-DATA).
Questo è stato concepito come uno strumento per consentire al MURST di ricavare
facilmente dati e indicatori che di volta in volta si rivelino utili per una corretta
comprensione dello sviluppo del sistema. SIU-DATA attualmente gestisce:
 La serie storica relativa agli ultimi dieci anni dei dati provenienti dall’indagine sui
corsi di diploma
 La serie storica relativa agli ultimi dieci anni dei dati provenienti dall’indagine sui
corsi di laurea
 La serie storica relativa agli ultimi dieci anni di dati sul personale di fonte CINECA
 I dati sui docenti a contratto (indagine MURST)
 I dati demografici relativi alla popolazione residente
 I dati provenienti dall’indagine sulle scuole superiori
 I dati provenienti dall’indagine sulle Forze di Lavoro
 I dati provenienti dall'indagine sui bilanci universitari
 I dati provenienti dall'indagine sugli enti per il diritto allo studio.
Grazie alle caratteristiche di flessibilità con cui è stato progettato, il database può essere
agevolmente esteso con l’aggiunta di nuove indagini o altre fonti di dati, man mano che
se ne ravvisi l'opportunità.
Obiettivo della progettazione del database SIU è stato rendere disponibili un insieme di
funzionalità di supporto alle attività di ricerca, accesso ed elaborazione
dell’informazione d’interesse effettivamente adeguato alle esigenze di un'utenza
1
Del sottosistema “Contesto” fa parte una notevole massa di dati di cui l’Istituto dispone, non
specificatamente mirate all’istruzione superiore, ma che pure necessitano per chiarire il quadro dei vincoli
e delle opportunità esterne in cui questa si situa: i dati sulla struttura della popolazione per titolo di studio,
sull’occupazione per zona geografica e settore, i tassi di disoccupazione per classe di età, sui maturi per
provincia, sulla popolazione per età, etc.
statistica. Lo strumento informatico con il quale si offre l'accesso ai dati gestiti nei SIS
pubblici deve garantire agli utilizzatori la massima flessibilità d'uso, senza
compromettere l'estendibilità dei giacimenti informativi gestiti, e la loro integrabilità
con altri giacimenti informativi. Infatti i SIS pubblici tendono ad essere estesi nel
tempo, con l'aggiunta di nuovi dati e nuove fonti o attraverso l'integrazione con sistemi
informativi complementari, per soddisfare esigenze informative sempre più articolate e
spesso non prevedibili. Sono queste le principali considerazioni che hanno guidato la
progettazione di SIU-DATA.
SIU-DATA offre diverse funzioni di manipolazione dei dati, che consentono agli utenti
l'estrazione in tempo reale della propria informazione d'interesse dall'insieme dei dati
gestiti nel database, analogamente alle funzionalità offerte dai sistemi
OLAP/Datawarehousing oggi sul mercato. A differenza di tali sistemi, SIU-DATA
guida l'utente alla specifica delle proprie elaborazioni attraverso un'interfaccia la quale
presenta descrizioni dei dati manipolabili e delle loro relazioni modellate utilizzando
concetti statistici quali variabile, classificazione, unità di analisi.
L'eterogeneità delle fonti di informazione implica poi due esigenze specifiche.
Anzitutto, è necessario porre a disposizione dell'utente la necessaria documentazione del
contenuto informativo del sistema, sotto forma di metadati2, in modo da consentire una
corretta interpretazione dei dati estratti. Il database SIU attualmente offre, a corredo dei
dati, note e definizioni delle loro componenti, ma soprattutto è stato progettato in modo
da consentire la futura integrazione con i sistemi di documentazione che gestiranno i
metadati descrittivi delle indagini e dei SIS prodotti dall'Istituto. Tali sistemi offriranno
anche funzionalità di supporto all'integrazione tra indagini e tra SIS, ciò che renderà più
agevole l'estensione del SIU con nuove fonti di dati, anche attraverso l'integrazione con
altri sistemi informativi.
La seconda esigenza riguarda la necessità di guidare utenti non esperti del contenuto del
database nell'accesso al database e nella selezione dei dati d'interesse. Ciò si ottiene
dotando il sistema di funzioni per l'accesso ai dati attraverso i metadati, le quali
consentono all'utente di accedere in modo mirato alle fonti e ai dati gestiti, descrivendo
al sistema i propri dati d'interesse in termini di metadati. SIU-DATA incorpora
attualmente una prima funzionalità di questo tipo.
SIU-DATA è organizzato attorno ad una base di metadati, nella quale sono
rappresentate opportune definizioni dei dati in termini delle loro componenti (Unità
d'analisi osservata, Variabili, Classificazioni) e delle loro relazioni con gli altri dati. In
questo modo si garantisce l'estendibilità del database: nuovi dati possono essere
acceduti e manipolati attraverso le funzionalità esistenti, purché adeguatamente descritti
nella base di metadati. L'utente vede e manipola i nuovi dati appena essi sono inseriti
nel sistema.
Inoltre, la struttura dei metadati del database SIU obbliga ad una rappresentazione
standardizzata del contenuto informativo delle diverse fonti, analogamente ai sistemi
Nelle “Guidelines for the Modeling of Statistical Data and Metadata “ (diffuse a cura della Conference
of European Statisticians, 1995) è fornita la seguente definizione dei metadati:
“I metadati statistici sono dati necessari per la produzione e l’utilizzo appropriati dei dati statistici. Essi
descrivono i dati statistici e -in una certa misura- i processi e gli strumenti coinvolti nella produzione e
nell’utilizzo dei dati statistici. In breve, i metadati statistici sono dati sui dati statistici.”. Rientrano tra i
metadati statistici tutte le informazioni relative al contenuto informativo delle indagini e alle
caratteristiche dell’indagine come processo di osservazione. Analoghe classi di metadati possono essere
individuate per descrivere le fonti d’informazione diverse dalle indagini.
2
dedicati alla documentazione. In essa, i dati sono descritti in termini di insiemi di
componenti elementari condivise da fonti e da dati di base diversi: la specifica delle
variabili associate ad un dato di base, ad esempio, si ottiene connettendo la descrizione
del dato di base a una o più descrizioni di variabili elencate in un apposito repertorio
standardizzato. Questa caratteristica, oltre a garantire la futura integrazione con i sistemi
di documentazione, ha permesso di realizzare la funzionalità di accesso ai dati
attraverso i metadati. Infine va osservato che le tipologie di dati rappresentate, o che
dovranno essere rappresentate, nel database di SIU-DATA sono molteplici: si va dai
dati individuali provenienti da indagini campionarie come quella sui laureati, ad archivi
come l'archivio dei corsi di laurea, a dati a livelli intermedi di aggregazione, perlopiù
ottenuti dalle indagini amministrative, come "studenti dei corsi di laurea per sesso e
anno", a macrodati e indicatori ottenuti da elaborazioni sui dati di base delle diverse
fonti. Di conseguenza, la progettazione della base di metadati ha richiesto la definizione
di uno specifico modello concettuale per la descrizione delle diverse tipologie di dati in
termini dei concetti primitivi utilizzati dagli statistici: unità d'analisi, variabili,
classificazioni.
2.2 Il database SIU: gli ambienti.
Il database prevede accessi separati per due grandi classi di dati: dati di base,
provenienti da ciascuna delle fonti elencate, e indicatori, ottenuti attraverso elaborazioni
su uno o più dati di base.
Sono state implementate tre modalità di accesso al sistema: l'accesso diretto ai dati di
base, l'accesso ai dati di base attraverso i metadati, l'accesso agli indicatori.
Accesso diretto ai dati di base. Un'apposita maschera guida l’utente alla selezione del
dato di base attraverso la scelta di una fonte. Effettuata la scelta di un dato di base, il
sistema mette a disposizione dell’utente, in un’unica maschera, le funzionalità offerte
dalla componente principale del sistema, il Navigatore dei dati. Queste consentono di
scegliere un insieme di variabili di disaggregazione d’interesse, e/o di estrarre il dato di
dettaglio relativo a specifiche modalità di opportune variabili, o a specifici elementi di
un universo osservato. Il Navigatore guida l’utente alla specifica delle proprie
manipolazioni presentando liste di variabili e classificazioni associate al dato prescelto,
corredate di note e definizioni. Il Navigatore presenta all'utente, per ogni dato di base,
non solo le variabili ad esso direttamente collegate, ma anche quelle ad esso riferibili, in
quanto appartenenti a dati di base direttamente o indirettamente connessi al dato di base
in considerazione. Per fare ciò, sfrutta le relazioni tra dati rappresentate nella base di
metadati. Ad esempio, un utente può essere interessato a disaggregare il dato relativo
agli studenti iscritti ai corsi di laurea, distinguendo tra atenei pubblici e privati. La
variabile relativa allo stato giuridico degli atenei non è direttamente connessa al dato
relativo agli studenti iscritti, in quanto riguarda gli atenei. Il Navigatore la rende
ugualmente disponibile per la manipolazione del dato relativo agli studenti iscritti,
sfruttando i legami esistenti tra i diversi dati di base, documentati a livello di metadati
(Studenti iscritti ai corsi di Laurea – Corsi di Laurea – Facoltà – Atenei). Il Navigatore
permette quindi all’utente di costruire online le proprie interrogazioni mediante la
navigazione guidata tra i dati, partendo da qualsiasi dato di base.
I dati risultato delle elaborazioni possono poi essere visualizzati, stampati, o esportati
per successive elaborazioni, in file a formato fisso, oppure in formato Excel o Access.
Accesso ai dati di base attraverso i metadati. La maschera di accesso ai dati attraverso i
metadati guida l'utente alla scelta di unità d'analisi e variabili di proprio interesse, tra
quelle gestite nel database, permettendo poi la selezione di un dato di base tra quelli
riferiti all'unità d'analisi e alle variabili specificate. All'utente che sceglie questa
modalità di accesso al sistema, il sistema presenta liste delle unità di analisi e delle
variabili associate ai dati gestiti. Le unità d'analisi sono presentate all'utente tenendo
conto delle gerarchie di sottoinsieme che le legano: scegliendo ad esempio "persona", si
può poi scegliere tra i sottoinsiemi di "persona", quali "studente" o "docente". Se
l'utente ha scelto un'unità d'analisi, gli è offerta la scelta tra le sole variabili associate
alla data unità d'analisi, ad esempio, con riferimento a "studente", "sesso" o "iscrizione
in corso/fuori corso". L'utente può effettuare la scelta di un'unità d'analisi e/o di una o
più variabili di proprio interesse, ottenendo in risposta la lista dei dati di base riferiti alle
componenti selezionate. Scegliendo, ad esempio, la variabile "Sesso", il sistema
presenta l'elenco di tutti i dati di base associati a tale variabile, tali cioè da poter essere
disaggregati o selezionati per sesso. Scegliendo poi un dato di base tra quelli proposti,
l'utente ha infine accesso al Navigatore, che gli consente la manipolazione e la
successiva visualizzazione del dato prescelto. Non si tratta quindi di una semplice
interrogazione per parole-chiave, ma di una navigazione guidata attraverso legami
concettuali tra i concetti componenti i dati di base, che sfrutta la rappresentazione di tali
legami nella base dei metadati.
L'accesso agli indicatori. L'utente è guidato alla scelta di un indicatore d'interesse
attraverso la scelta di un argomento. Una volta scelto un indicatore, ha disponibili le
funzionalità offerte dal Navigatore: può disaggregare gli indicatori per specifiche
variabili, o osservare gli indicatori su un dettaglio specifico, ad es. su una specifica
università invece che sull’intero universo osservato.
3. Alla base dell'esperienza SIU: paradigmi, considerazioni di metodo,
valutazione delle tecnologie.
Lo sviluppo di metodologie per la progettazione di SIS pubblici è necessariamente
fondato su un'attenta esplicazione ed analisi dei contenuti del concetto di SIS, condotta
dal punto di vista degli statistici, che consenta di enucleare i paradigmi impliciti in tale
punto di vista. Tale analisi fornisce anche il quadro concettuale di riferimento per
valutare l'effettiva adattabilità di metodi e tecniche di provenienza informatica al
contesto dei SIS.
3.1 I sistemi informativi statistici dal punto di vista dello statistico.
Per gli statistici un sistema informativo statistico (SIS) è un insieme coerente e integrato
di fonti d’informazione, indagini o archivi amministrativi, costituito ai fini dello studio
di una particolare classe di fenomeni.
Quella di SIS non è quindi una nozione tecnologica, ma un concetto che generalizza il
concetto di indagine o in generale di fonte d'informazione: una fonte può essere
descritta come una raccolta di informazioni ottenute attraverso specifiche procedure di
osservazione e misura, un SIS è una base di conoscenza costituita di un insieme
coerente e integrato di fonti così intese. Coerenza, completezza e integrazione
costituiscono la differenza tra un SIS e una raccolta qualsiasi di fonti.
L'integrazione è talvolta riduttivamente intesa come un requisito di manipolabilità
fisica, ciò come possibilità di elaborare aggregati o indicatori sfruttando più fonti: la
possibilità di utilizzo congiunto dei dati dipende però dal loro significato, e perciò
presuppone l'integrazione concettuale3 tra le fonti. Un SIS non si ottiene semplicemente
riunendo dati di fonte diversa in un'unica base di dati, ma come risultato di una specifica
attività di progettazione, la quale include la progettazione e riprogettazione delle singole
indagini componenti in un'ottica di sistema, attraverso la definizione, o ridefinizione del
loro contenuto informativo (aspetti del mondo reale osservati, dati di base, aggregati e
indicatori prodotti) e delle modalità di osservazione, ed include un'attività di
integrazione concettuale tra le fonti, e, quando significativo, di integrazione fisica
attraverso la riprogettazione delle singole fonti o l'uso di tecniche di linkage. È con
l'attività di progettazione, in particolare di integrazione, che viene definita la
componente che caratterizza un SIS rispetto ad una collezione qualsiasi di fonti, e cioè
la struttura dei metadati. Un SIS è una base di conoscenza composta di dati descritti da
metadati.
A questo concetto di SIS come base di conoscenza, che è proprio degli statistici, si
affianca nell'uso corrente una nozione organizzativo-tecnologica di SIS, utilizzata per
descrivere qualsiasi sistema concreto di trattamento e gestione di dati statistici,
generalmente, anche se non necessariamente, realizzato con tecnologie informatiche: da
un punto di vista organizzativo e tecnologico, l'insieme delle pubblicazioni Istat è un
sistema informativo statistico, così come l'insieme delle basi dati di diffusione. È perciò
necessario distinguere tra sistemi informativi statistici visti come organizzazione di
conoscenze e sistemi informativi statistici visti come organizzazione di risorse. Esiste
una relazione precisa tra le due nozioni: ogni sistema informativo statistico è prima di
tutto concepito come base di conoscenza, ma è in pratica realizzato attraverso sistemi
che organizzano risorse concrete, in particolare informatiche, per rendere possibili le
attività di manutenzione e sfruttamento della base di conoscenza. Ne consegue che la
progettazione di un sistema informativo statistico va vista come un'attività
concettualmente articolata in due fasi: la progettazione del sistema come sistema
coerente e integrato di fonti, e la progettazione dei sistemi di supporto alla gestione e
all'uso dei dati che concretamente lo realizzano. Ne deriva anche la priorità concettuale
della progettazione del sistema informativo come sistema di fonti: è in questa fase della
progettazione che si determina la conformità dell'informazione che si prevede di offrire
alle esigenze degli analisti del fenomeno, e quindi il livello del servizio informativo
offerto all'utenza.
La progettazione del SIU ha tenuto conto di tale priorità concettuale. Il progetto infatti
prevedeva espressamente che l’Istat: “individuasse il fabbisogno informativo”
necessario al monitoraggio del settore e mettesse a punto le strategie di rilevazione
idonee per i diversi segmenti informativi, in modo che ne fosse sempre garantita la
coerenza e la sufficienza.
In questo senso, la macrofase della convenzione che prevedeva “lo sviluppo degli
indicatori derivabili” dai dati raccolti ha costituito una guida efficace. La necessità di
prevedere già in fase di progettazione gli indicatori che avrebbero potuto essere utili per
il monitoraggio del settore ha fatto sì che l’integrazione delle diverse fonti non fosse
mai persa di vista, enfatizzando la caratteristica del SIS come sistema per il raccordo
L’integrazione concettuale dei concetti descrittivi dei dati (unità d’analisi, variabili e classificazioni) si
ottiene attraverso il confronto sistematico delle loro definizioni, volto a determinare se tali concetti
coincidono o divergono e, se divergono, quali sono le loro relazioni implicite. Le relazioni tra concetti
enucleate sono poi documentate come metadati.
3
delle conoscenze su un fenomeno, piuttosto che come un bacino in cui convogliare
informazioni diverse, seppure riconducibili ad uno stesso fenomeno.
Il fatto che lo sviluppo di un database non facesse parte degli obiettivi del progetto SIU
ha ulteriormente facilitato questa distinzione impedendo che ci si orientasse
direttamente verso la progettazione di un contenitore unico dei dati, piuttosto che verso
la messa a punto di un insieme integrato di conoscenze.
Lo specifico mandato del progetto ha quindi condotto verso la realizzazione di un SIS
pubblico effettivamente modellato sulle esigenze dell'utenza, anziché, come in molti
casi, verso una razionalizzazione o riorganizzazione a posteriori di dati già esistenti. E'
stata proprio l'originalità dell'esperienza SIU a far emergere come la progettazione dei
sistemi informativi, in particolare nella fase di individuazione dei contenuti informativi,
possa contare su un supporto metodologico ancora molto povero, soprattutto se
confrontato con quello messo a disposizione per lo sviluppo di database intesi come
"contenitori” dei dati.
Al momento dell’impianto di un sistema informativo mirato all’analisi di realtà
complesse nascono in particolare due tipi di problemi: il primo è quello di descrivere il
contenuto del sistema stesso, in termini di definizione e rappresentazione delle
interrelazioni tra aspetti del mondo reale d’interesse, il secondo è quello della scelta
delle variabili con cui “alimentare” il sistema.
Per il primo aspetto, si fa sempre più spesso ricorso a strumenti, come la progettazione
concettuale, mutuati dalla pratica e dalla ricerca in ambito informatico. Un obiettivo
fondamentale della ricerca sui SIS è infatti già oggi l'adattamento di tali strumenti
metodologici al contesto dei SIS.
Per quanto riguarda invece il secondo, e più rilevante aspetto, del “che cosa” deve
entrare a far parte di uno specifico SIS quella stessa ”contaminazione” che è avvenuta
tra progettazione dei SIS e metodologie informatiche non si è invece verificata tra
progettazione dei SIS e metodologie statistiche, in particolare metodi per la
modellizzazione del legame tra variabili. La misura statisticamente fondata della forza
del legame tra le diverse variabili potrebbe invece diventare uno strumento
fondamentale per guidare tanto nella scelta delle variabili con cui costituire i diversi
segmenti del SIS, quanto nel definire i confini stessi del sistema.
3.2 La realizzazione dei sistemi informativi statistici e l'offerta di metodi e
tecnologie informatiche.
È evidente come la riformulazione del prodotto degli Istituti nazionali di statistica in
termini di SIS imponga anche mutamenti nell'organizzazione della produzione di dati.
L'output delle attività produttive confluisce in basi di dati multifonte organizzate attorno
a basi di metadati, accedute e manipolate da un'utenza diversificata, di conseguenza i
processi produttivi associati alle singole fonti sono visti come processi di alimentazione
di tali basi di dati, mentre l'organizzazione tradizionale si articolava in linee produttive
distinte, associate a singole indagini, o gruppi di indagini.
Si aprono problemi nuovi, attualmente oggetto di riflessione, riconducibili a tre grandi
filoni interconnessi: il ruolo e la rappresentazione dei metadati, le relazioni tra sistemi
diversi e l'articolazione metodologica e pratica delle attività di integrazione tra fonti,
l'accesso attivo ai dati assistito dai metadati.
Diversi concetti alla base dell'offerta di mercato di strumenti informatici appaiono
naturalmente orientati alla soluzione dei problemi elencati, si pensi in particolare
all'approccio OLAP. Compito della ricerca sui SIS è anche valutare l'effettiva
adattabilità di tali strumenti alle esigenze illustrate. E' importante segnalare anzitutto un
primo elemento di divergenza tra il paradigma alla base del concetto di SIS e quello
implicitamente assunto dagli strumenti di mercato. Questi ultimi trattano l'informazione
come risorsa di un'organizzazione specifica, spesso, più specificamente, di un'impresa:
obiettivo della gestione di informazione, come componente dei processi produttivi o in
funzione di supporto alle decisioni, è comunque il funzionamento dell'organizzazione. Il
punto di vista implicito nei SIS è più generale e astratto: l'informazione è un potenziale
per l'analisi di fenomeni del mondo reale, ottenuto da processi di osservazione diretta di
tali fenomeni. Nel caso dei sistemi informativi statistici pubblici, il rapporto con
l'organizzazione è capovolto: le organizzazioni produttrici sono anzitutto strumenti per
costituire basi di conoscenza di uso pubblico, sfruttando risorse diverse, tra le quali
l'informazione stessa, che è quindi per esse al tempo stesso risorsa produttiva e prodotto.
Per valutare come questa differenza di paradigma influenzi le possibili scelte
tecnologiche, conviene esaminare le modalità di utilizzo delle tecnologie informatiche
nei processi di produzione e sfruttamento dell'informazione statistica, distinguendo
essenzialmente due momenti: il periodo dello sviluppo della ricerca in ambito database
e della correlata diffusione di queste tecnologie, e i più recenti sviluppi basati sul
paradigma OLAP.
È con lo sviluppo delle tecnologie database che si afferma per la prima volta l'esigenza
di analizzare e modellare il contesto d'uso della tecnologia informatica. La diffusione
dei sistemi di gestione di database è accompagnata da una forte enfasi sulla
razionalizzazione dei flussi informativi all'interno di un'organizzazione,
razionalizzazione resa possibile dalla gestione integrata dell'informazione che tali
tecnologie consentono e al tempo stesso condizione per la loro efficace applicazione.
Per consentire una progettazione ottimale delle applicazioni database si introduce il
passo di progettazione concettuale, nel quale i flussi informativi che si intende gestire
vengono descritti utilizzando concetti propri dell'organizzazione. Per produrre tale
rappresentazione standardizzata dei concetti rilevanti per l'organizzazione, sulla quale si
basa la progettazione della struttura e delle funzioni del database, vengono proposti
dalla ricerca specifici metodologie e modelli, dei quali il più largamente utilizzato è il
modello Entità-Relazione. In quest'ambito vengono per la prima volta prese in
considerazione alcune caratteristiche peculiari delle applicazioni statistiche: cresce
un'area di ricerca specifica, quella sui database statistici, nella quale si affrontano
problemi diversi, dalla corretta modellazione della semantica dei dati aggregati alle
tecniche di compressione fisica dei dati. In particolare, si individua come specifica delle
applicazioni statistiche la manipolazione di una particolare tipologia di dati, i dati
aggregati o di sommario, si riconoscono a questi dati semantica e modalità di
elaborazione distinte rispetto ai dati costituiti da collezioni di istanze individuali, per i
quali sono stati primariamente sviluppati i modelli di rappresentazione concettuale e
logica dei dati più largamente diffusi.
Fino agli inizi degli anni '90 la ricerca e le applicazioni in ambito database sono
orientate a garantire la gestione ottimale dell'informazione direttamente impiegata dalle
organizzazioni come risorsa nell'ambito delle procedure produttive. Un rilevante
mutamento di prospettiva si ha con l'emergere di approcci basati su concetti OLAP e
Data Warehousing. L'articolo di Codd (Codd, 1990) afferma per primo l'esigenza di
fornire adeguato supporto all'utilizzo dell'informazione prodotta all'interno di
un'organizzazione per scopi di analisi dell'organizzazione stessa e della sua realtà
d'interesse, in funzione di supporto alle decisioni. Con il termine OLAP (On Line
Analytical Processing) si indica tale utilizzo analitico dell'informazione, denotando
come OLTP (On Line Transaction Processing) le tradizionali attività di utilizzo
dell'informazione in funzione direttamente produttiva. È evidente la possibilità di
convergenza, nelle tematiche e negli strumenti, tra questo nuovo approccio e il punto di
vista proprio degli statistici. Come è noto, si riconnette a questo filone lo studio delle
tecniche di data mining. Preoccupazioni tradizionali degli statistici, riguardanti ad
esempio la qualità dell'informazione gestita, vengono riscoperte nell'area di ricerca
OLAP/Data Warehousing, sia pure con diversa impostazione. Eppure c'è un limite alla
sfruttabilità, per la realizzazione di SIS, degli approcci proposti dalla ricerca in ambito
OLAP/Data Warehousing, così come degli strumenti diffusi sul mercato che a
quest'approccio si richiamano, limite dovuto alla diversità di molti dei paradigmi
fondamentali.
Si pensi per prima cosa al significato statistico del concetto di fonte d'informazione. Per
lo statistico ogni processo di osservazione, quindi ogni attività di produzione di
informazione, è affetto da errore, ogni informazione su caratteristiche quantitative e
qualitative di oggetti del mondo reale ha associato un grado di affidabilità dipendente
dal processo d'osservazione, che può essere limitato ma non eliminato. Una fonte è tale
in quanto corrisponde ad uno specifico processo di osservazione, e comporta quindi uno
specifico grado di affidabilità associato alle informazioni fornite. Quanto detto è valido
anche per le fonti amministrative gestite nei SIS, ed in generale per le basi informative
acquisite da particolari organizzazioni, anche se la metodologia statistica oggi non offre
ancora criteri di caratterizzazione dei processi di osservazione e delle componenti di
errore associati a tali fonti comparabili a quelli con i quali si caratterizzano le indagini.
Alla base della ricerca in ambito database c'è invece una nozione "ingenua" di
informazione ed una definizione della qualità dell'informazione largamente ispirata a
criteri operativi, perlopiù espressi in termini di violazione di constraints. Il paradigma
alla base delle metodologie statistiche è evidentemente meglio fondato dal punto di vista
dell'utilizzo dell'informazione per scopi analitici, e dovrebbe essere tenuto in
considerazione nel contesto dell'approccio OLAP. Ci sono rilevanti conseguenze
pratiche di questo stato delle cose. Anzitutto, se in generale ogni dato è qualificato dalla
sua provenienza da una specifica fonte, la metainformazione descrittiva di ogni
specifica fonte è essenziale per fare un uso corretto del dato. Inoltre, l'integrazione fisica
dei dati di fonte diversa corrispondenti ad uno stesso concetto, soluzione che viene
spesso praticata nei sistemi di data warehouse, è in generale sbagliata per lo statistico,
quando non sia ottenuta attraverso l'applicazione di specifiche tecniche di linkage, le
quali producono informazioni diversamente caratterizzate rispetto a quelle di partenza, e
associabili ad una nuova fonte sui generis.
Un altro punto di divergenza riguarda il carattere multifonte e l'elevata dinamicità dei
SIS. Questa deriva dal carattere esplorativo dell'attività di analisi di fenomeni del
mondo reale, alla quale è connaturata una sottoattività consistente nella ricerca
dell'informazione più adeguata tra quelle fornite da più fonti, e l'esigenza di utilizzo
congiunto di fonti diverse. Se una base di dati a supporto dell'analisi è quindi
tipicamente costituita di più fonti eterogenee, si deve assumere in generale che l'utente
non padroneggi il contenuto della base di dati stessa. Ne deriva la necessità che la
formulazione delle query da parte dell'utente sia accompagnata e guidata da una
rilevante attività di trasferimento di conoscenza dalla base di metadati del sistema
all'utente: l'interrogazione si comporrà di passi di interrogazione dei metadati e di passi
di interrogazione dei dati. Occorrerebbe perciò chiarire e formalizzare le implicazioni di
un procedimento incrementale di formulazione della query, basato sull'interazione
utente-sistema. Gran parte della ricerca accademica in ambito OLAP/Data Warehousing
appare invece orientata verso lo sviluppo di linguaggi utente dichiarativi, e verso
l'incorporazione nei sistemi OLAP di meccanismi inferenziali, finalizzati
all'ottimizzazione di query e aggiornamenti, orientamenti che sembrano basati su una
visione più tradizionale delle procedure di formulazione delle query.
In realtà, l'approccio OLAP/Data Warehousing, particolarmente nella versione alla base
della maggior parte dei prodotti di mercato, assume implicitamente un contesto analitico
molto specifico e delimitato, nel quale l'utenza è interna ad una particolare
organizzazione, formula le proprie query sulla base della propria conoscenza
dell'organizzazione in cui opera ed ha esigenze analitiche delimitabili a priori. In questo
caso non si evidenziano in pratica le esigenze cui si è accennato: si tratta però di un caso
limite, in cui l'uso analitico dell'informazione poco si discosta dal suo utilizzo
direttamente produttivo, e probabilmente anche di un caso relativamente infrequente; è
difficile pensare infatti che, ad esempio, una multinazionale non costituisca, a supporto
delle proprie decisioni strategiche, un pool di analisti "di mestiere", utenti di SIS di
complessità paragonabile a quella dei SIS pubblici.
Di questa sovrasemplificazione del contesto d'uso delle tecnologie OLAP risente anche
il modello utilizzato per la rappresentazione dei dati e la comunicazione utente-sistema,
basato sui concetti di "tabella dei fatti" e "dimensione", inadeguato a convogliare
all'utente descrizioni dei dati dell'accuratezza necessaria a impostare manipolazioni
significative.
Alla luce delle precedenti considerazioni, i principali vantaggi attualmente offerti dai
sistemi OLAP sul mercato sembrano puramente tecnologici e analoghi a quelli di molti
query tools: consentire la rapida produzione di reports dinamici e con caratteristiche di
attraente presentazione dei dati.
4. Considerazioni critiche e sviluppi futuri.
L'esperienza SIU e le riflessioni ad essa connesse suggeriscono considerazioni critiche
relative sia alle tecnologie da sviluppare per la realizzazione di SIS sia alle metodologie
per la progettazione di SIS intesi come basi di conoscenza, idealmente indirizzabili alle
due diverse comunità degli informatici e degli statistici.
Per ciò che riguarda il primo aspetto, lo sviluppo di sistemi informativi autenticamente
capaci di fornire strumenti per l'estrazione di informazione da usare a scopo di analisi di
fenomeni del mondo reale sembra un obiettivo non solo ancora lontano, ma anche
tuttora non ben indagato nelle sue implicazioni. Appare importante che la ricerca
informatica si interroghi sui fondamenti dell'attività di analisi dei fenomeni, assumendo
i paradigmi alla base delle metodologie statistiche e analizzando accuratamente le
effettive esigenze degli analisti.
D'altra parte, va segnalata un'altra esigenza fondamentale, e cioè l'urgenza di adattare le
metodologie statistiche, tradizionalmente orientate alla progettazione di indagini, alle
esigenze di realizzazione di SIS.
Mentre per le metodologie di analisi concettuale e descrizione degli oggetti del mondo
reale osservati e delle loro relazioni molto lavoro è stato fatto, anche nell'ambito della
statistica ufficiale, per adattare ed estendere metodologie e modelli di provenienza
informatica, non si hanno metodologie consolidate a supporto della decisione circa gli
aspetti da osservare e la struttura delle fonti, che è l'aspetto centrale dell'attività di
progettazione dei SIS come basi di conoscenza. Va osservato come lo sforzo di
riadattamento perché l’apparato statistico-metodologico utilizzabile nella progettazione
di indagini possa risultare utile nella fase di progettazione di un SIS sia ben maggiore di
quello richiesto dalla definizione di metodologie descrittive di concetti.
La qualità di un sistema informativo e il giudizio sulla sua “bontà di adattamento” agli
obiettivi dipende quindi tuttora fortemente dalla sensibilità dei ricercatori e degli esperti
del settore e, in assenza di opportune metodologie statistiche a supporto, la
progettazione dei SIS rimane ancora oggi un prodotto artigianale, fortemente dipendente
dalla qualità della ricerca e dell'esperienza acquisita nei singoli settori.
Presso l'ISTAT è in corso da tempo tanto una riflessione sull'adattabilità degli approcci
metodologici e degli strumenti offerti dalla ricerca informatica alla realizzazione di SIS,
quanto un'attività di valutazione delle tecnologie, attualmente in particolare degli
strumenti OLAP offerti dal mercato. In crescita sono anche le esperienze di
realizzazione di SIS. Per ciò che riguarda in particolare gli sviluppi dell'esperienza SIUDATA, è attualmente in fase di progettazione una nuova versione del sistema di accesso
ai dati guidato dai metadati, arricchita nelle funzionalità e migliorata nelle interfacce, e
basata su un'analisi e una concettualizzazione più rigorosa degli oggetti trattati e delle
loro modalità di manipolazione. L’obiettivo è sviluppare un sistema di navigazione
guidata dai metadati per SIS multifonte, utilizzabile per l’accesso ad un'ampia classe di
SIS.
L'attenzione alle tematiche più prettamente statistiche connesse alla progettazione di
SIS è relativamente più recente e riguarda per ora la formalizzazione delle tecniche di
linkage e lo studio di approcci all'analisi dei fenomeni basati sull'uso congiunto di fonti
diverse. Lo studio di metodologie a supporto della progettazione di SIS costituisce un
ambito di ricerca ancora relativamente indefinito. Una accresciuta consapevolezza della
centralità di quest'ambito di ricerca e la collaborazione tra ricercatori di diversa
provenienza appaiono indispensabili per garantire un impegno effettivo in questo
campo.
Riferimenti bibliografici
Codd, E. F. (1990) Providing OLAP to user-analysts: an IT mandate, Technical Report,
Codd and Associates
ONU-ECE (1995)- Guidelines for the modelling of Statistical Data and Metadata
Kimball, R. (1996) The data warehouse toolkit, J. Wiley&Sons
M. Jarke, M. Lenzerini, V. Vassiliou, P. Vassiliadis (2000), Fundamentals of Data
Warehouses, Springer
A. Shoshani, (1996) Statistical databases and OLAP: similarities and differences, Proc.
International Conference on on Information ad Knowledge Management
B. Sundgren, (1991) Some properties of statistical information: Pragmatic, Semantic
and Syntactis”, Statistics Sweden