Il software per la statistica ufficiale: dai sistemi proprietari a quelli open source
Il processo di produzione
dell’informazione statistica
e l’opzione open source
Giulio Barcaroli
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Il processo di produzione dell’informazione statistica
e l’opzione open source
1
 All’interno dell’ISTAT da alcuni anni è stata avviata
una riflessione sulle reali possibilità di utilizzo di software
libero all’interno dei processi di produzione
dell’informazione statistica
 All’inizio, si è trattato di un processo spontaneo attuato
in modo non pianificato e diffuso, su iniziativa di ricercatori
ed informatici dell’Istituto
 Negli ultimi tre anni si è cominciato ad investire
con decisione in questa direzione, coordinando i diversi
interventi
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Il processo di produzione dell’informazione statistica
e l’opzione open source
2
La scelta di esplorare soluzioni non proprietarie è stata fatta
tenendo conto dei seguenti obiettivi:
 per ottemperare a direttive e linee-guida (Stanca 2003,
Finanziaria 2007) che investono tutte le pubbliche
amministrazioni;
 per ridurre i costi;
 per garantire maggiormente l’innovazione, permettendo
la rapida acquisizione e la sperimentazione di nuove
soluzioni;
 per partecipare allo sviluppo congiunto di soluzioni
portabili e utilizzabili con altri partner quali:
 altri enti del SISTAN;
 altri Istituti nazionali di statistica all’interno di:
• iniziative di sviluppo congiunto (vedi EUROSTAT);
• progetti di cooperazione internazionale
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
La direttiva Stanca per l’open source (2003)
Analisi comparativa delle soluzioni - Valutazione
comparativa … tenendo conto … della possibilità di poter
sviluppare programmi informatici specifici e del riuso
da parte di altre amministrazione dei programmi informatici
sviluppati ad hoc
Da privilegiare le soluzioni che:
 assicurino l'interoperabilità e la cooperazione applicativa
tra i diversi sistemi informatici della Pubblica
amministrazione;
 rendano i sistemi informatici non dipendenti da un unico
fornitore o da un'unica tecnologia proprietaria;
 garantiscano la disponibilità del codice sorgente;
 esportino dati e documenti in più formati, di cui almeno
uno di tipo aperto
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
La finanziaria 2007
Con la Legge Finanziaria 2007 si dà sostegno ai progetti
Che utilizzano e/o sviluppano applicazioni a codice
sorgente aperto per la Pubblica Amministrazione.
Gli strumenti che il CNIPA mette a disposizione della PA
per contribuire al perseguimento di questi obiettivi consistono
in:
 un ambiente di sviluppo software cooperativo (ASC),
uno strumento completo che permette di collaborare
allo sviluppo di progetti Open Source per le necessità
della Pubblica Amministrazione, nonché di ricercare quali
progetti possono essere più adatti alle particolari
esigenze della propria amministrazione;
 una “vetrina virtuale” che raccoglie le esperienze
delle Pubbliche Amministrazioni italiane nell'uso di software
Open Source (eventualmente insieme a software
proprietario) per le proprie esigenze.
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
I costi in ISTAT per l’acquisto e la manutenzione
di alcuni software
Software (acquisto e manutenzione)
Spesa annua in euro
SAS
ORACLE
BLAISE
Microsoft
ModelEasy
717,288
214,704
163,087
145,515
31,000
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Favorire l’innovazione
 La continua valutazione comparativa di soluzioni
alternative è fondamentale non solo dal punto di vista
dei costi, ma dell’innovazione.
 Sotto questo aspetto, la dipendenza da un fornitore unico
è un fattore estremamente limitante, soprattutto
in un ambiente di ricerca, nel quale la frontiera delle soluzioni
possibili si muove continuamente.
 Un ente di ricerca ha una necessità ancora maggiore
di non essere vincolato dal punto di vista della continua
acquisizione e sperimentazione di soluzioni.
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Concorrere alla produzione globale di software
per la statistica ufficiale
 Proposta EUROSTAT di condivisione dello sviluppo
software nel Sistema Statistico Europeo
 Partecipazione ad iniziative quali quella Adamsoft
 Inserimento nella community di R: sviluppo di package
da condividere con l’intera comunità degli sviluppatori
e degli utenti R
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
La strategia per l’open source all’interno
dell’Istituto Nazionale di Statistica
Utilizzo di strumenti open anziché proprietari
Adozione dell’approccio open per lo sviluppo
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
L’utilizzo di strumenti open
L’ISTAT ha appena concluso un processo di definizione dei
propri standard tecnologici di sviluppo, riguardanti:
 architetture
 sistemi
 linguaggi
In particolare, per ogni macrofase del processo di produzione
dell’informazione statistica, sono stati individuati standard
con l’obiettivo di minimizzare l’utilizzo di software proprietario.
Laddove l’uso di software proprietario sia reso necessario
dall’oggettiva superiorità o dagli investimenti già effettuati,
si è provveduto ad affiancare tecnologie proprietarie
con software non proprietario.
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Gli standard tecnologici di sviluppo
Ambiente di
riferimento
linguaggi
SW generalizzati
Acquisizione
dati
Linux
Windows
Apache-Tomcat
Oracle
MySql
Oracle Developer,
Java, PHP, C
Teleform, DATISTAT,
exFolia, BLAISE,
CsPro, LimeSurvey,
ACTR
Controllo e
correzione
Linux
Windows
Oracle
MySql
Oracle Developer,
Java, PHP, C, R
CONCORD-JAVA,
CANCEIS, DIESIS,
BANFF
Stime e
tabulazioni
Linux
Windows
Oracle
MySql
Java, PHP, C, R
SMOL+ IMPAGINA,
R (SURVEY, EVER),
GENESEES
Diffusione
tradizionale
e web
Linux
Windows
Apache-Tomcat
Oracle
MySql
Oracle Developer,
Java, PHP, C, R
Mu-Argus, TauArgus, SMOL,
Foxtrot.META,
Foxtrot.PD, Web.PD,
Foxtrot.MD, Web.MD,
Sdmx.ISTAT
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Le attività in corso e pianificate
Gli obiettivi sono:
 sviluppo delle nuove applicazioni con tecnologie open;
 eliminazione dai sistemi sviluppati in ISTAT
delle componenti di software proprietario, per garantirne
la portabilità e la fruibilità da parte altri soggetti.
Nel perseguire tali obiettivi, si intende massimizzare il riuso,
favorito dalla disponibilità del codice sorgente.
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Sviluppo di nuove applicazioni con tecnologie open
 appena rilasciato il sistema generalizzato RELAIS
per il record linkage probabilistico, sviluppato in JAVA e R
 in fase di sviluppo nuove versioni di sistemi
generalizzati che coprono il disegno dei campioni
(MAUSS) e il calcolo delle stime campionarie coi relativi
errori (GENESEES), utilizzando R anziché SAS
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Eliminazione dai sistemi sviluppati in ISTAT
da componenti di software proprietario
 software generalizzato ISTAR per la costruzione di web
data warehouse: è in corso di completamento, grazie
ad un progetto di cooperazione, una versione del toolkit
che sostituisce le componenti DBMS Oracle e Oracle
Developer, rispettivamente con MySql e Java
 software generalizzato CONCORD per il controllo
e la correzione degli errori: è in fase di rilascio la versione
con interfaccia Java anziché SAS/AF portabile
in qualsiasi ambiente Linux o Windows
 software generalizzato DIESIS per il controllo
e la correzione degli errori in variabili sia categoriche
che continue: tale software fa uso di CPLEX, in corso
di sostituzione con equivalente strumento open
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Le potenzialità dell’open source:
massimizzazione del riuso
Caso del software generalizzato per la produzione
delle stime campionarie (calibrazione e calcolo varianza).
In corso il progetto di sviluppo di GENESEES-R,
dove le funzionalità saranno così ottenute:
 package “survey” di R per la calibrazione;
 package “survey” modificata per il calcolo analitico
della varianza campionaria;
 package “ever” sviluppata ex-novo in ISTAT
per il calcolo della varianza campionaria col metodo
dei campioni replicati (per stimatori di qualsivoglia
complessità).
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
L’adozione dell’approccio open
La rivoluzione indotta dall’open source è nell’adozione
di una logica cooperativa di sviluppo, propria dei metodi
di produzione dei sistemi aperti.
La coppia “ambiente di sviluppo cooperativo” e “vetrina
virtuale” è alla base di un tale approccio.
Esempi CNIPA:
http://www.osspa.cnipa.it/home/
ed R:
http://cran.r-project.org/
http://www.rforge.net/
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Un ambiente per lo sviluppo open in ISTAT
Per favorire l’adozione della modalità aperta di sviluppo,
occorre individuare analoghi strumenti all’interno
dell’Istituto.
La “vetrina” può essere costituita da due elementi già
disponibili o in corso di completamento:
 l’Osservatorio Tecnologico del Software (software
generalizzato);
 il Catalogo Applicazioni (applicazioni riutilizzabili).
L’ambiente per lo sviluppo cooperativo deve invece essere
allestito. Dovrà garantire:
 gestione delle release e delle relative documentazioni;
 repository e versioning del codice sorgente;
 gestione dei task;
 gestione news e forum
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Le modalità di sviluppo e utilizzo del software:
scenario con software proprietario
Le tecnologie e gli strumenti sono quelli messi
a disposizione dal fornitore di software proprietario.
 Le informazioni sull’evoluzione dell’offerta sono date
dai commerciali e dai siti-vetrina.
 L’evoluzione può essere orientata a logiche differenti
da quelle dell’utente.
 Esiste una spinta esterna ad adottare determinate
soluzioni.
 Le soluzioni innovative spesso non sono a costo zero.
 Le soluzioni innovative non sempre sono
immediatamente reperibili e sperimentabili (logica
del trial con scadenza prefissata).
 Le procedure vengono realizzate con strumenti di cui
non è disponibile il sorgente.
 Le procedure realizzate non sempre sono portabili
all’esterno.
Roma, 4 marzo 2008
Il processo
di produzione
dell’informazione
statistica e l’opzione
open source
Le modalità di sviluppo e utilizzo del software:
scenario con software open
Le tecnologie e gli strumenti sono quelli messi
a disposizione dalle comunità di sviluppatori.
 Le informazioni sull’evoluzione dell’offerta sono
disponibili in rete.
 Si scelgono gli strumenti la cui evoluzione è in linea
con quella dell’utente.
 La convenienza dell’utente è l’unica motivazione
ad adottare una soluzione
 Il costo di acquisizione è nullo.
 Le soluzioni innovative sono immediatamente reperibili
e sperimentabili da rete.
 Le procedure vengono realizzate con strumenti di cui
è disponibile il sorgente, all’occorrenza modificabile.
 Le procedure realizzate sono sempre portabili,
per definizione
Roma, 4 marzo 2008
Titolo del convegno
anche suIlpiù
righe
processo
anche su più righe
di produzione
dell’informazione
statistica e l’opzione
open source
Conclusioni
Necessità di un percorso condiviso che trasformi
l’ambiente di produzione del software per i processi
di produzione e le sue modalità di fruizione da parte
degli utenti (informatici e statistici)
Investimenti in formazione e trasformazione del modo
di lavorare
Da clienti nel mercato a comunità scientifica
Roma, 4 marzo 2008