Il software per la statistica ufficiale: dai sistemi proprietari a quelli open source Il processo di produzione dell’informazione statistica e l’opzione open source Giulio Barcaroli Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Il processo di produzione dell’informazione statistica e l’opzione open source 1 All’interno dell’ISTAT da alcuni anni è stata avviata una riflessione sulle reali possibilità di utilizzo di software libero all’interno dei processi di produzione dell’informazione statistica All’inizio, si è trattato di un processo spontaneo attuato in modo non pianificato e diffuso, su iniziativa di ricercatori ed informatici dell’Istituto Negli ultimi tre anni si è cominciato ad investire con decisione in questa direzione, coordinando i diversi interventi Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Il processo di produzione dell’informazione statistica e l’opzione open source 2 La scelta di esplorare soluzioni non proprietarie è stata fatta tenendo conto dei seguenti obiettivi: per ottemperare a direttive e linee-guida (Stanca 2003, Finanziaria 2007) che investono tutte le pubbliche amministrazioni; per ridurre i costi; per garantire maggiormente l’innovazione, permettendo la rapida acquisizione e la sperimentazione di nuove soluzioni; per partecipare allo sviluppo congiunto di soluzioni portabili e utilizzabili con altri partner quali: altri enti del SISTAN; altri Istituti nazionali di statistica all’interno di: • iniziative di sviluppo congiunto (vedi EUROSTAT); • progetti di cooperazione internazionale Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source La direttiva Stanca per l’open source (2003) Analisi comparativa delle soluzioni - Valutazione comparativa … tenendo conto … della possibilità di poter sviluppare programmi informatici specifici e del riuso da parte di altre amministrazione dei programmi informatici sviluppati ad hoc Da privilegiare le soluzioni che: assicurino l'interoperabilità e la cooperazione applicativa tra i diversi sistemi informatici della Pubblica amministrazione; rendano i sistemi informatici non dipendenti da un unico fornitore o da un'unica tecnologia proprietaria; garantiscano la disponibilità del codice sorgente; esportino dati e documenti in più formati, di cui almeno uno di tipo aperto Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source La finanziaria 2007 Con la Legge Finanziaria 2007 si dà sostegno ai progetti Che utilizzano e/o sviluppano applicazioni a codice sorgente aperto per la Pubblica Amministrazione. Gli strumenti che il CNIPA mette a disposizione della PA per contribuire al perseguimento di questi obiettivi consistono in: un ambiente di sviluppo software cooperativo (ASC), uno strumento completo che permette di collaborare allo sviluppo di progetti Open Source per le necessità della Pubblica Amministrazione, nonché di ricercare quali progetti possono essere più adatti alle particolari esigenze della propria amministrazione; una “vetrina virtuale” che raccoglie le esperienze delle Pubbliche Amministrazioni italiane nell'uso di software Open Source (eventualmente insieme a software proprietario) per le proprie esigenze. Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source I costi in ISTAT per l’acquisto e la manutenzione di alcuni software Software (acquisto e manutenzione) Spesa annua in euro SAS ORACLE BLAISE Microsoft ModelEasy 717,288 214,704 163,087 145,515 31,000 Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Favorire l’innovazione La continua valutazione comparativa di soluzioni alternative è fondamentale non solo dal punto di vista dei costi, ma dell’innovazione. Sotto questo aspetto, la dipendenza da un fornitore unico è un fattore estremamente limitante, soprattutto in un ambiente di ricerca, nel quale la frontiera delle soluzioni possibili si muove continuamente. Un ente di ricerca ha una necessità ancora maggiore di non essere vincolato dal punto di vista della continua acquisizione e sperimentazione di soluzioni. Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Concorrere alla produzione globale di software per la statistica ufficiale Proposta EUROSTAT di condivisione dello sviluppo software nel Sistema Statistico Europeo Partecipazione ad iniziative quali quella Adamsoft Inserimento nella community di R: sviluppo di package da condividere con l’intera comunità degli sviluppatori e degli utenti R Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source La strategia per l’open source all’interno dell’Istituto Nazionale di Statistica Utilizzo di strumenti open anziché proprietari Adozione dell’approccio open per lo sviluppo Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source L’utilizzo di strumenti open L’ISTAT ha appena concluso un processo di definizione dei propri standard tecnologici di sviluppo, riguardanti: architetture sistemi linguaggi In particolare, per ogni macrofase del processo di produzione dell’informazione statistica, sono stati individuati standard con l’obiettivo di minimizzare l’utilizzo di software proprietario. Laddove l’uso di software proprietario sia reso necessario dall’oggettiva superiorità o dagli investimenti già effettuati, si è provveduto ad affiancare tecnologie proprietarie con software non proprietario. Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Gli standard tecnologici di sviluppo Ambiente di riferimento linguaggi SW generalizzati Acquisizione dati Linux Windows Apache-Tomcat Oracle MySql Oracle Developer, Java, PHP, C Teleform, DATISTAT, exFolia, BLAISE, CsPro, LimeSurvey, ACTR Controllo e correzione Linux Windows Oracle MySql Oracle Developer, Java, PHP, C, R CONCORD-JAVA, CANCEIS, DIESIS, BANFF Stime e tabulazioni Linux Windows Oracle MySql Java, PHP, C, R SMOL+ IMPAGINA, R (SURVEY, EVER), GENESEES Diffusione tradizionale e web Linux Windows Apache-Tomcat Oracle MySql Oracle Developer, Java, PHP, C, R Mu-Argus, TauArgus, SMOL, Foxtrot.META, Foxtrot.PD, Web.PD, Foxtrot.MD, Web.MD, Sdmx.ISTAT Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Le attività in corso e pianificate Gli obiettivi sono: sviluppo delle nuove applicazioni con tecnologie open; eliminazione dai sistemi sviluppati in ISTAT delle componenti di software proprietario, per garantirne la portabilità e la fruibilità da parte altri soggetti. Nel perseguire tali obiettivi, si intende massimizzare il riuso, favorito dalla disponibilità del codice sorgente. Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Sviluppo di nuove applicazioni con tecnologie open appena rilasciato il sistema generalizzato RELAIS per il record linkage probabilistico, sviluppato in JAVA e R in fase di sviluppo nuove versioni di sistemi generalizzati che coprono il disegno dei campioni (MAUSS) e il calcolo delle stime campionarie coi relativi errori (GENESEES), utilizzando R anziché SAS Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Eliminazione dai sistemi sviluppati in ISTAT da componenti di software proprietario software generalizzato ISTAR per la costruzione di web data warehouse: è in corso di completamento, grazie ad un progetto di cooperazione, una versione del toolkit che sostituisce le componenti DBMS Oracle e Oracle Developer, rispettivamente con MySql e Java software generalizzato CONCORD per il controllo e la correzione degli errori: è in fase di rilascio la versione con interfaccia Java anziché SAS/AF portabile in qualsiasi ambiente Linux o Windows software generalizzato DIESIS per il controllo e la correzione degli errori in variabili sia categoriche che continue: tale software fa uso di CPLEX, in corso di sostituzione con equivalente strumento open Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Le potenzialità dell’open source: massimizzazione del riuso Caso del software generalizzato per la produzione delle stime campionarie (calibrazione e calcolo varianza). In corso il progetto di sviluppo di GENESEES-R, dove le funzionalità saranno così ottenute: package “survey” di R per la calibrazione; package “survey” modificata per il calcolo analitico della varianza campionaria; package “ever” sviluppata ex-novo in ISTAT per il calcolo della varianza campionaria col metodo dei campioni replicati (per stimatori di qualsivoglia complessità). Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source L’adozione dell’approccio open La rivoluzione indotta dall’open source è nell’adozione di una logica cooperativa di sviluppo, propria dei metodi di produzione dei sistemi aperti. La coppia “ambiente di sviluppo cooperativo” e “vetrina virtuale” è alla base di un tale approccio. Esempi CNIPA: http://www.osspa.cnipa.it/home/ ed R: http://cran.r-project.org/ http://www.rforge.net/ Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Un ambiente per lo sviluppo open in ISTAT Per favorire l’adozione della modalità aperta di sviluppo, occorre individuare analoghi strumenti all’interno dell’Istituto. La “vetrina” può essere costituita da due elementi già disponibili o in corso di completamento: l’Osservatorio Tecnologico del Software (software generalizzato); il Catalogo Applicazioni (applicazioni riutilizzabili). L’ambiente per lo sviluppo cooperativo deve invece essere allestito. Dovrà garantire: gestione delle release e delle relative documentazioni; repository e versioning del codice sorgente; gestione dei task; gestione news e forum Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Le modalità di sviluppo e utilizzo del software: scenario con software proprietario Le tecnologie e gli strumenti sono quelli messi a disposizione dal fornitore di software proprietario. Le informazioni sull’evoluzione dell’offerta sono date dai commerciali e dai siti-vetrina. L’evoluzione può essere orientata a logiche differenti da quelle dell’utente. Esiste una spinta esterna ad adottare determinate soluzioni. Le soluzioni innovative spesso non sono a costo zero. Le soluzioni innovative non sempre sono immediatamente reperibili e sperimentabili (logica del trial con scadenza prefissata). Le procedure vengono realizzate con strumenti di cui non è disponibile il sorgente. Le procedure realizzate non sempre sono portabili all’esterno. Roma, 4 marzo 2008 Il processo di produzione dell’informazione statistica e l’opzione open source Le modalità di sviluppo e utilizzo del software: scenario con software open Le tecnologie e gli strumenti sono quelli messi a disposizione dalle comunità di sviluppatori. Le informazioni sull’evoluzione dell’offerta sono disponibili in rete. Si scelgono gli strumenti la cui evoluzione è in linea con quella dell’utente. La convenienza dell’utente è l’unica motivazione ad adottare una soluzione Il costo di acquisizione è nullo. Le soluzioni innovative sono immediatamente reperibili e sperimentabili da rete. Le procedure vengono realizzate con strumenti di cui è disponibile il sorgente, all’occorrenza modificabile. Le procedure realizzate sono sempre portabili, per definizione Roma, 4 marzo 2008 Titolo del convegno anche suIlpiù righe processo anche su più righe di produzione dell’informazione statistica e l’opzione open source Conclusioni Necessità di un percorso condiviso che trasformi l’ambiente di produzione del software per i processi di produzione e le sue modalità di fruizione da parte degli utenti (informatici e statistici) Investimenti in formazione e trasformazione del modo di lavorare Da clienti nel mercato a comunità scientifica Roma, 4 marzo 2008