BUSINESS INTELLIGENCE: PRESENTE E FUTURO Le informazioni e i dati costituiscono una importante risorsa per ogni organizzazione. La business intelligence è l’insieme delle metodologie e tecnologie che permet- Paolo Atzeni [email protected] alle decisioni. Nonostante l’apparente maturità, questa Dipartimento di Informatica e Automazione, Università Roma Tre area di studio e ricerca è in continua espansione ed evoluzione, anche grazie allo sviluppo delle reti e di altre tecnologie. Le prime applicazioni informatiche furono sviluppate, cinquant’anni fa, per automatizzare processi ripetitivi. In questo contesto emersero presto l’esigenza e l’opportunità di utilizzare i dati raccolti e mantenuti da queste applicazioni a supporto del processo decisionale. Negli anni l’evoluzione è stata continua e ha portato alla business intelligence, termine con cui si indicano le metodologie e tecnologie che permettono ad amministratori, dirigenti e analisti di valorizzare il patrimonio informativo. Un modo semplice per schematizzare le attività di business intelligence è quello mostrato nella Figura 1: il supporto al processo decisionale viene svolto attraverso strumenti di vario tipo, che gestiscono attività di interrogazione, analisi e mining, su dati contenuti nel cosiddetto Data Warehouse, che è una base di dati integrata, con dati provenienti da fonti diverse, tanto interne quanto esterne all’organizzazione. Il Data Warehouse è, quasi sempre e per varie ragioni, una base di dati separata rispetto a quelle primarie, che contengono i dati operativi. In primo luogo essa è quasi sempre integrata, cioè fa riferimento a vari processi gestionali, ognuno dei quali, di solito, è gestito separatamente dagli altri. Poi, le esigenze di prestazione e di organizzazione dei dati sono spesso contrastanti con quelle dei processi gestionali: questi ultimi eseguono, di solito, molte piccole operazioni nell’unità di tempo, con esigenza di scrittura affidabile; mentre nel processo decisionale interessano poche operazioni, molto complesse, ma di sola lettura. Per questo motivo, da alcuni decenni si tende a sottolineare, nel settore delle basi di dati, l’esistenza di due grandi famiglie di applicazioni: quelle OLTP (On-Line Transaction Processing), volte a gestire i processi operativi, e quelle OLAP (On-Line Analytical Processing), volte a supportare i processi di analisi e supporto alle decisioni. Sorgenti esterne Basi di dati operazionali Sorgenti dei dati Fig. 1 Un semplice processo di business intelligence. Data Warehouse Analisi dimensionale Data mining Strumenti di analisi ANNUAL REPORT tono di valorizzare questa risorsa ai fini del supporto CASPUR 2012 Originariamente, le soluzioni proposte sono state molto rigide, con un significativo disaccoppiamento fra i vari processi, con la duplice conseguenza di limitare la disponibilità degli strumenti di analisi ai soli vertici aziendali e di fornire loro la possibilità di operare su dati non sempre sufficientemente attuali e solo su sottoinsiemi dei dati di reale interesse. Negli ultimi anni, il settore ha continuato a svilupparsi, sulla spinta tanto delle esigenze insoddisfatte quanto delle nuove opportunità stimolate dall’evoluzione tecnologica, sia specifica sia di altri settori. Un primo fenomeno, continuo nel tempo, ma sempre più rilevante, è costituito dalla possibilità di acquisire dati in modo sempre più massiccio ed economico, anche in forma automatica e attraverso vari dispositivi: ai dati rilevati attraverso le tradizionali applicazioni informatiche, quali quelli bancari o di vendita, si affiancano quelli ottenuti in altro modo, ad esempio relativi alle etichette RFID, ai log dei siti web o ai sensori GPS degli autoveicoli. La crescita delle dimensioni dei dati da gestire porta a nuove sfide, che si cerca di affrontare con architetture parallele sempre più sofisticate e scalabili, sia di tipo generale, sia dedicato (chiamate talvolta data warehouse appliance), e anche con approcci nuovi, quali il paradigma Map-Reduce o le piattaforme di Cloud Computing. Un’altra importante direzione di attenzione è quella relativa alle applicazioni di interesse e agli utenti. Nelle aziende moderne, le responsabilità decisionali sono sempre più distribuite e richiedono tempestività. Di conseguenza, si sta dedicando attenzione specifica alla possibilità di realizzare sistemi che operino in tempo reale o quasi (near real-time Business Intelligence), ad esempio attraverso l’analisi di eventi che possono risultare di interesse, in applicazioni di monitoraggio o di gestione della sicurezza, così come per il supporto alle decisioni nel mondo finanziario, dove le variazioni sono continue. Analogamente, si cerca di realizzare applicazioni più leggere e flessibili, che possano essere utilizzate anche da decisori collocati nella gerarchia aziendale a livelli intermedi o addirittura bassi, permettendo ad esempio a un impiegato allo sportello o a un addetto alla relazione con la clientela di avere informazioni integrate e aggiornate in relazione a una determinata problematica. In questa direzione vanno anche iniziative volte a sviluppare applicazioni mobili, che presentano ovviamente esigenze specifiche per i limiti imposti dai dispositivi e dalla larghezza di banda disponibile. È interessante segnalare che, essendo ormai accettata l’importanza (e la possibilità di gestire) informazioni di natura diversa, non solo strutturata ma anche semi-strutturata e testuale, anche le applicazioni di supporto alle decisioni cominciano a prendere in considerazione la necessità di ampliare il proprio spettro di dati da gestire. Di conseguenza, anche le tecniche di ricerca di informazioni vengono prese in considerazione nel contesto della business intelligence, con lo sviluppo di soluzioni di Enterprise Search, che cercano di supportare l’utente nella ricerca e correlazione di informazioni di varia natura, anche integrando documenti (ad esempio archivi di posta elettronica) e dati più tradizionali. Prima di concludere, è utile una riflessione di natura generale. Uno dei problemi fondamentali della business intelligence è costituito dalla necessità di disporre di informazioni corrette e tempestive e di comprendere efficacemente il significato che esse hanno nei vari contesti e, di conseguenza, dalla possibilità di effettuare correlazioni sensate. La maggiore disponibilità ed economicità di risorse di memoria e di calcolo contribuisce solo in parte a risolvere questo problema, anzi rischia di accentuarlo, perché i dati sono sempre più variegati (aumentano quindi le possibilità di fraintendimento) e i relativi volumi sempre maggiori (rendono dunque impossibili verifiche e certificazioni manuali). È quindi cruciale affrontare le problematiche di qualità dei dati, con approcci sistematici, in cui il processo di produzione sia controllato, limitando le esigenze di intervento umano. Tematica correlata è il riconoscimento dell’identità degli oggetti (entity recognition), al fine di distinguere informazioni provenienti da fonti diverse. Ancora più significative infine sono le problematiche di integrazione e trasformazione dei dati, 62 studiate nella letteratura scientifica da decenni, con contributi certamente interessanti ma ancora molti problemi aperti a livello attuativo. Con tutti questi contributi e tante opportunità e problemi aperti, l’area della business intelligence continua a meritare l’interesse tanto nel mondo della ricerca quanto nel mercato dell’IT. ANNUAL REPORT BIBLIOGRAFIA ESSENZIALE Atzeni, P., Ceri, S., Fraternali, P., Paraboschi, S., Torlone, R. (2007). Basi di dati: Architetture e linee di evoluzione, seconda edizione. McGraw-Hill Italia. Bernstein, P.A., Haas, L.M. (2008). Information integration in the enterprise. Comm. ACM 51(9): 72-79. Chaudhuri, S., Dayal, U., Narasayya, V.R. (2011). An overview of business intelligence technology. Comm. ACM 54(8): 88-98. Kimball, R. (2008). The Data Warehouse Lifecycle Toolkit, 2nd Edition: Practical Techniques for Building Data Warehouse and Business Intelligence Systems, John Wiley & Sons. 63