Kirey Re.Search 2.0 Piattaforma di ricerca Open Source Le esigenze Quando si parla di motori di ricerca si tende a pensare istintivamente solo a quelli utilizzati per effettuare ricerche in Internet, come ad esempio Google. Sempre più spesso però anche all’interno delle aziende, si sente la necessita di reperire velocemente e facilmente le informazioni. Ed in quest’ottica sono state sviluppati nel tempo algoritmi che consentono di scegliere, da una collezione di dati quelle utili o di interesse, in relazione ad una specifica esigenza informativa. Il recupero delle informazioni (comprese parole all'interno di documenti e messaggi di posta) deve essere possibile su dati e sui file di ogni tipo, posizionati sui dischi condivisi dei server, sui database o sui repository centralizzati come SharePoint, Documentum, FileNet etc.etc. Questo consente un controllo completo di tutta la documentazione aziendale. La soluzione Kirey Nell’ambito delle soluzioni di Information Retrieval (IR)1, in grado di rispondere al meglio ai criteri di “scalabilità”, ovvero di poter garantire la loro efficienza e funzionalità al crescere della base dati dei documenti ricercabili, e di “robustezza”, ovvero di poter essere applicate anche in condizioni di intenso utilizzo, si è deciso di adottare Lucene 2, software open-source3 interamente sviluppato nel linguaggio di programmazione Java dalla Apache Software Foundation (ASF)4. Per potere utilizzare al meglio Lucene, la stessa comunità dell’ASF ha sviluppato un enterprise search server, denominato SOLR 5, anch’esso open source, che fornisce allo sviluppatore e all’amministratore del sistema un’agile interfaccia web per la gestione e la configurazione. Tramite una semplice ed intuitiva interfaccia web, l’utente può interrogare tutto il patrimonio informativo aziendale , indicizzato all’interno di SOLR, ed ottenere informazioni e documenti collegati anche in maniera semantica a quanto ricercato. La ricerca può avvenire semplicemente inserendo dei termini da rintracciare oppure dei parametri più selettivi (autore, area, tipo documento, etc. etc.). 1 Con il termine Information Retrieval (IR) si intende l’insieme delle tecniche utilizzate per il recupero mirato di informazioni in formato elettronico 2 Rif. http://lucene.apache.org/. 3 Open-source è un termine utilizzato per indicare una tipologia di software non soggetto a policy d’uso di tipo commerciale e, soprattutto,di cui è distribuito in chiaro il codice sorgente 4 L’ASF (http://www.apache.org) è una fondazione non-profit formata da una comunità distribuita di sviluppatori che lavorano su progetti di software open source per applicazioni WEB. 5 Rif. http://lucene.apache.org/solr/ Kirey Pagina 2 Caratteristiche tecniche Per il suo funzionamento, SOLR necessita di un Java servlet container6: è possibile utilizzare Tomcat, JBoss, WebSphere. E’ compatibile con i seguenti Sistemi Operativi: Windows, Linux, Solaris Unix, Mac OS. Si integra con tutti i maggiori database, Oracle, SQL Server, MySql. Può essere implementato all’interno dei maggiori CMS: Alfresco, Drupal, Joomla. Consente integrazioni con soluzioni Java, .NET, PHP, Ruby. Espone le sue funzionalità via REST API. Gestisce i seguenti formati di file: PDF, Office (Excel, Word, PowerPoint, Visio, Outlook, RTF), OpenDocument (OpenOffice suite), audio (MP3, MIDI, Wave), image, zip (zip, gzip, bzip2, tar, jar), text, XML, Html Consente la ricerca full-text, l’evidenziazione dei risultati, l'organizzazione a faccette (o multidimensionale) dei risultati7. Referenze Lucene viene utilizzato tra gli altri da AOL, Apple, IBM, LinkedIn, Netflix, Wikipedia, The White House, MTV, MySpace, NASA, Nike, Technorati, Twitter. In campo giornalistico, da The Guardian, News.com e La Repubblica. In ambito bibliotecario, Los Alamos Research Library (10 milioni di documenti digitali), la Biblioteca Nazionale Firenze (2 milioni di documenti digitali) e l’Emeroteca virtuale (8 milioni di articoli). 6 Lo Java Servlet Container è un server java utilizzato per lo sviluppo di siti web con contenuto dinamico 7 Tipicamente, i documenti da gestire sono semi-strutturati, ovvero contenenti una parte di testo non strutturato e una parte di attributi strutturati, detti anche metadati. Se la parte strutturata di un documento è stata progettata per essere conforme a un sistema di classificazione a faccette, allora è possibile combinare la ricerca testuale, applicata alla parte non strutturata del documento, con la navigazione a faccette sui metadati. Kirey Pagina 3 Estensioni SIREn Semantic Information Retrieval Engine Grazie a questo plugin, è possibile effettuare una ricerca di tipo semantico sui dati. Le facet gerarchiche associate agli argomenti indicizzati in Solr infatti sono collegate direttamente alle categorie concettuali espresse nel tesauro. I tesauri possono essere creati ad hoc piuttosto che sfruttare repository esistenti . Manifold CF Connector Framework Attraverso dei “crowler” è possibile connettersi ai maggiori repository documentali (FileNet, Documentum, SherePoint), controllando in maniera automatica ogni variazione ai documenti contenuti e garantendo a livello di sicurezza un filtro sulle informazioni. Kirey Pagina 4 Architettura Front End di ricerca Kirey Pagina 5 Application server Operating System Kirey Pagina 6 API Database Kirey Pagina 7 Reporitory Connector CMS Integration Kirey Pagina 8 KIREY via B. Crespi 57, Milano 20159 telefono: +39 02 78625200 e-mail: [email protected] © 2010 Kirey srl - All rights reserved. Kirey Pagina 9